Meta psevdo teglar Hieu Pham, Zihang Dai, Qizhe Xie, Minh-Thang Luong, Quoc V. Le

Download 307,03 Kb.

bet	2/2
Sana	01.04.2022
Hajmi	307,03 Kb.
	#523139

1 2

Bog'liq
2003.10580v4 (6)

Partiya hajmi	1024	128
2048
Tashlab ketish darajasi	0.4	0,5	0.2

Pseudo yorliq chegarasi	0,95	0,975	0,7

6-jadval: Nazorat ostidagi o'rganish va Pseudo labels uchun giperparametrlar.

Giper-parametr	CIFAR-10	SVHN	ImageNet

Og'irlikning pasayishi	0,0005	0,0005	0,0002
Yorliqlarni tekislash	0	0	0.1
To'plamni normallashtirishning buzilishi	0,99	0,99	0,99
O'rganish darajasi	0.3	0.4	1.28
Trening bosqichlari soni	1 000 000	1 000 000	500 000
Isitish bosqichlari soni	5000	5000	5000
Partiya hajmi	128	128	2048
Tashlab ketish darajasi	0,5	0,6	0,25
UDA omili	2.5	1	20
UDA harorati	0,7	0,8	0,7

7-jadval: UDA uchun giperparametrlar. Dastlab UDA qog'ozi [ 76 ] tomonidan qilinganidan farqli o'laroq, biz UDA maqsadi uchun kattaroq partiya hajmidan foydalanmaymiz. Buning o'rniga biz belgilangan maqsad va yorliqsiz maqsad uchun bir xil partiya hajmidan foydalanamiz. Bu etiketlangan maqsad uchun ba'zi kichik partiyalar hajmini bizning hisoblash uskunamizda bo'linib bo'lmaydigan holatlardan qochish uchun.

	Giper-parametr	CIFAR-10	SVHN	ImageNet

	Og'irlikning pasayishi	0,0005	0,0005	0,0002
	Yorliqlarni tekislash	0.1	0.1	0.1
Umumiy	To'plamni normallashtirishning buzilishi	0,99	0,99	0,99
	Trening bosqichlari soni	1 000 000	1 000 000	500 000
	Isitish bosqichlari soni	2000	2000	1000

	O'rganish darajasi	0.3	0,15	0,8
Talaba	Partiya hajmi	128	128	2048
	Tashlab ketish darajasi	0,35	0,45	0.1

	O'rganish darajasi	0,125	0,05	0,5
	Partiya hajmi	128	128	2048
O'qituvchi	Tashlab ketish darajasi	0,5	0,65	0.1
	UDA omili	1.0	2.5	16.0
	UDA harorati	0,8	1.25	0,75

8-jadval: Meta psevdo teglar uchun giperparametrlar.

D. Meta Pseudo Label xatti-harakatlarining batafsil tahlili

3 -bo'limda ko'rdik va 4 -bo'lim Meta Pseudo Labels bir nechta tasvir tasniflash mezonlarida kuchli ishlashga olib keladi. Ushbu bo'limda biz Meta Pseudo Labels xatti-harakatlari haqida yaxshiroq ma'lumot olish uchun ko'proq cheklangan va boshqariladigan muhitlar bo'yicha Meta Pseudo Labels va tegishli asosiy ko'rsatkichlarni qo'shimcha tahlil qilamiz.

D.1. Meta psevdo teglarning hissalarini vizualizatsiya qilish

Meta Pseudo Labels (MPL) ning hissalarini tushunish uchun 3 -rasmda biz ImageNet-10% da turli usullarning nisbiy yutuqlarini tasavvur qilamiz ( 3.2 -bo'lim ). Rasmdan biz ikkita kuzatuvga egamiz. Birinchidan, sof nazorat ostidagi o'qituvchi uchun Meta Pseudo Labels RandAugment-dan ustundir. Biz buni Meta Pseudo Labels talaba uchun tartibga solishning yanada samarali shakli ekanligidan shubhalanamiz. Bu ImageNet-10% uchun juda muhim, bunda bizda 1000 ta sinfning har biri uchun har bir sinf uchun atigi 128 ta rasm mavjud. Ikkinchidan, UDA Supervised+MPL+Finetune’ga nisbatan 6,05% ga yaxshilanadi. Bu UDA+MPL 5,25% ni tashkil etadigan UDA dan yuqori bo'lgan daromad bilan bir xil to'p maydonchasida. UDA ning aniqligi allaqachon yuqori bo'lganligi sababli, bunday yaxshilanish juda muhim. Nihoyat, nozik sozlash UDA+MPLga nisbatan biroz yaxshilanadi. Ushbu qo'shimcha samaradorlikni oshirish Meta Pseudo Labelsning o'ziga xos afzalligi hisoblanadi, chunki talaba hech qachon etiketlangan ma'lumotlardan to'g'ridan-to'g'ri o'rganmaydi.

D.2. Meta Pseudo Labels - bu samarali tartibga solish strategiyasi

Ushbu maqolaning qolgan qismida yarim nazorat ostidagi o'rganish usuli sifatida Meta Pseudo Labels qo'llaniladi. Ushbu bo'limda biz Meta Pseudo Labels nazorat ostida o'rganish uchun samarali tartibga solish usuli kabi harakat qilishini ko'rsatamiz. Ushbu xatti-harakatga erishish mumkin

3-rasm: Meta Pseudo Labels (MPL) dagi turli komponentlarning yutuqlarini taqsimlash. Meta Pseudo Labels ning UDA ga nisbatan ortishi, garchi UDA ning RandAugmentga nisbatan oshganidan kichikroq bo'lsa ham, ahamiyatli, chunki UDA allaqachon juda kuchli.

1 -rasmdagi etiketlanmagan ma'lumotlar bilan bir xil qilish . Bunday holda, Meta Pseudo Labels yorliqlarni tekislashning moslashuvchan shakli sifatida ko'rish mumkin: o'qituvchi talaba uchun yorliqli ma'lumotlarda yumshoq yorliqlarni yaratadi, xuddi Label Smoothing modelni tartibga solish uchun qattiq yorliqlarni tekislashi kabi. Asosiy farq shundaki, Label Smoothing siyosati oʻzgarmasdir, Meta Pseudo Labelsʼdagi oʻqituvchining siyosati esa talaba samaradorligini oshirishga moslashgan.

Meta Pseudo Labels ta'sirini tasdiqlash uchun biz usulni CIFAR-10-4K va SVHN-1K da Supervised Learning va Label Smoothing bilan solishtiramiz. Barcha modellar va sozlamalar 3.2 -bo'limdagi bilan bir xil , faqat biz RandAugment-dan foydalanmaymiz va biz yorliqlanmagan ma'lumotlarni bir xil etiketli ma'lumotlar to'plami bilan cheklaymiz. Ushbu tajriba uchun biz CIFAR-10-4K va SVHN-1K ni tanlaymiz, chunki Label Smoothing odatda ImageNet modellarida allaqachon qo'llaniladi. Natijalar 9 -jadvalda keltirilgan . Jadvaldan ko'rinib turibdiki, Meta Pseudo Labels CIFAR-10-4K da 83,71% va SVHN-1K da 91,89% ga erishadi. Bularning ikkalasi ham Yorliqlarni tekislash bilan va unsiz nazorat ostida oʻrganish natijasida olingan aniqlikdan ancha yaxshi. Bu Meta Pseudo Labels-da fikr-mulohazalarning muhimligini ko'rsatadi.

CIFAR-10-4K SVHN-1K

Nazorat qilingan	82,14 0,25	88,17 0,47
Yorliqlarni tekislash	82,21 0,18	89,39 0,25
Meta psevdo teglar	83,71 0,21	91,89 0,14

9-jadval: Meta Pseudo Labels nazorat ostida o'rganish uchun tartibga solish usuli sifatida ishlatilishi mumkin.

D.3. Meta psevdo yorliqlari - bu soxta teglarning tasdiqlash tarafkashligini bartaraf etish mexanizmi

Ushbu bo'limda biz Meta Pseudo Labels o'qituvchining Pseudo Labelsdagi tasdiqlovchi tarafkashligini [ 2 ] hal qilishga yordam beradigan empirik dalillarni ko'rsatamiz. Shu maqsadda biz 3.2 -bo'limda CIFAR-10-4K va ImageNet-10% uchun o'tkazgan tajribalarimizdan Meta Pseudo Labels da o'qituvchi va talabaning o'qitishning aniqligini tahlil qilamiz . 4 -rasmda biz Meta Pseudo Labels-da o'qituvchi va talabaning o'quv jarayoni davomida har bir o'quv partiyasidagi aniqlik foizini chizamiz. Biz xuddi shu ma'lumotlarni boshqariladigan model uchun ham chizamiz. Rasmdan biz ikkita kuzatuvga egamiz:

CIFAR-10-4K da ( 4 -rasm - Chapda) talabaning Meta Pseudo Labels bo'yicha o'qitish aniqligi Nazorat ostidagi o'rganishdagi bir xil tarmoqdan ancha past. CIFAR-10-4Kda juda kam yorliqli maʼlumotlar mavjud boʻlsa, agar oʻqituvchi nazorat ostidagi taʼlimdagi kabi tez birlashsa, u yorliqsiz maʼlumotlarga umumlashtirilmaydi va shuning uchun talabaga notoʻgʻri soxta yorliqlarni oʻrgatadi. Bundan farqli o'laroq, 4 -chap- rasmda Meta Pseudo Labels-dagi o'qituvchi va talaba ancha sekinroq birlashishini ko'rsatadi. Buni ko'rish uchun shuni yodda tutingki, Meta Pseudo Labels-da talabaning mashg'ulot aniqligi o'qituvchining pseudo yorliqlariga qanchalik mos kelishi bilan o'lchanadi. Shu sababli, Meta Pseudo Labels-dagi talabaning o'qitish aniqligi pastroq bo'lishi, talaba ko'pincha o'qituvchi namunalari bo'lgan soxta teglar bilan rozi bo'lmasligini anglatadi. Bu kelishmovchilik o'qituvchini yaxshi psevdo yorliqlarni yaratish uchun o'z vaznlarini doimiy ravishda yangilashga majbur qiladi va talabaning birlashishini qiyinlashtiradi, chunki talaba o'qituvchining o'zgaruvchan psevdo yorliqlaridan o'rganishi kerak. Bu xatti-harakat o'qituvchi va o'quvchini nazorat ostidagi o'rganish va psevdo yorliqlarda tasdiqlovchi noto'g'riligiga sabab bo'ladigan muddatidan oldin konvergentsiyadan saqlaydi.

ImageNet-10% da ( 4 -rasm - o'ngda), talabaning o'qitish aniqligi pastligidan ko'rinib turibdiki, talaba o'qituvchining psevdo yorliqlari bilan ham rozi emas. Bundan tashqari, biz o'qituvchining o'qitishning aniqligi nazorat qilinadiganlarga qaraganda tezroq o'sib borishini kuzatamiz.

modelning aniqligi. Bizning fikrimizcha, bu talabalar uchun foydalidir, chunki ImageNet 1000 ta sinfga ega, shuning uchun talabani belgilangan ma'lumotlar to'plamida yaxshi ishlashga samarali o'rgatish uchun o'qituvchi aniqroq bo'lishi kerak. Demak, talabaning fikr-mulohazalari o‘qituvchining bilim olishi uchun ham foydalidir. Mashg'ulotlarning yuqori aniqligi tendentsiyasi faqat o'quv jarayoni oxirida o'zgaradi, bunda nazorat ostida o'qitishning o'qitish aniqligi Meta Pseudo Labels bo'yicha o'qituvchi va talabaning aniqligidan oshib ketadi. Ushbu oxirgi belgidan biz nazorat ostidagi model ImageNet-10% dagi kichik yorliqli o'quv misollari to'plamiga haddan tashqari moslashganidan shubhalanamiz, bu esa, agar ushbu nazorat ostidagi model boshqa talaba modeli uchun o'rganish uchun psevdo yorliqlarni yaratish uchun ishlatilsa, tasdiqlash noto'g'riligiga olib keladi. .

	1.00	CIFAR-10-4,000 da o'qitishning aniqligi
Aniqlik					Aniqlik
	0,95

Trening	0,90				Trening
	0,85			Nazorat qilingan
				O'qituvchi


	0,80 ₀			Talaba
		0,25	0,50	0,75	1.0
		Treningning borishi

1.0	ImageNet-da o'qitishning aniqligi-10%
1.0	Nazorat qilingan
	Nazorat qilingan
0,8	O'qituvchi
0,6	Talaba
0,6
0.4
0.2
0,0 ₀	0,25	0,50	0,75	1.0
	Treningning borishi

4-rasm: CIFAR-10-4,000 va ImageNet-10% da Meta Pseudo Labels va nazorat ostida o'rganishning o'quv aniqligi. Meta Pseudo Labels’dagi o‘qituvchi ham, talaba ham mashg‘ulotning aniqligi pastroq bo‘lib, ortiqcha moslashishdan samarali qochadi.

D.4. O'qituvchi uchun turli xil o'qitish usullariga ega meta pseudo teglar

3 -bo'limlarda va 4 -bo'limda biz o'qituvchi UDA bilan o'qitilgan Meta Pseudo Labels natijalarini taqdim etdik. 10 -jadvalda biz yana ko'rsatamizki, CIFAR-10-4K da Meta Pseudo Labels turli xil texnikalar, jumladan Pseudo Labels [ 36 ], Mixup [ 85 ] va RandAugment bilan o'qitilgan turli o'qituvchilarga nisbatan yaxshilanadi. Ushbu natijalar Meta Pseudo Labels barcha texnikalar bilan samarali ekanligini ko'rsatadi. Bundan tashqari, natijalar shuni ko'rsatadiki, o'qituvchi uchun yaxshi o'qitish usullari yaxshi talabalarga olib keladi.

O'qituvchi	Pseudo-yorliqlar	Aralash [ 85 ]	RandAugment

- Meta psevdo teglar	83:79 0:11	84:20 0:15	85:53 0:25
+ Meta psevdo teglar	84,11 0,07	84,81 0,19	87,55 0,14

10-jadval: CIFAR-10-4,000 da WideResNet-28-2 uchun Meta Pseudo Labels aniqligi, bu erda o'qituvchi turli xil texnikalar bilan o'qitiladi.

Barcha raqamlar o'rtacha std dan ortiq 10 yugurishdir.

D.5. Har xil miqdordagi etiketli ma'lumotlarga ega bo'lgan meta pseudo teglar

Koʻproq etiketli maʼlumotlar paydo boʻlishi bilan Meta Pseudo Labels qanchalik yaxshilanishini oʻrganamiz. Shu maqsadda biz ImageNet-dagi yorliqli misollarning 10%, 20%, 40%, 80% va 100% bilan tajriba o'tkazamiz. Biz Meta Pseudo Labelsni nazorat ostidagi o'rganish va RandAugment bilan solishtiramiz. Natijalarni 5 -rasmda chizamiz . Rasmdan ko'rinib turibdiki, Meta Pseudo Labels kamroq ma'lumotlar bilan sezilarli daromad keltiradi, ammo ko'proq etiketli ma'lumotlar mavjud bo'lganda platolar. Ushbu natija Meta Pseudo Labels past resursli tasvirlarni tasniflash muammolari uchun samaraliroq ekanligini ko'rsatadi.

5-rasm: Nazorat ostidagi ta'lim, RandAugment va Meta psevdo yorliqlarining turli hajmdagi etiketli misollarda ishlashi.

E. Meta Pseudo Labelsning iqtisodiy versiyasi bilan natijalar

Meta Pseudo Labels xotirada o'qituvchi modelini ham, talaba modelini ham saqlashni talab qiladi. Tajribalarimizda EfficientNet-L2 va EfficientNet-B6-Wide kabi katta xotiraga ega model arxitekturalari uchun bu xotira izi bizning tezlatkichlarimizdagi mavjud xotiradan 16 Gb oshadi. Biz 4 -bo'limda gibrid ma'lumotlar modeli parallelligini amalga oshirdik Bu bizga katta model arxitekturalari bilan Meta Pseudo Labels-ni ishga tushirishga imkon beradi, kelishuv sekin va qimmat o'qitish jarayonidir. Katta modellarni Meta Pseudo Labels bilan samaraliroq o'qitishga imkon berish uchun biz qisqartirilgan Meta Pseudo Labels deb nomlangan o'qituvchini misol qilish uchun yanada tejamkor muqobilni ishlab chiqamiz.

Reduced Meta Pseudo Labels-da biz birinchi navbatda katta o'qituvchi T modelini konvergentsiyaga o'rgatamiz. Keyinchalik, talabaning o'quv ma'lumotlari uchun barcha maqsadli taqsimotlarni oldindan hisoblash uchun T dan foydalanamiz. Muhimi, ushbu bosqichga qadar talaba modeli xotiraga yuklanmagan, bu Meta Pseudo Labelsning katta xotira izini samarali ravishda oldini oladi. Keyin, biz qisqartirilgan o'qituvchi T ⁰ni kichik va samarali tarmoq sifatida parametrlashtiramiz, masalan, ko'p qatlamli perseptron (MLP), talaba bilan birga o'qitilishi kerak. Bu qisqartirilgan o'qituvchi T ⁰katta o'qituvchi T tomonidan bashorat qilingan taqsimotni kiritadi va talaba o'rganishi uchun sozlangan taqsimotni chiqaradi. Intuitiv ravishda qisqartirilgan Meta Pseudo Labels juda yaxshi ishlaydi, chunki katta o'qituvchi T juda aniq va shuning uchun qisqartirilgan o'qituvchi T ^{0 ning ko'p harakatlari}MLP tomonidan boshqarilishi mumkin bo'lgan identifikatsiya xaritasiga yaqin bo'ladi. Ayni paytda, qisqartirilgan Meta Pseudo Labels Meta Pseudo Labels afzalliklarini saqlab qoladi, chunki o'qituvchi T ^{0 hali ham talabaning}_To'rganish holatiga moslasha oladi .

Meta Pseudo Labels ko'p sonli yorliqli misollar bilan muammolarni hal qila oladimi yoki yo'qligini baholash uchun biz endi CIFAR-10, SVHN va ImageNet to'liq etiketli to'plamlariga murojaat qilamiz. Biz CIFAR-10 va ImageNet uchun domendan tashqaridagi yorliqsiz maʼlumotlardan foydalanamiz. Biz qisqartirilgan Meta Pseudo Labels bilan tajriba o'tkazamiz, ularning xotira izlari bizning keng ko'lamli tajribalarimizni o'tkazishga imkon beradi. Biz shuni ko'rsatamizki, Meta Pseudo Labels, ya'ni talabaning o'rganishi davomida talabaning o'rganish holatiga moslashadigan o'qituvchiga ega bo'lish yanada rivojlangan arxitektura va domendan tashqarida yorliqsiz ma'lumotlarga ega bo'lgan katta ma'lumotlar to'plamiga taalluqlidir.

Model arxitekturalari. Talaba modelimiz uchun biz CIFAR-10 va SVHN uchun EfficinetNet-B0 dan foydalanamiz va ImageNet uchun EfficientNet-B7 dan foydalanamiz. Ayni paytda, bizning o'qituvchi modelimiz ReLU faollashtirilgan va CIFAR-10 uchun 128 birlik va ImageNet uchun 512 birlik yashirin o'lchamli 5 qatlamli kichik perseptrondir.

Belgilangan ma'lumotlar. Standart amaliyotlarga ko'ra, biz giperparametrlarni sozlash uchun CIFAR-10 ning 4 000 ta namunasini, SVHN dan 7 300 ta misolni va ImageNet ning 40 ta ma'lumotlar qismini saqlab qo'yamiz. Bu CIFAR-10 uchun 45 000 ga yaqin etiketli misollar, SVHN uchun 65 000 yorliqli misollar va ImageNet uchun 1,23 million etiketli misollar qoldiradi. 3.2 -bo'limda bo'lgani kabi , bu etiketli ma'lumotlar ham talaba uchun tekshirish ma'lumotlari, ham o'qituvchi uchun tayyorgarlikdan oldingi ma'lumotlar bo'lib xizmat qiladi.

Belgilanmagan ma'lumotlar. CIFAR-10 uchun bizning yorliqsiz ma'lumotlarimiz 80 million tasvirga ega TinyImages ma'lumotlar to'plamidan olingan [ 67 ]. SVHN uchun biz 530 000 ga yaqin tasvirni o'z ichiga olgan SVHN standart o'quv to'plami bilan birga keladigan qo'shimcha tasvirlardan foydalanamiz. ImageNet uchun bizning etiketlanmagan ma'lumotlarimiz 100 million tasvirga ega YFCC-100M ma'lumotlar to'plamidan olingan [ 65 ]. Mavjud vazifalarga tegishli yorliqsiz ma'lumotlarni to'plash uchun biz TinyImages va YFCC-100M-dagi tasvirlarga sinf taqsimotlarini belgilash uchun oldindan o'rgatilgan o'qituvchidan foydalanamiz, so'ngra har bir sinf uchun eng yuqori ehtimollik bilan K tasvirni saqlaymiz. K qiymati CIFAR-10 uchun 50 000, SVHN uchun 35 000 va ImageNet uchun 12 800 ni tashkil qiladi.

Asosiy chiziqlar. Biz Reduced Meta Pseudo Labels ni NoisyStudent [ 77 ] bilan solishtiramiz, chunki uni to'g'ridan-to'g'ri Reduced Meta Pseudo Labels bilan solishtirish mumkin. Aslida, NoisyStudent va Reduced Meta Pseudo Labels o'rtasidagi yagona farq shundaki, Reduced Meta Pseudo Labels talabaning o'rganish holatiga moslashadigan o'qituvchiga ega.

Usullari	CIFAR-10	SVHN	ImageNet

Nazorat qilingan	97:18 0:08	98:17 0:03	84:49=97:18
NoisyStudent	98:22 0:05	98,71 0,11	85:81=97:53
Kamaytirilgan Meta Pseudo teglar	98,56 0,07	98,78 0,07	86,87=98,11

11-jadval: CIFAR-10 va SVHN da EfficientNet-B0 va ImageNet da EfficientNet-B7 tasvir tasnifi aniqligi. Yuqoriroq yaxshi. CIFAR-10 natijalari 5 ta yugurish uchun o'rtacha std, ImageNet natijalari esa bitta yugurishning eng yaxshi 1/top-5 aniqligi. Barcha raqamlar bizning kodlar bazamizda ishlab chiqariladi va nazorat ostidagi tajribalardir.

Natijalar. 11 -jadvalda ko'rsatilganidek , qisqartirilgan Meta Pseudo Labels CIFAR-10 va ImageNet-da NoisyStudent-dan ustun turadi va SVHN-dagi NoisyStudent bilan tengdir. Xususan, ImageNet-da EfficientNet-B7-ga ega Meta Pseudo Labels 86,87% birinchi birinchi aniqlikka erishadi, bu kuchli bazaviy NoisyStudentdan 1,06% yaxshiroq. CIFAR-10-da Meta Pseudo Labels NoisyStudent-da aniqlikni 0,34% ga oshirishga olib keladi, bu esa xatolarni 19% ga kamaytirishga olib keladi.
SVHN uchun biz qisqartirilgan Meta Pseudo Labels daromadi ahamiyatli emasligining ikkita sababi bor deb taxmin qilamiz. Birinchidan, NoisyStudent allaqachon juda yuqori aniqlikka erishmoqda. Ikkinchidan, etiketlanmagan tasvirlar yuqori sifatli bo'lib, biz qo'lda tekshirish orqali bilamiz. Shu bilan birga, ko'plab ImageNet toifalari uchun YFCC100M dan suratlar etarli emas, shuning uchun biz past sifatli yoki domendan tashqari tasvirlarga ega bo'lamiz. Bunday shovqinli ma'lumotlarga ko'ra, Reduced Meta Pseudo Labels-ning moslashuv moslashuvi talabaning ishlashi uchun muhimroq bo'lib, yanada sezilarli daromadga olib keladi.

Download 307,03 Kb.

Do'stlaringiz bilan baham: