Meta psevdo teglar
Hieu Pham, Zihang Dai, Qizhe Xie, Minh-Thang Luong, Quoc V. Le
Google AI, Brain Team, Mountain View, CA 94043
{hyhieu,zihangd,qizhex,thangluong,qvl}@google.com
Abstrakt
Biz Meta Pseudo Labels-ni taqdim etamiz, bu yarim nazorat ostida o'rganish usuli bo'lib, u ImageNet-da 90,2% ga teng bo'lgan eng so'nggi aniqlikka erishadi, bu mavjud bo'lganidan 1,6% yaxshiroq. -modda [ 16 ]. Pseudo Labels singari, Meta Pseudo Labels ham talabalar tarmog'ini o'rgatish uchun etiketlanmagan ma'lumotlarga psevdo-yorliqlarni yaratish uchun o'qituvchilar tarmog'iga ega. Biroq, o'qituvchi o'rnatiladigan Pseudo Labelsdan farqli o'laroq, Meta Pseudo Labelsdagi o'qituvchi doimiy ravishda belgilangan ma'lumotlar to'plamida talabaning ishlashi haqidagi fikr-mulohazalarga moslashtiriladi. Natijada, o'qituvchi talabaga o'rgatish uchun yaxshiroq psevdo yorliqlarni yaratadi. 1
1.Kirish
Pseudo Labels yoki o'z-o'zini o'qitish usullari [ 57 , 81 ,
55 , 36 ] tasvirlarni tasniflash (masalan, [ 79 , 77 ]), ob'ektni aniqlash va semantik segmentatsiya (masalan, [ 89 , 51 ]) kabi ko'plab kompyuter ko'rish vazifalarida eng zamonaviy modellarni takomillashtirish uchun muvaffaqiyatli qo'llanildi . Pseudo Labels usullari bir juft tarmoqlarga ega bo'lish orqali ishlaydi, biri o'qituvchi va biri talaba. O'qituvchi yorliqsiz tasvirlarda psevdo yorliqlarni yaratadi. Ushbu psevdo-yorliqli tasvirlar keyinchalik talabani o'rgatish uchun etiketli tasvirlar bilan birlashtiriladi. Pseudo-yorliqli ma'lumotlarning ko'pligi va ma'lumotlarni ko'paytirish kabi tartibga solish usullaridan foydalanish tufayli talaba o'qituvchidan yaxshiroq bo'lishni o'rganadi [ 77 ].
Pseudo Labels usullarining kuchli ishlashiga qaramay, ular bitta asosiy kamchilikka ega: agar soxta teglar noto'g'ri bo'lsa, talaba noto'g'ri ma'lumotlardan bilib oladi. Natijada, talaba o'qituvchidan sezilarli darajada yaxshilanmasligi mumkin. Bu kamchilik, shuningdek, psevdo-yorliqlashda tasdiqlash tarafkashligi muammosi sifatida ham tanilgan [ 2 ].
Ushbu maqolada biz o'qituvchi uchun uning soxta yorliqlari talabaga qanday ta'sir qilishini kuzatish orqali noto'g'rilikni tuzatish uchun tizimli mexanizmni ishlab chiqamiz. Xususan, biz talabaning fikr-mulohazalaridan foydalanadigan Meta Pseudo Labelsni taklif qilamiz.
Kod https: // github da mavjud. com / google - Research/google-research/tree/master/meta_pseudo_ teglar .
yaxshi psevdo teglar yaratish uchun o'qituvchiga xabar berish. Bizning amalga oshirishimizda teskari aloqa signali talabaning belgilangan ma'lumotlar to'plamidagi ishlashidir. Bu teskari aloqa signali o'qituvchini talabaning o'rganish jarayonida o'qitish uchun mukofot sifatida ishlatiladi. Xulosa qilib aytganda, Meta Pseudo Labels o'qituvchisi va talabasi parallel ravishda o'qitiladi: (1) talaba o'qituvchi tomonidan izohlangan psevdo-yorliqli ma'lumotlarning kichik to'plamidan o'rganadi va (2) o'qituvchi talaba qanchalik yaxshi ekanligi haqidagi mukofot signalidan o'rganadi. etiketli ma'lumotlar to'plamidan olingan minibatchda ishlaydi.
Biz Meta Pseudo Labels bilan tajriba o'tkazamiz, ImageNet [ 56 ] ma'lumotlar to'plamini etiketli ma'lumotlar sifatida va JFT-300M ma'lumotlar to'plamini [ 26 , 60 ] etiketlanmagan ma'lumotlar sifatida ishlatamiz. Biz Meta Pseudo Labels yordamida bir juft EfficientNet-L2 tarmoqlarini o'rgatamiz, biri o'qituvchi, ikkinchisi talaba sifatida. Olingan talaba tarmog'i Im-ageNet ILSVRC 2012 tekshirish to'plamida 90,2% yuqori 1 aniqlikka erishadi [ 56 ], bu avvalgi rekord 88,6% [ 16 ] dan 1,6% yaxshiroq . Ushbu talaba modeli, shuningdek, 1 -jadvalda jamlanganidek, ImageNet-ReaL test majmuasini [ 6 ] umumlashtiradi . CIFAR-10-4K, SVHN-1K va ImageNet-10% da standart ResNet modellari bilan kichik miqyosdagi yarim nazorat ostida o'rganish tajribalari, shuningdek, Meta Pseudo Labels FixMatch kabi yaqinda taklif qilingan boshqa bir qator usullardan ustun ekanligini ko'rsatadi [ 58 ] ] va nazoratsiz ma'lumotlarni ko'paytirish [ 76 ].
Ma'lumotlar to'plami
|
ImageNet
|
ImageNet-Real
|
|
Top-1 Aniqlik
|
Aniqlik@1
|
|
|
|
|
|
|
|
Oldingi SOTA [ 16 , 14 ]
|
88.6
|
90,72
|
|
|
|
|
|
Bizniki
|
90.2
|
91.02
|
|
|
|
|
|
56 ] va ImageNet-ReaL test to‘plami [ 6 ] bo‘yicha asosiy natijalarimizning qisqacha mazmuni .
2. Meta psevdo teglar
Pseudo Labels va Meta Pseudo Labels o'rtasidagi kontrastning umumiy ko'rinishi 1 -rasmda keltirilgan . Asosiy farq shundaki, Meta Pseudo Labels-da o'qituvchi belgilangan ma'lumotlar to'plami bo'yicha talabaning ishlashi haqida fikr-mulohazalarni oladi.
1
|
Oldindan
|
tarbiyalangan
|
Psevdo-yorliqli ma'lumotlar
|
|
|
Psevdo-yorliqli ma'lumotlar
|
|
|
|
|
|
Talaba
|
|
O'qituvchi
|
|
|
Talaba
|
|
|
|
O'qituvchi
|
|
|
Talabaning ishlashi
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
etiketli ma'lumotlar bo'yicha
|
|
|
|
1-rasm: Pseudo labels va meta pseudo labels o'rtasidagi farq. Chapda: Pseudo Labels, bu erda oldindan tayyorlangan o'qituvchi talaba o'rganishi uchun psevdo yorliqlarni yaratadi. O'ngda: Meta Pseudo Labels, bu erda o'qituvchi talaba bilan birga o'qitiladi. Talaba o'qituvchi tomonidan yaratilgan psevdo teglar asosida o'qitiladi (yuqori o'q). O'qituvchi talabaning yorliqli ma'lumotlar (pastki o'q) bo'yicha ishlashi asosida tayyorlanadi.
Belgilar. T va S mos ravishda o'qituvchi tarmog'i va Meta Pseudo Labelsdagi talabalar tarmog'i bo'lsin. Ularning mos parametrlari T va S bo'lsin . Biz (x l ; y l ) tasvirlar toʻplamiga va ularga mos teglarga, masalan, ImageNet oʻquv tasvirlari va ularning teglariga murojaat qilish uchun foydalanamiz va x u dan yorliqsiz tasvirlar toʻplamiga, masalan, internetdagi tasvirlarga murojaat qilish uchun foydalanamiz. Biz T (x u ; T ) bilan o'qituvchi tarmog'ining yorliqsiz tasvirlar to'plamidagi x u va talaba uchun yumshoq bashoratlarini belgilaymiz, masalan, S(x l ; S ) va S(x u ; S ). Ikki taqsimot q va p o'rtasidagi o'zaro entropiya yo'qotilishini belgilash uchun CE(q; p) dan foydalanamiz; agar q yorliq bo'lsa, u bir qizg'in taqsimot sifatida tushuniladi; agar q va p ning bir nechta misollari bo'lsa, u holda CE(q; p) hammaning o'rtacha qiymati sifatida tushuniladi.
to'plamdagi holatlar. Masalan, CE y l ; S(x l ; S ) - nazorat ostida o'rganishda kanonik o'zaro entropiya yo'qolishi.
Pseudo labels optimallashtirish muammosi sifatida. Meta Pseudo Labels bilan tanishish uchun avvalo Pseudo Labelsni ko'rib chiqamiz. Xususan, Pseudo Labels (PL) talaba modelini yorliqlanmagan ma'lumotlarda o'zaro entropiya yo'qotilishini minimallashtirishga o'rgatadi:
S =
|
S
|
E x u h
|
Idoralar T (x u ; T ); S(x u ; S )
|
i
|
(1)
|
|
PL
|
argmin
|
|
|
|
:=L u {z T ; S
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bu erda soxta maqsad T (x u ; T ) belgilangan parametr T bilan yaxshi o'qitilgan o'qituvchi modeli tomonidan ishlab chiqariladi . Yaxshi o'qituvchini hisobga olsak, Pseudo Labelsning umidi shundan iboratki, olingan S PL oxir-oqibat etiketli ma'lumotlarda kam yo'qotishga erishadi, ya'ni
E x l ;y l CE y l ; S(x l ; S PL ) := L l S PL .
Pseudo Labels doirasida, optimal talaba parametri S PL har doim T (x u ; T ) psevdo maqsadlari orqali o'qituvchi T parametriga bog'liqligiga e'tibor bering. Meta Pseudo Labels muhokamasini osonlashtirish uchun biz S PL ( T ) sifatida qaramlikni aniq ifodalashimiz mumkin. Darhol kuzatuvchi sifatida -
vation, etiketli ma'lumotlar bo'yicha yakuniy talaba yo'qotish L l S PL ( T ) ham T ning “funksiyasi” hisoblanadi . Shuning uchun biz qo'shimcha optimallashtirishimiz mumkin
T ga nisbatan mize L l :
min
|
l
|
|
PL ( T );
|
|
|
|
|
|
|
|
|
T
|
L PL
|
S
|
|
L u
|
|
T
|
|
S
|
|
(2)
|
|
qayerda
|
S
|
( T ) =
|
S
|
|
;
|
:
|
|
|
|
|
|
argmin
|
|
|
|
|
|
Intuitiv ravishda, o'qituvchining parametrini talabaning belgilangan ma'lumotlar bo'yicha ishlashiga muvofiq optimallashtirish orqali soxta teglar talabaning ish faoliyatini yanada yaxshilash uchun mos ravishda sozlanishi mumkin. Biz o'qituvchini meta-darajada optimallashtirishga samarali harakat qilayotganimiz sababli, biz o'z uslubimizni Meta Pseudo Labels deb nomlaymiz. Biroq, S PL ( T ) ning T ga bog'liqligi juda murakkab, chunki r T gradientini hisoblash S PL ( T ) butun talaba o'qitish jarayonini (ya'ni argmin S ) ochishni talab qiladi.
Amaliy yaqinlashtirish. Meta Pseudo Labels ni amalga oshirish uchun biz meta-o'rganish bo'yicha oldingi ishlardan g'oyalarni olamiz [ 40 , 15 ] va bir bosqichli S gradient yangilanishi bilan ko'p bosqichli argmin S ga yaqinlashamiz :
S PL ( T ) S S r S L u T ; S ;
bu erda S - o'rganish tezligi. Ushbu yaqinlikni 2 -tenglamadagi optimallashtirish masalasiga ulash Meta Pseudo Labels-da amaliy o'qituvchi maqsadiga olib keladi:
T
|
L l SS r S L u T ; S :
|
(3)
|
min
|
|
|
E'tibor bering, agar yumshoq psevdo teglar ishlatilsa, ya'ni T (x u ; T ) o'qituvchi tomonidan bashorat qilingan to'liq taqsimot bo'lsa, yuqoridagi maqsad T ga nisbatan to'liq farqlanadi va biz gradientni olish uchun standart orqaga tarqalish jarayonini amalga oshirishimiz mumkin. 2 Biroq, bu ishda biz talabani o'qitish uchun o'qituvchi taqsimotidan qattiq psevdo yorliqlarni tanlaymiz. Biz qattiq psevdo teglardan foydalanamiz, chunki ular kichikroq hisoblash grafiklarini keltirib chiqaradi
3 ) tenglamani optimallashtirishda biz har doim S ni sobit parametrlar sifatida ko'rib chiqamiz va uning T ga yuqori darajadagi bog'liqligini e'tiborsiz qoldiramiz .
4 -bo'limdagi keng ko'lamli tajribalarimiz uchun zarurdir . Yumshoq psevdo yorliqlar yoki qattiq pseudo yorliqlardan foydalanishimiz mumkin bo'lgan kichikroq tajribalar uchun biz ular o'rtasida unumdorlik bo'yicha sezilarli farqni topa olmaymiz. Qattiq psevdo yorliqlardan foydalanishning ogohlantirishi shundaki, biz 3 -tenglamada L l ning taxminiy gradientini olish uchun REINFORCE ning biroz o'zgartirilgan versiyasiga tayanishimiz kerak. T ga nisbatan . Biz batafsil xulosani A ilovasiga qoldiramiz .
Boshqa tomondan, talabaning tayyorgarligi hali ham 1 -tenglamadagi maqsadga tayanadi , faqat o'qituvchi parametri endi o'zgarmasdir. Buning o'rniga, T doimiy ravishda o'qituvchining optimallashtirishi tufayli o'zgarib turadi. Qizig'i shundaki, talaba parametrlarini yangilash o'qituvchi maqsadining bir bosqichli yaqinlashuvida qayta ishlatilishi mumkin, bu tabiiy ravishda talaba yangilanishi va o'qituvchining yangilanishi o'rtasida alternativ optimallashtirish protsedurasini keltirib chiqaradi:
Talaba: yorliqsiz x u maʼlumotlar toʻplamini chizib oling, soʻngra oʻqituvchi bashoratidan T (x u ; T ) namunasini oling va 1 -maqsadni optimallashtirish SGD bilan: S 0 = SS r S L u ( T ; S ),
O'qituvchi: yorliqli ma'lumotlar to'plamini chizing (x l ; y l ) va 3 -maqsadni optimallashtirish uchun talabaning yangilanishidan "qayta foydalaning" SGD bilan:
T 0 = T T r T L l S r S L u T ; S .
| {z }
= S 0 talabaning yangilanishidan qayta foydalanilgan
O'qituvchining yordamchi yo'qotishlari. Biz empirik tarzda Meta Pseudo Labels o'z-o'zidan yaxshi ishlashini kuzatamiz. Bundan tashqari, agar o'qituvchi boshqa yordamchi maqsadlar bilan birgalikda o'qitilsa, bu yanada yaxshi ishlaydi. Shuning uchun biz amalga oshirishda biz o'qituvchining tayyorgarligini nazorat qilinadigan o'quv maqsadi va yarim nazorat ostidagi o'quv maqsadi bilan kengaytiramiz. Nazorat qilinadigan maqsad uchun biz o'qituvchini belgilangan ma'lumotlarga o'rgatamiz. Yarim nazorat ostidagi maqsad uchun biz qo'shimcha ravishda UDA maqsadi [ 76 ] yordamida o'qituvchini yorliqsiz ma'lumotlarga o'rgatamiz . Meta Pseudo Labels ning toʻliq psevdokodi oʻqituvchi uchun nazorat qilinadigan va UDA maqsadlari bilan birlashtirilganda, Ilova B , 1 -algoritmga qarang .
Nihoyat, Meta Pseudo Labels dasturidagi talaba faqat oʻqituvchi tomonidan yaratilgan soxta teglar bilan yorliqsiz maʼlumotlardan oʻrganganligi sababli, biz Meta Pseudo Labels bilan mashgʻulotdan soʻng birlashgan talaba modelini olishimiz va uning aniqligini oshirish uchun yorliqlangan maʼlumotlarga aniq sozlashimiz mumkin. Tajribalarimizda talabaning nozik sozlashlari haqida ma'lumot berilgan.
Keyinchalik, Meta Pseudo Labels eksperimental natijalarini taqdim etamiz va ularni quyidagicha tashkil qilamiz:
3 -qism Meta Pseudo Labelsni keng qoʻllaniladigan bench-marks boʻyicha boshqa zamonaviy yarim nazoratli oʻrganish usullari bilan solishtiradigan kichik miqyosdagi tajribalarni taqdim etadi.
4 -bo‘lim Meta Pseudo Labelsning keng ko'lamli tajribalarini taqdim etadi, bu erda biz ImageNet aniqligi chegaralarini oshiramiz.
3. Kichik hajmdagi tajribalar
Ushbu bo'limda biz kichik miqyosda Meta Pseudo Labels bo'yicha empirik tadqiqotlarimizni taqdim etamiz. Biz birinchi navbatda oddiy TwoMoon ma'lumotlar to'plamida Meta Pseudo Labels-dagi fikr-mulohazalarning rolini o'rganamiz [ 7 ]. Ushbu tadqiqot Meta Pseudo Labelsning xatti-harakatlari va afzalliklarini vizual tarzda ko'rsatadi. Keyin biz Meta Pseudo Labels-ni CIFAR-10-4K, SVHN-1K va ImageNet-10% kabi standart mezonlarda yarim nazorat ostidagi o'rganishning zamonaviy usullari bilan solishtiramiz. Biz bo'limni to'liq ImageNet ma'lumotlar to'plami bilan standart ResNet-50 arxitekturasi bo'yicha tajribalar bilan yakunlaymiz.
3.1. Ikki oy tajribasi
Meta Pseudo Labels-da fikr-mulohazalarning rolini tushunish uchun biz oddiy va klassik TwoM-oon ma'lumotlar to'plamida tajriba o'tkazamiz [ 7 ]. TwoMoon ma'lumotlar to'plamining 2D tabiati bizga Meta Pseudo Labels nazorat ostida o'rganish va Pseudo Labels bilan solishtirganda o'zini qanday tutishini tasavvur qilish imkonini beradi.
Ma'lumotlar to'plami. Ushbu tajriba uchun biz TwoMoon ma'lumotlar to'plamining o'z versiyasini yaratamiz. Bizning versiyamizda har biri 1000 ta misoldan iborat ikkita klasterni tashkil etuvchi 2000 ta misol mavjud. Faqat 6 ta misol etiketlangan, har bir klaster uchun 3 ta misol, qolgan misollar esa yorliqsiz. Yarim nazorat ostida o'rganish algoritmlaridan ikkita klasterni to'g'ri sinflarga ajratish uchun ushbu 6 ta yorliqli misol va klasterlash taxminidan foydalanish so'raladi.
Trening tafsilotlari. Bizning model arxitekturamiz ikkita yashirin qatlamga ega, har birida 8 birlikdan iborat bo'lgan to'liq ulangan neyron tarmoqdir. Sigmasimon chiziqli bo'lmaganligi har bir qatlamda qo'llaniladi. Meta Pseudo Labels-da o'qituvchi ham, talaba ham ushbu arxitekturani baham ko'radi, ammo mustaqil vaznga ega. Barcha tarmoqlar SGD bilan 0,1 doimiy o'rganish tezligidan foydalangan holda o'qitiladi. Tarmoqlarning og'irligi -0,1 dan 0,1 gacha bo'lgan yagona taqsimot bilan ishga tushiriladi. Biz hech qanday tartibga solishni qo'llamaymiz.
Natijalar. Biz tasodifiy ravishda TwoMoon ma'lumotlar to'plamini bir necha marta yaratamiz va uchta usulni takrorlaymiz: nazorat ostida o'rganish, psevdo teglar va meta pseudo teglar. Biz Meta Pseudo Labels to'g'ri klassifikatorni topishda nazorat ostidagi o'rganish va pseudo labelsga qaraganda ancha yuqori muvaffaqiyatga ega ekanligini kuzatamiz. 2 -rasm Bizning tajribamizning odatiy natijasini taqdim etadi, bu erda qizil va yashil hududlar tasniflagichlarning qarorlariga mos keladi. Rasmdan ko'rinib turibdiki, "Su-pervised Learning" yorliqlangan misollarni to'g'ri tasniflaydigan yomon tasniflagichni topadi, lekin ikkita "oy"ni ajratish uchun klasterlash taxminidan foydalana olmaydi. Pseudo Labels Supervised Learning-dan noto'g'ri tasniflagichdan foydalanadi va shuning uchun etiketlanmagan ma'lumotlarda noto'g'ri psevdo teglarni oladi. Natijada, Pseudo Labels noto'g'ri tasniflovchi tasniflagichni topadi
2-rasm: Meta Pseudo Labels-da fikr-mulohazalarning ahamiyati tasviri (o'ngda). Ushbu misolda Meta Pseudo Labels oddiy TwoMoon ma'lumotlar to'plamida Supervised Learning (chapda) va Pseudo Labels (o'rtada) dan yaxshiroq ishlaydi. Batafsil ma'lumot 3.1 -bo'limda keltirilgan .
ma'lumotlarning yarmi, shu jumladan bir nechta etiketli misollar. Boshqa tomondan, Meta Pseudo Labels, o'qituvchini yaxshiroq soxta teglarni yaratish uchun sozlash uchun belgilangan misollarda talaba modelining yo'qolishidan olingan fikr-mulohazalardan foydalanadi. Natijada, Meta Pseudo Labels ushbu ma'lumotlar to'plami uchun yaxshi tasniflagichni topadi. Boshqacha qilib aytadigan bo'lsak, Meta Pseudo Labels ushbu tajribada Pseudo Labels ning tasdiqlash tarafkashligi [ 2 ] muammosini hal qilishi mumkin.
3.2. CIFAR-10-4K, SVHN-1K va ImageNet-10% tajribalari
Ma'lumotlar to'plami. Biz uchta standart mezonni ko'rib chiqamiz: CIFAR-10-4K, SVHN-1K va ImageNet-10%, ular adabiyotda yarim nazorat ostidagi o'rganish algoritmlarini adolatli baholash uchun keng qo'llaniladi. Ushbu ko'rsatkichlar o'quv to'plamining kichik bir qismini etiketli ma'lumotlar sifatida saqlash, qolganlarini esa yorliqsiz ma'lumotlar sifatida ishlatish orqali yaratilgan. CIFAR-10 [ 34 ] uchun 4000 ta yorliqli misollar etiketli maʼlumotlar sifatida saqlanadi, 41000 ta misol esa yorliqsiz maʼlumotlar sifatida ishlatiladi. CIFAR-10 uchun test to'plami standart bo'lib, 10 000 ta misoldan iborat. SVHN [ 46 ] uchun 1000 ta misol etiketlangan maʼlumotlar sifatida, 603 000 ga yaqin misol esa etiketlanmagan maʼlumotlar sifatida ishlatiladi. SVHN uchun test to'plami ham standart bo'lib, 26 032 ta misolga ega. Nihoyat, ImageNet [ 56 ] uchun 128 000 ta misol yorliqli maʼlumotlar sifatida ishlatiladi, bu butun ImageNet oʻquv majmuasining taxminan 10% ni tashkil qiladi, qolgan 1.28 million misol esa etiketlanmagan maʼlumotlar sifatida ishlatiladi. ImageNet uchun sinov to'plami ILSVRC 2012 standart versiyasi bo'lib, 50 000 ta misolga ega. Biz CIFAR-10 va SVHN uchun 32x32 va ImageNet uchun 224x224 tasvir o'lchamlaridan foydalanamiz.
Trening tafsilotlari. Tajribalarimizda o'qituvchimiz va o'quvchimiz bir xil arxitekturaga ega, ammo mustaqil vaznga ega. CIFAR-10-4K va SVHN-1K uchun biz 1,45 million parametrga ega bo'lgan WideResNet-28-2 [ 84 ] dan foydalanamiz. ImageNet uchun biz 25,5 million parametrga ega bo'lgan ResNet-50 [ 24 ] dan foydalanamiz. Ushbu arxitekturalar ushbu sohadagi oldingi ishlarda ham keng tarqalgan. Meta Pseudo Labels trening bosqichida biz oʻqituvchi va talabani oʻrgatamiz, biz barcha modellarimiz uchun oldingi ishlardagi standart giperparametrlardan foydalanamiz, RandAugment [ 13 ] dagi bir nechta oʻzgartirishlar bundan mustasno, biz C ilovasida batafsil bayon qilamiz. .2 . Barcha giper-parametrlar C.4 -ilovada keltirilgan . Keyin
Meta Pseudo La-bels bilan o'qituvchi va talabani o'rgatamiz, biz talabani belgilangan ma'lumotlar to'plamiga moslashtiramiz. Ushbu nozik sozlash bosqichi uchun biz ImageNet-10% uchun 2000 qadam va CIFAR-10 va SVHN uchun 1000 qadam uchun ishlaydigan 10 5 qattiq o'rganish tezligi va 512 partiya hajmi bilan SGD dan foydalanamiz. Belgilangan misollar miqdori barcha uchta ma'lumotlar to'plami uchun cheklanganligi sababli, biz ushlab turilgan tekshirish to'plamidan foydalanmaymiz. Buning o'rniga, biz oxirgi nazorat punktida modelni qaytaramiz.
Asosiy chiziqlar. Adolatli taqqoslashni ta'minlash uchun biz faqat Meta Pseudo Labellarni bir xil arxitekturadan foydalanadigan usullar bilan solishtiramiz va CIFAR-10 uchun Larger-WideResNet-28-2 va Pyramid-Net+ShakeDrop kabi kattaroq arxitekturalardan foydalanadigan usullar bilan solishtirmaymiz. va SVHN [ 5 , 4 , 72 , 76 ] yoki ImageNet-10% uchun ResNet-50 {2,3,4}, ResNet-101, ResNet-152 va boshqalar [ 25 , 23 , 10 , 8 , 9 ] . Shuningdek, biz Meta Pseudo Labels ni o'z-o'zidan distillash yoki kattaroq o'qituvchidan distillashni o'z ichiga olgan o'quv tartiblari bilan solishtirmaymiz [ 8 , 9 ]. Biz ushbu cheklovlarni o'z bazalarimiz bo'yicha qo'llaymiz, chunki ma'lumki, kattaroq arxitektura va distillash har qanday usulni, shu jumladan Meta Pseudo Labelsni ham yaxshilashi mumkin.
Biz to'g'ridan-to'g'ri Meta Pseudo Labelsni ikkita asosiy ko'rsatkich bilan solishtiramiz: to'liq ma'lumotlar to'plami bilan nazorat ostida o'rganish va nazoratsiz ma'lumotlarni ko'paytirish (UDA [ 76 ]). Toʻliq maʼlumotlar toʻplamiga ega boʻlgan nazorat ostida oʻrganish boʻsh joyni ifodalaydi, chunki u barcha yorliqlangan maʼlumotlardan nohaq foydalanadi (masalan, CIFAR-10 uchun u 50 000 ta etiketlangan misollardan foydalanadi). Shuningdek, biz UDA bilan solishtiramiz, chunki Meta Pseudo Labelsni amalga oshirishimiz o'qituvchini o'qitishda UDA dan foydalanadi. Ushbu ikkala tayanch liniyalar bir xil eksperimental protokollardan foydalanadi va shuning uchun adolatli taqqoslashni ta'minlaydi. Biz [ 48 ] ning poezd/baholash/test boʻlinishiga amal qilamiz va biz asosiy koʻrsatkichlar va Meta Pseudo Labels uchun giper-parametrlarni sozlash uchun bir xil miqdordagi resurslardan foydalanamiz. Batafsil ma'lumotlar C ilovasida keltirilgan .
Qo'shimcha asoslar. Ushbu ikkita asosiy ko'rsatkichga qo'shimcha ravishda biz ikkita toifaga boshqa yarim nazorat ostidagi asosiy ko'rsatkichlarni ham kiritamiz: Yorliqlarni tarqatish va O'z-o'zini nazorat qilish. Ushbu usullar bir xil boshqariladigan muhitga ega emasligi sababli, ular bilan taqqoslash to'g'ridan-to'g'ri emas va [ 48 ] tomonidan taklif qilinganidek kontekstli bo'lishi kerak. Meta Pseudo Labels va boshqa asosiy belgilar bilan taqqoslanadigan ko'proq nazorat qilinadigan eksperimentlar
|
Usul
|
CIFAR-10-4KSVHN-1KImageNet-10%
|
|
|
(std degani)
|
(std degani)
|
Top-1
|
Top-5
|
|
|
|
|
|
Vaqtinchalik ansambli [ 35 ]
|
83:63 0:63
|
92:81 0:27
|
|
|
|
|
O'rtacha o'qituvchi [ 64 ]
|
84:13 0:28
|
94:35 0:47
|
|
|
|
|
QQS + EntMin [ 44 ]
|
86:87 0:39
|
94:65 0:19
|
83.39
|
|
|
LGA + QQS [ 30 ]
|
87:94 0:19
|
93:42 0:36
|
|
|
|
Yorliqlarni ko'paytirish usullari
|
AKT [ 71 ]
|
92:71 0:02
|
96:11 0:04
|
|
|
|
|
MixMatch [ 5 ]
|
93:76 0:06
|
96:73 0:31
|
|
|
|
|
ReMixMatch [ 4 ]
|
94:86 0:04
|
97:17 0:30
|
|
|
|
|
EnAET [ 72 ]
|
94:65
|
97:08
|
|
|
|
|
FixMatch [ 58 ]
|
95:74 0:05
|
97:72 0:38
|
71:5
|
89:1
|
|
|
UDA [ 76 ]
|
94:53 0:18
|
97:11 0:17
|
68:07
|
88:19
|
|
|
SimCLR [ 8 , 9 ]
|
|
|
71:7
|
90:4
|
|
|
MOCOv2 [ 10 ]
|
|
|
71:1
|
|
|
O'z-o'zini nazorat qilish usullari
|
PCL [ 38 ]
|
|
|
|
85:6
|
|
|
PIRL [ 43 ]
|
|
|
|
84:9
|
|
|
BYOL [ 21 ]
|
|
|
68:8
|
89:0
|
|
|
Meta psevdo teglar
|
96,11 0,07
|
98,01 0,07
|
73,89
|
91.38
|
|
|
To'liq ma'lumotlar to'plami bilan nazorat ostida o'rganish
|
94:92 0:17
|
97:41 0:16
|
76:89
|
93:27
|
|
2-jadval: CIFAR-10-4K, SVHN-1K va ImageNet-10% da tasvir tasnifi aniqligi. Yuqoriroq yaxshi. CIFAR-10-4K va SVHN-1K uchun biz 10 dan ortiq yugurish o'rtacha std haqida xabar beramiz, ImageNet-10% uchun esa bitta yugurishning Top-1=Top-5 aniqligi haqida xabar beramiz. Adolatli taqqoslash uchun biz faqat bir xil model arxitekturasiga ega natijalarni o'z ichiga olamiz: CIFAR-10-4K va SVHN-1K uchun WideResNet-28-2 va ImageNet-10% uchun ResNet-50. bir xil eksperimental protokollardan foydalanadigan amalga oshirishimizni ko'rsatadi. UDA dan tashqari, dastlabki ikki blokdagi natijalar vakolatli muhim hujjatlardan olingan va shuning uchun bizniki bilan bir xil boshqariladigan muhitga ega emas.
D ilovasida keltirilgan .
Natijalar. 2 -jadval Boshqa usullar bilan solishtirganda Meta Pseudo Labels bilan bizning natijalarimizni taqdim etadi. Natijalar shuni ko'rsatadiki, qat'iy adolatli taqqoslashlar ostida ([ 48 ] tomonidan ta'kidlanganidek ), Meta Pseudo Labels UDAga nisbatan sezilarli darajada yaxshilanadi. Qizig'i shundaki, CIFAR-10-4K da Meta Pseudo Labels to'liq ma'lumotlar to'plamida nazorat qilinadigan o'rganishdan ham oshib ketadi. ImageNet-10% da Meta Pseudo Labels 68,07% dan 73,89% gacha bo'lgan eng yaxshi aniqlik bo'yicha UDA o'qituvchisidan 5% dan oshib ketadi. ImageNet uchun bunday nisbiy takomillashtirish juda muhim.
Mavjud zamonaviy usullar bilan solishtirish. O'tgan maqolalarda e'lon qilingan natijalar bilan taqqoslaganda, Meta Pseudo Labels barcha uchta ma'lumotlar to'plamida bir xil model arxitekturalari orasida eng yaxshi aniqlikka erishdi: CIFAR-10-4K, SVHN-1K va ImageNet-10%. CIFAR-10-4K va SVHN-1K da Meta Pseudo Labels eng yuqori xabar qilingan bazaviy chiziqlar bilan solishtirganda deyarli 10% nisbiy xatoliklarni kamaytirishga olib keladi [ 58 ]. ImageNet-10% da Meta Pseudo Labels SimCLR dan [ 8 , 9 ] 2,19% yuqori aniqlik bilan ustunlik qiladi.
Ushbu ma'lumotlar to'plamida yaxshiroq natijalar mavjud bo'lsa-da, bizning ma'lumotlarimizga ko'ra, bunday natijalarning barchasi kattaroq modellar, kuchliroq tartibga solish usullari yoki qo'shimcha distillash jarayonlari bilan olinadi. Misol uchun, CIFAR-10-4K da eng yaxshi xabar qilingan aniqlik 97,3% [ 76 ] ni tashkil qiladi, ammo bu aniqlikka erishiladi.
PyramidNet bizning WideResNet-28-2 ga qaraganda 17 barobar ko'proq parametrlarga ega va ShakeDrop regularizatsiya kompleksidan foydalanadi [ 80 ]. Boshqa tomondan, ImageNet-10% uchun eng yaxshi xabar qilingan eng yaxshi aniqlik 80,9% ni tashkil etadi, bu Sim-CLRv2 [ 9 ] tomonidan o'z-o'zini distillash o'rgatish bosqichi va ResNet-152 3 yordamida bizning ResNet-ga qaraganda 32 barobar ko'proq parametrlarga ega. -50. Arxitektura, tartibga solish va distillash bo'yicha bunday yaxshilanishlar natijalarimizni yanada yaxshilash uchun Meta Pseudo Labels uchun ham qo'llanilishi mumkin.
3.3. ResNet-50 tajribasi
Oldingi tajribalar shuni ko'rsatadiki, Meta Pseudo La-bels CIFAR-10-4K, SVHN-1K va ImageNet-10% da boshqa yarim nazorat qilinadigan o'rganish usullaridan ustundir. Ushbu tajribada biz eng shinalar ImageNet ma'lumotlar to'plamidagi Meta Pseudo Labels va JFT ma'lumotlar to'plamidagi yorliqsiz rasmlarni taqqoslaymiz. Ushbu eksperimentning maqsadi EfficientNet da keng ko'lamli tajribalar o'tkazishdan oldin Meta Pseudo Labels keng qo'llaniladigan ResNet-50 arxitekturasida [ 24 ] yaxshi ishlashini tekshirishdan iborat ( 4 -bo'lim ).
Ma'lumotlar to'plami. Yuqorida aytib o'tilganidek, biz ImageNet ma'lumotlar to'plamidagi barcha etiketli misollar bilan tajriba o'tkazamiz. Biz giperparametrlarni sozlash va model tanlash uchun ImageNet ma'lumotlar to'plamidan 25 000 ta misolni saqlab qo'yamiz. Bizning sinov to'plamimiz ILSVRC 2012 tekshirish to'plamidir. Bundan tashqari, biz JFT ma'lumotlar to'plamidan 12,8 million yorliqsiz tasvirni olamiz. Ushbu 12,8 mln.ni olish uchun
yorlig'i bo'lmagan tasvirlar uchun biz birinchi navbatda ResNet-50 ni butun ImageNet o'quv to'plamida o'qitamiz va keyin olingan ResNet-50 dan JFT ma'lumotlar to'plamidagi tasvirlarga sinf ehtimolini belgilash uchun foydalanamiz. Keyin ImageNet ning 1000 ta sinfining har biri uchun eng yuqori ehtimollikdagi 12 800 ta tasvirni tanlaymiz. Ushbu tanlov natijasida 12,8 million tasvir olinadi. Shuningdek, biz foydalanadigan 12,8 million tasvirning hech biri ImageNet’ning ILSVRC 2012 tekshirish to‘plamiga mos kelmasligiga ishonch hosil qilamiz. Qo'shimcha etiketlanmagan ma'lumotlarni filtrlashning ushbu tartibi UDA [ 76 ] va Noisy Student [ 77 ] tomonidan qo'llanilgan.
Amalga oshirish tafsilotlari. Biz Meta Pseudo Labelsni 3.2 -bo'limdagi kabi qo'llaymiz lekin biz kattaroq partiya hajmi va ko'proq o'qitish bosqichlaridan foydalanamiz, chunki bu tajriba uchun ma'lumotlar to'plami ancha katta. Xususan, talaba va o‘qituvchi uchun biz yorliqli tasvirlar uchun 4096 to‘plam hajmini va yorliqsiz tasvirlar uchun 32,768 partiya hajmidan foydalanamiz. Biz 500 000 qadam uchun mashq qilamiz, bu etiketlanmagan ma'lumotlar to'plamida taxminan 160 davrga teng. ImageNet+JFT-da Meta Pseudo Labels bosqichini o'qitganimizdan so'ng, biz ImageNet-da olingan talabani 10 4 sobit o'rganish tezligidan foydalanib, 10 000 SGD qadamiga aniq sozlaymiz . 512 TPUv2 yadrosidan foydalangan holda, bizning o'quv jarayonimiz taxminan 2 kun davom etadi.
Asosiy chiziqlar. Biz Meta Pseudo Labellarni ikkita asosiy guruhga solishtiramiz. Birinchi guruhda AutoAugment [ 12 ], DropBlock[ 18 ] va CutMix [ 83 ] kabi maʼlumotlarni koʻpaytirish yoki tartibga solish usullari bilan nazorat qilinadigan oʻrganish usullari mavjud . Ushbu asosiy ko'rsatkichlar ResNet-50 da nazorat qilinadigan eng zamonaviy o'rganish usullarini ifodalaydi. Tayanch ko'rsatkichlarning ikkinchi guruhi ImageNet-dan olingan yorliqli o'quv tasvirlari va boshqa joylarda yorliqsiz tasvirlardan foydalanadigan uchta so'nggi yarim nazorat ostida o'rganish usullaridan iborat. Xususan, milliard miqyosdagi yarim nazorat ostida o'rganish [ 79 ] YFCC100M ma'lumotlar to'plamidan [ 65 ] yorliqsiz ma'lumotlardan foydalanadi, UDA [ 76 ] va Noisy Student [ 77 ] ikkalasi ham JFT dan Meta Pseudo Labels kabi etiketlanmagan ma'lumotlar sifatida foydalanadi. 3.2 - bo'limga o'xshab , biz faqat Meta Pseudo Labelsni ResNet-50 yordamida va distillashsiz olingan natijalar bilan solishtiramiz.
Natijalar. 3 -jadval natijalarini taqdim etadi. Jadvaldan ko'rinib turibdiki, Meta Pseudo Labels ResNet-50 ning eng yaxshi aniqligini 76,9% dan 83,2% gacha oshiradi, bu ImageNet uchun yaxshilanishning katta chegarasi bo'lib, UDA va shovqinli talabalardan ham ustundir. Meta Pseudo Labels, shuningdek , birinchi darajali aniqlikda milliardlab SSL [ 68 , 7 9 ] dan ustundir. Bu juda ta'sirli, chunki milliardlab miqyosdagi SSL o'zlarining ResNet-50-ni Instagram-dan zaif nazorat ostidagi tasvirlarga oldindan o'rgatadi.
Usul
|
Yorliqsiz
|
Aniqlik
|
|
Tasvirlar
|
(top-1=top-5)
|
|
|
|
|
|
|
|
Nazorat qilingan [ 24 ]
|
Yo'q
|
76,9=93,3
|
|
AutoAugment [ 12 ]
|
Yo'q
|
77,6=93,8
|
|
DropBlock [ 18 ]
|
Yo'q
|
78,4=94,2
|
|
FixRes [ 68 ]
|
Yo'q
|
79,1=94,6
|
|
FixRes+CutMix [ 83 ]
|
Yo'q
|
79,8=94,9
|
|
|
|
|
|
NoisyStudent [ 77 ]
|
JFT
|
78,9=94,3
|
|
UDA [ 76 ]
|
JFT
|
79,0=94,5
|
|
Milliard miqyosdagi SSL [ 68 , 79 ]
|
YFCC
|
82,5=96,6
|
|
|
|
|
|
Meta psevdo teglar
|
JFT
|
83,2=96,5
|
|
|
|
|
|
3-jadval: Meta Pseudo Labels va ImageNet-da ResNet-50 bilan boshqariladigan va yarim nazorat qilinadigan usullarning Top-1 va Top-5 aniqligi.
Katta miqyosdagi eksperiment: ImageNet aniqligi chegaralarini oshirish
Ushbu bo'limda biz ImageNet aniqligi chegaralarini oshirish uchun katta model va katta ma'lumotlar to'plamida mashq qilish uchun Meta Pseudo Labels ni kengaytiramiz. Xususan, biz EfficientNet-L2 arxitekturasidan foydalanamiz, chunki u ResNets-ga qaraganda yuqori quvvatga ega. EfficientNet-L2, shuningdek, Noisy Student [ 77 ] tomonidan ImageNet-da 88,4% lik yuqori aniqlikka erishish uchun ishlatilgan.
Ma'lumotlar to'plami. Ushbu tajriba uchun biz butun ImageNet o'quv majmuasidan etiketli ma'lumotlar sifatida foydalanamiz va JFT ma'lumotlar to'plamidan etiketlanmagan ma'lumotlar sifatida foydalanamiz. JFT ma'lumotlar to'plamida 300 million tasvir mavjud va keyin Noisy Student tomonidan ishonch chegaralari va yuqori namunalar yordamida 130 million tasvirgacha filtrlanadi [ 77 ]. Biz Noisy Student kabi 130 million tasvirdan foydalanamiz.
Model arxitekturasi. Biz EfficientNet-L2 bilan tajriba o'tkazamiz, chunki u qo'shimcha etiketli ma'lumotlarsiz Ima-geNet [ 77 ] da eng so'nggi ishlashga ega. Biz Noisy Student bilan bir xil giper-parametrlardan foydalanamiz, bundan tashqari biz 475x475 o'rniga 512x512 o'quv tasvir o'lchamlarini ishlatamiz. Biz keyingi paragrafda muhokama qiladigan model parallelizmni amalga oshirishga mos keladigan kirish tasvirining ruxsatini oshiramiz. EfficientNet-L2 ga qo'shimcha ravishda biz EfficientNet-B6 [ 63 ] bilan bir xil chuqurlikka ega bo'lgan, lekin kenglik koeffitsienti 2,1 dan 5,0 gacha ko'tarilgan kichikroq model bilan ham tajriba o'tkazamiz . EfficientNet-B6-Wide deb nomlangan ushbu model 390 million parametrga ega. Biz EfficientNet-B6-Wide uchun EfficientNet-L2 ning barcha giper-parametrlarini qabul qilamiz. Biz EfficientNet-B6-Wide EfficientNet-L2 bilan deyarli bir xil ishlashga ega ekanligini aniqladik, ammo kompilyatsiya qilish va o'qitish tezroq.
Model parallelligi. Tarmoqlarimiz xotirasi tufayli o'qituvchi va talaba xotirasida ikkita bunday tarmoqni saqlash mavjud bo'lganidan ancha oshib ketadi.
Usul
|
# Paramlar
|
Qo'shimcha ma'lumotlar
|
ImageNet
|
ImageNet-ReaL [ 6 ]
|
|
Top-1
|
Top-5
|
Aniqlik@1
|
|
|
|
|
|
|
|
|
|
|
|
|
ResNet-50 [ 24 ]
|
26M
|
|
76,0
|
93,0
|
82,94
|
|
ResNet-152 [ 24 ]
|
60M
|
|
77.8
|
93.8
|
84,79
|
|
DenseNet-264 [ 28 ]
|
34M
|
|
77.9
|
93.9
|
|
|
Inception-v3 [ 62 ]
|
24M
|
|
78.8
|
94.4
|
83.58
|
|
Xception [ 11 ]
|
23M
|
|
79,0
|
94.5
|
|
|
Inception-v4 [ 61 ]
|
48M
|
|
80,0
|
95,0
|
|
|
Inception-resnet-v2 [ 61 ]
|
56M
|
|
80.1
|
95.1
|
|
|
ResNeXt-101 [ 78 ]
|
84M
|
|
80.9
|
95.6
|
85.18
|
|
PolyNet [ 87 ]
|
92 mln
|
|
81.3
|
95.8
|
|
|
SENet [ 27 ]
|
146 mln
|
|
82.7
|
96.2
|
|
|
NASNet-A [ 90 ]
|
89M
|
|
82.7
|
96.2
|
82.56
|
|
AmoebaNet-A [ 52 ]
|
87M
|
|
82.8
|
96.1
|
|
|
PNASNet [ 39 ]
|
86M
|
|
82.9
|
96.2
|
|
|
AmoebaNet-C + AutoAugment [ 12 ]
|
155 mln
|
|
83.5
|
96.5
|
|
|
GPipe [ 29 ]
|
557 mln
|
|
84.3
|
97,0
|
|
|
EfficientNet-B7 [ 63 ]
|
66M
|
|
85,0
|
97.2
|
|
|
EfficientNet-B7 + FixRes [ 70 ]
|
66M
|
|
85.3
|
97.4
|
|
|
EfficientNet-L2 [ 63 ]
|
480 mln
|
|
85.5
|
97.5
|
|
|
ResNet-50 milliardlik SSL [ 79 ]
|
26M
|
Instagram etiketli 3.5B
|
81.2
|
96,0
|
|
|
ResNeXt-101 milliardlik SSL [ 79 ]
|
193M
|
Instagram etiketli 3.5B
|
84.8
|
|
|
|
ResNeXt-101 WSL [ 42 ]
|
829 mln
|
Instagram etiketli 3.5B
|
85.4
|
97.6
|
88.19
|
|
FixRes ResNeXt-101 WSL [ 69 ]
|
829 mln
|
Instagram etiketli 3.5B
|
86.4
|
98,0
|
89,73
|
|
Katta transfer (BiT-L) [ 33 ]
|
928 mln
|
JFT etiketli 300M
|
87.5
|
98.5
|
90.54
|
|
Shovqinli talaba (EfficientNet-L2) [ 77 ]
|
480 mln
|
300M yorliqsiz JFT
|
88.4
|
98.7
|
90,55
|
|
Shovqinli talaba + FixRes [ 70 ]
|
480 mln
|
300M yorliqsiz JFT
|
88.5
|
98.7
|
|
|
Vision Transformator (ViT-H) [ 14 ]
|
632 mln
|
JFT etiketli 300M
|
88,55
|
|
90,72
|
|
EfficientNet-L2-NoisyStudent + SAM [ 16 ]
|
480 mln
|
300M yorliqsiz JFT
|
88.6
|
98.6
|
|
|
Meta psevdo teglar (EfficientNet-B6-Wide)
|
390 mln
|
300M yorliqsiz JFT
|
90,0
|
98.7
|
91.12
|
|
Meta psevdo teglar (EfficientNet-L2)
|
480 mln
|
300M yorliqsiz JFT
|
90.2
|
98.8
|
91.02
|
|
|
|
|
|
|
|
|
4-jadval: Meta Pseudo Labels va ImageNet-dagi oldingi zamonaviy usullarning Top-1 va Top-5 aniqligi. EfficientNet-L2 va EfficientNet-B6-Wide bilan Meta Pseudo Labels eng zamonaviy [ 16 ] ustiga 1,6% yaxshilanishga erishadi, garchi ikkinchisi JFT dan 300 million etiketli ta'lim misollaridan foydalansa ham.
bizning tezlatgichlarimiz xotirasi. Shunday qilib, biz Meta Pseudo Labels-ni ishga tushirish uchun gibrid model-ma'lumotlar parallelligi tizimini loyihalashtiramiz. Xususan, bizning o'quv jarayonimiz 2048 TPUv3 yadrolari klasterida ishlaydi. Sinxronlashtirilgan gradientlar bilan standart ma'lumotlar parallelligi bilan ishlash uchun biz ushbu yadrolarni 128 ta bir xil replikatsiyaga ajratamiz. 2,048/128=16 yadroda ishlaydigan har bir replikada biz ikki turdagi model parallelligini amalga oshiramiz. Birinchidan, 512x512 o'lchamdagi har bir kirish tasviri kenglik o'lchami bo'ylab 512x32 teng o'lchamdagi 16 ta yamoqqa bo'linadi va qayta ishlash uchun 16 yadroga taqsimlanadi. E'tibor bering, biz 512x512 kirish o'lchamlarini tanlaymiz, chunki 512 Noisy Student tomonidan qo'llaniladigan 475x475 ruxsatga yaqin va 512 tarmoqning oraliq chiqishlarining o'lchamlarini 16 ga bo'linadigan darajada saqlaydi. Ikkinchidan, har bir og'irlik tensori ham teng ravishda 16 ta qismga bo'linadi. 16 yadroga. Biz gibrid ma'lumotlar modeli parallelligini XLA-Sharding ramkasida amalga oshiramiz [ 37 ]. Ushbu parallelizm yordamida biz har biriga 2048 ta etiketli va 16 384 ta yorliqsiz tasvirdan iborat paket hajmini sig'dira olamiz.
ta'lim bosqichi. Biz modelni jami 1 million qadamga o'rgatamiz, bu EfficientNet-L2 uchun taxminan 11 kun va EfficientNet-B6-Wide uchun 10 kun davom etadi. Meta Pseudo Labels trening bosqichini tugatgandan so'ng, biz yorliqli ma'lumotlar to'plamimizdagi modellarni 20 000 qadam uchun aniqlaymiz. Nozik sozlash tartib-qoidalarining tafsilotlari C.4 -ilovada keltirilgan .
Natijalar. Natijalarimiz 4 -jadvalda keltirilgan . Jadvaldan ko'rinib turibdiki, Meta Pseudo Labels ImageNet-da 90,2% yuqori darajadagi aniqlikka erishadi, bu ushbu ma'lumotlar to'plamidagi yangi eng zamonaviy hisoblanadi. Bu natija Noisy Student [ 77 ] va FixRes [ 69 , 70 ] bilan o'qitilgan bir xil EfficientNet-L2 arxitekturasidan 1,8% yaxshiroq . Meta Pseudo Labels, shuningdek, BiT-L [ 33 ] tomonidan so'nggi natijalar va Vision Transformer [ 14 ] tomonidan oldingi zamonaviy natijalardan ustundir. Bu erdagi muhim farq shundaki, Bit-L ham, Vision Transformer ham JFT-dan 300 million yorliqli tasvirlarni oldindan tayyorlaydi, bizning usulimizda faqat ushbu ma'lumotlar to'plamidagi yorliqsiz tasvirlardan foydalaniladi. Ushbu aniqlik darajasida,
16 ] ustidan 1,6% daromadimiz so'nggi yutuqlar bilan solishtirganda yaxshilanishning juda muhim marjasidir. Misol uchun, Vision Transformer [ 14 ] ning Noisy Student + FixRes ga nisbatan o‘sish darajasi atigi 0,05% ni, FixRes ning Noisy Student ga nisbatan ortishi esa atigi 0,1% ni tashkil etdi.
Nihoyat, bizning modelimiz ImageNet ILSVRC 2012 tekshirish to'plamiga shunchaki mos kelmasligini tekshirish uchun uni ImageNet-ReaL test to'plamida sinab ko'ramiz [ 6 ]. Ushbu test majmuasida bizning modelimiz ham yaxshi ishlaydi va 91,02% Precision@1 ga erishadi, bu Vision Transformer [ 14 ] dan 0,4% yaxshiroq . Bu bo'shliq Vision Transformer va Noisy Student o'rtasidagi farqdan ham kattaroqdir, bu atigi 0,17%.
Meta Pseudo Labelsning sodda versiyasi. Meta Pseudo Labelsning qimmat o'qitish narxini hisobga olgan holda, biz Meta Pseudo Labelsning qisqartirilgan Meta Pseudo Labels deb nomlangan sodda versiyasini ishlab chiqdik. Biz ushbu sodda versiyani E ilovasida tasvirlab beramiz , bu erda EfficentNet-B7 bilan ImageNet ILSRVC 2012 tekshirish to'plamida 86,9% eng yaxshi 1 aniqlikka erishamiz. JFT kabi xususiy maʼlumotlardan foydalanmaslik uchun biz ImageNet oʻquv majmuasidan etiketli maʼlumotlar sifatida va YFCC100M maʼlumotlar toʻplamidan [ 65 ] yorliqsiz maʼlumotlar sifatida foydalanamiz. Qisqartirilgan Meta Pseudo Labels ikki tarmoqni xotirada saqlash zaruriyatidan qochib, Meta Pseudo Labels-ning qayta aloqa mexanizmini amalga oshirishga imkon beradi.
5. Tegishli ishlar
Pseudo teglar. Pseudo Labels usuli, shuningdek, o'z-o'zini o'rgatish sifatida ham tanilgan, bu oddiy yarim nazorat ostida o'rganish (SSL) usuli bo'lib, u ko'plab vazifalarning zamonaviyligini yaxshilash uchun muvaffaqiyatli qo'llaniladi, masalan: tasvir tasnifi [ 79 , 77 ], ob'ektni aniqlash, semantik segmentatsiya [ 89 ], mashina tarjimasi [ 22 ] va nutqni aniqlash [ 31 , 49 ]. Vanilla Pseudo Labels usullari talabaning o'rganishi davomida oldindan o'qitilgan o'qituvchini qattiq ushlab turadi, bu esa soxta teglar noto'g'ri bo'lsa, tasdiqlovchi tarafkashlikka olib keladi [ 2 ]. Vanilla Pseudo Labelsdan farqli o'laroq, Meta Pseudo Labels yorliqli ma'lumotlar to'plamida talabaning ish faoliyatini yaxshilash uchun o'qituvchini moslashtirishda davom etmoqda. Ushbu qo'shimcha moslashuv o'qituvchiga tajribalarimizda ko'rsatilganidek, talabani o'rgatish uchun yaxshiroq soxta teglar yaratishga imkon beradi.
Boshqa SSL yondashuvlari. Boshqa o'nta tipik SSL usullari - etiketli ma'lumotlarda nazorat qilinadigan yo'qotish va etiketlanmagan ma'lumotlarda nazoratsiz yo'qotishlarni birlashtirgan ob'ektiv funktsiyani optimallashtirish orqali bitta modelni o'rgatadi. Nazorat qilinadigan yo'qotish ko'pincha belgilangan ma'lumotlarda hisoblangan o'zaro entropiyadir. Shu bilan birga, nazoratsiz yo'qotish odatda o'z-o'zidan boshqariladigan yo'qotish yoki yorliqning tarqalishini yo'qotishdir. O'z-o'zidan boshqariladigan yo'qotishlar odatda modelni rasmda chizish [ 50 ], jumboqlarni echish [ 47 ], aylanish burchagini bashorat qilish [ 19 ], kontrastli bashorat [ 25 , 10 ] kabi tasvirlar haqida umumiy fikrni rivojlantirishga undaydi. , 8 , 9 , 38 ] yoki yuklash
yashirin bo'shliq [ 21 ]. Boshqa tomondan, yorliqlarning tarqalishidagi yo'qotishlar, odatda, model ma'lumotlarning ko'payishi, raqib hujumlari yoki yashirin makonda yaqinlik kabi ma'lumotlarning ma'lum o'zgarishlariga qarshi o'zgarmasligini ta'minlaydi [ 35 , 64 , 44 , 5 , 76 , 30 , 71 , 58 , 32 , 51 , 20 ]. Meta Pseudo Labels yuqorida aytib o'tilgan SSL usullaridan ikkita muhim jihatdan ajralib turadi. Birinchidan, Meta Pseudo Labels-dagi talaba hech qachon yorliqlangan ma'lumotlardan to'g'ridan-to'g'ri o'rganmaydi, bu esa haddan tashqari moslashishning oldini olishga yordam beradi, ayniqsa etiketli ma'lumotlar cheklangan bo'lsa. Ikkinchidan, Meta Pseudo Labels-dagi o'qituvchi talabaning belgilangan ma'lumotlar bo'yicha ishlashidan oladigan signal etiketli ma'lumotlardan foydalanishning yangi usuli hisoblanadi.
Bilimlarni distillash va yorliqlarni tekislash. Meta Pseudo Labels-dagi o'qituvchi talabaga o'rgatish uchun etiketlanmagan ma'lumotlarga nisbatan softmax bashoratlaridan foydalanadi. Ushbu softmax pre-dictions odatda yumshoq teglar deb ataladi, ular bilimlarni distillash bo'yicha adabiyotda keng qo'llaniladi [ 26 , 17 , 86 ]. Distillash bo'yicha ish chizig'idan tashqari, qo'lda ishlab chiqilgan yumshoq teglar, masalan, tegni tekislash [ 45 ] va haroratni keskinlashtirish yoki namlash [ 76 , 77 ], shuningdek, modellarni umumlashtirishni yaxshilash uchun ko'rsatildi. Ushbu ikkala usulni optimallashtirish va umumlashtirishni yaxshilash uchun o'quv misollarining yorliqlarini sozlash sifatida ko'rish mumkin. Boshqa SSL usullariga o'xshab, ushbu tuzatishlar ushbu maqolada taklif qilinganidek, talabaning ishlashi haqida hech qanday fikr bildirmaydi. Meta Pseudo Labels bilan Label Smoothing bilan taqqoslanadigan tajriba D.2 ilovasida keltirilgan .
Ikki darajali optimallashtirish algoritmlari. Biz metod nomida Meta dan foydalanamiz, chunki talabaning fikr-mulohazalaridan oʻqituvchining yangilash qoidasini olish texnikamiz meta-taʼlim adabiyotida tez-tez uchraydigan ikki darajali optimallashtirish muammosiga asoslangan. Modelni o'rganish jarayonini optimallashtirish uchun shunga o'xshash ikki darajali optimallashtirish muammolari taklif qilingan, masalan, o'rganish tezligi jadvalini o'rganish [ 3 ], arxitekturani loyihalash [ 40 ], noto'g'ri ta'lim belgilarini tuzatish [ 88 ], o'quv misollarini yaratish [ 59 ], va qayta og'irlikdagi ta'lim ma'lumotlari [ 73 , 74 , 54 , 53 ]. Meta Pseudo Labels talabaning fikr-mulohazalaridan o'qituvchining gradientini olish uchun ushbu ish yo'nalishida bir xil ikki darajali optimallashtirish texnikasidan foydalanadi. Meta Pseudo Labels va bu usullar o'rtasidagi farq shundaki, Meta Pseudo Labels o'qituvchi modeli tomonidan yaratilgan soxta teglarni yaxshilash uchun ikki darajali optimallashtirish texnikasini qo'llaydi.
6. Xulosa
Ushbu maqolada biz yarim nazorat ostida o'rganish uchun Meta Pseudo Labels usulini taklif qildik. Meta Pseudo Labels kaliti - bu o'qituvchi talabaning fikr-mulohazalaridan o'rganib, soxta yorliqlarni talabaning o'rganishiga eng yaxshi yordam beradigan tarzda yaratishi haqidagi g'oyadir. Meta Pseudo-da o'quv jarayoni
Yorliqlar ikkita asosiy yangilanishdan iborat: o'qituvchi tomonidan ishlab chiqarilgan soxta etiketli ma'lumotlar asosida talabani yangilash va o'qituvchini talabaning ishlashi asosida yangilash. CIFAR-10-4K, SVHN-1K va ImageNet-10% kabi standart kam resurs mezonlari bo'yicha tajribalar Meta Pseudo Labels ko'plab mavjud yarim nazorat ostidagi o'rganish usullaridan yaxshiroq ekanligini ko'rsatadi. Meta Pseudo Labels, shuningdek, katta muammolarni hal qilishda yaxshi miqyosda bo'lib, ImageNet-da 90,2% yuqori darajadagi aniqlikka erishadi, bu avvalgi eng zamonaviy [ 16 ]ga qaraganda 1,6% yaxshiroq. Doimiy yutuqlar talabaning o'qituvchiga bo'lgan fikr-mulohazalarining foydasini tasdiqlaydi.
Minnatdorchilik
Mualliflar Rohan Anil, Frank Chen, Vang Taoga tajribalarimizni o‘tkazishda ko‘plab texnik masalalarda yordam berganliklari uchun minnatdorchilik bildiradilar. Shuningdek, biz Devid Berthelot, Nikolas Karlini, Silven Gelli, Jeoff Xinton, Muhammad Noruzi va Kolin Raffelga maqolaning oldingi qoralamalari bo‘yicha o‘z fikr-mulohazalari uchun va Google Brain Team a’zolariga ushbu juda uzoq davom etgan loyiha davomida qo‘llab-quvvatlaganliklari uchun minnatdorchilik bildiramiz.
Jaime Carbonell, shuningdek, ResNets modeli ImageNet uchun ma'lumotlarni yuklash muammosini bartaraf etish bo'yicha bizga maslahat berdi. Bizning ResNet ishlarimiz uchun zaxira TPUlar etarli bo'lmaganda, uning maslahati ko'p yordam berdi. U chuqur xotirada qoladi.
Ma'lumotnomalar
Martin Abadi, Pol Barxem, Jianmin Chen, Jifeng Chen, Endi Devis, Jeffri Din, Metti Devin, Sanjay Ghe-mavat, Jefri Irving, Maykl Isard, Manjunath Kud-lur, Josh Levenberg, Rajat Monga, Sherri Mur, Benoit G, Derek . Murrayand Shtayner, Pol Taker, Vijay Vasude-van, Pit Uorden, Martin Uik, Yuan Yu va Xiaoqiang Zheng. Tensorflow: Katta miqyosda mashinani o'rganish tizimi. Operatsion tizimlarni loyihalash va joriy etish boʻyicha USENIX simpoziumida, 2016. 17
Erik Arazo, Diego Ortego, Pol Albert, Noel E. O'Konnor va Kevin MakGinnes. Chuqur yarim nazorat ostida o'rganishda psevdo-yorliqlash va tasdiqlash tarafkashligi. Arxiv, 1908.02983, 2019. 1 , 4 , 8 , 19
Atilim Gunes Baydin, Robert Kornish, David Martinez Rubio, Mark Shmidt va Frank Vud. Gipergradient tushish bilan onlayn o'rganish tezligi moslashuvi. Ta'lim vakilliklari bo'yicha xalqaro konferentsiyada, 2018. 8 , 16
Devid Berthelot, Nikolas Karlini, Ekin D. Kubuk, Aleks Ku-rakin, Kihyuk Son, Xan Chjan va Kolin Raffel. Remiks-match: tarqatish moslashuvi va kuchaytiruvchi langar bilan yarim nazorat ostida o'rganish. O'quv vakolatlari bo'yicha xalqaro konferentsiyada, 2020. 4 , 5
Devid Bertelot, Nikolas Karlini, Ian Gudfello, Nikolas Papernot, Avital Oliver va Kolin Raffel. MixMatch: yarim nazorat ostida o'rganishga yaxlit yondashuv. Neyron axborotni qayta ishlash tizimlaridagi yutuqlar, 2019. 4 , 5 , 8
Lukas Beyer, Olivye J Henaff, Aleksandr Kolesnikov, Xi-aoxua Chjai va Aaron van den Oord. ImageNet bilan ishimiz tugadimi? arXiv preprint arXiv:2006.07159, 2020. 1 , 7 , 8
Olivier Chapelle, Bernhard Schlkopf va Aleksandr Zien. Yarim nazorat ostida o'qitish. MIT Press, 2010. 3
Ting Chen, Saymon Kornblit, Muhammad Noruzi va Ge-offri Xinton. Vizual tasvirlarni kontrastli o'rganish uchun oddiy ramka. Mashinalarni o'rganish bo'yicha xalqaro konferentsiyada, 2020. 4 , 5 , 8
Ting Chen, Saymon Kornblit, Kevin Sverskiy, Muhammad Noruzi va Jefri Xinton. Katta o'zini o'zi boshqaradigan modellar kuchli yarim nazorat ostidagi o'quvchilardir. Neyron axborotni qayta ishlash tizimlaridagi yutuqlar, 2020. 4 , 5 , 8
Xinlei Chen, Xaoqi Fan, Ross Girshik va Kaiming Xe. Tez kontrastli o'rganish bilan takomillashtirilgan asoslar. Arxiv, 2003.04297, 2020. 4 , 5 , 8
Fransua Chollet. Xception: Chuqur ajraladigan konvolyutsiyalar bilan chuqur o'rganish. IEEE konferentsiyasida kompyuter ko'rish va naqshlarni aniqlash, 2017. 7
Ekin D. Kubuk, Barret Zof, Dandelion Mane, Vijay Vasude-van va Quoc V. Le. AutoAugment: Ma'lumotlardan ko'paytirish siyosatlarini o'rganish. IEEE konferentsiyasida kompyuter ko'rish va naqshlarni aniqlash, 2019. 6 , 7 , 16 , 17
Ekin D. Kubuk, Barret Zof, Jonaton Shlens va Quoc V. Le. Randaugment: alohida qidiruvsiz ma'lumotlarni amaliy ko'paytirish. Neyron axborotni qayta ishlash tizimlaridagi yutuqlarda, 2020. 4 , 16
Aleksey Dosovitskiy, Lukas Beyer, Aleksandr Kolesnikov, Dirk Vayssenborn, Syaoxua Chjay, Tomas Untertayner, Mostafa Dehg‘ani, Matias Minderer, Georg Xeygold, Sil-Veyn Gelli, Yakob Ushkoreyt va Nil Xulsbi. Tasvir 16x16 so'zdan iborat: miqyosda tasvirni aniqlash uchun transformatorlar. Arxiv, 2010.11929, 2020. 1 , 7 , 8
Chelsi Finn, Piter Abbeel va Sergey Levin. Chuqur tarmoqlarni tez moslashtirish uchun model-agnostik meta-o'rganish. Mashinalarni o'rganish bo'yicha xalqaro konferentsiyada, 2017. 2
Per Foret, Ariel Kleiner, Xosseyn Mobaxi va Behnam Neyshabur. Umumlashtirishni samarali yaxshilash uchun aniqlikni hisobga oladigan minimallashtirish. Arxiv, 2010.01412, 2020. 1 , 7 , 8 , 9
Tommaso Furlanello, Zachari C. Lipton, Maykl Tschannen, Loran Itti va Anima Anandkumar. Qayta tug'ilgan neyron tarmoqlar. Mashinalarni o'rganish bo'yicha xalqaro konferentsiyada, 2018. 8
Golnaz Ghiasi, Tsung-Yi Lin va Quoc V. Le. Dropblock: konvolyutsion tarmoqlar uchun tartibga solish usuli. Neyron axborotni qayta ishlash tizimlarida avanslar, 2018. 6
Spyros Gidaris, Praveer Singx va Nikos Komodakis. Tasvir aylanishini bashorat qilish orqali nazoratsiz vakillikni o'rganish. IEEE konferentsiyasida Kompyuter ko'rish va naqshlarni aniqlash, 2018. 8
Iv Grandvalet va Yoshua Bengio. Entropiyani minimallashtirish orqali yarim nazorat ostida o'rganish. Kompyuterni ko'rish bo'yicha xalqaro konferentsiyada, 2005. 8
Jan-Bastien Grill, Florian Strub, Florent Altche, Korentin Tallek, Per X. Richemond, Elena Buchatskaya, Karl Do-ersch, Bernardo Avila Pires, Jaohan Daniel Guo, Moham-mad Gheshlagi Azar, Bilal Piot, Koray Kavukcuoglu, Remi Munos, va Mixal Valko. O'z yashirin yuklash: O'z-o'zini nazorat qilish uchun yangi yondashuv. Neyron axborotni qayta ishlash tizimlaridagi yutuqlar, 2020. 5 , 8
Junxian Xe, Jiatao Gu, Jiajun Shen va Mark'Aurelio Ran-zato. Neyron ketma-ketligini yaratish uchun o'z-o'zini o'qitishni qayta ko'rib chiqish. Ta’lim vakillari bo‘yicha xalqaro konferensiyada, 2020. 8
Kaiming Xe, Xaoqi Fan, Yuxin Vu, Saining Xe va Ross Girshik. Nazoratsiz vizual tasvirni o'rganish uchun momentum kontrasti. Kompyuterni ko‘rish va namunani aniqlash bo‘yicha IEEE konferensiyasida, 2020. 4
Kaiming Xe, Xiangyu Chjan, Shaoqing Ren va Jian Sun. Tasvirni aniqlash uchun chuqur qoldiq o'rganish. IEEE konferentsiyasida kompyuter ko'rish va naqshni aniqlash, 2016. 4 , 5 , 6 , 7
Olivier J. Henaff, Aravind Srinivas, Jeffrey De Fauw, Ali Razavi, Carl Doersch, SM Ali Eslami va Aaron van den Oord. Kontrastli prediktiv kodlash bilan ma'lumotlardan samarali tasvirni aniqlash. Arxiv, 2003.04297, 2020. 4 , 8
Jeffri Xinton, Oriol Vinyals va Jeff Din. Neyron tarmoqdagi bilimlarni distillash. Arxiv, 1503.02531, 2015. 1 , 8
Ji Xu, Li Shen va Gang Sun. Siqish va qo'zg'alish tarmoqlari. Kompyuterni ko‘rish va namunani aniqlash bo‘yicha IEEE konferensiyasi materiallarida, 2018. 7
Gao Huang, Zhuang Liu, Laurens van der Maaten va Kil-ian Q. Weinberger. Zich bog'langan konvolyutsion tarmoqlar. IEEE konferentsiyasida kompyuter ko'rish va naqshlarni aniqlash, 2016. 7
Yanping Huang, Yonglong Cheng, Dehao Chen, HyoukJoong Li, Jiquan Ngiam, Quoc V Le va Zhifeng Chen. GPipe: Quvur parallelizmidan foydalangan holda yirik neyron tarmoqlarni samarali o'qitish. Neyron axborotni qayta ishlash tizimlaridagi yutuqlar, 2019. 7
Jeykob Jekson va Jon Shulman. Yorliq gradientini moslashtirish orqali yarim nazorat ostida o'rganish. Arxiv 1902.02336, 2019. 5 , 8
Jeykob Kan, Enn Li va Avni Xannun. Nutqni oxirigacha aniqlash uchun o'z-o'zini trening. Akustika, nutq va signallarni qayta ishlash bo'yicha IEEE xalqaro konferentsiyasida, 2020. 8
Chjanxan Ke, Daoye Vang, Qiong Yan, Jimmi Ren va Rynson WH Lau. Ikki talaba: yarim nazorat ostida o'qitishda o'qituvchining chegaralarini buzish. Kompyuterni koʻrish boʻyicha xalqaro konferensiyada, 2019. 8
Aleksandr Kolesnikov, Lukas Beyer, Xiaoxua Chjai, Joan Puigcerver, Jessica Yung, Silvain Gelly va Nil Xoulsbi. Katta uzatish (bit): Umumiy vizual vakillikni o'rganish. Kompyuterni ko‘rish bo‘yicha Yevropa konferensiyasi (ECCV) materiallarida, 2020. 7
Aleks Krizhevskiy. Kichkina tasvirlardan ko'p qatlamli xususiyatlarni o'rganish. Texnik hisobot, 2009 yil. 4
Samuli Laine va Timo Aila. Yarim nazorat ostida o'rganish uchun vaqtinchalik ansambl. O'quv vakilliklari bo'yicha xalqaro konferentsiyada, 2017. 5 , 8
Dong-Hyun Li. Pseudo-Label: chuqur neyron tarmoqlar uchun oddiy va samarali yarim nazoratli o'rganish usuli. Mashina o'rganish bo'yicha xalqaro konferentsiyada seminar, 2013. 1 , 20
Dmitriy Lepixin, HyoukJoong Li, Yuanzhong Xu, Dehao Chen, Orxan Firat, Yanping Huang, Maksim Krikun, Noam
Shazer va Jifeng Chen. Gshard: shartli hisoblash va avtomatik parchalanish bilan gigant modellarni masshtablash. Arxiv, 2006.16668, 2020. 7
Junnan Li, Pan Chjou, Kayming Xiong, Richard Socher va Stiven CH Xoy. Nazorat qilinmagan tasvirlarni prototipli kontrastli o'rganish. Arxiv, 2005.04966, 2020. 5 , 8
Chenxi Lyu, Barret Zof, Maksim Neumann, Jonaton Shlens, Vey Xua, Li-Jia Li, Li Fey-Fey, Alan Yuil, Jonatan Xuang va Kevin Merfi. Progressiv neyron arxitektura qidiruvi. Kompyuterni ko‘rish bo‘yicha Yevropa konferensiyasi (ECCV) materiallarida, 2018. 7
Xanxiao Liu, Karen Simonyan va Yiming Yang. Darts: Turli xil arxitektura qidiruvi. O'quv vakolatlari bo'yicha xalqaro konferentsiyada, 2019. 2 , 8
Ilya Loshchilov va Frank Xyutter. Sgdr: Issiq qayta ishga tushirish bilan stokastik gradient tushishi. Ta’lim vakilliklari bo‘yicha xalqaro konferensiyada, 2017. 17
Dhruv Mahajan, Ross Girshick, Vignesh Ramanatan, Kaim-ing He, Manohar Paluri, Yixuan Li, Ashwin Bxarambe va Laurens van der Maaten. Kuchsiz nazorat ostidagi tayyorgarlik chegaralarini o'rganish. Kompyuterni ko‘rish bo‘yicha Yevropa konferensiyasi (ECCV) materiallari, 2018. 7
Ishan Misra va Laurens van der Maaten. Bahona-invariant ko'rinishlarni o'z-o'zini nazorat qilish. Kompyuterni koʻrish va namunani aniqlash boʻyicha IEEE konferensiyasida, 2020. 5
Takeru Miyato, Shin-ichi Maeda, Shin Ishii va Masanori Koyama. Virtual raqib mashg'ulotlari: nazorat ostida va yarim nazorat ostida o'rganishni tartibga solish usuli. IEEE Trans-actions on Pattern Analysis and Machine Intelligence, 2018. 5 , 8
Rafael Myuller, Saymon Kornblit va Jefri Xinton. Yorliqlarni tekislash qachon yordam beradi? Neyron axborotni qayta ishlash tizimlaridagi yutuqlar, 2019. 8
Yuval Netzer, Tao Vang, Alessandro Kouts, Adamand Bis-sakko, Bo Vu va Endryu Y. Ng. Nazoratsiz xususiyatlarni o'rganish bilan tabiiy tasvirlardagi raqamlarni o'qish. Neyron axborotni qayta ishlash tizimlarining rivojlanishida chuqur o'rganish va nazoratsiz xususiyatlarni o'rganish bo'yicha seminar, 2011. 4
Mehdi Noruzi va Paolo Favaro. Boshqotirmalarni yechish orqali vizual tasvirlarni nazoratsiz o'rganish. IEEE konferentsiyasida kompyuter ko'rish va naqshlarni aniqlash, 2018. 8
Avital Oliver, Avgust Odena, Kolin Raffel, Ekin D. Kubuk va Ian J. Gudfello. Chuqur yarim nazorat ostida o'rganish algoritmlarini real baholash. Neyron axborotni qayta ishlash tizimlarining yutuqlarida, 2018. 4 , 5 , 17
Daniel S. Park, Yu Chjan, Ye Jia, Vey Xan, Chung-Cheng Chiu, Bo Li, Yongxuy Vu va Quoc V. Le. Nutqni avtomatik aniqlash uchun shovqinli talabalarni tayyorlash yaxshilandi. Inter-nutqda, 2020. 8
Deepak Pathak, Filipp Krahenbühl, Jeff Donahue, Trevor Darrell va Aleksey A. Efrös. Kontekst kodlovchilari: bo'yash orqali o'rganish xususiyatlari. IEEE konferentsiyasida kompyuter ko'rish va naqshlarni aniqlash, 2016. 8
Ilija Radosavovich, Piotr Dollar, Ross Girshick, Jorjiya Gkioxari va Kaiming Xe. Ma'lumotlarni distillash: har tomonlama
nazorat ostida o'rganish. Kompyuterda ko‘rish va namunalarni aniqlash bo‘yicha IEEE konferensiyasi materiallarida, 2018. 1 , 8
Esteban Real, Alok Aggarval, Yanping Huang va Quoc V Le. Tasvir tasniflagichi arxitekturasini qidirish uchun muntazam evolyutsiya. Sun'iy intellekt bo'yicha AAAI konferentsiyasi materiallarida, 33-jild, 2019 yil. 7
Mengye Ren, Venyuan Zeng, Bin Yang va Raquel Urtasun. Kuchli chuqur o'rganish uchun misollarni qayta tortishni o'rganish. Mashinalarni o'rganish bo'yicha xalqaro konferentsiyada, 2018. 8
Zhongzheng Ren, Raymond A. Yeh va Aleksandr G. Shving. Belgilanmagan barcha ma'lumotlar bir xil emas: yarim nazorat ostida o'rganishda ma'lumotlarni tortishni o'rganish. 2020. 8
Ellen Riloff. Belgilanmagan matndan avtomatik ravishda ajratib olish naqshlarini yaratish. Sun'iy intellekt bo'yicha milliy konferentsiya materiallarida, 1996. 1
Olga Russakovskiy, Jia Deng, Xao Su, Jonatan Krause, San-jeev Satheesh, Shon Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Maykl Bernshteyn, Aleksandr C. Berg va Li Fei-Fei. ImageNet keng miqyosli vizual tanib olish muammosi. International Journal of Computer Vision, 2015. 1 , 4
H Skadder. Ba'zi moslashtirilgan naqshni aniqlash mashinalarining xatolik ehtimoli. IEEE Transactions on Information Theory, 11(3), 1965. 1
Kihyuk Sohn, David Berthelot, Zizhao Li, Chun-Liang Chjan, Nikolas Carlini, Ekin D. Cubuk, Aleks Kurakin, Xan Zhang va Kolin Raffel. Fixmatch: barqarorlik va ishonch bilan yarim nazorat ostida o'rganishni soddalashtirish. IEEE konferensiyasida kompyuter koʻrish va naqshlarni aniqlash, 2020. 1 , 5 , 8
Felipe Petroski Such, Aditya Rawal, Joel Lehman, Kennet O. Stanley va Jeff Clune. Generativ o'qitish tarmoqlari: Sintetik ta'lim ma'lumotlarini yaratishni o'rganish orqali neyron arxitekturasini qidirishni tezlashtirish. 2020. 8
Chen Sun, Abhinav Shrivastava, Saurabh Singx va Abhi-nav Gupta. Chuqur o'rganish davrida ma'lumotlarning asossiz samaradorligini qayta ko'rib chiqish. Kompyuterni ko'rish bo'yicha IEEE xalqaro konferentsiyasi materiallarida, 2017. 1
Kristian Szegedi, Sergey Ioffe, Vinsent Vanxuke va Aleksandr A Alemi. Inception-v4, inception-resnet va qoldiq ulanishlarning o'rganishga ta'siri. Sun'iy intellekt bo'yicha o'ttiz birinchi AAAI konferentsiyasida, 2017. 7
Kristian Szegedi, Vinsent Vanxuk, Sergey Ioffe, Jon Shlens va Zbignev Voyna. Kompyuterni ko'rish uchun boshlang'ich arxitekturasini qayta ko'rib chiqish. Kompyuterda ko‘rish va namunalarni aniqlash bo‘yicha IEEE konferensiyasi materiallarida, 2016. 7
Mingxing Tan va Quoc V. Le. EfficientNet: Konvolyutsion neyron tarmoqlar uchun model masshtabini qayta ko'rib chiqish. Mashinalarni o'rganish bo'yicha xalqaro konferentsiyada, 2019. 6 , 7
Antti Tarvainen va Xarri Valpola. O'rtacha o'qituvchilar yaxshiroq namunadir: O'rtacha vazn bo'yicha izchillik maqsadlari yarim nazorat ostida chuqur o'rganish natijalarini yaxshilaydi. Neyron axborotni qayta ishlash tizimlaridagi yutuqlar, 2017. 5 , 8
Bart Tome, Devid A. Shamma, Jerald Fridlend, Benjamin Elizalde, Karl Ni, Duglas Polsha, Damian Bort va Li-Jia Li. YFCC100M: Multimedia tadqiqotlaridagi yangi ma'lumotlar. ACM kommunikatsiyalari, 2016. 6 , 8 , 21
T. Tieleman va G. Xinton. RmsProp: Gradientni oxirgi kattaligining o'rtacha ishlayotganiga bo'ling. COURSERA: Mashinalarni o'rganish uchun neyron tarmoqlar, 2012. 1 7
Antonio Torralba, Rob Fergus va Uilyam T. Friman. 80 million mayda tasvirlar: parametrsiz ob'ekt va sahnani aniqlash uchun katta ma'lumotlar to'plami. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008. 21 .
Ugo Tuvron, Andrea Vedaldi, Matthijs Douze va Erve Jegou. Poyezd-test qaroridagi tafovutni tuzatish. Neyron axborotni qayta ishlash tizimlarida avanslar, 2019. 6
Ugo Tuvron, Andrea Vedaldi, Matthijs Douze va Erve Jegou. Poyezd-test qaroridagi tafovutni tuzatish. Neyron axborotni qayta ishlash tizimlarida ilg‘orlik, 2019. 7
Ugo Tuvron, Andrea Vedaldi, Matthijs Douze va Erve Jegou. Poyezd-test qaroridagi nomuvofiqlikni tuzatish: Fixeffi-cientnet. arXiv preprint arXiv:2003.08237, 2020. 7
Vikas Verma, Aleks Lamb, Juxo Kannala, Yoshua Bengio va David Lopez-Paz. Yarim nazorat ostida o'rganish uchun interpolyatsiya izchilligi bo'yicha trening. Sun'iy intellekt bo'yicha xalqaro qo'shma konferentsiyada, 2019. 5 , 8
Xiao Vang, Daisuke Kihara, Jiebo Luo va Guo-Jun Qi. Enaet: Yarim nazorat ostida o'rganish uchun o'z-o'zidan tayyorlangan ansamblni avtomatik kodlash transformatsiyasi. Arxiv 1911.09265, 2019. 4 , 5
Xinyi Vang, Xieu Pham, Pol Mitchel, Antonis Anastasopou-los, Xayme Karbonell va Grem Neubig. Differensial mukofotlar orqali ma'lumotlardan foydalanishni optimallashtirish. Mashinalarni o'rganish bo'yicha xalqaro konferentsiyada, 2020. 8
Yulin Vang, Jiayi Guo, Shiji Song va Gao Huang. Meta-yarim: yarim nazorat ostida o'rganish uchun meta-o'rganish yondashuvi. Arxiv, 2007.02394, 2020. 8
Ronald J. Uilyams. Bog'lanishni mustahkamlashni o'rganish uchun oddiy statistik gradientga amal qiluvchi algoritmlar. Mashinani o'rganish, 1992. 14
Qizhe Xie, Zihang Dai, Eduard Xovi, Minh-Thang Luong va Quoc V. Le. Muvaffaqiyatli trening uchun nazoratsiz ma'lumotlarni ko'paytirish. Neyron axborotni qayta ishlash tizimlaridagi yutuqlar, 2020. 1 , 3 , 4 , 5 , 6 , 8 , 15 , 17 , 18
Qizje Xie, Minh-Thang Luong, Eduard Xovi va Quoc V Le. Shovqinli talaba bilan o'z-o'zini mashq qilish imagenet tasnifini yaxshilaydi. IEEE/CVF konferensiyasining kompyuter ko‘rish va namunani aniqlash bo‘yicha materiallarida, 2020. 1 , 6 , 7 , 8 , 17 , 22
Saining Xie, Ross Girshick, Piotr Dollar, Zhuowen Tu va Kaiming He. Chuqur neyron tarmoqlar uchun yig'ilgan qoldiq transformatsiyalar. IEEE konferentsiyasida kompyuter ko'rish va naqshlarni aniqlash, 2017. 7
I. Zeki Yalniz, Herv'e J'egou, Kan Chen, Manohar Paluri va Dhruv Mahajan. Tasvirlarni tasniflash uchun milliard miqyosda yarim nazorat ostida o'rganish. Arxiv 1905.00546, 2019. 1 , 6 , 7 , 8
Yoshixiro Yamada, Masakazu Ivamura, Takuya Akiba va Koichi Kise. Chuqur qoldiq o'rganish uchun shakedropni tartibga solish. Arxiv, 1802.0237, 2018. 5
Devid Yarovskiy. Nazorat qilinadigan usullar bilan raqobatlashuvchi nazoratsiz so'z ma'nosini aniqlash. Hisoblash tilshunosligi assotsiatsiyasining 33-yillik yig'ilishida, 1995 yil. 1
Yang You, Igor Gitman va Boris Ginsburg. Konvolyutsion tarmoqlarning katta partiyasini o'qitish. Arxiv, 1708.03888, 2017. 17
Sangdu Yun, Dongyoon Xan, Seong Jun Oh, Sanghyuk Chun, Junsuk Choe va Youngjoon Yoo. CutMix: Lokalizatsiya qilinadigan xususiyatlarga ega kuchli klassifikatorlarni tayyorlash uchun tartibga solish strategiyasi. Kompyuterni ko‘rish bo‘yicha xalqaro konferensiyada, 2019. 6
Sergey Zagoruyko va Nikos Komodakis. Keng qoldiq tarmoqlari. Britaniyaning Machine Vision konferentsiyasida, 2016. 4
Hongyi Zhang, Mustafa Sisse, Yann N. Dauphin va David Lopez-Paz. aralashish: empirik xavfni minimallashtirishdan tashqari. Ta’lim vakillari bo‘yicha xalqaro konferensiyada, 2018. 20
Linfeng Chjan, Jiebo Song, Anni Gao, Jingwei Chen, Cheng-long Bao va Kaisheng Ma. O'zingizning o'qituvchingiz bo'ling: o'z-o'zidan distillash orqali konvolyutsion neyron tarmoqlarning ishlashini yaxshilang. Kompyuterni ko‘rish bo‘yicha xalqaro konferensiyada, 2019. 8
Xingcheng Zhang, Zhizhong Li, Chen Change Loy va Dahua Lin. Polynet: juda chuqur tarmoqlarda tizimli xilma-xillikka intilish. Kompyuterda ko‘rish va namunalarni aniqlash bo‘yicha IEEE konferensiyasi materiallarida, 2017. 7
Guoqing Zheng, Ahmad Hasan Avadallah va Syuzan Du-mais. Kuchsiz nazorat bilan o'rganish uchun meta yorliqlarni tuzatish. Arxiv, 1911.03809, 2019. 8
Barret Zoph, Golnaz Ghiasi, Tsung-Yi Lin, Yin Cui, Xanxiao Liu, Ekin D Cubuk va Quoc V Le. Tayyorgarlikdan oldingi va o'z-o'zini tayyorlashni qayta ko'rib chiqish. Neyron axborotni qayta ishlash tizimlaridagi yutuqlarda, 2020. 1 , 8
Barret Zof, Vijay Vasudevan, Jonaton Shlens va Quoc V Le. Kengaytiriladigan tasvirni aniqlash uchun uzatiladigan arxitekturani o'rganish. Kompyuterda ko'rish va naqshni aniqlash bo'yicha IEEE konferentsiyasi materiallarida, 2018. 7
A. O'qituvchining yangilanish qoidasining kelib chiqishi
2 -bo'limda o'qituvchining yangilash qoidasining batafsil chiqarilishini taqdim etamiz .
Matematik belgilar va konventsiyalar. Zanjir qoidasi bilan ishlaganimiz uchun biz standart Yakobiya yozuvlaridan foydalanamiz. 3 Xususan, f differensiallanuvchi funksiya uchun: R m ! R n , va x 2 R m vektor uchun f ning Yakobiy matrisasini belgilash uchun @f @x 2 R nm yozuvidan foydalanamiz , uning o‘lchami n m. Bundan tashqari, ko'p sonli f funktsiyasining yakobiyini eslatib o'tganimizda
1 va x 2 kabi nuqtalarda biz ning yozuvlaridan foydalanamiz
|
@f
|
|
|
n
|
va
|
@f
|
|
|
.
|
|
@x
|
|
|
@x
|
|
|
|
|
x=x 1
|
|
x=x 2
|
|
Bundan tashqari, matematik konventsiyalarga ko'ra, vektor v
|
|
|
|
R
|
|
davolanadi
|
ustun matritsasi sifatida - ya'ni n 1 o'lchamdagi matritsa.
|
|
Shu sababli, ko'p o'zgaruvchili real 2 - qiymatli funktsiyaning gradient vektori
|
aslida uning Yakobiy matritsasining transpozisiyasidir.
|
|
Nihoyat, ushbu bo'limdagi barcha ko'paytirishlar standart matritsali ko'paytmalardir. Agar operand vektor bo'lsa, u holda operand ustun matritsasi sifatida qaraladi.
O'lchov izohlari. Ushbu belgilar va konventsiyalar chalkashliklarga olib kelishi mumkinligini tushunib, biz o'quvchilarimizga hech qanday chalkashliklarni keltirib chiqarmaslik uchun quyida keltirilgan xulosada hisoblangan miqdorlarning o'lchamlariga izoh beramiz. Shu maqsadda biz mos ravishda jSj va jT j dan S , T parametrlarining o'lchamlarini belgilash uchun foydalanamiz . Ya'ni, S 2 R jSj 1 va
T 2 R jT j 1 .
Endi biz hosilani taqdim etamiz. Aytaylik, yorliqsiz x u misollar to'plamida o'qituvchi psevdo yorliqlardan namuna oladi.
y u T (x u ; T ) va talaba o zining S parametrini yangilash uchun (x u ; y u ) dan foydalanadi . Kutishda talabaning yangi parametri
|
b b
|
|
|
|
|
r
|
b
|
b
|
|
E y u
|
T (x u ; T )
|
S
|
|
S
|
|
S CE(y u ; S(x u ; S ))
|
. Talabaning o'zaro entropiyasini minimallashtirish uchun o'qituvchi parametrini yangilaymiz
|
etiketli ma'lumotlar to'plamida bu kutilgan parametr. Buning uchun biz Yakobiyni hisoblashimiz kerak:
|
@R
|
=
|
@
|
CE y l ; S x l ; E y u T (x u ; T )
|
SS r S CE(y u ; S(x u ; S ))
|
|
|
|
|
|
|
|
|
|
@ T
|
@ T
|
|
1 jT j
|
|
|
|
b
|
|
b
|
|
|
|{z}
|
|
|
|
|
|
|
|
|
Belgilashni soddalashtirish uchun keling, aniqlaymiz
|
|
|
|
|
j
|
S S 0 1
|
= E y u T (x u ; T ) SS r S CE(y u ; S(x u ; S ))
|
|
|
|
|
|
|
|
|
j
|
b
|
|
b
|
|
|
|
|
|
|
|
|{z}
|
|
|
|
|
|
Keyin, zanjir qoidasiga ko'ra, biz bor
|
|
|
|
|
|
|
|
|
@R
|
=
|
@
|
|
Idoralar
|
y l ; S x l ; E y u T (x u ; T )
|
SS r S CE(y u ; S(x u ; S ))
|
|
|
|
|
|
|
|
|
|
@ T
|
@ T
|
|
1 jT j
|
|
|
|
|
|
b
|
|
b
|
|
|
|{z}
|
|
|
|
|
|
|
|
|
|
|
(4)
(5)
=
|
@
|
Idoralar
|
y l ; S x l ; S 0
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(6)
|
|
@ T
|
|
|
|
|
@ T
|
|
|
=
|
|
|
|
|
|
@ S
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@CE y l ; S x l ; S 0
|
|
|
|
|
|
@ S 0
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S = S 0
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S
|
|
T
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j
|
jj
|
j
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 jSj
|
|
|
|
|
|
|{z}
|
|
|
|
|
|
{z
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
6 -tenglamadagi birinchi omil orqaga tarqalish orqali oddiygina hisoblash mumkin. Endi biz ikkinchi muddatga e'tibor qaratamiz. Bizda ... bor
|
@ S 0
|
|
=
|
@
|
E y u T (x u ; T )
|
SS r S CE(y u ; S(x u ; S ))
|
|
|
|
|
@ T
|
@ T
|
|
|
|
|
|{z}
|
|
|
b
|
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
jSj jT j
|
= @ T E y u T (x u ; T )
|
2 SS @CE (y u @ ; S
|
Biz
|
S = S !
|
|
(7)
|
|
|
|
|
>
|
3
|
|
|
|
|
|
@
|
|
|
|
S(x; ))
|
|
|
|
|
|
|
|
|
b
|
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4
|
|
|
|
|
|
5
|
|
Standart: https://en.wikipedia.org/wiki/Jacobian_matrix_and_determinant
E'tibor bering, tenglama 7 yuqorida, 1 jSj o'lchamiga ega bo'lgan Idoralar Yakobini (yb u ; S(x u ; S )), yuqorida muhokama qilganimizdek, shartli ravishda jSj 1 o'lchamiga ega bo'lgan S o'lchamiga mos kelishi uchun ko'chirilishi kerak.
Endi, 7 -tenglamadagi S dan beri T ga bog'liq emas , biz uni keyingi hosilalardan tashqarida qoldirishimiz mumkin. Shuningdek, yozuvlarni soddalashtirish uchun gradientni aniqlaylik
|
g S (y u ) =
|
|
@CE (y u @ ; S
|
Biz
|
|
S = S !
|
>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S(x; ))
|
|
|
|
|
|
|
|
jSj j1j
|
|
|
|
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
{z
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Keyin, tenglama 7 aylanadi
|
|
|
|
|
|
|
|
|
|
h
|
|
|
i
|
|
|
@ 0
|
|
|
S
|
@
|
E yb u T (x u ; T )
|
|
|
|
|
@ T
|
|
|
|
@ T
|
S 1
|
|
|
|
|
S
|
|
=
|
|
|
|
|
|
|
|
|
g S (y u )
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
jSj jT j
|
|
|
|
|
|
|
|
|
|
|
|
j b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j
|
|
|
|
|{z}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
{z
|
}
|
|
|
|
g S (yb u ) ning T ga bog'liqligi yo'qligi sababli , yb u orqali tashqari , biz erishish uchun REINFORCE tenglamasini [ 75 ] qo'llashimiz mumkin .
|
|
(t+1)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@ S
|
|
|
=
|
|
S
|
|
@
|
E y u T (x u ; T ) [g S (y u )]
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@ T
|
|
|
|
T
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
jSj jT j
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| {z
|
} =
|
|
|
S
|
E y u T (x u ; T ) h
|
g S (y u )
|
|
@ log P (y u jx u ; T )
|
|
i
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@ T
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S
|
|
|
|
1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b
|
|
|
|
|
|
j
|
|
|
j
|
|
|
|
|
|
|
|
|
|
|
|
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b
|
|
}
|
|
|
|
|
|
|
1 jT j
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| {z
|
|
|
|
|
|
|
u
|
|
|
{z
|
u
|
;
|
T
|
}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
E yb u T (x u ; T ) h
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@CE (y
|
|
; T (x
|
|
|
|
))
|
i
|
|
|
|
|
|
|
|
|
|
|
S
|
jSj 1
|
|
|
|
|
|
|
|
b @ T
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
=
|
|
|
|
|
|
|
|
g S (y u )
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b
|
|
|
|
|
|
|
|
|
|
|
1 jT j
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
{z
|
|
}
|
|
|
|
|
|
|
|
|
|
|
{z
|
|
|
|
|
|
}
|
|
|
|
(8)
(9)
(10)
10 -tenglamadagi oxirgi tenglik oldingi satrdagi log-prob atamasining manfiy bo'lgan o'zaro entropiya yo'qotilishining ta'rifi bilan bog'liq.
10 tenglamani almashtiramiz 6- tenglamaga olish
|
@ T
|
|
|
=
|
|
|
|
|
|
@ S
|
|
|
|
|
|
|
|
|
@ T
|
|
|
|
@R
|
|
|
@CE
|
y l ; S x l ; S 0
|
|
|
|
|
|
|
@ S 0
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S = S 0
|
|
|
|
|
|
|
|
|
1
|
T
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S
|
|
T
|
|
|
|
j
|
|
j
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j
|
|
|
jj
|
|
|
j
|
|
|
|
|
|
|
|
|
|
1 jSj
|
|
|
|
|
|
|
|
|
|
|
|
|
|{z}
|
|
|
|
|
|
|
|
|
|
|
}
|
|
|{z}
|
|
|
|
@CE y l {z ;S x l ; 0
|
|
|
|
|
|
|
|
|
|
|
|
|
= S
|
|
|
|
|
@ S
|
|
|
S
|
|
|
|
|
|
E y u T (x u ; T )
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S = S 0
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 jSj
|
|
|
|
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
{z
|
|
|
|
|
|
|
|
|
|
|
|
|
(11)
@CE (y u ; T (x u ; T )) ig S (yb u ) b
@ T |{z}
jSj 1 | {z }
1 jT j
11- tenglamadagi har bir atama uchun Monte-Karlo taqribotidan foydalanamiz namuna olingan y u yordamida . Xususan, biz
yaqin S 0
|
u ; y u ) bo'yicha talaba parametrini yangilash orqali S dan olingan parametr bilan , ya'ni S 0 = S S
|
|
r S Idoralar
|
(y
|
|
; S(x;
|
|
)))
|
, va ikkinchi muddatda kutilgan qiymatni bilan taxminan
|
y yordamida bir xil
|
|
. Bular bilan
|
|
|
u
|
|
u
|
S
|
|
|
|
|
b
|
|
|
|
|
|
|
u
|
|
|
|
b
|
|
|
|
|
|
|
|
|
|
|
r
|
|
|
L
|
|
|
|
|
; S ) 1 - tenglamadan :
|
|
|
|
|
|
|
|
|
|
|
b
|
|
|
|
|
|
b
|
|
|
yaqinlashganda, biz gradientni olamiz
|
|
|
|
T
|
|
u ( T
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
r T L l
|
= S
|
|
@CE y ; S x; 0
|
|
|
@
|
Idoralar
|
(y
|
|
; S(x;
|
S
|
))
|
S = S !
|
>
|
|
|
|
|
|
T (x
|
u
|
;
|
T
|
))
|
|
|
|
|
|
|
|
|
|
l @ S
|
|
l
|
S
|
|
|
|
|
u @ S u
|
|
|
|
@CE (y u @ ; T
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b
|
|
|
|
|
|
|
|
|
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1
|
|
|
S
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1
|
|
|
T
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j
|
j
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
jSj 1
|
|
|
|
|
|
|
|
|
j
|
j
|
|
|
|
|
|
|
|
(12)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
{z
|
|
|
|
|
}
|
|
|
)
|
>
|
|
|
|
{z
|
|
|
|
|
|
}
|
|
|
|
|
{z
|
|
|
|
|
}
|
|
|
|
|
|
|
|
|
|
= S r S 0 CE (y l ; S(x l ; S 0. )
|
|
r S Idoralar (y u ; S(x u ; S )) r T Idoralar (y u ; T (x u ; T ))
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
{z
|
|
|
|
|
|
|
|
|
|
}
|
|
|
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Skayar:= h
|
|
|
b
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
14
B. UDA bilan Meta Pseudo Labels uchun Pseudo Code
Ushbu bo'limda biz Meta Pseudo Labels uchun psevdokodni taqdim etamiz, bu erda o'qituvchi UDA yo'qotilishini o'z ichiga olgan kengaytirilgan maqsad bilan o'qitiladi. Biz shuni ta'kidlaymizki, UDA maqsadi o'qituvchiga nisbatan qo'llaniladi, shu bilan birga talaba hali ham o'qituvchi tomonidan berilgan psevdo-yorliqli ma'lumotlardan o'rganadi. Pseudo kodni 1 -algoritmda topish mumkin .
Algoritm 1 Meta Pseudo Labels usuli, UDA bilan o'qitilgan o'qituvchiga qo'llaniladi [ 76 ].
Kirish: Belgilangan ma'lumotlar x l ; y l va etiketlanmagan ma'lumotlar x u .
T (0) va S (0) ni ishga tushiring
uchun t = 0 dan N 1 gacha
Yorliqsiz misol x u va etiketli misol x l ; y l
Yb u P ( jx u ; T ) psevdo yorlig'idan namuna oling
u psevdo yorlig'i yordamida yangilang :
(t+1) (t)
S = S S r S CE(yb u ; S(x u ; S ) j S = S (t)
O'qituvchining fikr-mulohaza koeffitsientini 12- tenglamadagidek hisoblang :
h = S
|
|
r S 0 Idoralar
|
y l ; S(x l ; S (t+1)
|
|
>
|
r S CE
|
y u ; S(x u ; S (t) )
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b
|
|
|
Talabaning fikr-mulohazalaridan o'qituvchining gradientini hisoblang:
(t)
g T = h r T CE(yb u ; T (x u ; T )) j T = T (t)
Belgilangan ma'lumotlar bo'yicha o'qituvchining gradientini hisoblang:
g T; (t) nazorat ostida = r T CE(y l ; T (x l ; T ))j T = T (t)
Belgilanmagan ma'lumotlar bilan UDA yo'qolishi bo'yicha o'qituvchining gradientini hisoblang:
g T; (t) UDA =
|
r
|
|
T = T
|
|
T
|
CE StopGradient(T (x l ); T ); T (RandAugment(x l ); T )
|
|
(t)
|
|
O'qituvchini yangilang:
|
|
T (t+1) = T (t) T g T (t) + g T; (t) nazorat qilinadi + g T; (t) UDA
|
|
|
|
oxiri
|
|
|
|
|
|
|
|
|
|
Qaytish S (N)
|
|
. Bashorat va baholash uchun faqat talaba modeli qaytariladi
|
|
|
|
|
|
|
|
C. Eksperimental tafsilotlar
Ushbu bo'limda biz 3 -bo'limda tajribalarimiz uchun trening tafsilotlarini taqdim etamiz va 4 -bo'lim .
C.1. Ma'lumotlar to'plamini ajratish
3.2 -bo'limda CIFAR-10-4K, SVHN-1K va ImageNet-10% ma'lumotlar to'plamini qanday tasvirlab beramiz. qurilgan. CIFAR-10 uchun biz CIFAR-10 rasmiy veb-saytidan beshta o'quv ma'lumotlar paketini yuklab olamiz. 4 Keyin, biz barcha rasmlarni 50 000 ta rasm ro'yxatiga yuklaymiz, bunda yuklangan tartibda tartibni saqlaymiz. Birinchi 5000 ta rasm odatda tekshirish uchun ajratilgan, shuning uchun biz ularni oʻchirib tashlaymiz. Keyingi 4000 ta rasm etiketli ma'lumotlar sifatida ishlatiladi. SVHN uchun biz SVHN rasmiy saytida mat fayllardan ma'lumotlarni yuklab olamiz 5 va CIFAR-10 bilan bir xil tartibni bajaramiz. Shuni ta'kidlaymizki, ushbu tanlov jarayoni CIFAR-10-4K va SVHN-1K uchun sinf taqsimotida biroz nomutanosiblikka olib keladi, ammo sozlamalar barcha tajribalarimiz uchun bir xil. ImageNet uchun biz Inception's GitHub 6 da protseduraga amal qilamiz . Natijada taxminan bir xil o'lchamdagi 1024 ta trening TFRecord parchalari olinadi. Ushbu parchalardagi tasvirlarning tartibi deterministikdir. ImageNet-10% uchun biz birinchi 102 ta parchadan foydalanamiz;
CIFAR-10 rasmiy veb-sayti: www.cs.toronto.edu/~kriz/cifar.html .
5 SVHN rasmiy veb-sayti: uflldl.stanford.edu/housenumbers/ .
6 Inception's GitHub, u shuningdek TFRecord-da ImageNet-ning o'quv parchalarini yaratish uchun kodga ega: github.com/tensorflow/models/blob/
master/research/inception/inception/da ta/download_and_preprocess_imagenet.sh .
ImageNet-20% uchun biz birinchi 204 ta parchadan foydalanamiz; va hokazo. Taxminan 25 000 ta rasmga mos keladigan oxirgi 20 ta parcha giperparametrlarni sozlash uchun ajratilgan ( 3.3 -bo'limda ishlatilgan) va 4 -bo'lim ).
C.2. RandAugment modifikatsiyalari [ 13 ]
Biz RandAugment [ 13 ] tomonidan kiritilgan bir nechta ma'lumotlarni ko'paytirish strategiyalarini o'zgartiramiz. Bizning o'zgartirishlarimiz asosan SVHN ma'lumotlar to'plamiga qaratilgan. Xususan, koʻpaytirish amallari toʻplamidan barcha aylanishlarni olib tashlaymiz, chunki aylanish 6 va 9 kabi raqamlar uchun notoʻgʻri oʻzgarmasdir. Shuningdek, gorizontal tarjimalarni ham olib tashlaymiz, chunki ular 3 va 8 raqamlari uchun boshqa notoʻgʻri oʻzgarmaslikni keltirib chiqaradi, masalan, 8 ga bosilganda. tasvirning yarmi tashqarisi, qolgan qismi esa 3 ga o'xshaydi. 5 -jadval ma'lumotlar to'plamlarimiz uchun saqlaydigan o'zgarishlarni taqdim etadi.
CIFAR-10 va ImageNet
|
SVHN
|
|
|
Avtokontrast
|
Avtokontrast
|
Yorqinlik
|
Yorqinlik
|
Rang
|
Rang
|
Kontrast
|
Kontrast
|
Tenglash
|
Tenglash
|
Invert
|
Invert
|
Aniqlik
|
Aniqlik
|
Posterlash
|
Posterlash
|
Juftlik namunasi
|
Solarizatsiya
|
Solarizatsiya
|
ShearX
|
Aylantirish
|
ShearY
|
ShearX
|
Tarjima Y
|
ShearY
|
|
TranslateX
|
|
Tarjima Y
|
|
|
|
5-jadval: RandAugment bizning ma'lumotlar to'plamlarimiz uchun bir xilda namuna oladigan transformatsiyalar. Ushbu o'zgarishlarning batafsil tavsifi uchun biz o'quvchilarimizni [ 12 ] ga havola qilamiz.
C.3. Amalga oshirishning qo'shimcha tafsilotlari
Meta Pseudo Labels barqarorligini yaxshilash uchun biz Meta Pseudo Labels jarayonida quyidagi tafsilotlardan foydalanamiz.
12da nuqta hosilasi o'rniga kosinus masofasidan foydalaning . 12- tenglamadagi nuqta hosilasi h katta qiymat oralig'iga ega, ayniqsa Meta Pseudo Labels jarayonining boshida. Shunday qilib, mashg'ulotni barqarorlashtirish uchun gradientlarning kosinus masofasidan foydalanib h ni hisoblaymiz. Ushbu o'zgartirish bizning kodimizda juda kam o'zgartirishni talab qiladi.
Kosinus masofasidan foydalanish nima uchun matematik jihatdan mantiqiy ekanligini ikkita asoslaymiz. Birinchidan, 12- tenglamada h T ga nisbatan oʻqituvchining gradienti bilan koʻpaytiriladigan skalerda boʻladi . Nuqta mahsulotini kosinus masofasiga o'zgartirish h belgisini o'zgartirmaydi va shuning uchun namuna olingan psevdo-yorliqlarning ehtimolini oshirish yoki kamaytirish bo'yicha harakatlar saqlanib qoladi. Ikkinchidan, kosinus masofasining qiymat diapazoni nuqta mahsulotiga qaraganda ancha kichik, bu Meta Pseudo Labels yangilanishlarini raqamli jihatdan barqarorroq qiladi. Xususan, kosinus masofasining qiymat diapazoni [ 1; 1], bizning tajribalarimizda kuzatilgan nuqtali mahsulotlarning qiymat diapazoni esa [5 10 4 ga yaqin ; 5 10 4 ]. Bu diapazon, shuningdek, vaznning pasayishi giper-parametriga bog'liq.
12- tenglamada ko'rsatilganidek, nuqta mahsuloti h va A bo'limida olinganidek , zanjir qoidasini ikki darajali optimallashtirish deb ataladigan protsedurada qo'llash natijasida yuzaga keladi. Ikki darajali optimallashtirish Hyper Gradient Descent [ 3 ] kabi o'tmishdagi ba'zi ishlarda qo'llanilgan , bu ham raqamli barqarorlikni yaxshilash uchun nuqta mahsulotini kosinus masofasi bilan almashtiradi.
12- tenglamada h uchun asosiy chiziqdan foydalaning . b dan h har safar g T (t) adabiyotini hisoblaymiz .
h ning dispersiyasini yanada kamaytirish uchun biz h ning harakatlanuvchi o'rtacha b qiymatini saqlaymiz va 12- tenglamadagi kabi ayirib tashlaymiz . Ushbu amaliyot mustahkamlovchi o'qitishda ham keng qo'llaniladi
Kosinus masofasidan foydalanish Meta Pseudo Labels raqamli barqarorligini saqlash uchun juda muhim bo'lsa-da, harakatlanuvchi o'rtacha bazaviy chiziqdan foydalanish Meta Pseudo Labels ish faoliyatini biroz yaxshilaydi. Biz o'ylaymizki, harakatlanuvchi o'rtacha bazaviy chiziqdan foydalanmaslik ham yaxshi, ayniqsa Meta Pseudo Labels ko'p qadamlarni haddan tashqari moslashtirmasdan mashq qilishi mumkin.
C.4. Giper-parametrlar
Optimizatorlar. Barcha tajribalarimizda CIFAR-10-4K va SVHN-1K uchun WideResNet-28-2 va ImageNet-10% va to'liq ImageNet uchun ResNet-50 standart momentum koeffitsienti 0,9 bo'lgan Nesterov Momentum bilan yangilanadi. Tarmoqlarning o'rganish tezligi kosinus parchalanishini kuzatib boradi [ 41 ]. Shu bilan birga, ImageNet+JFT uchun EfficientNet-L2 va EfficientNet-B6-Wide RMSProp [ 66 ] va eksponensial parchalanish o'rganish tezligi bilan o'qitiladi. Bular tegishli hujjatlarda arxitekturalar uchun ishlatiladigan standart optimallashtiruvchilar va o'rganish tezligi jadvallari. Optimizatorda faqat bitta muhim o‘zgarishlar mavjud: ImageNet’dan olingan yorliqli ma’lumotlarga EfficientNet-L2 va EfficientNet-B6-Wide nozik sozlaganimizda ( 4 -bo‘limga qarang ), biz LARS optimallashtiruvchisidan [ 82 ] standart parametrlari, ya’ni impuls 0,9 dan foydalanamiz. va o'rganish tezligi 0,001, 4,096 partiya hajmi bilan 20 000 qadam uchun trening. Biz Noisy Student [ 77 ] da SGD o‘rniga ushbu optimallashtiruvchidan foydalanamiz, chunki Noisy Studentdan farqli o‘laroq, Meta Pseudo Labels’dagi talaba modeli hech qachon to‘g‘ridan-to‘g‘ri yorliqli misol bo‘yicha mashq qilmaydi va shuning uchun kuchliroq optimallashtiruvchilar bilan yanada “tajovuzkor” nozik sozlash jarayonidan foyda olishi mumkin.
Raqamli giperparametrlar. Giper-parametrlarni sozlash uchun biz [ 48 ] ga amal qilamiz va har bir usulga giper-parametrlarni 128 ta sinovdan o'tkazishga ruxsat beramiz. Sozlaganimizda, har bir modelga 50 000 qadamgacha mashq qilishiga ruxsat beramiz. Optimal giper-parametrlar quyida xabar qilganimizdek, ko'proq bosqichlar davom etadigan tajribalarni bajarish uchun ishlatiladi. Meta Pseudo Labels bilan o'tkazgan tajribalarimizda ko'proq qadamlar uchun mashq qilish odatda kuchliroq natijalarga olib keladi. Biz CIFAR-10-4K va SVHN-1K uchun 1 million qadamda, ImageNet uchun esa 0,5 million qadamda to'xtaymiz, chunki bular o'tgan qog'ozlardagi standartlardir.
3 -bo'limda asosiy va Meta Pseudo Labels uchun giperparametrlar haqida xabar beramiz. 6 , 7 , 8 -jadvallarda . Biz UDA uchun sozlamalarimiz dastlabki UDA qog'ozi [ 76 ] tomonidan e'lon qilinganidan farqli ekanligini ta'kidlaymiz. O'z ishlarida UDA [ 76 ] o'zlarining UDA maqsadi uchun ancha katta partiya hajmidan foydalanadilar. UDA ni amalga oshirishda biz ushbu partiyalar hajmini bir xil saqlaymiz. Bu TPU katta podslarida ishlaydigan TensorFlow [ 1 ] tizimimizda ma'lumotlar parallelligini ancha oson amalga oshirishga olib keladi. Farqni qoplash uchun biz barcha UDA asoslarini UDA qog'oziga qaraganda ancha uzoqroq vaqtga o'qitamiz [ 76 ]. Trening jarayonida biz nazorat ostidagi misollarni ham yuqori ishonch bilan niqoblaymiz. Samarali, bizning UDA modelimiz [ 76 ] dagi modellar kabi etiketli misollar va etiketlanmagan misollar bilan taxminan bir xil miqdordagi treningni oladi . Shuningdek, biz ImageNet-10% da AutoAugment [ 12 ] dan koʻpaytirish siyosati bilan bizning UDA ilovamiz 68:77% top-1 aniqligiga erishganini tasdiqladik, bu UDA qogʻozi [ 76 ] xabar qilgan 68:66% ga oʻxshaydi .
Giper-parametr
|
CIFAR-10
|
SVHN
|
ImageNet
|
|
|
|
|
Og'irlikning pasayishi
|
0,0005
|
0,001
|
0,0002
|
Yorliqlarni tekislash
|
0
|
0
|
0.1
|
To'plamni normallashtirishning buzilishi
|
0,99
|
0,99
|
0,99
|
O'rganish darajasi
|
0.4
|
0,05
|
1.28
|
Trening bosqichlari soni
|
50 000
|
50 000
|
40 000
|
Isitish bosqichlari soni
|
2500
|
0
|
2000
|
|
Do'stlaringiz bilan baham: |