Я. Гудфеллоу, И. Бенджио, А. Курвилль



Download 14,23 Mb.
Pdf ko'rish
bet486/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   482   483   484   485   486   487   488   489   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

смещенной выборкой по 
значимости
, когда веса нормированы, так что их сумма равна 1. Если выбрано отри-
цательное слово 
n
i
, то ассоциированный градиент входит с весом


396 

 
Приложения
(12.17)
С помощью этих весов придается подходящая значимость 
m
отрицательным при-
мерам из 
q
, используемым для формирования оценки вкладка отрицательной фазы 
в градиент:
(12.18)
В качестве вспомогательного распределения 
q
вполне можно использовать распре-
деление униграмм или биграмм. Параметры такого распределения легко оценить по 
данным. После оценки параметров выборка из распределения производится очень 
эффективно. Выборка по значимости полезна не только для ускорения работы моде-
лей с большими выходными softmax-слоями, но и во всех случаях, когда нужно уско-
рить обучение при наличии большого выходного слоя, представленного разреженным 
вектором, а не выбором 1 из 
n
. Примером может служить 
набор слов
(bag of words). 
Это разреженный вектор 
v
, элемент 
v
i
которого обозначает присутствие или отсут-
ствие в документе 
i
-го слова из словаря. Альтернативно 
v
i
может показывать, сколь-
ко раз встречается 
i
-е слово. Обучить модель машинного обучения, порождающую 
такие векторы, бывает трудно по ряду причин. На ранних стадиях обучения модель 
не всегда порождает по-настоящему разреженный выход. Кроме того, используемая 
при обучении функция потерь, возможно, более естественно описывается в терминах 
сравнения каждого элемента выхода с меткой. Это означает, что не всегда очевидно, 
есть ли вычислительный выигрыш от использования разреженного выхода, посколь-
ку модель может сделать большинство выходных элементов ненулевыми, и все эти 
ненулевые элементы придется сравнивать с соответствующими обучающими метка-
ми, даже если метка нулевая. В работе Dauphin et al. (2011) продемонстрировано, что 
такие модели можно ускорить с помощью выборки по значимости. Эффективный ал-
горитм минимизирует реконструкцию потери для «положительных слов» (для кото-
рых метка ненулевая) и равного числа «отрицательных слов». Отрицательные слова 
выбираются случайным образом с применением эвристики для выбора слов, которые 
с большей вероятностью будут ошибочными. Смещение, вызванное такой выборкой 
с запасом, можно затем скорректировать с помощью весов значимости.
Во всех этих случаях вычислительная сложность оценивания градиента для вы-
ходного слоя уменьшается и становится пропорциональной числу отрицательных 
примеров, а не размеру выходного вектора.

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   482   483   484   485   486   487   488   489   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish