Я. Гудфеллоу, И. Бенджио, А. Курвилль


Шумосопоставительное оценивание и потеря ранжирования



Download 14,23 Mb.
Pdf ko'rish
bet487/779
Sana14.06.2022
Hajmi14,23 Mb.
#671946
TuriКнига
1   ...   483   484   485   486   487   488   489   490   ...   779
Bog'liq
Гудфеллоу Я , Бенджио И , Курвилль А Глубокое обучение

12.4.3.4. Шумосопоставительное оценивание и потеря ранжирования
Были предложены и другие способы уменьшения вычислительной сложности обуче-
ния нейронных языковых моделей с большими словарями. Один из ранних подхо-
дов – потеря ранжирования (ranking loss) – описан в работе Collobert and Weston 
(2008a), где выход нейронной языковой модели для каждого слова рассматривается 
как балльная оценка и производится попытка сделать так, чтобы оценка правильного 
слова 
a
y
ранжировалась выше, по сравнению с остальными оценками 
a
i
. Тогда потеря 
ранжирования равна
(12.19)


Обработка естественных языков 

397
Градиент для 
i
-го члена равен нулю, если оценка наблюдаемого слова 
a
y
больше 
оценки отрицательного слова 
a
i
не менее, чем на 1. У этого критерия есть недоста-
ток – он не дает оценку условных вероятностей, что полезно в некоторых приложе-
ниях, в т. ч. для распознавания речи и порождения текста (включая условное порож-
дение текста, как в случае перевода).
Позже в качестве целевой функции обучения для нейронных языковых моделей 
было предложено шумосопоставительное оценивание (noise-contrastive estimation), 
описанное в разделе 18.6 (Mnih and Teh, 2012; Mnih and Kavukcuoglu, 2013).
12.4.4. Комбинирование нейронных языковых моделей 
с 
n
-граммами
Важное преимущество 
n
-граммных моделей, по сравнению с нейронными сетями, со-
стоит в том, что первые достигают высокой емкости (за счет хранения частот очень 
большого числа кортежей) при очень скромном объеме вычислений в ходе обработ-
ки примера (требуется найти лишь немного примеров, соответствующих текущему 
контексту). Если для доступа к счетчикам использовать хэш-таблицы или деревья, 
то объем вычислений в 
n
-граммной модели почти не зависит от емкости. Для срав-
нения – удвоение числа параметров нейронной сети обычно приводит к увеличению 
времени вычислений примерно вдвое. Исключение составляют модели, в которых 
на каждом проходе используются не все параметры. При наличии слоев погружения 
на каждом проходе индексируется только одно погружение, поэтому размер словаря 
можно увеличить, не увеличивая времени обработки каждого примера. В некоторых 
других моделях, например периодических сверточных сетях, можно добавлять па-
раметры, одновременно уменьшая степень разделения параметров, чтобы сохранить 
объем вычислений на прежнем уровне. Но в слоях типичных нейронных сетей, осно-
ванных на умножении матриц, объем вычислений пропорционален числу парамет ров.
Таким образом, для увеличения емкости можно поступить просто: построить ан-
самбль, содержащий нейронную и 
n
-граммную языковую модель (Bengio et al., 2001, 
2003). Как и любая ансамблевая техника, этот метод может уменьшить ошибку тести-
рования, если члены ансамбля совершают ошибки независимо друг от друга. В ан-
самб левом обучении есть много способов скомбинировать предсказания отдельных 
членов, в т. ч. равномерное взвешивание и выбор весов на контрольном наборе. В ра-
боте Mikolov et al. (2011a) ансамбль обобщен с двух моделей на большой массив мо-
делей. Можно также объединить нейронную сеть с моделью максимальной энтропии 
и обучить обе совместно (Mikolov et al., 2011b). Этот подход можно рассматривать 
как обучение нейронной сети с дополнительным множеством входов, напрямую свя-
занных с выходом и не связанных ни с какой другой частью модели. Дополнительные 
входы указывают на присутствие определенных 
n
-грамм во входном контексте, так 
что эти переменные имеют очень высокую размерность и сильно разрежены. Увели-
чение емкости модели получается гигантским – новая часть архитектуры содержит 
до |
sV
|
n
параметров, но дополнительный объем вычислений минимален, потому что 
добавленные входные данные крайне разрежены.

Download 14,23 Mb.

Do'stlaringiz bilan baham:
1   ...   483   484   485   486   487   488   489   490   ...   779




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish