Обработка естественных языков
397
Градиент для
i
-го члена равен нулю, если оценка наблюдаемого слова
a
y
больше
оценки отрицательного слова
a
i
не менее, чем на 1. У этого критерия есть недоста-
ток – он не дает оценку условных вероятностей, что полезно в некоторых приложе-
ниях, в т. ч. для распознавания речи и порождения текста (включая условное порож-
дение текста, как в случае перевода).
Позже в качестве целевой функции обучения для нейронных языковых моделей
было предложено шумосопоставительное оценивание (noise-contrastive estimation),
описанное в разделе 18.6 (Mnih and Teh, 2012; Mnih and Kavukcuoglu, 2013).
12.4.4. Комбинирование нейронных языковых моделей
с
n
-граммами
Важное преимущество
n
-граммных моделей, по сравнению с нейронными сетями, со-
стоит в том, что первые достигают высокой емкости (за счет хранения частот очень
большого числа кортежей) при очень скромном объеме вычислений в ходе обработ-
ки примера (требуется найти лишь немного примеров, соответствующих текущему
контексту). Если для доступа к счетчикам использовать хэш-таблицы или деревья,
то объем вычислений в
n
-граммной модели почти не зависит от емкости. Для срав-
нения – удвоение числа параметров нейронной сети обычно приводит к увеличению
времени вычислений примерно вдвое. Исключение составляют модели, в которых
на каждом проходе используются не все параметры. При наличии слоев погружения
на каждом проходе индексируется только одно погружение, поэтому размер словаря
можно увеличить, не увеличивая времени обработки каждого примера. В некоторых
других моделях, например периодических сверточных сетях, можно добавлять па-
раметры, одновременно уменьшая степень разделения параметров, чтобы сохранить
объем вычислений на прежнем уровне. Но в слоях типичных нейронных сетей, осно-
ванных на умножении матриц, объем вычислений пропорционален числу парамет ров.
Таким образом, для увеличения емкости можно поступить просто: построить ан-
самбль, содержащий нейронную и
n
-граммную языковую модель (Bengio et al., 2001,
2003). Как и любая ансамблевая техника, этот метод может уменьшить ошибку тести-
рования, если члены ансамбля совершают ошибки независимо друг от друга. В ан-
самб левом обучении есть много способов скомбинировать предсказания отдельных
членов, в т. ч. равномерное взвешивание и выбор весов на контрольном наборе. В ра-
боте Mikolov et al. (2011a) ансамбль обобщен с двух моделей на большой массив мо-
делей. Можно также объединить нейронную сеть с моделью максимальной энтропии
и обучить обе совместно (Mikolov et al., 2011b). Этот подход можно рассматривать
как обучение нейронной сети с дополнительным множеством входов, напрямую свя-
занных с выходом и не связанных ни с какой другой частью модели. Дополнительные
входы указывают на присутствие определенных
n
-грамм во входном контексте, так
что эти переменные имеют очень высокую размерность и сильно разрежены. Увели-
чение емкости модели получается гигантским – новая часть архитектуры содержит
до |
sV
|
n
параметров, но дополнительный объем вычислений минимален, потому что
добавленные входные данные крайне разрежены.
Do'stlaringiz bilan baham: