12.4.6. Историческая справка
Идея распределенных представлений символов впервые была высказана в работе
Rumelhart et al. (1986a) – одном из первых исследований обратного распространения;
символы там соответствовали идентификаторам членов семьи, нейронная сеть улав-
ливала связи между членами семьи, а обучающие примеры представлялись тройками
вида (Колин, мать, Виктория). Первый слой сети обучался представлению каждого
члена семьи. Например, для Колина могли быть выделены такие признаки: в каком
генеалогическом древе он находится, в какой ветви этого древа, в каком поколении
и т. д. Можно считать, что нейронная сеть вычисляет правила, связывающие эти атри-
буты для получения желаемых предсказаний. Обученная сеть может, например, вы-
вести, кто приходится матерью Колину.
Идея формирования погружения символа была обобщена на идею погружения
слова в работе Deerwester et al. (1990). Для обучения погружений использовалось
спектральное разложение. Позже для этой цели применили бы нейронные сети.
История обработки естественных языков отмечена сменой популярности различ-
ных представлений входа модели. По следам этой ранней работы по символам и сло-
вам в первых приложениях нейронных сетей к ОЕЯ (Miikkulainen and Dyer, 1991;
Schmidhuber, 1996) вход представлялся в виде последовательности литер.
В работе Bengio et al. (2001) произошел возврат к моделированию слов и были
введены нейронные языковые модели, порождающие интерпретируемые погруже-
ния слов. Эти модели постепенно масштабировались: от представлений небольшо-
го набора символов в 1980-х годах до миллионов слов (включая имена собственные
и неправильные написания) в современных приложениях. Усилия, направленные на
достижение вычислительной масштабируемости, привели к изобретению техник,
описанных в разделе 12.4.3.
В самом начале использование слов в качестве фундаментальных единиц языка
привело к повышению качества языкового моделирования (Bengio et al., 2001). Се-
годня появились новые методы и для моделей на основе литер (Sutskever et al., 2011),
и для моделей на основе слов (Gillick et al., 2015), и даже для моделирования отдель-
ных байтов литер в кодировке Unicode.
Идеи, стоящие за нейронными языковыми моделями, были распространены и на
другие приложения ОЕЯ, в т. ч. грамматический разбор (Henderson, 2003, 2004;
Collobert, 2011), частеречная разметка, пометка семантических ролей, фрагментация
(chunking) и т. д. Иногда при этом применяется единая многозадачная архитектура
обучения (Collobert and Weston, 2008a; Collobert et al., 2011a), в которой погружения
слов сообща используются разными задачами.
Двумерная визуализация погружений стала популярным инструментом анализа
языковых моделей после разработки алгоритма понижения размерности t-SNE (van
der Maaten and Hinton, 2008) и его широко известного применения к задаче визуали-
зации погружений слов, предложенного Джозефом Турианом в 2009 году.
Do'stlaringiz bilan baham: |