Заблудившийся во времени
Многие средства классификации (метод опорных векторов, логистическая ре-грессия и стандартные сети прямого распространения) особенно успешно при-меняются, когда между входными данными нет временных зависимостей, т. е. они считаются независимыми. Существуют варианты этих инструментов, кото-рые улавливают временную динамику путем моделирования входного окна (на-пример, предыдущее, текущее и следующее значения рассматриваются как один входной вектор).
Недостатком этих методов является тот факт, что предположение о незави-симости входов не позволяет модели уловить долгосрочные временные зависи-
132 Основные архитектуры глубоких сетей
мости. У скользящего окна ограниченная ширина, с его помощью невозможно уловить эффекты, длительность которых превышает размер окна. В качестве при-мера приведем то, как машина понимает речь и с течением времени может дать связный ответ. Хорошо обученная рекуррентная нейронная сеть смогла пройти знаменитый тест Тьюринга, смысл которого состоит в том, чтобы убедить челове-ка, что он разговаривает с живым собеседником, а не с машиной.
Обратная связь по времени и циклические связи
рекуррентных нейронных сетях возможны циклические связи. Благодаря это-му они могут моделировать поведение во времени, что является преимуществом в таких предметных областях, как временные ряды, обработка естественного язы-ка, звуковых данных и текста.
Замечание о связях, направленных от выходного слоя к скрытому
На практике такая схема связей встречается достаточно редко, и в DL4J она тоже не исполь-зуется. Но мы считаем необходимым упомянуть ее для полноты. Чаще всего можно встретить связи между нейронами рекуррентных слоев, относящихся к соседним временным шагам.
этих задачах данные внутренне упорядочены, и более поздние значения за-висят от более ранних. РНС позволяет организовать обратную связь и тем самым уловить эти временные эффекты. Основной областью применения архитектуры РНС являются временные ряды.
РНС имеется петля обратной связи, которая позволяет обучаться на последо-вательностях, в т. ч. переменной длины. РНС содержит дополнительную матрицу связей между временными шагами, в которой улавливаются временные связи, присутствующие в данных.
РНС обучается порождать последовательности, в которых выход на каждом временном шаге зависит как от текущего входа, так и от входов на всех предыду-щих временных шагах. Обычно РНС вычисляет градиент с помощью алгоритма обратного распространения во времени (backpropagation through time – BPTT). Де-
тали этого алгоритма мы обсудим далее в этой главе.
Do'stlaringiz bilan baham: |