330
Моделирование последовательностей: рекуррентные и рекурсивные сети
при условии переменных в момент
t
стационарно
, т. е. соотношение между состоянием
системы в предыдущий и в последующий моменты не зависит от
t
. В принципе, можно
было бы считать
t
дополнительным входом на каждом временном шаге и позволить
обучаемой модели выявить временные зависимости между различными шагами. Это
было бы гораздо лучше, чем использовать разные условные распределения для каж-
дого
t
, но тогда сеть должна была бы выполнять экстраполяцию на новые значения
t
.
Чтобы завершить рассмотрение РНС как графической модели, мы должны еще опи-
сать, как производить выборку из модели. Основная интересующая нас операция –
выборка примера из условного распределения на каждом временном шаге. Однако
имеется одно дополнительное осложнение. У РНС должен быть какой-то механизм
определения длины последовательности. Достичь этого можно разными способами.
Если выходом является символ, выбираемый из словаря, то можно включить спе-
циальный символ, обозначающий конец последовательности (Schmidhuber, 2012).
Если сгенерирован такой символ, то процесс выборки останавливается. В каждом
обучающем примере мы вставляем такой символ в качестве дополнительного члена
последовательности, сразу после
x
(
τ
)
.
Другой вариант – ввести в модель дополнительный выход с распределением Бер-
нулли, который говорит, продолжать генерацию после данного временного шага или
остановиться. Это более общий подход, чем включение специального символа в сло-
варь, поскольку он применим не только к РНС, порождающей последовательность
символов. Например, он годится для РНС, которая выводит последовательность ве-
щественных чисел. Новый выходной блок обычно берут сигмоидным и при его обуче-
нии используют перекрестную энтропию в качестве функции потерь. Иначе говоря,
сигмоида обучается максимизировать логарифмическую вероятность правильного
предсказания окончания последовательности на каждом временном шаге.
Еще один способ определить длину последовательности
τ
– добавить в модель вы-
ход, который предсказывает само целое число
τ
. Модель сначала выбирает значение
τ
, а затем данные для
τ
шагов. При таком подходе необходимо включать дополни-
тельный вход в рекуррентное обновление на каждом временном шаге, чтобы модель
знала, подходит она к концу сгенерированной последовательности или еще нет. Этот
вход может содержать либо само значение
τ
, либо число оставшихся шагов
τ
–
t
. Без
него РНС могла бы генерировать внезапно обрывающиеся последовательности, на-
пример неполные предложения. Такой подход основан на разложении
P
(
Do'stlaringiz bilan baham: |