обучением по плану
(curriculum learning), или
шейпингом
(shaping), можно интерпретировать как метод
продолжения. В основе обучения по плану лежит идея планирования процесса обуче-
ния, когда начинают с простых понятий и постепенно вводят более сложные. Ранее
эта базовая стратегия применялась, чтобы ускорить обучение животных (Skinner,
1958; Peterson, 2004; Krueger and Dayan, 2009), и в машинном обучении (Solomonoff,
1989; Elman, 1993; Sanger, 1994). В работе Bengio et al. (2009) приведено ее обосно-
вание как метода продолжения, в котором простота предшествующих функций
J
(
i
)
обес печивается увеличением влияния более простых примеров (либо за счет того, что
их вкладу в функцию стоимости назначаются бо
льшие коэффициенты, либо потому
что они выбираются чаще). Экспериментально продемонстрировано, что при реше-
нии крупномасштабной задачи моделирования языка нейронной сетью обучение по
плану улучшает результаты. Обучение по плану успешно применялось к широкому
кругу задач в области обработки естественных языков (Spitkovsky et al., 2010; Col-
lobert et al., 2011a; Mikolov et al., 2011b; Tu and Honavar, 2011) и компьютерного зре-
ния (Kumar et al., 2010; Lee and Grauman, 2011; Supancic and Ramanan, 2013). Также
установлено, что обучение по плану согласуется с тем, как
преподает
человек (Khan
et al., 2011): преподаватель сначала показывает более простые и прототипичные при-
меры, а затем помогает обучаемому уточнить поверхность решений на менее очевид-
ных случаях. Такие стратегии не только
более эффективны
для обучения людей, чем
основанные на равномерной выборке примеров, но и могут повысить эффективность
других стратегий обучения (Basu and Christensen, 2013).
Еще один важный вклад в исследования в области обучения по плану связан с обуче-
нием рекуррентных нейронных сетей улавливанию долговременных зависимостей.
В работе Zaremba and Sutskever (2014) обнаружено, что гораздо лучшие результаты по-
лучаются при использовании
стохастического плана
, когда обучаемому всегда предъ-
является случайная смесь простых и трудных примеров, но средняя доля трудных
примеров (тех, в которых имеются долговременные зависимости) постепенно увеличи-
вается. Когда использовался детерминированный план, никакого улучшения по срав-
нению с эталоном (обычное обучение на полном обучающем наборе) не наблюдалось.
Итак, мы описали базовое семейство моделей нейронных сетей и способы их ре-
гуляризации и оптимизации. В последующих главах мы займемся частными случая-
ми этого семейства, когда сеть масштабируется на очень большие объемы данных
и обрабатываются данные со специальной структурой. Рассмотренные выше методы
оптимизации часто применимы к таким специализированным архитектурам после
небольшой модификации или даже в неизменном виде.
Do'stlaringiz bilan baham: |