198
Глубокие сети прямого распространения
ские нейроны пребывают в состоянии неактивности (т. е. характеризуются
разре-
женной активацией
).
Когда в 2006 году началось возрождение глубокого обучения, сети прямого рас-
пространения по-прежнему пользовались дурной репутацией. В период с 2006 по
2012 год превалировало мнение, что такие сети не могут работать хорошо, если им
не ассистируют другие модели, например вероятностные. Сегодня известно, что при
наличии адекватных ресурсов и инженерных навыков сети прямого распростране-
ния работают отлично. В наши дни обучение сетей прямого распространения гради-
ентными методами служит инструментом для разработки вероятностных моделей,
как, например, вариационный автокодировщик и порождающие состязательные сети,
описанные в главе 20. Начиная с 2012 года обучение сетей прямого распростране-
ния градиентными методами перестало считаться ненадежной технологией, которая
должна обязательно поддерживаться другими методами. Теперь это мощная техно-
логия, применимая ко многим задачам машинного обучения. В 2006 году сообщество
использовало обучение без учителя для поддержки обучения с учителем, а теперь –
по иронии судьбы – все обстоит «с точностью до наоборот».
У сетей прямого распространения есть еще не раскрытый потенциал. Мы ожида-
ем, что в будущем они найдут применение во многих других задачах и что благодаря
достижениям в разработке алгоритмов оптимизации и проектирования моделей их
качество еще возрастет. В этой главе мы в общих чертах описали семейство моделей
на основе нейронных сетей. А в последующих вплотную займемся их использовани-
ем – расскажем, как их регуляризировать и обучать.
Глава
7
Регуляризация
в глубоком обучении
Центральная проблема машинного обучения – как создать алгоритм, который будет
хорошо работать не только на обучающих, но и на новых данных. Многие используе-
мые стратегии специально предназначены для уменьшения ошибки тестирования,
быть может, за счет увеличения ошибки обучения. Эти стратегии известны под об-
щим названием «регуляризация». В распоряжении специалиста по глубокому обуче-
нию много вариантов регуляризации. На самом деле разработка все более эффектив-
ных стратегий регуляризации – одно из основных направлений исследований в этой
области.
В главе 5 были введены понятия обобщения, недообучения, переобучения, сме-
щения, дисперсии и регуляризации. Если вы пока незнакомы с ними, ознакомьтесь
с главой 5, прежде чем продолжать чтение.
В этой главе мы опишем регуляризацию подробно, уделив особое внимание стра-
тегиям регуляризации глубоких моделей или моделей, которые используются в каче-
стве их строительных блоков.
В некоторых разделах этой главы речь идет о стандартных концепциях машинного
обучения. Если вы уже знакомы с ними, можете спокойно пропустить эти разделы.
Но большая часть главы посвящена обобщению базовых концепций на случай ней-
ронных сетей.
В разделе 5.2.2 мы определили регуляризацию как «любую модификацию алгорит-
ма обучения, предпринятую с целью уменьшить его ошибку обобщения, не уменьшая
ошибки обучения». Существует много стратегий регуляризации. В одних налагаются
дополнительные ограничения на модель машинного обучения, например на значе-
ния параметров. В других в целевую функцию включаются дополнительные члены,
которые можно рассматривать как мягкие ограничения на значения параметров.
При правильном выборе такие дополнительные ограничения и штрафы могут при-
водить к повышению качества на тестовом наборе. Иногда ограничения и штрафы
проектируются, чтобы выразить предпочтение более простому классу моделей и тем
повысить обобщаемость. А иногда они необходимы, чтобы преобразовать недоопре-
деленную задачу в определенную. В других вариантах регуляризации, называемых
ансамблевыми методами, комбинируется несколько гипотез, объясняющих обучаю-
щие данные.
В контексте глубокого обучения большинство стратегий регуляризации основано
на регуляризирующих оценках. Смысл регуляризация оценки – в увеличении сме-
Do'stlaringiz bilan baham: |