362
Практическая методология
Ошибка обучения
8
7
6
5
4
3
2
1
0
10
–2
10
–1
10
0
Скорость обучения
(в логарифмическом масштабе)
Рис. 11.1
Типичная зависимость ошибки обучения от скорости обуче-
ния. Обратите внимание на резкое возрастание ошибки, когда скорость
выше оптимального значения. Это относится к фиксированному времени
обучения, потому что снижение скорости обучения иногда может всего
лишь замедлить обучение пропорционально уменьшению скорости. Ошиб-
ка обобщения может описываться этой же кривой или осложняется эффек-
тами регуляризации, возникающими из-за слишком большой или слишком
малой скорости обучения, поскольку неудачная оптимизация может до
некоторой степени уменьшить или вообще предотвратить переобучение,
и даже в точках с одинаковой ошибкой обучения ошибка обобщения может
различаться
Для настройки параметров, отличных от скорости обучения, необходимо следить
за ошибкой обучения и тестирования, чтобы понять, является ли модель переобучен-
ной или недообученной, а затем соответственно подкорректировать емкость.
Если ошибка на обучающем наборе выше целевой частоты ошибок, то нет другого
выбора, кроме как увеличить емкость. Если вы не пользуетесь регуляризацией, но
уверены в правильности алгоритма оптимизации, то следует увеличить число слоев
сети или добавить скрытые блоки. К сожалению, это увеличивает вычислительную
стоимость модели.
Если ошибка на тестовом наборе выше целевой частоты ошибок, то можно посту-
пить двояко. Ошибка тестирования равна сумме ошибки обучения и разрыва между
ошибкой тестирования и ошибкой обучения. Для нахождения оптимальной ошиб-
ки тестирования нужно сбалансировать эти величины. Нейронные сети обычно ра-
ботают оптимально, когда ошибка обучения очень мала (а потому емкость велика),
а ошибка тестирования в основном обусловлена разрывом между ошибкой обуче ния
и тестирования. Ваша цель – уменьшить этот разрыв, не увеличивая ошибку обуче-
ния быстрее, чем сокращается разрыв. Для уменьшения разрыва измените гиперпара-
метры регуляризации, так чтобы уменьшить эффективную емкость модели, например
добавьте прореживание или снижение весов. Обычно наилучшее качество достигает-
ся для большой хорошо регуляризированной (например, с помощью прореживания)
модели.
Большинство гиперпараметров можно задать, поняв, увеличивают они емкость мо-
дели или уменьшают. В табл. 11.1 приведено несколько примеров.
Выбор гиперпараметров
Do'stlaringiz bilan baham: |