Глава 8. Недообучение, переобучение и универсальный процесс ML
337
моделью данных). Идеальная модель балансирует на грани между недообучением
и переобучением, то есть между недостаточными и чрезмерными разрешающими
возможностями. Чтобы найти эту грань, необходимо сначала ее пересечь.
А чтобы пересечь ее, следует разработать переобученную модель. Обычно это
несложно. Можно:
• добавить дополнительные слои;
• сделать уже существующие слои больше;
• увеличить количество эпох обучения модели.
Всегда применяйте визуализацию для мониторинга потерь на обучающем и прове
рочном наборах данных, а также любых дополнительных интересующих вас метрик
(например, AUC) на обоих этих наборах. Если безошибочность модели на про
верочном наборе начала падать (см. рис. 8.6, блок Б), значит, модель переобучена.
8.
Добавить в модель регуляризацию и подобрать гиперпараметры
. Следующий
шаг — добавление в модель регуляризации и дальнейшая настройка гиперпара
метров (обычно автоматически) для максимального приближения к идеальной
модели, не недообученной, но и не переобученной. Этот шаг занимает больше
всего времени, хотя его можно автоматизировать. Здесь модель многократно
модифицируется, обучается, оценивается качество ее работы на проверочном
(пока что не контрольном) наборе данных, снова модифицируется, и все это
повторяется до тех пор, пока модель не окажется столь хорошей, как только воз
можно. Что касается регуляризации, имеет смысл попробовать следующее.
• Добавить слои дропаута с различными коэффициентами дропаута.
• L1 и/или L2регуляризацию.
• Различные архитектуры: добавить или убрать небольшое число слоев.
• Поменять прочие гиперпараметры (например, количество нейронов плотного
слоя).
Учтите вероятность переобучения на проверочном наборе данных при настрой
ке гиперпараметров. Поскольку гиперпараметры определяются на основе того,
насколько хорошо модель работает на проверочном наборе данных, их значения
могут слишком хорошо подходить для проверочного набора, а потому плохо
обобщаться на прочие данные. Получение несмещенной оценки степени без
ошибочности модели после настройки гиперпараметров — задача контрольного
набора данных. Поэтому не стоит использовать контрольный набор данных во
время настройки гиперпараметров.
Это универсальный технологический процесс машинного обучения! В главе 12
мы добавим в него еще два шага, ориентированных на практическое использование
(шаг оценки и шаг развертывания). Но пока это готовый рецепт перехода от рас
плывчатой идеи машинного обучения к обученной и готовой выдавать полезные
предсказания модели.
С этим фундаментом знаний далее мы приступим к изучению более продвину
тых типов нейронных сетей. И начнем в главе 9 с моделей, предназначенных для
последовательных данных.
338
Do'stlaringiz bilan baham: |