В этой главе
z
Почему так важно визуализировать процесс обучения модели и на что следует
обратить внимание.
z
Как визуализировать недообучение и переобучение и понять, что к чему.
z
Основной способ решения проблемы переобучения: регуляризация и визуализа-
ция ее эффекта.
z
Что представляет собой универсальный технологический процесс машинного
обучения, из каких шагов он состоит и почему этим важным набором инструкций
руководствуются все задачи машинного обучения с учителем.
В предыдущей главе вы научились использовать tfjsvis для визуализации данных
перед проектированием и обучением на них моделей МО. В этой главе мы про
должим с места, на котором завершили предыдущую, и опишем, как использовать
tfjsvis для визуализации структуры и метрик моделей во время их обучения.
Основная наша цель — вовремя обнаружить чрезвычайно важные явления
недо-
обучения
(underfitting) и
переобучения
(overfitting). Научившись их обнаруживать,
мы займемся их устранением и с помощью визуализации проверкой того, что наши
методики их устранения работают.
8
Недообучение, переобучение
и универсальный
технологический процесс
машинного обучения
Глава 8. Недообучение, переобучение и универсальный процесс ML
319
8.1. Постановка задачи предсказания
температуры
Для демонстрации недообучения и переобучения нам нужна конкретная задача
машинного обучения. Воспользуемся задачей предсказания температуры на основе
данных из набора Jenaweather, который вы встретили в предыдущей главе. В раз
деле 7.1 на наборе данных Jenaweather демонстрировались возможности и преиму
щества визуализации данных в браузере. Надеемся, вы прочувствовали этот набор
данных, поэкспериментировав с UI визуализации. Теперь мы готовы приступить
к применению машинного обучения к этому набору данных. Но сначала необходимо
сформулировать задачу.
Этот пример можно рассматривать как «игрушечную» задачу прогноза погоды.
Мы попытаемся в ней предсказать температуру за 24 часа, следующие за определен
ным моментом времени, на основе 14 типов метеорологических измерений, полу
ченных за предшествующий этому моменту десятидневный период.
И хотя формулировка задачи проста, способ генерации данных из CSVфайла
требует определенных пояснений, поскольку отличается от процедур генерации
данных в предыдущих задачах книги. В них каждая строка исходного файла данных
соответствовала обучающему примеру. Именно так были устроены примеры iris
flower, Bostonhousing и phishingdetection (см. главы 2 и 3). В этой же задаче каждый
пример данных формируется путем выборки и сочетания нескольких строк CSV
файла, поскольку температура предсказывается на основе данных за определенный
промежуток времени, а не за один конкретный момент (рис. 8.1).
Рис. 8.1.
Схематическое изображение генерации отдельного примера на основе табличных данных
320
Do'stlaringiz bilan baham: |