Глава 8. Недообучение, переобучение и универсальный процесс ML
335
• Гипотеза о возможности предсказания выходных сигналов на основе входных
(входной сигнал сам по себе содержит достаточно информации, чтобы модель
могла предсказать выходной сигнал для всех возможных примеров данных
в конкретной задаче).
• Гипотеза о том, что модели хватит имеющихся данных для усвоения выше
упомянутой зависимости входных и выходных сигналов.
Пока у нас нет работающей модели, это всего лишь гипотезы, которые необхо
димо проверить или опровергнуть. Не все задачи в принципе решаемы: наличие
большого маркированного набора данных соответствий между X и Y не означает,
что X содержит достаточно информации для значения Y. Например, попытка
предсказания будущей стоимости конкретных акций на основе истории изме
нения их стоимости, скорее всего, завершится неудачей, поскольку история их
цен не содержит достаточно прогнозирующей информации об их будущей цене.
Один из классов нерешаемых задач, о которых вам следует знать:
нестацио-
нарные
(nonstationary) задачи, где зависимость входных и выходных данных
меняется с течением времени. Представьте себе, что вы пытаетесь создать реко
мендательную систему для торговли одеждой (на основе истории покупок кон
кретного пользователя) и обучаете модель на данных, собранных всего за один
год. Основная проблема здесь заключается в том, что вкусы людей к одежде со
временем меняются. Модель, достаточно безошибочно работающая на провероч
ных данных за прошлый год, вовсе не обязательно будет столь же безошибочно
работать в этом году. Учтите, что машинное обучение позволяет усваивать лишь
те паттерны, которые присутствуют в обучающих данных. В этом случае вполне
работоспособным решением будет использование актуальных данных и непре
рывное обучение новых моделей.
3.
Найти надежную меру успешности работы обученной модели относительно цели
.
В простых задачах такими мерами могут служить безошибочность предсказаний,
точность и полнота, кривая ROC и значение AUC (см. главу 3). Но во многих
случаях потребуются более сложные предметноориентированные метрики, на
пример коэффициент удержания клиентов, — те, что лучше соответствуют более
высокоуровневым целям, скажем, цели успешности бизнеса.
4.
Подготовить процесс оценки
. Необходимо спроектировать процесс проверки ка
чества работы модели. В частности, следует разбить данные на три однородных,
но непересекающихся множества: обучающий, проверочный и контрольный
наборы. Важно, чтобы метки проверочного и контрольного наборов не попали
в обучающие данные. Например, в случае временн
ы
х прогнозов проверочные
и контрольные данные должны браться из промежутков времени,
следующих за
обучающими данными. Код предварительной обработки данных должен полно
стью охватываться тестами для защиты от подобных ошибок.
5.
Выполнить векторизацию данных
. Данные необходимо преобразовать в тензоры,
называемые также
n
мерными массивами, — лингва франка моделей машинного
обучения в таких фреймворках, как TensorFlow.js и TensorFlow. Обратите вни
мание на следующие рекомендации по векторизации данных.
336
Do'stlaringiz bilan baham: |