Глава 12. Тестирование, оптимизация и развертывание моделей
485
используемых при обучении и оценке модели данных определенным требованиям:
достаточности объемов данных, допустимости их распределения и отсутствию
какихлибо причудливых аномальных значений. Например, рост (в сантиметрах)
пациента в наборе медицинских данных не должен превышать 280; возраст пациента
должен быть неотрицательным числом от 0 до 130; пероральная температура (в гра
дусах Цельсия) должна быть положительным числом примерно между 30 и 45 и т. д.
Если же какиелибо примеры данных содержат признаки, выходящие за пределы
этих диапазонов, или содержат значения«заполнители», например None или NaN,
значит, с этими примерами данных чтото не в порядке, и с ними следует поступить
соответствующим образом — обычно исключить из процессов обучения и оценки.
Как правило, подобные ошибки указывают либо на сбой в процессе сбора данных,
либо на то, что «мир изменился» несовместимым с лежащими в основе системы до
пущениями образом. В большинстве случаев такое тестирование скорее напоминает
мониторинг, а не комплексное тестирование.
Такие компоненты, как средство проверки примеров данных, полезны также для
выявления
асимметрии между обучением и выдачей результатов
(trainingserving
skew) — особенно неприятной разновидности программной ошибки, возникающей
в системах машинного обучения. Две основные ее причины: 1) различные распре
деления данных, используемых при обучении и реальной работе модели, и 2) что
выполнение кода идет по различным путям при обучении и реальной работе моде
ли. Развертывание средства проверки примеров данных в обеих средах — обучения
и эксплуатации модели — позволяет потенциально обнаружить ошибки, возника
ющие на какомлибо из этих путей выполнения кода.
Средство проверки модели играет роль человека — создателя модели, когда речь
заходит о том, достаточно ли модель «хороша» для реальной эксплуатации. Доста
точно настроить его, указав интересующие вас метрики качества, после чего оно
«благословляет» модель или отвергает ее. Опять же, как и в случае средства про
верки примеров данных, оно работает скорее в стиле мониторинга и оповещения.
Обычно имеет смысл журналировать метрики качества (безошибочность и т. д.)
и строить графики их зависимости от времени, чтобы вовремя выявить небольшие
систематические ухудшения рабочих характеристик, которые сами по себе не вызва
ли бы срабатывания предупреждения, но полезны для диагностики долговременных
тенденций и локализации их причин.
Средство оценки модели позволяет подробнее исследовать статистику качества
работы модели, анализируя его вдоль и поперек заданной пользователем оси ко
ординат. Зачастую его применяют, чтобы «прощупать», как модель ведет себя для
различных групп пользователей, в смысле возраста, образования, географии и т. д.
В качестве простой иллюстрации можно привести проверку для примера ирисов из
Do'stlaringiz bilan baham: |