Часть IV • Резюме и заключительное слово
данных перед вводом их в модель, а также преобразование выходных сигналов мо
дели в форму, более подходящую для дальнейших систем. В этом случае модульные
тесты помогают гарантировать корректность подобной логики предварительной
и постобработки.
Еще один допустимый вид применения «золотых значений» выходит за рамки
модульного тестирования: мониторинг качества работы модели (но не в качестве
модульного тестирования) по мере ее видоизменения. Мы расскажем об этом по
дробнее, когда будем обсуждать средства проверки и оценки модели в следующем
разделе.
12.1.3. Соображения по поводу непрерывного обучения
Во многих системах машинного обучения новые обучающие данные поступают до
вольно регулярно (каждый день или каждую неделю). Иногда можно использовать
журналы за предыдущий день для генерации новых, более актуальных обучающих
данных. В подобных системах модель необходимо часто обучать заново, на основе
самых свежих доступных данных. Существует мнение, что в подобных случаях
возможности устаревшей модели снижаются. С течением времени входные данные
модели понемногу перестают соответствовать распределению, которому соответ
ствовали во время ее обучения, и характеристики качества ее работы ухудшаются.
В качестве примера представьте себе утилиту для рекомендации одежды, обученную
зимой, а предсказания выполняющую летом.
Достаточно приступить к изучению систем непрерывного обучения, и вы об
наружите, что в конвейер входит большое число дополнительных компонентов.
Всестороннее обсуждение их выходит за рамки данной книги, скажем только, что
источником дополнительных идей может послужить инфраструктура TensorFlow
Extended (TFX)
1
. К сфере тестирования из перечисленных в ней компонентов
конвейера относятся прежде всего
средство проверки примеров данных
(example
validator),
средство проверки модели
(model validator) и
средство оценки модели
(model evaluator). Схема на рис. 12.1 включает соответствующие этим компонентам
прямоугольники.
Средство проверки примеров данных осуществляет тестирование данных — ча
сто игнорируемый аспект тестирования системы машинного обучения. Знаменитое
высказывание, популярное среди специалистов по машинному обучению, гласит:
«Мусор на входе — мусор на выходе» (Garbage in, garbage out). Качество обученной
модели машинного обучения ограничивается качеством ее входных данных. При
меры с некорректными значениями признаков или метками, вероятно, отрицательно
повлияют на безошибочность обученной модели после ее развертывания (и это если
сначала не возникнут проблемы при обучении модели изза этих плохих примеров
данных!). Средство проверки примеров данных обеспечивает соответствие свойств
1
Baylor D. et al.
TFX: A TensorFlowBased ProductionScale Machine Learning Platform //
KDD, 2017. www.kdd.org/kdd2017/papers/view/tfxatensorflowbasedproductionscale
machinelearningplatform.
Do'stlaringiz bilan baham: |