Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
6.4. Вероятно, данные не без изъяна: обработка
проблемных данных
Практически наверняка в исходных данных встретятся какиелибо проблемы. Если
вы используете свой собственный источник данных и не потратили несколько часов
в компании эксперта, анализируя отдельные признаки, их распределения и кор
реляции, то очень велика вероятность наличия в них изъянов, которые способны
испортить вашу модель машинного обучения. Мы, авторы данной книги, утвер
ждаем это со всей уверенностью на основе богатого опыта руководства созданием
множества систем машинного обучения во множестве предметных областей, в том
числе создания нескольких самостоятельно. Наиболее распространенный симптом
этого — отсутствие сходимости модели или сходимость ее к степени безошибоч
ности ниже ожидаемой. Еще один, даже более скверный и непростой для отладки
паттерн заключается в том, что модель сходится и демонстрирует неплохие резуль
таты на проверочном и контрольном наборах данных, однако при промышленной
эксплуа тации работает плохо. Иногда это действительно проблема моделирования
или плохое значение гиперпараметра, а может, просто не повезло, но в абсолютном
большинстве случаев истинная причина этих проблем — изъян в данных.
Все используемые наборы данных (MNIST, набор данных «Ирисы Фишера» и на
бор для распознавания речевых команд) мы «за кулисами» вручную просмотрели, из
бавили от неудачных примеров данных, преобразовали в стандартный удобный формат
и подвергли прочим операциям науки о данных, о которых не упоминали. Проблемы
с данными могут проявляться во множестве форм, включая отсутствующие значения
полей, коррелированные между собой примеры данных и асимметричные распре
деления. Работа с данными настолько разнообразная и обширная сфера, что можно
посвятить ей целую книгу. На самом деле вот одна из них, с намного более полным
обзором этих вопросов:
Davis Ashley.
Data Wrangling with JavaScript
1
.
Во многих компаниях появились полноценные должности исследователей
и администраторов данных. Используемые этими специалистами инструменты
и рекомендуемые ими практики очень разнообразны и часто зависят от нюансов
конкретной предметной области. В этом разделе мы затронем лишь основы и ука
жем несколько инструментов, чтобы помочь вам избежать разочарования, когда
в результате длительных сеансов отладки моделей оказывается, что проблема была
в самих данных. Более подробные сведения о науке о данных вы сможете найти
в приводимых нами ссылках на дополнительные источники информации.
6.4.1. Теория данных
Для обнаружения и исправления
плохих
данных сначала необходимо понять, что
такое
хорошие
данные. Большая часть теории, лежащей в основе машинного обуче
ния, исходит из допущения, что источником данных является некое
распределение
1
Доступна на сайте издательства Manning: https://www.manning.com/books/datawrangling
withjavascript.
Do'stlaringiz bilan baham: |