Глава 6. Работа с данными
271
вероятностей
. В этой терминологии обучающие данные состоят из набора неза
висимых
примеров данных
(samples). Отдельные примеры данных описываются
как пары (
x
,
y
), где
y
— часть примера данных, предсказываемая на основе
x
. Далее,
используемые при выводе данные состоят из набора примеров данных из
точно та-
кого же распределения вероятности, что и обучающие данные
. Единственное важное
различие между обучающими данными и данными, используемыми для вывода,
состоит в том, что во время вывода модель не видит
y
. Часть
y
примера данных не
обходимо предсказать по части
x
на основе статистических взаимосвязей, усвоенных
моделью из обучающих данных.
Существует множество вариантов, почему реальные данные могут не соот
ветствовать подобному идеалу. Если, скажем, обучающие данные и данные, пред
назначенные для вывода, взяты из различных распределений, говорят, что набор
данных
асимметричен
. Простой пример: если при анализе дорожного трафика на
основе таких признаков, как погода и время суток, вы берете все обучающие данные
за понедельники и вторники, а контрольные данные — за субботы и воскресенья, то
безошибочность модели окажется далеко не идеальной. Распределение дорожного
трафика в выходные отнюдь не такое же, как в будни. Еще один пример: представь
те себе, что мы создаем систему распознавания лиц, причем обучаем ее на основе
набора маркированных данных для своей родной страны. Ничего удивительного,
если наша система будет плохо работать в регионах с другими демографическими
характеристиками. Большинство проблем асимметрии данных, встречающихся на
практике гораздо менее очевидны, чем эти две.
Кроме того, асимметрия в наборе данных может возникнуть и в результате како
голибо резкого изменения при сборе данных. Например, если микрофон сломался
посередине сбора обучающего набора данных аудиосэмплов, предназначенного для
усвоения голосовых команд, и пришлось купить новый, следует ожидать, что рас
пределение шума и полезного сигнала во второй половине обучающего набора дан
ных будет отличаться от первой. А если во время выполнения вывода для контроля
будут использоваться данные только с нового микрофона, то асимметрия возникнет
и между обучающим и контрольным наборами данных.
До некоторой степени асимметрия неизбежна. Во многих приложениях обуча
ющие данные были собраны когдато давно, а приложению передаются текущие
данные. Распределение, из которого берутся эти примеры данных, меняется вместе
с изменением уклада жизни, интересов людей, моды и прочих факторов. В подобном
случае можно только выяснить сущность асимметрии и минимизировать ее влияние.
Поэтому многие модели машинного обучения, находящиеся в промышленной экс
плуатации, постоянно обучают заново на самых свежих обучающих данных, чтобы
не отставать от постоянно меняющихся распределений.
Примеры данных могут также оказаться неидеальными, когда не являются
независимыми. Оптимальный вариант — когда примеры данных независимы
и одинаково распределены (independent and identically distributed, IID). Но в не
которых наборах один пример какимлибо образом указывает на возможное
значение следующего. Примеры данных из такого набора — не независимы. Чаще
всего зависимость примеров данных друг от друга возникает вследствие сорти
ровки. Специалистов в области компьютерных наук учат упорядочивать данные
272
Do'stlaringiz bilan baham: |