Часть III • Продвинутые возможности глубокого обучения с TensorFlow.js
Недостающие данные
Зачастую встречаются ситуации, когда в некоторых примерах данных отсутствует
часть признаков. Подобное может происходить по многим причинам. Источником
данных могут служить вводимые вручную формы, в которых отдельные поля просто
пропущены пользователем. Или датчики могут не работать либо быть отключены во
время сбора данных. Для некоторых признаков определенные значения просто не име
ют смысла. Например, какова последняя цена продажи для дома, который еще никогда
не продавался? Или номер телефона для человека, у которого нет телефона?
Как и в случае аномальных значений, существует множество способов решения
проблемы с недостающими данными, и мнения исследователей данных о том, какие
методики лучше применять в каких случаях, также сильно разнятся. Оптимальная
методика зависит от нескольких соображений, включая то, зависит ли вероятность
отсутствия признака от значения самого признака или от того, возможно ли спро
гнозировать отсутствие значения на основе прочих признаков в примере данных.
В инфобоксе 6.3 приведен перечень различных категорий отсутствующих данных.
ИНФОБОКС 6.3. Категории отсутствующих данных
Случайные пропуски (missing at random, MAR).
• Вероятность отсутствия признака не зависит от скрытого отсутствующего значе
ния, но может зависеть от какоголибо другого наблюдаемого значения.
• Пример: автоматизированная система обработки визуальных данных для автомо
бильного трафика может, помимо прочего, фиксировать регистрационные номера
автомобилей и время суток. Иногда, в темноте, не удается распознать регистра
ционный номер. Наличие признака номера не зависит от его значения, но может
зависеть от (наблюдаемого) признака времени суток.
Совершенно случайные пропуски (missing completely at random, MCAR).
• Вероятность отсутствия признака не зависит ни от скрытого отсутствующего зна
чения, ни от какоголибо другого наблюдаемого значения.
• Пример: космическое излучение создает помехи для оборудования и иногда портит
значения наборов данных. Вероятность такой порчи не зависит ни от хранимого
значения, ни от прочих значений набора данных.
Неслучайные пропуски (missing not at random, MNAR).
• Вероятность отсутствия признака зависит от скрытого значения при заданных
наблюдаемых данных.
• Пример: персональные метеостанции отслеживают разнообразную статистику,
например информацию об атмосферном давлении, осадках и уровне солнечного
излучения. Однако во время снегопада датчик солнечного излучения не принимает
сигнала.
При отсутствии какихлибо данных в обучающем наборе приходится вносить
исправления, чтобы можно было преобразовать данные в тензор фиксированной
Do'stlaringiz bilan baham: |