Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»

Download 1,71 Mb.

Pdf ko'rish

bet	55/84
Sana	04.11.2022
Hajmi	1,71 Mb.
	#860117
Turi	Руководство

1 ... 51 52 53 54 55 56 57 58 ... 84

Bog'liq
Тёмные данные. 2021

Определение механизма появления недостающих данных

разделенную на поправочный коэффициент Доу. Но компании приходят и уходят — состав
индекса Dow Jones менялся более 50 раз с момента его запуска в 1896 г. В частности,
компании могут быть исключены из индекса, если начинают испытывать финансовые
трудности или в силу изменений в экономике. Это означает, что индекс отражает результаты
только тех компаний, которые достаточно успешны. Но признаки ухудшения результатов
или экономических изменений должны предшествовать решению об исключении компании
из индекса — это данные категории SDD.
Аналогичным образом из-за ухудшившихся результатов компании исключаются из индекса
S&P 500 — средневзвешенного индекса акций, куда входят 500 компаний с высокой
рыночной капитализацией. Решение о том, какие компании исключить, должно приниматься
на основе данных, доступных до исключения (при условии, что это не ретроспективные
данные!). Поэтому и здесь данные, описывающие исключенные компании, отсутствуют в
расчете индекса и могут быть отнесены к категории SDD.
В качестве последнего примера с финансовыми индексами давайте вспомним, как в главе 2
мы обнаружили, что ошибка выжившего затронула не только индексы Dow Jones и S&P 500,
но и индексы хедж-фондов. Например, Barclay Hedge Fund Index основан на среднем
арифметическом чистой доходности хедж-фондов, составляющих базу данных Barclay. Но
фонды, показатели которых ухудшились до такой степени, что они были закрыты, туда не
включаются. Однако, повторюсь, ухудшение показателей должно стать очевидным до того,
как фонд будет закрыт, поэтому эти данные также представляют собой категорию SDD.
Определение механизма появления недостающих данных
Классификация по категориям NDD, SDD, UDD очень полезна, поскольку для разных
механизмов возникновения недостающих данных требуются разные типы решений. Это
означает, что первым делом необходимо определить, к какой категории относится
конкретная проблема с отсутствием данных, — если мы ошибемся на этом этапе, наши
выводы могут быть неверными. В примере с определением возраста жен мы могли бы
сделать неверный вывод, если бы сочли, что вероятность отсутствия значения возраста не
зависит ни от возраста самой жены, ни от возраста ее мужа. Аналогичным образом если бы
мы полагали, что недостающие данные принадлежат категории SDD, но при этом ошибочно
думали, что решение жены назвать свой возраст зависит исключительно от возраста ее мужа,
то вновь попали бы в западню неверных выводов. Это вполне естественно, ведь любой
анализ включает в себя предположения о том, как возникли данные, и если эти
предположения ошибочны, то и выводы, сделанные на их основе, будут такими же. Кроме
того, из этого следует, что нужно быть максимально уверенным в своих предположениях и
по возможности находить способы их проверки и подтверждения. Для этого существуют
различные стратегии, которые мы и рассмотрим далее.
Возможно, основной из таких стратегий является использование собственного опыта в той
области, которую описывают данные. Если вы, скажем, исследуете сферу, где люди
особенно чувствительны к сообщенным ими данным, то можете предположить, что
недостающие значения принадлежат категории UDD. Например, в исследовании,
касающемся употребления кокаина, недостающие данные с большей вероятностью будут из
категории UDD, чем в исследовании на тему использования общественного транспорта.

123
В целом можно заключить, что другие исследования на ту же тему или исследования из
смежных областей способны пролить свет на причину отсутствия данных. Гарвардский
статистик Сяо-Ли Мэн элегантно использовал этот подход, чтобы получить количественную
оценку влияния недостающих данных на сделанные выводы3. Он разложил степень точности
оценки на части, одной из которых была корреляция между отсутствием значения и
величиной этого значения. Затем он показал, как в некоторых случаях эта корреляция может
быть получена из других источников данных, описывающих сходные проблемы.
Более активная стратегия выяснения причин появления недостающих данных — попытаться
собрать некоторые из них. Подробно мы рассмотрим этот метод в следующем разделе.
Иногда для этой цели могут использоваться статистические тесты. Например, мы могли бы
разделить мужей на две группы в зависимости от того, указали их жены свой возраст или
нет. Разница в моделях распределения возрастов мужей в этих двух группах позволит
предположить, что данные не входят в категорию NDD. Американский статистик Родерик
Литтл, один из ведущих экспертов в вопросе недостающих данных, разработал общий
статистический тест, чтобы определить по нескольким переменным, принадлежат ли такие
данные категории NDD4. Также есть статистические тесты, позволяющие увидеть, относятся
ли данные к категории SDD, но эти тесты чувствительны к предположениям, заложенным в
моделях. Это означает, что если ваша базовая модель интерпретации данных неверна, то и
выводы будут ошибочными. Опять же, удивляться тут нечему.
Мы убедились, что определение механизма появления недостающих данных, а также той
степени, в которой данные отсутствуют по причине своих возможных значений, важно для
предотвращения ложных результатов. В некоторых случаях бывает сразу понятно, какой
именно механизм задействован, но иногда одновременно действуют два или три механизма.
Три разных процесса не являются взаимоисключающими, и то, что некоторые из
недостающих данных относятся к категории NDD, не означает, что другие данные не могут
отсутствовать по причинам, свойственным категории UDD. Несмотря на это, если мы
сможем классифицировать отсутствующие значения, то тем самым встанем на путь
преодоления проблемы недостающих данных.
Вооружившись классификацией по трем категориям (UDD/SDD/NDD), мы можем
приступить к изучению практических методов работы с темными данными. В следующем
разделе мы начнем знакомство с ними с самых простых — и потому не всегда эффективных
— методов.

Download 1,71 Mb.

Do'stlaringiz bilan baham:

1 ... 51 52 53 54 55 56 57 58 ... 84