Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»

Связываем наблюдаемые и недостающие данные

Download 1,71 Mb.

Pdf ko'rish

bet	54/84
Sana	04.11.2022
Hajmi	1,71 Mb.
	#860117
Turi	Руководство

1 ... 50 51 52 53 54 55 56 57 ... 84

Bog'liq
Тёмные данные. 2021

Связываем наблюдаемые и недостающие данные
Если наша стратегия сбора данных не принесла успеха и их набор оказался неполным, то
ключевым фактором в борьбе с темными данными становится понимание того, почему эти
данные отсутствуют. В частности, нам необходимо изучить взаимосвязь между имеющимися
данными и отсутствием каких-либо элементов. Если повезет, это даст некоторое
представление о том, какие значения могли бы иметь недостающие элементы, что, в свою
очередь, позволит компенсировать отсутствующие данные.

118
В качестве отправной точки для такого подхода полезно использовать классификацию,
предложенную американским статистиком Дональдом Рубином в 1970-х гг.1 Она различает
три типа взаимосвязей между наблюдаемыми и недостающими данными. Начнем с примера.
Индекс массы тела, или ИМТ, является стандартным показателем массы тканей
человеческого организма. Он используется для классификации людей по следующим
категориям: «недостаточный вес», «нормальный вес», «избыточный вес» и «ожирение» — и
определяется как масса тела человека в килограммах, деленная на квадрат его роста в
метрах. Человек попадает в категорию «избыточный вес», если его ИМТ равен или больше
25, а если это значение равно или превышает 30 — то в категорию «ожирение». Данные
свидетельствуют о том, что по сравнению с людьми с нормальным весом люди с ожирением
имеют повышенный риск развития диабета 2-го типа, ишемической болезни сердца,
инсульта, остеоартрита, некоторых форм рака, депрессии и множества других болезней. По
этой причине и существует значительный интерес к диетам для похудения.
При изучении одной такой диеты наблюдения проводились с недельными интервалами в
течение шестимесячного периода, чтобы увидеть, улучшилась за это время ситуация и
насколько. Наблюдения включали взвешивания, измерения толщины кожных складок и
расчет ИМТ, но мы сосредоточимся на последнем показателе.
К сожалению, некоторые из участников вышли из исследования в течение этих шести
месяцев, поэтому для них нет окончательного результата. Вопрос в том, можем ли мы
игнорировать эти темные данные и просто анализировать те ряды, где есть как начальные,
так и конечные значения? В главе 2 мы рассматривали проблемы, которые влечет за собой
выпадение участников из исследования, и, учитывая, что вы дочитали книгу до этого места,
ваш ответ, скорее всего, будет отрицательным. Мы не можем просто игнорировать
выбывание участников и вот почему.
Некоторые из тех, кто сидел на диете, выпали из исследования, потому что не смогли
придерживаться разработанной программы питания — им было стыдно и они не могли
вернуться. Другие, особенно те, у кого превышение нормы не было чрезмерным,
обнаружили, что худеют слишком медленно, начали терять мотивацию и тоже выбыли.
Третьи покинули исследование по причинам, не связанным с похудением, — кто-то
переехал, сменив работу, а кто-то просто был слишком занят, чтобы посещать клинику, где
проводились измерения.
Для первой из этих трех категорий существует четкая связь между вероятностью выпадения
и ИМТ, который был бы зарегистрирован, если бы они остались в исследовании. То, что они
не придерживались программы питания, означало, что эти люди как минимум худели
намного медленнее, чем следовало, а возможно, даже набирали вес. Рубин назвал подобные
ситуации, в которых вероятность отсутствия данных связана с их значениями, которые мы
имели бы, если бы вели наблюдение, «неигнорируемо потерянными» наблюдениями (иногда
их еще называют «содержательно потерянными»). Очевидно, что с такой ситуацией
непросто справиться, потому что темные данные будут отличаться от наблюдаемых данных
тех, кто остался в исследовании.
Для второго типа выбывших, тех, кто не имел заметного избыточного веса и потерял
мотивацию, существовала связь между вероятностью их выпадения и тем, что было
измерено — начальным ИМТ. Хотя мы не знаем окончательное значение ИМТ этих людей,
ясно, что их выпадение связано с тем, что мы уже измерили. Рубин назвал это «случайно
потерянными» наблюдениями. Суть подобных ситуаций в том, что мы располагаем
признаками того, что дела идут или могут пойти не так.

119
Наконец, третья категория состоит из людей, у которых причина выбывания не имела
отношения к исследованию. Для таких людей измерения (ни сделанные до их ухода, ни те,
которые могли бы быть проведены, останься они в группе) не имеют никакого отношения к
их выпадению. Рубин назвал эту категорию «абсолютно случайно потерянными»
наблюдениями.
Для людей, далеких от статистики, терминологию Рубина, вероятно, будет сложно
запомнить, поэтому я переименую эти три типа механизмов появления недостающих
данных.

Я обозначу неигнорируемо потерянные наблюдения как зависимые от невидимых
данных, или UDD (Unseen Data Dependent) для краткости. Вероятность отсутствия
наблюдений в этом случае зависит от значений, которые еще неизвестны. В нашем
примере вероятность ненаблюдения окончательного значения ИМТ зависит от того,
насколько оно высокое: люди с более высокими значениями с меньшей вероятностью
захотят его измерить.

Я обозначу случайно потерянные наблюдения как зависимые от видимых данных, или
SDD (Seen Data Dependent) для краткости. Здесь вероятность невозможности
наблюдения зависит от данных, которые уже наблюдались. В нашем примере
вероятность того, что итоговое значение ИМТ не будет наблюдаться для этой
категории, зависит от исходного значения ИМТ, при этом люди с низкими
значениями могут выпасть с большей вероятностью.

Я обозначу абсолютно случайно потерянные наблюдения как независящие от данных,
или NDD (Not Data Dependent) для краткости. В этом случае вероятность отсутствия
наблюдения никак не зависит от данных, имеющихся или нет. В нашем примере
вероятность отсутствия итогового значения ИМТ не связана с другими значениями —
ни с теми, которые были нами уже получены, ни с теми, которые мы могли бы
получить, если бы наблюдения состоялись.
Заслуга Рубина, выделившего эти категории, становится очевидной, когда мы начинаем
задумываться о том, как скорректировать недостающие данные. Последний тип механизма
появления недостающих данных — самый простой, поэтому начнем с него.
В идеальном мире измерены были бы все — и в начале шестимесячного периода, и в конце,
но наш мир не идеален. Поэтому и возникает вопрос, на который нам нужно ответить: как
отсутствие результатов тех, кто выпал из исследования, исказит его выводы? Выпадения в
группе NDD произошли по причинам, не связанным с исследованием. Нет никаких
оснований считать, что эти выпавшие данные могли иметь нечто общее, отличающее их от
данных тех, кто остался в группе. По сути, это как если бы мы с самого начала просто взяли
меньшую выборку. В среднем эти неизмеренные значения не повлияют на результаты
анализа, поэтому мы можем смело их игнорировать. NDD — самая простая ситуация и,
вероятно, самая редкая. В этом случае темные данные вообще не имеют значения.
Но если бы все было так просто!
Второй класс Рубина — SDD — уже более коварный. Отказ этих людей от участия в
исследовании зависит от начального значения их ИМТ, уже измеренного и вполне видимого.
В частности, те, у кого это начальное значение низкое, чаще выпадают и не доходят до этапа
регистрации финального значения, тогда как те, у кого начальный ИМТ более высокий,
меньше склонны к выбыванию.
Здесь важно отметить, что такой тип отсутствия данных не искажает наблюдаемую
взаимосвязь между начальным и конечным значениями ИМТ. Для любого известного

120
начального значения может не быть значения конечного, потому что некоторые участники
покидают исследование, но те, которые остаются в нем, будут надлежащим образом
представлять распределение окончательных значений ИМТ для людей с похожим начальным
значением. Другими словами, мы можем оценить взаимосвязь между начальными и
конечными значениями, используя только имеющиеся данные: это не исказит нашего
представления о соотношении. Затем мы можем использовать это расчетное соотношение,
чтобы, в свою очередь, дать оценки конечных значений ИМТ для любого начального
значения.
Наконец, у нас есть первый класс Рубина — случаи UDD. Эти случаи по-настоящему
сложные. Данные отсутствуют из-за значений ИМТ, которые мы могли бы узнать, но
которых, конечно, не знаем. Они не выпали случайным образом, не стали следствием других
наблюдаемых значений. Единственный способ оценить такие данные — получить
информацию откуда-то еще или предположить самому, почему именно эти значения
отсутствуют.
Вот еще один пример.
Специалист по социальной статистике Кэти Марш описала набор данных, собранных в 1980
г. путем случайной выборки, в которую вошли 200 британских супружеских пар2. Мы
используем эту выборку для оценки среднего возраста замужних женщин в Великобритании
в то время. Беглый взгляд на данные Кэти Марш показывает, что имеются недостающие
значения, а возраст некоторых жен не зафиксирован. Вопрос заключается в том, влияют ли
эти темные данные на подход к анализу и делают ли они недействительными выводы, к
которым мы можем прийти? Как и в примере с ИМТ, ответ зависит от того, по какой
причине данные отсутствуют.
Ненаблюдаемые значения возраста жен могут принадлежать категории NDD и не быть
связаны с другими значениями данных в исследовании, известными и неизвестными.
Ненаблюдаемые значения могут также принадлежать категории SDD и зависеть от других
значений, которые мы уже имеем. Предположим для упрощения, что решение жены о том,
следует ли ей называть свой возраст, зависит исключительно от возраста ее мужа, а от
значений прочих переменных не зависит. Так, жены, мужья которых старше их самих, могут
вдвое реже сообщать свой возраст, чем жены, чьи мужья младше. Предположим также, что
мы всегда знаем возраст мужа.
Наконец, ненаблюдаемые значения могут быть из категории UDD, и отсутствие возраста жен
будет зависеть от самого этого возраста. Это вполне резонно: еще не так давно в западном
мире считалось неприличным спрашивать даму о ее возрасте, а если вопрос все же задавался,
то отвечали на него крайне неохотно. Вот отрывок из рассказа «Сват» британского писателя
Саки, опубликованного в книге «Хроники Кловиса» (The Chronicles of Clovis) в 1911 г.[10]:
«Кризис наступил, — ответил Кловис, — когда она внезапно двинула теорию, что негоже ей
по ночам сидеть дома одной, и потребовала, чтобы к часу я всегда возвращался. Только
представь себе! А ведь мне восемнадцать, по крайней мере было в мой последний день
рождения».
«В твои последние два дня рождения, если уж быть математически точным».
«Ну, это не моя вина. Я не собираюсь становиться 19-летним, поскольку моей матери
должно быть 37 и не больше. Возраст все-таки влияет на внешний вид».
Эта условность может объяснить недостающие значения: возможно, пожилые женщины
были менее склонны отвечать на вопрос о возрасте.

121
Наши действия в первом случае просты, как и сама категория NDD. Поскольку недостающие
наблюдения не связаны с какими-либо фактическими значениями данных, мы можем
игнорировать любые пары, для которых отсутствует возраст жены, и оценить средний
возраст жен в Великобритании по другим имеющимся парам. Это означает, что выборка
станет несколько меньше, чем те 200 пар, на которые мы рассчитывали, но само по себе это
не вносит каких-либо смещений или системных искажений в оценку. Конечно, если будет
отсутствовать слишком много значений и размер выборки значительно уменьшится, то
повысится недостоверность наших выводов, но это уже другой вопрос.
А что насчет категории SDD? Вероятность того, что жена скажет, сколько ей лет, зависит от
возраста ее мужа, поэтому мы можем получить искаженную выборку возрастов жен.
Например, мы можем обнаружить, что значения возрастов пожилых жен, которые, как
правило, состоят в браке с мужьями старше их, будут представлены недостаточно. Если
игнорировать такую вероятность, то мы занизим средний возраст жен.
Ситуация сама показывает нам, как справиться с проблемой. Хотя для мужей любого
конкретного возраста не все жены могут сказать, сколько им лет, те, кто сообщает это,
являются просто случайной выборкой всех жен для мужей этого возраста (напомню, мы
предположили, что их желание отвечать не зависит ни от чего другого, кроме как от возраста
мужа). Это означает, что средний возраст тех жен, которые сообщили его, можно
использовать как оценку среднего возраста всех жен для мужей этого возраста. Кроме того,
это означает, что мы можем изучать соотношения возраста мужа и возраста жены, используя
только те возрастные пары, которые у нас есть. И после того, как мы оценим эти
соотношения, можно использовать их для получения ожидаемого возраста всех жен для
мужей конкретных возрастов. Теперь не составит труда оценить общий средний возраст всех
жен: мы просто вычисляем среднее значение, используя возраст тех, кто ответил на вопрос, и
ожидаемый возраст тех, кто этого не сделал.
Наконец, данные могут относиться к категории UDD. Если отсутствие возраста жены
зависит от самого этого возраста (например, если его не указали те из жен, кто старше), то
мы снова получаем искаженную выборку возрастов. Но теперь уже нельзя игнорировать
неполные пары, как мы делали это в случаях NDD и SDD. Для мужей всех возрастов жены,
которые не сообщили свой возраст, оказываются, как правило, старше тех, кто его сообщил,
но у нас нет никакой информации о том кто из них кто. Любой анализ без учета такого
искажения может содержать серьезные ошибки. В случае с категорией UDD нам нужно
искать решение в другом месте.
Первоначально большинство исследований, посвященных тому, как справляться с
проблемой недостающих данных, проводились экономистами. Это вполне ожидаемо:
экономика является особенно сложной в данном отношении областью, поскольку люди в
экономике не просто пассивные объекты для измерения; они реагируют на само проведение
измерений и, возможно, даже отказываются от них. В частности, они могут отказываться
отвечать на вопросы в зависимости от ответов, которые предстоит дать.
Важность темных данных в экономике иллюстрируется тем фактом, что в 2000 г.
американский экономист Джеймс Хекман был удостоен Нобелевской премии «за разработку
теории и методов анализа селективных выборок», которой он занимался в 1970-х гг. Понятие
«селективные выборки» — это еще один способ показать, что у вас не хватает данных, а есть
только отдельные выборки, сделанные из имеющихся значений. Подход Хекмана известен
как «двухшаговый метод». Он заключается в том, что при обработке данных SDD сначала
создается модель, в которой намеренно отсутствуют некоторые данные, а затем она
используется для корректировки общей модели — аналогично тому, как это было в примере
с Кэти Марш. Самого Хекмана интересовали такие вещи, как продолжительность рабочего
дня и рыночная заработная плата. Пример, который он использовал, стал уже классическим:

122
значение заработной платы, которую получает женщина, связанное с другими переменными,
но отсутствующее, если женщина увольняется (все то же самое относится и к мужчинам!).
Мы уже сталкивались с экономическими примерами, особенно из категории SDD, когда в
главе 2 рассматривали финансовые показатели. Например, индекс Dow Jones Industrial
Average представляет собой сумму цен акций 30 крупнейших публичных компаний США,

Download 1,71 Mb.

Do'stlaringiz bilan baham:

1 ... 50 51 52 53 54 55 56 57 ... 84