Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»

Download 1,71 Mb.

Pdf ko'rish

bet	15/84
Sana	04.11.2022
Hajmi	1,71 Mb.
	#860117
Turi	Руководство

1 ... 11 12 13 14 15 16 17 18 ... 84

Bog'liq
Тёмные данные. 2021

От нескольких ко многим
Сбор данных обо всех интересующих нас людях или объектах, например административных
данных, генерируемых во время похода в супермаркеты, — это действенный метод
получения информации, способной улучшить понимание ситуации и повысить качество
принимаемых решений. Но такие данные не всегда могут пролить свет на волнующие нас
вопросы. Простейшим примером являются ситуации, в которых соответствующие наборы
административных данных просто не могут быть собраны автоматически. Одно из решений
— использовать максимально близкий к искомому набор данных, но это имеет свои риски.
Вторым решением будет разовый сбор данных, например в масштабе всего населения, для
получения ответа на конкретный вопрос. По сути, это перепись. Но, к сожалению, перепись
— дорогостоящий и небыстрый процесс, и нет смысла тратить огромные суммы на то, чтобы
получить идеальный ответ уже после того, как он перестал быть актуальным.
Третья стратегия заключается в проведении опросов.
Опросы — это один из основных инструментов, используемых для изучения современного
общества. Их особенность и преимущество состоит в том, что они позволяют понять
происходящее в той или иной группе людей, не спрашивая каждого члена этой группы.
Опросы основаны на таком мощном статистическом феномене, как закон больших чисел,
который гласит, что среднее значение произвольной выборки из некоей генеральной
совокупности с высокой вероятностью будет очень близко к реальному среднему значению
совокупности, если размер выборки достаточно велик.
Предположим, мы хотим определить средний возраст людей в стране. Это значимая
информация, позволяющая понять, например, достаточно ли в стране людей
трудоспособного возраста (и будет ли их достаточно по мере старения населения), чтобы
собранные с них налоги могли обеспечить пенсию старшему поколению. Важность и
потенциальное влияние среднего возраста становится очевидным, если взглянуть на два
государства, занимающих крайние противоположные позиции на этой шкале:
западноафриканский Нигер, где 40% населения не достигло возраста 15 лет, и Японию, в
которой всего 13% населения приходится на эту возрастную группу.
Представим, что у нас нет записей о рождении, что мы не можем позволить себе провести
перепись и узнать возраст каждого, а базы данных, собранные различными службами и
сервисами, которые просят указать при регистрации дату рождения, не внушают доверия
из-за наличия темных данных. Опросы позволяют получить достаточно точную оценку,
задавая лишь некоторым людям вопрос об их возрасте. Вы, должно быть, сразу сообразили,
что существует очевидный риск возникновения темных данных, поскольку мы не узнаем
возраст всех тех, кто не попал в наш опрос. Но закон больших чисел говорит о том, что
узнать это вполне возможно при условии репрезентативности выборки. Более того,
математика, лежащая в основе этого закона, утверждает, что выборка необязательно должна
быть огромной — тысячи человек для средних размеров страны может оказаться достаточно.
Согласитесь, это совсем не то, что опрашивать миллионы.
Обычно к выборке прилагается крайне важное пояснение, которое описывает ее как
сформированную либо «случайно», либо «должным образом». Если мы включим в выборку

26
только посетителей ночных клубов или только обитателей домов престарелых, то вряд ли
сможем точно определить средний возраст населения. Нам нужно быть уверенными,
насколько это возможно, в том, что выборка должным образом представляет исследуемое
население. Лучший способ достичь этого — начать с составления списка всех интересующих
нас представителей населения (такой список называется рамкой выборки), затем случайным
образом выбрать людей из этого списка и спросить их о возрасте. Такие детальные списки
часто создают на основе административных данных, например списков избирателей или
результатов последней переписи.
Поначалу случайный выбор тех, кого спрашивать о возрасте, может показаться странным.
Конечно, каждый такой опрос может давать разный результат. Однако, хотя он не
гарантирует того, что выборка свободна от негативного влияния темных данных (например,
что доля молодых людей в ней не выше, чем в популяции), вероятность таких искажений
поддается контролю. Это означает, что мы можем утверждать, например, следующее:
«Почти для всех (то есть для 95%) сформированных выборок среднее значение может
отклоняться не более чем на два года от среднего возраста населения». Увеличивая размер
выборки, мы можем увеличить и уверенность с 95%, скажем, до 99%, и уменьшить диапазон
отклонений на год или любую другую величину. А если вас беспокоит отсутствие
абсолютной достоверности выводов, сделанных по результатам такого процесса, напомним,
что ничто в этой жизни не является абсолютно достоверным (разве что смерть и налоги).
Один из любопытных аспектов закона больших чисел состоит в том, что точность оценки
существенно не зависит от того, насколько большую долю населения составляет выборка, во
всяком случае если популяция большая, а выборка относительно невелика. Точность, как ни
странно, зависит просто от численности выборки. При прочих равных условиях выборка
численностью тысячу человек для населения в миллион обычно дает такую же точность, как
и для населения в миллиард. Это верно, несмотря на то, что отношение выборки к
совокупности в первом случае будет один к тысяче, а во втором — один к миллиону.
К сожалению, эта стратегия выборочного опроса не является волшебной палочкой. Как и во
всем остальном в жизни (или почти во всем остальном?), у опросов есть и обратная сторона,
а именно то, что они обычно подразумевают добровольное участие. Это означает, что люди
могут отвечать на одни вопросы и не отвечать на другие или даже отказаться от участия в
принципе. И тут мы входим в область темных данных DD-тип 4: самоотбор.
Пример такого отсутствия ответа приведен в табл. 1, где показаны данные с некоторыми
отсутствующими значениями. Они обозначены вопросительным знаком (часто для этого
используется аббревиатура NA, что означает not available или «нет данных»). В таблице
приведены 10 записей с маркетинговыми данными, взятых с сайта данных для машинного
обучения10. Данные были собраны из анкет, выданных посетителям торгового центра в
районе залива Сан-Франциско. Цель исследования заключалась в построении модели
прогнозирования доходов в зависимости от переменных. Вот эти переменные: A — пол, B —
семейное положение, C — возраст, D — образование, E — род занятий, F — сколько лет
проживает в Сан-Франциско, G — число работающих в семье, H — численность семьи, I —
число членов семьи младше 18 лет, J — статус домохозяйства, K — тип жилой
недвижимости, L — этническая группа, M — язык и, наконец, последняя переменная,
которая должна была быть спрогнозирована, N — доход (на сайте дается более подробная
информация о значении и диапазоне каждой из переменных, я же для удобства обозначил их
буквами). Весь набор данных содержит 8993 строки, подобных тем, что показаны в таблице,
но в 2117 из них есть отсутствующие значения — так же, как и в трех строках приведенного
фрагмента. При этом в одной из этих трех строк отсутствует два значения. Эти
отсутствующие значения явно относятся к DD-типу 1: данные, о которых мы знаем, что они
отсутствуют, поскольку мы отчетливо видим, что в ячейках не хватает чисел.

27
Столбец таблицы, обозначенный буквой «М», показывает ответы на вопрос «На каком языке
чаще всего говорят в вашем доме?». Есть три варианта ответов: 1 — на английском, 2 — на
испанском и 3 — на любом другом языке. Поскольку только одна из этих категорий может
быть верной для каждого домохозяйства, а вместе они включают в себя все возможные
языки, то мы знаем, что для каждой строки существует только один из трех предложенных
вариантов ответа. Но по какой-то причине два человека в нашей выборке просто не стали
отвечать.
Иногда, впрочем, записи являются неполными по причине того, что подходящих значений
просто нет — ответа не существует. Например, поле, в котором указывается возраст супруга
респондента, должно остаться пустым, если респондент не состоит в браке. Это порождает
интересный вопрос о том, как мы должны относиться к таким недостающим значениям.
Ситуация явно отличается от того, если бы кто-то, состоящий в браке, просто не заполнил
это поле. Но имеет ли это различие значение? Если два типа отсутствия ответа будут
рассматриваться нами одинаково, приведет ли это к ошибочным выводам?
Запись с пробелами сразу показывает, что чего-то не хватает (DD-тип 1: данные, о которых
мы знаем, что они отсутствуют). Однако, когда люди вообще отказываются отвечать на
вопросы, мы имеем иной результат — DD-тип 4: самоотбор. Люди могут быть слишком
заняты, могут воспринять опрос как вторжение в частную жизнь или просто не выходить на
контакт (например, если их нет в городе на момент проведения исследования). Это тоже
известные неизвестные в том смысле, что мы знаем, кто эти люди, поскольку они есть в
списке выборки, а также знаем, что они могли бы дать ответы, если бы были готовы и имели
возможность. Но, поскольку у нас нет их ответов, мы вынуждены находиться в неведении.
Один из ярких примеров такого рода проблем дают президентские выборы 1936 г. в США.
На основе опросов популярный журнал The Literary Digest много раз успешно определял
победителей выборов, и в 1936 г. он предсказал, что победит кандидат от республиканцев
Альфред Лэндон, а голоса разделятся в соотношении 3∕2. Тем не менее Франклин Рузвельт,
кандидат от демократов, одержал уверенную победу, набрав 523 из 531 голоса коллегии
выборщиков, 62% голосов избирателей и получив большинство в 46 из 48 штатов.
Результаты этих выборов и ошибочный прогноз The Literary Digest часто связывают с
темными данными, полученными в ходе опроса. На этот счет есть разные теории, но все они
сводятся к одной мысли: не стоило в качестве рамки выборки использовать телефонные

28
справочники. В то время телефоны были чем-то вроде предметов роскоши и в основном
принадлежали состоятельным людям, среди которых было больше сторонников
республиканцев. Таким образом, в выборке была завышена доля людей, которые
планировали голосовать против Рузвельта.
Подобно попытке оценить средний возраст населения страны на основе выборок, сделанных
в ночных клубах или домах престарелых, это объяснение ошибочного прогноза
предполагает, что причина появления темных данных кроется вовсе не в отказе людей
отвечать на вопросы, а в неправильном определении первоначального списка респондентов.
Однако подробный анализ статистика Мориса Брайсона показывает, что этот упрощенческий
подход является в корне неверным11. С одной стороны, он недооценивает те меры, которые
предпринимали опросчики The Literary Digest, чтобы обеспечить репрезентативность
выборки потенциальных избирателей. Они хорошо понимали факторы, которые могли
привести к искажению этой выборки. С другой стороны, хотя в то время лишь около 40%
домохозяев имели телефоны, эти же 40% представляли наиболее активную часть
избирателей. Сей факт означает, что, несмотря на возможность появления темных данных в
масштабе всего населения, их влияние было куда менее серьезным, если рассматривать
владельцев телефонов как долю голосующего населения, что, конечно, имеет значение для
выборов. Значение, которое может оказаться решающим: на референдуме 2016 г. о том,
следует ли Великобритании покинуть Евросоюз, проголосовало 43% тех, кто до этого
заявлял, что «не интересуется политикой», в то время как на всеобщих британских выборах
2015 г. проголосовало лишь 30% таких людей. Тот, кто утверждает, что будет голосовать за
Х, должен реально проголосовать за Х, чтобы его утверждение стало верным.
Что касается опроса избирателей на выборах Лэндон/Рузвельт, похоже, что популярная
«телефонная» теория неверна. Тогда чем же объяснить провал опроса?
Ответ по-прежнему лежит в области темных данных, но данных другого типа — куда более
знакомых и понятных нам, живущим в эпоху сетевых опросов. Дело в том, что, хотя было
разослано 10 млн анкет, лишь около четверти тех, кто их получил, то есть около 2,3 млн
человек, потрудились ответить. Более трех четвертей опрошенных просто проигнорировали
анкеты — их политические взгляды стали темными данными. Последствия очевидны. Если
республиканские избиратели были более заинтересованы в выборах, чем сторонники
Рузвельта (а все указывает на то, что это именно так), то они с большей вероятностью
откликались на опрос. Это и создало впечатление большинства в пользу Лэндона —
искаженное представление, которое обмануло The Literary Digest. Искажение самоотбора
было устранено, когда состоялись настоящие выборы.
Таким образом, это неожиданное расхождение прогноза и результатов выборов было
следствием темных данных, но не из-за ошибок при составлении выборки, а по причине
разной вероятности того, что республиканские и демократические избиратели вообще
откликнутся на опрос. Причиной стала добровольность ответа (DD-тип 4: самоотбор).
Поскольку рамка выборки на основе сложного анализа была определена правильно (то есть
опросчики точно знали, кто имеет право голосовать), то можно было бы настроить ее, как это
описано в главе 9. Но там, где рамка выборки определена неверно, такая настройка будет
куда сложнее или даже попросту невозможна. В этом случае мы покидаем область DD-типа
1: данные, о которых мы знаем, что они отсутствуют, и перемещаемся в область DD-типа 2:
данные, о которых мы не знаем, что они отсутствуют. Веб-опросы (о них мы поговорим чуть
позже) особенно уязвимы для этого сценария.
Надо признать, что ситуации, когда часть людей не отвечает на вопросы, как в примере с
Лэндоном/Рузвельтом, бывают довольно сложными. Те, кто отказывается отвечать, могут

29
существенно отличаться от тех, кто решил ответить: сам факт их неучастия в опросе уже
показывает, что они в чем-то отличаются. Возможно, более склонными пройти опрос будут
люди, проявляющие особый интерес к его теме, как в случае с Лэндоном/Рузвельтом. А
может быть, это будут те, кто просто лучше информирован по данной теме. В Нидерландах
проводилось исследование жилищных условий, которое показало, что более нуждающиеся
люди чаще откликаются на опрос, поэтому может сложиться ложная общая картина12. В
опросах на тему виктимизации так называемые серийные события, например домашнее
насилие, которое не имеет конкретного начала и конца, могут не выявляться в ходе опросов,
посвященных отдельным инцидентам. Кроме того, люди зачастую отказываются от участия,
если им кажется, что на опрос уйдет слишком много времени. В целом, что касается опросов
и не только, самоотбор служит наиболее опасным источником темных данных.
Электоральные опросы, конечно, полезны, но, поскольку и государство, и бизнес все шире
используют опросы как инструмент сбора информации, все больше становится и
неадекватных ответов. Да и показатель отклика во всем мире падает. Проиллюстрируем это
на примере обследования трудовых ресурсов Великобритании13. На рис. 2 показана доля
тех, кто соглашался пройти опрос, по отношению ко всем, кому это было предложено, за
каждый квартал с марта 2003 г. по сентябрь 2017 г. Эта доля снизилась за указанный период
с более чем 65% до 45% и даже ниже. Такая однозначно нисходящая тенденция не
способствует большой уверенности в выводах, которые будут сделаны на основе опросов в
дальнейшем, если, конечно, не принять соответствующих мер.
Это явление не ограничивается обследованием трудовых ресурсов Великобритании, оно
затрагивает все виды опросов во всем мире. Общенациональные опросы потребителей в
США — это телефонные опросы на тему расходов и экономии. Уровень участия в них
снизился с 79% в 1979 г. до 60% в 1996 г. и до 48% в 2003 г. Множество других примеров
приведено в отчете Национальной академии США за 2013 г. под редакцией Роджера

30
Туранжо и Томаса Пльюиса, в котором говорится: «Уровень отклика домохозяйств на
опросы государственных организаций и частных компаний, которые являются ценными
источниками данных для исследований в области социальных наук, падают во всех наиболее
богатых странах мира»14. На рис. 3 показан уровень отклика в период 1997–2011 гг. для
домохозяйств в рамках Национальной программы анкетирования по вопросам здоровья
США. Хотя, возможно, и не такая яркая, как в предыдущем примере, но тенденция к
снижению существует.
Снижение уровня отклика ясно прослеживается и в медицинских эпидемиологических
исследованиях. Опрос Национальной системы надзора за поведенческими факторами риска
проводится в Соединенных Штатах для изучения собственно факторов риска, скрининга
(массового профилактического обследования населения с целью выявления болезней на
ранней стадии) и доступа к медицинскому обслуживанию. Средний показатель участия в
этом опросе снизился с 71% в 1993 г. до 51% в 2005 г.
Ключевой вопрос заключается в том, в какой момент уровень отклика становится слишком
низким для того, чтобы можно было считать опрос полезным? В какой момент доля темных
данных становится слишком высокой для того, чтобы результаты опроса можно было
экстраполировать на все население? Достаточно ли 90%-ного уровня отклика для получения
надежных результатов? А 80%-, 50%-, 20%-ного? И насколько эффективны методы
корректировки результатов (подобные тем, которые описаны в главе 8), если отсутствуют
ответы?
К сожалению, общего решения этой проблемы не существует. Все зависит от темы опроса,
отдельных заданных вопросов, а также от того, как и почему появились отсутствующие
данные. В некоторых случаях даже небольшая их доля может означать, что имеющиеся
данные не являются репрезентативными для всего населения. Опрос всего населения для
выяснения отношения к операциям по смене пола, в котором какой-нибудь вопрос покажется

31
трансгендерам настолько оскорбительным, что все они откажутся на него отвечать, в то
время как другие группы ответят, может привести к искажению результатов, даже если у
опроса будет высокий уровень отклика. В других случаях, напротив, даже большой процент
отсутствующих записей может оказать лишь незначительное влияние на выводы.
Фактически из нашего предыдущего обсуждения важности размера выборки и случайности
отбора следует, что если те, кто не откликнулся, не объединены каким-то важным общим
свойством, то высокий уровень отклика может вообще не иметь значения.
В любом случае, как показывают примеры, объем темных данных в форме отсутствия ответа
все возрастает, и, хотя они не всегда оказывают негативное влияние на выводы, когда это
все-таки происходит, такое влияние может быть очень серьезным. Если бы вы управляли
страной или крупной корпорацией, хотели бы вы полагаться на пустые поля опросов?
Одно из замечательных свойств интернета заключается в том, что он дает возможность
проводить недорогие опросы, способные охватывать широкую аудиторию и, следовательно,
формировать выборки огромных размеров. Но есть и ограничения. В частности, вы не
можете контролировать, кто именно отвечает на ваши вопросы. В основном респонденты
сами решают, принять им участие в опросе или скрыться за пологом темных данных.
Очевидно, что это может пагубно влиять на любой опрос, поскольку означает, что выводы
будут напрямую зависеть от того, кто на него откликнется, а кто нет. (Вспомните
гипотетический опрос из главы 1, в котором был единственный вопрос: «Отвечаете ли вы на
журнальные опросы?») И основная неопределенность возникает в отношении того, кто в
принципе видит вашу веб-страницу с анкетой.
В то же время люди зачастую имеют возможность пройти веб-опрос несколько раз. Или еще
хуже: недавно я встретил человека, который сказал, что всякий раз, когда ему предлагают
пройти опрос по мобильному телефону, он передает его для ответов своему пятилетнему
сыну. К тому же фундаментальная проблема заключается в том, что не у всех есть доступ к
интернету — сравните это с ролью телефонов на выборах Лэндон/Рузвельт. В отчете 2013 г.
из Нидерландов, опубликованном в International Journal of Internet Science, сообщалось, что
«пожилые люди, незападные иммигранты и домохозяйства, состоящие из одного человека,
часто не имеют доступа к интернету»15. Впрочем, эта проблема, вероятно, будет решена с
течением времени по мере развития технологий.
Почему же люди все меньше склонны отвечать на опросы? Туранжо и Пльюис изучили эту
проблему и выяснили, что сами причины отсутствия отклика не сильно изменились с
течением времени16. Прежде всего потенциальный респондент просто недостаточно
заинтересован в участии, слишком занят или не хочет тратить на опрос много времени.
Среди других причин можно выделить проблемы конфиденциальности, непонимание
вопросов, а также негативные эмоциональные реакции — раздражение, «хлопанье дверью»,
недружелюбное или даже угрожающее поведение. Рискованное это дело, быть
интервьюером! На основе исследования было высказано предположение, что люди просто
пресыщены опросами — их слишком много, а бесконечными вопросами можно вывести из
себя кого угодно. Ситуация усугубляется рекламными кампаниями, маскирующимися под
опросы. Но главной причиной всего этого является самоотбор, когда респонденты сами
решают, принимать им участие или нет.
Однако отсутствие отклика необязательно связано с респондентом. Бывает, что сам
интервьюер не прикладывает достаточных усилий, чтобы выйти на связь с людьми.
Действительно, для нечестных интервьюеров есть даже отдельный тип темных данных
(DD-тип 14: фальшивые и синтетические данные). Именно такой случай показывает
известная карикатура, где вместо того, чтобы задавать вопросы людям, переписчик сидит на
бордюре и вписывает цифры «от фонаря»17. Однако, если вы переписчик, имейте в виду, что
сложные статистические методы могут обнаружить этот обман, как и другие виды

32
мошенничества с данными. Стоит также упомянуть языковые барьеры и простую потерю
данных, которые также могут привести к отсутствию значений.
Опросы, затрагивающие чувствительные темы, — как правило, связанные с сексуальной
активностью, финансовыми или медицинскими аспектами — особенно страдают от
отсутствия и неполноты данных. Для таких случаев были разработаны довольно хитрые
методы сбора данных, которые позволяют людям отвечать, сохраняя анонимность, или дают
возможность получать агрегированные показатели, не раскрывая индивидуальных значений.
К этим методам мы еще вернемся в главе 9.

Download 1,71 Mb.

Do'stlaringiz bilan baham:

1 ... 11 12 13 14 15 16 17 18 ... 84