Глава 10
Классификация темных данных
Путь в лабиринте
Систематика темных данных
Мы рассмотрели массу примеров темных данных, причины и последствия их появления, а
также методы решения вызванных ими проблем. Однако ситуации часто бывают
запутанными, поскольку данные могут быть темными по нескольким причинам
одновременно. Вот пример.
При правительстве Великобритании существует исследовательская команда по
поведенческому анализу. СМИ окрестили ее «отдел подталкиваний». Дело в том, что эта
команда ищет небольшие стратегически реализуемые изменения в государственной
политике (подталкивания), которые могут оказать большое влияние на поведение граждан.
Вот что сказано в недавнем докладе команды: «В ряде документов и статей в прессе
отмечается, что официальная статистика показывает значительное снижение потребления
пищи с точки зрения калорий в Великобритании за последние 40 лет. В то же время мы
наблюдаем увеличение средней массы населения за этот период. Каким образом наш вес
увеличился, если мы стали меньше есть?.. Один из ответов заключается в том, что уровень
физической активности населения снизился, соответственно снизился и расход калорий»1.
Это объяснение кажется возможным, хотя и довольно неожиданно. Его смысл в том, что,
хотя британцы стали меньше есть, они сократили физическую нагрузку, а это привело к
увеличению веса. Тем не менее в отчете сделан вывод, что такое объяснение
неправдоподобно, поскольку «заявленный уровень потребления пищи с точки зрения
калорий слишком низок, чтобы поддерживать наш текущий вес, даже если уровень
физической активности минимален». В докладе также говорится, что «по оценкам,
количество потребляемых калорий находится ниже рекомендуемой суточной нормы,
составляющей 2500 килокалорий для мужчин и 2000 килокалорий для женщин (имеющих
нормальный вес)». Команда предположила, что проблема заключается в темных данных.
Показатели закупки продуктов питания рассчитываются на основе данных Опроса о
стоимости жизни и питания (LCFS). Потребление калорий оценивается по данным
Национального опроса о диетах, питании и здоровье (NDN-SHS), проводимого в Англии. В
отчете «отдела подталкивания» говорится, что эти опросы недооценивают показатели
закупки продуктов питания и потребления калорий. Что касается LCFS, то доклад ссылается
на «исследования, [которые] показали, что доля экономической активности, не охваченная
LCFS, увеличилась с 2% в 1992 г. почти до 16% в 2008 г.». Когда команда скорректировала
результаты LCFS, чтобы учесть этот фактор, она обнаружила, что потребление продуктов
питания на самом деле увеличивалось с 1990-х гг. Показатели NDN-SHS были
скорректированы с использованием так называемого метода двойной маркировки воды,
который является «золотым стандартом измерения расхода энергии». Эта корректировка
153
показала, что «в целом мы потребляем на 30–50% больше калорий, чем указано в
официальной статистике».
Все вышесказанное выглядит как классический пример присутствия темных данных.
Потребление калорий не снизилось — просто все выглядело так из-за недостающих или
ложных данных. В докладе было предложено пять причин такого занижения показателей,
включающих различные DD-типы:
рост уровня ожирения (поскольку люди с ожирением с большей вероятностью
занижают данные о своем потреблении — DD-тип 11: искажения обратной связи и
уловки);
рост желания похудеть (так как это связано с занижением значений при опросе —
DD-тип 11: искажения обратной связи и уловки);
увеличение объема перекусов и приема пищи вне дома (DD-тип 2: данные, о которых
мы не знаем, что они отсутствуют);
снижение частоты ответа при опросах (DD-тип 1: данные, о которых мы знаем, что
они отсутствуют, DD-4: самоотбор);
рост расхождения между справочными данными, используемыми для расчета
калорий, и истинными размерами порций и реальной калорийностью пищи (ошибка
измерения скрывает истинные значения — DD-тип 10: ошибки измерения и
неопределенность).
В отчете «отдела подталкивания» указывается несколько очевидных причин появления
темных данных, но во многих ситуациях множественность причин не так очевидна. Кроме
того, выискивать причины появления темных данных, чтобы предпринять соответствующие
шаги для преодоления рисков, часто бывает непросто.
Первым шагом должно быть осознание того, что темные данные могут присутствовать
всегда. Базовое предположение должно заключаться в том, что имеющиеся данные являются
неполными или неточными. Самое важное послание этой книги: относитесь к данным с
подозрением — по крайней мере пока не будет доказано, что они адекватны и точны.
Также необходимо уметь распознавать ситуации, особенно чреватые проблемами с темными
данными, видеть определенные признаки того, что темные данные искажают собранный
материал, и реагировать на более общие ситуации, в которых кроется опасность. В книге я
попытался облегчить вам эту задачу двумя способами.
Во-первых, это масса примеров, иллюстрирующих пути возникновения темных данных. Они
показывают конкретные ситуации, на которые следует обращать внимание. Конечно,
ситуации и контексты могут сильно отличаться от показанных в книге, но есть надежда, что
приведенные здесь примеры послужат отправной точкой.
Во-вторых, это систематика DD-типов темных данных, представленная в главе 1 и
используемая по ходу изложения. Чтобы вам было проще определять эти типы в реальных
практических ситуациях, я кратко изложил их далее с примерами для каждого.
Эти DD-типы охватывают «видовое» разнообразие темных данных, так же, как оси
координат очерчивают двумерную плоскость графика, но в отличие от осей координат мои
DD-типы не претендуют на полный охват пространства темных данных. Не стоит
сомневаться в том, что существуют случаи недостающих или искаженных данных, которые
не упомянуты в книге. К тому же постоянно появляются и будут появляться все новые типы
темных данных со своими особенностями. Так или иначе, предложенная систематизация
154
DD-типов дает своего рода контрольный список опасностей и общих проблем, на которые
следует обращать внимание, работая с любым набором данных. И, конечно, всегда
необходимо помнить, что обнаружение одного DD-типа не исключает присутствия других.
DD-тип 1: данные, о которых мы знаем, что они отсутствуют
Это «известные неизвестные» Рамсфелда. Они возникают, когда мы знаем, что в
данных есть пробелы, скрывающие значения, которые могли быть записаны.
Примером могут служить отсутствующие значения, как во фрагменте маркетинговых
данных в табл. 1, или отказ людей из опросного списка отвечать на вопросы частично
или полностью. В последнем случае, возможно, все, что мы знаем о респондентах, это
их идентификационные данные.
DD-тип 2: данные, о которых мы не знаем, что они отсутствуют
Это «неизвестные неизвестные» Рамсфелда. Мы даже не знаем, что нам не хватает
каких-то данных. Примером может служить веб-опрос, для которого нет списка
возможных респондентов, поэтому мы в принципе не знаем, кто отказался его
проходить. Катастрофа космического шаттла Challenger была следствием упущения
такого рода, поскольку участники телеконференции не осознавали, что им не хватает
некоторых данных.
DD-тип 3: выборочные факты
Плохой набор критериев отбора для включения в выборку или ошибочное
применение разумных критериев может привести к искажению выборки. В
исследуемую группу могут войти более здоровые пациенты или люди,
симпатизирующие той или иной компании. Это происходит, когда из большого числа
случаев, осознанно или нет, выбираются «лучшие», чтобы избежать разочарования в
будущем — возврат к среднему значению никто не отменял. Аналогично p-хакинг и
неспособность учесть несколько гипотез означают, что научные результаты не смогут
быть воспроизведены.
DD-тип 4: самоотбор
Самоотбор является вариантом предыдущих данных DD-тип 3. Он проявляется, когда
людям дают право самостоятельно решать, что включать в базу данных, а что нет.
Примерами самоотбора являются отсутствующие ответы в опросах, когда
респонденты сами выбирают, отвечать им или нет, базы данных пациентов, где
пациенты могут отказаться предоставлять свои данные, и в более общем плане —
выбор услуг потребителями. Для всех этих примеров возможна ситуация, когда
недостающие данные имеют какие-то системные отличия от данных имеющихся.
DD-тип 5: неизвестный определяющий фактор
Иногда критически важный аспект системы совершенно незаметен. Это может
привести к установлению ошибочных причинно-следственных связей, например
между увеличением продаж мороженого и засыханием травы. Понятно, что в этом
примере в причинно-следственной цепи отсутствуют данные о погоде, но нехватка
ключевого звена не всегда бывает столь очевидна. Более проблематичный пример —
парадокс Симпсона, в котором общий показатель может увеличиваться, в то время как
все составляющие его показатели уменьшаются.
DD-тип 6: данные, которые могли бы существовать
155
Контрфактуальные данные — это данные, которые мы бы смогли увидеть, если бы
предприняли какие-то другие действия или наблюдали бы за происходящим при
других условиях или в иных обстоятельствах. Примером может служить клиническое
испытание, в котором все пациенты получают одинаковое лечение — возможно,
потому что целью исследования является изучение сроков выздоровления, — и после
того, как пациенты вылечены, уже невозможно посмотреть, как подействовало бы на
них альтернативное лечение. Другим примером является возраст супруга того, кто
даже не женат.
DD-тип 7: данные, меняющиеся со временем
Время может скрывать данные разными путями. Данные могут перестать
соответствовать точному описанию мира, одни факты могут перестать
регистрироваться за пределами периода наблюдений, а другие — потому что
изменилась их природа, и т.д. Примерами могут служить медицинские исследования
интервалов выживания, когда смерть пациента наступила после окончания периода
наблюдения, а также данные по населению 20-летней давности, что может иметь
сомнительную ценность для разработки текущей государственной политики.
DD-тип 8: неверно определяемые данные
Определения могут быть противоречивыми или со временем меняться, чтобы лучше
соответствовать своему предмету и его назначению. Это может вызвать проблемы в
случае с экономическими (и другими) временными рядами, когда данные, лежащие в
их основе, могут перестать собираться. В более общем смысле, если люди по-разному
определяют понятия, они вполне могут сделать и разные выводы. Одним из примеров
является уровень преступности в Великобритании, который оценивается по
полицейским записям и по опросам потерпевших, где определения преступления
неодинаковы.
DD-тип 9: обобщение данных
Обобщение данных по определению означает отбрасывание деталей. Если вы
сообщаете только среднее значение, то не даете никакой информации о диапазоне
данных или об асимметрии распределения. Среднее значение может скрыть тот факт,
что некоторые значения могут очень сильно от него отличаться. В то же время
обобщение может скрывать и тот факт, что все значения идентичны.
DD-тип 10: ошибки измерения и неопределенность
Ошибки измерения приводят к неопределенности истинного значения. Это легче
всего понять, представив ситуацию, в которой диапазон погрешности измерения
равен или больше, чем диапазон базовых истинных значений, — в этом случае
наблюдаемое значение может сильно отличаться от истинного. Округление и
нагромождение, верхний и нижний пределы избыточности и прочие эффекты вносят
неопределенность в данные, скрывая их точные значения. Другой причиной
неопределенности и неточности является связь данных, при которой
идентифицирующая информация может храниться в разных формах, что приводит к
ошибкам сопоставления.
DD-тип 11: искажения обратной связи и уловки
Этот тип данных возникает, когда собранные значения начинают влиять на исходный
процесс — как в случае раздувания оценок и пузырей на рынках акций. Это означает,
156
что данные искаженно представляют базовую реальность и, возможно, с течением
времени все больше отдаляются от нее.
DD-тип 12: информационная асимметрия
Информационная асимметрия возникает, когда разные наборы данных хранятся у
разных людей, и когда кто-то знает то, чего не знают другие. В качестве примера
можно привести инсайдерскую торговлю, рынок «лимонов» Акерлофа и
международную напряженность, вызванную ограниченной информацией о
возможностях других государств.
DD-тип 13: намеренно затемненные данные
Эти случаи предумышленного отбора определенных фактов являются особенно
проблематичными. Они наблюдаются, когда люди намеренно скрывают данные или
манипулируют ими с целью обмана или введения в заблуждение. Мы видели, что
такое мошенничество может возникать в очень разных контекстах и отношениях.
DD-тип 14: фальшивые и синтетические данные
Когда данные создаются искусственно, они могут вводить в заблуждение, как и в
случае мошенничества. Однако существует метод симуляции, когда генерируются
искусственные наборы данных, которые могли возникнуть в результате изучаемого
процесса, а также другие методы, использующие репликацию данных, например
методы бутстреппинга, бустинга и сглаживания. Современные статистические
инструменты широко используют такие идеи, но некачественная репликация может
привести к ошибочным выводам.
DD-тип 15: экстраполяция за пределы ваших данных
Наборы данных всегда конечны. Это означает, что они имеют максимальное и
минимальное значения, за пределами которых лежит неизвестность. Заявление о
возможных значениях выше максимума или ниже минимума в наборе данных требует
выдвижения предположений или получения информации из какого-то другого
источника. Опасность, которую несет этот тип темных данных, мы рассмотрели на
примере катастрофы шаттла Challenger, запуск которого произошел при температуре
окружающей среды ниже диапазона температур предыдущих запусков.
Do'stlaringiz bilan baham: |