Глава 4
Непреднамеренные темные данные
Видим одно, регистрируем другое
Общая картина
Не все измерения абсолютно точны. Подсчет детей в семье или кораблей в море ведется в
удобных целых числах, но такие измерения, как, например, длина, будут неизбежно
округляться до некоторого уровня. Это может быть сантиметр, миллиметр, микрон
(миллионная доля метра), десятая доля микрона, но не бесконечное число знаков после
запятой. Иными словами, мы не можем определить детали дальше какого-то уровня
приближения и вынуждены ограничиваться общей картиной (хотя сама по себе она может
быть просто малюсенькой!). А это означает, что детали остаются во мраке.
Мы видим округление всякий раз, когда смотрим на табличные данные, например 70,3, или
0,04, или 41,325, или значения вроде 76,2±0,2, где ±0,2 — диапазон точности, в пределах
которого значение можно считать истинным. Такая запись наглядно демонстрирует тот факт,
что мы имеем дело с темными данными.
Округление необходимо и стало настолько привычным, что подчас мы просто не замечаем,
что оно скрывает данные. Например, возраст людей часто записывается с точностью до
ближайшего года, несмотря на тот факт, что на самом деле понятие возраста включает в себя
число дней, часов, минут и т.д., а также на то, что присущая данному параметру
погрешность, связанная с разной продолжительностью самих родов, означает, что более
высокая точность не может быть достигнута. Общее правило округления возраста до
ближайшего меньшего целого числа лет означает, во-первых, что возраст стремится к
целому числу и, во-вторых, что его значение всегда меньше, чем фактическое время, которое
прожил человек.
Иногда возраст округляют до ближайших пяти лет или вообще классифицируют как
«младший», «средний» или «старший» с границами на уровне 25 и 65 лет. Хотя для
некоторых целей этого бывает достаточно, мы упускаем много информации, а именно то, что
происходит внутри возрастных групп. Эта проблема становится особенно заметной, если
взять крайний случай и разделить людей на две категории — на младших и старших, в
зависимости от того, являются они моложе или старше, скажем, 35 лет. Данные, обобщенные
таким образом, дают нам возможность увидеть, имеет ли старшая группа свойства, отличные
от свойств младшей группы, например, отличается ли их средний доход или доля, состоящих
в браке. Но мы не видим более тонких взаимосвязей. Например, мы не можем утверждать,
увеличивается ли средний доход начиная с младшего возраста, достигая своего максимума в
54
среднем возрасте, а затем снижаясь у пожилых людей. Затемнение или «укрупнение» данных
лишает нас потенциальной возможности таких открытий, опуская плотный занавес.
Когда данные собираются непосредственно людьми, их затемнение, вызванное округлением
значений, может быть особенно коварным и даже привести к ошибочным решениям и
действиям. Симон де Лузиньян и его коллеги изучили 85 000 зарегистрированных значений
артериального давления1. Нет никакой разумной причины для того, чтобы эти реальные
значения оканчивались на какую-то одну цифру чаще, чем на другие. Иначе говоря, мы
должны ожидать, что около 10% всех значений будут оканчиваться на 0, 10% — на 1, 10% —
на 2 и т.д. Однако исследователи обнаружили, что 64% всех показаний систолического
артериального давления (в момент, когда сердце сокращается) и 59% показаний
диастолического давления (когда сердечная мышца расслабляется между ударами)
оканчивались на 0. Кроме того, они обнаружили, что среди остальных значений было
значительно больше четных чисел, нежели нечетных, а среди нечетных самой
распространенной последней цифрой была цифра 5. Но реальные показатели кровяного
давления не имеют этой странной тенденции группироваться вокруг определенных чисел!
Значит, зарегистрированные значения искажены стремлением людей все округлять до
удобных чисел.
Так ли это важно? Британский норматив по гипертонии указывает пороговые значения
артериального давления, выше которых рекомендуется медикаментозное лечение2. В
частности, для систолического давления это значение равно 140 мм рт. ст. или выше. Но
склонность к округлению до значений, оканчивающихся на ноль (например, округление 137
до 140), означает, что у значительной части пациентов, у которых зарегистрировано это
пороговое значение, реальное систолическое давление ниже 140 мм рт. ст.
Стоит отметить, что в этом примере округление является следствием конструктивных
особенностей измерительного прибора. Если показания считываются с градуированной
шкалы, такой, как на измерительной линейке, возникает естественное стремление округлить
их до ближайшего удобного значения. Однако, если показания выводятся в цифровом виде
на дисплей, они с большей вероятностью будут зарегистрированы точно или по крайней
мере с бо́льшим количеством десятичных знаков. Это внушает оптимизм, поскольку
автоматизация современных приборов оказывается полезной с точки зрения
противодействия темным данным.
Последний пример подсказывает, что быть особенно внимательными нам следует, когда
люди считывают значения с градуированной шкалы измерительного прибора, такой как на
линейках, транспортирах или циферблатах. Но то же самое относится и к подсчетам, которые
делают сами респонденты в процессе опроса. Джон Робертс-младший и Девон Брюер
опросили потребителей наркотиков, со сколькими партнерами им довелось делить наркотики
в течение предыдущих шести месяцев3. Хотя только два человека сказали, что имели девять
партнеров, и четыре человека, что имели 11 партнеров, колоссальное число респондентов,
равное 39, заявило, что у каждого из них было по 10 партнеров. Точно так же, у 21
респондента было по 20 партнеров, никто не сказал, что делил наркотики с 19 или 21
партнером. Все это выглядит весьма подозрительно. Было бы очень странно, если бы люди
тяготели к такому конкретному количеству партнеров, и не менее странно, если бы эти
пиковые значения просто случайно попали в выборку. Куда вероятнее то, что респонденты
давали приблизительные ответы, округляя их до ближайшего десятка.
Я называю этот феномен округлением, но когда он является результатом человеческого
фактора в процессе сбора данных, то может иметь и другое название: аккумуляция,
скопление, образование максимумов, дискретизация или предпочтение определенных чисел.
55
Он также может принимать форму преднамеренного приближения максимальных и
минимальных пределов к наблюдаемым значениям. Например, опросы на тему заработной
платы часто включают формулировки типа «$100 000 и более», чтобы побудить ответить тех,
кого предоставление подробной информации просто оттолкнуло бы от участия в опросе. При
такой стратегии устанавливают верхний предел избыточности наряду с нижним пределом
избыточности, когда отсекают нижние значения.
Игнорирование такого усечения может привести к серьезным ошибкам. Например, средняя
заработная плата, рассчитанная на основе таких данных, может быть далека от
действительности, если вы не учли тот факт, что «$100 000 или более» может означать
намного больше, возможно, на десятки миллионов долларов. Более того, отсечение
наибольших значений и обработка их как значений интервальных, безусловно, приведет к
недооценке дисперсии данных.
Do'stlaringiz bilan baham: |