Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»



Download 1,71 Mb.
Pdf ko'rish
bet23/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   19   20   21   22   23   24   25   26   ...   84
Bog'liq
Тёмные данные. 2021

Парадокс
Иногда последствия влияния темных данных DD-тип 5: неизвестный определяющий фактор 
могут буквально ставить в тупик. 
Трагедия «Титаника» — затонувшего океанского лайнера — известна всем. Но мало кто 
знает, что тщательное изучение показателей выживаемости среди пассажиров и членов 
экипажа выявило нечто любопытное8. Как видно из табл. 2, а, на судне было 908 членов 
экипажа, из которых выжило только 212 человек, то есть 23,3%, а из 627 пассажиров 
третьего класса — тех, чьи каюты находились на нижних палубах корабля и кому было 
труднее выбраться, — выжил только 151 человек, то есть 24,1%. Хотя показатели 
выживаемости в этих двух группах не сильно отличаются, тем не менее мы видим, что 
вероятность выживания пассажиров была несколько выше. 
Но давайте взглянем на показатели выживаемости мужчин и женщин по отдельности, 
приведенные в табл. 2, б. 
В экипаже насчитывалось 885 мужчин, из которых 192 выжили, показатель выживаемости 
составил 21,7%. Среди пассажиров третьего класса 462 были мужчинами, 75 выжили, 
показатель составил 16,2%. У членов экипажа мужского пола более высокая выживаемость, 
чем у мужчин из третьего класса. 
Из 23 членов экипажа женского пола выжили 20, что составляет 87,0%. Среди пассажиров 
третьего класса было 165 женщин, 76 выжили, показатель выживаемости составил 46,1%. 
Представительницы экипажа имеют более высокую выживаемость, чем пассажирки третьего 
класса. 


46 
Минуточку, что происходит? В расчете для мужчин и женщин по отдельности экипаж имеет 
более высокий показатель выживаемости, чем пассажиры третьего класса. Однако в целом 
его выживаемость ниже. 
Здесь нет никакого трюка — цифры соответствуют действительности. Мы имеем дело с 
явлением, которое иногда так и называют парадоксом Симпсона, в честь Эдварда Симпсона, 
описавшего его в статье в 1951 г. (хотя это явление уже было описано как минимум на 
полвека раньше). 
Последствия парадокса Симпсона могут быть очень серьезными. Если бы мы не учитывали 
пол людей на «Титанике», то есть если бы эти данные отсутствовали, результаты нашего 
анализа показали бы, что пассажиры третьего класса с большей вероятностью выживут, чем 
члены экипажа. Но это утверждение было бы ложным в отношении мужчин или женщин в 
отдельности. Это означает, что если бы мы решили определить вероятность выживания 
человека вообще на борту лайнера, то получили бы неверную картину, поскольку он мог 
быть мужчиной или женщиной. 
Далее мы подробно рассмотрим, почему возникают подобные ситуации, но, думаю, уже 
вполне понятно, что их возможные последствия выглядят устрашающе. Конечно, никто и не 
думал регистрировать необъятное число характеристик всех, кто плыл на корабле. В то же 
время если любая из этих характеристик может повлиять на наши выводы, то пренебрегая 
ею, мы создаем отсутствующие данные, способные вводить в заблуждение. Возможно, это не 
так критично в случае с «Титаником», поскольку речь идет об исторических данных, но 
давайте рассмотрим другой пример. 
Предположим, мы проводим клиническое испытание, которое обсуждалось в предыдущей 
главе, сравнивая препарат А с препаратом Б. Для этого мы даем препарат А одной группе 
людей, а препарат Б — другой. Обе группы включают людей разных возрастов, и для 
удобства мы будем относить их либо к «младшим», либо к «старшим», в зависимости, 
скажем, от того, являются ли они моложе или старше 40 лет. Далее предположим, что в 
группе, принимающей препарат А, 10 младших и 90 старших, в то время как в группе, 
принимающей препарат Б, 90 младших и 10 старших. 
Теперь посмотрим на результаты, где чем выше значение, тем эффективнее препарат. Эти 
гипотетические результаты приведены в табл. 3. 
Предположим, средний балл для младших в группе А равен 8, а средний балл для младших в 
группе Б — 6, как показано в табл 3, а. Это говорит о том, что препарат А более эффективен 
для молодых, поскольку 8 больше 6. 
Аналогично для старших предположим, что средний балл в группе А равен 4, а средний балл 
в группе Б — 2, как во втором ряду значений табл. 3, а. Для старших препарат А также более 
эффективен, чем препарат Б. 


47 
Хотя средний балл для старших ниже, чем для младших, очевидно, что и для тех и для 
других препарат А более эффективен, чем препарат Б. Мы определенно должны 
рекомендовать препарат А для всех возрастов. 
А как обстоит дело в целом? Общий средний балл всех людей, получающих препарат А, 
составляет (8 × 10 + 4 × 90)/100 = 4,4, тогда как общий средний балл всех, получающих 
препарат Б, равен (6 × 90 + 2 × 10)/100 = 5,6. Эти результаты отображены в табл. 3, б. В 
целом, когда мы игнорируем возраст пациентов, препарат Б получает более высокий балл, 
чем препарат A. 
Это означает, что если бы мы не регистрировали возраст пациентов, то есть при отсутствии 
этих данных, мы бы пришли к выводу, что препарат Б эффективнее, чем препарат A, хотя 
для младших A лучше, чем Б, и для старших A лучше, чем Б. Иначе говоря, А лучше, чем Б, 
для всех. 
Первое, что приходит в голову: мы должны регистрировать возраст при сборе данных. Это, 
конечно, хорошо, но мы можем также регистрировать и множество других переменных, 
любая из которых грозит поставить наши результаты с ног на голову. При этом мы не 
способны зарегистрировать все возможные переменные, а значит, темные данные будут 
всегда. 
Ключ к решению состоит в том, как именно рассчитывать общие средние значения. В 
примере с испытаниями препаратов в группе А старших намного больше, чем младших, в то 
время как для группы Б верно обратное. Это приводит к снижению общего среднего 
значения: 8 больше 6, а 4 больше 2, но если учесть подавляющую долю старших в группе 
при расчете среднего значения 8 и 4 и подавляющую долю младших при усреднении 6 и 2, то 
результат изменится на противоположный. 
Итак, теперь мы видим корни проблемы — это разные доли старших и младших в наших 
группах. В группе получавших препарат А было всего 10% младших, а в группе получавших 
препарат Б младших было 90%. Если бы обе группы имели равные доли младших и старших, 
то проблемы бы не возникло. Поскольку клинические испытания относятся к 
экспериментальным исследованиям, в которых мы контролируем число пациентов, 
получающих каждый из препаратов, проблему устранить возможно, сбалансировав доли 
младших и старших и сделав их одинаковыми в каждой группе. 
Такой метод работает, если мы контролируем состав и численность групп. Но в случае с 
«Титаником» это невозможно: пассажиры были пассажирами, члены экипажа — членами 
экипажа, и этого изменить мы никак не можем. 
Ниже приведен еще один пример, в котором мы не контролируем, кто в какую группу 
входит. 


48 
По данным исследования 1991 г. о взаимосвязи расовой принадлежности и вынесении 
смертных приговоров по обвинениям в убийстве на территории Флориды, 53 из 483 
подсудимых европеоидной расы и 15 из 191 подсудимых афроамериканцев были 
приговорены к смертной казни9. В процентном отношении приговоренных белых (11,0%) 
было больше, чем афроамериканцев (7,9%), как это показано в табл. 4, а. 
Но если мы примем во внимание не только расу обвиняемого, но и расу жертвы, то 
получится несколько иная и вновь обескураживающая картина. 
Данные в табл. 4, б показывают, что в случаях, когда жертва принадлежала к белому 
населению, к смертной казни было приговорено 53 из 467 (11,3%) белых подсудимых и 11 из 
48 афроамериканцев (22,9%). А в случаях, когда жертвой был афроамериканец, суд 
приговорил к казни 0 из 16 (0%) белых подсудимых и 4 из 143 афроамериканцев (2,8%). 
Таким образом, среди приговоренных к смертной казни за убийство белого человека доля 
афроамериканцев выше (22,9% против 11,3%); и среди приговоренных к казни за убийство 
афроамериканца доля обвиняемых той же расы снова оказывается выше (2,9% против 0%). 
Однако в целом при этом к смертной казни за убийство в процентном отношении 
приговорили меньше афроамериканцев, чем белых (7,9% против 11,0%). 
Как и прежде, объяснение заключается в диспропорциях между группами. Общая доля 
приговоренных белых (11,0%) вычисляется путем усреднения результатов по 467 белым 
жертвам и 16 чернокожим; общая доля приговоренных афроамериканцев (7,9%) — 
усреднением результатов по 48 белым жертвам и 143 чернокожим. Эти два отношения, 
467/16 и 48/143, являются обратными, что неизбежно искажает общие средние значения. 
И снова вы можете справедливо заметить: «Хорошо, разные подходы дают разные 
результаты, и мы понимаем, почему так происходит. Но при этом оба кажутся разумными, 
так какие из значений правильные?» 
Ответ на этот вопрос зависит от того, что именно вы хотите узнать. В частности, вы хотите 
задать вопрос о совокупности в целом с указанием размеров ее относительных групп или же 
провести сравнение внутри этих групп? Если первое, то игнорировать расщепляющую 
переменную — это нормально. Если второе, то, очевидно, ее необходимо включить в расчет. 
Обратите внимание, что пример с клиническим испытанием препарата немного отличается 
от двух других. В нем не было ничего неизменного и предопределенного в отношении числа 
младших и старших в каждой группе: эти числа были выбраны экспериментатором. 
Напротив, в примерах с «Титаником» и смертной казнью цифры были в точности такими, 
какими они остались в истории. Поэтому в этих двух примерах имеет смысл говорить обо 
всей совокупности, в то время как при клинических испытаниях, когда экспериментатор сам 
определяет пропорции возрастов и может их менять, вероятно, нет смысла этого делать. 
(Возможны исключения, когда цель состоит в том, чтобы увидеть, насколько эффективным 
является лечение для населения в целом, с воспроизведением пропорций возрастных групп 
реальной популяции.) 


49 
Таким образом, необходимо понимать две вещи: то, какой вопрос вы задаете, и, то, что 
наличие темных данных зависит от этого вопроса. Как ни банально это прозвучит, но 
данные, которые вам предстоит собрать, анализ, который вы проведете, и ответ, который 
получите, зависят от того, что именно вы хотите узнать. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   19   20   21   22   23   24   25   26   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish