Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»


Неблагоприятный отбор и алгоритмы



Download 1,71 Mb.
Pdf ko'rish
bet35/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   31   32   33   34   35   36   37   38   ...   84
Bog'liq
Тёмные данные. 2021

Неблагоприятный отбор и алгоритмы 
Рич Каруана и его коллеги описали созданную ими систему на основе машинного обучения 
для прогнозирования вероятности смерти пациентов, больных пневмонией. В основном 
прогнозы оказывались точными, если только у пациентов вдобавок не было астмы13. В 
таких случаях система предсказывала, что риск смерти от пневмонии намного ниже, чем 
если бы астмы не было. Казалось, это полностью противоречит здравому смыслу: каким 
образом осложнения, мешающие дыханию, могут улучшить ситуацию? За этим стояло либо 
крупное научное открытие некоего биологического механизма, помогающего астме 
противостоять пневмонии, либо непредвиденные темные данные, которые вводили в 
заблуждение и делали выводы недостоверными. 
Тщательный анализ показал, что система машинного обучения действительно имела слабые 
места, а ее прогнозы были следствием темных данных. На деле пациенты с астмой в 
анамнезе были подвержены особенно высокому риску, и их сразу направляли в отделение 
интенсивной терапии, где они получали первоклассное лечение. И лечение это было 
настолько эффективным, что снижало риск смерти от пневмонии. Система, не зная об 
особом подходе к таким пациентам, видела только то, что астматики имели пониженный 
риск смерти от пневмонии. Вполне естественно, что она рекомендовала сразу отправлять их 
домой. 
Фундаментальная проблема здесь кроется в том, что алгоритм машинного обучения не видит 
всех значимых данных. И это весьма распространенная проблема, имеющая пагубные 
последствия. Порой к ее возникновению приводят самые благие намерения, как это 
произошло в следующих примерах. 
Многие страны принимают законы против дискриминации или несправедливого обращения 
с конкретными группами населения, как в случае со страхованием, который мы 
рассматривали в начале этой главы. Например, в Великобритании Закон о равенстве, 
принятый в 2010 г., призван «предусмотреть требования к министрам Короны и другим 
лицам, принимающим стратегические решения, чтобы они при выполнении своих функций 
уделяли внимание сокращению социально-экономического неравенства; противодействовали 
виктимизации в конкретных обстоятельствах; требовали выполнения определенных 
должностных обязанностей в рамках борьбы с дискриминацией и иными запрещенными 
формами поведения; способствовали равенству возможностей…». 
В законе дается определение прямой дискриминации: «Один человек (A) дискриминирует 
другого человека (B), если A в силу наличия у В защищаемого законом признака относится к 
B менее благосклонно, чем он относится или относился бы к другим людям». Далее закон 
описывает особенности ряда признаков, запрещая относиться к конкретному человеку менее 
благосклонно на основании его групповой классификации, — например, потому что он 
мужчина или принадлежит к определенной расе. Затем в законе дается определение 
косвенной дискриминации, которая имеет место, «если А применяет к В правила, критерии 
или процедуры, являющиеся дискриминационными по отношению к защищаемому законом 
признаку, присущему В». 
В Соединенных Штатах действует аналогичный закон, в котором термин «неравноправие» 
означает, что кого-то преднамеренно ущемляют в правах на основании имеющегося у него 
признака из числа приведенных в законе. В то же время понятие «неравное воздействие» 
подразумевает внешне одинаковое отношение к группам носителей признаков, но при этом 
разное влияние, оказываемое на разные группы. 


71 
Дискриминационные признаки могут различаться в разных странах, но незначительно и 
обычно включают в себя возраст, трансгендерность, гражданский брак, беременность, 
нахождение в декретном отпуске, инвалидность, изменение пола, расу (включая цвет кожи, 
национальность, этническое происхождение), религию, убеждения или их отсутствие, пол и 
сексуальную ориентацию. По сути, закон говорит о том, что защищаемые им признаки 
должны рассматриваться как темные данные и не влиять на принимаемые решения. Давайте 
разберем несколько примеров того, как именно этот закон проявляет себя в разных областях. 
Мы уже видели, что кредитные скоринги в банках строятся на основе статистических 
моделей, которые показывают вероятность дефолта потенциального заемщика. Эти модели 
используют исторические данные, описывающие выборки клиентов и истории их платежей. 
Можно ожидать, что люди, имеющие признаки, присущие проблемным клиентам, тоже 
представляют для банка повышенный риск. Очевидно, что, создавая кредитные скоринги, 
банки хотят видеть их максимально точными и быть уверенными в том, что если система 
оценивает, например, 10% заявителей как потенциальных неплательщиков, то их 
фактическое число уйдет недалеко от этих 10%. В противном случае последствия для 
коммерческой деятельности могут быть катастрофическими. 
Чтобы сделать систему максимально точной, разумно использовать всю доступную 
информацию и не игнорировать какую-то ее часть, которая могла бы быть полезной. Здесь, 
как вы уже догадались, и кроется проблема. Для повышения точности прогноза нужно 
включить в расчет дискриминационные признаки, но по веским причинам закон запрещает 
нам это делать — он четко говорит, что включать эти признаки в процесс принятия решений 
нельзя. 
Очевидно, должны быть какие-то способы обойти это ограничение. Казалось бы, если мы не 
можем включить возраст в число показателей для оценки, то что мешает нам взять другой, 
коррелирующий с ним показатель? Однако законодатели тоже увидели эту лазейку. В отчете 
конгресса США по кредитному скорингу сказано: «Результаты, полученные с помощью 
модели, созданной специально для этого исследования, позволяют предположить, что 
некоторые кредитные характеристики работают в том числе как возрастной ограничитель». 
Также в отчете делается акцент на то, что «в результате ограниченного числа доверенных 
лиц у пожилых людей их кредитные баллы несколько ниже, чем у тех, кто моложе, и чем 
было бы, не указывай эти кредитные характеристики на возраст»14. 
Чтобы предотвратить скрытое использование защищенных законом признаков, регуляторы 
могли бы просто запретить переменные, которые коррелируют с ними. Однако на пути у 
этого решения стоят две проблемы. 
Во-первых, как отмечается в отчете конгресса, «анализ показывает, что смягчение 
воздействия путем исключения этих кредитных характеристик [коррелированных с 
возрастом] из модели обойдется слишком дорого, поскольку кроме функции возрастного 
ограничителя они играют важную прогностическую роль». Это означает, что удаление 
обсуждаемых признаков из системы показателей означает принесение в жертву и абсолютно 
законной полезной информации. 
Во-вторых, что касается людей, существует множество признаков, так или иначе 
коррелирующих друг с другом. Отказаться от прогнозной информации несложно, но в 
результате мы получим систему показателей, в которой все будут классифицированы 
одинаково: либо как «приемлемый» риск, либо как «неприемлемый». 
Есть и другой, еще более важный момент. Если бы мы смогли отказаться, скажем, от 
показателя половой принадлежности, а также от всех характеристик в модели, которые 
коррелируют с ним, то прогнозы для мужчин и женщин были бы справедливы в том смысле, 


72 
что мужчины и женщины получили бы одинаковые баллы по тем характеристикам, которые 
были использованы до того. Однако факт заключается в том, что в целом женщины 
отличаются меньшими кредитными рисками, чем мужчины: при прочих равных условиях 
вероятность их дефолта ниже. Вынужденное равенство мужчин и женщин с точки зрения 
данных приведет к тому, что вероятность дефолта для женщин будет беспричинно завышена, 
а для мужчин, наоборот, занижена. Такое искажение отразится на размере страховых 
взносов, а это уже вряд ли можно назвать справедливым. 
Таким образом, все сводится к тому, что именно вы подразумеваете под словом 
«справедливость». 
Исследование, проведенное в США, показало, что для мужчин средний кредитный скоринг 
составляет 630 из 850, тогда как для женщин он равняется 621. Такое расхождение можно 
хотя бы частично объяснить различиями между группами, поскольку мужчины имеют в 
среднем более высокую заработную плату, а доход — это один из факторов, включенных в 
расчет оценки. Комментируя это исследование, Стью Лэнгилле, директор по стратегии Credit 
Sesame, сказал: «В некотором смысле это хорошая новость, ведь исследование показывает, 
что между кредитными скорингами мужчин и женщин нет большого разрыва. Но все-таки 
оценка не настолько справедлива, как хотелось бы». 
Кредитный скоринг не единственный случай, где возникает эта форма темных данных. В 
страховании есть схожие структуры, цель которых состоит в том, чтобы построить 
статистическую модель для прогнозирования вероятности событий — смерти, болезней, 
автомобильных аварий и т.д. В отличие от кредитного скоринга, страховое прогнозирование 
в Евросоюзе до недавнего времени могло основываться на любых данных без ограничения. 
Но, как мы упоминали в начале этой главы, в 2004 г. была принята Директива ЕС по 
гендерным вопросам для борьбы с дискриминацией по половому признаку. В этой директиве 
говорится, что страховщики ЕС не должны включать пол в число факторов, определяющих 
размеры взносов и выплат. Благодаря ей половая принадлежность оказалась вытесненной в 
область темных данных, что поставило страховое прогнозирование на одну ступень с 
кредитным скорингом. 
Однако Директива ЕС по гендерным вопросам включала пункт о возможном отказе. Он 
допускал «различия в размере надбавок и выгод отдельных лиц, когда пол является 
определяющим фактором оценки риска на основе соответствующих и точных актуарных и 
статистических данных». Иначе говоря, мужчинам и женщинам, идентичным по всем другим 
характеристикам в статистической модели, разрешалось платить разные страховые взносы, 
если данные показывали, что они имеют разные риски. 
Такова одна из точек зрения на понятие «справедливость», и все было бы хорошо, если бы в 
2008 г. в Конституционный суд Бельгии не был подан иск, в котором утверждалось, что 
данный отказ несовместим с принципом равенства между мужчинами и женщинами. 
Судебный процесс растянулся на три года, в марте 2011 г. Европейский суд постановил, что 
отказ должен рассматриваться как недействительный начиная с 21 декабря 2012 г. С этого 
момента требовать различные страховые взносы от мужчин и от женщин с идентичными 
остальными показателями стало незаконным, даже если данные показывают, что их риски 
неравноценны. Половая идентичность в этой сфере окончательно перешла в темную зону. 
Например, в случае автострахования размер взноса для женщин раньше был ниже, поскольку 
данные показывали, что они реже попадают в аварии. Но после внесения в закон поправок 
такие различия стали неприемлемы. Это влияние хорошо иллюстрируется таблицей, 
опубликованной в лондонской The Telegraph от 21 января 2013 г.15 Средний страховой взнос 
для мужчин (с более высоким риском) до внесения поправки составлял £658, а после — £619. 
В отличие от этого, средний взнос для женщин составлял £488, а после принятия поправки 


73 
увеличился до £529. В самой рискованной возрастной группе 17–18 лет размер взноса для 
мужчин сократился с £2298 до £2191, а для женщин увеличился с £1307 до £1965. 
Но это еще не все. Новые страховые взносы означают, что более рискованной группе, 
мужчинам, будет проще покупать страховку, и поэтому они с большей вероятностью это 
сделают, в то время как менее рискованная группа, женщины, будет страховаться реже. А 
это вряд ли выгодно обществу! Как мы видим, все опять зависит от конкретной 
интерпретации «справедливости». 
Как правило, размеры страховых взносов основаны на оценке риска наступления страхового 
события, когда человек попадает в автомобильную аварию или заболевает и может 
предъявить страховое требование. Прогнозирование таких рисков строится на анализе 
исторических данных. Например, в случае медицинской страховки людей можно разделить 
на группы на основе индивидуальных признаков (возраст, пол, индекс массы тела, история 
болезни и т.д.), и данные покажут, какой сегмент каждой группы с одинаковыми 
характеристиками составляют люди, имеющие конкретное заболевание. Эти данные могут 
быть использованы для оценки того, с какой вероятностью человек с характеристиками, 
аналогичными характеристикам каждой из групп, заболеет в будущем. А эта вероятность, в 
свою очередь, будет использована при определении размера взноса для каждого в группе, 
поскольку считается, что внутри группы вероятность заболеваемости у всех одинаковая. 
Производить подобные расчеты — обязанность актуария. 
Но давайте посмотрим, что происходит в такой группе людей с течением времени. Члены 
группы будут меняться, и при этом меняться по-разному. Некоторые прибавят в весе, другие 
бросят курить, третьи перестанут платить страховые взносы, четвертые просто исчезнут из 
поля зрения и т.д. Риск заключается именно в том, что каждый меняется по-своему, а вместе 
с этим меняется и вероятность заболеваемости: кто-то станет менее восприимчив к болезни, 
а кто-то наоборот. Соответственно изменятся и вероятности предъявления страховых 
требований. 
Те, у кого меньше шансов заболеть, поймут, что вполне могут снизить свои страховые 
взносы, заключив договор с другим страховщиком. Благодаря этому в страховом портфеле 
компании начнет расти доля людей с более высоким риском. Через некоторое время 
страховая компания увидит, что взносы оставшихся людей с высоким риском вряд ли 
покроют стоимость их требований. Поэтому она увеличит премии. Затем цикл повторится, 
образуя так называемую страховую спираль смерти, которая с каждым витком увеличивает 
затраты. Помните рынок «лимонов» Джорджа Акерлофа? 
Фундаментальная проблема здесь состоит в том, что расчет страховщика основывается на 
среднем значении. Всем в начальной группе был присвоен одинаковый риск, хотя на деле 
риски разные. При таком усредняющем подходе любые отклонения от среднего значения 
можно рассматривать как темные данные (DD-тип 9: обобщение данных). 
Агрегируя и обобщая данные, заменяя их средними значениями, мы сами создаем область 
тьмы, и это, увы, происходит не только в теории. Давайте рассмотрим Закон о доступном 
медицинском обслуживании, подписанный в 2010 г. президентом США и вошедший в 
историю как Obamacare. 
Один из параграфов закона предусматривал так называемый индивидуальный мандат — 
требование к американцам покупать медицинскую страховку или же быть подвергнутыми 
штрафу, за исключением особых обстоятельств. Это означало, что в план были включены 
как здоровые люди с низким риском заболеваемости, так и те, кто нуждался в 
дорогостоящем медицинском лечении. В свою очередь, это означало, что в целом пул 
застрахованных людей имел меньший риск, поэтому размер взносов мог быть снижен. 


74 
Однако в 2017 г. сенат США проголосовал за отмену этого мандата, иначе говоря, за то, 
чтобы медицинская страховка не являлась обязательной (эти законодательные изменения 
вступили в силу в 2019 г.). Как следствие, мы можем ожидать, что из программы 
страхования выпадет непропорционально больше людей с низким риском, чем с высоким, 
так что в среднем потребуется больше медицинских услуг и большие расходы. А это, в свою 
очередь, будет означать более высокие взносы. Бюджетное управление конгресса 
предсказало, что отмена индивидуального мандата заставит 13 млн человек отказаться от 
страхования здоровья до 2027 г., что приведет к увеличению размера взносов на 10% в год. 
Оценки разнятся, например, Standard & Poor’s называет более низкую цифру, от 3 до 5 млн 
человек в течение 10-летнего периода, но в любом случае перспективы не самые радужные. 
Существует и целый ряд других осложнений. Одним из них является тот факт, что 
страховщики США могут отказаться от участия в программе. Это еще один возможный 
источник неблагоприятного отбора, влияющий на качество данных и всю систему 
страхования в целом. На момент написания книги ситуация продолжает развиваться, и во что 
она выльется, пока не ясно, хотя и весьма любопытно. 
В этой главе мы познакомились с тем, какие возможности дают неопределенности и 
упущения в правилах, как наблюдение может влиять на процесс генерации данных, как 
информационная асимметрия дает одним преимущества перед другими и как все эти аспекты 
темных данных воздействуют на алгоритмы. Проблема осложняется тем, что эти аспекты 
могут проявляться одновременно, как в случае со «спиралью смерти» в страховании. Но 
все-таки манипулирование правилами — это одно, а намеренная подделка данных — нечто 
совсем другое. И это именно то, что мы исследуем в следующей главе. 
Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   31   32   33   34   35   36   37   38   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish