Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»



Download 1,71 Mb.
Pdf ko'rish
bet14/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   10   11   12   13   14   15   16   17   ...   84
Bog'liq
Тёмные данные. 2021


часть этой информации составляют данные, необходимые для совершения транзакции и 
списывания суммы с соответствующего счета – это обязательная часть операции, поэтому 
пропуск таких деталей маловероятен или даже невозможен. Например, операция не может 
быть выполнена без информации о том, сколько взимать или с кого взимать. Но есть и такие 
данные, которые не критичны для проведения операции, поэтому существует вероятность 
того, что они не будут собраны. В частности, номер партии товара, его идентификационный 
код или цена за единицу не являются обязательной информацией для проведения 
транзакции. Очевидно, что это 
DD-тип 1: данные, о которых мы знаем, что они 
отсутствуют

Что еще хуже, во всяком случае в отношении темных данных, клиенты рассчитываются 
за покупки не только кредитными картами, но и наличными. Это означает, что реестр 
всех
покупок и транзакций, созданный на основе данных по кредитным картам, будет содержать 
невидимые массивы темных данных – 
DD-тип 4: самоотбор
. Вдобавок существует 
несколько операторов кредитных карт. Данные одного оператора не могут считаться 
репрезентативными для всей совокупности держателей кредитных карт и уж тем более для 
населения в целом. Таким образом, несмотря на многообещающие перспективы, 
административные данные имеют скрытые недостатки, связанные с темными данными. 
Конкретной проблемой, с которой мне пришлось столкнуться, был заказ на создание 
«системы показателей» – статистической модели для прогнозирования вероятности 
неплатежей, которая могла бы использоваться при принятии решений о предоставлении 
кредитов. Мне был открыт доступ к большому набору данных, содержащему информацию из 
14  
https://www.quora.com/How-many-credit-and-debit-card-transactions-are-there-every-year
, accessed 24 August 
2018. 


20 
заявок предыдущих клиентов, а также их кредитные истории, показывающие 
действительную картину того, платили они или нет по своим обязательствам. 
По сути ничего сложного в этом заказе не было. Я должен был выяснить, какие 
сочетания характеристик отличают клиентов, выполнивших свои обязательства, от тех, кто 
допустил дефолт. Это позволило бы классифицировать будущих заявителей как 
«добросовестные заемщики» или «потенциальные неплательщики». 
Проблема заключалась в том, что банк хотел получить модель, позволяющую делать 
прогнозы в отношении 
всех
будущих заявителей. Предоставленные мне данные, безусловно, 
не были генеральной совокупностью, отражавшей всех заявителей – они касались лишь тех, 
кто уже прошел процесс отбора. Надо полагать, состоявшиеся клиенты получили кредиты, 
потому что им был присвоен статус приемлемого риска в соответствии с каким-то более 
ранним механизмом отбора – на основе либо предыдущей статистической модели, либо 
субъективной оценки менеджеров банка. Те, кого сочли слишком рискованными, не 
получили ссуду, поэтому я не мог знать о том, насколько добросовестно они выполнили бы 
свои обязательства. Я даже не имел понятия, сколько заявителей было отклонено ранее и не 
попало в мой набор данных. Короче говоря, данные, предоставленные мне, были искаженной 
выборкой с неизвестными критериями отбора (или смещением выборки), и любая 
статистическая модель, построенная на этом наборе данных, вводила бы в заблуждение в 
случае применения ко всем потенциальным кандидатам. 
На самом деле проблема была еще глубже, поскольку имелось несколько слоев темных 
данных. Необходимо было учесть следующее. 

Кто подавал заявки? В прошлом банк проводил почтовые рассылки потенциальным 
клиентам, предлагая им взять кредит. Кто-то заинтересовался, кто-то никак не 
отреагировал. Банковские данные по таким рассылкам включали только тех, кто 
откликнулся на них сразу, и здесь приобретали значение такие факторы, как 
формулировка кредитного предложения, его сумма, процентная ставка, а также 
множество других, о которых я не был осведомлен. Те же, кто не ответил на 
рассылку, представляли собой темные данные. 

Кто получал предложение? Тех, кто откликнулся, банк оценивал с точки зрения 
платежеспособности и некоторым предлагал взять кредит, в то время как другим 
отказывал. Но, так как я не знал, на каких основаниях делались эти персональные 
предложения, темных данных становилось еще больше. 

Кто принимал предложение? Вдобавок к двум предыдущим процедурам отбора не все 
из тех, кому был предложен кредит, взяли его, и это породило еще один слой темных 
данных. 
Вместе эти слои делали совершенно непонятным то, как можно использовать полученные от 
банка данные для решения поставленной задачи — создания модели оценки новых заявок. 
Несколько слоев темных данных могли означать, что имеющаяся у меня выборка со всеми 
известными хорошими/плохими исходами кардинально отличается от той совокупности, к 
которой банк хотел применить модель. А вы уже знаете, что игнорирование темных данных 
может иметь катастрофические последствия. (Впрочем, замечу, что банк все еще существует 
— видимо, моя модель оказалась не так уж плоха!) 
Административные данные вездесущи. Только представьте себе все те базы данных, в 
которых хранится информация о вашем образовании, работе, здоровье, интересах, покупках, 
финансовых транзакциях, ипотеке, страховании, путешествиях, поисковых запросах, 
активности в социальных сетях и т.д. Вплоть до недавнего времени подобные данные 
сохранялись автоматически, без вашего ведома и учета мнения. Общий регламент по защите 
данных Евросоюза (GDPR) изменил ситуацию — теперь, как вы наверняка заметили, сайты 


21 
просят вас поставить галочки, подтверждающие, что вы осознанно даете разрешение на 
использование персональных данных. Встречаются и другие способы давать или не давать 
свое согласие, например в США, где конфиденциальность персональных данных 
регулируется как федеральными законами, так и законами штатов, в зависимости от сектора 
экономики. 
В 2013 г. Национальная служба здравоохранения Великобритании (NHS) запустила 
программу, предполагающую ежемесячное копирование медицинских данных из отчетов 
семейных врачей и объединение их с учетными записями больниц в Национальном 
информационном центре здравоохранения и социальной защиты (HSCIC). Потенциальная 
ценность таких объединенных наборов данных огромна. Собрав информацию о состоянии 
здоровья и методах лечения миллионов людей, мы сможем извлекать данные, чтобы лучше 
не только изучать сами заболевания и пути повышения качества их профилактики, 
мониторинга и эффективности лечения, но и понимать, насколько эффективна система 
медицинской помощи в целом и где ее необходимо усовершенствовать. 
Конфиденциальность при этом обеспечивается системой псевдонимизации, в которой имена, 
номер медицинской страховки и другие идентификаторы заменяются кодом, а коды 
сохраняются в файле, никак не связанном с фактическими данными. 
К сожалению, эта система — и ее потенциальные выгоды для здоровья и медицины — была 
плохо представлена общественности. Многих беспокоила возможность продажи их данных 
третьим сторонам (например, фармацевтическим и страховым компаниям), которые будут 
использовать информацию для получения прибыли. Другие опасались потери и взлома 
данных, а также того, что их данные могут быть декодированы, что нарушило бы 
конфиденциальность в сфере медицинских вопросов. В результате был получен негативный 
общественный резонанс, усиленный отдельными СМИ. И это даже несмотря на то, что 
система позволяла людям отказаться от передачи их данных куда бы то ни было. 
В феврале 2014 г. программа была приостановлена. После ряда неудачных попыток 
перезапуска в июле 2016 г. был опубликован ее расширенный пересмотренный вариант, в 
котором рекомендовалась модель согласия пациента на использование персональных 
данных, включавшая восемь пунктов. Одна из особенностей нового варианта заключалась в 
том, что она давала людям возможность запретить использование их данных для целей, 
выходящих за рамки медицинской помощи, например для проведения исследований. 
Если до этого момента вы читали внимательно, то, вероятно, заметите скрывающуюся здесь 
опасность. Из-за разрешения отказывать в использовании информации для исследований 
базы данных перестают быть всеобъемлющими. В них будет содержаться информация 
только о части пациентов. Хуже того, поскольку люди сами выбирают, давать или не давать 
свои данные (DD-тип 4: самоотбор), велик риск того, что базы данных покажут искаженную 
картину всей совокупности. 
В 2009 г. Мишель Хо и ее коллеги из Университета Макмастера в Канаде изучили эту 
проблему4. Они провели метаанализ исследований влияния информированного согласия на 
использование данных с точки зрения того, какие именно люди дают такое согласие. 
Сравнив согласных и несогласных по возрасту, полу, расовой принадлежности, 
образованию, доходу и состоянию здоровья, они обнаружили, что две группы действительно 
отличались друг от друга. Но еще большую тревогу вызвал тот факт, что «направленность и 
масштаб этого эффекта оказались непостоянными». Это означает, что согласные и 
несогласные не просто отличаются друг от друга, а отличаются непредсказуемым образом, 
что делает крайне затруднительной корректировку отличий. 
Отказ от участия — иначе говоря, предоставление людям права не быть включенными в базу 
данных — требует от них по меньшей мере некоторых усилий. В такой ситуации многие 


22 
просто ленятся что-то делать, принимают установки по умолчанию и потому попадают в 
базы данных. Потенциально более строгая альтернатива отбора подразумевает приложение 
усилий уже для включения в базу данных. В этом случае врожденная лень, наоборот, может 
сделать только хуже: требовать от людей каких-то действий — верный способ уменьшить 
число откликов. 
В примере с медицинскими картами фигурируют четко оформленные административные 
данные, но иногда мы имеем дело с вещами менее очевидными. С такими, например, как 
сброшенные звонки в службу экстренной помощи. 
Сброшенным считается такой вызов, когда кто-то производит набор номера экстренной 
службы, но вешает трубку или как-то иначе прерывает звонок, прежде чем ответит оператор. 
В сентябре 2017 г. BBC на своем сайте сообщила, что за год, начиная с июня 2016 г., 
количество сброшенных вызовов в диспетчерские британской полиции выросло вдвое: с 
8000 до 16 3005. Существуют разные теории о том, почему это происходит. Например, одна 
из них утверждает, что полиция перегружена звонками и поэтому операторам требуется 
слишком много времени, чтобы принять очередной вызов. Другая теория гласит, что 
причина заключается в случайном нажатии телефонных кнопок в кармане или сумочке, что 
автоматически генерирует такие вызовы. 
Если бы эта последняя теория действительно все объясняла, можно было бы ожидать, что 
проблема не возникнет или по крайней мере не будет столь острой в Соединенных Штатах, 
где для набора номера экстренного вызова 911 используются две разные цифры, в отличие от 
999 в Великобритании. Однако частота таких звонков увеличивается и в Америке. Данные 
Центра экстренной связи Линкольна за три месяца показывают, что число сброшенных 
звонков с апреля по июнь 2013 г. увеличилось с 0,92 до 3,47%. 
Сброшенные звонки — яркий пример темных данных DD-тип 1: данные, о которых мы 
знаем, что они отсутствуют. Не менее яркий пример темных данных DD-тип 2: данные, о 
которых мы не знаем, что они отсутствуют, был приведен Майком Джонстоном, редактором 
сайта The Online Photographer6. В своей редакторской колонке он пишет: «Всякий раз, когда 
я читаю описание бревенчатых хижин времен освоения Дикого Запада как хорошо 
сработанных, добротных и красивых построек, я тихонько посмеиваюсь. Ведь, скорее всего, 
99,9% срубов того времени были построены просто ужасно — поэтому они все и 
развалились. Те немногие, что сохранились в первозданном виде, были действительно 
сделаны неплохо. Но это не значит, что все хижины были такими». Поскольку не осталось 
никаких документальных свидетельств об этих развалившихся бревенчатых хижинах, мы 
имеем дело с темными данными. 
DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, особенно обманчив, потому 
что у нас, как правило, нет оснований подозревать существование таких данных. Допустим, 
вы читаете лондонскую The Times от 29 декабря 2017 г. и, так же как и я, узнаете, что, «по 
данным полиции, число сексуальных домогательств, предположительно совершенных 
водителями такси по отношению к пассажирам, возросло на одну пятую за три года». 
Объяснение, лежащее на поверхности, состоит в том, что совершается все больше подобных 
правонарушений. Но есть и другое объяснение, вытекающее из темных данных: число 
совершенных преступлений не меняется, зато растет число сообщений о них. Темные 
данные, которые были до этого скрыты, становятся видимыми в результате изменения 
нравов и общественных норм. Отсюда следует важный вывод общего характера: если мы 
видим внезапное изменение шага во временном ряду значений, это может быть связано не 
только с тем, что поменялись параметры наблюдаемой реальности, но и с тем, что 
изменилась сама процедура сбора данных. Это также проявление темных данных DD-тип 7: 
данные, меняющиеся со временем. 


23 
Более сложный пример того, как работают в тандеме DD-тип 2: данные, о которых мы не 
знаем, что они отсутствуют и DD-тип 7: данные, меняющиеся со временем, дают нам 
показатели инвестиционных фондов. Рынок таких фондов в целом отличается высокой 
динамикой — постоянно создаются новые фонды, а старые умирают. Понятно, что, как 
правило, умирают неэффективные предприятия, а преуспевающие остаются. И если мы не 
примем во внимание эти исчезнувшие фонды, то средние результаты оставшихся на плаву 
покажутся нам весьма неплохими. 
Хотя фонды, прекратившие свое существование из-за низкой доходности, исключаются из 
индекса, который показывает общую или среднюю результативность по рынку, можно 
попытаться самим заглянуть в прошлое и получить нужные данные по этим фондам. Это 
изменило бы их статус с DD-типа 2: данные, о которых мы не знаем, что они отсутствуют на 
DD-тип 1: данные, о которых мы знаем, что они отсутствуют, и позволило оценить, как их 
отсутствие влияет на расчеты. Исследование, проведенное в 2006 г. Эми Барретт и Брентом 
Бродески, показало, что «очистки базы данных Morningstar от самых слабых фондов 
повышали видимую доходность в среднем на 1,6% в год в течение 10-летнего периода 
[1995–2004 гг.]»7. В другом исследовании, опубликованном в 2013 г., Тодд Шлангер и 
Кристофер Филипс из инвестиционной компании Vanguard изучили результативность 
фондов, исключая, а затем включая выбывшие из игры фонды в расчет доходности за 
последние 5, 10 и 15 лет8. Различия оказались поразительными: доходность тех 
инвесткомпаний, которые на протяжении 15 лет исключали из расчетов подобные фонды, 
почти вдвое превышала показатели тех, кто их учитывал. Это исследование выявило также и 
масштаб темных данных в сфере инвестиционных фондов: только 54% из них 
просуществовали в течение всего 15-летнего периода. 
Этот феномен оказывает влияние и на такие знакомые финансовые индексы, как Dow Jones и 
S&P 500. Компании, которые плохо работают, выпадают из расчета этих индексов, так что 
только те, которые справляются относительно неплохо, вносят свой вклад в их значение. Это 
хорошо, если вы инвестировали именно в те компании, которые преуспели, но обратная 
ситуация совсем не радует. А поскольку крайне сложно (некоторые скажут, что невозможно) 
определить, какие компании будут продолжать работать хорошо, а какие нет, то индексы 
обманчивы. 
Предостерегая от так называемой ошибки выжившего в отношении индексов, стоит 
отметить, что все может быть еще сложнее. Если говорить о хедж-фондах, то не только 
фонды с низкими результатами могут закрываться и не включаться в расчет — самые 
результативные из них тоже нередко закрываются для новых инвесторов. По аналогии 
сильные компании могут провести дробление акций, находящихся в обращении, чтобы стать 
доступнее для новых инвесторов, и как результат выпасть из расчета фондового индекса. 
Темные данные могут воздействовать непостижимым образом. 
Кроме того, по причинам, которые мы рассмотрим в главе 3, есть большая вероятность, что 
фонды, которые работали исключительно хорошо в прошлом, пойдут на спад в будущем по 
причине «возврата к среднему значению». Это означает, что инвесторам нужно очень 
внимательно следить за тем, как оценивается прошлая результативность фондов. Так же, как 
и в любых других сферах жизни, они должны спрашивать себя: «Не сокрыта ли истина под 
покровом темных данных?» 
Ошибка выжившего является потенциальной проблемой для всех ситуаций, когда со 
временем что-то меняется. В мире стартапов мы больше слышим об успехах, чем о неудачах, 
хотя большинство таких компаний терпит именно неудачу. Одни исследователи считают, что 
их доля составляет всего 50%, другие — что 99%. Конечно, многое зависит от того, какой 
период времени вы рассматриваете (год или 50 лет?) и что понимаете под «неудачей». 
Возьмем, к примеру, социальную сеть Bebo. Запущенная в 2005 г., она была одной из самых 


24 
популярных соцсетей в Великобритании с почти 11 млн пользователей. В 2008 г. Bebo была 
куплена AOL за $850 млн. Так вот, на трехлетнем горизонте компания была невероятно 
успешной. Но затем число пользователей начало сокращаться, в том числе из-за того, что 
они переходили в Facebook, и в 2010 г. AOL продала Bebo Criterion Capital Partners, после 
чего компьютерный сбой окончательно подорвал ее репутацию, и в 2013 г. компания подала 
заявление о банкротстве в соответствии со статьей 11 Закона о банкротстве США. Позже, в 
2013 г. ее основатели Майкл и Сочи Берч выкупили компанию за $1 млн. Так что это, успех 
или неудача? А как насчет Lehman Brothers? Эта фирма, основанная в 1850 г., была 
четвертым по величине инвестиционным банком в Соединенных Штатах, пока не объявила о 
банкротстве в 2008 г. Как и Bebo, компания потерпела крах, хотя и просуществовала намного 
дольше. Но была ли ее история историей успеха или же провалом? 
В мире стартапов люди по естественным причинам хотят слышать истории успехов, а не 
провалов — ведь они стремятся подражать именно успехам. Но на самом деле им требуются 
другие данные, остающиеся для них темными. Предприниматели должны искать такие 
характеристики, которые отличают успехи от неудач, а не просто те, которые сопровождают 
успех, поскольку они точно так же могут быть связаны и с ошибками в действиях. Более 
того, даже если характеристики связаны с успехами больше, чем с неудачами, нет никакой 
гарантии, что эта связь причинно-следственная. 
На сайте веб-комиксов xkcd.com есть забавный комикс на тему ошибки выжившего9. 
Персонаж советует нам никогда не прекращать покупать лотерейные билеты, рассказывая, 
как он проигрывал и терял деньги раз за разом, но все равно продолжал покупать билеты — 
даже устроился на дополнительную работу, чтобы больше зарабатывать и покупать их еще 
больше. И вот в конце концов он преуспел (если слово «преуспел» тут уместно). При этом за 
кадром громоздятся горы трупов азартных игроков, которые точно так же вкладывались в 
лотерейные билеты, но умерли, ничего не выиграв. 
В целом административные данные имеют огромный потенциал, если мы принимаем во 
внимание риски, связанные с темными данными. Однако есть один аспект, который не 
выглядит столь радужным и вызывает озабоченность. 
С точки зрения отдельного человека, выхлопные данные, хранящиеся в базах 
административных данных, являются не чем иным, как тенями данных. По сути это 
цифровые следы, которые мы оставляем каждый раз, отправляя электронные письма, 
текстовые сообщения, твиты, публикуя комментарии на YouTube, расплачиваясь 
кредитными картами, используя проездные, совершая телефонные звонки, обновляя 
приложения для социальных сетей, включая компьютер или iPad, получая наличные в 
банкомате, проезжая мимо камеры распознавания номерного знака — список можно 
продолжать бесконечно, причем порой следы наших действий считываются весьма 
неожиданными способами. Хотя такие данные действительно могут использоваться в 
интересах общества, но правдой является и то, что они неизбежно раскрывают большое 
количество личной информации о каждом из нас: наши симпатии и антипатии, наши 
привычки и поведение. Цифровая тень может быть использована для нашей выгоды — на ее 
основе происходит отбор действительно интересных нам товаров и событий, она помогает в 
путешествиях и в целом облегчает жизнь. Но эта тень может быть использована и для 
манипулирования нашим поведением. Авторитарные режимы получают возможность 
контролировать нас, если имеют доступ к подробностям нашей жизни. В некотором смысле 
это неизбежно: недостатком предоставления информации для получения ответной помощи 
является… само предоставление информации. 
На фоне растущей озабоченности этой проблемой появляются сервисы, которые 
минимизируют нашу цифровую тень. Они как бы гасят свет, погружая данные во тьму. 
Основные шаги в этом направлении включают в себя деактивацию всех учетных записей 


25 
социальных сетей, удаление старых учетных записей почтовых сервисов, удаление 
результатов поиска, использование ложной информации для учетных записей, которые мы 
не можем удалить (например, фиктивные даты рождения или инициалы), удаление из 
списков рассылок и оповещений и пр. Понятно, что такое сокрытие данных негативно 
сказывается на потенциальных выгодах. Государство, например, может определить, 
предоставлять или не предоставлять человеку налоговые льготы, только если располагает 
данными о его доходах и налоговых платежах. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   10   11   12   13   14   15   16   17   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish