Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»



Download 1,71 Mb.
Pdf ko'rish
bet29/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   25   26   27   28   29   30   31   32   ...   84
Bog'liq
Тёмные данные. 2021

Человеческий фактор 
Округление, которое мы обсуждали ранее в этой главе, нельзя отнести к ошибкам в прямом 
смысле этого слова. Речь шла о приближении, которое скрывает детали, хотя и довольно 


56 
непредсказуемым образом (например, не все значения артериального давления округлялись 
так, чтобы в конце был ноль). Но человеческий фактор может привести к возникновению 
более серьезных темных данных. 
В 2015 г. Алекс Розетто и Люк Паркин, студенты второго курса Нортумбрийского 
университета в Великобритании, приняли участие в исследовании по изучению влияния 
кофеина на учебу. Однако вкравшаяся «ошибка данных» привела к тому, что вместо дозы 
кофеина, втрое превышавшей его содержание в стандартной порции кофе, каждый получил 
по 300-кратной дозе, или около 30 г. (Я взял выражение «ошибка данных» в кавычки, дабы 
подчеркнуть, что проблема была вовсе не в данных, а в человеке, который записывал 
цифры.) О возможной цене этой ошибки говорит тот факт, что смертельная доза кофеина для 
человека начинается от 18 г. Неудивительно, что Алекс и Люк провели несколько дней в 
отделении интенсивной терапии, где им удаляли кофеин из крови с помощью процедуры 
диализа. 
Причиной передозировки стала довольно распространенная ошибка: десятичный знак был 
поставлен в неправильном месте, поэтому данные исказили предписание. 
Довольно распространенная ошибка? Через два дня после своего 19-летия ирландец Карл 
Смит получил €19 636 вместо ожидаемых €196,36. К сожалению, он поддался искушению, 
тут же начал тратить их, и даже 17 судебных прецедентов не смогли помочь в его случае — 
молодой человек был отправлен в тюрьму. Рабочий в Северном Йоркшире Стивен Берк 
должен был получить £446,60, но вместо этого его банковский счет из-за «своевольной» 
запятой пополнился более чем на £40 000. Он также не смог устоять перед соблазном, 
потратил £28 000 и получил условное тюремное заключение. (Печальные примеры хотя бы 
дают хороший урок: если вы обнаружите, что ваш банковский счет внезапно раздулся, не 
тратьте эти деньги!) 
В декабре 2013 г. городской совет Амстердама выплатил стандартные жилищные пособия 
почти 10 000 получателям. Однако все, что должно было быть центами, внезапно оказалось 
евро, поскольку на этот раз запятая уехала на две позиции вправо. Эта оплошность обошлась 
городу в €188 млн. В 2005 г. трейдер Lehman Brothers по ошибке заплатил за сделку $300 
млн вместо $3 млн. В отчете о ценах на лекарства, опубликованном в газете The Times 
(Лондон) от 26 мая 2018 г., упоминалась аптека в графстве Шропшир, где покупатель 
заплатил £6030 за лекарство, которое должно было стоить £60,30, и еще одна, в Гринвиче, 
где болеутоляющие средства стоимостью £74,50 обошлись кому-то в £74505. 
В качестве примера обратной ошибки в пользу клиента можно вспомнить авиакомпанию 
Alitalia Airlines, которая в 2006 г. намеревалась предложить билеты бизнес-класса на рейс 
Торонто — Кипр за $3900,00, но из-за невнимательного обращения с запятой билеты были 
проданы по цене $39,00 за место, что привело к убытку в $7,2 млн. 
Все вышесказанное было следствием обычной невнимательности. По крайне мере я так 
надеюсь. Но иной раз уповать на случайность не приходится, как, например, в истории с 
лордом Рэндольфом Черчиллем, отцом знаменитого британского премьер-министра 
Уинстона Черчилля, который однажды, увидев колонку цифр с десятичными дробями, 
ничуть не смущаясь заявил, что он «никогда не мог разобрать эти чертовы запятые». Все бы 
ничего, но на тот момент он занимал должность канцлера британского казначейства, что 
эквивалентно министру финансов, а это уже, согласитесь, повод для некоторого 
беспокойства. 
Неправильная постановка десятичного знака относится к типу ошибок ввода данных, 
который иногда называют эффектом «неуклюжего пальца». Из бессчетного множества 
разнообразных проявлений этого эффекта можно вспомнить инцидент, когда 


57 
инвестиционная компания Mizuho Securities в 2005 г. потеряла более $300 млн, предложив 
610 000 акций J-com по 1 иене за штуку вместо продажи одной акции за 610 000 иен. Или 
случай в апреле 2018 г., когда около 2000 сотрудников Samsung Securities должны были 
получить дивиденды в размере $0,93 на акцию, что составляло около 2 млрд южнокорейских 
вон. К сожалению, вместо этого было выпущено 2 млрд акций, что более чем в 30 раз 
превышало общее количество акций компании и обошлось ей почти в $105 млрд. 
Когда происходят подобные ошибки, их стараются исправить как можно скорее, но часто 
реагируют недостаточно быстро. В случае с Samsung Securities потребовалось 37 минут, 
чтобы разобраться с оплошностью, но к этому времени 16 сотрудников компании успели 
воспользоваться возможностью и продали 5 млн свалившихся на них акций. Стоимость 
акций Samsung Securities рухнула почти на 12% и на момент написания этих строк все еще 
была на 10% ниже предыдущих значений, так что компания потеряла еще и на рыночной 
стоимости около $300 млн. 
Если ошибка ценой $105 млрд кажется вам недостаточно серьезной, то можно припомнить 
инцидент на Токийской фондовой бирже, случившийся в 2014 г. Вместо того, чтобы 
провести сделку с акциями Toyota на сумму 1,96 млрд иен, брокер случайно ввел это число в 
поле количества акций и в результате сумма сделки выросла до $617 млрд. Не правда ли, 
довольно легко допустить такую ошибку? Мне и самому случалось вводить данные не в те 
поля, правда, не с такими последствиями. К счастью, в последнем примере заявку успели 
отменить до того, как она была исполнена. 
Человеческий фактор выражается и в трансформации чисел, когда цифры вводятся в 
неправильном порядке (например, 89 вместо 98), или одна цифра по ошибке вводится вместо 
другой (например, 7 вместо 2), или когда значения повторяются из-за слишком долгого 
нажатия на клавишу (например, 222) и т.д. 
Подобные искажения — это просто оплошности, но, к сожалению, люди совершают такие 
ошибки сплошь и рядом. Например, путают единицы измерения, как в случае с космическим 
аппаратом Mars Climate Orbiter в 1998 г., который разрушился в атмосфере Марса из-за 
слишком низкого прохождения над его поверхностью по причине того, что в программном 
обеспечении британские единицы измерения силы не были преобразованы в международную 
систему единиц СИ; или как в случае с рейсом 143 Air Canada, который разбился в 1983 г. 
из-за того, что топливо при заправке измеряли в фунтах вместо килограммов. 
Другой тип ошибки, связанной с человеческим фактором, повлиял на исход миссии NASA 
Genesis. Космический зонд успешно взял образцы частиц солнечного ветра с лунной орбиты 
и доставил их обратно, но на последней стадии полета, во время посадки в Юте, он потерпел 
крушение. Причина: неверные данные от акселерометров зонда, которые были установлены 
задом наперед, так что аппарат ускорялся, приближаясь к поверхности Земли, вместо того, 
чтобы замедляться. 
Менее очевидная проблема заключается в том, что пригодность данных может со временем 
снижаться. Это происходит не потому, что данные портятся, подобно гниющим фруктам, а в 
силу того, что мир вокруг нас меняется. Вы думаете, например, что на ваш сберегательный 
счет по-прежнему начисляют 3% в год, но при обращении в банк испытываете легкий шок, 
обнаружив, что ставка была снижена без всякого уведомления. Данные, относящиеся к 
людям, особенно подвержены устареванию (DD-тип 7: данные, меняющиеся со временем) по 
той простой причине, что меняются сами люди. 
Что еще хуже (и в следующих главах мы это подробно рассмотрим), данные могут 
искажаться людьми преднамеренно. Исследование, проведенное Бюро переписи населения 
США в 1986 г., показало, что 3–5% счетчиков причастны в той или иной форме к 


58 
фальсификации данных, потому что слишком ленивы для настоящей работы по их сбору6. 
Американский статистик Уильям Крускал утверждал, что «достаточно проницательный 
человек, обладающий здравым смыслом и склонностью к цифрам, может взять почти любой 
структурированный и существенный набор данных или статистический сборник и менее чем 
за час обнаружить в нем странные числа»7. Медиааналитик Тони Твайман сформулировал 
закон, получивший известность как Закон Тваймана, который гласит, что любые численные 
данные, которые выглядят интригующе или как-то выделяются, обычно неверны8. Более 
того, ввиду гигантского количества ежедневно регистрируемых чисел следует ожидать, что 
какие-то из них будут введены неправильно. Например, в 2014 г. каждый день в мире 
совершалось около 35 млрд финансовых транзакций, и с тех пор это число только 
увеличилось. В своей книге «Принцип невероятности» (The Improbability Principle) я 
подробно рассматриваю проблему ошибочных записей при таком большом количестве цифр. 
Специалисты в области глубинного анализа данных, которые занимаются поиском 
любопытных или полезных аномалий в больших наборах данных, называют следующие 
причины возникновения необычных структур в таких наборах (в порядке убывания их 
важности): 

проблема на уровне самих данных (возможно, они были повреждены или искажены в 
процессе сбора, или частично отсутствуют); 

аномалии обусловлены случайными колебаниями (иначе говоря, речь идет о 
единичных значениях, которые не несут в себе существенной информации); 

структуры уже известны (как, например, в случае открытия того факта, что люди 
часто покупают сыр и крекеры вместе); 

структуры не представляют интереса (если, например, обнаружено, что около 
половины женатых людей в Великобритании — женщины). 
Пока все эти факторы не исключены, необычная структура не может называться реальной, 
интересной или потенциально ценной. Для нас же важно то, что большинство аномалий в 
этой области, кажущихся на первый взгляд открытиями, — не что иное, как иллюзии, 
вызванные проблемами на уровне данных. 
Учитывая вышесказанное, неудивительно, что, по подсчетам IBM, «низкое качество данных 
обходится экономике США примерно в $3,1 трлн в год»9. Однако верна ли эта оценка? 
Во-первых, все зависит от того, что именно она включает в себя: входит ли в оценку 
стоимость выявления проблем с данными, исправления допущенных ошибок, а также их 
последствий? Во-вторых, в контексте ВВП США, который составляет около $20 трлн, сумма 
$3,1 трлн кажется неоправданно большой, и у меня возникает вопрос, не является ли сама эта 
оценка «данными низкого качества»? 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   25   26   27   28   29   30   31   32   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish