Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»



Download 1,71 Mb.
Pdf ko'rish
bet66/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   62   63   64   65   66   67   68   69   ...   84
Bog'liq
Тёмные данные. 2021

Обнаружение 
Пример с 11 ноября 1911 г. и использование контрольных сумм для предотвращения ошибок 
граничат со следующим этапом — обнаружением ошибок. Ошибки в данных могут быть 
обнаружены, потому что эти данные не согласуются с аналогичными или ожидаемыми 
данными. Значение 3 м 2 см в базе данных роста людей немедленно вызовет подозрения — 
нам не известен ни один человек с подобным ростом. Возможно, это ошибка ввода данных и 
истинное значение — 2 м 3 см (хотя предполагать недостаточно и следует обратиться к 
источнику данных, если, конечно, есть такая возможность). 
Ошибки также могут быть обнаружены при наличии логических несоответствий. Если 
заявленное количество детей в семье не соответствует числу их возрастов в анкете, значит, 
что-то не так. Несоответствия могут быть не только логическими, но и статистическими. 
Рост 1,5 м и вес 150 кг, указанные для одного человека, могут вызвать подозрение в ошибке, 
хотя по отдельности рост 1,5 м и вес 150 кг встречаются не так уж редко. 
Более сложный пример статистического обнаружения странностей встречается в 
распределении Бенфорда. Первое описание этого распределения (иногда его называют 
законом Бенфорда), по-видимому, было сделано в 1881 г. американским астрономом 
Саймоном Ньюкомом. В своей работе он использовал логарифмические таблицы — до 
появления компьютеров с их помощью перемножали большие числа. Ньюком обратил 
внимание на тот факт, что первые страницы логарифмических таблиц всегда были 
замусолены больше, чем последующие. Закон был повторно открыт почти 60 лет спустя 
физиком Фрэнком Бенфордом, который провел обширное исследование, показавшее, что 
частое использование более ранних значений по сравнению с более поздними характерно для 
очень разных числовых таблиц. 
Так в чем же состоит закон Бенфорда? 
Во-первых, мы должны определить самую значимую цифру числа. Как правило, это первая 
цифра: наиболее значимой для числа 1965 является цифра 1, а для 6 009 518 432 — цифра 6. 
В наборе чисел можно ожидать, что наиболее значимые цифры будут встречаться с тем же 
распределением, что и цифры от 1 до 9. Иначе говоря, вы можете ожидать, что каждая цифра 
от 1 до 9 будет первой цифрой числа для одной девятой всех чисел набора. Но, что 
любопытно, во многих полученных наборах чисел цифры от 1 до 9 встречаются в качестве 
наиболее значимых в разных пропорциях: 1 встречается примерно в 30% случаев, 2 — в 18% 
и т.д. по убывающей, вплоть до 9, которая служит наиболее значимой цифрой всего для 5% 
чисел в наборе. Закон Бенфорда посредством точной математической формулы как раз и 
описывает это распределение. 
Существуют веские математические причины, по которым может возникнуть это странно 
противоречащее нашей интуиции явление, но мы не будем вдаваться в них на страницах этой 
книги11. Для нас важно отметить, что если данные отклоняются от распределения Бенфорда, 
то это повод проверить, не закралась ли какая-то ошибка. Марк Нигрини, эксперт в области 
судебной бухгалтерии, разработал инструменты на основе распределения Бенфорда для 


136 
обнаружения мошенничества в финансовой и бухгалтерской отчетностях. И здесь есть один 
важный для нас момент. Инструменты для выявления странного поведения данных, 
возникающего вследствие ошибок, могут быть использованы и для поиска странностей, 
когда реальные цифры намеренно скрываются, то есть для выявления мошенничества. В 
главе 6 я упомянул, что правила борьбы с отмыванием денег требуют от регулирующих 
органов сообщать о выплатах в размере $10 000 или более. Преступники пытаются 
преодолеть это ограничение, разделяя общую сумму перевода на множество транзакций с 
чуть меньшим, чем пороговое, значением. Но превышение стандартной доли переводов, 
сумма которых начинается с цифры 9 (например, $9999), будет отображаться как отклонение 
от распределения Бенфорда. 
Я довольно долго работал с розничными банками, разрабатывая инструменты для выявления 
потенциальных случаев мошенничества со счетами кредитных карт. Многие из этих 
инструментов основаны именно на поиске странных значений, которые вполне могут быть 
ошибками, но порой указывают на мошеннические действия. 
Есть еще одно важное замечание по поводу обнаружения ошибок: вы никогда не можете 
быть уверены, что обнаружили их все. К сожалению, истина заключается в том, что наличие 
ошибок (иногда) может быть доказано, а вот их отсутствие — нет. Хотя данные могут 
становиться ошибочными неограниченным количеством способов, число способов, 
которыми их можно проверить, всегда конечно. Тем не менее к этой ситуации, несомненно 
применим принцип Парето, и мы можем утверждать, что большинство ошибок будет 
обнаружено с относительно небольшими усилиями. Однако здесь действует и другой закон 
— закон убывающей отдачи. Если вы обнаружите 50% ошибок, приложив определенные 
усилия, то точно такие же усилия, приложенные вновь, смогут обнаружить 50%, но уже от 
оставшихся ошибок. Такое убывание результата будет сопровождать каждый цикл и 
означает, что вы никогда не сможете выявить все ошибки. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   62   63   64   65   66   67   68   69   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish