Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»



Download 1,71 Mb.
Pdf ko'rish
bet65/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   61   62   63   64   65   66   67   68   ...   84
Bog'liq
Тёмные данные. 2021

Неправильное число! 
До сих пор в этой главе мы имели дело с недостающими данными. Но мы уже знаем, что 
данные могут являться темными и по другим причинам, например DD-тип 10: ошибки 
измерения и неопределенность, DD-тип 9: обобщение данных и DD-тип 7: данные, 
меняющиеся со временем. Рассмотрение этих типов позволит нам более широко взглянуть на 
проблему темных данных и поможет исследовать три основных шага в работе с ними, а 
именно: предотвращение, обнаружение и исправление. 
Предотвращение 
Ошибки в данных предотвращаются, во-первых, благодаря пониманию того, какие именно 
ошибки бывают, и, во-вторых, путем создания систем, которые препятствуют их 
возникновению на этапе сбора данных. Что касается понимания, то оно приходит с опытом 
— вы или сами совершаете ошибки, или, что куда приятнее, учитесь, глядя, как их 
совершают другие. (Однажды я услышал, как кто-то из увольнявшихся из компании сказал 
менеджеру: «Спасибо, что предоставили мне так много возможностей учиться на чужих 
ошибках».) 
Итак, если мы вводим данные непосредственно в базу данных, то по мере их ввода можно 
осуществлять несложные проверки. Например, если речь идет о дате рождения, то для 
машины не составит труда проверить, является ли она допустимой. Бдительность не бывает 
излишней. Я слышал об одном случае, когда набор данных имел странный пик по датам 
рождения, приходившийся на 11 ноября 1911 г. Как выяснилось, дату рождения требовалось 
вводить шестью цифрами в формате день/месяц/год и программисты были в курсе, что люди 
иногда вводят 00/00/00, если не хотят указывать свой день рождения. Поэтому они 
запрограммировали форму сбора данных таким образом, что, если кто-то вводил шесть 
нулей, машина отклоняла дату и требовала повторить попытку. Но программисты не учли 
одного: в этот момент те, кто особенно не хотел «светить» свой день рождения, делали 
простейшую вещь, которая первой приходит в голову — они вбивали последовательность из 
шести единиц, что принималось базой данных и выглядело как 11 ноября 1911 г. 
Дублирование данных может быть использовано в качестве общей стратегии 
предотвращения ошибок. Оно подразумевает ввод данных или по крайней мере какой-то их 
части более чем одним способом. Распространенным методом, особенно при проведении 
клинических испытаний, является система двойного ввода данных, когда значения 


135 
переносятся (например, из бумажных форм сбора данных в компьютер) двумя людьми 
независимо. Вероятность того, что они совершат одну и ту же ошибку в одном и том же 
месте, ничтожно мала. 
Еще можно вводить не только последовательности чисел, но и их суммы. Компьютер 
складывает введенные числа и сравнивает результат с заявленной суммой. Несовпадение 
сумм будет означать, что допущена ошибка в одном или нескольких введенных числах (за 
исключением очень редких случаев, когда две ошибки взаимно компенсируют друг друга). 
Существуют разные версии этой идеи «контрольной суммы», в том числе и очень мудреные. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   61   62   63   64   65   66   67   68   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish