Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»



Download 1,71 Mb.
Pdf ko'rish
bet18/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   14   15   16   17   18   19   20   21   ...   84
Bog'liq
Тёмные данные. 2021


Глава 3 
Определения и темные данные 
Что именно вы хотите узнать? 
Начнем с очевидного: полезность данных зависит от того, то ли мы собираем и не допускаем 
ли при этом искажений. Каждое из этих условий чувствительно к темным данным. 
Фактически число потенциальных рисков, связанных с темными данными, настолько велико, 
что составить их полный перечень просто невозможно. Тем не менее представление о 
типовых ситуациях, на которые нужно обращать внимание, может быть жизненно важным 
при работе с темными данными. В этой главе мы рассмотрим постановку целей для сбора 
данных, а в следующей — то, как этих целей достигать, причем и то и другое сквозь призму 
нашей основной темы. 
Ошибки в определениях и измерениях 
Одна из фундаментальных причин возникновения темных данных — использование 
неподходящих определений или (что часто одно и то же) непонимание, о чем идет речь. 
Давайте разберем это на примерах. 
Иммиграция 
Опросы всегда проводят с конкретной целью, административные же данные собирают по 
множеству причин. Это означает, что административные данные могут не содержать ответа 
на интересующий вас вопрос. Например, в Великобритании недавно возник спор о точности 
статистики по долгосрочной международной миграции (LTIM). Национальная 
статистическая служба в соответствии с данными Отчета по международным пассажирским 
перевозкам сообщила, что за год, завершившийся в сентябре 2015 г., в Великобританию 
иммигрировало из Евросоюза 257 000 человек. В то же время число граждан Евросоюза, 
зарегистрировавшихся для получения номеров социального страхования, за этот период 
составило 655 000 человек. Номера социального страхования — это личные счета всех, кто 
работает в Великобритании, обеспечивающие надлежащий учет налоговых платежей и 
взносов в систему национального страхования (куда относятся в том числе медицинские 
страховки и пенсии), поэтому несоответствие кажется по меньшей мере странным. Похоже, 
что цифры Национальной статистической службы далеки от реальности. По этому поводу 
британский политик Найджел Фарадж выразился так: «Они пускают нам пыль в глаза. 
Номера социального страхования — это простое и четкое отражение реального числа людей 
в этой стране, так как без такого номера вы не сможете ни легально работать, ни 
претендовать на получение пособия»1. 
Отчет по международным пассажирским перевозкам, который учитывает основные 
пассажиропотоки через британские воздушные и морские порты, а теперь еще и 
Евротоннель, выпускается с 1961 г. Ежегодно проводится 700 000–800 000 интервью. Хотя 
это число представляет лишь небольшую часть людей, приезжающих в Великобританию, 


41 
ответы могут быть использованы для оценки общего числа мигрантов. Но это всего лишь 
оценка, и с ней неизбежно связана погрешность. Национальная статистическая служба 
определила величину этой погрешности как ±23 000, получив интервал от 234 000 до 280 
000, и заявила, что на 95% уверена в попадании истинных цифр в этот диапазон. 
Погрешность, хотя и существенная, явно не объясняет такое большое отличие от числа 
номеров социального страхования. 
Когда Национальная статистическая служба подробно изучила расхождение между своей 
оценкой и числом номеров социального страхования, оказалось, что основной причиной этой 
разницы была краткосрочная миграция (мигранты, прибывающие на срок от 1 до 12 
месяцев)2. Долгосрочные мигранты остаются на 12 месяцев и более. Краткосрочные 
мигранты могут работать и подавать заявки на получение номеров социального страхования, 
но определяющим показателем в данном случае должна быть статистика LTIM (по 
долгосрочной международной миграции). Национальная статистическая служба заявила, что 
«различие определений этих данных является фундаментальным и невозможно обеспечить 
согласование двух типов учета, просто “складывая” и “вычитая” номера страховок. Эти 
регистрационные данные не могут служить показателем LTIM». Короче говоря, 
административные данные были полезны в тех вычислениях, для которых они были 
собраны, и не подходили для других целей. Неподходящие или несоответствующие 
определения эффективно скрывают интересующие нас данные и превращают их в темные 
данные DD-тип 8: неверно определяемые данные. Ключевой момент в том, что данные 
становятся или не становятся темными в зависимости от того, что вы хотите узнать. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   14   15   16   17   18   19   20   21   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish