Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»



Download 1,71 Mb.
Pdf ko'rish
bet63/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   59   60   61   62   63   64   65   66   ...   84
Bog'liq
Тёмные данные. 2021

«Горячая колода» 
Еще один простой метод вменения, основанный на наблюдаемых значениях, известен под 
общим названием «горячая колода». Чтобы найти замену отсутствующему значению в 
неполной записи, требуется сопоставить ее с другими записями, в которых значения 


132 
имеются. Затем из наиболее подходящих записей случайным образом выбирают одну, 
значение которой подставляют на место отсутствующего элемента. Например, в табл. 6 
неизвестен рост первой женщины. Сравнивая эту строку с другими, мы находим две сходных 
с ней в том, что они соответствуют женщинам в возрасте 41 и 31 года, что довольно близко к 
38 годам — возрасту женщины с неизвестным ростом. После этого мы случайным образом 
выбираем одну строку, чтобы взять из нее значение роста и подставить в ячейку «Н/Д» для 
38-летней женщины. Рост одной женщины составляет 165 см, а другой — 160 см. Если мы 
выберем, например, 41-летнюю, то вмененное значение будет 165 см. 
Этот метод получил свое название в те дни, когда данные хранились на перфокартах, и в 
прошлом применялся довольно широко. Его привлекательность заключается в простоте, он 
не требует сложной статистики — всего лишь оценку степени сходства между записями. 
Однако все зависит от того, как именно вы определяете «сходство». Какие другие 
переменные вы собираетесь использовать, оценивая сходство? Как вы объединяете их для 
получения общего показателя? И следует ли считать одни переменные более важными и 
имеющими больший вес, чем другие? 
Множественное вменение 
Мы уже видели, что одна из очевидных проблем метода вменения состоит в том, что 
повторный анализ с использованием различных вмененных значений будет давать разные 
результаты. Но что если мы можем воспользоваться этим? 
Каждый вариант дополненного набора данных представляет собой их вероятную 
конфигурацию, которая могла бы наблюдаться в реальности. Сводная статистика, 
рассчитанная на основе такого дополненного набора, также является вероятностным 
вариантом этой статистики, которая могла быть получена, если бы данные были полными с 
самого начала. Это означает, что если мы повторим вменение несколько раз, используя 
разные вмененные значения, то получим распределение значений суммарной статистики, по 
одному для каждого вероятного полного набора данных. Мы можем оценить различные 
параметры такого распределения, например неопределенность или дисперсию суммарной 
статистики. То есть вместо того, чтобы просто получить единственный «наилучший» 
вариант оценки, мы получаем показатель вероятности того или иного значения. 
Эту стратегию повторных вменений принято называть множественным вменением. На 
сегодня это широко используемый инструмент для решения проблем с отсутствующими 
данными. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   59   60   61   62   63   64   65   66   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish