Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»


Выход за пределы данных: вменение



Download 1,71 Mb.
Pdf ko'rish
bet60/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   56   57   58   59   60   61   62   63   ...   84
Bog'liq
Тёмные данные. 2021

Выход за пределы данных: вменение 
Пытаясь найти решение проблемы недостающих данных, вполне естественно в какой-то 
момент прийти к мысли, что можно взять да и заполнить пропуски некими заменителями. 
Такая стратегия называется вменением. После того, как мы вменяем недостающие значения, 
данные становятся полными и уже нет смысла беспокоиться о пустых ячейках — можно 
проводить анализ любым удобным способом. Например, после того как в табл. 6 будут 
вставлены значения отсутствующих возрастов, мы сможем легко вычислить средний возраст 
всех 10 человек в выборке. Однако этот метод подозрительно напоминает выдумывание 
данных, и, если мы не хотим быть обвиненными в мошенничестве, нужно тщательно 
продумать, как именно это делать. Более того, одно дело, если ненаблюдаемые значения 
принадлежат к категории NDD, и совсем другое, если они относятся к SDD или, что еще 
хуже, к UDD. Если недостающие значения принадлежат категории SDD, мы можем связать 
вмененные значения с теми или иными аспектами наблюдаемых данных. Но если 
недостающие значения относятся к категории UDD, то имеющиеся данные не смогут 
подсказать нам, какими должны быть вмененные значения, и непонятно, как в этом случае 
избежать неверных результатов. 


129 
Одна из причин того, что вменение недостающих значений зачастую упрощает анализ, 
заключается в самой природе многих статистических методов — они основаны на балансе и 
симметрии данных. Приведу пример. Однажды я консультировал производителя 
пластиковых автозапчастей, изготовленных методом литья под давлением, который хотел 
знать, какая комбинация трех факторов — температуры, давления и времени в пресс-форме 
— будет оптимальной и позволит получить продукт наилучшего качества. Исследованию 
подлежали два значения температуры, два значения давления и два — времени. (На самом 
деле этих значений было больше, но здесь я для упрощения возьму по два на каждый фактор 
и обозначу их как «высокое» и «низкое».) Когда для трех факторов существует по два 
значения, то в общей сложности мы имеем восемь комбинаций: все три фактора на высоких 
значениях; первые два на высоком, третий — на низком и т.д. Было выполнено несколько 
производственных циклов в каждой из этих восьми комбинаций, и каждый 
производственный цикл давал готовую деталь, качество которой можно было оценить. В 
подобных экспериментах, если одинаковое количество деталей создается при каждой 
комбинации трех факторов, то для получения результатов могут использоваться удобные 
математические формулы. Но анализ становится сложнее, если в результате разных 
комбинаций получено разное количество деталей. В частности, если изначально 
экспериментальный дизайн был ориентирован на то, чтобы получить хорошо 
сбалансированное число наблюдений, одинаковое для каждой комбинации факторов, но 
некоторые значения выпали (например, по причине отключения электропитания, что 
помешало осуществить ряд запусков в ходе производственного процесса), то данные 
становятся несбалансированными. Это может значительно затянуть анализ и потребовать 
сложных расчетов. Поэтому неудивительно, что идея вменения недостающих значений с 
целью восстановления баланса данных выглядит очень привлекательно. 
Вменение значений полезно, но совершенно очевидно, что если мы повторим анализ с 
другими вмененными значениями, то получим и другие результаты (где-то здесь бродит 
призрак выдумывания данных). Поскольку наша мотивация для подстановки значений 
заключается в том, чтобы упростить вычисления и постараться не искажать результаты, 
можно попытаться найти такие подставные значения, чтобы простой анализ, основанный на 
сбалансированных полных данных, давал те же результаты, что и сложные вычисления с 
использованием неполных данных. 
Идея заманчива, и в некоторых ситуациях она действительно реализуема, но вам не кажется, 
что она напоминает замкнутый круг? Как найти эти столь необходимые нам подставные 
значения, которые не повлияют на результаты, если не произвести перед этим сложные 
вычисления? Мы вернемся к этому вопросу позже, когда убедимся, что попытка ответить на 
него может привести нас к глубокому пониманию того, какие процессы на самом деле 
происходят в данных. Однако сначала мы подробнее рассмотрим основные подходы к 
вменению. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   56   57   58   59   60   61   62   63   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish