Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»



Download 1,71 Mb.
Pdf ko'rish
bet56/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   52   53   54   55   56   57   58   59   ...   84
Bog'liq
Тёмные данные. 2021

Работа с имеющимися данными 
Определение механизма появления недостающих данных дает нам мощное средство 
решения проблемы. Но оно требует довольно глубокого понимания, поэтому часто 
используются более простые методы, в том числе и широкодоступные в пакетах 
статистических программ. К сожалению, «более простые» и «широкодоступные» 
необязательно означает «эффективные». Давайте рассмотрим некоторые из этих методов и 
то, как они соотносятся с классификацией UDD/SDD/NDD. 
В табл. 6 показана небольшая выборка, иллюстрирующая данные, собранные на начальном 
этапе исследования диет для похудения. Аббревиатура «Н/Д» означает, что значения ячеек 
недоступны, поскольку не были зарегистрированы. 
Анализ полных наблюдений 
Во-первых, мы можем использовать только заполненные без пропусков строки таблицы, то 
есть такие, которые содержат наблюдения для всех характеристик. Это имеет смысл, если мы 
полагаем, что темные данные принадлежат категории NDD, и по понятным причинам такой 
метод часто называют анализом полных наблюдений. Однако если вы внимательно 


124 
посмотрите на табл. 6, то сразу заметите в чем состоит проблема: даже если темные данные 
действительно относятся к категории NDD, во всех строках таблицы отсутствует хотя бы 
одно значение. Если исключить из анализа неполные строки, то у нас вообще не останется 
данных! 
Конечно, это исключительный и, надо признать, искусственный пример, но даже в менее 
экстремальных случаях такой подход может означать резкое уменьшение размера выборки. 
Если со спокойной совестью можно делать выводы на основе 1000 наблюдений, то 20 
наблюдений из этой тысячи вряд ли можно считать основанием для тех же выводов. Даже 
если бы данные принадлежали категории NDD и 20 полных наблюдений должным образом 
представляли генеральную совокупность, дисперсия, возникающая из-за столь малого 
размера выборки, могла бы заставить нас сомневаться в точности любых выводов. 
И, конечно, надо отметить, что если темные данные не принадлежали категории NDD, то 
даже небольшое уменьшение размера выборки может означать, что мы остались с 
искаженным набором данных на руках. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   52   53   54   55   56   57   58   59   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish