Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»


Использование всех доступных данных



Download 1,71 Mb.
Pdf ko'rish
bet57/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   53   54   55   56   57   58   59   60   ...   84
Bog'liq
Тёмные данные. 2021

Использование всех доступных данных 
Вторая столь же нехитрая стратегия — использовать все имеющиеся у нас данные. 
Например, у нас есть семь строк, содержащих значения возраста, поэтому можно вычислить 
средний возраст, используя только эти семь значений. Это приемлемо, если недостающие 
значения возраста не имеют общих признаков, отличающих их от имеющихся данных, то 
есть если они относятся к категории NDD. Но, если недостающие значения отличаются от 
собранных, мы можем сделать неправильный вывод. Например, если в табл. 6 эти значения 
будут указывать на больший возраст, то такой подход приведет к занижению среднего 
возраста. 
Есть еще одно осложнение, которым чреват этот метод. В разных строках отсутствуют 
значения для разных признаков: где-то это возраст, где-то — рост, масса тела и пол. Это 
говорит о том, что, используя для анализа все доступные данные, мы получим оценки 
среднего возраста, роста и тела, основанные на данных разных людей. Если предположить, 
что, как правило, отсутствуют значения массы тела для тех, кто страдает ее избытком, а 
значения роста — для низкорослых, то такой подход может создать неправильное 
впечатление, что население состоит в основном из высоких и тощих людей. Более того, он 
даже может привести к противоречиям. Например, при изучении связи между парами 
переменных можно обнаружить, что корреляция возраст / масса тела и корреляция 


125 
возраст/рост подразумевают корреляцию масса тела/рост, противоречащую прямому 
вычислению на основе данных о массе тела и росте. Это вызвало бы как минимум 
недоумение. 
Модели недостающих значений 
Третья стратегия — группировать записи в соответствии с недостающими характеристиками. 
Например, мы могли бы проанализировать тех, у кого отсутствуют значения массы тела, 
отдельно от тех, у кого эти значения есть. В табл. 6 присутствуют пять моделей 
недостающих значений: случаи, когда отсутствует только масса тела, только возраст, 
одновременно масса тела и возраст, только пол и только рост. Очевидно, когда размер 
выборки ограничен 12 наблюдениями, имеется не так много записей, содержащих каждую из 
моделей (3, 2, 1, 2 и 2 соответственно), но с более крупными выборками мы можем 
анализировать случаи по каждой модели отдельно. Такой подход применим к любому из 
трех механизмов появления недостающих данных, но его минус в том, что довольно сложно 
из выводов, сделанных таким образом, собрать какую-то полезную сводку. Более того, в 
больших наборах данных, где много измеряемых переменных, может быть огромное число 
моделей недостающих значений! 
Применять этот метод лучше всего в тех случаях, когда значения отсутствуют потому, что их 
попросту не существует. На примере опроса из главы 2 можно сказать, что это имело бы 
смысл, если бы значение дохода супруга отсутствовало по причине отсутствия самого 
супруга. В этом случае мы будем иметь дело с двумя типами респондентов: теми, у которых 
был супруг (и имелось значение), и теми, у кого супруга не было. Однако все это становится 
бесполезным, если значение дохода супруга отсутствует потому, что кто-то отказался или 
забыл его сообщить. 
Этот пример также показывает важность использования разных кодов для разных категорий 
недостающих значений. Аббревиатура «Н/Д» может скрывать под собой любые категории 
темных данных, и тот факт, что эти данные просто неизвестны, никак не помогает нам 
использовать их классификацию. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   53   54   55   56   57   58   59   60   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish