Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»


Прогнозирование на основе других переменных



Download 1,71 Mb.
Pdf ko'rish
bet62/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   58   59   60   61   62   63   64   65   ...   84
Bog'liq
Тёмные данные. 2021

Прогнозирование на основе других переменных 
До сих пор мы рассматривали такие несложные методы вменения — среднее значение от 
наблюдаемых, предыдущее значение для того же объекта или пациента, — что с ними 
справился бы и ребенок. Однако моделирование взаимосвязи между переменной с 
недостающим значением и другими переменными, а затем прогнозирование этого 
недостающего значения на основе значений наблюдаемых уже более сложная стратегия. 
Модель базируется на анализе полных наблюдений, где все значения присутствуют. Мы уже 
сталкивались с этой идеей, когда давали определение для категории SDD. 


131 
Например, в табл. 6 есть четыре строки, в которых присутствуют и значение возраста, и 
значение массы тела. Четыре соответствующие точки показаны на графике (рис. 6). Мы 
могли бы использовать их для построения простой статистической модели, связывающей 
возраст и массу тела. Прямая линия на рисунке является подходящей моделью, 
демонстрирующей, что для этих данных более высокие значения возраста связаны с 
меньшими значениями массы. (Замечу, что не стоит строить модели на выборках размером 
всего в четыре точки в реальной жизни!) Теперь мы можем использовать эту модель для 
прогнозирования недостающих значений массы при наличии значений возраста. Например, 
человеку, описанному в восьмой строке таблицы, 41 год, но значение массы тела для него 
неизвестно. Линия, которая служит нам моделью, подсказывает, что это значение может 
составлять около 91 кг. 
Можно сказать, что это расширение идеи простого добавления среднего значения 
наблюдаемых данных с применением более сложной статистической модели, которая 
использует преимущества другой информации, доступной в таблице. Поскольку 
задействованы значения возраста, а не только массы тела, стратегия может дать лучшие 
результаты, чем простое использование среднего. В частности, ее применение 
целесообразно, если недостающие значения массы тела принадлежат категории SDD, а 
вероятность их отсутствия зависит только от возраста. Но если недостающие данные 
относятся к категории UDD, такая модель нам не поможет. Тем не менее нужно отметить, 
что эта стратегия моделирования и прогнозирования содержит в себе зачатки одной очень 
продуктивной идеи, к которой мы вернемся позже. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   58   59   60   61   62   63   64   65   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish