Руководство по принятию правильных решений в мире недостающих данных «Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных»


Мнимые данные: байесовское априорное распределение



Download 1,71 Mb.
Pdf ko'rish
bet72/84
Sana04.11.2022
Hajmi1,71 Mb.
#860117
TuriРуководство
1   ...   68   69   70   71   72   73   74   75   ...   84
Bog'liq
Тёмные данные. 2021

Мнимые данные: байесовское априорное распределение 
При рассмотрении симулирования мы предполагали, что правильно понимаем базовую 
структуру, процесс и механизм возникновения данных. Такая уверенность часто 
неоправданна. Мы можем иметь некоторое представление о процессе, но нам должно очень 
повезти, чтобы действительно знать все в деталях. Как минимум нам сложно быть 
уверенными в точных значениях чисел, характеризующих структуру. 
Например, я мог бы предположить, что рост британских мужчин соответствует так 
называемому нормальному распределению, при этом большинство из них имеют средний 
рост и лишь немногие отличаются очень высоким или очень низким ростом. Однако такое 
предположение не дает понимания, каков именно этот средний показатель. Я могу быть 
уверен в том, что он меньше 1,85 м, более уверен в том, что он меньше 1,9 м, еще более 
уверен в том, что он меньше 1,95 м и абсолютно уверен в том, что средний рост меньше 2 м. 
Точно так же я могу быть уверен в том, что это значение больше 1,7 м, чуть более уверен, 
что оно больше 1,65 м, и абсолютно уверен, что оно превосходит 1,5 м. То, что я описываю 
здесь, — это распределение моих представлений о вероятном значении среднего роста; оно 
показывает, насколько я убежден, что средний рост находится в том или ином диапазоне. 
Сложно сказать, откуда именно взялось такое распределение. Скорее всего, это сочетание 
опыта личных встреч с людьми разного роста, расплывчатых сведений из исследований на 
эту тему, о которых я некогда читал, смутных воспоминаний о том, что кто-то когда-то 
говорил мне об этом. В любом случае это эквивалентно некоему набору данных, которые я 


145 
не могу зафиксировать, по крайней мере полностью, и установить их значения. Проще 
говоря, эти данные — темные. 
Учитывая фундаментальную субъективность и неопределенность причин наших 
представлений о среднем росте населения, вполне понятна неуверенность, которая может у 
нас возникнуть в отношении того, стоит ли что-то утверждать или принимать решения на 
основании собственного мнения по этому вопросу. Вместо этого следует собрать данные, 
чтобы добиться большей объективности. И это именно то, для чего нужен байесовский 
подход к статистике. В соответствии с ним следует взять наши первоначальные мнения о 
возможных значениях среднего роста, называемые априорными убеждениями, а затем 
корректировать их по мере поступления новых реальных данных, что приводит к появлению 
апостериорных убеждений. Мы могли бы, например, измерить рост 100 случайно выбранных 
британцев, а затем использовать эти 100 значений, чтобы скорректировать или обновить 
наше первоначальное представление о среднем росте населения. Результатом будет новое 
распределение возможных значений среднего роста, которое будет представлять собой 
смещение первоначального распределения наших мнений в сторону наблюдаемых 
фактических значений. Если взять действительно большую выборку, то ее вес в определении 
среднего значения будет настолько велик, что влияние нашего первоначального 
представления окажется ничтожным. Этот процесс обновления или корректировки 
выполняется с использованием фундаментальной теоремы Байеса. С нашей точки зрения, 
теорема Байеса объединяет ненаблюдаемые темные данные с реально наблюдаемыми, чтобы 
получить новое распределение мнений о вероятном среднем росте. (Ладно, так и быть, 
скажу: Национальная статистическая служба Великобритании сообщает, что средний рост 
британских мужчин 1,75 м.) 
Вот другой пример. Ученые пытались определить скорость света еще в XVII в.: в 1638 г. 
Галилей установил, что она по меньшей мере в 10 раз превышает скорость звука; в 1728 г. 
Джеймс Брэдли назвал значение 301 000 км/с, а в 1862 г. Леон Фуко скорректировал его до 
299 796 км/с. Мы можем суммировать эти и другие оценки, чтобы получить распределение 
мнений относительно возможных значений. Подробные результаты экспериментов могут 
быть утеряны — стать темными данными, но распределение мнений будет содержать 
соответствующую информацию. В конце XIX в. канадский астроном и математик Саймон 
Ньюком (тот самый, с которым мы уже встречались, говоря о распределении Бенфорда) 
провел дальнейшие эксперименты. В 1891 г. он опубликовал свои измерения, сделанные 
между 24 июля 1882 г. и 5 сентября 1882 г., в альманахе Astronomical Papers, издаваемом 
Американским офисом Морского альманаха1. Подробные измерения Ньюкома стали 
доступны для объединения с темными данными, скрытыми в распределении мнений на 
основе более ранних экспериментов, что улучшило это распределение. К слову сказать, на 
сегодняшний день наиболее точная оценка скорости света, которую мы имеем, составляет 
299 792,458 км/с в вакууме. 
Байесовская статистика играет чрезвычайно важную роль — это одна из двух (или по другой 
версии трех) основных школ статистического анализа. 

Download 1,71 Mb.

Do'stlaringiz bilan baham:
1   ...   68   69   70   71   72   73   74   75   ...   84




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish