Сборник статей Отв ред. В. Л. Бабурин, М. С. Савоскул Москва 2019 ббк 65. 04 Т 33


Статистический анализ: выбор модели



Download 3,55 Mb.
Pdf ko'rish
bet26/158
Sana24.06.2022
Hajmi3,55 Mb.
#699296
TuriСборник статей
1   ...   22   23   24   25   26   27   28   29   ...   158
Bog'liq
Sbornik 2019

Статистический анализ: выбор модели. 
Что показывает, не слиш-
ком ли мы упростили или, наоборот, усложнили модель? Например,
ее предсказательная сила: как велики ошибки для нового набора наблю-
дений. Обычно об этом судят по среднему квадрату остатков (MSE), 
если зависимая переменная (переменная-отклик) количественная: 
где 
y
i
– действительное значение переменной-отклика для 
i
-того наблю-
дения; 
y
i
– оценка модели значения переменной-отклика для 
i
-того на-
блюдения; 
n
– общее количество наблюдений.
В этом смысле хорошая модель не истинная, но полезная. Перед ис-
следователем стоит выбор: сделать модель устойчивой к новым наблю-
дениям, так что из-за них не придется полностью переписывать урав-
нения, или подогнать, скажем, кривую так, чтобы она возможно лучше 
подходила к начальному набору наблюдений. Как это часто бывает, вы-
бирать надо что-то среднее. Так, уравнение вида 
y = const
не зависит от 
новых наблюдений, но и мало что сообщает. С другой стороны, урав-
нение, где 

зависит от многочлена степени больше четырех, обычно 
слишком сложное, так что по заданному множеству показателей плохо 
предсказывает значения новых наблюдений, поскольку передает уже 
не существенные связи, а моделирует т. н. шум.
Но как вообще исследователи усложняют модели? Хорошо знако-
мую многим простую линейную регрессию можно представить как 
частный случай из целого семейства обобщенных аддитивных моделей 
(англ. 
generalized additive models – GAMs
):
,


48
где 
y
i
– переменная-отклик для 
i
-того наблюдения; 
b
0
– свободный член;
p
– количество начальных объяснительных переменных; 
x
ij
– значение 
j
-той начальной объяснительной переменной
1
i
-того наблюдения; 
f
j
 
– их 
преобразование с помощью какой-либо функции (не обязательно ли-
нейной); 
e
i
– ошибка.
У 
f
j
(
x
ij
) может быть, например, такой вид:
Здесь 
c
– это узел (англ. knot); 
x
i
k
j
– показатель в степени 
k

d
– сте-
пень итогового многочлена; 
g
01

g
02

g
k
и 
g
k
2
– искомые множители; ϵ
ij
– 
нераспределенный остаток.
Что отличает простую линейную регрессию, так это количество 
узлов (их у нее вовсе нет) и преобразования переменных (по сути вме-
сто функции переменной сама эта переменная). Смысл узла здесь бли-
зок к понятию о переломных точках (точках бифуркации), переходе 
количества в новое качество: мы подбираем разные уравнения для на-
блюдений, которые лежат между такими узлами. В примере выше узел 
всего один, но и при большем их числе смысл тот же.
Что касается преобразований, то часто это многочлены разной 
степени (в примере степени 
d
). Особенно любопытное преобразова-
ние – это произведение нескольких разных начальных переменных 
(англ. interaction term). Модель с такой новой переменной учитывает 
взаимную связь показателей, если угодно, их синергию, эмерджентное 
свойство их сочетания. 
Приведем простой пример. Пусть перед нами модель – уравнение
с двумя объяснительными переменными:
 y
i

b
0
+ b

x
i1

b

x
i2 
+
 
e
i
. Тогда 
добавление новой переменной – произведения 
x
i1
и 
x
i2
дает:
1
Преобразование 
f
j
(
x
ij
) как будто создает новую переменную из начальной x
ij
. Пре-
лесть этого решения в том, что мы в итоге получаем оценки 
f
j
 
(
x
j
) при условии по-
стоянства 
f
j
(
x
j
) для других 
j
, то есть других начальных объяснительных переменных. 
Причем итоговую оценочную кривую можно наглядно представить на диаграмме для 
произвольно дробной искусственной последовательности 
x
ij
, с тем чтобы изучить связь 
с переменной-откликом отдельно 
j
-того показателя.
Ростислав К.В., Синицын Н.А.
.


49
Теперь множитель 
b

+
 
b

x
i2
при первой объяснительной переменной 
x
i1
прямо зависит от другой переменной. Если 
b
3
положительная, то рост 
x
i2
будет усиливать действие 
x
i1
, даже при условии, что 
x
i1
количественно 
не изменился. Этот же прием работает и для более сложных случаев.
f
j
(
x
ij
) в уравнении обобщенной аддитивной модели может принимать 
разный вид, причем у разных показателей может быть свое преобразо-
вание. Можно, например, добавить условие, что в узле функция нераз-
рывна. Но большему количеству условий отвечает и большее количе-
ство настроечный параметров, некоторые из которых надо выбрать.
Подобрать модель с лучшей предсказательной силой можно с по-
мощью перекрестной проверки (англ. 
cross-validation
). Работает она 
так. Из доступного набора данных изымают часть наблюдений и со-
здают из них проверочное множество (англ. 
validation set
), на оста-
точном (англ. 
training set
) находят оценки для неизвестных коэффи-
циентов уравнений, а затем по готовому уравнению предсказывают 
значения переменных-откликов для наблюдений из проверочного 
множества и считают, например, средний квадрат ошибки. Затем эту 
процедуру повторяют снова и снова для других делений начального 
набора данных, не пересекая новым проверочным множеством уже 
испытанные. В конце рассчитывают среднее для всех повторений 
значение среднего квадрата ошибки.
Ту же процедуру повторяют для моделей с другим набором объ-
яснительных переменных, другими их преобразованиями, разными 
настроечными параметрами и т. п. Предпочтительнее в итоге модель 
с меньшим средним для всех повторений перекрестной проверки зна-
чением среднего квадрата ошибок.
Хорошие результаты показывает последовательное изъятие в про-
верочное множество десятой (англ. 
10-fold cross validation
) или пятой 
(англ. 
5-fold cross validation
) части наблюдений, но, если в этом есть 
нужда, можно последовательно изымать всего одно наблюдение (англ. 
leave-one-out cross-validation
– 
LOOCV
).
Ясно, что перекрестная проверка хорошо подходит экономико-гео-
графам, которые не могут создать или найти новые области или страны 
сверх тех, что есть на самом деле, чтобы на них проверить свои выводы.
Перекрестная проверка работает и как средство для подбора по-
казателей – достаточно сравнить средний квадрат ошибки у моделей
с разным набором разного числа показателей. Ясно, что перекрест-
ная проверка с вычислительной точки зрения очень затратная – тем 
более затратная, чем больше количество моделей для сравнения. Вот 
почему возможности этого метода в наши дни заметно больше, чем, 
скажем, 50 лет назад.
Новый количественный подход к экономико-географическим вопросам



Download 3,55 Mb.

Do'stlaringiz bilan baham:
1   ...   22   23   24   25   26   27   28   29   ...   158




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish