48
где
y
i
– переменная-отклик для
i
-того наблюдения;
b
0
– свободный член;
p
– количество начальных объяснительных переменных;
x
ij
– значение
j
-той начальной объяснительной переменной
1
i
-того наблюдения;
f
j
– их
преобразование с помощью какой-либо функции (не
обязательно ли-
нейной);
e
i
– ошибка.
У
f
j
(
x
ij
) может быть, например, такой вид:
Здесь
c
– это узел (англ. knot);
x
i
k
j
– показатель в степени
k
;
d
– сте-
пень итогового многочлена;
g
01
,
g
02
,
g
k
и
g
k
2
– искомые множители; ϵ
ij
–
нераспределенный остаток.
Что отличает простую линейную регрессию,
так это количество
узлов (их у нее вовсе нет) и преобразования переменных (по сути вме-
сто функции переменной сама эта переменная). Смысл узла здесь бли-
зок к понятию о переломных точках (точках бифуркации), переходе
количества в новое качество: мы подбираем разные уравнения для на-
блюдений, которые лежат между такими узлами. В примере выше узел
всего один, но и при большем их числе смысл тот же.
Что касается преобразований, то часто это многочлены разной
степени (в
примере степени
d
). Особенно любопытное преобразова-
ние – это произведение нескольких разных начальных переменных
(англ. interaction term). Модель с такой новой переменной учитывает
взаимную связь показателей, если угодно, их синергию, эмерджентное
свойство их сочетания.
Приведем простой пример. Пусть перед нами модель – уравнение
с двумя объяснительными переменными:
y
i
=
b
0
+ b
1
x
i1
+
b
2
x
i2
+
e
i
. Тогда
добавление новой переменной –
произведения
x
i1
и
x
i2
дает:
1
Преобразование
f
j
(
x
ij
) как будто создает новую переменную из начальной x
ij
. Пре-
лесть этого решения в том, что мы в итоге получаем оценки
f
j
(
x
j
) при условии по-
стоянства
f
j
(
x
j
) для других
j
, то есть других начальных объяснительных переменных.
Причем итоговую оценочную кривую можно наглядно представить на диаграмме для
произвольно дробной искусственной последовательности
x
ij
, с тем чтобы изучить связь
с переменной-откликом
отдельно
j
-того показателя.
Ростислав К.В., Синицын Н.А.
.
49
Теперь множитель
b
1
+
b
3
x
i2
при первой объяснительной переменной
x
i1
прямо зависит от другой переменной. Если
b
3
положительная, то рост
x
i2
будет усиливать действие
x
i1
, даже при условии, что
x
i1
количественно
не изменился. Этот же прием работает и для более сложных случаев.
f
j
(
x
ij
) в уравнении обобщенной аддитивной модели может принимать
разный вид, причем у разных показателей может быть свое преобразо-
вание. Можно, например, добавить условие, что в узле функция нераз-
рывна. Но большему количеству условий отвечает и большее количе-
ство настроечный параметров, некоторые из которых надо выбрать.
Подобрать модель с лучшей предсказательной силой можно с по-
мощью перекрестной проверки (англ.
cross-validation
). Работает она
так. Из доступного набора данных изымают часть наблюдений и со-
здают из них проверочное множество (англ.
validation set
), на оста-
точном (англ.
training set
) находят оценки для неизвестных коэффи-
циентов уравнений, а затем по готовому уравнению предсказывают
значения переменных-откликов для наблюдений из проверочного
множества и считают, например, средний квадрат ошибки. Затем эту
процедуру повторяют снова и снова для других делений начального
набора данных, не пересекая новым проверочным множеством уже
испытанные. В конце рассчитывают
среднее для всех повторений
значение среднего квадрата ошибки.
Ту же процедуру повторяют для моделей с другим набором объ-
яснительных переменных, другими их преобразованиями,
разными
настроечными параметрами и т. п. Предпочтительнее в итоге модель
с меньшим средним для всех повторений перекрестной проверки зна-
чением среднего квадрата ошибок.
Хорошие результаты показывает последовательное изъятие в про-
верочное множество десятой (англ.
10-fold cross validation
) или пятой
(англ.
5-fold cross validation
) части наблюдений, но, если в этом есть
нужда, можно последовательно изымать всего одно наблюдение (англ.
leave-one-out cross-validation
–
LOOCV
).
Ясно, что перекрестная проверка хорошо подходит экономико-гео-
графам, которые не могут создать или найти новые области или страны
сверх тех, что есть на самом деле, чтобы на них проверить свои выводы.
Перекрестная проверка работает и как средство для подбора по-
казателей – достаточно сравнить средний квадрат ошибки у моделей
с разным набором разного числа показателей. Ясно, что перекрест-
ная проверка с вычислительной точки зрения очень затратная – тем
более затратная, чем больше количество моделей для сравнения. Вот
почему возможности этого метода в наши дни заметно больше, чем,
скажем, 50 лет назад.
Новый количественный подход к экономико-географическим вопросам