50
Статистический анализ: подбор показателей.
Заметим, что
множество возможных наблюдений у экономико-географов заведомо
конечное и обычно небольшое, но о каждом из них есть много пока-
зателей, бывает, что даже больше, чем самих наблюдений. На языке
математической статистики это условия высокой размерности. В та-
ких условиях обычная линейная регрессия по всем доступным пока-
зателям легко объяснит весь разброс переменной-отклика, даже если
у самих показателей нет ни малейшей с ней связи, а если еще велико
само по себе и количество наблюдений, и количество показателей, то
перекрестная проверка даже с вычислительной мощью современных
машин бывает слишком затратной. При таком раскладе хороший и
сравнительно новый (его предложили в середине 1990-х гг.) способ
отобрать полезные показатели –
lasso
. Суть этого вида регрессии
в том, что он сжимает коэффициенты при лишних показателях до нуля.
Для этого минимизируется не обычная сумма остатков, как в простой
линейной регрессии, а такое выражение (значение переменных, как
в уравнении GAM выше):
Когда
λ
нуль,
lasso
оборачивается в простую линейную регрессию.
Подбор
λ
– дело перекрестной проверки (отбор значительных перемен-
ных средствами
lasso
для разных
λ
всё равно намного экономнее про-
стого перебора перекрестной проверкой). Чем больше
λ
, тем большее
число объяснительных переменных выпадет из уравнения. Примеча-
тельно, что сжатие разных коэффициентов происходит не монотонно,
то есть порядок показателей по степени их связи с переменной-откли-
ком может меняться.
Среди важных для экономико-географов показателей особенное ме-
сто занимают переменные, которые отражают разные уровни наших на-
блюдений. Вот пример: города (1й уровень) входят в состав областей,
провинций и т. п. (2-й уровень), а те – в состав стран (3-й уровень).
С другой стороны, для тех же городов (1-й уровень) мы измеряем
тот же набор показателей в разные годы (2-й уровень). Исследователи,
которые пренебрегали уровнями наблюдений, приходили к неверным
выводам [17].
Еще в 1991 г. К. Джонс указывал, что многоуровневая регрессия
разрешает один из главных вопросов, который встает перед географа-
ми – на каком уровне, или масштабе, есть связь (а точнее, где она себя
проявляет в большей степени) между теми или иными явлениями [19].
Ростислав К.В., Синицын Н.А.
51
Внимание к разным пространственным уровням выгодно отличает гео-
графов, и они указали на это преимущество, когда почувствовали угро-
зу со стороны чужаков от экономической профессии – П. Кругмана,
М. Портера, Р. Барро и др. [21] Поразительно, но даже экономико-гео-
графические работы если всё же использовали многоуровневую регрес-
сию, то чтобы учесть, прежде всего, временное измерение (панельных
данных), но не разные пространственные уровни.
В то же время мы не должны только потому, что представляем эко-
номико-географическую науку, исходить из того, что пространство,
близость непременно определяет интересующее нас явление – в духе
первого закона географии, который выразил У. Тоблер: «всё связано со
всем, но связь между близким больше, чем между далеким» [26]. Та-
кой подход скорее выдает неверие в значительность пространства. Вме-
сто этого разумнее начать с того, что никаких (и с другими, не только
географическими условиями, в частности институциональными) свя-
зей нет, а затем дать слово самим данным. В этом же смысле речь идет
о подходе, который оживляет исследовательскую работу одновременно
во множестве отраслей науки.
Другая грань этого же вопроса об уровнях – это подбор наблюде-
ний для начального и проверочного набора при перекрестной про-
верке. Как составлять представительную выборку из наблюдений
с пространственной привязкой? В.С. Тикунов 20 лет назад в моно-
графии «Классификации в географии» писал, что «географически
оправданный выбор обучающей совокупности территориальных еди-
ниц» – задача географов-специалистов [6], но руководства для них
не составил. Надо признать, что таких указаний нет и сейчас, но по
крайней мере для выбора модели средствами перекрестной проверки
в них нет нужды, так как по существу переменные, ответственные за
географический уровень, подобны любым другим качественным пере-
менным, так что исключительная забота о равном географическом
представительстве на деле может приводить к систематической ошиб-
ке – смещению. Проще говоря, такой подход делает нас предвзятыми.
Как ни удивительно, обратное бывает полезнее. Если мы поставим
условие, по которому наблюдения из одной, например, страны не могут
быть одновременно в начальном и проверочном множестве, то пере-
крестная проверка сообщит нам, в какой мере выводы наших уравне-
ний зависят от подбора стран.
Исследователи ищут такие уравнения, которые бы давали возможно
более близкие к действительным оценки переменой-отклика, то есть,
например, с упомянутым выше меньшим средним квадратом ошибок.
Но такая средняя мера порой скрывает важные для географов различия.
Новый количественный подход к экономико-географическим вопросам
52
Внимательный подход к остаткам – та дань, которую географы отдают
особенным, неповторимым чертам некоторых наблюдений. Быть мо-
жет, дополнительная объяснительная переменная устранила бы такой
промах, но выигрыш был бы слишком мал, если эта переменная зна-
чительна лишь для нескольких наблюдений. Здесь мы уступаем место
качественному исследовательскому подходу.
Правда, иной раз остатки выступают как переменная-отклик в но-
вых уравнениях. О чем-то подобном (со ссылкой на работу 1956 г.
Х. Мак-Карти, которой у нас нет) еще в 1965 г. писал П. Хаггет. Он
предлагал рассматривать остатки первого уравнения с одной неза-
висимой переменной (которая бы объясняла хотя бы часть разбро-
са интересующего исследователя показателя) как отклик для ново-
го уравнения – тоже с одной, но уже другой переменной. И так до
тех пор, пока исследователя не удовлетворит разброс остатков [16].
Но такой подход не самый удачный: лучше сразу рассматривать
разные сочетания переменных для начальной переменной-отклика,
а нее остатков, потому что, если объяснять только одной переменной,
то ее влияние будет переоценено.
Do'stlaringiz bilan baham: |