149
Коэффициент корреляции Пирсона представляет собой меру
линейной зависимости двух переменных. Если возвести его в квад-
рат, то полученное значение коэффициента детерминации
пред-
ставляет долю вариации, общую для двух переменных (иными слова-
ми, степень зависимости или связанности двух переменных). Чтобы
оценить зависимость между переменными, нужно знать как «величи-
ну» корреляции, так и ее значимость.
Рисунок 5.9
Результаты корреляционного анализа данных
Уровень
значимости, вычисленный для каждой корреляции,
представляет собой главный источник информации о надежности
корреляции. Критерий значимости основывается на предположении,
что распределение остатков (т.е. отклонений наблюдений от регрес-
сионной прямой) для зависимой переменной
является нормальным
(с постоянной дисперсией для всех значений
независимой перемен-
ной
). Исследования методом Монте-Карло показали, что нарушение
150
этих условий не является абсолютно критичным, если размеры вы-
борки не слишком малы, а отклонения от
нормальности не очень
большие.
Следует подчеркнуть, что при изучении зависимостей очень
важным является построение и изучение диаграмм рассеяния. Основ-
ные проблемы могут быть связаны с выбросами (рисунок 5.10), неод-
нородностью данных, нелинейной зависимостью. Обычно считается,
что выбросы представляют собой случайную ошибку,
которую сле-
дует контролировать. Очевидно, что выбросы могут не только искус-
ственно увеличить значение коэффициента корреляции, но и умень-
шить существующую корреляцию. В статистических исследованиях
применяют различные численные методы удаления выбросов. На-
пример, исключаются все значения, которые выходят за границы ±2
стандартных отклонений вокруг выборочного среднего.
Отсутствие однородности в выборке
также является фактором,
смещающим (в ту или иную сторону) выборочную корреляцию. Ко-
эффициент корреляции может быть вычислен по данным, которые
поступили из двух или нескольких групп, различающихся по корре-
лированности признаков.
Таким образом, данные каждой группы
сильно различаются на диаграмме рассеяния (рисунок 5.11). В дан-
ном примере высокая корреляция вовсе не отражает «истинную» за-
висимость между двумя переменными, которая практически отсутст-
вует (рисунок 5.12). Если разбиение данных на группы не очевидно,
применяются многомерные методы разведочного анализа, например,
кластерный анализ.
Коэффициент корреляция Пирсона
хорошо подходит для
описания линейной зависимости.
Использование
r
как меры зави-
симости между произвольными
и
может привести к ошибоч-
ным выводам, так как
может равняться нулю даже тогда, когда
строго зависит от
.
Для количественных переменных, не
подчиняющихся нормаль-
ному распределению, а также для переменных, принадлежащих к по-
рядковой шкале, вместо коэффициента Пирсона используются непа-
раметрические коэффициенты корреляции. К ним относятся
коэффи-
циент ранговой корреляции Спирм
е
на
,
коэффициент ранговой корре-
ляции
Кендалла
и др.