Рисунок 5.8
Примеры диаграмм рассеяния для различных значений ко-
эффициента корреляции
Предположим, что необходимо выполнить исследование за-
висимости между среднемесячными доходами X на семью (в тыс.
руб.) и расходами Y на покупку кондитерских изделий (в руб.). Целями
исследования зависимости между переменными являются доказа-
тельство наличия связи между ним и изучение этой связи. Для дока-
зательства наличия связи между двумя случайными величинами
и
применяют корреляционный анализ. На основе данных наблюдений по-
строена матрица корреляции и диаграмма размещения (рисунок 5.9) с
использованием возможностей аналитической платформы Deductor.
Анализ рисунок 5.9 позволяет сделать вывод о наличии сильной
линейной статистической связи между среднемесячными доходами
семьи и затратами на приобретение ею кондитерских изделий. При
этом связь имеет положительную тенденцию, т.е. с ростом пере-
менной
наблюдается увеличение отклика
.
149
Коэффициент корреляции Пирсона представляет собой меру
линейной зависимости двух переменных. Если возвести его в квад-
рат, то полученное значение коэффициента детерминации
пред-
ставляет долю вариации, общую для двух переменных (иными слова-
ми, степень зависимости или связанности двух переменных). Чтобы
оценить зависимость между переменными, нужно знать как «величи-
ну» корреляции, так и ее значимость.
Рисунок 5.9
Результаты корреляционного анализа данных
Уровень значимости, вычисленный для каждой корреляции,
представляет собой главный источник информации о надежности
корреляции. Критерий значимости основывается на предположении,
что распределение остатков (т.е. отклонений наблюдений от регрес-
сионной прямой) для зависимой переменной
является нормальным
(с постоянной дисперсией для всех значений независимой перемен-
ной
). Исследования методом Монте-Карло показали, что нарушение
150
этих условий не является абсолютно критичным, если размеры вы-
борки не слишком малы, а отклонения от нормальности не очень
большие.
Следует подчеркнуть, что при изучении зависимостей очень
важным является построение и изучение диаграмм рассеяния. Основ-
ные проблемы могут быть связаны с выбросами (рисунок 5.10), неод-
нородностью данных, нелинейной зависимостью. Обычно считается,
что выбросы представляют собой случайную ошибку, которую сле-
дует контролировать. Очевидно, что выбросы могут не только искус-
ственно увеличить значение коэффициента корреляции, но и умень-
шить существующую корреляцию. В статистических исследованиях
применяют различные численные методы удаления выбросов. На-
пример, исключаются все значения, которые выходят за границы ±2
стандартных отклонений вокруг выборочного среднего.
Отсутствие однородности в выборке также является фактором,
смещающим (в ту или иную сторону) выборочную корреляцию. Ко-
эффициент корреляции может быть вычислен по данным, которые
поступили из двух или нескольких групп, различающихся по корре-
лированности признаков. Таким образом, данные каждой группы
сильно различаются на диаграмме рассеяния (рисунок 5.11). В дан-
ном примере высокая корреляция вовсе не отражает «истинную» за-
висимость между двумя переменными, которая практически отсутст-
вует (рисунок 5.12). Если разбиение данных на группы не очевидно,
применяются многомерные методы разведочного анализа, например,
кластерный анализ.
Коэффициент корреляция Пирсона
хорошо подходит для
описания линейной зависимости. Использование
r
как меры зави-
симости между произвольными
и
может привести к ошибоч-
ным выводам, так как
может равняться нулю даже тогда, когда
строго зависит от
.
Для количественных переменных, не подчиняющихся нормаль-
ному распределению, а также для переменных, принадлежащих к по-
рядковой шкале, вместо коэффициента Пирсона используются непа-
раметрические коэффициенты корреляции. К ним относятся
коэффи-
циент ранговой корреляции Спирм
е
на
,
коэффициент ранговой корре-
ляции
Кендалла
и др.
151
Do'stlaringiz bilan baham: |