- математико-статистический метод выявления наличия корреляционной зависимости между компонентами многомерной случайной величины, определения силы и направления их связи.
Предпосылки корреляционного анализа
При построении корреляционных моделей исходят из выполнения условий случайности результатов наблюдений и нормальности закона распределения анализируемой многомерной генеральной совокупности.
Понятие "корреляционная зависимость"
Корреляционной зависимостью случайной величины Y от случайных величин X1, X2,…, Xk называется функциональная зависимость условного математического ожидания M(Y/x1,x2,…,xk) величины Y от значений x1, x2,…, xk переменных X1, X2,…, Xk:
M(Y/x1,x2,…,xk)=f(x1,x2,…,xk).
Функция f(x1,x2,…,xk), устанавливающая зависимость условного математического ожидания M(Y/x1,x2,…,xk) случайной величины Y от значений x1, x2,…, xk случайных переменных X1, X2,…, Xk, называется функцией регрессии случайной величины Y на случайный вектор (X1, X2,…, Xk).
Аналитическое представление корреляционной зависимости в виде M(Y/x1,x2,…,xk)=f(x1,x2,…,xk) называется уравнением регрессии случайной величины Y на случайный вектор (X1,X2,…,Xk).
Двумерная корреляционная модель
Исследуется зависимость между признаками X, Y. Предполагается, что распределение случайного вектора (X,Y) подчинено закону Гаусса: плотность совместного распределения случайных величин X, Y определяется формулой:
.
Параметры двумерного нормального распределения имеют следующий теоретико-вероятностный смысл:
μx - математическое ожидание величины X;
μy - математическое ожидание величины Y;
σx – среднее квадратическое отклонение величины X;
σy - среднее квадратическое отклонение величины Y;
ρ - коэффициент корреляции между признаками X, Y.
Коэффициент корреляции как мера стохастической связи
Если ρxy=0, то плотность распределения вектора (X,Y) приобретает вид:
,
т.е. φX,Y(x,y)=φX(x)φY(y), что означает независимость случайных величин X, Y.
Таким образом, в рамках корреляционного анализа понятия некоррелированности и независимости эквивалентны, что дает основание рассматривать коэффициент корреляции ρxy в качестве меры стохастической связи признаков X, Y.
Уравнение линейной парной регрессии
Из курса теории вероятностей известно, что
,
При этом условная плотность величины Y определяется на основании выражения:
.
Используя представления φX,Y(x,y), φX(x) для нормально распределенных случайных величин (X,Y), X и осуществляя соответствующее интегрирование, получаем уравнение линейной парной регрессии Y на X:
или ,
где - коэффициент регрессии Y на X.
Из вида уравнения линейной парной регрессии следует, что график функции регрессии есть прямая линия.
Замечание
В случае , т.е. некоррелированности X, Y, прямая линия регрессии Y на X параллельна координатной оси .
Положительный знак коэффициента корреляции означает, что прямые линии регрессии имеют в координатной плоскости положительный тангенс угла наклона, с увеличением (или уменьшением) значения X пропорционально в среднем возрастает (соответственно убывает) значение переменной Y.
Отрицательный знак коэффициента корреляции указывает на обратную тенденцию.
Парный коэффициент детерминации
Степень рассеяния значений Y относительно линии регрессии Y на X характеризуют условная дисперсия:
.
Расчет по этой формуле дает следующее выражение:
.
Квадрат коэффициента корреляции называется парным коэффициентом детерминации.
Замечание
Из приведенного выражения для видно, что ρ2 указывает долю дисперсии величины Y, обусловленную влиянием величины X:
.
По мере приближения к единице значение стремится к нулю, что свидетельствует о меньшем рассеянии значений Y относительно соответствующей линии регрессии и о более тесной связи между переменными X, Y.
Точечные оценки параметров двумерного распределения
Do'stlaringiz bilan baham: |