Уравнения прямых регрессии для парной корреляции
Данные о статистической зависимости между двумя переменными величинами удобно задавать в виде корреляционной таблицы:
|
y1
|
y2
|
…
|
yj
|
…
|
ym
|
Всего:
или ni
|
x1
|
n11
|
n12
|
…
|
n1j
|
…
|
n1m
|
n1
|
x2
|
n21
|
n22
|
…
|
n2j
|
…
|
n2m
|
n2
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
xi
|
ni1
|
ni2
|
…
|
nij
|
…
|
nim
|
ni
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
xl
|
nl1
|
nl2
|
…
|
nlj
|
…
|
nlm
|
nl
|
Всего:
или nj
|
n1
|
n2
|
…
|
nj
|
…
|
nm
|
n
|
где: l – число интервалов по переменной X, m – число интервалов по переменной Y;
xi и yj – середины соответствующих интервалов;
nij – частоты пар (xi ; yj) ;
, ;
– объем выборки.
Определение 1. Корреляционная зависимость между случайными величинами Х и Y называется линейной корреляцией, если обе функции регрессии (x) и (y) являются линейными.
Этот вид корреляционной зависимости встречается довольно часто. В этом случае обе линии регрессии являются прямыми и называются прямыми регрессии.
Выведем уравнение прямой регрессии Y по X , т.е. найдем коэффициенты линейной функции (x)=aх+b.
Для этого применим метод наименьших квадратов, согласно которому неизвестные параметры a и b выбираются так, чтобы была минимальной сумма:
,
где групповые средние вычисляются по формулам:
.
Используя необходимое условие экстремума функции двух переменных, получаем систему нормальных уравнений для определения параметров линейной регрессии:
,
где соответствующие средние вычисляются по формулам:
, , , .
Решая систему нормальных уравнений, получаем:
, , где:
– выборочная дисперсия переменной X, – выборочная ковариация.
Коэффициент a в уравнении регрессии называется выборочным коэффициентом регрессии Y по X и обозначается yx. Итак,
Аналогично уравнение прямой регрессии X по Y имеет вид , где – выборочный коэффициент регрессии X по Y, показывающий, на сколько единиц в среднем изменяется переменная Х при увеличении переменной Y на одну единицу. Здесь есть выборочная дисперсия переменной Y, где .
3. Оценка тесноты связи. Коэффициент корреляции (выборочный), его определение и свойства
Рассмотрим случай линейной корреляции. Уравнение прямой регрессии Y по X равносильно уравнению (при условии, что sx и sy отличаются от нуля). Величина показывает, на сколько величин sy изменится в среднем величина Y, когда величина X изменится на sx .
Определение 1. Коэффициентом корреляции (выборочным) называется величина
.
Коэффициент корреляции является показателем тесноты связи между случайными величинами Х и Y .
Так как , то , т.е. формула для коэффициента корреляции r симметрична относительно переменных Х и Y .
Следовательно, то же значение тесноты связи между случайными величинами Х и Y будет получено при рассмотрении уравнения прямой регрессии X по Y:
.
Отсюда получаем или , причем коэффициент корреляции имеет тот же знак, что и выборочные коэффициенты прямых регрессии.
Можно показать, что коэффициент корреляции принимает значения из отрезка [-1;1]. Чем ближе r к 1, тем теснее связь между случайными величинами Х и Y . При этом различают связь слабую, умеренную, заметную, достаточно тесную, тесную и весьма тесную.
Если r = 1, то корреляционная зависимость является линейной функциональной зависимостью.
Если r = 0, то линейная корреляционная связь отсутствует.
4. Коэффициент детерминации и корреляционное отношение.
Согласно основной идее дисперсионного анализа
,
где - групповая средняя для i-го уровня фактора.
Последнее равенство запишем в виде:
Q = QR + Qe ,
где Q – общая сумма квадратов отклонений зависимой переменной от средней, QR – сумма квадратов, обусловленная регрессией, а Qe - остаточная сумма квадратов, характеризующая влияние неучтенных факторов.
Схему дисперсионного анализа представим в виде таблицы:
Компоненты
дисперсии
|
Сумма
квадратов
|
Число степеней
свободы
|
Средние
квадраты
|
Регрессия
|
QR=
|
m-1
|
|
Остаточная
|
Qe=
|
mn-m
|
|
Общая
|
Q=
|
mn-1
|
|
Часто возникает необходимость в достоверном показателе интенсивности связи при любой форме зависимости. Для получения такого показателя запишем правило сложения дисперсий:
sy2 = siy/ 2 + δiy 2,
где sy2 – общая дисперсия переменной y, siy/ 2 – средняя групповых дисперсий siy2 или остаточная дисперсия и δiy 2 – межгрупповая дисперсия. Остаточная диспесия измеряет ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от Х. Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью Х.
Величина называется эмпирическим корреляционным отношением Y по Х. Чем теснее связь, тем большее влияние на вариацию переменной Y оказывает изменчивость Х по сравнению с неучтенными факторами, тем выше ηух. Величина ηух2 , называемая эмпирическим коэффициентом детерминации, показывает, какая часть общей вариации Y обусловлена вариацией Х. Аналогично вводится эмпирическое корреляционное отношение Х по Y.
Основные свойства корреляционных отношений:
1. Корреляционное отношение есть неотрицательная величина, не превосходящая 1: 0 ≤ η ≤ 1.
2. Если η = 0, то корреляционная связь отсутствует.
3. Если η = 1, то между переменными существует функциональная зависимость.
Эмпирическое корреляционное отношение ηух является показателем рассеяния точек корреляционного поля относительно эмпирической линии регрессии, которое преувеличивает тесноту связи. Поэтому рассматривается показатель тесноты связи Ryx, характеризующий рассеяние точек корреляционного поля относительно линии регрессии ух. Показатель Ryx получил название теоретического корреляционного отношения или индекса корреляции Y по Х:
.
Можно показать, что Ryx = .
Коэффициент детерминации R2, равный квадрату индекса корреляции, показывает долю общей вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющей переменной. Чем ближе R2 к 1, тем теснее наблюдения примыкают к линии регрессии, тем лучше регрессия описывает зависимость переменных.
Расхождение между η2 и R2 может быть использовано для проверки линейности корреляционной зависимости.
5. Проверка значимости уравнения регрессии
Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных для описания зависимой переменной.
Имеем или
Q = QR + Qe.
Уравнение регрессии значимо на уровне , если фактически наблюдаемое значение статистики
,
где Fα; k1; k2 - табличное значение F-критерия Фишера-Снедекора, определенное на уровне значимости α при k1 = m – 1 и k2 = n - m степенях свободы; m – число оцениваемых параметров уравнения регрессии; n – число наблюдений.
Учитывая смысл величин sR2 и s2, можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с её средней.
В случае линейной парной регрессии m = 2 и уравнение регрессии значимо на уровне , если
Do'stlaringiz bilan baham: |