y=β0+β1x1+β2x2+…+βjxj+…+βkxk+ε.
|
(1)
|
Исходным статистическим материалом при регрессионном анализе служит выборка объема n из (k+1)-мерной генеральной совокупности реализаций случайного вектора (Y, X1, X2,…, Xk).
Каждое из n осуществленных наблюдений над значениями указанных переменных характеризуется определенной числовой последовательностью вида:
(yi, xi1, xi2,…, xij,…, xik),
в которой
yi – значение переменной Y в i-ом наблюдении,
xij - значение переменной Xj в i-ом наблюдении.
Таким образом, при построении регрессионной модели используется n(k+1) выборочных значений:
.
Согласно модельному уравнению (1) данные значения связаны между собой следующими соотношениями:
здесь - вклад остаточной компоненты ε в значение для i-го наблюдения.
При выполнении дальнейших выкладок удобны матричные представления соответствующих систем равенств, обладающие компактностью записи и наглядностью результатов совершаемых математических операций.
В матричной форме система уравнений (2) приобретает вид
или
где - вектор-столбец размерности n, сформированный из фактических значений критериальной переменной Y;
X - матрица размерности [nx(k+1)], содержащая выборочные значения предикторов. Элементы данной матрицы по изложенным выше причинам рассматриваются как неслучайные величины;
- вектор-столбец размерности k+1 неизвестных параметров модели (коэффициентов регрессии);
- вектор-столбец так называемых остатков для произведенных n наблюдений:
; ; ; .
Для нахождения параметров регрессионной модели обычно используется метод наименьших квадратов (МНК), позволяющий получить несмещенные оценки параметров при следующих условиях Гаусса - Маркова.
Предпосылки регрессионного анализа
Для каждого наблюдения распределение остаточной компоненты не зависит от значений предикторов.
Математическое ожидание остаточной компоненты во всяком наблюдении равно нулю:
.
Такое требование естественно полагать выполненным, поскольку функциональная компонента регрессионной модели должна учитывать любую систематическую тенденцию в изменении значений переменной Y.
Дисперсия остаточной компоненты одинакова для всех наблюдений:
.
Для любых двух наблюдений остаточные компоненты не коррелированы:
.
Для каждого наблюдения распределение вероятностей остаточной компоненты подчинено закону Гаусса.
Данное допущение часто основывается на центральной предельной теореме, состоящей в том, что если случайная величина обусловлена взаимодействием большого числа других случайных величин, причем ни одна из них не оказывает доминирующего влияния на общий результат, то распределение результирующей случайной величины близко к нормальному.
Из условий Гаусса - Маркова непосредственно следует, что:
для i-го наблюдения критериальная переменная Y подчинена нормальному закону распределения вероятностей с математическим ожиданием , являющимся функцией только предикторов, и дисперсией , не зависящей от реализаций случайного вектора (X1, X2,…, Xk);
для произвольных двух наблюдений остаточные компоненты стохастически не независимы.
Замечание
При проведении расчетов оценок параметров множественной линейной модели регрессионного анализа с помощью МНК рекомендуется, чтобы n - число наблюдений - превосходило k+1 - число параметров модели - не менее чем в три раза.
Уравнение множественной линейной регрессии
Определяя на основании модельного уравнения (1) условное математическое ожидание критериальной переменной Y в предположении, что предикторы X1, X2, …, Xk приняли соответственно некоторые конкретные значения x1, x2,…, xk, принимая во внимание, что в этом случае β0+β1x1+β2x2+…+βjxj+…+βkxk есть константа, учитывая также, что согласно второй предпосылке регрессионного анализа M( ) равно нулю, получаем уравнение регрессии:
Do'stlaringiz bilan baham: |