Тема 5. Парная линейная регрессия: проверка качества 1. Проблемы использования уравнения регрессии После определения оценок возникают вопросы: - насколько точны и надежны найденные оценки; - насколько точно эмпирическое уравнение регрессии соответствует уравнению для всей генеральной совокупности; - насколько близки оценки к своим теоретическим значениям a и b. Для ответа на эти вопросы рассчитываются и проверяются ряд показателей и гипотез. 2. Общая схема проверки качества парной регрессии Адекватность модели – остатки должны удовлетворять условиям теоремы Гаусса-Маркова. Основные показатели качества коэффициентов регрессии: 1. Стандартные ошибки оценок (анализ точности определения оценок). 2. Интервальные оценки коэффициентов уравнения регрессии (построение доверительных интервалов). 3. Значимость коэффициентов регрессии (проверка гипотез относительно коэффициентов регрессии). Основные показатели качества уравнения регрессии в целом: 1. Стандартная ошибка регрессии Se (анализ точности уравнения регрессии). 2. Коэффициент детерминации R2 (проверка качества подгонки уравнения к эмпирическим данным). 3. Средняя ошибка аппроксимации (проверка качества подгонки уравнения к эмпирическим данным). 3. Стандартные ошибки коэффициентов Оценки являются случайными величинами. Отсюда следует, что стандартные ошибки коэффициентов регрессии – это средние квадратические отклонения коэффициентов регрессии от их истинных значений. Стандартные ошибки коэффициентов регрессии: , Стандартная ошибка является оценкой среднего квадратического отклонения коэффициента регрессии от его истинного значения. Чем меньше стандартная ошибка тем точнее оценка. 4. Интервальные оценки коэффициентов На практике часто важно знать возможные значения параметров . Так как истинные значения параметров не известны, то о них можно судить приближенно. Для это рассчитываются доверительные интервалы. Доверительные интервалы для коэффициентов регрессии определяются следующим образом: 1. Выбирается уровень доверия q. Обычно он близок к 1, например, 0,9; 0,95 или 0,99. 2. Рассчитывается уровень значимости g = 1 – q. 3. Рассчитывается число степеней свободы n – 2, где n – число наблюдений. 4. Определяется критическое значение t-статистики (tкр) по таблицам распределения Стьюдента на основе g и n – 2. 5. Рассчитываются доверительные интервалы для параметров . α: , β: . Доверительный интервал показывает, что истинное значение параметра с вероятностью q находится в данных пределах. Чем меньше доверительный интервал относительно коэффициента, тем точнее полученная оценка.