Таблица 5.6
Данные наблюдений
x
2
3
4
5
6
y
1,9
1,7
1,8
1,6
1,4
1,9
1,79
1,68
1,57
1,46
159
Рисунок 5.13
Исходные данные (y) и уравнение регрессии (
)
Дисперсионный анализ
Результаты проведения опытов и испытаний могут зависеть от
некоторых факторов, влияющих на изменчивость средних значений
случайной величины
. Значения факторов называют уровнями фак-
торов, а величину
называют результативным признаком. Например,
объем выполненных на стройке работ может зависеть от работающей
бригады. В этом случае номер бригады является уровнем фактора, а
объем работ за смену – результативным признаком.
Метод дисперсионного анализа
, или
ANOVA
(Analysis of
Variance – дисперсионный анализ), служит для исследования стати-
стической значимости различия между средними при трех и более
выборках (уровнях фактора). Для сравнения средних в двух выборках
используется
t
-критерий.
Процедура сравнения средних называется дисперсионным ана-
лизом, так как при исследовании статистической значимости разли-
чия между средними нескольких групп наблюдений проводится ана-
лиз выборочных дисперсий. Фундаментальная концепция дисперси-
онного анализа была предложена Фишером.
Сущность метода состоит в разделении общей дисперсии на две
части, одна из которых обусловлена случайной ошибкой (то есть
внутригрупповой изменчивостью), а вторая связана с различием
средних значений. Последняя компонента дисперсии затем использу-
ется для анализа статистической значимости различия между сред-
ними значениями. Если это различие значимо, нулевая гипотеза от-
вергается и принимается альтернативная гипотеза о существовании
различия между средними.
160
Переменные, значения которых определяется с помощью изме-
рений в ходе эксперимента (например, экономическая эффектив-
ность, урожайность, результат тестирования), называются зависимы-
ми переменными или признаками. Переменные, которыми можно
управлять при проведении эксперимента (например, уровень управ-
ления, тип почвы, методы обучения) называются факторами или не-
зависимыми переменными.
В классическом дисперсионном анализе полагается, что иссле-
дуемые величины имеют нормальное распределение с постоянной
дисперсией и средними значениями, которые могут отличаться для
разных выборочных совокупностей. В качестве критерия проверки
нулевых гипотез используется отношение дисперсии групповых
средних и остаточной дисперсии. Однако было показано
37
, что дис-
персионный анализ справедлив и для негауссовских случайных вели-
чин, причем при объеме выборок для каждого уровня фактора n > 4
погрешность невысока. Если требуется высокая точность выводов, а
распределение неизвестно, то следует использовать непараметриче-
ские критерии, например, использовать ранговый дисперсионный
анализ.
Однофакторный дисперсионный анализ
Пусть проводится
групп измерений значений случайной ве-
личины
Y
при различных уровнях значения некоторого фактора, и
a
1
,
a
2
,..., a
m
– математическое ожидание результативного признака при
уровнях фактора
A
(1)
,
A
(2)
,...,
A
(m)
(
i
=1,2,...,
m
) соответственно.
Предположение о независимости результативного признака от
фактора сводится к проверке нулевой гипотезы о равенстве группо-
вых математических ожиданий
(5.30)
Проверка гипотезы возможна при соблюдении следующих тре-
бований для каждого уровня фактора:
1)
наблюдения независимы и проводятся в одинаковых усло-
виях;
2)
измеряемая случайная величина имеет нормальный закон
распределения с постоянной для различных уровней фактора гене-
ральной дисперсией
σ
2
. То есть справедлива гипотеза
(5.31)
37
Кацко И.А., Паклин Н.Б. Практикум по анализу данных на компьютере /Под ред. Е.В. Гореловой.
М.: Колос,
2009,
⎼
278 с. :ил. (Учебники и учеб. Пособия для студентов высш. Учеб. Заведений).
161
Для проверки гипотезы о равенстве дисперсий трех и более
нормальных распределений применяется критерий Бартлета
38
.
Если гипотеза
подтверждается, то приступа-
ют к проверке гипотезы о равенстве групповых математических ожида-
ний
, то есть собственно к дисперсионному ана-
лизу. В основе дисперсионного анализа лежит положение, что измен-
чивость результативного признака вызвана как изменением уровней
фактора А, так и изменчивостью значений случайных неконтролируе-
мых факторов. Случайные факторы называются остаточными.
Можно доказать
39
, что общая выборочная дисперсия может
быть представлена в виде суммы дисперсии групповых средних и
средней из групповых дисперсий
2
2
2
~
~
~
O
Y
,
где
2
~
Y
– общая дисперсия выборки;
2
~
– дисперсия групповых средних (
2
)
(
~
i
Y
), рассчитанных для
каждого уровня фактора;
2
~
O
– средняя по групповым дисперсиям (
2
~
i
), рассчитанным
для каждого уровня фактора,
2
~
O
связана с влиянием на
Y
остаточных
(случайных) факторов.
Перейдя от разложения для генеральной дисперсии к выбороч-
ным значениям, получим
2
2
2
O
Y
s
s
s
,
(5.32)
где
2
s
представляет собой взвешенную сумму квадратов откло-
нений выборочных средних по каждому уровню
A
(i)
от общего выбо-
рочного среднего,
2
O
s
- среднее значение квадратов отклонений внут-
ри уровней.
Случайные величины
2
Y
s
,
2
s
,
2
O
s
имеют следующие значения
для степеней свобод соответственно:
n
- 1,
m
- 1,
n - m
. Здесь
n
– об-
щее число выборочных значений,
m
–число уровней фактора.
В математической статистике доказывается, что если нулевая
гипотеза о равенстве средних (5.30) верна, то величина
38
Ван Дер Варден Б.Л. Математическая статистика. – М.: Иностранная литература, 1960.
39
А.И. Орлов. Математика случая. Вероятность и статистика – основные факты. Учебное пособие. М.: МЗ-
Пресс, 2004.
162
2
2
O
s
s
F
имеет
F
-распределение с числом степеней свободы
k
=
m
- 1 и
l
=
n- m
, то есть
(5.33)
При выполнении нулевой гипотезы внутригрупповая дисперсия
будет практически совпадать с общей дисперсией, подсчитанной без
учета групповой принадлежности. В дисперсионном анализе, как
правило, числитель в (5.33) больше знаменателя. В противном случае
считается, что наблюдения не подтверждают влияние фактора на ре-
зультирующий признак и дальнейший анализ не проводится. Полу-
ченные внутригрупповые дисперсии можно сравнить с помощью
F
-
критерия, проверяющего, действительно ли отношение дисперсий
значимо больше 1.
В связи с этим для проверки гипотезы (5.30) с помощью
F
-
критерия анализируется правосторонняя критическая область
)
,
(
.
кр
пр
F
.
Если рассчитанное значение
F
попадает в указанный интервал, то ну-
левая гипотеза отвергается, и считается установленным влияние фак-
тора
А
на результативный признак
Y
.
Приведем пример расчета сумм квадратов и выборочных
дисперсий. Рассмотрим набор данных, представленный в таблице
5.7
40
. В данном примере требуется определить, есть ли значимое
различие в производительности бригад.
Do'stlaringiz bilan baham: |