Дисперсионный анализ

Download 1,5 Mb.

bet	5/6
Sana	16.03.2022
Hajmi	1,5 Mb.
	#496700

1 2 3 4 5 6

Bog'liq
MU 4 5(DA)

Пример 2. Результаты ответов 400 респондентов на вопросы анкеты «Томск 400» «Как Вы оцениваете Ваше здоровье в сравнении со здоровьем Ваших сверстников» (варианты ответов: “Очень хорошее”, “Хорошее”, “Среднее”, “Плохое”, “Очень плохое”, “Затрудняюсь ответить”) представлены в виде числовой выборки кодов ответов со значениями, соответственно, {1,2,3,4,5,6}. Также имеется выборка числовых кодов, соответствующих месту проживания респондента (1 – «Томск», 2 - «Северск», 3 – «Томский район», 4 - «Асино», 5 – «Асиновский район», 6 - «Каргасокский район», 7 – «Каргасок», 8 - «Тегульдет»). Используя дисперсионный анализ, установить, одинаково ли оценивают свое здоровье респонденты в различных населенных пунктах.
Поскольку зависимая переменная (варианты ответов на вопрос «Как Вы оцениваете Ваше здоровье в сравнении со здоровьем Ваших сверстников») категориального типа, то для выявления различия в ответах на вопросы респондентов различных населенных пунктов используем непараметрический дисперсионный анализ Краскела-Уоллиса.
Выборочные данные представлены в нашей таблице данных под именами «В_13» и «НП». Чтобы исключить из рассмотрения респондентов, давших на вопрос «Как Вы оцениваете Ваше здоровье в сравнении со здоровьем Ваших сверстников» ответ «Затрудняюсь ответить», незабываем указать код категории, которые мы исключаем из анализа. Для этого в таблице данных кликаем дважды на имени переменной «В_13» и в раскрывшемся окне свойств переменной устанавливаем значение параметра «MD code» равным значению 6 (код ответа «Затрудняюсь ответить»).
Предварительно можно качественно оценить различие средних, построив диаграммы размаха в соответствующем разделе модуля «Descriptive statistics». Однако, это можно будет сделать и непосредственно в модуле непараметрического дисперсионного анализа.
Для проведения непараметрического дисперсионного анализа рангов Краскела-Уоллиса проделаем следующее. Запускаем в головном меню модуль «Statistics», в стартовой панели выбираем пункт «Nonparametrics». В меню модуля «Nonparametric Statistics» (рис. 27) выбираем раздел «Comparing multiple indep. Samples (groups)» («Сравнение нескольких независимых выборок)».

Рис. 27. Выбор метода непараметрического дисперсионного анализа в стартовом окне модуля «Nonparametric Statistics»
В появившемся окне модуля «Kruskal-Wallis ANOVA and Median Test» (рис. 28), выбираем переменные, нажав на кнопку «Variables». В качестве зависимой переменной выбираем переменную «В_13» а в качестве группирующей – переменную «НП».

Рис. 28. Окно модуля непараметрического дисперсионного анализа
Оценим предварительно качественно различие средних по уровням фактора. Для этого нажимаем на кнопку «Box & whisker», в качестве переменной выбираем «В_13», а в качестве параметров для диаграммы типа «ящики-усы» параметры «Median / Quart / Range» («Медиана / Квартильный размах / Полный размах». В результате получаем диаграмму, изображенную на рис. 29. Как видим, на основе данной диаграммы трудно что-либо сказать о различии средних. Количество уровней зависимой переменной невелико, поэтому медианы для всех категорий переменной «НП» совпадают, и, соответственно, все интервалы размаха перекрываются. Но совпадение самих значений медиан, еще не означает, что число значений больших (меньших) медианы для разных уровней фактора одинаково. Парадокс, но мы проверяем гипотезу о “различии” медиан, при условии их “равенства”! Дело в том, что со статистической точки зрения, медиана просто делит всю совокупность в определенном соотношении (причем не обязательно 50% на 50% - смотри внимательно определение медианы). И если эти соотношения для выборок различаются, это и означает различие медиан двух совокупностей.

Рис. 29. Диаграммы размаха по категориям переменной «НП»
Вернемся в окно непараметрического дисперсионного анализа (рис. 5.30). Нажав на кнопку «Summary», в рабочей книге в разделе «Kruskal-Wallis ANOVA and median test dialog» на странице «Kruskal-Wallis ANOVA by Ranks» получим результаты дисперсионного анализа Краскела-Уоллиса, а на странице «Median Test» результаты медианного теста.
Согласно результатам дисперсионного анализа Краскела-Уоллиса (рис. 30), существует статистически значимое ( ) влияние уровней фактора «НП» на значения переменной «В_13». Другими словами, респонденты в различных населенных пунктах по разному оценивают свое здоровье.
Результаты медианного теста также показывают различие в ответах для различных населенных пунктов (рис. 31) на уровне . В медианном тесте выдается также информация о наблюдаемом числе («observed») значений, меньше либо равных медианы (и, соответственно, больше медианы), и о ожидаемом числе («expected») тех же значений, вычисленном при условии истинности нулевой гипотезы о равенстве медиан признака «В_13» при различных уровнях фактора «НП». Ориентируясь на эти значения, можно сделать выводы о том какие группы и как различаются.

Рис. 30. Результаты дисперсионного анализа Краскела-Уоллиса

Рис. 31. Результаты медианного теста
Так, для г. Томска (НП = 1) число наблюдаемых значений больших медианы (57) больше ожидаемого (49,6203). Это предположительно означает, что респонденты г. Томска хуже оценивают свое здоровье, чем, например, респонденты г. Северска (НП = 2), для которых число наблюдаемых значений больших медианы (3) меньше ожидаемого (12,65316).
Статистически определить между какими группами наблюдается значимое различие можно, используя множественное апостериорное сравнение средних рангов. Чтобы получить результаты множественного сравнения рангов в окне модуля «Kruskal-Wallis ANOVA and Median Test» нажимаем кнопку «Multiple сomparisons of mean ranks for all groups», в результате получаем таблицу, изображенную на рис. 32. Как видим, только для пары г. Томск – г. Северск можно считать, что существует слабо значимое различие ( ). Поскольку данный результат был получен после значимого результата дисперсионного анализа, следует признать, что эта пара и определила результат дисперсионного анализа.

Рис. 32. Результаты множественного сравнения средних рангов
Таким образом, окончательный результат дисперсионного анализа: есть значимое различие в оценке своего здоровья респондентами г. Томска и г. Северска - респонденты г. Томска хуже оценивают свое здоровье, чем респонденты г. Северска. Различие в оценках своего здоровья респондентами других населенных пунктов, как между собой, так и в сравнении с г. Томск и г. Северск статистически незначимо.

Download 1,5 Mb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6