Графический и статистический анализ данных. Лирическое отступление



Download 113,51 Kb.
bet1/2
Sana18.11.2022
Hajmi113,51 Kb.
#868204
  1   2
Bog'liq
Документ Microsoft Word


Графический анализ
Хотите уже наконец что-нибудь построить? Пока рановато. Для начала нужно проанализировать полученные данные. Это можно сделать используя графический и статистический анализ данных.
Лирическое отступление
В этом параграфе мы попробуем проанализировать условные переменные, сгенерированные следующим образом:
x <- 1000 + c(1:120)*0.5 + rep(c(100,150,-50,-200),30) + rnorm(120,0,10)
y <- 0.05*x^2 + 0.1*x - 30000 + rnorm(120,0,1500)
Графический анализ заключается в представлении данных в графическом виде и их последующему анализу. Самый простой из возможных и один из самых информативных графиков — это линейный график. Он позволяет посмотреть на изменение показателя во времени. Однако даже он может быть представлен по-разному.
Если по оси абсцисс откладывать моменты времени, а по оси ординат — значения нашего показателя, то мы получим простой линейный график.
Как это сделать в R



Линейный график со шкалой времени
По этим построенным нами графикам видно, что изучаемый показатель растёт во времени и имеет чёткую квартальную сезонность. Явных выбросов в динамике нашего показателя не наблюдается, поэтому дополнительных исследований относительно причин происхождения необычных событий мы можем не проводить.
Код в R

График ряда №1441
По этому графику видно, что показатель незначительно меняется во времени. При этом в середине 1991 и 1992 годов происходили какие-то события, выбивающиеся из общей динамики: значения оказывались выше 10000, при том, что в остальное время показатель не выходил за 8000. Для дальнейшего эффективного прогнозирования нам нужно попытаться выяснить причину такой аномалии. Что касается сезонности, то однозначное заключение о её наличии либо отсутствии сделать достаточно сложно. Ряд скорее носит случайный характер.
Как видим, уже простой анализ линейного графика нам даёт достаточно много информации.
Достаточно часто для эффективного прогнозирования нужно уметь определять сезонность. Если по первому ряду нам удалось её легко увидеть, то для однозначного вывода по второму ряду нам стоит построить дополнительные графики. Посмотрим на динамику показателя по отдельным годам.
Код в R
Для этого в пакете «forecast» есть удобная функция:
seasonplot(x)
Этот график выглядит следующим образом:

Динамика показателя в рамках года
Каждая линия на этом графике — это изменение показателя в пределах одного года. По такому графику видно, что каждый второй квартал наблюдается рост показателя (пик продаж), в то время как каждый четвёртый квартал значения оказываются ниже среднегодовых. Ряд обладает явной сезонностью.
Построив такой же график по ряду M3$N1441$x мы сезонности не увидим (проверьте сами).
Похожий по смыслу но немного другой по представлению — график сезонной динамики. На нём показана динамика показателя по каждому из кварталов.
Код в R

Динамика показателя по кварталам
На графике показана динамика показательно отдельно по сезонам. Горизонтальными линиями на графике показаны средние значения по каждому из кварталов. Очевидно, что показатель демонстрирует рост из года в год, при этому сезонность носит достаточно явный характер.
Другой взгляд на те же самые данные — это гистограмма. Она показывает, с какой частотой в ряде данных встречаются те или иные значения. Строится она достаточно просто — значения в ряде данных упорядочиваются по величине, исследователь задаёт интервалы и считает, сколько значений попало в эти интервалы.
Код в R


Гистограмма по ряду x
По этому графику видно, что в исходном ряде данных имеются своеобразные подгруппы. Это читается по пикам в районе 800 — 850, 950 — 1000 и 1100 — 1200. В нашем случае мы знаем, чем это вызвано: всё той же сезонностью. Однако в других случаях может иметь смысл разобраться, что вызвало такое разделение ряда на части.
Для ряда 1441 получим следующую гистограмму:

Гистограмма по ряду №1441
По ряду 1441 видно, что большая часть значений лежит ниже 8000 — распределение этого показателя асимметрично. В этом случае значения выше 8000 могут быть связаны с какой-нибудь аномалией.
Немного другим представлением той же информации является ящичковая диаграмма (она же "boxplot" - "боксплот"). Она может быть представлена как вертикально, так и горизонтально ориентированной. На рисунке ниже показана ящичковая диаграмма с вертикальной ориентацией.

Общий вид ящичковой диаграммы
Дадим краткое пояснение каждому элементу на этой диаграмме.
Нижний и верхни квартили мы рассмотрели в параграфе про статистический анализ.
Расстояние между верхним и нижним квартилями называется интерквартильным расстоянием и обозначается IQR:
IQR=Q3−Q1IQR=Q3−Q1
Медиану (Md(x)Md(x)) мы так же обсудили в предыдущем параграфе.
Серой областью вокруг медианы выделен доверительный интервал, который рассчитывается с помощью формулы:
Md(x)±1.57IQRT√Md(x)±1.57IQRT,
где T — число наблюдений в выборке.
Иногда вместо тёмной области на ящичковой диаграмме изображают сужение к медиане. Там где это сужение начинается, находятся границы интервала.
Точкой в середине ящичковой диаграммы иногда обозначают среднюю величину по выборке. Если средняя величина лежит в пределах доверительного интервала медианы, то это косвенно указывает на то, что распределение изучаемой случайной величины симметрично.
Усы диаграммы ограничивают выборку сверху и снизу интервалами, рассчитываемыми на основе формул:
Нижний ус — Q1−1.5IQRQ1−1.5IQR;
Верхний ус — Q3+1.5IQRQ3+1.5IQR.
Если значения выходят за эти усы, то они считаются выбросами — величинами не вписывающимися в общую динамику.
Рассмотрим этот инструмент на нашем примере:

Download 113,51 Kb.

Do'stlaringiz bilan baham:
  1   2




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish