Графический анализ
Хотите уже наконец что-нибудь построить? Пока рановато. Для начала нужно проанализировать полученные данные. Это можно сделать используя графический и статистический анализ данных.
Лирическое отступление
В этом параграфе мы попробуем проанализировать условные переменные, сгенерированные следующим образом:
x <- 1000 + c(1:120)*0.5 + rep(c(100,150,-50,-200),30) + rnorm(120,0,10)
y <- 0.05*x^2 + 0.1*x - 30000 + rnorm(120,0,1500)
Графический анализ заключается в представлении данных в графическом виде и их последующему анализу. Самый простой из возможных и один из самых информативных графиков — это линейный график. Он позволяет посмотреть на изменение показателя во времени. Однако даже он может быть представлен по-разному.
Если по оси абсцисс откладывать моменты времени, а по оси ординат — значения нашего показателя, то мы получим простой линейный график.
Как это сделать в R
Линейный график со шкалой времени
По этим построенным нами графикам видно, что изучаемый показатель растёт во времени и имеет чёткую квартальную сезонность. Явных выбросов в динамике нашего показателя не наблюдается, поэтому дополнительных исследований относительно причин происхождения необычных событий мы можем не проводить.
Код в R
График ряда №1441
По этому графику видно, что показатель незначительно меняется во времени. При этом в середине 1991 и 1992 годов происходили какие-то события, выбивающиеся из общей динамики: значения оказывались выше 10000, при том, что в остальное время показатель не выходил за 8000. Для дальнейшего эффективного прогнозирования нам нужно попытаться выяснить причину такой аномалии. Что касается сезонности, то однозначное заключение о её наличии либо отсутствии сделать достаточно сложно. Ряд скорее носит случайный характер.
Как видим, уже простой анализ линейного графика нам даёт достаточно много информации.
Достаточно часто для эффективного прогнозирования нужно уметь определять сезонность. Если по первому ряду нам удалось её легко увидеть, то для однозначного вывода по второму ряду нам стоит построить дополнительные графики. Посмотрим на динамику показателя по отдельным годам.
Код в R
Для этого в пакете «forecast» есть удобная функция:
seasonplot(x)
Этот график выглядит следующим образом:
Динамика показателя в рамках года
Каждая линия на этом графике — это изменение показателя в пределах одного года. По такому графику видно, что каждый второй квартал наблюдается рост показателя (пик продаж), в то время как каждый четвёртый квартал значения оказываются ниже среднегодовых. Ряд обладает явной сезонностью.
Построив такой же график по ряду M3$N1441$x мы сезонности не увидим (проверьте сами).
Похожий по смыслу но немного другой по представлению — график сезонной динамики. На нём показана динамика показателя по каждому из кварталов.
Код в R
Динамика показателя по кварталам
На графике показана динамика показательно отдельно по сезонам. Горизонтальными линиями на графике показаны средние значения по каждому из кварталов. Очевидно, что показатель демонстрирует рост из года в год, при этому сезонность носит достаточно явный характер.
Другой взгляд на те же самые данные — это гистограмма. Она показывает, с какой частотой в ряде данных встречаются те или иные значения. Строится она достаточно просто — значения в ряде данных упорядочиваются по величине, исследователь задаёт интервалы и считает, сколько значений попало в эти интервалы.
Код в R
Гистограмма по ряду x
По этому графику видно, что в исходном ряде данных имеются своеобразные подгруппы. Это читается по пикам в районе 800 — 850, 950 — 1000 и 1100 — 1200. В нашем случае мы знаем, чем это вызвано: всё той же сезонностью. Однако в других случаях может иметь смысл разобраться, что вызвало такое разделение ряда на части.
Для ряда 1441 получим следующую гистограмму:
Гистограмма по ряду №1441
По ряду 1441 видно, что большая часть значений лежит ниже 8000 — распределение этого показателя асимметрично. В этом случае значения выше 8000 могут быть связаны с какой-нибудь аномалией.
Немного другим представлением той же информации является ящичковая диаграмма (она же "boxplot" - "боксплот"). Она может быть представлена как вертикально, так и горизонтально ориентированной. На рисунке ниже показана ящичковая диаграмма с вертикальной ориентацией.
Общий вид ящичковой диаграммы
Дадим краткое пояснение каждому элементу на этой диаграмме.
Нижний и верхни квартили мы рассмотрели в параграфе про статистический анализ.
Расстояние между верхним и нижним квартилями называется интерквартильным расстоянием и обозначается IQR:
IQR=Q3−Q1IQR=Q3−Q1
Медиану (Md(x)Md(x)) мы так же обсудили в предыдущем параграфе.
Серой областью вокруг медианы выделен доверительный интервал, который рассчитывается с помощью формулы:
Md(x)±1.57IQRT√Md(x)±1.57IQRT,
где T — число наблюдений в выборке.
Иногда вместо тёмной области на ящичковой диаграмме изображают сужение к медиане. Там где это сужение начинается, находятся границы интервала.
Точкой в середине ящичковой диаграммы иногда обозначают среднюю величину по выборке. Если средняя величина лежит в пределах доверительного интервала медианы, то это косвенно указывает на то, что распределение изучаемой случайной величины симметрично.
Усы диаграммы ограничивают выборку сверху и снизу интервалами, рассчитываемыми на основе формул:
Нижний ус — Q1−1.5IQRQ1−1.5IQR;
Верхний ус — Q3+1.5IQRQ3+1.5IQR.
Если значения выходят за эти усы, то они считаются выбросами — величинами не вписывающимися в общую динамику.
Рассмотрим этот инструмент на нашем примере:
Do'stlaringiz bilan baham: |