Код в R
Боксплот по ряду x
Код в R
Боксплот по ряду №1441
По первой ящичковой диаграмме сделать какие-либо интересные выводы затруднительно — распределение случайной величины там выглядит достаточно однородно. По расположению квартилей и медианы, однако, можно прийти к выводу об асимметрии в распределении.
По ящичковой диаграмме по второму ряду видны выбросы (те самые значения больше 10000, на которые мы обратили внимание ранее) и заметно, что средняя величина оказалась незначительно выше медианы. Возможно, если учесть эти выбросы, распределение нашего показателя будет более симметричным, что в теории может облегчить процесс прогнозирования.
Построение гистограмм и ящичковых диаграмм обычно имеет больший смысл, когда оценивается качество полученной модели. В таком случае обычно анализируются ошибки (остатки) модели для того, чтобы выяснить, всё ли было взято в расчёт и нужно ли как-нибудь доработать модель.
В случае если перед аналитиком стоит задача прогнозирования на основе нескольких переменных, имеет смысл изучить возможные связи между ними. В этом случае стоит обратиться к точечной диаграмме:
Нормальная точечная диаграмма
Код в R
По полученной точечной диаграмме видно, что между нашими двумя переменными есть связь, близкая к линейной, выбросов либо явных изменений в связях не наблюдается. Это полезная информация, которая позволяет нам сделать вывод, что применение простой парной регрессии в данном случае может быть оправдано и оценки коэффициентов полученной модели не будут сильно искажёнными. Стоит заметить, что второй график (который мы тут назвали "Точечная диаграмма курильщика") имеет смысл строить только в тех случаях, когда исследователь подозревает, что в ряде данных могли произойти со временем изменения в связях. Просто так строить его не имеет никакого смысла, так как его крайне тяжело читать и интерпретировать.
Точечная диаграмма так же позволяет понять, имеем ли мы дело с однородной выборкой или же в наших данных имеются какие-то подгруппы. В нашем случае такие подгруппы имеются, но они все описываются одной и той же линейной зависимостью (все лежат на одной и той же линии).
В случае, если между двумя переменными имеется сложная нелинейная связь, бывает нелишним «сгладить» эти связи и проанализировать полученную зависимость.
Код в R
Точечная диаграмма со сглаженной линией. Искусственные данные
По нему видно, что между нашими переменными имеется нелинейная зависимость (не удивительно, ведь мы же её и использовали при генерации переменной «y»). Впрочем, нелинейность в этом случае носит слабый характер и может быть проигнорирована.
Более интересным представляется пример с рядами из пакета «datasets»:
Точечная диаграмма со сглаженной линией. Данные Бокса и Дженкинса
Код в R
По этому графику уже видно, что значения независимой переменной до 12 влияют на продажи одним образом, но начиная примерно с 12 зависимость меняется (потому что меняется угол наклона прямой линии). Для того, чтобы понять, произошли ли эти изменения в связях со временем или же просто носят нелинейный характер (то есть наблюдается ли эволюция в связях), можно соединить точки на плоскости линиями следующим образом:
Код в R
Линейный график по двум переменным
Главное, что видно по полученному графику - это то, что переход от одной группы к другой носит временной характер: до 86-го наблюдения зависимость имеет один вид, начиная примерно с 94-го - другой. Для эффективного прогнозирования такого ряд продаж возможно имеет смысл обратиться к моделям с меняющимся во времени параметрам, либо моделям оценённым методом неравномерного сглаживания. Если бы такого однозначного изменения во времени не наблюдалось, то можно было бы учесть эту нелинейность либо с помощью какой-нибудь математической функцией (например, с помощью полинома), либо с помощью фиктивных переменных.
Если в распоряжении исследователя имеется множество переменных и ему требуется изучить возможны связи между переменными, то вместо того, чтобы строить вручную кучу точечных диаграмм можно построить матрицу точечных диаграмм.
Код в R
Матрица точечных диаграмм
Попробуем проанализировать полученный график. По матрице точечных диаграмм видно, что между «y» и переменной «x1» есть некоторая связь, близкая к линейной, но при этом никакой явной связи между «x1» и «x2», а так же между «y» и «x2» не наблюдается. Эта информация может позволить нам понять, стоит ли включать те или иные переменные в модель и как именно их включить.
Помимо рассмотренных нами тут графиков есть ещё различные столбиковые и круговые, но для целей прогнозирования они обычно несут мало информации.
Do'stlaringiz bilan baham: |