Графический и статистический анализ данных. Лирическое отступление


Код в R Боксплот по ряду x Код в R



Download 113,51 Kb.
bet2/2
Sana18.11.2022
Hajmi113,51 Kb.
#868204
1   2
Bog'liq
Документ Microsoft Word

Код в R

Боксплот по ряду x
Код в R

Боксплот по ряду №1441
По первой ящичковой диаграмме сделать какие-либо интересные выводы затруднительно — распределение случайной величины там выглядит достаточно однородно. По расположению квартилей и медианы, однако, можно прийти к выводу об асимметрии в распределении.
По ящичковой диаграмме по второму ряду видны выбросы (те самые значения больше 10000, на которые мы обратили внимание ранее) и заметно, что средняя величина оказалась незначительно выше медианы. Возможно, если учесть эти выбросы, распределение нашего показателя будет более симметричным, что в теории может облегчить процесс прогнозирования.
Построение гистограмм и ящичковых диаграмм обычно имеет больший смысл, когда оценивается качество полученной модели. В таком случае обычно анализируются ошибки (остатки) модели для того, чтобы выяснить, всё ли было взято в расчёт и нужно ли как-нибудь доработать модель.
В случае если перед аналитиком стоит задача прогнозирования на основе нескольких переменных, имеет смысл изучить возможные связи между ними. В этом случае стоит обратиться к точечной диаграмме:

Нормальная точечная диаграмма
Код в R

По полученной точечной диаграмме видно, что между нашими двумя переменными есть связь, близкая к линейной, выбросов либо явных изменений в связях не наблюдается. Это полезная информация, которая позволяет нам сделать вывод, что применение простой парной регрессии в данном случае может быть оправдано и оценки коэффициентов полученной модели не будут сильно искажёнными. Стоит заметить, что второй график (который мы тут назвали "Точечная диаграмма курильщика") имеет смысл строить только в тех случаях, когда исследователь подозревает, что в ряде данных могли произойти со временем изменения в связях. Просто так строить его не имеет никакого смысла, так как его крайне тяжело читать и интерпретировать.
Точечная диаграмма так же позволяет понять, имеем ли мы дело с однородной выборкой или же в наших данных имеются какие-то подгруппы. В нашем случае такие подгруппы имеются, но они все описываются одной и той же линейной зависимостью (все лежат на одной и той же линии).
В случае, если между двумя переменными имеется сложная нелинейная связь, бывает нелишним «сгладить» эти связи и проанализировать полученную зависимость.
Код в R


Точечная диаграмма со сглаженной линией. Искусственные данные
По нему видно, что между нашими переменными имеется нелинейная зависимость (не удивительно, ведь мы же её и использовали при генерации переменной «y»). Впрочем, нелинейность в этом случае носит слабый характер и может быть проигнорирована.
Более интересным представляется пример с рядами из пакета «datasets»:

Точечная диаграмма со сглаженной линией. Данные Бокса и Дженкинса
Код в R
По этому графику уже видно, что значения независимой переменной до 12 влияют на продажи одним образом, но начиная примерно с 12 зависимость меняется (потому что меняется угол наклона прямой линии). Для того, чтобы понять, произошли ли эти изменения в связях со временем или же просто носят нелинейный характер (то есть наблюдается ли эволюция в связях), можно соединить точки на плоскости линиями следующим образом:
Код в R

Линейный график по двум переменным
Главное, что видно по полученному графику - это то, что переход от одной группы к другой носит временной характер: до 86-го наблюдения зависимость имеет один вид, начиная примерно с 94-го - другой. Для эффективного прогнозирования такого ряд продаж возможно имеет смысл обратиться к моделям с меняющимся во времени параметрам, либо моделям оценённым методом неравномерного сглаживания. Если бы такого однозначного изменения во времени не наблюдалось, то можно было бы учесть эту нелинейность либо с помощью какой-нибудь математической функцией (например, с помощью полинома), либо с помощью фиктивных переменных.
Если в распоряжении исследователя имеется множество переменных и ему требуется изучить возможны связи между переменными, то вместо того, чтобы строить вручную кучу точечных диаграмм можно построить матрицу точечных диаграмм.
Код в R


Матрица точечных диаграмм
Попробуем проанализировать полученный график. По матрице точечных диаграмм видно, что между «y» и переменной «x1» есть некоторая связь, близкая к линейной, но при этом никакой явной связи между «x1» и «x2», а так же между «y» и «x2» не наблюдается. Эта информация может позволить нам понять, стоит ли включать те или иные переменные в модель и как именно их включить.
Помимо рассмотренных нами тут графиков есть ещё различные столбиковые и круговые, но для целей прогнозирования они обычно несут мало информации.
Download 113,51 Kb.

Do'stlaringiz bilan baham:
1   2




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish