Ын Анналин, Су Кеннет



Download 10,36 Mb.
Pdf ko'rish
bet11/90
Sana25.02.2022
Hajmi10,36 Mb.
#268392
1   ...   7   8   9   10   11   12   13   14   ...   90
Bog'liq
Теоретический минимум Big Data Всё, что нужно знать о больших данных

24
Глава 1
. 
Об основах без лишних слов
позволяет изучать закономерности, рассматривая по-
купки.
Но если вместо этого мы хотим исследовать закономер-
ности покупок в зависимости от дня, то нам нужно пред-
ставить в строках общий итог. Для всестороннего анализа 
имеет смысл также добавить новые переменные, такие 
как погода (табл. 2).
Таблица 2. Переформатированный набор данных о покупках 
за день с дополнительными переменными
Переменные
Дата
Выручка
Число
покупателей
Погода
Выходные
1 янв.
21,50 $ 
3
солнечно
да
2 янв.
11,50 $
2
дождливо
нет
3 янв.
19,80 $ 
3
солнечно
нет
Типы переменных
Есть четыре главных типа переменных. Чтобы убедиться, 
что к ним применимы выбранные алгоритмы, важно по-
нимать разницу.

Бинарная. Это простейший тип переменных только 
с двумя вариантами значения. В табл. 1 бинарная пере-
менная показывает, брал ли покупатель рыбу.

Категориальная. Если вариантов больше двух, ин-
формация может быть представлена категориальной 
переменной. В табл. 1 категориальная переменная 
описывает вид покупателя.


1.1. Подготовка данных
25

Целочисленная. Такой тип используется, когда ин-
формация может быть представлена целым числом. 
В табл. 1 целое число выражает количество купленных 
каждым покупателем фруктов.

Непрерывная (количественная). Это самая подробная 
переменная. Она содержит числа со знаками после 
запятой. В табл. 1 такие переменные показывают ко-
личество потраченных покупателем денег.
Выбор переменных
Хотя в нашем первоначальном наборе данных может 
быть много разных переменных, применение в алго-
ритме слишком большого их числа ведет к замедлению 
вычислений или к ошибочным предсказаниям из-за ин-
формационного шума. Поэтому нам надо остановиться 
на коротком списке важнейших переменных.
Выбор переменных часто делается методом проб и оши-
бок. Их имеет смысл добавлять и убирать, учитывая 
промежуточные результаты. Для начала мы можем ис-
пользовать простые графики для выявления корреляций 
(см. раздел 6.5) между переменными, отбирая самые 
многообещающие для дальнейшего анализа.

Download 10,36 Mb.

Do'stlaringiz bilan baham:
1   ...   7   8   9   10   11   12   13   14   ...   90




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish