Ын Анналин, Су Кеннет



Download 10,36 Mb.
Pdf ko'rish
bet51/90
Sana25.02.2022
Hajmi10,36 Mb.
#268392
1   ...   47   48   49   50   51   52   53   54   ...   90
Bog'liq
Теоретический минимум Big Data Всё, что нужно знать о больших данных

7.3. Пример: истинные 
различия в вине
Вернемся к примеру с вином. Цвет конкретного вина 
можно вывести из цвета других вин со схожим химиче-
ским составом.
Воспользовавшись данными по белым и красным вари-
антам португальского винью-верде («зеленого вина»), мы 
построили график химического состава 1599 красных 
и 4898 белых вин, взяв за оси два ингредиента: хлориды 
и диоксид серы.
Поскольку виноградная кожица содержит более высо-
кую концентрацию таких элементов, как хлорид натрия 


112
Глава 7
. 
Метод k -ближайших соседей
(известный как поваренная соль), в красных винах его 
содержание выше. Кроме того, кожица содержит природ-
ные антиоксиданты, препятствующие порче ягод. Из-за 
их отсутствия белое вино требует большего количества 
диоксида серы, выступающего в роли консерванта. В силу 
этих причин красные вина расположились на графике 
с рис. 3 снизу справа, а белые — сверху слева.
Хлориды 
Диоксид серы
Рис. 3. Уровень содержания хлоридов и диоксида серы в белых 
винах (черным цветом) и красных (серым цветом)
Для определения цвета вина исходя из соответствующих 
уровней содержания хлоридов и диоксида серы, можно 
руководствоваться цветом соседних вин, то есть тех, кото-
рые обладают похожим содержанием обоих химических 
компонентов. Сделав это для каждой точки графика, мы 
получаем границы, отличающие красные вина от белых 
(см. рис. 2). В случае идеального обучения (см. рис. 2, b), 
можно предсказать цвет вина с точностью до 98 %.


7.4. Обнаружение аномалий
113
7.4. Обнаружение аномалий
Применимость метода k-ближайших соседей не ограни-
чивается предсказанием групп или значений элементов 
данных. Он также может быть использован для обнару-
жения таких аномалий, как выявление подлогов. Более 
того, обнаружение аномалий может привести к ценному 
открытию: нахождению предиктора, который раньше не 
был заметен.
Обнаружение аномалий становится значительно проще, 
если данные могут быть визуализированы. Например, на 
рис. 3 можно сразу увидеть, какие вина сильно отклоня-
ются от кластеров. Однако не всегда возможно визуали-
зировать данные на двумерном графике, особенно в слу-
чаях, когда для анализа есть больше двух предикторных 
переменных. Здесь и помогут такие модели, как метод 
k-ближайших соседей.
Поскольку он использует для прогнозирования законо-
мерности среди данных, погрешности прогнозирования 
служат явным указанием на элементы данных, не укла-
дывающиеся в основные тренды. На самом деле любой 
алгоритм, строящий прогностическую модель, может 
быть использован для поиска аномалий. Так, при регрес-
сионном анализе (глава 6) аномальная точка может быть 
легко найдена, потому что она значительно отклоняется 
от линии наилучшего соответствия.
Если посмотреть на аномалии в примере с винами 
(то есть на ошибочные классификации), мы обнаружим, 



Download 10,36 Mb.

Do'stlaringiz bilan baham:
1   ...   47   48   49   50   51   52   53   54   ...   90




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish