7.3. Пример: истинные
различия в вине
Вернемся к примеру с вином. Цвет конкретного вина
можно вывести из цвета других вин со схожим химиче-
ским составом.
Воспользовавшись данными по белым и красным вари-
антам португальского винью-верде («зеленого вина»), мы
построили график химического состава 1599 красных
и 4898 белых вин, взяв за оси два ингредиента: хлориды
и диоксид серы.
Поскольку виноградная кожица содержит более высо-
кую концентрацию таких элементов, как хлорид натрия
112
Глава 7
.
Метод k -ближайших соседей
(известный как поваренная соль), в красных винах его
содержание выше. Кроме того, кожица содержит природ-
ные антиоксиданты, препятствующие порче ягод. Из-за
их отсутствия белое вино требует большего количества
диоксида серы, выступающего в роли консерванта. В силу
этих причин красные вина расположились на графике
с рис. 3 снизу справа, а белые — сверху слева.
Хлориды
Диоксид серы
Рис. 3. Уровень содержания хлоридов и диоксида серы в белых
винах (черным цветом) и красных (серым цветом)
Для определения цвета вина исходя из соответствующих
уровней содержания хлоридов и диоксида серы, можно
руководствоваться цветом соседних вин, то есть тех, кото-
рые обладают похожим содержанием обоих химических
компонентов. Сделав это для каждой точки графика, мы
получаем границы, отличающие красные вина от белых
(см. рис. 2). В случае идеального обучения (см. рис. 2, b),
можно предсказать цвет вина с точностью до 98 %.
7.4. Обнаружение аномалий
113
7.4. Обнаружение аномалий
Применимость метода k-ближайших соседей не ограни-
чивается предсказанием групп или значений элементов
данных. Он также может быть использован для обнару-
жения таких аномалий, как выявление подлогов. Более
того, обнаружение аномалий может привести к ценному
открытию: нахождению предиктора, который раньше не
был заметен.
Обнаружение аномалий становится значительно проще,
если данные могут быть визуализированы. Например, на
рис. 3 можно сразу увидеть, какие вина сильно отклоня-
ются от кластеров. Однако не всегда возможно визуали-
зировать данные на двумерном графике, особенно в слу-
чаях, когда для анализа есть больше двух предикторных
переменных. Здесь и помогут такие модели, как метод
k-ближайших соседей.
Поскольку он использует для прогнозирования законо-
мерности среди данных, погрешности прогнозирования
служат явным указанием на элементы данных, не укла-
дывающиеся в основные тренды. На самом деле любой
алгоритм, строящий прогностическую модель, может
быть использован для поиска аномалий. Так, при регрес-
сионном анализе (глава 6) аномальная точка может быть
легко найдена, потому что она значительно отклоняется
от линии наилучшего соответствия.
Если посмотреть на аномалии в примере с винами
(то есть на ошибочные классификации), мы обнаружим,
Do'stlaringiz bilan baham: |