Ын Анналин, Су Кеннет



Download 10,36 Mb.
Pdf ko'rish
bet78/90
Sana25.02.2022
Hajmi10,36 Mb.
#268392
1   ...   74   75   76   77   78   79   80   81   ...   90
Bog'liq
Теоретический минимум Big Data Всё, что нужно знать о больших данных

Приложения


180
Приложения
Приложение A. Обзор алгоритмов 
обучения без учителя
Кластеризация методом 
k-средних
Метод главных компонент
Ассоциативные правила
Лувенский
мето
д
PageRan
k
Вход
Выход
Бинарные
значения
Непрерывные
значения
Узлы и ребра
Категории
Ассоциации
Ранги


Приложение В. Обзор алгоритмов обучения с учителем
181
Приложение В. Обзор алгоритмов 
обучения с учителем
Регрессионный анализ
Метод 
k-ближайших
соседей
Метод опорных векторов
Деревья решени
й
Случайные леса
Нейронные
сети
Прогнозировани
е
Анализ
Бинарные
переменные
Категориальные
переменные
Возможные
классы
Непрерывные
переменные
Нелинейные
отношения
Большое число
переменных
Быстрота
вычислений
Простота
использования
Результаты
Высокая
точность
Интер-
претируемость


182
Приложения
Приложение С. Список параметров 
настройки
Параметры настройки
Регрессионный 
анализ
• Параметр регуляризации
(для лассо или ридж-регрессии)
Метод k-ближайших 
соседей
Число ближайших соседей
Метод опорных 
векторов
• Параметр стоимости
• Параметры ядра
• Параметр эластичности
Дерево решений
• Минимальный размер конечных узлов
• Максимальное число конечных узлов
• Максимальная глубина дерева
Случайные леса
• Все параметры деревьев решений
Число деревьев
• Число переменных для выбора 
на каждой разбивке
Нейронные сети
• Число скрытых слоев
• Число нейронов в каждом слое
Число итераций обучения
• Коэффициент скорости обучения
• Первоначальные веса


Приложение D. Другие метрики оценки
183
Приложение D. Другие метрики 
оценки
Метрики оценки различаются по тому, как они опреде-
ляют различные типы погрешностей прогнозирования 
и как штрафуют за них. В этом приложении представле-
но несколько наиболее типичных метрик в дополнение 
к рассмотренным в разделе 1.4.
Метрики классификации
Площадь под ROC-кривой, AUROC. AUROC (Area 
Under the Receiver Operating Characteristic Curve) — это 
метрика, позволяющая выбирать между максимизацией 
доли истинно положительных результатов и минимиза-
цией доли ложноотрицательных результатов.

Доля истинно положительных результатов (TPR) — 
это доля правильно определенных положительных 
результатов среди всех положительных:
TPR = TP / (TP + FN).

Доля ложноположительных результатов (FPR) — 
это доля неправильно определенных отрицательных 
результатов среди всех отрицательных:
FPR = FP / (FP + TN).
В самом крайнем случае можно пойти по пути максимиза-
ции доли истинно положительных результатов (TPR = 1), 
определяя все значения как положительные. Хотя это 


184
Приложения
полностью убирает ложноотрицательные результаты, 
это также значительно увеличивает число ложнополо-
жительных. Другими словами, необходимо равновесие 
между минимизацией ложноположительных и максими-
зации истинно положительных результатов.
Этот баланс может быть визуализирован на ROC-кривой 
(рис. 1).
Доля ложноположительных (FPR), %
Доля истинно положительных (TPR), 
%
Рис. 1. ROC-кривая показывает баланс между максимизацией 
истинно положительных и минимизацией ложноположительных 
результатов
Эффективность модели оценивается с помощью площа-
ди, охватываемой ROC-кривой, поэтому метрика и на-


Приложение D. Другие метрики оценки
185
зывается площадью под кривой ошибок (AUC). Чем точнее 
модель, тем ближе кривая к верхней левой границе гра-
фика. Идеальная модель продемонстрировала бы кривую 
при AUC = 1, что эквивалентно всей площади графика. 
В противоположность ей эффективность модели со слу-
чайным прогнозом была бы представлена диагональной 
пунктирной линией при AUC = 0,5.
На практике мы можем определить лучшую модель по 
тому, что она захватывает большую площадь AUC, а ее 
ROC-кривая использовалась бы для того, чтобы опре-
делить подходящий порог TPR и FPR, с которыми мы 
готовы смириться.
Теперь, когда ROC-кривая позволила нам выбрать тип 
ошибки, которого мы больше всего хотим избежать, 
можно применить штрафы ко всем ошибочным пред-
сказаниям с использованием такой метрики, как лога-
рифмическая функция потерь (logarithmic loss metric).

Download 10,36 Mb.

Do'stlaringiz bilan baham:
1   ...   74   75   76   77   78   79   80   81   ...   90




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish