Ын Анналин, Су Кеннет



Download 10,36 Mb.
Pdf ko'rish
bet58/90
Sana25.02.2022
Hajmi10,36 Mb.
#268392
1   ...   54   55   56   57   58   59   60   61   ...   90
Bog'liq
Теоретический минимум Big Data Всё, что нужно знать о больших данных


разделить элементы данных на две внутренне однород-
ных группы.


9.4. Ограничения
133
Шаг 2: повторять шаг 1 для каждого листа, пока критерий 
остановки не будет достигнут.
Есть много вариантов критерия остановки, выбор среди 
которых можно сделать при помощи кросс-валидации 
(см. раздел 1.4). Возможные варианты:

остановиться, когда элементы данных на каждом ли-
сте относятся к одной категории или содержат одно 
значение;

остановиться, когда на листе осталось менее пяти 
элементов данных;

остановиться, когда дальнейшее ветвление не улуч-
шает однородность на минимальный заданный порог.
Поскольку рекурсивное деление использует только луч-
шие бинарные вопросы для создания дерева решений, 
присутствие недостоверных переменных не повлияет 
на результаты. Более того, бинарные вопросы тяготеют 
к тому, чтобы разделять элементы данных по средним по-
казателям, поэтому деревья решений устойчивы к резко 
отклоняющимся значениям.
9.4. Ограничения
Несмотря на легкость интерпретации, деревья решений 
тоже имеют свои недостатки.
Нестабильность. Поскольку деревья решений строятся 
путем разделения элементов данных на однородные 
группы, небольшое изменение в этих данных способно 


134
Глава 9
. 
Дерево решений
повлиять на то, как будет выглядеть все дерево. Посколь-
ку деревья решений стремятся к наилучшему способу 
разделения элементов данных, они восприимчивы к пере-
обучению (раздел 1.3).
Неточность. Использование наилучшего бинарного 
вопроса для разбивки данных не всегда ведет к точным 
предсказаниям. Иногда для лучшего прогнозирова-
ния нужны менее эффективные первоначальные раз-
деления.
Чтобы обойти эти ограничения, можно избежать ориен-
тации на лучшую разбивку данных и использовать раз-
личные варианты деревьев решений совместно. То есть 
мы можем получить более точные и постоянные резуль-
таты путем комбинирования прогнозов, полученных от 
различных деревьев.
Есть два способа сделать это.

При первом способе сначала различные комбинации 
бинарных вопросов для создания деревьев выбирают-
ся случайным образом, а затем полученные предсказа-
ния суммируются. Этот метод известен как построение 
случайного леса (глава 10).

Вместо того чтобы брать случайные бинарные во-
просы, при втором способе они выбираются страте-
гически, вследствие чего точность прогнозирования 
последовательно улучшается. Результатом становится 
взвешенное среднее значение, полученное при помощи 
всех деревьев решений. Этот метод называется гради-
ентным бустингом (gradient boosting).


9.5. Краткие итоги
135
Хотя случайные леса и градиентный бустинг позволяют 
делать более точные прогнозы, их сложность мешает 
визуализации, в связи с этим их прозвали черными ящи-
ками. Это объясняет, почему популярным инструментом 
анализа продолжают оставаться обычные деревья реше-
ний. Их наглядность упрощает оценку предикторов и их 
взаимодействия.

Download 10,36 Mb.

Do'stlaringiz bilan baham:
1   ...   54   55   56   57   58   59   60   61   ...   90




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish