9.4.
Ограничения
133
Шаг 2: повторять шаг 1 для каждого листа, пока критерий
остановки не будет достигнут.
Есть много вариантов критерия остановки, выбор среди
которых можно сделать при помощи кросс-валидации
(см. раздел 1.4). Возможные варианты:
остановиться, когда элементы данных на каждом ли-
сте относятся к одной категории или содержат одно
значение;
остановиться, когда на листе осталось менее пяти
элементов данных;
остановиться, когда дальнейшее ветвление не улуч-
шает однородность на минимальный заданный порог.
Поскольку рекурсивное деление использует только луч-
шие бинарные вопросы для создания дерева решений,
присутствие недостоверных переменных не повлияет
на результаты. Более того, бинарные вопросы тяготеют
к тому, чтобы разделять элементы данных по средним по-
казателям, поэтому деревья решений устойчивы к резко
отклоняющимся значениям.
9.4. Ограничения
Несмотря на легкость интерпретации, деревья решений
тоже имеют свои недостатки.
Нестабильность. Поскольку деревья решений строятся
путем разделения элементов
данных на однородные
группы, небольшое изменение в этих данных способно
134
Глава 9
.
Дерево
решений
повлиять на то, как будет выглядеть все дерево. Посколь-
ку деревья решений стремятся к наилучшему способу
разделения элементов данных, они восприимчивы к пере-
обучению (раздел 1.3).
Неточность. Использование наилучшего бинарного
вопроса для разбивки данных не всегда ведет к точным
предсказаниям. Иногда
для лучшего прогнозирова-
ния нужны менее эффективные первоначальные раз-
деления.
Чтобы обойти эти ограничения, можно избежать ориен-
тации на лучшую разбивку данных и использовать раз-
личные варианты деревьев решений совместно. То есть
мы можем получить более точные и постоянные резуль-
таты путем комбинирования прогнозов, полученных от
различных деревьев.
Есть два способа сделать это.
При первом способе сначала различные комбинации
бинарных вопросов для создания деревьев выбирают-
ся случайным образом, а затем полученные предсказа-
ния суммируются. Этот метод известен как построение
случайного леса (глава 10).
Вместо того чтобы брать случайные бинарные во-
просы, при втором способе они выбираются страте-
гически, вследствие чего точность прогнозирования
последовательно улучшается. Результатом становится
взвешенное среднее значение, полученное при помощи
всех деревьев решений. Этот метод называется
гради-
ентным бустингом (gradient boosting).
9.5.
Краткие итоги
135
Хотя случайные леса и градиентный бустинг позволяют
делать более точные прогнозы, их сложность мешает
визуализации, в связи с этим их прозвали
черными ящи-
ками. Это объясняет, почему популярным инструментом
анализа продолжают оставаться обычные деревья реше-
ний. Их наглядность упрощает оценку предикторов и их
взаимодействия.
Do'stlaringiz bilan baham: