В отличие от алгоритмов по построению и прогнозированию заданных параметров на основе некоторых деревьев, задача регрессии состоит в восстановлении непрерывной функции по её значениям:
E(𝑦|𝑥) = 𝑓(𝑥). (2.10)
Задача регрессии, относительно детектирования DDoS атак, формулируется следующем образом. Выборка параметров значений регрессии есть множество {𝑥1, 𝑥2, … , 𝑥𝑛}, соответствующие значения зависимых переменных есть множество {𝑦1, 𝑦2, … , 𝑦𝑛}.
Модель регрессии имеет следующий вид:
𝜔̅ = 𝑝(𝑦|𝑥, 𝜔, 𝑓), (2.11)
где 𝜔̅ – наиболее вероятностные параметры, 𝑝 – функция вероятности нахождения зависимости.
Использование регрессии в задачах классификации имеет существенный недостаток, а именно, простые модели имеют низкую точность предсказаний, а сложные модели, наоборот, оказываются переобученными, что сильно снижает точность предсказаний классификации и повышает вероятность ошибки обучения на тестовой выборке.
Алгоритм деревьев решений
Модели классификации и регрессии на основе деревьев решений выстраиваются через иерархию условий «если…то», приводящую к решению. При построении дерева алгоритм перебирает все возможные тесты и находит наиболее информативный к целевой переменной. Разбиение данных продолжается рекурсивно. Данная процедура продолжается до того момента, пока все точки данных не будут принадлежать одинаковому значению целевой переменной на каждом листе дерева решений [124, 125]. В результате такого процесса строится дерево, каждый узел которого соответствует определенному тесту. Лист дерева, который содержит точки, относящиеся к одной и той же величине целевой переменной, будет называться чистым [156]. Пусть дано обучающее множество, которое содержит K примеров и N классов. Для оценки эффективности разделения, полученного на основе конкретного атрибута, введем показатель 𝜚(𝑠 ∨ 𝑡), где s – идентификатор
разбиения, а t – идентификатор узла [156]. Тогда можно записать [126]:
𝑗=1
𝑊(𝑠 ∨ 𝑡) = 2 ∗ 𝑃𝐿 ∗ 𝑃𝑅 ∑𝑁
(𝑃(𝑗 ∨ 𝑡𝐿) − 𝑃(𝑗 ∨ 𝑡𝑅)),
(2.8)
где 𝑡 𝐿 и 𝑡 𝑅 – левый и правый потомки узла t соответственно, 𝑃 𝐿и 𝑃 𝑅 – отношение количества примеров в левом и правом потомках к их общему количеству в обучающем множестве, 𝑃 (𝑗 ∨ 𝑡 𝐿) и 𝑃 (𝑗 ∨ 𝑡 𝑅) − отношение количества примеров класса j в левом и правом потомках к их общему количеству в каждом из них.
Алгоритм дерева решений показывает высокую скорость работы и степень визуализации результатов классификации, что, несомненно, является преимуществом. Тем не менее, при попытке достичь максимальной точности классификации обучение модели посредством алгоритма деревьев решений затрудняется из-за переобучаемости данного алгоритма [127, 156].
Do'stlaringiz bilan baham: |