Для анализа данных используется собранный ранее архив данных с метаданными, описанными в таблице 3.2.
Так как метаданные имеют большой числовой разброс параметров, необходимо применить нормализацию данных для лучшей кластеризации. Нормализация предполагает, чтобы вся выборка (каждая строка матрицы) необходимых параметров масштабируется в диапазоне [0, 1], при этом заменяя номинальные числовые значение каждого параметра входящего пакета [190]. Для подготовки и анализа данных использовались python-библиотеки: sklearn и модуль реализации алгоритмов k-ближайших соседей Nearest
Neighbors [188].
Для реализации алгоритма LOF необходимо использовать библиотеку LocalOutlierFactor [189].
Для подбора наилучших параметров используем следующий алгоритм:
администратором вводится ограничение на выявление аномалий в сети параметр – {c} и размер окрестности пакетов в одном кластере – {k};
для каждого выявленного из окрестности кластера аномалии необходимо применить:
установить значение среднее значение M и дисперсию V, соответственно, логарифму локальных значений выбросов для прогнозированных аномалий;
рассчитываем коэффициент T между предсказанными аномалиями и нормальными точками;
вычислить аргумент максимизации аномалии {copt} для заданной окрестности. Таким образом, оптимальный 𝑐 – это тот, где T является наибольшим квантилем.
Результат кластеризации
Для оценки точности поиска аномалий использовались наборы данных NSL-KDD [194]. В таблице 3.6 приведена информация по использованию набора данных.
Таблица 3.6. Описание используемых тестовых выборок
Название
|
Размерность
|
Количество аномалий/размер
набора данных
|
Многогранники
|
2х-мерный
|
2221/10000(22%)
|
Сферы
|
3х-мерный
|
93/637(15%)
|
На рисунке 3.6 изображены графики, отображающие оценка F и AUC соответственно в наборе проверки для разных значений параметров для многогранников. Стрелки указывают на параметры, которые были выбраны с помощью предложенного метода настройки, где выбранное загрязнение равно 0,01, а размер окрестности равен 16.
Рисунок 3.6. Графики оценки метрик F и AUC для многогранников
В таблице 3.7 представлены результаты для двух наборов данных, где предлагаемый метод производит настройку оптимальных параметров LOF. Таблица 3.7. Оценка точности детектирования аномалий с использованием метода настройки параметров
Название набора данных
|
с, уровень загрязнения
|
k, размер окрестно сти
|
F мера
|
ROC_AUC
|
После настройки.
|
До настройки
|
После настройки.
|
До настройки
|
Многогранники
|
0,01
|
16
|
0,981
|
0,894
|
0,947
|
0,863
|
Сферы
|
0,01
|
48
|
0,930
|
0,861
|
0,875
|
0,822
|
Для анализа полученного результата на основе выявления аномалий в сетевом трафике воспользуемся заранее подготовленным набором данных, который включает в себя различные сетевые атаки, не только DDoS атаки. Данный набор имеет множество образцов вторжений, модерируемых в среде военной сети. Атрибутом вредоносных атак является сетевой трафик, содержащийся в http протоколе. Набор состоит из 623091 строки, каждая строка подразумевает одно интернет-соединение, при этом, набор содержит 4045 вариантов различных вторжений (имитация аномального сетевого трафика). Так же набор содержит трафик ICMP, содержащий 68321 строки, из которых 100 пакетов являются аномальными [191, 194].
Помимо http трафика целесообразно проверить работу разработанного метода на smtp трафике, то есть трафике, атрибуты которого ранее не встречались. Набор содержит 95156, из которых 1180 строк содержат признаки аномальных пакетов входных данных [192].
Для дополнительной проверки детектирования аномалий был взят набор данных mnist. Набор состоит из 12 665 изображений образцов для цифр «0» и
«1», которые определены как нормальные данные в этом конкретном приложении. В качестве аномалий содержится 7 885 (78,9%) нечетких изображений цифр. Данный набор является трудоемким для процедуры кластеризации [193].
Оценки ROC AUC и оценка точности поиска аномалий в наборах данных представлены на рисунке 3.7, оценка точности на рисунке 3.8.
Рисунок 3.7. Оценка ROC-AUC
Рисунок 3.8. Оценка точности AUC
По результатам оценки можно сделать вывод, что применение метода настройки гиперпараметров позволяет производить более точное детектирование аномалий в различных наборах данных, по сравнению с фиксированными значениями параметров c и k.
Do'stlaringiz bilan baham: |