Выбор метода для поиска аномалий в сетевого трафике на наличие сетевых атак типа «отказ о обслуживании»
Как уже говорилось раннее, аномалия – это отклонение поведения системы от штатного. Аномалией может служить: ошибка, отклонение, а также выброс. Природа самих аномалий также различна и может проявляться при технологических неисправностях, ошибках пользователей или же преднамеренных противоправных действий против системы, например взломах. Существует множество методов детектирования различных аномалий, в то же время далеко не все методы универсальны.
Аномалии, согласно [142, 143] делятся на три категории: аномалии, при которых единичный экземпляр данных может рассматриваться как аномалия; вторая категория – условная, при которых аномалия экземпляра рассматривается лишь в том случае, когда проявляет себя при определенных
условиях или определенном контексте, иными словами при аномалия считается таковой лишь в определенных обстановках; третий вид аномалий – коллективный, иначе говоря, данному виду аномалий соответствует целая последовательность экземпляров, которая впоследствии и формирует коллективную цепочку аномалий (например, временной ряд). Очевидно, характер поведения вредоносного сетевого трафика относительно других соответствует первому виду аномалий.
Записанная сессия сетевого трафика, который был выявлен как аномальный, является архивными данными. Задача подбора метода должна основываться, в первую очередь, на оценке степени вероятности того, что анализируемый экземпляр будет являться аномальным по отношению к другому входящего сетевому трафику.
Режим распознавания аномалий в сетевом трафике, для определения раннее неизвестных атак, является режимом распознавания без учителя, иными словами, выносится предположение о том, что такие аномальные всплески будет встречаться редко. Данный метод не подразумевает работы с потоковыми данными, так как требует обработки всего набора данных, необходимого для анализа.
В зависимости от поставленной задачи методы детектирования аномалий делятся на пять основных групп [144].
Методы, основанные на задаче классификации. В качестве нормального поведения назначается один или несколько экземпляров целевой функции. Экземпляр, не соответствующий ни одному классу, является будет являться аномальным по отношению к другим экземплярам в рассматриваемом наборе данных. Данный тип относится к машинному обучению с учителем [145].
Методы, основанные на задаче кластеризации. Задача кластеризации не требует наличия целевой функции. Нормальные экземпляры классов будут образовывать значительно большую плотность, нежели аномальные кластеры. К сожалению, стандартные алгоритмы
кластеризации имеют высокую степень ложных срабатываний из-за размытости границы между нормальными и аномальными экземплярами [146].
Методы, основанные на статистическом анализе данных. В данном случае строится нормальная модель поведения системы, любое отклонение от поведения будет считаться аномальным. Принципиальная проблема заключается в том, что если природа аномалий неизвестна заранее, то тогда будет сложно определить точность статистического распределения и порога [147].
Метод ближайшего соседа. Данный метод основан на Евклидовом расстоянии между экземплярами. В первую очередь, необходимо понять меру похожести анализируемых экземпляров. Вычисляется расстояние до ближайшего экземпляра. Когда экземпляр удален от соседа – данный экземляр обозначается выбросом и помечается аномальным [148].
Методы спектрального анализа. Данный вид метода характеризуется задачей аппроксимации входных атрибутов данных. Чаще всего для анализа сетевого трафика строится временной ряд, чтобы получить частотные характеристики. Впоследствии данный анализ сравнивается со спектральным анализом ряда, полученным при атаке. Наличие отклонений свидетельствует о наличии атаки [149]. В то же время спрогнозировать данным методом внезапную активность пользователей не представляется возможным, поэтому для DDoS атак спектральный анализ является эффективным лишь для анализа гистограммы входящего потока трафика, а не для детектирования аномальных экземпляров. Тем самым, большая вероятность ложного срабатывания метода на трафике, не содержащем DDoS атак.
Было заранее установлено, что целевая переменная в неизвестных экземплярах потенциальных сетевых атак не определена, следовательно, методы и алгоритмы машинного обучения, основанные на работе с учителем,
а именно классификация и статистический анализ, неактуальны для данной задачи.
Метод спектрального анализа является нецелесообразным из расчета того, что имеется высокая степень ложных срабатываний и данный метод применим для статистической обработки трафика, нежели сигнатурный.
Метод кластеризации применялся раннее для первичного распределения экземпляров по их атрибутам, поэтому возможно использование метода ближайшего соседа для определения расстояния между единичными кластерами.
Поскольку выброс может быть определен как некий экземпляр, сильно отличающийся от остальных данных, целесообразно применение алгоритма обнаружения выбросов. Специалистами в области математической статистики
[150] широко изучен вопрос применимости различных алгоритмов обнаружения выбросов. Точки данных моделируются с помощью стохастического распределения, и, тем самым, определяются как выбросы в зависимости от отношения с этой моделью. В то же время оценить с высокой точностью многомерное распределение точек данных не представляется возможным. Между тем, существуют алгоритмы, способные обнаруживать аномалии на полноразмерном расстоянии точек друг от друга при вычислении локальных плотностей окрестности [151].
Из всех известных и протестированных авторами [152] проведена комплексная оценка девятнадцати алгоритмов обнаружения аномалий, которые показали, что алгоритм локальных коэффициентов выброса наиболее точен в анализе аномалий. Данный алгоритм удовлетворяет задаче детектирования ранее неизвестных DDoS атак.
Do'stlaringiz bilan baham: |