Алгоритм локальных коэффициентов выброса
Концепция алгоритма локального коэффициента выброса основана на локальной плотности [154]. Локальная плотность определяется с помощью алгоритма k-ближайших соседей. Оценки плотности рассчитываются путем
вычисления расстояния между соседями. Для того, чтобы идентифицировать область с одинаковой плотностью, необходимо сравнить локальную плотность объекта с локальными плотностями его соседей. Точки, имеющие меньшую плотность, чем их соседи, будут детектироваться как аномалии.
Расчет оценки коэффициента выброса рассчитывается в три шага [ ]:
K-ближайших соседей должны быть найдены для каждой записи х.
Используя эти k-ближайших соседей Nk , локальная плотность записи
оценивается путем вычисления плотности локальной достижимости
𝐿𝐷𝑅 𝑘
(𝑥 ) = 1
∑ 𝑜∈𝑁𝑘 𝑑 𝑘(𝑥,𝑜)
, (2.26)
( )
|𝑁 𝑘(𝑥)|
где 𝑑 𝑘(𝑥, 𝑜) – расстояние достижимости между двумя объектами 𝑥 и 𝑜.
Оценка коэффициента выброса вычисляется путем сравнения LRD записи с LRD ее k соседей:
𝐿𝑂𝐹(𝑥) =
∑ 𝐿𝐷𝑅 𝑘(𝑜)
𝑜∈𝑁𝑘 𝐿𝐷𝑅𝑘(𝑥). (2.27)
|𝑁 𝑘(𝑥) |
Из этого следует, что показатель оценки коэффициента выброса является отношением их локальных плотностей.
Таким образом, при 𝐿𝑂𝐹 ≅ 1 экземпляр будет являться нормальным. В то же время при 𝐿𝑂𝐹 > 1 экземпляры будут иметь низкую локальную плотность, что свидетельствует об аномальности экземпляра [153].
Прогностическая эффективность данного алгоритма напрямую зависит от подобранных гиперпараметров. Алгоритм локальных коэффициентов выбросов использует два гиперпараметра: размер окрестности - 𝑘 и точки, которые являются аномалиями - 𝑐. Также используется такой параметр, как загрязнение - оно определяет соотношение максимально изолированных точек, определённых как аномалии. Размер окрестности определяет область вокруг точки, которую учитывают при расчете локальной плотности [154]. Главная трудность данного алгоритма заключается в том, что необходимо заранее знать размер окрестности 𝑘. По умолчанию число соседей в кластере должно быть минимальным снизу, в то же время ограниченным
максимальным количеством точек сверху, относящихся к аномальным. В данном случае оптимальный размер соседства не определен.
Для оптимизации параметров сформирован эвристический метод автоматической настройки гиперпараметров [155].
Пусть
X Rn p
- данные тренировки с набором из 𝑛 точек данных,
x R p .
i
Если 𝑝 большое, для предварительной обработки обучающих данных и проецирования их в подпространство меньшего размера должны использоваться методы уменьшения размерности. Если пропорция аномалии в обучающие данные известна, мы можем использовать это как значение для
𝑐 и настроить только размер окрестности 𝑘, в противном случае и 𝑘, и 𝑐
должны были бы быть настроены в 𝐿𝑂𝐹.
Исходя из того, что аномалии имеют более низкую локальную относительную плотность по сравнению с нормальными точками, считаем, что
𝑐𝑛 - точки с наименьшей локальной плотностью - прогнозируются как аномалии.
Чтобы совместно настроить 𝑘 и 𝑐, сначала определим сетку значений для
𝑘 и 𝑐 и вычислим оценку коэффициента выброса для каждой точки тренировочных данных при различных настройках 𝑘 и 𝑐. Для каждой пары 𝑘
и 𝑐, пусть
Mc,k ,out
и Vc,k ,out
обозначают выборочное среднее значение и
дисперсию, соответственно, для локальных значений коэффициентов выбросов прогнозируемой аномалии. Соответственно, Mc,k ,in и Vc,k ,in обозначают
среднее значение выборки и дисперсию (их натуральные логарифмы), соответственно, для прогнозируемых нормальных точек.
Для каждой пары 𝑐 и 𝑘 мы определяем стандартизированную разницу в среднем логарифмическом локальном выбросе, коэффициент фактора между прогнозируемыми аномалиями и нормальными точками как
Tc,k
Mc,k ,out Mc,k ,in
. (2.28)
Оптимальное 𝑘 для каждого фиксированного c определяется как
kc,opt arg maxk Tc,k . Если 𝑐 известен априори, нам нужно найти только
kc,opt
– это
максимальная стандартизированная разница между выбросами и нормальными точками для этого 𝑐.
Далее рассмотрим случай, когда 𝑐 не известен заранее. Предположим, что для каждого 𝑐, значение логарифмического коэффициента локального выброса образуют случайную выборку распределения Гаусса со средним
значением
c,out и дисперсией
2
c,out
, со средним
c,in и дисперсией
2
c,in
, для
выброса и случайной точки, соответственно. Тогда, учитывая 𝑐, Tc,k , следуя
нецентральному 𝑡-распределению со степенями свободы 2[cn] - 2 и
параметром нецентральности. Определим
copt
arg max c
P Z T
c,k ,out
; dfc
, ncpc
, (2.29)
где случайная величина 𝑍 соответствует нецентральному 𝑇-распределению с
dfc степенями свободы и
ncpc
параметром нецентральности.
Таким образом, оптимальный 𝑐 – это тот, где
T
c,k
c ,out
является наибольшим
квантилем в соответствующем распределении по сравнению с другими [155].
Do'stlaringiz bilan baham: |