Mahalliy emissiya omillari algoritmi
Mahalliy emissiya omili algoritmi kontseptsiyasi mahalliy zichlikka asoslanadi [154]. Mahalliy zichlik k-eng yaqin qo'shnilar algoritmi yordamida aniqlanadi. Zichlik hisob-kitoblari tomonidan hisoblanadi
qo'shnilar orasidagi masofani hisoblash. Bir xil zichlikka ega bo'lgan maydonni aniqlash uchun obyektning mahalliy zichligini qo'shnilarining mahalliy zichligi bilan solishtirish kerak. Qo'shnilariga qaraganda pastroq zichlikka ega bo'lgan nuqtalar anomaliya sifatida aniqlanadi.
Emissiya koeffitsientini hisoblash uch bosqichda hisoblanadi [ ]:
K-har bir x yozuvi uchun eng yaqin qo'shnilar topilishi kerak.
Ushbu k-eng yaqin qo'shnilardan foydalanishNk, mahalliy qayd zichligi
mahalliy kirish zichligini hisoblash orqali baholanadi
𝐿𝐷𝑅 𝑘
(𝑥)= bitta
∑𝑜∈𝑁𝑘 𝑑𝑘(𝑥,𝑜)
, (2.26)
()
|𝑁𝑘(𝑥)|
bu erda 𝑑𝑘(𝑥, 𝑜) - ikkita obyekt 𝑥 va 𝑜 o'rtasidagi erishish mumkin bo'lgan masofa.
Chiqib ketish omilining bahosi yozuvning LRD ni uning k qo'shnisining LRD bilan solishtirish yo'li bilan hisoblanadi:
𝐿𝑂𝐹(𝑥) =
∑ 𝐿𝐷𝑅𝑘(𝑜)
𝑜∈𝑁𝑘𝐿𝐷𝑅𝑘(𝑥) . (2.27)
|𝑁 𝑘(𝑥)|
Bundan kelib chiqadiki, emissiya koeffitsientini baholash ko'rsatkichi ularning mahalliy zichligi nisbati hisoblanadi.
Shunday qilib, 𝐿𝑂𝐹 ≅ 1 uchun misol normal bo'ladi. Shu bilan birga, 𝐿𝑂𝐹 > 1 bo'lganda, namunalar past mahalliy zichlikka ega bo'ladi, bu namunaning anomalligini ko'rsatadi [153].
bashorat qiluvchiushbu algoritmning samaradorligi bevosita tanlangan giperparametrlarga bog'liq. Mahalliy o'zgaruvchan faktor algoritmi ikkita giperparametrdan foydalanadi: qo'shni o'lcham - 𝑘 va anomaliya bo'lgan nuqtalar - 𝑐. Ifloslanish kabi parametr ham qo'llaniladi - bu anomaliyalar sifatida belgilangan eng ajratilgan nuqtalarning nisbatini aniqlaydi. Mahalla kattaligi nuqta atrofidagi maydonni belgilaydi, bu mahalliy zichlikni hisoblashda hisobga olinadi [154]. Bu algoritmning asosiy qiyinligi shundaki, qo'shni 𝑘 hajmini oldindan bilish kerak. Odatiy bo'lib, klasterdagi qo'shnilar soni pastdan minimal bo'lishi kerak, shu bilan birga cheklangan
anomal bilan bog'liq bo'lgan yuqoridagi maksimal ball soni. Bunday holda, optimal qo'shni o'lchami aniqlanmagan.
Parametrlarni optimallashtirish uchun evristik usuligiperparametrlarni avtomatik sozlash [155].
Mayli
Xn
- 𝑛 ma'lumotlar nuqtalari to'plami bilan mashg'ulot ma'lumotlari,
x.
i
Agar 𝑝 katta bo'lsa, o'quv ma'lumotlarini oldindan qayta ishlash va uni kichikroq kichik bo'shliqqa loyihalash uchun o'lchamlarni kamaytirish usullaridan foydalanish kerak. Agar mashg'ulot ma'lumotlaridagi anomaliyaning nisbati ma'lum bo'lsa, biz buni qiymat sifatida ishlatishimiz mumkin
𝑐 va faqat mahalla oʻlchamini 𝑘 oʻzgartiring, aks holda 𝑘 va 𝑐 ham
𝐿𝑂𝐹 ga o'rnatilishi kerak edi.
Anomaliyalar oddiy nuqtalarga nisbatan pastroq mahalliy nisbiy zichlikka ega ekanligiga asoslanib, biz taxmin qilamiz
𝑐𝑛 - eng past mahalliy zichlikka ega nuqtalar - anomaliya sifatida taxmin qilinadi.
𝑘 va 𝑐 ni birgalikda sozlash uchun biz avval qiymatlar panjarasini aniqlaymiz
𝑘 va 𝑐 va har xil 𝑘 va 𝑐 sozlamalari bilan har bir mashgʻulot maʼlumotlari nuqtasi uchun oʻta yuqori bahoni hisoblang. Har bir juftlik uchun 𝑘
va 𝑐, ruxsat
Mc,k, chiqib
va Vc,k, chiqib
namunaviy o'rtachani belgilang va
prognoz qilingan anomaliya emissiya omillarining mahalliy qiymatlari uchun mos ravishda dispersiya. Shunga ko'ra, Mc,k ,in va Vc,k ,in ni bildiradi
bashorat qilingan normal nuqtalar uchun mos ravishda namunaviy o'rtacha va dispersiya (ularning tabiiy logarifmlari).
Har bir 𝑐 va 𝑘 juftligi uchun biz o'rtacha logarifmik mahalliy chegaradagi standartlashtirilgan farqni, bashorat qilingan anomaliyalar va normal nuqtalar o'rtasidagi omil omilini aniqlaymiz.
Tc,k
Mc,k ,outc,k ,in
.(2.28)
Optimal 𝑘 har bir sobit c uchun quyidagicha aniqlanadi
kc, optkTc,k. Agar 𝑐 apriori ma'lum bo'lsa, biz faqat topishimiz kerak
kc, opt
- bu
Buning uchun normadan tashqari va normal nuqtalar o'rtasidagi maksimal standartlashtirilgan farq 𝑐.
Keyin, 𝑐 oldindan ma'lum bo'lmagan vaziyatni ko'rib chiqing. Faraz qilaylik, har bir 𝑐 uchun logarifmik mahalliy chegara koeffitsienti qiymati o'rtacha qiymatga ega Gauss taqsimotining tasodifiy tanlanishini tashkil qiladi.
qiymat
c, chiqibva dispersiya
2
c, chiqib
, o'rtacha bilan
c,inva dispersiya
2
c,in
, uchun
mos ravishda chet va tasodifiy nuqta. Keyin berilgan 𝑐, Tc,k , quyidagi
markaziy bo'lmagan 𝑡- 2[cn]-2 erkinlik darajalari bilan taqsimlash va
nomarkazlik parametri. Keling, aniqlaymiz
copt
c
PZ
c,k ,out
; dfc
, ncpc
, (2.29)
bu erda tasodifiy o'zgaruvchi 𝑍 markaziy bo'lmagan taqsimotga to'g'ri keladi
dfcerkinlik darajalari va
ncpc
nomarkazlik parametri.
Shunday qilib, optimal 𝑐 qaerda bo'lsa
T
c,k
c, chiqib
eng kattasi hisoblanadi
boshqalarga nisbatan mos taqsimotda kvantil [155].
Do'stlaringiz bilan baham: |