Algoritm mahalliy koeffitsientlar chiqarish
Mahalliy emissiya omili algoritmi kontseptsiyasiga asoslanadi mahalliy zichlik [154]. Mahalliy zichlik yordamida aniqlanadi algoritm k -eng yaqin qo'shnilar. Reytinglar zichlik hisoblangan orqali
qo'shnilar orasidagi masofani hisoblash. Aniqlash uchun mintaqa dan xuddi shu zichlik, zarur solishtiring mahalliy zichlik qo'shnilarining mahalliy zichligi bilan ob'ekt. Kamroq ball zichlik, Qanday ular qo'shnilar, bo'ladi aniqlanishi Qanday anomaliyalar.
To'lov taxminlar koeffitsienti chiqarish hisoblangan ichida uch qadam [ ]:
K - eng yaqin qo'shnilar kerak bolmoq topildi uchun har biri yozuvlar x .
Foydalanish bular k -eng yaqin qo'shnilar N k , mahalliy zichlik yozuvlar
baholangan orqali hisob-kitoblar zichlik mahalliy erishish imkoniyati
𝐿𝐷𝑅 𝑘
( 𝑥 ) = 1
∑ 𝑜∈𝑁 𝑘 𝑑 𝑘 (𝑥,𝑜)
, (2.26)
( )
|𝑁𝑘 ( 𝑥)|
qayerda 𝑑 𝑘 (𝑥, 𝑜) - masofa erishish imkoniyati ikki o'rtasida ob'ektlar 𝑥 Va 𝑜 .
Baho koeffitsienti chiqarish hisoblangan orqali taqqoslashlar LRD yozuvlar dan LRD uni k qo'shnilar:
𝐿𝑂𝐹 ( 𝑥 ) =
∑ 𝐿𝐷𝑅 𝑘 (𝑜)
𝑜∈𝑁 𝑘 𝐿𝐷𝑅 𝑘 (𝑥) . (2.27)
| 𝑁 𝑘 (𝑥) |
Bundan kelib chiqadiki, emissiya faktorining taxmini munosabat ular mahalliy zichliklar.
Shunday qilib yo'l da 𝐿𝑂𝐹 ≅ bitta nusxa ko'chirish bo'ladi bo'l normal. IN keyin bir xil vaqt da 𝐿𝑂𝐹 > 1 nusxa bo'ladi bor past mahalliy zichlik, qaysi ko'rsatadi haqida misol anomaliyalari [153].
bashorat qiluvchi samaradorlik berilgan algoritm bevosita bog'liq dan tanlangan giperparametrlar. Algoritm mahalliy koeffitsientlar outliers ikkita giperparametrdan foydalanadi: qo'shni o'lcham - 𝑘 va nuqtalar anomaliyalar - 𝑐 . Shuningdek, u variantdan foydalanadi ifloslanish - bu belgilaydi nisbat maksimal izolyatsiya qilingan nuqtalar anomaliya sifatida aniqlanadi. Mahalla kattaligi hududni belgilaydi mahalliy zichlikni hisoblashda hisobga olinadigan nuqta atrofida [154]. Ushbu algoritmning asosiy qiyinligi - bu zarur mahallaning kattaligini oldindan bilib oling 𝑘 . Klasterdagi qo'shnilarning standart soni kerak bolmoq minimal pastki, ichida keyin bir xil vaqt cheklangan
maksimal miqdori ball yuqorida, bog'liq uchun g'ayritabiiy. IN berilgan hol optimal hajmi Turar joy dahasi emas belgilangan.
Parametrlarni optimallashtirish uchun evristik usul shakllantiriladi avtomatik giperparametr sozlamalari [155].
Bo'lsin
X R n p
- ma'lumotlar tayyorlamoq dan o'rnatish dan 𝑛 ball ma'lumotlar,
x R p .
i
Agar 𝑝 katta bo'lsa, mashg'ulot ma'lumotlarini oldindan qayta ishlash uchun va proyeksiya ular ichida pastki fazo kamroq hajmi kerak o'lchamlarni kamaytirish usullari qo'llaniladi. Agar anomaliyaning nisbati bo'lsa ichida tarbiyaviy ma'lumotlar ma'lum biz mumkin foydalanish bu Qanday ma'nosi uchun
𝑐 Va kuylash faqat hajmi Turar joy dahasi 𝑘 , ichida aks holda hol Va 𝑘 , Va 𝑐
bo'lishi kerak bo'lardi moslashtirilgan bo'lishi mumkin 𝐿𝑂𝐹 .
davom etmoqda dan Bormoq, nima anomaliyalar bor Ko'proq past mahalliy qarindosh zichlik yoqilgan solishtirish dan normal nuqtalar, ishon nima
𝑐𝑛 - ball dan kamida mahalliy zichlik - bashorat qilinadi Qanday anomaliyalar.
Kimga birgalikda kuylash 𝑘 Va 𝑐 , boshida aniqlash panjara qiymatlar uchun
𝑘 Va 𝑐 Va hisoblash baholash koeffitsienti chiqarish uchun har biri ball trening ma'lumotlar da har xil sozlamalar 𝑘 Va 𝑐 . Uchun har biri juftliklar 𝑘
Va 𝑐 , bo'lsin
M c , k , chiqib
va V c , k , chiqib
tayinlash selektiv o'rtacha ma'nosi Va
dispersiya, mos ravishda, uchun mahalliy qiymatlar koeffitsientlar emissiyalar bashorat qilish mumkin anomaliyalar. Mos ravishda, M c , k , ichida Va V c , k , ichida tayinlash
o'rtacha ma'nosi namunalar Va dispersiya (ular tabiiy logarifmlar), mos ravishda, uchun prognoz qilingan normal nuqtalar.
Har bir 𝑐 va 𝑘 juftligi uchun biz standartlashtirilgan farqni aniqlaymiz o'rtacha logarifmik mahalliy chegara, omil omili orasidagi bashorat qilish mumkin anomaliyalar Va normal kabi nuqtalar
T c , k
M c , k , chiqib M c , k , ichida
. (2,28)
Har bir sobit c uchun optimal 𝑘 quyidagicha aniqlanadi
k c , opt arg maksimal k T c , k . Agar 𝑐 ma'lum a priori, BIZ zarur topmoq faqat
k c , opt
- bu
maksimal standartlashtirilgan farq orasida emissiyalar Va Buning uchun normal nuqtalar 𝑐 .
Keyinchalik ko'rib chiqing sodir bo'layotgan, qachon 𝑐 emas ma'lum oldindan. Faraz qilaylik nima uchun hamma 𝑐 , ma'nosi logarifmik koeffitsienti mahalliy chiqarish shakl tasodifiy namuna olish tarqatish Gauss co o'rta
qiymat
c , tashqariga Va dispersiya
2
c , tashqariga
, co o'rta
, _ ichida Va dispersiya
2
c , ichida
, uchun
chiqarish Va tasodifiy ball, mos ravishda. Keyin, O'ylab 𝑐 , T c , k , quyidagi
nomarkaziy 𝑡 -erkinlik darajasi 2[cn]-2 va bo'lgan taqsimot
parametr markazsizlik. Keling, aniqlaymiz
c opt
arg maks c
P Z T
c , k , chiqib
; df c
, ncp c
, (2.29)
qayerda tasodifiy kattalik 𝑍 mos keladi markaziy bo'lmagan 𝑇 - tarqatish dan
df c daraja erkinlik Va
ncp c
parametr markazsizlik.
Shunday qilib yo'l optimal 𝑐 - bu bu, qayerda
T
c,k
c , chiqib
hisoblanadi eng buyuk
miqdoriy ichida muvofiq tarqatish solishtirildi dan boshqalar [155].
Do'stlaringiz bilan baham: |