Bog'liq Axborotni himoyalashni intellektual tizimlari
MIT asosiy algoritmlari
O’qitish toifasi
Algoritmlar
O’qituvchisiz o’qitish
k-o’rtachalar usuli
Asosiy komponentalar usuli
Birlashma qoidalar
Ijtimoiy aloqalar tahlili
O’qituvchi bilan o’qitish
Regression tahlil
k-yaqin qo’shnilar usuli
Tayanch vektorlar usuli
Yechimlar daraxti
Tasodifiy o’rmonlar
Neyron tarmoqlar
Biriktirish bilan o’qitish
Ko’p qo’lli bezorilar
Vazifa: ma’lumotlarda qonuniyatlarni topish.
O’qitish usuli: o’qituvchisiz.
Tahlillanuvchi ma’lumotlar to’g’risida qandaydir dastlabki bilimlarsiz ma’lumotlar to’plamida yashirin qonuniyatlarni aniqlash talab qilinganda o’qituvchisiz o’qitish algoritmlaridan foydalanish mumkin. Qanday qonuniyatlarni qidirishni bilmaganimizda va qidirishni algoritmni o’ziga yuklanadigan algoritmlar shunday nomlanadi (5-jadval).
O’qituvchisiz o’qitishni asosiy algoritmlarini ko’rib chiqamiz.
k-o’rtachalar usuli. Ma’lumotlarni mos elementlari soni k teng bo’lgan guruhlarga birlashadi. k-o’rtachalar usuli quyidagi tarzda klasterizatsiyani amalga oshiradi.
Ma’lumotlar ajratilishi kerak bo’lgan guruhlar soni (k) belgilanadi. Tasodifiy tazda klasterlarni dastlabki markazi sifatida joriy to’plam k obyektlar tanlanadi (sentroidlar).
Ahr bir kuzatish eng yaqin sentroid bo’yicha ma’lum guruhlarga taalluqli, ya’ni ular orasidagi masofani minimallashtirishni asosiy me’zonlari (odatda Evklid masofa foydalaniladi).
Barcha klasterlar sentroidlarni koordnitalari sanab o’tiladi (odatda o’rtacha qiymat kabi hisoblanadi) va guruh ichidagi tarqlishlar hisoblanadi (within-cluster variation).
Umumiy ichkaridagi tarqalishlarni minimallashtiriladi, bunda 2 va 3-qadamlar obyektlar guruhlarga taqsimlanmaguncha yoki berilgan iteratsiya soniga yetilmaguncha ko’p marta qaytariladi.
k-o’rtachalar usuli juda sodda va samarali algoritm bo’lishiga qaramasdan ikkita sezilarli muammoga ega. Birinchidan, oxirgi natijalar guruh markazlarini boshlang’ich tasodifiy tanloviga sezilarli. Bu muammoning yechimi boshlang’ich sentroidlarni turlicha tasodifiy tarzda belgilash va natijalarni taqqoslash bilan algoritmni ko’p marta bajarilishidan iborat. Ikkinchi muammo – ajratish uchun k klasterlarni aniq sonini berish zaruratidadir. k sonini optimal tanlovi “tirsak” usulidan foydalanish yoki Monte-Karlo imitatsion modeli asosida generatsiyalanadigan ajratish statistikasi (gap statistic) yordamida imkonlidir.
O’qituvchisiz o’qitish algoritmlari