uchun gaussian_clstr syujeti : indeks = bu erda (gauss_res == gauss_klaser)
# plot plot.scatter(poezd_ma'lumotlari[indeks, 0 ], poezd_ma'lumotlari[indeks, 1 ])
# syujetni ko'rsatish plot.show()
Gauss aralashmasi modeli algoritmi bilan olingan klasterlar Klasterlashning turli sohalarda qo'llanilishi
Klasterlash qo'llanilishi mumkin bo'lgan ba'zi domenlar:
Marketing : mijozlar segmentini aniqlash.
Kutubxona : mavzular va ma'lumotlar asosida turli xil kitoblarni klasterlash.
Biologiya : har xil turdagi o'simliklar va hayvonlarning tasnifi.
Shahar rejalashtirish : joylashuvga qarab uylarning qiymatini tahlil qiling.
Hujjatlarni tahlil qilish : turli tadqiqot ma'lumotlari va hujjatlarini ma'lum o'xshashliklarga ko'ra guruhlash mumkin. Katta hajmdagi ma'lumotlarni belgilash juda qiyin. Klasterlash bu holatlarda matnni klasterlash va uni turli toifalarga guruhlash uchun foydali bo'lishi mumkin. LDA kabi nazoratsiz usullar ham bu holatlarda katta korpusda yashirin mavzularni topish uchun foydalidir.
Nazoratsiz modellashtirish yondashuvi bilan bog'liq muammolar
Klasterlash usullarini qo'llashda siz duch kelishi mumkin bo'lgan ba'zi muammolar:
Natijalar aniqroq boʻlishi mumkin, chunki maʼlumotlar oldindan belgilanmagan va kiritilgan maʼlumotlar nomaʼlum.
Algoritmni o'rganish bosqichi ko'p vaqt talab qilishi mumkin, chunki u barcha imkoniyatlarni hisoblab chiqadi va tahlil qiladi.
Hech qanday oldindan ma'lumotga ega bo'lmagan holda, model xom ma'lumotlardan o'rganadi.
Xususiyatlarning soni ortishi bilan murakkablik oshadi.
Jonli ma'lumotni o'z ichiga olgan ba'zi loyihalar modelga uzluksiz ma'lumotlarni etkazib berishni talab qilishi mumkin, bu esa vaqt talab qiladigan va noto'g'ri natijalarga olib keladi.
Klasterlash algoritmlarini tanlashda e'tiborga olinadigan omillar
Keling, klasterlash algoritmlarini tanlashda e'tiborga olish kerak bo'lgan ba'zi omillarni ko'rib chiqaylik:
Ma'lumotlar to'plamida yaxshi miqyosda bo'lishi uchun klasterlash algoritmini tanlang. Hamma klasterlash algoritmlari ham samarali miqyosda emas. Mashinani o'rganishdagi ma'lumotlar to'plami millionlab misollarga ega bo'lishi mumkin.
Ko'pgina klasterlash algoritmlari barcha juftlik misollari orasidagi o'xshashliklarni hisoblash orqali ishlaydi. Murakkablik belgisida O(n^2) sifatida belgilangan n namunalar sonining ortishi bilan ish vaqti ortadi . Misollar soni millionlab bo'lsa, O(n ^ 2) amaliy emas. Bunda asosiy eʼtibor O(n) ga ega boʻlgan K-Means algoritmiga qaratiladi, yaʼni algoritm n bilan chiziqli ravishda oʻzgaradi .
Pythonda klasterlashning turli amaliy holatlari
1. Mijozlarni segmentatsiyalash
Ushbu algoritm qanday ishlashini ko'rib chiqish uchun mijozlar ma'lumotlaridan foydalanamiz. Ushbu misol mijozlarni bir necha guruhlarga bo'lish va mijozlar qiymatini va kompaniya daromadini oshirish uchun mijozlarni klasterlarda qanday guruhlashni hal qilishni maqsad qiladi. Ushbu foydalanish holati odatda mijozlar segmentatsiyasi sifatida tanilgan .
Ma'lumotlardagi ba'zi xususiyatlar mijozlarning identifikatori, jinsi, yoshi, daromadi (K$ da) va xarajatlarning xatti-harakati va tabiati asosida mijozlarning sarflagan ballaridir.
SHUNINGDEK O'QING Machine Learning yordamida mijozlar segmentatsiyasini amalga oshirish [Yangi boshlanuvchilar uchun qo'llanma]
Bog'liqlarni o'rnatish:
!pip install numpy pandas plotly seaborn scikit-learn