Bog'liq Dasturiy injiniring” kafedrasi s. N. Iskandarova ma’lumotlarga d
2.Klasterlash muammosining rasmiy bayoni Quyidagi xususiyatlarga ega ma'lumotlar to'plami berilgan:
ma'lumotlarning har bir nusxasi aniq raqamli qiymat bilan ifodalanadi;
har qanday alohida ma'lumotlar namunasi uchun sinf noma'lum.
Toping:
ma'lumotlarni bir-biri bilan taqqoslash usuli (o'xshashlik o'lchovi);
klasterlash usuli;
ma'lumotlarni klasterlarga bo'lish.
Rasmiy ravishda klasterlash muammosi quyidagicha tavsiflanadi.
Ma'lumotlar ob'ektlari to'plami berilgan , ularning har biri atributlar to'plami bilan ifodalanadi. Biz Klaster majmuini qurish kerak va bir xaritalash to'plamidir ko'p , deb. E. hisoblanadi . Xaritalash muammoning echimi bo'lgan ma'lumotlar modelini belgilaydi. Muammoni hal qilish sifati to'g'ri tasniflangan ma'lumotlar ob'ektlarining soni bilan belgilanadi. O'rnatilgan bo'ladi quyidagicha belgilangan:
o'rganilayotgan ob'ekt qayerda .
Bunday to'plamga misol sifatida 30-yillarning o'rtalarida irislar haqidagi ma'lumotlar to'plami bo'lishi mumkin. o'tgan asrda mashhur statistik RA Fisher ishlagan (bu ma'lumotlar ko'pincha Fisherning irislari deb ataladi). U irislarning uchta sinfini ko'rib chiqdi: Iris setosa, Iris versicolor va Iris virginica. Ularning har biri uchun to'rtta parametrning turli qiymatlari bilan 50 nusxa taqdim etildi:
sepal uzunligi va kengligi, gulbarg uzunligi va kengligi. Jadval 4.1 har bir sinf uchun beshta namuna uchun ma'lumotlarni taqdim etadi.
4.1-jadval.
Ob'ektlarning har biri bir qator parametrlar bilan tavsiflanadi:
Irislar misolida, yuqorida aytib o'tilganidek, bunday parametrlar mavjud
sepal uzunligi va kengligi, gulbarg uzunligi va kengligi. Har bir o'zgaruvchi ma'lum bir to'plamdan qiymatlarni olishi mumkin:
Ushbu misolda qiymatlar haqiqiy sonlardir.
Klasterlashning vazifasi to'plamni yaratishdir:
Bu to'plamdagi o'xshash ob'ektlarni o'z ichiga olgan klaster :
bu yerda - ob'ektlarni bitta klasterga kiritish uchun yaqinlik o'lchovini belgilaydigan qiymat; - ob'ektlar orasidagi yaqinlik o'lchovi, masofa deb ataladi. Agar quyidagi shartlar bajarilsa, manfiy bo'lmagan qiymat elementlar orasidagi masofa deb ataladi :
Agar masofa s ning ma'lum qiymatidan kichik bo'lsa, u holda elementlar yaqin deyiladi va bir klasterga joylashtiriladi. Aks holda, elementlar bir-biridan farq qiladi va ular turli klasterlarga joylashtiriladi. Klasterlash muammosini hal qilish uchun eng mashhur algoritmlar kirish ma'lumotlar formati sifatida farq matritsasidan foydalanadi . Matritsaning satrlari va ustunlari to'plam elementlariga mos keladi . Matritsaning elementlari satr va ustundagi qiymatlardir . Shubhasiz, asosiy diagonaldagi qiymatlar nolga teng bo'ladi:
Aksariyat algoritmlar simmetrik matritsalar bilan ishlaydi. Agar matritsa assimetrik bo'lsa, uni quyidagi o'zgartirish orqali nosimmetrik shaklga keltirish mumkin: