- Agar xususiyat qiymatlari uzluksiz bo'lsa, u holda Evklid masofasi odatda ob'ektlar orasidagi masofaning o'lchovi sifatida ishlatiladi va agar u kategorik bo'lsa, Xemming masofasidan foydalanish mumkin.
- KNN algoritmi o'quv ma'lumotlaridagi sinf nomutanosibligiga sezgir: algoritm qarorni dominant sinfga yo'naltirishga "moyil", chunki unga tegishli ob'ektlar eng yaqin qo'shnilar orasida ko'proq bo'ladi. “Ovoz berish” paytida turli xil tortish usullaridan foydalanish bu muammoni hal qilish yo'llaridan biridir.
Shuni ta'kidlash kerakki, qo'shnichilik munosabatlari kommutativ emas, ya'ni agar B yozuvining eng yaqin qo'shnisi A yozuvi bo'lsa, bu B A ning eng yaqin qo'shnisi ekanligini anglatmaydi. Bu holat 2-rasmda ko'rsatilgan. - Shuni ta'kidlash kerakki, qo'shnichilik munosabatlari kommutativ emas, ya'ni agar B yozuvining eng yaqin qo'shnisi A yozuvi bo'lsa, bu B A ning eng yaqin qo'shnisi ekanligini anglatmaydi. Bu holat 2-rasmda ko'rsatilgan.
2-rasm - k=1 bo'lganda, B nuqta uchun eng yaqin nuqta A nuqta, A nuqta uchun C nuqta bo'ladi. Koeffitsient k=7 ga oshsa ham, B nuqta A ning qo'shnilari orasida bo'lmaydi.
KNN algoritmining yana bir muammosi, ammo ko'pchilik tasniflash usullari uchun odatiy bo'lib, ob'ektlar sinfini aniqlash nuqtai nazaridan xususiyatlarning turli xil ahamiyati hisoblanadi. Algoritmdagi xususiyatning ahamiyatlilik omilini hisobga olgan holda tasniflash aniqligini oshirish mumkin. - KNN algoritmining yana bir muammosi, ammo ko'pchilik tasniflash usullari uchun odatiy bo'lib, ob'ektlar sinfini aniqlash nuqtai nazaridan xususiyatlarning turli xil ahamiyati hisoblanadi. Algoritmdagi xususiyatning ahamiyatlilik omilini hisobga olgan holda tasniflash aniqligini oshirish mumkin.
- Buning uchun tahlilchi yoki ekspert sub'ektiv yoki qandaydir rasmiy bahoga asoslanib, uni raqamli koeffitsient yordamida ifodalab, uning ahamiyatlilik darajasini belgilashi mumkin (biz uni inglizchadan s bilan belgilaymiz significance - ahamiyatlilik). Misollar va tasniflanadigan ob'ekt orasidagi masofani hisoblashda hisobga olinadi:
- bu yerda - -xususiyatlar uchun ahamiyatlilik koeffitsienti, - dastlabki ma'lumotlar to'plamidagi xususiyatlar soni. Ushbu uslub o'qlarni cho'zish deb ataladi va u misoldan tasniflanadigan ob'ektgacha bo'lgan masofani hisoblashda xususiyatning hissasini oshirish yoki kamaytirish imkonini beradi. Agar bo'lsa, tegishli atribut tufayli tasniflanayotgan ob'ekt misoli orasidagi masofa ortadi va sinfni aniqlashga hissasi kamayadi, agar bo'lsa, aksincha.
Do'stlaringiz bilan baham: |