Mavzu: KNN algorithm
Reja
1.K-Yaqin qo'shnilar algoritmi bilan mashinani o'rganish asoslar
2. K-Eng yaqin qo'shnilar
3. K uchun to'g'ri qiymatni tanlash
K-yaqin qo'shnilar (KNN) algoritmi oddiy, amalga oshirish oson, nazorat qilinadigan mashinani o'rganish algoritmi bo'lib, u tasniflash va regressiya muammolarini hal qilish uchun ishlatilishi mumkin. Pauza! Keling, buni ochaylik. Uni buzish
Nazorat qilinadigan mashinani o'rganish algoritmi (nazorat qilinmagan mashinani o'rganish algoritmidan farqli o'laroq) yangi yorliqsiz ma'lumotlar berilganda tegishli chiqishni ishlab chiqaradigan funktsiyani o'rganish uchun etiketli kirish ma'lumotlariga tayanadigan algoritmdir.
Tasavvur qiling-a, kompyuter bola, biz uning nazoratchisimiz (masalan, ota-ona, vasiy yoki o'qituvchi) va biz bola (kompyuter) cho'chqa qanday ko'rinishini bilishini xohlaymiz. Biz bolaga bir nechta turli xil rasmlarni ko'rsatamiz, ularning ba'zilari cho'chqalar, qolganlari esa har qanday rasmlar (mushuklar, itlar va boshqalar) bo'lishi mumkin.
Biz cho'chqani ko'rganimizda, biz "cho'chqa!" Bu cho'chqa bo'lmaganida, biz "yo'q, cho'chqa emas!" deb baqiramiz. Buni bola bilan bir necha marta qilgandan so'ng, biz ularga rasmni ko'rsatamiz va "cho'chqami?" va ular to'g'ri (ko'pincha) "cho'chqa!" Deyishadi. yoki "yo'q, cho'chqa emas!" rasm nima ekanligiga bog'liq. Bu boshqariladigan mashinani o'rganish.
Tasniflash muammosi chiqishi sifatida diskret qiymatga ega . Misol uchun, "pitsadagi ananasni yoqtiradi" va "pitsadagi ananasni yoqtirmaydi" diskretdir. Hech qanday o'rta joy yo'q. Bolaga cho'chqani aniqlashga o'rgatishning yuqoridagi o'xshashligi tasniflash muammosining yana bir misolidir.
Tasodifiy yaratilgan ma'lumotlarni ko'rsatadigan rasm
Ushbu rasm tasniflash ma'lumotlari qanday ko'rinishi mumkinligiga asosiy misolni ko'rsatadi. Bizda bashoratchi (yoki bashorat qiluvchilar to'plami) va yorliq mavjud. Tasvirda biz kimdir pitsadagi ananasni (1) yoqtiradimi yoki yo'qmi (0) yoshiga qarab (bashoratchi) taxmin qilishga urinayotgan bo'lishimiz mumkin.
Tasniflash algoritmining chiqishini (yorlig'ini) 1, -1 yoki 0 kabi butun son sifatida ko'rsatish odatiy amaliyotdir. Bunday holda, bu raqamlar faqat vakillik hisoblanadi. Ularda matematik operatsiyalar bajarilmasligi kerak, chunki bunday qilish ma'nosiz bo'ladi. Bir zum o'ylab ko'ring. "Ananasni yoqtiradi" + "ananasni yoqtirmaydi" nima? Aynan. Biz ularni qo'sha olmaymiz, shuning uchun ularning raqamli ko'rinishlarini qo'shmasligimiz kerak.
Regressiya muammosi chiqishi sifatida haqiqiy songa (o'nli kasrli raqam) ega. Misol uchun, biz quyidagi jadvaldagi ma'lumotlardan kimningdir bo'yi bo'yicha vaznini baholash uchun foydalanishimiz mumkin.
SOCR balandligi va vazni maʼlumotlar toʻplamining bir qismini koʻrsatadigan rasm
Regressiya tahlilida ishlatiladigan ma'lumotlar yuqoridagi rasmda ko'rsatilgan ma'lumotlarga o'xshash bo'ladi. Bizda mustaqil o'zgaruvchi (yoki mustaqil o'zgaruvchilar to'plami) va qaram o'zgaruvchi (mustaqil o'zgaruvchilarni hisobga olgan holda biz taxmin qilmoqchi bo'lgan narsa) bor. Masalan, bo'yni mustaqil o'zgaruvchi, vazn esa qaram o'zgaruvchi deb aytishimiz mumkin.
Bundan tashqari, har bir satr odatda misol, kuzatish yoki maʼlumotlar nuqtasi deb ataladi , har bir ustun (yorliq/qaram oʻzgaruvchini oʻz ichiga olmaydi) koʻpincha bashoratchi, oʻlcham, mustaqil oʻzgaruvchi yoki xususiyat deb ataladi.
Nazorat qilinmagan mashinani o'rganish algoritmi kirish ma'lumotlaridan hech qanday yorliqsiz foydalanadi - boshqacha qilib aytganda, hech qanday o'qituvchi (yorliq) bolaga (kompyuterga) qachon to'g'ri ekanligini yoki qachon xato qilganligini aytmaydi, shunda u o'zini o'zi tuzatishi mumkin.
Ba'zi yangi yorliqsiz ma'lumotlar asosida bashorat qilishimizga imkon beradigan funktsiyani o'rganishga harakat qiladigan nazorat ostida o'rganishdan farqli o'laroq, nazoratsiz o'rganish bizga ma'lumotlar haqida ko'proq tushuncha berish uchun ma'lumotlarning asosiy tuzilishini o'rganishga harakat qiladi.
Do'stlaringiz bilan baham: |