Unsupervised learning
O’qituvchisiz o’qitish (unsupervised learning)–bu mashinani o’qitish usulidan biri bo’lib, bunda modelni oldindan aniq bo’lgan ma’lumotlar bilan o’qitish amalga oshirilmaydi, aksincha obyekt parametrlarini (ma'lumotlarni) topish uchun modelga o'z ustida ishlashga imkon yaratib beriladi.
•Supervised learning usuliga qaraganda murakkab usul hisoblanadi va bashoratlash jarayoni avtomatik lekin noaniqroq bo’lishi mumkin.
•Unsupervised learning usulida asosan“ klasterlash” masalasi yechiladi.
Unsupervised learning turlari
-Clustering
–Hierarchical clustering
–K-means clustering
–Principal Component Analysis
–Singular Value Decomposition
–Independent Component Analysis
49
|
Regressiya nima?
|
|
Regressiya–bu ma’lumoatlarni intellektual tahlil qilish usullaridan biri bo’lib, obyekt yoki jarayonga tegishli o'zgaruvchilar o'rtasidagi o'zaro bog'liqlikni baholash uchun statistik jarayonlar to'plami hisoblanadi.
•Regression tahlil chiziqli yoki nochiziqli,o’z navbatida logistic regressiya usullari asosida amalga oshiriladi.
|
50
|
Regression tahlilda bashorat qilish jarayonini misolar yordamida yoritib bering.
|
|
Regression tahlil asosan bashorat qilish uchun keng qo'llaniladi va hozirda ushbu usulning ishlatilishi mashinani o’qitish sohasi bilan sezilarli darajada mos keladi .
Regressiya tahlili - bu bitta bog'liq (mezon) o'zgaruvchi va bir yoki bir nechta mustaqil
(bashoratchi) o'zgaruvchilar o'rtasidagi munosabatni aniqlashning statistik usuli.
Misol: Doktor 50 ta bemorning bo’yi va vaznini qayd qilib, ma’lumotlar to’plami tuzdi. To’plangan ma’lumotlar bashorat qiluvchi o'zgaruvchi sifatida "vazn" va javob o'zgaruvchisi sifatida "bo’y" dan foydalangan holda oddiy chiziqli regressiya modeliga mos keladi va quyidagi ko’rinishda regressiya modelini tashkil qildi:
Ybo’y= k* xvazn
|
51
|
O‘qituvchili o‘qitish (Supervised learning) algoritmlaridan chiziqli regressiyani kengroq yoritib bering.
|
|
Chiziqli regressiya mashinani o’qitishda eng mashhur va eng sodda algoritmlardan biridir. Chiziqli regressiya modelida biz chiziqni ma'lumotlar to'plamining barcha nuqtalaridan minimal masofaga ega bo'lgan tarzda moslashtirishga harakat qilamiz. Ma'lumotlarning barcha nuqtalaridan minimal masofaga ega bo'lgan to'g'ri chiziqni aniqlaymiz, ya’ni, kirish o'zgaruvchilari (x) va bitta chiqish o'zgaruvchisi (y) o'rtasidagi chiziqli munosabatni nazarda tutadigan chiziqli model hisoblanadi. Chiziqli regressiyaning maqsadi chiziqli modelni iloji boricha kamroq xatolik bilan ilgari Data Setda berilmagan x qiymat berilgan vaqtda, unga mos bo’lgan yangi y ni bashorat qilishga o'rgatishdir. Bunda yuqoridagi topilgan to’g’ri chiziqdan foydalaniladi.
Afzalliklari nuqtai nazaridan chiziqli regressiyani tushunish va izohlash oson, ko'p sinfli tasniflar uchun ham foydalanish mumkin.
Biroq, bashorat qilingan va bashorat qiluvchi o'zgaruvchilar o'rtasida chiziqli bo'lmagan munosabatlar mavjud bo'lganda, u yaxshi ishlamasligi mumkin hamda to'g'ri xususiyatni tanlash talab qilinadi.
|
52
|
O‘qituvchili o‘qitish (Supervised learning) K-NN (K Nearest Neighbors) algoritmini yoritib bering.
|
|
K ta eng yaqin qo'shnilar tasniflash va regressiya uchun parametrik bo'lmagan yondashuv. Bu mashinani o’qitish uchun ishlatiladigan eng oddiy usullardan biridir. KNN dangasa model hisoblanadi, chunki bu modelda o'rganish talab etilmaydi.
KNNning asosiy mantig'i sizning qo'shningizni o'rganish, ularni sinov ma'lumotlari nuqtasi bilan solishtirish mumkin deb taxmin qilish va natijani chiqarishdir. Biz KNNda k qo'shnilarni qidiramiz va prognoz qilamiz. KNN tasnifida ko'plik ovozi eng yaqin k ma'lumot nuqtasi uchun ishlatiladi, shu bilan birga k eng yaqin ma'lumotlar nuqtasining o'rtacha qiymati KNN regressiyasida chiqish sifatida hisoblanadi. Qoida tariqasida toq sonlarni k sifatida tanlaymiz. KNN - bu sekin o'rganish modeli bo'lib, unda hisoblashda yagona ish vaqti mavjud.
Foydasi: Mashinani o'rganishning tez va sodda modeli.
Kamchiliklari:k ni oqilona tanlash kerak, namuna hajmi katta bo'lsa, ish vaqti uzoqqa cho’ziladi
|
53
|
O‘qituvchili o‘qitish (Supervised learning) Support Vector Machine (SVM) algoritmini yoritib bering.
|
|
Tasniflash va regressiya uchun ishlatilishi mumkin bo'lgan ML texnikasining bir turi bu SVM algoritmidir. SVM bu nazorat ostidagi oʻquv vositasi boʻlib, matn tasnifi, tasvirlar tasnifi, bioinformatika va hokazolarda keng qoʻllaniladi. SVMlar boshqa tasniflash algoritmlaridan farq qiladi, chunki ular barcha sinflarning eng yaqin ma'lumotlar nuqtalaridan masofani maksimal darajada oshiradigan qaror chegarasini tanlash usulidir. SVMlar tomonidan yaratilgan qaror chegarasi maksimal chegara tasniflagichi yoki maksimal chegara giper tekisligi deb ataladi. Oddiy chiziqli SVM tasniflagichi ikkita sinf o'rtasida to'g'ri chiziq hosil qilish orqali ishlaydi. Chiziqli SVM algoritmini k-eng yaqin qo'shnilar kabi ba'zi boshqa algoritmlardan yaxshiroq qiladigan narsa shundaki, u sizning ma'lumotlar nuqtalaringizni tasniflash uchun eng yaxshi chiziqni tanlaydi.
Ikki xil turdagi SVM mavjud bo'lib, ularning har biri har xil narsalar uchun ishlatiladi:
Oddiy SVM: Odatda chiziqli regressiya va tasniflash muammolari uchun ishlatiladi.
Kernel SVM: chiziqli bo'lmagan ma'lumotlar uchun ko'proq moslashuvchanlikka ega, chunki siz ikki o'lchovli bo'shliq o'rniga giperplanga moslashish uchun qo'shimcha funktsiyalarni qo'shishingiz mumkin.
|
54
|
Ma’lumotlarning intellektual tahlilida ma’lumotlar to’plami (Data set) nima maqsadida hosil qilinadi?
|
|
Mashinani o'rganish uchun ma'lumotlar to'plami jadval shaklida tuzilgan va qayta ishlanadigan ma'lumotlardir. Bunday jadvalning satrlari obyektlar, ustunlari esa xususiyatlar deyiladi.
Ma'lumotlar to'plami tizimni o'rgatish va undan keyin haqiqiy muammolarni hal qilish uchun foydalaniladi. Sodda qilib aytganda, biz ma'lumotlar to'plami mashinani o'rganish modeli uchun oziq-ovqat degan xulosaga kelishimiz mumkin.
|
55
|
Ma’lumotlarning intellektual tahlilida modeilni o‘qitish jarayonida ma’lumotlar to’plami (Data set) qanday qismlarga ajratiladi va ularning ahamiyati nimada?
|
|
Ma’lumotlarning intellektual tahlilida modelni o’rgatish jarayonida ma’lumotlar to’plami (Data set)ni biz 3 ta qismga ajratamiz, ular "Training set", "Validation set " va "Testing set".
Bunda biz klassifikatorni "Training set" yordamida o'rgatamiz, "Validation set" yordamida parametrlarni sozlaymiz va keyin "Testing set" da klassifikatorimizning ishlashini sinab ko'ramiz. Ta'kidlash kerak bo'lgan muhim jihat shundaki, o’qitish davomida faqat "Training set" va "Validation set" dan foydalaniladi. "Testing set"dan esa klassifikatorni o'qitishda foydalanmaslik kerak. "Testing set" faqat tasniflagichni sinovdan o'tkazish paytida qo’llaniladi.
|
56
|
Ma’lumotlarga dastlabki ishlov berishda ma’lumot formati qanday ahamiyatga ega?
|
|
Modelni o'qitish uchun ma'lumotlar to'plamidan foydalanishdan oldin ma'lumotlarni
qayta ishlash va tozalash amalga oshirilishi kerak. Xom ma'lumotlar ko'pincha noto'g'ri
va ishonchsizdir va qiymatlarni nixda o'tkazib yuborish mumkin. Modellashtirishda
bunday ma'lumotlardan foydalanish noto'g'ri natijalarga olib kelishi mumkin. Ushbu
vazifalar jamoaning ma'lumotlarni qayta ishlash va tahlil qilish jarayonining bir qismi
bo'lib, odatda kerakli dastlabki ishlov berishni aniqlash va rejalashtirish uchun
foydalaniladigan ma'lumotlar to'plamini dastlabki tekshirishni o'z ichiga oladi.
|
57
|
Ma’lumotlarga dastlabki ishlov berishda ma'lumotlarni tozalash qanday ahamiyatga ega?
|
|
Ma'lumotlar juda ko'p ahamiyatsiz va yetishmayotgan qismlarga ega bo'lishi mumkin. Ushbu qismni boshqarish uchun ma'lumotlarni tozalash amalga oshiriladi. Bu yetishmayotgan ma'lumotla shovqinli ma'lumotlar va boshqalar bilan ishlashni o'z ichiga oladi. Haqiqiy ma'lumotlar turli manbalar va jarayonlardan keyingi qayta ishlash uchun to'planadi. Ularda ma'lumotlar to'plamining sifatiga salbiy ta'sir ko'rsatadigan xatolar va buzilishlar bo'lishi mumkin. Bu erda ma'lumotlar sifati bilan bog'liq odatiy muammolar mavjud:
Tugallanmagan: maʼlumotlarda atributlar yoʻq yoki qiymatlar yoʻq.
Shovqin: Ma'lumotlarda noto'g'ri yozuvlar yoki chetlab o'tishlar mavjud.
Mos kelmaslik: Ma'lumotlarda ziddiyatli yozuvlar yoki nomuvofiqliklar mavjud.
Yaxshi ma'lumotlar yaxshi bashoratli modellarni yaratish uchun zaruriy shartdir. “Axlat
ichkarida, chiqindidan tashqarida” vaziyatining oldini olish va ma'lumotlar sifatini va
natijada model samaradorligini oshirish uchun ma'lumotlarning sog'lig'ini kuzatib borish,
muammolarni imkon qadar tezroq aniqlash va nima qilish kerakligini hal qilish kerak.
ma'lumotlarni oldindan qayta ishlash va tozalash uchun harakatlar kerak.
|
58
|
Ma’lumotlarga dastlabki ishlov berishda xususiyatlarni ajratib olish qanday ahamiyatga ega?
|
|
Xususiyatlarni chiqarish: Bu bosqichda biz xususiyatlar sonini tahlil qilish va optimallashtirishga e'tibor qaratamiz. Odatda, jamoa a'zosi bashorat qilish uchun qaysi xususiyatlar muhimligini aniqlashi va tezroq hisoblash va kam xotira iste'moli uchun ularni tanlashi kerak. Xususiyatlarni ajratib olish asosan o'lchamlarni kamaytirish jarayoni bo'lib, unda olingan xom ashyo tegishli boshqariladigan guruhlarga bo'linadi. Ushbu yirik ma'lumotlar to'plamlarining o'ziga xos xususiyati shundaki, ular juda ko'p sonli o'zgaruvchilarni o'z ichiga oladi va qo'shimcha ravishda bu o'zgaruvchilar ularni qayta ishlash uchun juda ko'p hisoblash resurslarini talab qiladi. Demak, Feature Extraction bu holda ma'lum o'zgaruvchilarni tanlashda va shuningdek, ma'lumotlar miqdorini kamaytiradigan ba'zi tegishli o'zgaruvchilarni birlashtirishda foydali bo'lishi mumkin. Olingan natijalar aniqlik va eslab qolish choralari yordamida baholanadi.
|
59
|
O‘qituvchisiz o‘qitish (Unsupervised learning) ning klasterlash usulini nima maqsadlarda qo‘llaniladi? Misollar yordamida yoritib bering.
|
|
Klasterlash - bu Unsupervised learning texnikasiga misol bo'lib, bundan biz yorliqlanmagan ma'lumotlar to'plamida strukturani topish uchun foydalanamiz. Klasterlash to'g'ridan-to'g'ri ma'lumotlaringizdagi xususiyatlar bilan ishlaydi va asosiy ma'lumotlar to'plamida mantiqiy guruhlarni topishga harakat qiladi. Quyida Mashinani o'rganishning klasterlashning eng keng tarqalgan va biz bilgan turlari keltirilgan:
Ierarxik klasterlash; 2. K-means klasterlash; 3. KNN( k ta eng yaqin qo’shni).
|
60
|
Iyerarxik klasterlashning ma’lumotlarning intellektual tahlilidagi ahamiyati nimada?
|
|
|