Boxplot miqdoriy ma'lumotlarning taqsimlanishini shunday saqlab qolishga
yordam beradiki, u o'zgaruvchilarning o'rtasidagi taqqoslashlarni yoki
kategoriyaviy o'zgaruvchining darajalari bo'yicha osonlashtiradi.
|
|
|
16
|
Ma’lumotlarni vizuallashtirishda countplot plot ta’fini keltiring
|
|
|
|
seaborn.countplot() usuli yordamida har bir turkumdagi kuzatuvlar sonlarini
barlar yordamida ko'rsatish uchun ishlatiladi.
Syntax : seaborn.countplot(x=None, y=None, hue=None, data=None,
order=None, hue_order=None, orient=None, color=None, palette=None,
saturation=0.75, dodge=True, ax=None, **kwargs)
Returns: Ustiga chizilgan plot bilan Axes ob'ektini qaytaradi.
|
|
|
17
|
Sinflashtirish algoritmlari. KNN algoritmi ta’fini keltiring.
|
|
|
|
KNN (K-Nearest-Neighbours)
• K-eng yaqin qo'shnilar nazorat ostida o'rganish texnikasiga asoslangan eng oddiy Mashina o'rganish algoritmlaridan biridir.
• K-NN algoritmi yangi ma'lumotlar va mavjud holatlar o'rtasidagi o'xshashlikni qabul qiladi va yangi qismni mavjud toifalarga eng o'xshash toifaga qo'yadi.
• K-NN algoritmi barcha mavjud ma'lumotlarni saqlaydi va o'xshashlik asosida yangi ma'lumotlar nuqtasini tasniflaydi.
• K-NN algoritmi regressiya uchun ham, tasniflash uchun ham qo'llanilishi mumkin, lekin u asosan tasniflash muammolari uchun ishlatiladi.
• K-NN parametrik boʻlmagan algoritm boʻlib, u asosiy maʼlumotlarga hech qanday taxmin qilmaydi.
|
|
|
18
|
Klasterlash algoritmlari. K-Means algoritmi ta’fini keltiring.
|
|
|
|
• Clustering
– Hierarchical clustering
– K-means clustering
– Principal Component Analysis
– Singular Value Decomposition
– Independent Component Analysis
K-o‘rtacha klasterlash (K-means)
• K-o’rtacha klasterlash – bu vektorli kvantlash usuli bo’lib, signallarni qayta ishlashda n kuzatuvchini k klasterlarga ajratishga asoslangan bo’lib, har kuzatuvchi klasterga eng yaqin o’rtacha qiymat asosida tegishli bo’ladi.
|
|
|
19
|
Statistikada mean, mode va median tushunchalari va ularning ma’lumotlarning intellektual tahlilidagi o‘rni.
|
|
|
|
Mean berilgan ma'lumotlarning o'rtacha arifmetik qiymatini hisoblashda ishlatiladi. Bunda barcha kuzatishlar yig'indisi kuzatuvlar soniga bo'linadi.
Misol uchun, kriketchining beshta o'yinidagi ochkolari quyidagicha: 12, 34, 45, 50, 24. Uning o'yindagi o'rtacha ballini topish uchun biz mean formuladan foydalanib ma'lumotlarning o'rtacha arifmetik qiymatini hisoblaymiz:
Mean = Barcha kuzatishlar yig'indisi / Kuzatishlar soni
Mean = (12 + 34 + 45 + 50 + 24)/5
Mean = 165/5 = 33
Median
Ma'lumotlarni o'sish yoki kamayish tartibida joylashtirgandan so'ng olingan o'rtadagi qiymat ma'lumotlarning medianasi deb ataladi.
Masalan, ma'lumotlarni ko'rib chiqaylik: 4, 4, 6, 3, 2. Bu ma'lumotlarni o'sish tartibida joylashtiramiz: 2, 3, 4, 4, 6. Shunday qilib, median = o'rta qiymat, ya'ni 4.
Mode
Berilgan ma'lumotlarda eng ko'p takrorlangan qiymat hisoblanadi.
Yuqoridagi misolni oladigan bo’lsak,ya’ni 4,4,6,3,2. Bu yerda mode=4
|
|
|
20
|
Statistikada percentile, variance va standard deviation tushunchalari va ularning ma’lumotlarning intellektual tahlilidagi o‘rni
|
|
|
|
Standart deviation
Standard deviation bu har bir miqdor va Mean farqlarning o'rtachasini aniqlaydi. Bu ma'lumotlar Meandan qanday holatini ko'rsatadi.
Agar Standart deviation qiymati past bo'lsa, bu miqdorlar Meanga yaqin, yuqori bo'lsa, Meandan uzoqda joylashganini bildiradi.
masalan, 12,24,41,51,67,67,85,99 ni olsak, bu yerda Mean=55.75ligini hisoblab bilishimiz mumkin.
Quyidagi Standart deviation formulasi yordamida uning qiymatini hisoblaymiz. Bu yerda =Mean
Va javob S.D=29,62 bo'ladi.
Variance
Variance har bir miqdor va Mean orasidagi o'rtacha masofaning kvadratidir. Ya'ni bu standart deviationning kvadrati.
Va javob 877.34 bo'ladi.
Percentile
Percentile- bu ma'lumotlar to'plamidagi qiymatlarning o'rnini ifodalash usuli. Percentileni hisoblash uchun ma'lumotlar to'plamidagi qiymatlar har doim o'sish tartibida bo'lishi kerak.
masalan, 12,24,41,51,67,67,85,99
bu yerda median=59ligini hisoblab bilishimiz mumkin.
Buni quyidagicha ham aytish mumkin: Ma'lumotlar to'plamida 59 50-percentiledir, chunki jami ma’lumotlarning 50% 59 dan kichik(12,24,41,51).
Umuman olganda, agar k n-percentile bo'lsa, bu umumiy ma’lumotning n% k dan kichik ekanligini bildiradi.
|
|
21
|
Ma’lumotlarning intellektual tahlilida istisno holatlar(Outliers), datasetni istisno holatlardan tozalash usullari va ularni olib tashlash zarurati.
|
|
Istisnolar (outliers) ma'lumotlar to'plamini tahlil qilish natijalarining aniqligi, ishonchliligi va mazmunliligiga sezilarli ta'sir ko'rsatishi mumkin.
Ma'lumotlar to'plamini istisnolardan tozalash vositalariga noto'g'ri qiymatlarni aniqlash va olib tashlash, etishmayotgan qiymatlarni almashtirish va ma'lumotlarni qayta o'lchash kiradi. Ma'lumotlarning tabiatiga va undan maqsadli foydalanishga qarab, aniq tahlilni ta'minlash uchun istisnolarni olib tashlash kerak bo'lishi mumkin.
|
22
|
Ma’lumotlarni klasterlashda Elbow(Tirsak) metodining vazifasi va Elbow metodining ishlash prinsipi.
|
|
Tirsak usuli - bu ma'lumotlar to'plamiga kiritish uchun klasterlarning optimal sonini aniqlashga yordam berish uchun ma'lumotlarni klasterlashda qo'llaniladigan usul. Bu kvadrat xatolar yig'indisini (SSE) ma'lum bir nuqtaga qadar ko'proq klasterlarni qo'shish orqali minimallashtirish mumkin degan fikrga asoslanadi, lekin keyin o'sishni boshlaydi. Bu nuqta SSE grafigida klasterlar soniga nisbatan "tirsak" sifatida tanilgan. Klasterlarning optimal soni SSE ko'tarila boshlagan grafikdagi "tirsak" nuqtasi sifatida aniqlanadi. Shu sababli, ushbu usul foydalanuvchiga har birini qo'lda baholashga hojat qoldirmasdan, klasterlarning optimal sonini tezda aniqlash imkonini beradi.
|
23
|
Ma’lumotlarning intellektual tahlilida masofani o‘lchash usullari.
|
|
Ma'lumotlarning intellektual tahlili - kuzatishlar va tajribalar natijasida to'plangan ma'lumotlarni tahlil qilish orqali masofani o'lchash usuli. Bu ma'lumotlar bo'yicha xulosalar chiqarish uchun naqshlarni, xususiyatlarni va tendentsiyalarni aniqlash uchun ma'lumotlarni sharhlashni o'z ichiga oladi. Bu usul ikki yoki undan ortiq nuqtalar yoki joylar orasidagi masofa haqida xulosa chiqarish uchun ishlatilishi mumkin. To'plangan ma'lumotlar GPS ma'lumotlari, sun'iy yo'ldosh tasvirlari, aerofotosuratlar yoki dala tadqiqotlari kabi manbalardan bo'lishi mumkin. Bu usul ekologiya va ekologiya fanidan tortib iqtisod va sotsiologiyagacha bo'lgan turli sohalarda qo'llaniladi.
|
24
|
Maʼlumotlarni intellektual tahlilidan ko‘zlangan maqsad nima?
|
|
|
Do'stlaringiz bilan baham: |