Dimensionality Reduction – O’qituvchisiz mashinali o’qitish da ishlatiladi. Ma’lumotdagi o’zgaruvchilar sonini kamaytirib berish jarayoni. Misol, Agar foydalanuvchining qidiruvchi ma’lumotida 3 ta o’zgaruvchi bo’lsa, bu ma’lumotlar to’plami orasida, qidirish uchun 3 o’lchamli fazoda olinadi, degani. Agar bu miqdor n(10, 100, 1000, ...) ga sozlansa, Bunda qidiruv, qayta ishlash algoritmlari chigal bo’lib ketadi. Qolaversa, tasavvur qila olish mumkin bo’lgan fazolar: 2D, 3D. Bunda bu algoritm muhim o’zgaruvchilarni saralab olish, oshiqchalarini kamaytirish imkonini beradi. Shu maqsadda.
38
Sonni kamaytirish (Numerosity Reduction) nima maqsadga qo’llaniladi?
Ma’lumotlarni ochib berishning qulay bir formasidan foydalanib, ma’lumotning bir qismini kamaytirishga ishlatiladigan texnologiya (Data reduction texnologiyasi.).Parametrli yoki parametrsiz turlarda bo’ladi. Parametrli metodlar uchun, model ma’lumotni baholashga ishlatiladi. Bunda, ma’lumot emas, parametrlar xotiraga yuklanadi. Parametrsiz metodlar uchun, histogramma va boshqa grafik ma’lumotlar, sinflashtirish, soddalashtirish kabi kamaytirilgan ifodalar yuklanadi xotiraga.
39
Sonni kamaytirishning parametric bo’lgan hol uchun yoritib bering.
Parametrli metodlar uchun, model ma’lumotni baholashga ishlatiladi. Bunda, ma’lumot emas, kiritilgan parametrlar xotiraga yuklanadi.
Parametrik: Parametrik sonni kamaytirish asl ma'lumotlar o'rniga faqat ma'lumotlar
parametrlarini saqlashni o'z ichiga oladi. Parametrik sonni kamaytirish usullaridan
biri regressiya va log-chiziqli usuldir.
• Regressiya va log-chiziqli: Chiziqli regressiya ma'lumotlar to'plamiga chiziqli
tenglamani modellashtirish orqali ikki atribut o'rtasidagi munosabatlarni
modellashtiradi. Aytaylik, ikkita atribut orasidagi chiziqli funksiyani
modellashtirishimiz kerak.
40
Sonni kamaytirishning non-parametric bo’lgan hol uchun yoritib bering.
Parametrik bo'lmagan ma'lumotlarni qisqartirish texnikasi - bu ma'lumotlar uchun hech qanday modelni nazarda tutmaydigan ma'lumotlarni qisqartirish usuli.
Parametrik bo'lmagan ma'lumotlarni qisqartirish (NDR) usullari parametrik ma'lumotlarni qisqartirish (PDR) texnikasiga qarama-qarshidir. PDR texnikasi ma'lumotlar uchun ma'lum bir modelni qabul qilishi kerak. Modelning parametrlari ma'lumotlarni qisqartirish amalga oshirilishidan oldin aniqlanadi. NDR texnikasi hech qanday modelni qabul qilmaydi va to'g'ridan-to'g'ri ma'lumotlarga qo'llaniladi. PDR texnikasining ma'lumotlarni qisqartirish samaradorligi ko'p jihatdan modelning ma'lumotlarga mos kelishiga bog'liq.
41
Ma'lumotlar kubini yig'ish (Data Cube Aggregation) jarayonini misollar asosida yoritib bering.
Ushbu uslub ma'lumotlarni oddiyroq shaklda jamlash uchun ishlatiladi.
Ma'lumotlar kubini yig'ish - bu ko'p o'lchovli tahlilni osonlashtiradigan ko'p o'lchovli yig'ish. Ma'lumotlar kubi oldindan hisoblangan va umumlashtirilgan ma'lumotlarni taqdim etadi, bu esa ma'lumotlarni tez kirishni osonlashtiradi. Misol uchun, sizda 2018 yildan 2022 yilgacha bo'lgan har chorakda All Electronics savdosi haqidagi ma'lumotlaringiz bor deylik. Agar siz yiliga yillik sotuvga erishmoqchi bo'lsangiz, har bir yil uchun choraklik savdolarni jamlashingiz kifoya. Shunday qilib, yig'ish sizga hajmi jihatidan ancha kichik bo'lgan kerakli ma'lumotlarni taqdim etadi va shu bilan biz hech qanday ma'lumotlarni yo'qotmasdan ham ma'lumotlarni qisqartirishga erishamiz.
42
Ma'lumotlarni siqish (Data Compression) jarayonini misollar asosida yoritib bering.
Ma'lumotlarni siqish ma'lumotlar strukturasini o'zgartirish, kodlash yoki kamroq joy sarflaydigan tarzda aylantirishni qo'llaydi. Ma'lumotni siqish ortiqcha narsalarni olib tashlash va ma'lumotlarni ikkilik shaklda taqdim etish orqali ma'lumotlarning ixcham ko'rinishini yaratishni o'z ichiga oladi. Siqilgan shakldan muvaffaqiyatli tiklanishi mumkin bo'lgan ma'lumotlar yo'qotishsiz siqish deb ataladi. Bundan farqli o'laroq, siqilgan shakldan asl shaklni qayta tiklash mumkin bo'lmagan holatlarning aksi – yo`qotilgan siqish. Ushbu uslub Huffman Encoding va run-length Encoding kabi turli xil kodlash mexanizmlari yordamida fayllar hajmini kamaytiradi. Ularning siqish texnikasiga ko'ra uni ikki turga bo'lishimiz mumkin.