Regressiya masalasi Regressiya - bu qaram o'zgaruvchi (ko'pincha "natija" yoki "javob" o'zgaruvchisi deb ataladi) va bir yoki bir nechta mustaqil o'zgaruvchilar (ko'pincha "prediktorlar", "kovariatlar" deb ataladi) o'rtasidagi munosabatlarni baholash uchun statistik jarayonlar to'plami . "tushuntiruvchi o'zgaruvchilar" yoki "xususiyatlar"). Regressiya tahlilining eng keng tarqalgan shakli chiziqli regressiya bo'lib, unda ma'lum bir matematik mezon bo'yicha ma'lumotlarga eng mos keladigan chiziq (yoki yanada murakkab chiziqli birikma ) topiladi. Misol uchun, bu haqiqiy ma'lumotlar va bu chiziq (yoki giperplan) o'rtasidagi kvadratik farqlar yig'indisini minimallashtiradi. Muayyan matematik sabablarga ko'ra ( chiziqli regressiyaga qarang ), bu tadqiqotchiga mustaqil o'zgaruvchilar berilgan qiymatlar to'plamini olganida, bog'liq o'zgaruvchining shartli kutishini (yoki aholining o'rtacha qiymatini ) baholashga imkon beradi.
Big datada 3V tushunchasi Ovoz(volume)
Masalan, Ijtimoiy media maydonida hajm veb-saytlar, portallar va onlayn ilovalar orqali yaratilgan ma'lumotlar miqdorini anglatadi. Ayniqsa, B2C kompaniyalari uchun Volume mavjud ma'lumotlarni o'z ichiga oladi va ularning ahamiyati baholanishi kerak. Quyidagilarni ko'rib chiqaylik -Facebook-da 2 milliard foydalanuvchi, Youtube-da 1 milliard foydalanuvchi, Twitter-da 350 million foydalanuvchi va Instagram-da 700 million foydalanuvchi bor. Har kuni bu foydalanuvchilar milliardlab rasmlar, postlar, videolar, tvitlar va hokazolarga hissa qo'shadilar. Endi siz har daqiqada va har soatda hosil bo'ladigan juda katta hajmdagi ma'lumotlar hajmini yoki hajmini tasavvur qilishingiz mumkin.
TEZLIK(velocity)
Tezlik bilan biz ma'lumotlarning yaratilish tezligini nazarda tutamiz. Ijtimoiy tarmoqlardagi misolimizda har kuni Facebook’ga 900 million fotosurat yuklanadi, Twitter’ga 500 million tvit joylashtiriladi, Youtube’ga 0,4 million soatlik video yuklanadi va Google’da 3,5 milliard qidiruv amalga oshiriladi. Bu yadroviy ma'lumotlar portlashiga o'xshaydi. Katta ma'lumotlar kompaniyaga ushbu portlashni ushlab turishga, kiruvchi ma'lumotlar oqimini qabul qilishga va shu bilan birga to'siqlarni yaratmasligi uchun uni tezda qayta ishlashga yordam beradi.
TURLI(variety)
Katta ma'lumotlarning xilma-xilligi odamlar yoki mashinalar tomonidan ishlab chiqarilishi mumkin bo'lgan barcha tuzilgan va tuzilmagan ma'lumotlarni anglatadi. Eng ko'p qo'shilgan ma'lumotlar tuzilgan - matnlar, tvitlar, rasmlar va videolar. Biroq, elektron pochta xabarlari, ovozli pochta xabarlari, qo'lda yozilgan matn, EKG o'qishi, audio yozuvlar va boshqalar kabi tuzilmagan ma'lumotlar Variety ostida muhim elementlardir. Varete - bu kiruvchi ma'lumotlarni turli toifalarga ajratish qobiliyatidir.
Do'stlaringiz bilan baham: |