Oddiy statistika, biznes intellekt (BI)
Oddiy BI hisoboti uchun sizga ko'p miqdorda, o'rtacha ko'rsatkichlar, nisbatlar va boshqalarni hisoblash imkonini beradigan ko'plab ochiq manbali mahsulotlar mavjud. xaritani qisqartirish yordamida.
Shunday qilib, hisobotlarni to'g'ri hisoblash va boshqa oddiy statistikalarni olish juda oson.
Bashoratli modellashtirish, ilg'or statistika
Bir qarashda, taqsimlangan fayl tizimida bashoratli modellarni yaratish qiyinroq tuyulishi mumkin, ammo bu har doim ham shunday emas. Keling, ma'lumotlarni tahlil qilishning dastlabki bosqichlarini ko'rib chiqaylik.
Ma'lumotlarni tayyorlash. Bir muncha vaqt oldin StatSoft elektr stantsiyasining daqiqalik daqiqalarini tavsiflovchi juda katta ma'lumotlar to'plamlarini o'z ichiga olgan qator yirik va muvaffaqiyatli loyihalarni amalga oshirdi. Ushbu tahlilning maqsadi o'simliklarning samaradorligini oshirish va emissiyalarni kamaytirish edi (Elektr Energiya Tadqiqot Instituti, 2009).
Ma'lumotlar to'plamlari juda katta bo'lishiga qaramay, ulardagi ma'lumotlar ancha kichik bo'lishi muhimdir.
Masalan, har soniyada yoki har bir daqiqada ma'lumotlar to'planib borar ekan, ko'p parametrlar (gazlar va pechlar harorati, oqimlar, amortizatorlarning holati va boshqalar) uzoq vaqt davomida barqaror bo'lib qolmoqda. Boshqacha qilib aytganda, har bir soniyada yozilgan ma'lumotlar asosan bir xil ma'lumotlarning takrorlanishidir.
Shunday qilib, elektr stantsiyasining samaradorligi va chiqindilar miqdoriga ta'sir etuvchi dinamik o'zgarishlar haqida faqat kerakli ma'lumotlarni o'z ichiga olgan ma'lumotni "aqlli" yig'ish, modellashtirish va optimallashtirish uchun ma'lumot olish kerak.
Matnlarni tasniflash va ma'lumotlarni dastlabki ishlash. Katta ma'lumotlar to'plamlari unchalik foydali bo'lmagan ma'lumotlarni qay tarzda o'z ichiga olishi mumkinligini yana bir bor ko'rsataylik.
Masalan, StatSoft tvitlar orqali yo'lovchilarni aviakompaniyalar va ularning xizmatlaridan qoniqishlarini aks ettiruvchi tvit loyihalarida qatnashdi.
Ko'p sonli tegishli tvitlar har soatda va bir marotaba olinishiga qaramay, ularda aytilgan fikrlar juda oddiy va bir xil edi. Xabarlarning ko'pi shikoyatlar va "yomon tajriba" haqida bitta jumladan kelgan qisqa xabarlardir. Bundan tashqari, ushbu fikrlarning soni va "kuchi" vaqt o'tishi bilan va muayyan masalalarda (masalan, yo'qolgan bagaj, yomon oziq-ovqat, reysni bekor qilish) nisbatan barqarordir.
Shunday qilib, haqiqiy tvitlarni matn ishlab chiqarish usullaridan foydalangan holda (masalan, amalga oshirilganlar kabi) kayfiyatni pasaytirish statistika text miner), natijada ancha kam ma'lumotlarga olib keladi, bu esa mavjud tuzilgan ma'lumotlar (osongina chiptalar sotuvi yoki tez-tez uchadigan ma'lumotlar) bilan osonlikcha bog'lanishi mumkin. Tahlil mijozlarni guruhlarga bo'lish va ularning odatiy shikoyatlarini ko'rib chiqishga imkon beradi.
Ushbu tahlil jarayonini osonlashtiradigan taqsimlangan fayl tizimida ma'lumotlarning bunday yig'ilishini amalga oshirish uchun ko'plab vositalar mavjud (masalan, fikrlash tezligi).
Qurilish modellari
Ko'pincha qiyinchilik taqsimlangan fayl tizimida saqlanadigan ma'lumotlar uchun aniq modellarni tezda yaratishdir.
Taqsimlangan fayl tizimida ma'lumotlarni keng miqyosli parallel qayta ishlash uchun mos keladigan turli xil ma'lumot ishlab chiqarish / bashorat qiluvchi tahlil algoritmlari uchun xaritalarni qisqartirish dasturlari mavjud (platforma tomonidan qo'llab-quvvatlanishi mumkin) statistika StatSoft).
Ammo, siz juda ko'p miqdordagi ma'lumotlarni qayta ishlaganingiz sababli, oxirgi model haqiqatan ham aniqroq ekanligiga aminmisiz?
Aslida, tarqatilgan fayl tizimida kichik ma'lumotlar segmentlari uchun modellarni yaratish qulayroqdir.
Yaqinda Forresterning hisobotida aytilganidek, "Ikki plyus ikkita ikkita 3.9 ga teng, odatda yaxshi" (Xopkins va Evelson, 2011).
Statistik va matematik aniqlik, chiziqli regressiya modeli, masalan, to'g'ri tuzilgan 10 bashorat qiluvchini o'z ichiga olganligidadir. ehtimollik namunasi 100000 kuzatuvdan 100 million kuzatuv bilan yaratilgan model kabi aniqroq bo'ladi.
Faqat dangasa odamlar Katta ma'lumotlar haqida gapirishmaydi, lekin ular nima ekanligini va qanday ishlashini tushunish qiyin. Eng sodda - terminologiyadan boshlaylik. Rus tilida gapirsangiz, Katta ma'lumotlar bu har xil vositalar, yondashuvlar va usullar bo'lib, ular strukturalangan va tuzilmaydigan ma'lumotlardan ma'lum vazifalar va maqsadlarda foydalanish uchun foydalaniladi.
Tuzilmaydigan ma'lumotlar bu oldindan tuzilmagan yoki ma'lum tartibda tashkil qilinmagan ma'lumotlardir.
"Katta ma'lumotlar" atamasini 2008 yilda Nature jurnalining muharriri Clifford Lynch dunyo bo'ylab ma'lumotlar hajmining keskin o'sishiga bag'ishlangan maxsus sonida ilgari surgan edi. Albatta, katta ma'lumotlarning o'zi oldin ham mavjud edi. Mutaxassislarning fikriga ko'ra, kuniga 100 Gb dan ortiq ma'lumotlar oqimining katta qismi Katta ma'lumotlar toifasiga kiradi.
Do'stlaringiz bilan baham: |