Bu strukturasiz Katta ma'lumotni tahlil qilishda juda katta muammo: uni qanday qilib foydali tahlil qilish kerak. Ushbu masala haqida ma'lumot saqlash va Big Data boshqarish texnologiyasidan ko'ra kamroq narsa yozilgan.
Ko'rib chiqilishi kerak bo'lgan bir qator masalalar mavjud.
Xaritani qisqartirish
Yuzlab terabayt yoki petabayt ma'lumotlarini tahlil qilganda, ma'lumotlarni tahlil qilish uchun boshqa joyga olib chiqib bo'lmaydi (masalan, STATISTICA Enterprise tahlil serveri).
Kanallar orqali ma'lumotlarni alohida serverga yoki serverlarga uzatish jarayoni (parallel ishlov berish uchun) juda uzoq davom etadi va juda ko'p trafik talab qiladi.
Buning o'rniga analitik hisob-kitoblar ma'lumotlar saqlanadigan joyga yaqin joyda amalga oshirilishi kerak.
Map-Reduce algoritmi taqsimlangan hisoblash uchun modeldir. Uning ishlash printsipi quyidagilardan iborat: kirish ma'lumotlari qayta ishlov berish (map-step) uchun taqsimlangan fayl tizimining ishchi tugunlariga (individual tugunlarga), so'ngra allaqachon qayta ishlangan ma'lumotlarning biriktirilishi (birlashishi) (qadam-qadam).
Shunday qilib, ayting-chi, katta summani hisoblash uchun, algoritm taqsimlangan fayl tizimining har bir tuguniga parallel ravishda pastki natijalarni hisoblab chiqadi va so'ngra ushbu pastki qismlarni qo'shadi.
Internetda xaritalarni pasaytirish modelidan foydalangan holda turli xil hisob-kitoblarni qanday bajarish mumkinligi, shu jumladan bashoratli tahlil uchun ham juda ko'p ma'lumotlar mavjud.
Oddiy statistika, biznes intellekt (BI)
Oddiy BI hisoboti uchun sizga ko'p miqdorda, o'rtacha ko'rsatkichlar, nisbatlar va boshqalarni hisoblash imkonini beradigan ko'plab ochiq manbali mahsulotlar mavjud. xaritani qisqartirish yordamida.
Shunday qilib, hisobotlarni to'g'ri hisoblash va boshqa oddiy statistikalarni olish juda oson.
Bashoratli modellashtirish, ilg'or statistika
Bir qarashda, taqsimlangan fayl tizimida bashoratli modellarni yaratish qiyinroq tuyulishi mumkin, ammo bu har doim ham shunday emas. Keling, ma'lumotlarni tahlil qilishning dastlabki bosqichlarini ko'rib chiqaylik.
Ma'lumotlarni tayyorlash. Bir muncha vaqt oldin StatSoft elektr stantsiyasining daqiqalik daqiqalarini tavsiflovchi juda katta ma'lumotlar to'plamlarini o'z ichiga olgan qator yirik va muvaffaqiyatli loyihalarni amalga oshirdi. Ushbu tahlilning maqsadi o'simliklarning samaradorligini oshirish va emissiyalarni kamaytirish edi (Elektr Energiya Tadqiqot Instituti, 2009).
Ma'lumotlar to'plamlari juda katta bo'lishiga qaramay, ulardagi ma'lumotlar ancha kichik bo'lishi muhimdir.
Masalan, har soniyada yoki har bir daqiqada ma'lumotlar to'planib borar ekan, ko'p parametrlar (gazlar va pechlar harorati, oqimlar, amortizatorlarning holati va boshqalar) uzoq vaqt davomida barqaror bo'lib qolmoqda. Boshqacha qilib aytganda, har bir soniyada yozilgan ma'lumotlar asosan bir xil ma'lumotlarning takrorlanishidir.
Shunday qilib, elektr stantsiyasining samaradorligi va chiqindilar miqdoriga ta'sir etuvchi dinamik o'zgarishlar haqida faqat kerakli ma'lumotlarni o'z ichiga olgan ma'lumotni "aqlli" yig'ish, modellashtirish va optimallashtirish uchun ma'lumot olish kerak.
Matnlarni tasniflash va ma'lumotlarni dastlabki ishlash. Katta ma'lumotlar to'plamlari unchalik foydali bo'lmagan ma'lumotlarni qay tarzda o'z ichiga olishi mumkinligini yana bir bor ko'rsataylik.
Masalan, StatSoft tvitlar orqali yo'lovchilarni aviakompaniyalar va ularning xizmatlaridan qoniqishlarini aks ettiruvchi tvit loyihalarida qatnashdi.
Ko'p sonli tegishli tvitlar har soatda va bir marotaba olinishiga qaramay, ularda aytilgan fikrlar juda oddiy va bir xil edi. Xabarlarning ko'pi shikoyatlar va "yomon tajriba" haqida bitta jumladan kelgan qisqa xabarlardir. Bundan tashqari, ushbu fikrlarning soni va "kuchi" vaqt o'tishi bilan va muayyan masalalarda (masalan, yo'qolgan bagaj, yomon oziq-ovqat, reysni bekor qilish) nisbatan barqarordir.
Shunday qilib, haqiqiy tvitlarni matn ishlab chiqarish usullaridan foydalangan holda (masalan, amalga oshirilganlar kabi) kayfiyatni pasaytirish STATISTIKA Text Miner), natijada ancha kam ma'lumotlarga olib keladi, bu esa mavjud tuzilgan ma'lumotlar (osongina chiptalar sotuvi yoki tez-tez uchadigan ma'lumotlar) bilan osonlikcha bog'lanishi mumkin. Tahlil mijozlarni guruhlarga bo'lish va ularning odatiy shikoyatlarini ko'rib chiqishga imkon beradi.
Ushbu tahlil jarayonini osonlashtiradigan taqsimlangan fayl tizimida ma'lumotlarning bunday yig'ilishini amalga oshirish uchun ko'plab vositalar mavjud (masalan, fikrlash tezligi).
Qurilish modellari
Ko'pincha qiyinchilik taqsimlangan fayl tizimida saqlanadigan ma'lumotlar uchun aniq modellarni tezda yaratishdir.
Taqsimlangan fayl tizimida ma'lumotlarni keng miqyosli parallel qayta ishlash uchun mos keladigan turli xil ma'lumot ishlab chiqarish / bashorat qiluvchi tahlil algoritmlari uchun xaritalarni qisqartirish dasturlari mavjud (platforma tomonidan qo'llab-quvvatlanishi mumkin) STATISTIKA StatSoft).
Ammo, siz juda ko'p miqdordagi ma'lumotlarni qayta ishlaganingiz sababli, oxirgi model haqiqatan ham aniqroq ekanligiga aminmisiz?
Aslida, tarqatilgan fayl tizimida kichik ma'lumotlar segmentlari uchun modellarni yaratish qulayroqdir.
Yaqinda Forresterning hisobotida aytilganidek, "Ikki plyus ikkita ikkita 3.9 ga teng, odatda yaxshi" (Xopkins va Evelson, 2011).
Statistik va matematik aniqlik, chiziqli regressiya modeli, masalan, to'g'ri tuzilgan 10 bashorat qiluvchini o'z ichiga olganligidadir. ehtimollik namunasi 100000 kuzatuvdan 100 million kuzatuv bilan yaratilgan model kabi aniqroq bo'ladi.
Faqat dangasa odamlar Katta ma'lumotlar haqida gapirishmaydi, lekin ular nima ekanligini va qanday ishlashini tushunish qiyin. Eng sodda - terminologiyadan boshlaylik. Rus tilida gapirsangiz, Katta ma'lumotlar bu har xil vositalar, yondashuvlar va usullar bo'lib, ular strukturalangan va tuzilmaydigan ma'lumotlardan ma'lum vazifalar va maqsadlarda foydalanish uchun foydalaniladi.
Tuzilmaydigan ma'lumotlar bu oldindan tuzilmagan yoki ma'lum tartibda tashkil qilinmagan ma'lumotlardir.
"Katta ma'lumotlar" atamasini 2008 yilda Nature jurnalining muharriri Clifford Lynch dunyo bo'ylab ma'lumotlar hajmining keskin o'sishiga bag'ishlangan maxsus sonida ilgari surgan edi. Albatta, katta ma'lumotlarning o'zi oldin ham mavjud edi. Mutaxassislarning fikriga ko'ra, kuniga 100 Gb dan ortiq ma'lumotlar oqimining katta qismi Katta ma'lumotlar toifasiga kiradi.
Shuningdek o'qing:
Bugungi kunda ushbu oddiy atama faqat ikkita so'zni yashiradi - ma'lumotlarni saqlash va qayta ishlash.
Katta ma'lumotlar - oddiy so'zlar bilan
Zamonaviy dunyoda Big data ijtimoiy-iqtisodiy hodisadir, bu juda katta miqdordagi ma'lumotlarni tahlil qilish uchun yangi texnologik imkoniyatlarning paydo bo'lishi bilan bog'liq.
Shuningdek o'qing:
Tushunish uchun, barcha tovarlar odatiy tartibda bo'lmagan supermarketni tasavvur qiling. Mevasi yonidagi non, muzlatilgan pitssa yonidagi tomat pastasi, avakado, tofu yoki shitak qo'ziqorini o'z ichiga olgan tampon panjarasi oldida engilroq. Katta ma'lumotlar hamma narsani o'z joyiga qo'yadi va sizga yong'oq sutini topishga, narxini va yaroqlilik muddatini aniqlashga yordam beradi, shuningdek, sizdan tashqari bunday sutni kim sotib oladi va nima uchun u sigir sutidan yaxshiroq.
Katta ma'lumotlar texnologiyasi
Ma'lumotlar juda katta hajmlarda qayta ishlanib, ulardan samarali foydalanish uchun aniq va kerakli natijalarga erishiladi . Aslida, Big data muammoni hal qilish va an'anaviy boshqaruv tizimlariga alternativa hisoblanadi.
Katta ma'lumotlarga nisbatan McKinsey tomonidan qo'llaniladigan tahlil usullari va usullari:
Ma'lumotlar qazib olish;
Crowdsourcing;
Ma'lumotlarni aralashtirish va birlashtirish;
Mashinani o'rganish;
Sun'iy neyron tarmoqlari;
Naqshni aniqlash;
Bashoratli tahlil;
Simulyatsion modellashtirish;
Mekansal tahlil;
Statistik tahlil;
Analitik ma'lumotlarni vizualizatsiya qilish.
Ma'lumotni qayta ishlashga imkon beradigan gorizontal kengayish katta ma'lumotlarni qayta ishlashning asosiy printsipidir. Ma'lumotlar hisoblash tugunlariga tarqatiladi va ishlov berish ishlashning yomonlashuvisiz amalga oshiriladi. McKinsey shuningdek qo'llaniladigan kontekstda aloqalarni boshqarish tizimlari va Business Intelligence-ni o'z ichiga oldi.
Texnologiya:
NoSQL;
MapReduce;
Hadoop;
Uskuna echimlari.
Shuningdek o'qing:
Katta ma'lumot uchun, Meta Group tomonidan 2001 yilda ishlab chiqilgan an'anaviy aniqlash xususiyatlari mavjud bo'lib, ular " Uch V»:
Do'stlaringiz bilan baham: |