Katta ma’lumotlar bilan ishlash texnologiyalari
Big Data qay darajada katta?
Zamonaviy munozaralarda Big Data terabayt buyurtmalarida hajm ma'lumotlari sifatida tavsiflanadi.
Amalda (gigabayt yoki terabayt haqida gap ketganda) bunday ma'lumotlarni "an'anaviy" ma'lumotlar bazalari va standart apparat (ma'lumotlar serveri) yordamida saqlash va boshqarish oson.
Dasturiy ta'minot statistika Ma'lumotlarga kirish (o'qish) algoritmlari, bashoratli (va golli) modellarni o'zgartirish va qurish uchun ko'p tishli texnologiyadan foydalanadi, shuning uchun bunday ma'lumotlar namunalari osongina tahlil qilinishi mumkin va maxsus vositalarni talab qilmaydi.
StatSoftning ba'zi bir hozirgi loyihalarida, 9-12 million qatorli buyurtma namunalari qayta ishlanadi. Biz ularni xavfli yoki bashoratli modellarni yaratish uchun ma'lumotlar omborida to'plangan va tashkillashtirilgan 1000 parametrga (o'zgaruvchiga) ko'paytiramiz. Ushbu turdagi fayl "faqat" 100 gigabayt hajmga ega bo'ladi. Bu, albatta, kichik ma'lumot ombori emas, lekin uning hajmi standart ma'lumotlar bazasi texnologiyasining imkoniyatlaridan oshmaydi.
Mahsulot liniyasi statistika partiyalarni tahlil qilish va skoring modellari uchun ( statistika korxonasi), real vaqtda echimlar ( statistika jonli ovozi) va modellarni yaratish va boshqarish uchun tahliliy vositalar ( statistika data miner, qaror qilish) ko'p yadroli protsessorlarga ega bo'lgan bir nechta serverlarga osongina tarqalish.
Amalda, bu tezkor qarorlarni qabul qilishga imkon beradigan analitik modellarning etarli tezligi (masalan, kredit xavfi to'g'risidagi prognozlar, firibgarlik ehtimoli, uskuna tugunlarining ishonchliligi va boshqalar) deyarli har doim standart vositalardan foydalanib erishish mumkinligini anglatadi. statistika.
Katta ma'lumotdan katta ma'lumotga
Odatda Big Data munozarasi bir necha terabaytlarga qaraganda ancha katta bo'lgan ma'lumotlar omborlari atrofida (va bunday do'konlar asosida tahlil qilish) o'tkaziladi.
Xususan, ba'zi ma'lumot do'konlarida minglab terabaytlarga, ya'ni petabaytlarga (1000 terabayt \u003d 1 petabayt) gacha o'sishi mumkin.
Petabaytlardan tashqari ma'lumotlar to'planishini ekzabaytlarda o'lchash mumkin, masalan, butun dunyodagi ishlab chiqarish sohasida 2010 yilda jami 2 ekzabayt yangi ma'lumot to'planganligi taxmin qilinmoqda (Manyika va boshqalar, 2011).
Ma'lumotlar juda jadal yig'iladigan va to'planadigan tarmoqlar mavjud.
Masalan, elektr stantsiyalari kabi ishlab chiqarish sharoitida ba'zida har daqiqada yoki hatto har soniyada o'n minglab parametrlar uchun doimiy ma'lumot oqimi hosil bo'ladi.
Bundan tashqari, so'nggi bir necha yil ichida kommunal xizmatlarga har bir daqiqada yoki har soniyada elektr energiyasini iste'mol qilishni o'lchash imkonini beradigan "aqlli tarmoq" texnologiyalari joriy etildi.
Ma'lumotlar yillar davomida saqlanishi kerak bo'lgan ushbu turdagi ilovalar uchun to'plangan ma'lumotlar "Juda katta ma'lumotlar" deb tasniflanadi.
Tijorat va davlat sektorlari orasida Big Data ilovalari soni o'sib bormoqda, bu erda saqlanadigan ma'lumotlar miqdori yuzlab terabayt yoki petabayt bo'lishi mumkin.
Oddiy telefon qo'ng'iroqlaridan tortib, Facebook kabi ijtimoiy tarmoqlar orqali ma'lumot yuklab olishgacha (Vikipediyaga ko'ra, har oy 30 milliard ma'lumot almashiladi) yoki YouTube (Youtube kabi saytlarda video almashish) kabi turli xil aloqa usullari. har daqiqada 24 soat video yuklab olinadi; Vikipediyaga qarang) har kuni juda katta miqdordagi yangi ma'lumotlar yaratadi.
Xuddi shunday zamonaviy tibbiy texnologiyalar tibbiy yordam ko'rsatish bilan bog'liq katta hajmdagi ma'lumotlarni (rasmlar, video, real vaqtda monitoring) hosil qiladi.
Shunday qilib, ma'lumotlar hajmini tasniflashni quyidagicha ko'rsatish mumkin:
Do'stlaringiz bilan baham: |