International scientific conference "INFORMATION TECHNOLOGIES, NETWORKS AND
TELECOMMUNICATIONS" ITN&T-2022 Urgench, 2022y April 29-30
365
MapReduce ikki bosqichli paradigmasiga bog‘liq emasligi uchun tez sindira oladi.
Bu bir xil ma’lumotlarga takroriy kirishni ancha tezlashtiradi.
Spark mustaqil
dastur sifatida yoki Hadoop YARN tepasida ishlashi mumkin, u yerda HDFS-dan
ma’lumotlarni to‘g‘ridan-to‘g‘ri o‘qiy oladi. Yahoo, Intel, Baidu, Yelp va Zillow
kabi o‘nlab yirik texnologiya kompaniyalari allaqachon Sparkdan o‘zlarining
texnologik to‘plamlarining bir qismi sifatida foydalanmoqda.[1]
Katta ma’lumotlarni tahlil qilish, jumladan Google MapReduce, Yahoo
PNUTS,
Microsoft SCOPE, Twitter Storm va spark, LinkedIn’s Kafka va
Walmart, bundan tashqari,
bir nechta kompaniyalar, jumladan, Facebook ham
foydalanadi va Apache Hadoop (MapReduce-ning ochiq manba ilovasi) va uning
ekotizimiga hissa qo‘shdi.
Katta ma’lumotlarni an’anaviy ma’lumotlarni
qayta ishlash birliklari
yordamida qiyinchilik bilan qayta ishlanishi mumkin bo‘lgan ulkan ma’lumotlar
yuki deb atash mumkin. Katta ma’lumotlarning eng yaxshi namunasi Facebook,
Instagram, WhatsApp va YouTube kabi ijtimoiy media saytlari bo‘lishi
mumkin.[1]
Apache Spark dastlab 2009 yilda UC Berklida Databricks kompaniyasiga
asos solgan jamoa tomonidan ishlab chiqilgan. Spark ishga tushirilgandan beri tez
o‘zlashtirildi va o‘sdi. Netflix, Apple, Facebook, Uber kabi ilg‘or
texnologik
tashkilotlarning aksariyati ma’lumotlarni qayta ishlash va tahlil qilish uchun Spark
klasterlariga ega. Spark-ga bo‘lgan talab juda tez sur’atlar bilan o‘sib bormoqda.
Marketanalysis.com hisobot prognoziga ko‘ra, global Apache Spark bozori 2019
va 2022 yillar oralig‘ida 67% CAGR darajasida o‘sadi. Spark global bozorining
daromadi tez sur’atlar bilan kengayib bormoqda va 2022 yilga kelib 4,2 milliard
dollarga o‘sishi mumkin, jami bozor esa 9,2 milliard dollarni tashkil qiladi. (2019
– 2022).
Apache ma’lumotlariga ko‘ra, “Apache Spark - bu keng ko‘lamli
ma’lumotlarni qayta ishlash uchun yagona tahlil mexanizmi” dir.
Spark Big Data va mashinani o‘rganish texnologiyalaridan foydalanadi,
shuning uchun undan ma’lumotlar muhandislari, ma’lumotlar bo‘yicha olimlar va
ma’lumotlar tahlilchilari kabi ma’lumotlar olimlari foydalanadi.[2]
Apache Spark - bu katta ma’lumotlarda klasterli hisoblash va katta hajmdagi
ma’lumotlarni qayta ishlash uchun ishlatiladigan platforma. Spark RAMdagi
ma’lumotlarni qayta ishlaydi va diskka kamdan-kam kiradi, shuning uchun u juda
tez ishlaydi.
Apache Spark Hadoop ekotizimiga to‘liq
mos keladi va uni mavjud
yechimlarga osongina integratsiyalash mumkin. HDFS, Hive, S3, HBase,
Cassandra o‘zining ma’lumotlar omboriga ega emas va turli manbalar bilan
ishlashi mumkin. Scala, Python, Java, SQL esa bir nechta dasturlash tillarini
qo‘llab-quvvatlaydi:
MapReduce hisob-kitoblari diskda amalga oshiriladi va Spark ularni
operativ xotirada bajaradi va shu tufayli uning ishlashi 100 barobar ortadi. Biroq,
ekspertlar e’lon qilingan Spark har doim ham
muammoni hal qilishga qodir
emasligi haqida ogohlantirmoqda. Agar siz 10 TB dan ortiq maʼlumotni qayta
International scientific conference "INFORMATION TECHNOLOGIES, NETWORKS AND
TELECOMMUNICATIONS" ITN&T-2022 Urgench, 2022y April 29-30
366
ishlashingiz kerak boʻlsa, klassik MapReduce hisob-kitobni yakunlaydi, biroq
Sparkda bunday hisoblash uchun yetarli xotira bo ʻlmasligi mumkin.
Quyida Spark qo‘llaniladigan sohalarga misollar keltirilgan:
Do'stlaringiz bilan baham: