APACHESPARK VA MAPREDUCE HISOBLASH MODELLARI VA
ULARNING QIYOSIY TAHLILI
Hamrayeva Saida Ismailovna, Sattorova Go‘zal Shamil qizi
TATU Urganch filiali
ApacheSpark va MapReduce hisoblash modellarining asosiy tamoyillarini,
arxitekturasi, asosiy xususiyatlari, Spark qo‘llaniladigan sohalarga misollar hamda
Apache Spark va Hadoop MapReduce – taqqoslash xususiyatilari keltirilgan
Kalit so‘zlar:
ApacheSpark, API, Hadoop MapReduce, Big Data, Spark
Core, Streaming.
ApacheSpark 2014-yilda foydalanvchilarga tadim qilingan va u shundan
buyon katta ma’lumotlar dunyosida yetakchi hisoblanadi. Sparkning qulay APIlari
va Hadoop MapReducedan tezligi 100 barobar tezroq ishlaydi. Spark ochiq
manbali ma’lumotlarni Spark klaster xotirasida ishlaydi va u Hadoopning
International scientific conference "INFORMATION TECHNOLOGIES, NETWORKS AND
TELECOMMUNICATIONS" ITN&T-2022 Urgench, 2022y April 29-30
365
MapReduce ikki bosqichli paradigmasiga bog‘liq emasligi uchun tez sindira oladi.
Bu bir xil ma’lumotlarga takroriy kirishni ancha tezlashtiradi. Spark mustaqil
dastur sifatida yoki Hadoop YARN tepasida ishlashi mumkin, u yerda HDFS-dan
ma’lumotlarni to‘g‘ridan-to‘g‘ri o‘qiy oladi. Yahoo, Intel, Baidu, Yelp va Zillow
kabi o‘nlab yirik texnologiya kompaniyalari allaqachon Sparkdan o‘zlarining
texnologik to‘plamlarining bir qismi sifatida foydalanmoqda.[1]
Katta ma’lumotlarni tahlil qilish, jumladan Google MapReduce, Yahoo
PNUTS, Microsoft SCOPE, Twitter Storm va spark, LinkedIn’s Kafka va
Walmart, bundan tashqari, bir nechta kompaniyalar, jumladan, Facebook ham
foydalanadi va Apache Hadoop (MapReduce-ning ochiq manba ilovasi) va uning
ekotizimiga hissa qo‘shdi.
Katta ma’lumotlarni an’anaviy ma’lumotlarni qayta ishlash birliklari
yordamida qiyinchilik bilan qayta ishlanishi mumkin bo‘lgan ulkan ma’lumotlar
yuki deb atash mumkin. Katta ma’lumotlarning eng yaxshi namunasi Facebook,
Instagram, WhatsApp va YouTube kabi ijtimoiy media saytlari bo‘lishi
mumkin.[1]
Apache Spark dastlab 2009 yilda UC Berklida Databricks kompaniyasiga
asos solgan jamoa tomonidan ishlab chiqilgan. Spark ishga tushirilgandan beri tez
o‘zlashtirildi va o‘sdi. Netflix, Apple, Facebook, Uber kabi ilg‘or texnologik
tashkilotlarning aksariyati ma’lumotlarni qayta ishlash va tahlil qilish uchun Spark
klasterlariga ega. Spark-ga bo‘lgan talab juda tez sur’atlar bilan o‘sib bormoqda.
Marketanalysis.com hisobot prognoziga ko‘ra, global Apache Spark bozori 2019
va 2022 yillar oralig‘ida 67% CAGR darajasida o‘sadi. Spark global bozorining
daromadi tez sur’atlar bilan kengayib bormoqda va 2022 yilga kelib 4,2 milliard
dollarga o‘sishi mumkin, jami bozor esa 9,2 milliard dollarni tashkil qiladi. (2019
– 2022).
Apache ma’lumotlariga ko‘ra, “Apache Spark - bu keng ko‘lamli
ma’lumotlarni qayta ishlash uchun yagona tahlil mexanizmi” dir.
Spark Big Data va mashinani o‘rganish texnologiyalaridan foydalanadi,
shuning uchun undan ma’lumotlar muhandislari, ma’lumotlar bo‘yicha olimlar va
ma’lumotlar tahlilchilari kabi ma’lumotlar olimlari foydalanadi.[2]
Apache Spark - bu katta ma’lumotlarda klasterli hisoblash va katta hajmdagi
ma’lumotlarni qayta ishlash uchun ishlatiladigan platforma. Spark RAMdagi
ma’lumotlarni qayta ishlaydi va diskka kamdan-kam kiradi, shuning uchun u juda
tez ishlaydi.
Apache Spark Hadoop ekotizimiga to‘liq mos keladi va uni mavjud
yechimlarga osongina integratsiyalash mumkin. HDFS, Hive, S3, HBase,
Cassandra o‘zining ma’lumotlar omboriga ega emas va turli manbalar bilan
ishlashi mumkin. Scala, Python, Java, SQL esa bir nechta dasturlash tillarini
qo‘llab-quvvatlaydi:
MapReduce hisob-kitoblari diskda amalga oshiriladi va Spark ularni
operativ xotirada bajaradi va shu tufayli uning ishlashi 100 barobar ortadi. Biroq,
ekspertlar e’lon qilingan Spark har doim ham muammoni hal qilishga qodir
emasligi haqida ogohlantirmoqda. Agar siz 10 TB dan ortiq maʼlumotni qayta
International scientific conference "INFORMATION TECHNOLOGIES, NETWORKS AND
TELECOMMUNICATIONS" ITN&T-2022 Urgench, 2022y April 29-30
366
ishlashingiz kerak boʻlsa, klassik MapReduce hisob-kitobni yakunlaydi, biroq
Sparkda bunday hisoblash uchun yetarli xotira bo ʻlmasligi mumkin.
Quyida Spark qo‘llaniladigan sohalarga misollar keltirilgan:
Do'stlaringiz bilan baham: |