HDFS: Hadoop taqsimlangan fayl tizimi
YARN: Yana bir resurs muzokarachisi
MapReduce: Dasturlash asosidagi ma'lumotlarni qayta ishlash
Spark: Xotirada ma'lumotlarni qayta ishlash
PIG, HIVE: so'rovlar asosida ma'lumotlar xizmatlarini qayta ishlash
HBase: NoSQL ma'lumotlar bazasi
Mahout, Spark MLLib: Machine Learning algoritm kutubxonalari
Solar, Lucene: Qidiruv va indekslash
Zookeeper: Klasterni boshqarish
Oozie: Ishni rejalashtirish
Eslatma: Yuqorida aytib o'tilgan komponentlardan tashqari, Hadoop ekotizimining bir qismi bo'lgan ko'plab boshqa komponentlar ham mavjud.
Barcha bu asboblar to'plami yoki komponentlar bir atama, ya'ni Data atrofida aylanadi. Hadoop-ning go'zalligi shundaki, u ma'lumotlar atrofida aylanadi va shuning uchun sintezini osonlashtiradi.
HDFS:
HDFS Hadoop ekotizimining asosiy yoki asosiy komponenti bo'lib, turli tugunlar bo'ylab tuzilgan yoki tuzilmagan ma'lumotlarning katta ma'lumotlar to'plamini saqlash va shu bilan metama'lumotlarni jurnal fayllari shaklida saqlash uchun javobgardir.
HDFS ikkita asosiy komponentdan iborat, ya'ni:
Nod tugun
Ma'lumotlar tugunlari
Nom tugunlari - bu haqiqiy ma'lumotlarni saqlaydigan ma'lumotlar tugunlariga qaraganda nisbatan kamroq resurslarni talab qiluvchi metama'lumotlar (ma'lumotlar haqidagi ma'lumotlar) o'z ichiga olgan asosiy tugun. Ushbu ma'lumotlar tugunlari taqsimlangan muhitda tovar apparatidir. Shubhasiz, Hadoop-ni tejamkor qilish.
HDFS klasterlar va apparat o'rtasidagi barcha muvofiqlashtirishni ta'minlaydi va shu bilan tizimning markazida ishlaydi.
YARN:
Yana bir Resurs Muzokarachisi, nomidan ko'rinib turibdiki, YARN klasterlar bo'ylab resurslarni boshqarishga yordam beradi. Muxtasar qilib aytganda, u Hadoop tizimi uchun rejalashtirish va resurslarni taqsimlashni amalga oshiradi.
Uch asosiy komponentdan iborat, ya'ni:
Resurs menejeri
Tugunlar menejeri
Ilova menejeri
Resurs menejeri tizimdagi ilovalar uchun resurslarni taqsimlash sharafiga ega, tugun menejerlari esa protsessor, xotira, har bir mashina uchun tarmoqli kengligi kabi resurslarni taqsimlash ustida ishlaydi va keyinchalik resurs menejerini tan oladi. Ilova menejeri resurs menejeri va tugun menejeri o'rtasidagi interfeys sifatida ishlaydi va ikkalasining talabiga binoan muzokaralarni amalga oshiradi.
MapReduce:
Tarqalgan va parallel algoritmlardan foydalangan holda, MapReduce qayta ishlash mantig'ini o'tkazishga imkon beradi va katta ma'lumotlar to'plamini boshqariladiganga aylantiradigan ilovalarni yozishga yordam beradi.
MapReduce ikkita funksiyadan foydalanadi: Map() va Reduce() ularning vazifasi:
Map() ma'lumotlarni saralash va filtrlashni amalga oshiradi va shu bilan ularni guruh shaklida tashkil qiladi. Xarita kalit-qiymat juftligiga asoslangan natijani yaratadi, keyinchalik u Reduce() usuli bilan qayta ishlanadi.
Reduce() nomidan ko'rinib turibdiki, xaritalangan ma'lumotlarni jamlash orqali xulosa qiladi. Oddiy qilib aytganda, Reduce() Map() tomonidan yaratilgan natijani kirish sifatida qabul qiladi va bu kortejlarni kichikroq kortejlar to'plamiga birlashtiradi.
Do'stlaringiz bilan baham: |