3.2 Katta ma'lumotlar uchun mashinani o'rganish vositalari
Mavjud asboblarning aksariyati oqimni qayta ishlashga, interaktiv tahlilga va partiyani qayta ishlashga qaratilgan. Hozirgi vaqtda katta ma'lumotlarni tahlil qilish uchun foydalaniladigan ba'zi vositalar ushbu bo'limda ko'rib chiqiladi.
3.2.1 Apache MapReduce va Hadoop Hadoop va MapReduce bir-birini almashtirib bo'lmaydigan atamalar emas; Hadoop aslida MapReduce kontseptsiyasini amalga oshirishdir [ 26 ]. MapReduce - bu katta hajmdagi ma'lumotlarni qayta ishlash uchun bo'lish va egallash texnikasidan foydalanadigan model. Hadoop ikkita tugundan iborat: master va ishchi, MapReduce esa ikkita asosiy bosqichni bajaradi: Map va Reduce. Asosiy tugun kiruvchi ma'lumotlarni kichik muammolarga ajratadi, ular keyinchalik ishchi tugunlarga tayinlangan Xarita bosqichida bo'ladi. Keyin barcha kichik muammolarning natijalari asosiy tugun [ 26 ] tomonidan qisqartirish bosqichida birlashtiriladi .
3.2.2 Spark Bu ilg'or va tezkor tahlillar uchun mo'ljallangan xotiradagi ma'lumotlarni qayta ishlash mexanizmi. U pastdan yuqoriga stsenariydan unumdorlikni oshirish uchun ishlatiladi. Xotiradagi hisoblash va boshqa yaxshilanishlar tufayli Spark, ayniqsa, katta hajmdagi ma'lumotlarni qayta ishlash uchun Hadoop'dan 100 marta tezroq ishlaydi. Ma'lumotlar diskda saqlanganida, Apache Spark ham tez ishlaydi. Endi u keng miqyosda diskda tartiblash bo'yicha jahon rekordini saqlab turibdi. Spark katta ma'lumotlar muhitida bajarish uchun joriy o'quv vazifalarini qayta bajaradigan umumiy o'rta dastur qatlamini taqdim etadi. Bu kabi o'rta dastur qatlami odatda o'rganishning turli vazifalari uchun foydali bo'lgan umumiy operatsiyalar va primitivlarni o'z ichiga oladi [ 7 , 26 ].
3.2.3 Bo'ron Bu real vaqtda taqsimlangan hisoblash imkonini beruvchi dastur. O'rnatish va ishlatish oson. U bilan har qanday dasturlash tilidan foydalanish mumkin. U nosozliklarga chidamli va kengaytirilishi mumkin [ 26 ].
3.2.4 Apache Mink taqsimlangan va yuqori unumli hisoblash uchun oqim dizayni d uchun ishlov berish mexanizmi . Kech kelgan ma'lumotlar bilan ham, u aniq ishlaydi. Ajoyib kechikish va o'tkazish qobiliyatini saqlab qolgan holda minglab tugunlarga o'lchash oson [ 26 ].
3.2.5 H2O H2O xotiradagi ma'lumotlarni qayta ishlash uchun eng tezkor vosita bo'lib, u katta ma'lumotlarning prognozini tahlil qilish uchun ishlatiladi. U bir nechta tugunlarda ishlashi mumkin bo'lgan taqsimlangan, kengaytiriladigan va ochiq kodli dasturiy ta'minotdir [ 26 ].
Ushbu vositalarni baholashda qo'llab-quvvatlanadigan til, ijro modeli, tegishli mashinani o'rganish vositalari, xatolarga chidamlilik va kechikish hisobga olinadi.