4 Tegishli ish
Mashinani o'rganish texnikasidan foydalangan holda katta ma'lumotlarni qayta ishlash bo'yicha tegishli tadqiqotlar ushbu bo'limda ko'rib chiqiladi.
28 ] da tadqiqotchilarning sanoat miqyosidagi Machine Learning yechimlari bo'yicha so'nggi ishlari ushbu maqolada ko'rib chiqilgan tushunchalar va metodologiyalar to'plamini berdi. Ushbu tamoyillar va strategiyalar mashinani o'rganishning ulkan tizimlari va arxitekturalarining butun spektrini qamrab oladi, ularning maqsadi ularni samarali, keng foydalanishga yaroqli va miqyosi va o'sishini o'rganishdir [28 ] .
Mashinani o'rganish (ML) va nano fanlar hamjamiyatlarini ulash uchun amalga oshirilgan o'zaro ta'sirlarning uchta turiga, shu jumladan katta nanologiya ma'lumotlar to'plamlarida ML dan foydalanishni tahlil qilish va ulardan yangi tushunchalarni olish uchun [29] da ko'rib chiqish tadqiqoti o'tkazildi . , MLni materialni tezlashtirish uchun qo'llash, masalan, eksperimental dizaynni boshqarish uchun faol o'rganishdan foydalanish va nihoyat, ML uchun moslashtirilgan apparatni amalga oshirish uchun xotira qurilmalarining nanofanidan foydalanish. Ular kelgusida nanofan-mashinalarni o‘rganish bo‘yicha hamkorlikdagi to‘siqlar va istiqbollarni muhokama qilish bilan yakunlandi.
Asosiy komponentlar tahlili (PCA) va chiziqli diskriminant tahlili (LDA) ikkita kashshof o'lchovni kamaytirish texnikasining to'rtta mashinani o'rganish algoritmiga (qaror daraxti induksiyasi, qo'llab-quvvatlash vektor mashinasi (SVM), Naive Bayes tasniflagichi va tasodifiy o'rmon tasniflagichi) ta'siri edi. [ 30 ] da oʻrganilgan . Tajribalar shuni ko'rsatdiki, katta o'lchamli ma'lumotlar to'plamlari bilan ishlashda PCA-ga asoslangan mashinani o'rganish usullari LDA-dan ustundir. Ma'lumotlar to'plamining o'lchovliligi past bo'lsa, o'lchovni kamaytirmasdan ML texnikasi yaxshiroq natijalar berishi ko'rsatilgan. Bundan tashqari, o'lchamlarni kamaytirishdan foydalanmasdan, Decision Tree va Random Forest tasniflagichlari boshqa ikkita texnikadan, shuningdek, PCA va LDA [ 30 ] dan oshib ketadi.
Mashinani o'rganish va katta ma'lumotlar COVID19 ga qarshi kurashda ko'p kuch sarflashga qodir, masalan, epidemiologik modellarni tahlil qilish, interaktiv boshqaruv panellarini yaratish va virusni davolash uchun optimal vositalarni tavsiya qilish [ 31 ] . Ababneh va boshqalar. da [ 31 ] katta ma'lumotlarni tahlil qilish uchun mustahkamlovchi o'rganishdan foydalanish bir qator qiyinchiliklar va cheklovlarga qaramay, samarali va ulkan natijalar berishini ko'rsatdi.
COVID-19 epidemiologik ma'lumotlarini tahlil qilish va qayta ishlash uchun Leung va boshqalar. da [ 32 ] katta ma'lumotlar va mashinani o'rganish analitik vositasini ochib beradi. Samarali katta ma'lumotlarni tahlil qilish uchun vosita ba'zi bir maxsus xususiyatlarni ba'zi umumiy atributlarga umumlashtirish uchun OLAP va taksonomiyadan samarali foydalanadi. Bu vosita yangi maʼlumotlar toʻplami uchun tibbiy natijalarni bashorat qiluvchi (masalan, oʻlik yoki COVID-19 dan tiklangan) nazorat ostidagi oʻquv modelidan koʻrilgan tarixiy maʼlumotlardan foydalanadi. Baholash natijalari shuni ko'rsatadiki, ushbu vosita COVID-19 holatlarining xususiyatlari bo'yicha boy bilim berishda foydalidir. Bu epidemiologlar, tadqiqotchilar va siyosatchilarga kasallik haqida kengroq nuqtai nazarga ega bo'lishda yordam beradi, bu ularni uni aniqlash, nazorat qilish va unga qarshi kurashishning yangi usullarini o'rganishga undashi mumkin [32 ] .
33 ] dagi tadqiqotchilar barcha asosiy fundamental xususiyatlarni (KT va rentgen tasvirlari maʼlumotlar toʻplamidan tashqari) va boshqa barcha mavjud maʼlumotlarni hisobga olgan holda katta maʼlumotlar va mashinani oʻrganishdan foydalangan holda COVID-19 prognozini tizimli tahlil qilishdi. , butun dunyo bo'ylab o'zaro bog'liq adabiyotlar. Algoritmlar bashoratlarining to‘g‘riligi ko‘rsatildi, ba’zi algoritmlar teskari raqamlarni yaratadi, boshqalari esa kamroq xatolik bilan aniq bashorat qilish imkonini beradi. Tadqiqotda Hindistonda 2020-yil 30-yanvardan 30-maygacha boʻlgan davrda COVID-19 holatlarini tasniflashning ikkita usuli, shuningdek, shtatlar boʻyicha aholi indeksi qoʻllanildi. Bundan tashqari, ikkala strategiya bo'yicha ham natijalar sezilarli darajada o'xshash edi. Ular COVID-19 ning bo'lajak halokatini kutish, ayniqsa tezkor aralashuv zarur bo'lganda, tibbiy qarorlar qabul qilishni yaxshilashi mumkin degan xulosaga kelishdi.
Sog'liqni saqlashda katta ma'lumotlarni tahlil qilish funktsiyasi [ 34 ] da ko'rib chiqildi va odatdagi mashinani o'rganish usullarida ko'plab kamchiliklar aniqlandi. Kelgusi o'n yil ichida mashinani o'rganish va katta ma'lumotlar sog'liqni saqlash sohasining barcha jabhalarini yaxshilash uchun hamkorlik qiladi.
Mashinani o'rganish usullari ko'krak bezi saratonini genning klinik ko'rinishi va ekspressiyasining katta ma'lumotlaridan oldindan aniqlashni yaxshilaydi [ 26 ]. Gupta va boshqalar. da [ 26 ] ko'krak bezi saratoni sohasida ma'lumotlar tahliliy asoslari, asboblari, texnikasi va mashinani o'rganish usullarini qo'llash bo'yicha tadqiqot o'tkazdi, xususan, saratonning qaytalanishi, saratondan omon qolish, saratonni aniqlash va bashorat qilish sohalarida. Ular sun'iy neyron tarmog'i (ANN) va qo'llab-quvvatlash vektor mashinasi (SVM) ko'krak saratonini aniqlash uchun eng ko'p ishlatiladigan mashinani o'rganish usullaridan ikkitasi ekanligini aniqladilar. Apache Spark mashinani o'rganishning ko'plab ramkalari (ML) bilan ishlashi tasdiqlangan.
Katta ma'lumotlar ma'lumotlar to'plamiga asoslangan holda diabetning yaqinlashib kelayotgan xavfini bashorat qilishi va shunga mos ravishda davolanishni ta'minlashi mumkin [ 35 ]. Saxena [ 35 ] da diabet bo'yicha mashinani o'rganish algoritmlari va xabardorlikni bashorat qilish modelini o'rganib chiqdi. Boshqa ML algoritmlari bilan solishtirganda, Random Forest (RF) va Support Vector Machine (SVM) algoritmlari bashorat qilishning yaxshi natijalarini beradi.
36 ], chuqur o'rganishga (DL) e'tibor qaratgan holda, atrof-muhit va suvni boshqarishda (EWM) katta ma'lumotlar va mashinani o'rganish (ML) ilovalari bo'yicha dalillarga asoslangan so'rovni taqdim etdilar . Ushbu so'rovning maqsadi EWM-da ma'lumotlarga asoslangan tadqiqotlarning potentsiali va afzalliklarini ko'rib chiqish, katta ma'lumotlar va mashinalarni o'rganish bo'yicha asosiy tushunchalar va usullarning qisqacha mazmunini taqdim etish, joriy ilovalarni tizimli ko'rib chiqish va nihoyat asosiy muammolarni muhokama qilish va muammolar, shuningdek, kelajakdagi tadqiqot yo'nalishlarini taklif qiladi.
37 ] da dinamik xususiyatni tanlash dekompozitsiyasi bilan amalga oshirildi . Tadqiqotchi xususiyatlarni tanlash uchun tasodifiy xususiyatlarni birlashtirish usulini taklif qilish uchun CC dan foydalangan va etti xil ma'lumotlar to'plamida oltita ML tasniflagichining ishlashini baholagan. Uning tadqiqoti shuni ko'rsatdiki, xususiyat tanlash usuli xasnomajor ta'sir klassifikatoriperformance.Italslookedattheimpactoffeature tan turli ma'lumotlar to'plamlarida, shu jumladan, ko'p sonli namunalarga ega, lekin bir nechta xususiyatlarga ega bo'lganlar, shuningdek, kam sonli namunalarga ega, lekin ko'p xususiyatlar. Tavsiya etilgan CC asosidagi tarkibning samaradorligi klassifikatorning ishlashini aniqlik, sezgirlik va o'ziga xoslik o'rtasidagi taqqoslash orqali aniqlanadi. Xususiyatlarni tanlashda muammoni sinchkovlik bilan tahlil qilish texnikasi eng yuqori samaradorlikka olib kelishi mumkin bo'lsa-da, tadqiqotchi CCga asoslangan yondashuvlarning to'liq imkoniyatlarini amalga oshirish uchun faqat to'g'ri parchalanish strategiyasining o'zi etarli emas deb hisoblaydi. CC-ga asoslangan texnikalar uchun har bir kichik populyatsiyani ishlab chiqish uchun mos optimallashtiruvchi va butun yechim faylini yaratish uchun tegishli hamkorlik texnologiyasi talab qilinadi.
CatBoost - bu GBDT oilasiga mansub mashinani o'rganish to'plami texnologiyasi. CatBoost 2018-yil oxirida ishga tushirilganidan buyon katta maʼlumotlardan foydalanadigan mashinani oʻrganish loyihalarida muvaffaqiyatli qoʻllanildi. Shu nuqtai nazardan, [ 38 ] tadqiqotchilari CatBoost tadqiqotlarini katta maʼlumotlarga taalluqli boʻlishini koʻrib chiqdilar va CatBoost-ni koʻrsatadigan tadqiqotlardan eng yaxshi tajribalarni olishdi. boshqa texnologiyalardan, shuningdek, CatBoost-ning pastligini ko'rsatadigan texnologiyalardan ustun bo'ling. CatBoost shuningdek, kategorik va heterojen ma'lumotlarni talab qiladigan mashinani o'rganish ilovalari uchun juda mos keladi, chunki bu qarorlar daraxtiga asoslangan yondashuv.
39 ] tadqiqotchilari qishloq xoʻjaligida katta maʼlumotlar va mashinani oʻrganishdan foydalanish boʻyicha maʼlumot taklif qildilar, muammolar va oʻzgarishlarni taʼkidladilar, bu tizimlar uchun arxitekturalarni yaratdilar va tizimli adabiyotlarni koʻrib chiqish (SLR) oʻtkazdilar, bu ularga 34 real-dunyo qishloq xoʻjaligi misollarini tekshirish imkonini berdi. Topilmalar shuni ko'rsatdiki, bulutli texnologiyalar tufayli katta hajmdagi ma'lumotlarni qayta ishlash endi muammo emas. Fermerlar odatda tushunmaydigan texnik ma'lumotlarni qo'llab-quvvatlovchi xom, yarim qayta ishlangan va qayta ishlangan (qiymat ma'lumotlari) va axborotni vizualizatsiya qilish tizimlarida ma'lumotlarning turli bosqichlarida nazorat qilinmaganligi sababli, ishlov berish tezligi qiyinligicha qolmoqda.
[ 40 ] da hayvonlarni saqlashga ko'proq go'sht va chorvachilik mahsulotlarini ishlab chiqarishga yordam berish nuqtai nazaridan sensorli texnologiyalar tomonidan qo'yilgan qiyinchiliklar va imkoniyatlar ochib berilgan. Xususan, ushbu maqola chorvadorlarga ishlab chiqarish xarajatlarini kamaytirish, samaradorlikni oshirish, hayvonlarning farovonligini oshirish va gektariga ko'proq hayvonlarni ko'paytirishga yordam berishda sensorlar, katta ma'lumotlar, sun'iy ma'lumotlar va mashinalarni o'rganishning rolini o'rganadi. Shuningdek, u texnologiyaning qiyinchiliklari va cheklovlarini o'rganadi. Tadqiqotchilar chorvachilik texnologiyasining fermerlarga hayvonlarning sog'lig'ini yaxshilash, foydani oshirish va atrof-muhitga ta'sirini kamaytirishga yordam berishdagi ahamiyatini tushunish uchun ko'plab ilovalarni keltirdilar.
Ma'lumotnoma [ 8 ] aqlli bino sohasida katta ma'lumotlar tahlili va mashinani o'rganish texnikasining roliga qaratilgan. U mashinani o'rganish va katta ma'lumotlar ilovalari, xususan, aqlli xizmatlar va infratuzilmani rivojlantirish bo'yicha ilmiy maqolalarni batafsil ko'rib chiqdi.
Ko'pgina tadqiqotlar hisob-kitoblarga asoslangan eksperimentlarni o'tkazdi va tasvirlarni tasniflash muammosida ishlatiladigan ko'plab mashinani o'rganish algoritmlarini taqqoslashdi. Ulardan biri [ 41 ]. Buning natijasi shundaki, chuqur konvolyutsion tarmoq eng yaxshi ko'rsatkichga ega. Logistic regression, multilayer perceptron va Stacked noising auto-koderlar bilan solishtirganda xatolik darajasi kamroq. GPUda ishlaydigan konvolyutsion neyron tarmog'i vaqtni sezilarli darajada qisqartirishni ta'minladi. Bu, shuningdek, konvolyutsiyalar bilan operatsiyalar uchun sozlangan NVidia ning cudnn kutubxonasi bilan bog'liq [ 41 ].
Chiziqli tezlatgich manbalarida individual terahertz impulslarining spektral shakli va vaqtinchalik kechikish to'g'ridan-to'g'ri mashinani o'rganish algoritmlari yordamida to'g'ri prognoz qilinishi mumkin [ 42 ]. FPGA va GPU kabi heterojen protsessorlarda bu algoritmlar chuqur va maxsus sun'iy neyron tarmoqlarini (ANN) o'rgatish uchun katta hajmdagi ma'lumotlarni qayta ishlashi mumkin [ 42 ].
Katta astronomik ma'lumotlarga shoshilinch ehtiyoj tufayli mashinani o'rganish turli xil ma'lumotlar jarayonlarini, jumladan, ma'lumotlarni tasniflash, bashorat qilish va arxivlashni qondirish uchun keng qo'llanila boshlandi [43 ] . Takroriy neyron tarmog'i (RNN) turli vaqt nuqtalari orasidagi o'zaro ta'sirlar va ulanishlarni aniqlash qobiliyati tufayli vaqt seriyalarini tahlil qilish uchun ayniqsa samarali ekanligi keng tarqalgan edi [ 43 ].
Katta ma'lumotlarni qayta ishlash texnikasi va mashinani o'rganish algoritmlarining qo'llanilishi tarmoqqa hujum va anomaliyalarni aniqlashdir. Ma'lumotnoma [ 44 ] mashinani o'rganish algoritmlari va katta ma'lumotlarni qayta ishlash texnikasi aralashmasidan foydalangan holda tarmoqqa hujum va kiberxavfsizlik ma'lumotlar to'plamlaridagi anomaliyalarni aniqlash uchun yondashuvni taqdim etdi. Tarmoqqa hujum va anomaliyalarni aniqlash uchun taklif qilingan yondashuvni tekshirish uchun ikkita alohida ma'lumotlar to'plami ishlatilgan. Birinchi to'plam mobil IoT tarmog'ida yaratilgan va 7 009 270 nusxaga ega. Ikkinchi to'plam 500 000 dan ortiq elementlarni o'z ichiga olgan va ikki turdagi hujumlarni ifodalovchi CICIDS2017 ma'lumotlar to'plami: portni skanerlash va DDoS. Ushbu yondashuvning asosi dastlabki ma'lumotlar to'plamini tahlil qilish, muammoli ob'ektlarni tasniflash, mashinani o'rganish texnikasi aralashmasi (k-eng yaqin qo'shnilar, vektor mashinalarini qo'llab-quvvatlash, chiziqli regressiya, Gauss nave Bayes, qarorlar daraxti va ikki qavatli va almashish uchun) qiyinchiliklarni kamaytirish uchun asosiy komponentlarni tahlil qilishdan iborat. tasniflagichlar.
Do'stlaringiz bilan baham: |