Ўзбекистон республикаси ахборот технологиялари ва коммуникацияларини ривожлантириш вазирлиги муҳаммад ал-хоразмий номидаги



Download 7,66 Mb.
Pdf ko'rish
bet202/267
Sana25.02.2022
Hajmi7,66 Mb.
#300373
1   ...   198   199   200   201   202   203   204   205   ...   267
Bog'liq
туплам 21(06.04)

МАТНЛАРНИ ТАСНИФЛАШ МОДЕЛЛАРИ 
Б.И.Отахонова (таянч докторант,Муҳаммад ал-Хоразмий номидаги ТАТУ)
 
Матн таснифлаш табиий тилни қайта ишлаш (NLP) муаммоси бўлиб, у 
таклифлар, сўровлар, хатбошилар ва ҳужжатлар каби матн бирликларига 
йўналтирилгандир. Ҳозирги кунда матнларни таснифлашнинг саволларга 
жавоб бериш, спамларни аниқлаш, ҳиссиётларни таҳлил қилиш, 
янгиликларни туркумлаш, фойдаланувчи ниятини таснифлаш, таркибни 
бошқариш ва бошқаларни ўз ичига олувчи турли хил иловалари мавжуд. 
Мазкур иловалар матнли маълумотларни турли хил манбалардан олиши 


426 
мумкин, жумладан веб-маълумотлар, электрон почта хабарлари, суҳбатлар, 
ижтимоий тармоқлар, чипталар, суғурта тўловлари, фойдаланувчи шарҳлари 
ва мижозларга хизмат кўрсатиш бўйича саволлар ва жавоблардан олиши 
мумкин [1].
Матн – бу улкан маълумот манбаи ҳисобланади. Бироқ матндан 
маълумотни ажратиб олиш ўта мураккаб масаладир. Бунда унинг тузилмага 
эга бўлмаганли маълумотни ажратиб олиш учун кўп вақт талаб қилишига 
сабаб бўлади. 
Матнни таснифлаш оғзаки изоҳлаш ёки автоматик белгилаш орқали 
амалга оширилиши мумкин. Матнли маълумотлар ҳажмини кун сайин ортиб 
бориши матнни автоматик таснифлашда турли хил муаммоларни келтириб 
чиқармоқда. Матнларни автоматик таснифлаш ёндашувларни иккита тоифага 
ажратиш мумкин: қоидаларга асосланган усуллар; машинали ўқитиш 
усуллари (маълумотлар асосида); 
Қоидаларга асосланган усуллар предмет соҳаси бўйича чуқур 
билимларни талаб қилиб, олдиндан шакллантирилган қоидалар асосида 
матнларни турли тоифаларга ажратишни амалга оширади. Машинали ўқитиш 
ёндашувлари эса маълумотларни кузатиш асосида матнларни таснифлашни 
ўргатади [2]. 
Сўнгги йилларда тадқиқотчилар қоидаларга асосланган усуллар 
нисбатан машинали ўқитиш усулларига катта эътибор қаратишмоқда. 
Классик машинали ўқитиш моделларининг аксарияти икки босқичли проце-
дура асосида амалга оширилади. Унинг биринчи босқичида қўлда яратилган 
баъзи функциялар ҳужжатлардан (ёки бошқа ҳар қандай матн бирликлари-
дан) ажратиб олинади. Иккинчи босқичида бу хусусиятлар башоратлаш учун 
таснифлагичга юборилади. Қўлда ишланган машҳур хусусиятларга сўзлар 
тўплами (BоW) ва уларнинг кенгайтмалари киради. Машҳур таснифлаш 
алгоритмларига оддий Байес алгоритми, таянч векторлар машинаси (Support 
Vektors Machine), Яширин Марков модели (Hidden Markov Models) ва 
бошқалар киради. Икки босқичли ёндашув бир нечта чекловларга эга. 
Масалан, қўлда ишланган функциялардан самарали натижаларни олиш учун 
мураккаб ишланма ва функциялар таҳлилини талаб қилади. Бундан ташқари, 
функцияларни ишлаб чиқишда предмет соҳа билимларига кучли боғлиқлик, 
янги масалаларни ечиш учун усулларни умумлаштиришни мураккаблаш-
тиради. Функциялар (ёки функция шаблонлари) олдиндан шакллантирилган-
лиги учун мазкур моделлардан катта ўқув маълумотларида тўлиқ фойдаланиб 
бўлмайди [3]. Матнларни таснифлаш учун 150 дан ортиқ чуқур ўқитиш 
моделларини [4] ишда таҳлил қилинган бўлиб, унда ушбу моделларни модель 
тузилишига кўра қуйидаги тоифаларга ажратилган: 
• Тўғрига узатиш тармоқлари. Бунда матн сўзлар тўплами сифатида 
қаралади. 
• RNN-га асосланган моделларда матн сўзлар кетма-кетлиги сифатида 
қаралади. Бунда тармоқни сўзлар ўзаро боғлиқликлари ва матн тузилмалари 
эслаб қолиши талаб этилади.


427 
• CNN-га асосланган моделлар матндаги асосий иборалар каби 
андозаларни таниб олишига ўқитилган бўлиб, матнни таснифлаш шу 
андозалар асосида амалга оширилади.
• Қобиқ тармоқлар ахборот йўқотилиш муаммосини ҳал этишга 
йўналтирилган бўлиб, у матндаги ўзаро боғлиқ сўзларни аниқлашда чуқур 
ўқитиш (DL) моделларини ишлаб чиқишда фойдали восита ҳисобланади. 
• Кенгайтирилган хотирали тармоқлар нейрон тармоқларини моделлар 
ўқиши ва ёзиши мумкин ташқи хотира билан бирлаштиради.
• График нейрон тармоқлари синтактик ва семантик ажралиш 
дарахтлари каби табиий тил графикалари ички тузилмаларини олишга 
мўлжалланган. 
• Сиям нейрон тармоқлари матнларни солиштириш учун мўлжалланган 
бўлиб, у матнларни таснифлашнинг хусусий ҳоли ҳисобланади. 
• Гибрид моделлар RNN, CNN ва бошқа тармоқларни жумлалар ва 
ҳужжатларнинг маҳаллий ва глобал хусусиятларини аниқлаш мақсадида 
бирлаштирилади. Бунда таснифлаш аниқланган хусусиятлар асосида амалга 
оширилади.
• Трансформерлар RNN-ларга қараганда параллелликни анча яхшироқ 
таъминлайди, бу эса график процессорлардан фойдаланган ҳолда жуда катта 
тил моделларини самарали ўқитиш имконини беради [4]. 
Матнларни таснифлашда юқоридаги келтирилган усулларни айрим 
соҳаларда юқори самаралар беришига қарамай, бугунги кунда матнли 
маълумотларни таҳлил қилиш учун янада самарадор усулларни ишлаб чиқиш 
бўйича изланишлар олиб бориш, мавжуд усуллар самарадорлигини ошириш 
каби масалалар дорзарблигича қолмоқда. 
Адабиётлар 
1. P. Liu, X. Qiu, and X. Huang, “Recurrent neural network for text classification with multi-task 
learning,” arXiv preprint arXiv:1605.05101, 2016. 
2. J. Kim, S. Jang, E. Park, and S. Choi, “Text classification using capsules,” Neurocomputing, 
vol. 376, pp. 214–221, 2020. 
3. X. Qiu, T. Sun, Y. Xu, Y. Shao, N. Dai, and X. Huang, “Pre-trained models for natural 
language processing: A survey,” arXiv preprint arXiv:2003.08271, 2020. 
4. Sh.Minaee, N.Kalchbrenner, E.Cambria, N.Nikzad, M.Chenaghlu, J.Gao, “Deep Learning 
Based Text Classification: A Comprehensive Review” arXiv:2004.03705v3 [cs.CL] 4 Jan 2021. 

Download 7,66 Mb.

Do'stlaringiz bilan baham:
1   ...   198   199   200   201   202   203   204   205   ...   267




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish