426
мумкин, жумладан веб-маълумотлар, электрон почта хабарлари, суҳбатлар,
ижтимоий тармоқлар, чипталар, суғурта тўловлари, фойдаланувчи шарҳлари
ва мижозларга хизмат кўрсатиш бўйича саволлар ва
жавоблардан олиши
мумкин [1].
Матн – бу улкан маълумот манбаи ҳисобланади. Бироқ матндан
маълумотни ажратиб олиш ўта мураккаб масаладир. Бунда унинг тузилмага
эга бўлмаганли маълумотни ажратиб олиш учун кўп вақт талаб қилишига
сабаб бўлади.
Матнни таснифлаш оғзаки изоҳлаш ёки автоматик белгилаш орқали
амалга оширилиши мумкин. Матнли маълумотлар ҳажмини кун сайин ортиб
бориши матнни автоматик таснифлашда турли
хил муаммоларни келтириб
чиқармоқда. Матнларни автоматик таснифлаш ёндашувларни иккита тоифага
ажратиш мумкин: қоидаларга асосланган усуллар; машинали ўқитиш
усуллари (маълумотлар асосида);
Қоидаларга асосланган усуллар предмет соҳаси бўйича чуқур
билимларни талаб қилиб, олдиндан шакллантирилган қоидалар асосида
матнларни турли тоифаларга ажратишни амалга оширади. Машинали ўқитиш
ёндашувлари эса маълумотларни кузатиш асосида матнларни таснифлашни
ўргатади [2].
Сўнгги йилларда тадқиқотчилар қоидаларга
асосланган усуллар
нисбатан машинали ўқитиш усулларига катта эътибор қаратишмоқда.
Классик машинали ўқитиш моделларининг аксарияти икки босқичли проце-
дура асосида амалга оширилади. Унинг биринчи босқичида қўлда яратилган
баъзи функциялар ҳужжатлардан (ёки бошқа ҳар қандай матн бирликлари-
дан) ажратиб олинади. Иккинчи босқичида бу хусусиятлар башоратлаш учун
таснифлагичга юборилади. Қўлда ишланган машҳур хусусиятларга сўзлар
тўплами (BоW) ва уларнинг кенгайтмалари киради. Машҳур таснифлаш
алгоритмларига оддий Байес алгоритми, таянч векторлар машинаси (Support
Vektors Machine), Яширин Марков модели (Hidden Markov Models) ва
бошқалар киради. Икки босқичли ёндашув бир нечта чекловларга эга.
Масалан, қўлда ишланган функциялардан самарали натижаларни олиш учун
мураккаб ишланма ва функциялар таҳлилини талаб қилади. Бундан ташқари,
функцияларни ишлаб чиқишда предмет соҳа билимларига кучли боғлиқлик,
янги масалаларни ечиш учун усулларни умумлаштиришни мураккаблаш-
тиради. Функциялар (ёки функция шаблонлари) олдиндан шакллантирилган-
лиги учун мазкур моделлардан катта ўқув маълумотларида тўлиқ фойдаланиб
бўлмайди [3]. Матнларни таснифлаш учун 150 дан ортиқ чуқур ўқитиш
моделларини [4] ишда таҳлил қилинган бўлиб, унда ушбу моделларни модель
тузилишига кўра қуйидаги тоифаларга ажратилган:
• Тўғрига узатиш тармоқлари. Бунда матн сўзлар тўплами
сифатида
қаралади.
• RNN-га асосланган моделларда матн сўзлар кетма-кетлиги сифатида
қаралади. Бунда тармоқни сўзлар ўзаро боғлиқликлари ва матн тузилмалари
эслаб қолиши талаб этилади.
427
• CNN-га асосланган моделлар матндаги асосий иборалар каби
андозаларни таниб олишига ўқитилган бўлиб, матнни таснифлаш шу
андозалар асосида амалга оширилади.
• Қобиқ тармоқлар ахборот йўқотилиш муаммосини ҳал
этишга
йўналтирилган бўлиб, у матндаги ўзаро боғлиқ сўзларни аниқлашда чуқур
ўқитиш (DL) моделларини ишлаб чиқишда фойдали восита ҳисобланади.
• Кенгайтирилган хотирали тармоқлар нейрон тармоқларини моделлар
ўқиши ва ёзиши мумкин ташқи хотира билан бирлаштиради.
• График нейрон тармоқлари синтактик ва семантик ажралиш
дарахтлари каби табиий тил графикалари ички тузилмаларини олишга
мўлжалланган.
• Сиям нейрон тармоқлари матнларни солиштириш учун мўлжалланган
бўлиб, у матнларни таснифлашнинг хусусий ҳоли ҳисобланади.
• Гибрид моделлар RNN, CNN ва бошқа тармоқларни жумлалар ва
ҳужжатларнинг маҳаллий ва глобал хусусиятларини аниқлаш мақсадида
бирлаштирилади. Бунда таснифлаш аниқланган
хусусиятлар асосида амалга
оширилади.
• Трансформерлар RNN-ларга қараганда параллелликни анча яхшироқ
таъминлайди, бу эса график процессорлардан фойдаланган ҳолда жуда катта
тил моделларини самарали ўқитиш имконини беради [4].
Матнларни таснифлашда юқоридаги келтирилган усулларни айрим
соҳаларда юқори самаралар беришига қарамай, бугунги кунда матнли
маълумотларни таҳлил қилиш учун янада самарадор усулларни ишлаб чиқиш
бўйича изланишлар олиб бориш, мавжуд усуллар самарадорлигини ошириш
каби масалалар дорзарблигича қолмоқда.
Адабиётлар
1. P. Liu, X. Qiu, and X. Huang, “Recurrent neural network for text classification with multi-task
learning,” arXiv preprint arXiv:1605.05101, 2016.
2. J. Kim, S. Jang, E. Park, and S. Choi, “Text classification using capsules,” Neurocomputing,
vol. 376, pp. 214–221, 2020.
3. X. Qiu, T. Sun, Y. Xu, Y. Shao, N. Dai, and X. Huang, “Pre-trained
models for natural
language processing: A survey,” arXiv preprint arXiv:2003.08271, 2020.
4. Sh.Minaee, N.Kalchbrenner, E.Cambria, N.Nikzad, M.Chenaghlu, J.Gao, “Deep Learning
Based Text Classification: A Comprehensive Review” arXiv:2004.03705v3 [cs.CL] 4 Jan 2021.
Do'stlaringiz bilan baham: