Ўзбекистон республикаси ахборот технологиялари ва коммуникацияларини ривожлантириш вазирлиги муҳаммад ал-хоразмий номидаги



Download 7,67 Mb.
Pdf ko'rish
bet190/260
Sana25.02.2022
Hajmi7,67 Mb.
#291106
1   ...   186   187   188   189   190   191   192   193   ...   260
Bog'liq
2-qism-toplam-4-5-mart

ҚОРАҚАЛПОҚ ТИЛИДАГИ МАТНЛАРНИ 
АВТОМАТИК ТАСНИФЛАШ УСУЛЛАРИНИ ТАҚҚОСЛАШ 
Н.А.Ниёзматова (Муҳаммад ал-Хоразмий номидаги ТАТУ доценти)
Д.Х.Қонарбаев (Муҳаммад ал-Хоразмий номидаги ТАТУ магистранти)
Интернет сайтлари очиқ манбаларида ва ёпиқ маълумотлар базаларида 
сақланаётган кўп миқдордаги матнли маълумотлар ушбу маълумотларни 
таҳлил қилиш учун юқори сифатли воситаларни, хусусан, ушбу 


416 
маълумотларни автоматик туркумлашни талаб қилади. Матнларни 
машинавий таснифлаш муаммоларидан бири шундан иборатки, матн 
маълумотлари ҳужжатга киритилган барча сўзларнинг миқдорий таркибига 
кўра ҳар доим ҳам аниқ синфлардан бирига аниқ тайинланавермайди. Бу 
муаммоларнинг ечими матн ичидаги сўзларнинг нисбий ўрнини ҳисобга 
олувчи таснифлаш тизимини ишлаб чиқишдан иборат. Айни пайтда, матнли 
маълумотларни таснифлаш тизимларини тадқиқ қилиш бўйича етарлича кўп 
миқдорда материаллар мавжуд, лекин қорақалпок тилидаги матнлар 
мажмуидан иборат маълумотларни автоматик таснифлаш тизимлари ҳақида 
деярли ҳеч қандай тадқиқотлар йўқ. Қоракалпок тили грамматикасининг 
ўзига хос хусусиятлари бундай тизимлар натижаларига сезиларли даражада 
таъсир қилиши мумкин. Ушбу мақолада автоматик таснифлаш усулларининг 
қиёсий таҳлили амалга оширилади ва қорақалпоқ тилидаги маълумотлар 
корпуси учун тадқиқ қилинаётган тизимларнинг ишлаш натижалари ҳақида 
хулосалар чиқарилади. 
Таснифлаш масаласининг ечимини 2 та асосий босқичга бўлиш мумкин: 
матнли маълумотларга дастлабки ишлов бериш ва машинали ўқитиш 
алгоритми. Биринчи қадам берилган матнни сонли вектор ёки матрица 
кўринишидаги белгилар тўпламига айлантиришдан иборат. Иккинчи 
босқичда вектор ёки матрица шаклидаги матн белгилар тўплами асосида 
матннинг тематик тегишлилигини аниқлай оладиган машинали ўқитиш 
алгоритмларидан бири амалга оширилади.
Матнли маълумотларга дастлабки ишлов бериш. Бу босқичда бир қатор 
вазифаларни бажариш керак: матндан харф бўлмаган белгиларни, якка ўзи 
ҳеч қандай маъно билдирмайдиган сўзлар – тўхташ сўзларни олиб ташлаш, 
матнни токенлар мажмуасига бўлиш, сўз асосига ўтказиш амалларини 
бажариш. Ҳарф бўлмаган белгилар ва тўхташ сўзларни олиб ташлаш 
стандарт амал бўлиб, бу матнни умумий мавзусига оз таъсир қилувчи ёки 
кераксиз элементлардан тозалаш имконини беради. Сўзни негизига камай-
тириш учун икки усулдан бири қўлланилади: стемминг ва лемматизация, 
биринчи ҳолда, сўз охири маълум бир алгоритм бўйича тахминан кесилади, 
иккинчи ҳолда, сўз тил грамматикасига кўра дастлабки шаклига туширилади. 
Матнлар мавзусини аниқлаш алгоритмини ўқитиш олдиндан белгилан-
ган маълумотлар корпусини талаб қилади. Матнларнинг корпуси [1] ишдан 
олинган. Ушбу мақолада онлайн нашрнинг 120 мингдан ортиқ янгиликлар 
тўплами танланган инглиз тилида 4 тоифага бўлинган. Ҳар бир янгилик 
мақоласи, асосий матн ва сарлавҳадан ташқари, мавзу ёрлиғига эга, ҳар бир 
мавзу алоҳида туркумдир. Барча матнлар тўплами 2 гуруҳга бўлинди: ўқув ва 
тест, бу ерда ўқув танланмасининг ҳажми матнлар умумий сонининг 80% ни 
ташкил этади. Нейрон тармоқларининг айрим кенг тарқалган моделлари 
билан тадқиқотлар олиб борилган [2]. Бундан ташқари, уларнинг баъзилари 
алоҳида кўриб чиқилади.


417 
1-расм.Ўрамали нейрон тармоқ 
Ўрамали нейрон тармоқ. Ҳозирги кунда ўрамали нейрон тармоқ CNN 
(convolutional neural network) модели тимсолларни аниқлаш масалаларини 
ҳал қилишда фаол қўлланилмоқда. Бундай масалаларни ечишда кириш 
маълумотлари ўзгармас ўлчамли матрица ҳисобланади. Матрицани сўзлар-
нинг векторли ифодалаш алгоритми ёрдамида олинган векторларни қуриш 
мумкин. Алгоритмнинг моҳияти ўрам амалининг рақамли матрица устида, 
нейронларни фаоллаштириш учун муқобил қўлланилиши ва матрицанинг 
ўлчамини камайтиришдан иборат. Натижада матрица тўғридан-тўғри тарқа-
лиш тармоғининг киришига боқланган векторга айланади. 
2-расм. Такрорланувчи нейрон тармоқ 
Такрорланувчи нейрон тармоқ. Айни пайтда такрорланувчи нейрон 
тармоқларига асосланган турли алгоритмлар мавжуд ва улардан энг кенг 
тарқалгани LSTM тармоқ (Long short-term memory). Бундан ташқари BLSTM 
(Bidirectional Long short-term memor) кириш массивини олдинга ва тескари 
йўналишларда ўтказувчи LSTM блокларидан иборат нейрон тармоқ ҳам кенг 
қўлланилади [3]. Такрорланувчи нейрон тармоқ учун берилаётган 
маълумотларнинг кетма-кетлиги муҳим аҳамиятга эга ҳисобланади. Демак, 
тармоққа бир нечта маълумотлар тўпламини жўнатишда тармоқнинг чиқиш 
ҳолати нафақат жорий кириш, балки илгари юборилган маълумотлар билан 
ҳам аниқланади. LSTM тармоқларининг афзаллиги шундаки, улар тўпланган 
ахборотни номаълум муддатга сақлаш имконини беради. Барча тадқиқот 
натижалари қуйидаги жадвалда умумлаштирилган. 
Таснифлаш алгоритм моделларини таққослаш (1-жадвал) 
Модель 
Аниқлик 
Ўқитиш вақти, сек 
CNN
0,894
39563 
BLSTM
0,905
15892 
LSTM 
0,901
12685 
Жадвалда энг яхши таснифлаш аниқлиги нейрон тармоқ алгоритми 
томонидан икки йўналишли LSTM қатлами билан таъминланганлиги, бу 
алгоритм билан бошқаси ўртасидаги фарқ эса жуда кичик эканлиги 
кўрсатилган. Бу алгоритм бевосита тарқалиш тармоғига эга бўлган 


418 
алгоритмнинг ҳар қандай конфигурацияси моделининг ўқитиш вақтидан анча 
катта бўлган вақт ичида амалга оширади. Ўрамали нейрон тармоғига 
асосланган нейрон тармоғи такрорланувчи тармоқлар билан таққосланадиган 
жуда юқори аниқликка эга, аммо жуда узоқ вақт ўқитишни талаб қилади. 
Хулоса. Ушбу мақолада биз қорақалпоқ тилидаги матнларнинг 
янгиликлар корпусида матнли маълумотларни автоматик таснифлаш учун 
умумий алгоритмларни қиёсий таҳлил қилдик. Натижалар шуни кўрсатадики, 
LSTM қатлами билан такрорланувчи нейрон тармоқлари қорақалпоқ 
тилидаги маълумотлар корпуси матнларини таснифлашда жуда яхши ишлаш 
натижаларини кўрсатди. Ўрамали нейрон тармоқлари ҳам жуда юқори 
даражадаги таснифлаш аниқлигини намойиш этади. Ушбу тадқиқот матн 
маълумотларини таҳлил қилишнинг айрим умумий моделлари ўртасидаги 
фарқни кўрсатади ва қорақалпоқ тилидаги маълумотлар корпусида 
матнларни таснифлаш масаласини ҳал қилиш асосида уларнинг ишлаш 
кўрсаткичларини намойиш этади. Кейинги тадқиқотлар табиий тилларни 
қайта ишлашнинг турли муаммоларини ҳал қилиш учун олинган натижалар 
асосида матнли маълумотларни таҳлил қилишнинг мавжуд алгоритмларини 
такомиллаштиришга қаратилган бўлиши мумкин. Олиб борилган 
тадқиқотлар мазкур ёндашувдан қорақалпоқ тилидаги матни автоматик таниб 
олиш тизимини яратишда фойдаланиш зарурлигини кўрсатди. 
Фойдаланилган адабиётлар 
1.https://github.com/rajan-blackboxes/News-classification-webapp/tree/master/data 
(train.csv, 
test.csv) 
2.Kowsari K., Jafari Meimandi K., Heidarysafa M., Mendu S., Barnes L., Brown D. Text 
Classification Algorithms: A.Survey. Information 2019, 10(4), 150 
3.Tao Chen, Ruifeng Xu, Yulan He, Xuan Wang. Improving sentiment analysis via
sentence type classification using BiLSTM-CRF and CNN. Expert Systems with Applications. 
Vol. 72. 2017. P. 221-230

Download 7,67 Mb.

Do'stlaringiz bilan baham:
1   ...   186   187   188   189   190   191   192   193   ...   260




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish