416
маълумотларни автоматик туркумлашни талаб қилади. Матнларни
машинавий таснифлаш муаммоларидан бири шундан иборатки, матн
маълумотлари ҳужжатга киритилган барча сўзларнинг миқдорий
таркибига
кўра ҳар доим ҳам аниқ синфлардан бирига аниқ тайинланавермайди. Бу
муаммоларнинг ечими матн ичидаги сўзларнинг нисбий ўрнини ҳисобга
олувчи таснифлаш тизимини ишлаб чиқишдан иборат. Айни пайтда, матнли
маълумотларни таснифлаш тизимларини тадқиқ қилиш бўйича етарлича кўп
миқдорда материаллар мавжуд, лекин қорақалпок тилидаги матнлар
мажмуидан иборат маълумотларни автоматик таснифлаш тизимлари ҳақида
деярли ҳеч қандай тадқиқотлар йўқ. Қоракалпок тили грамматикасининг
ўзига хос хусусиятлари бундай тизимлар натижаларига сезиларли даражада
таъсир қилиши мумкин. Ушбу мақолада автоматик таснифлаш усулларининг
қиёсий таҳлили амалга оширилади ва қорақалпоқ
тилидаги маълумотлар
корпуси учун тадқиқ қилинаётган тизимларнинг ишлаш натижалари ҳақида
хулосалар чиқарилади.
Таснифлаш масаласининг ечимини 2 та асосий босқичга бўлиш мумкин:
матнли маълумотларга дастлабки ишлов бериш ва машинали ўқитиш
алгоритми. Биринчи қадам берилган матнни сонли вектор ёки матрица
кўринишидаги белгилар тўпламига айлантиришдан иборат. Иккинчи
босқичда вектор ёки матрица шаклидаги матн белгилар тўплами асосида
матннинг тематик тегишлилигини аниқлай оладиган машинали ўқитиш
алгоритмларидан бири амалга оширилади.
Матнли маълумотларга дастлабки ишлов бериш. Бу босқичда бир қатор
вазифаларни бажариш керак: матндан харф бўлмаган белгиларни, якка ўзи
ҳеч қандай маъно билдирмайдиган сўзлар – тўхташ сўзларни
олиб ташлаш,
матнни токенлар мажмуасига бўлиш, сўз асосига ўтказиш амалларини
бажариш. Ҳарф бўлмаган белгилар ва тўхташ сўзларни олиб ташлаш
стандарт амал бўлиб, бу матнни умумий мавзусига оз таъсир қилувчи ёки
кераксиз элементлардан тозалаш имконини беради. Сўзни негизига камай-
тириш учун икки усулдан бири қўлланилади: стемминг ва лемматизация,
биринчи ҳолда, сўз охири маълум бир алгоритм бўйича
тахминан кесилади,
иккинчи ҳолда, сўз тил грамматикасига кўра дастлабки шаклига туширилади.
Матнлар мавзусини аниқлаш алгоритмини ўқитиш олдиндан белгилан-
ган маълумотлар корпусини талаб қилади. Матнларнинг корпуси [1] ишдан
олинган. Ушбу мақолада онлайн нашрнинг 120 мингдан ортиқ янгиликлар
тўплами танланган инглиз тилида 4 тоифага бўлинган. Ҳар бир янгилик
мақоласи, асосий матн ва сарлавҳадан ташқари, мавзу ёрлиғига эга, ҳар бир
мавзу алоҳида туркумдир. Барча матнлар тўплами 2 гуруҳга бўлинди: ўқув ва
тест, бу ерда ўқув танланмасининг ҳажми матнлар умумий сонининг 80% ни
ташкил этади. Нейрон тармоқларининг айрим кенг тарқалган
моделлари
билан тадқиқотлар олиб борилган [2]. Бундан ташқари, уларнинг баъзилари
алоҳида кўриб чиқилади.
417
1-расм.Ўрамали нейрон тармоқ
Ўрамали нейрон тармоқ. Ҳозирги кунда ўрамали нейрон тармоқ CNN
(convolutional neural network) модели тимсолларни аниқлаш масалаларини
ҳал қилишда фаол қўлланилмоқда. Бундай масалаларни ечишда кириш
маълумотлари ўзгармас ўлчамли матрица ҳисобланади. Матрицани сўзлар-
нинг векторли ифодалаш алгоритми ёрдамида олинган векторларни қуриш
мумкин. Алгоритмнинг моҳияти ўрам амалининг рақамли матрица устида,
нейронларни фаоллаштириш учун муқобил қўлланилиши ва
матрицанинг
ўлчамини камайтиришдан иборат. Натижада матрица тўғридан-тўғри тарқа-
лиш тармоғининг киришига боқланган векторга айланади.
2-расм. Такрорланувчи нейрон тармоқ
Такрорланувчи нейрон тармоқ. Айни пайтда такрорланувчи нейрон
тармоқларига асосланган турли алгоритмлар мавжуд ва улардан энг кенг
тарқалгани LSTM тармоқ (Long short-term memory). Бундан ташқари BLSTM
(Bidirectional Long short-term memor) кириш массивини олдинга ва тескари
йўналишларда ўтказувчи LSTM блокларидан иборат нейрон тармоқ ҳам кенг
қўлланилади [3]. Такрорланувчи нейрон тармоқ учун берилаётган
маълумотларнинг кетма-кетлиги муҳим аҳамиятга эга ҳисобланади. Демак,
тармоққа бир нечта маълумотлар тўпламини жўнатишда тармоқнинг чиқиш
ҳолати нафақат жорий кириш, балки илгари
юборилган маълумотлар билан
ҳам аниқланади. LSTM тармоқларининг афзаллиги шундаки, улар тўпланган
ахборотни номаълум муддатга сақлаш имконини беради. Барча тадқиқот
натижалари қуйидаги жадвалда умумлаштирилган.
Таснифлаш алгоритм моделларини таққослаш (1-жадвал)
Модель
Аниқлик
Ўқитиш вақти, сек
CNN
0,894
39563
BLSTM
0,905
15892
LSTM
0,901
12685
Жадвалда энг яхши таснифлаш аниқлиги нейрон тармоқ алгоритми
томонидан икки йўналишли LSTM қатлами билан таъминланганлиги, бу
алгоритм билан бошқаси ўртасидаги фарқ эса жуда кичик эканлиги
кўрсатилган. Бу алгоритм бевосита тарқалиш тармоғига эга бўлган
418
алгоритмнинг ҳар қандай конфигурацияси моделининг ўқитиш вақтидан анча
катта бўлган вақт ичида амалга оширади. Ўрамали нейрон тармоғига
асосланган нейрон тармоғи такрорланувчи тармоқлар билан таққосланадиган
жуда юқори аниқликка эга, аммо жуда узоқ вақт ўқитишни талаб қилади.
Хулоса. Ушбу мақолада биз қорақалпоқ тилидаги матнларнинг
янгиликлар корпусида матнли маълумотларни
автоматик таснифлаш учун
умумий алгоритмларни қиёсий таҳлил қилдик. Натижалар шуни кўрсатадики,
LSTM қатлами билан такрорланувчи нейрон тармоқлари қорақалпоқ
тилидаги маълумотлар корпуси матнларини таснифлашда жуда яхши ишлаш
натижаларини кўрсатди. Ўрамали нейрон тармоқлари ҳам жуда юқори
даражадаги таснифлаш аниқлигини намойиш этади. Ушбу тадқиқот матн
маълумотларини таҳлил қилишнинг айрим умумий моделлари ўртасидаги
фарқни кўрсатади ва қорақалпоқ тилидаги маълумотлар корпусида
матнларни таснифлаш масаласини ҳал қилиш асосида уларнинг ишлаш
кўрсаткичларини намойиш этади. Кейинги тадқиқотлар табиий тилларни
қайта ишлашнинг турли муаммоларини ҳал қилиш учун олинган натижалар
асосида матнли маълумотларни таҳлил қилишнинг
мавжуд алгоритмларини
такомиллаштиришга қаратилган бўлиши мумкин. Олиб борилган
тадқиқотлар мазкур ёндашувдан қорақалпоқ тилидаги матни автоматик таниб
олиш тизимини яратишда фойдаланиш зарурлигини кўрсатди.
Фойдаланилган адабиётлар
1.https://github.com/rajan-blackboxes/News-classification-webapp/tree/master/data
(train.csv,
test.csv)
2.Kowsari K., Jafari Meimandi K., Heidarysafa M., Mendu S., Barnes L., Brown D. Text
Classification Algorithms: A.Survey. Information 2019, 10(4), 150
3.Tao Chen, Ruifeng Xu, Yulan He, Xuan Wang. Improving sentiment analysis via
sentence type classification using BiLSTM-CRF and CNN. Expert Systems with Applications.
Vol. 72. 2017. P. 221-230
Do'stlaringiz bilan baham: