Каримов Жасурбек Хасанбоевич Фарғона политехника институти Джолдасбаева Аксулу Багитовна



Download 43,08 Kb.
Sana17.04.2022
Hajmi43,08 Kb.
#559078
Bog'liq
Аксулу 2


ЛИСОНИЙ МОДЕЛЛАРНИ ТАДҚИҚ ЭТИШ ВА ИШЛАБ ЧИҚИШГА ОИД ДАСТУРИЙ ТЕХНОЛОГИЯЛАР
Каримов Жасурбек Хасанбоевич
Фарғона политехника институти
Джолдасбаева Аксулу Багитовна
Муҳаммад ал-Хоразмий номидаги Тошкент ахборот технологиялари университети Нукус филиали

Бугунги кунда табиий тилнинг компьютерга йўналтирилган лисоний моделларини яратиш, тадқиқ қилиш ва ундан фойдаланишга оид бир қатор дастурий технологиялар мавжуд. Улар сирасига дастурлаш тизимлари, лингвистик моделларни ўз ичига олган турли дастурий кутубхоналар, лингвистик процессор ва лингвистик базалар, морфологик ва семантик-синтактик анализаторлар каби табиий тилни қайта ишлашга мўлжалланган турли технологияларни киритиш мумкин.


Лингвистик маълумотларни автоматик қайта ишлаш бўйича кейинги йилларда олиб борилаётган тадқиқотлар негизида Java, Perl, C++, C#, Ruby, VB .NET, Scala ва R каби дастурлаш тизимлари орасида Python ўзининг жуда содда инструкциялари ва жуда катта ахборот сиғимига эга кутубхоналари билан энг марказий ўринда турганлигини эътироф этиш мумкин [1].
Хусусан, табиий тилдаги матнни қайта ишлаш методлари сифатида ҳозирги вақтда Python ва NLTK пакетларидан жаҳон миқёсида самарали фойдаланилмоқда [2].
Қуйида NLTK кутубхонанинг nltk.corpus модули ёрдамида муаллифлар томонидан лингвистик база сифатида шакллантирилган stop-words типидаги ўзбекча сўзларни чиқариб берувчи дастур матни билан танишамиз.
1. Дастлаб Python дастурини ишга туширамиз. Агар дастурга NLTK кутубхонаси ўрнатилмаган бўлса, уни ўрнатиш учун буйруқлар сатрига қуйидаги буйруқни терамиз:
>>> import nltk
>>> nltk download()
NLTK кутубхонасининг ахборот сиғими тахминан 4 Гб лар атрофида бўлиб, уни ўрнатиш онлайн тартибда амалга оширилади ва бу маълум муддат вақт талаб қилади.
2. Шундай қилиб, NLTK кутубхонаси юклангач, унинг nltk.corpus модули таркибидан stop-words типидаги сўзларни импорт қиламиз:
>>> from nltk.corpus import stopwords
3. Бу буйруқдан сўнг хотирага инглиз, рус, немис, француз, турк, тожик, қозоқ ва шунга ўхшаш 30 дан ортиқ тилларда мавжуд бўлган stop-words типидаги сўзлар юкланади. Ҳар бир тилдаги stop-words типли сўзлар алоҳида матн файли кўринишида ташкил этилган бўлиб, бу файллар қаторига ўзбек тилига оид stop-words сўзлар файлини қўшиб қўямиз ва шундан сўнг қуйидаги код матнини терамиз:
>>> set(stopwords.words('uzbek'))
Натижа қуйидаги кўринишда бўлади (1-расм):

1-расм. Stop-words типидаги ўзбекча сўзларни экранлаштириш.
Шунингдек, ўзбек тилидаги сўзлар ва гаплар учун NLTK пакетининг токенизация модулидан (nltk.tokenize) ҳам фойдаланиш мумкин.
Юқорида номлари келтирилган дастурий технологиялар ва улар ёрдамида тадқиқ этиладиган барча лисоний моделлар аслида машинавий таржима процедураси учун бир асос бўлиб хизмат қилади. Мазкур технологиялар асосида ўзбек тилининг турли аспектларини тадқиқ этиш учун ҳали кўплаб формал моделлар бизга зарур бўлади.
Биз ушбу мақолада ўзбек тилига мансуб stop-words типидаги сўзлар базасини шакллантириб, уни NLTK кутубхона таркибидаги бир объект сифатида тадқиқ қилдик ва бу ўзбек тилидаги матн учун автоматик қидирув системаларини яратишда бир асос бўлиб хизмат қилиши мумин.


Адабиётлар

  1. Steven Bird, Ewan Klein, and Edward Loper (2009), Natural Language Processing with Python. O’Reilly Media Inc.

  2. Andreas C. Müller, Sarah Guido (2017), Introduction to Machine Learning with Python. O’Reilly Media Inc.

Download 43,08 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish