Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti



Download 7,21 Mb.
Pdf ko'rish
bet56/398
Sana26.02.2022
Hajmi7,21 Mb.
#467559
1   ...   52   53   54   55   56   57   58   59   ...   398
Bog'liq
Тайёр Миллий корпус тўплам 17.05

Alisher Navoiy nomidagi Toshkent 
davlat o‘zbek tili va adabiyoti 
universiteti 
“O‘ZBEK MILLIY VA TA’LIMIY 
KORPUSLARINI YARATISHNING NAZARIY 
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021) 
47 
Tokenayzer 
Til korpusini yaratishda birinchi navbatda matndagi so‘zlarni qanday qilib ajratib olish tushuniladi. 
Buning uchun ajratuvchi belgilarni (probel, tinish belgilari va h.k.) o‘z ichiga olmagan hamma qismiy 
satrlar matndan ajratilib olinishi lozim. Bu esa tokenlar to‘plami bo‘ladi [Николаев И.С., 2016: 146]. 
Algoritm kirishiga matn berilib, chiqishida matndagi leksik birliklar ro‘yxati olinadi. Leksik tahlilning 
fundamental algoritmlaridan biri, berilgan matnni tokenlarga bo‘lib tashlashdan iborat. Bu algoritmni 
amalga oshiruvchi dasturni tokenayzer deb atashadi. Odatda tokenlar so‘z shakllari bilan bir xil ma’noni 
beradi. Lekin leksik birliklarni ifodalash uchun “so‘z” emas, balki “token” termini ishlatiladi. Bunga 
sabab, ba’zi hollarda token sifatida so‘zdan kichikroq birliklar (alohida morfema) yoki so‘zdan kattaroq 
birliklar (so‘z birikmalari) ishlatilishi mumkin. 
Tokenayzer matnni, dastlab, so‘zlar orasidagi probellar (bo‘shliq belgilari) asosida bo‘laklaydi, 
so‘ngra so‘zlardan tinish belgilari olib tashlanadi. Qisqartmalar (masalan, TATU, BMT, MDH, h.k.) va 
sana yozuvi (masalan, 09.04.2018) ham token sifatida olinadi [Tursunov M.S., DOI: 
10.1109/ICISCT50599.2020.9351376, 2020].
Tokenayzer ishining natijalari quyidagicha bo‘ladi: 
2-jadval 
№ 
Berilgan matn 
Tokenlar ro‘yhati 

O‘zbekiston Respublikasi 02.03.1992 
kuni BMT ga a’zo bo‘lgan 
O‘zbekiston
Respublikasi
02.03.1992
kuni
BMT
a’zo 
bo‘lgan 

TATU Samarqand filiali 2005 yilda 
o‘z faoliyatini boshladi 
TATU
Samarqand
filiali
2005
yilda
o‘z
faoliyatini
boshladi
Leksik dekompozisiya matnning avtomatik tahlili uchun fundamental ahamiyatga ega, chunki bu 
bir qator boshqa algoritmlar uchun asos vazifasini bajaradi.
1-rasmdagi menyular panelidan tokenayzer bandi ustidan sichqoncha bilan bosilsa, tokenayzer 
oynasi hosil bo‘ladi (4-rasm). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 



Download 7,21 Mb.

Do'stlaringiz bilan baham:
1   ...   52   53   54   55   56   57   58   59   ...   398




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish