Omonimlarning kompyuter lingvistikasidagi tadqiqi
Research of homonyms in computational linguistics
401
Gulyamova Shaxnoza Kaxramonovna*
*
Annotation.
The article is devoted to the study of the phenomenon of homonymy in
computational linguistics. The question of homonyms in language corporations created in the
world has been studied. The work carried out in the field of Uzbek linguistics is analyzed and the
tasks ahead are identified.
Key words:
computational linguistics, corpus linguistics, homonymy, semantic filter,
markup, lemma
Korpus lingvistikasi – kompyuter tilshunosligi boʻlimi, kompyuter texnologiyalari
yordamida lingvistik korpus (matnli korpus)ning qurilishi va undan foydalanishning umumiy
tamoyillarini ishlab chiqish bilan shugʻullanadi. Lingvistik korpus yoki matnli korpus ostida
oʻziga xos til muammolarini hal qilish uchun yaratilgan katta hajmdagi mashinada oʻqiladigan,
birlashtirilgan, yorliqlangan, formatlangan filologik jihatdan barkamol til ma’lumotlari toʻplami
tushuniladi.
Zamonaviy axborot-kommunikatsiya texnologiyalarining ilm-fanning barcha sohalarida,
xususan, filologik fanlarga kirib borishi tilning turli aspektlarini oʻrganishda lingvistik
korpusning ommaviyligini oshiradi. Soʻnggi bir necha yil ichida oʻquvchi va talabalar uchun,
chet tili nutqini turli lingvistik korpuslar vositasida oʻqitishga bagʻishlangan uslubiy adabiyotlar
paydo boʻldi. Bunday tadqiqotlar tahlili mualliflar “lingvistik korpus” atamasining konseptual
mazmundagi tavsifi haqida ma’lum bir xulosaga kelganligini koʻrsatadi. Odatda, korpus deganda
ma’lum usul boʻyicha tanlangan va belgilangan elektron shaklda keltirilgan matnlar tushuniladi.
“Matnlar korpusi” tushunchasi soʻnggi paytlarda eng koʻp tilga olinadigan korpus menejeri
(ingl. corpus manager) boʻlgan matn va til boshqarish tizimini oʻz ichiga oladi. Bu maxsus
qidiruv tizimi boʻlib, korpusda ma’lumotlarni qidirish dasturiy vositalari, statistik axborot olishni
boshqarish va foydalanuvchiga natijalarni qulay formada yetkazib berishni oʻz ichiga oladi
[Zaxarov, 2005: 3].
Ma’lumki, til hodisalarini oʻrganish, tadqiq va tahlil etish har davrda oʻz ahamiyatiga ega.
Jahon tilshunosligida omonimiya, sinonimiya, antonimiya va polisemiya kabi hodisalar oʻzbek
tilshunosligi uchun yangi hisoblangan kompyuter tilshunosligi nuqtai nazaridan ancha keng
doirada oʻrganilgan va uning amaliy natijalaridan korpus tuzish va takomillashtirish kabi
maqsadlarda foydalanilmoqda. Tilshunoslikning ilk va oʻrta bosqichlarida omonimiya
hodisasining paydo boʻlishi, taraqqiyoti va yondosh hodisalarga munosabatlari oʻrganilgan
boʻlsa, zamonaviy lingvistikada uning korpusda berilishi masalasi kun tartibiga qoʻyildi. Bu
vazifani bajarish uchun mavjud lugʻatlar axborot banki vazifasini oʻtaydi.
Korpus lingvistikasida omonimlik muammosini echish, omonim birliklarni teglash va
matnni avtomatik oʻqish jarayonida omonimiyani bartaraf etish masalasi (“снятия
омонимии”)ga oid qator tadqiqotlar vujudga kelgan. Jumladan,
G.I.Kustova [Kustova, 2005:
155-174], O.N.Lyashevskaya [Lyashevskaya
, 2008: 276-284]
, E.V.Paducheva, E.V.Raxilina,
B.P.Kobritsov, T.I.Reznikova [Paducheva, Raxilina, Kobritsov, Reznikova, 2005: 120-131],
B.P.Kobritsov [Kobritsov, 2004],
V.V.Kukanova [Kukanova, 2006], A.A.Kretov [ Kretov,
2008]lar shu masalalar echimiga bagʻishlangan qator ishlarni e’lon qilishgan.
Rus tili milliy korpusida leksik va semantik axborot loyiha gʻoyasi “qoʻlda” zamonaviy rus
korpusida
omonimiyani
morfologik
filtrlash
ishlari
davomida
tugʻilgan
[http://www.ruscorpora.ru].
Zamonaviy rus tili korpusining razmetkasi leksemaning bir yoki bir nechta an’anaviy
leksik va semantik sinflar (“harakat fe’llari”, “kauzativ fe’llar”, “tana qismlari”, “shaxs nomlari”
*
*Filologiya fanlari bo‘yicha falsafa doktori (PhD), Buxoro davlat universiteti, bunnycham@mail.ru
402
va b.)ga mansubligi haqida ma’lumot saqlaydi. Hozirgi vaqtda ot, sifat, son, olmosh, fe’l va
ravish soʻz turkumlari semantik tahlilga ega [Kobritsov, Lyashevskaya, Shemanaeva, 2007: 8].
Shu oʻrinda ta’kidlash kerakki, semantika uchun yagona semantik nazariya boʻlmasa ham,
koʻpincha semantik teglar ma’lum bir soʻz yoki iboraga tegishli boʻlgan semantik kategoriyalarni
bildiradi [Zaxaroa, 2005: 6].
T.I.Reznikova, M.V.Kopotevlarning “Лингвистически аннотированные корпуса
русского языка (обзор общедоступных ресурсов)” nomli maqolasi rus tili milliy korpusi
(NKRYA) [http://www.ruscorpora.ru] ning lingvistik razmetkasi, ularning imkoniyati va oʻziga
xosligiga alohida toʻxtalib oʻtadi [Reznikova, Kopotev, 2005: 12]. Milliy rus tili korpusida
semantik razmetka avtomatik ravishda amalga oshiriladi: matnda koʻpgina lemmalarda bir yoki
bir necha semantik va shakl yasovchi belgilar qayd etiladi. Bunda batafsil klassifikatsiya nafaqat
otlarni, balki fanga oid boʻlmagan leksikani, sifat, fe’l va ravishlarni qamrab oladi. Shuni
ta’kidlash lozimki, bitta lemma bir vaqtning oʻzida bir necha sinflarga oid boʻlishi mumkin. SHu
bilan birga barcha semantik belgilar avtomatik ravishda korpusga koʻchirilib, leksik omonimlar
bitta lemmaga birlashib boʻlinmaydi. SHu bilan birga toʻliq omonimlar juftining bitta gap
boʻlagini topish mumkin emas. Lekin hozirgi kunda korpusning semantik filtrlarini yaratish va
tadbiq etish ustida ish olib borilmoqda. Ular berilgan kontekst yoki konstruksiyalarda avtomatik
leksik koʻp ma’nolilikni filtrlashga imkon beradi.
D.N.Gomon “Проблема снятия омонимии” (“Omonimiyani filtrlash muammosi”)
maqolasida omonimiyani filtrlash va farqlash tushunchalariga izoh beradi. Farqlash tushunchasi
ostida u omonimik soʻz shakllarini farqlovchi belgilarni tushunadi. Zero, barcha omonimlarning
juftlari u yoki bu belgilar bilan farq qiladi. Filtrlash ostida grammatik yoki leksik ma’nolari
aniqlangan kontekstni anglaydi. Shubhasiz, farqlash ancha umumiy tushuncha [Gomon, 2006:
21].
M.Y.Zagorulko korpusning leksik bazasini toʻldirish jarayonida morfologik va leksik
omonimlikka alohida e’tibor berish talab qilinishi ta’kidlaydi [Zagorulko, Kononenko, Sidorova,
2006].
Oʻzbek kompyuter lingvistikasi yoʻnalishida amalga oshirilgan sanoqli tadqiqotlarda
kompyuter xotirasi omonim birliklarni “tanishi”, “oʻqiy olishi”ga moʻljallangan tahlil dasturlari
yaratish borasida harakatlar mavjud hamda oʻzbek tilidagi omonimlarni
teglash muammolari
boʻyicha ayrim mulohazalar va omonimiyani aniqlash algoritmini tuzish boʻyicha dastlabki
harakatlar amalga oshirilgan.
M.Abjalova tadqiqotining maqsadi matnni avtomatik tahrir qilish dasturining lingvistik
ta’minotini ishlab chiqishdan iborat. Shu bois omonimlarni avtomatik tahrir qilish borasida
statistik usulda omonimiyani aniqlash va tahrir qilish masalasiga qisman toʻxtalgan. U omonim
soʻzlarshakllarni matn tarkibida aniqlashning keng qoʻllaniladigan usullari haqida soʻz yuritadi.
Tadqiqotchi axborot olishning qulay imkoniyatlari yaratilishi natijasida korpus til haqidagi
mukammal ma’lumot manbaiga aylanganini, omonim shakllarning eng keng tarqalgan turi
statistikasini bilish mumkinligini ta’kidlaydi [Abjalova, 2019: 15].
Tadqiqotchi D.Axmedova omoleksemalarni filtrlash (“снятия омонимии”) algoritmiga
toʻxtalib, bunday shakllar har qanday grammatik shaklni olganda ham omonimligini saqlab
qolishini, uni grammatik shakllar asosidagi filtr bilan farqlash imkoni boʻlmasligini, uni
foydalanuvchi faqat kontekstdan ajratib olishi mumkinligini uqtiradi.
Turli turkumga xos boʻlgan omonimlarni esa filtr orqali ajratish imkoni borligini koʻrsatadi
(daydi soʻzi sifat yoki fe’l turkumiga tegishli boʻladi). Shunday holatlar uchun quyidagicha filtr
tuzish mumkin:
1) daydi + b/
maydigan =
fe’l;
2) daydi + istalgan soʻz = sifat [Axmedova, 2020: 344-347].
403
Tadqiqotchi belgilab berganidek, oʻzbek tili korpus lingvistikasi oldida turgan galdagi
vazifa bunday soʻzlarni lugʻatlardan yigʻib, semantik filtr bazasini yaratish lozim hamda istorizm
leksemadagi omonimiya hodisasini farqlash muammosi ham oʻz yechimini topishi zarur.
Kelajakda qurshovda omonimlikni aniqlashning leksik, morfologik va sintaktik omillarini
oʻrganish asosida axborot qidiruv tizimida omonimlikni farqlashning lingvistik asoslarini
yaratish masalasi oldimizdagi dolzarb vazifadir.
Do'stlaringiz bilan baham: |