‗
f>
(―ishla‖ lemmasining fe‘l
turkumiga xos kategorial belgilari: fe‘l>harakat fe‘li>o‗timli fe‘li>II shaxs
>buyruq mayli).
‗‘
‗o‗lchov
(―o‗lchov‖ lemmasining ot turkumiga
xos kategorial belgilari: ot
>jarayon oti
>bosh kelishik>birlik).
Yuqoridagi matn tokenizatsiyasida tokenlarga ajratish dasturining
cheklangan jihatlari ham ko‗zga tashlanadi: - (chiziqcha)ning alohida
1
Захаров В.П., Богданова С.Ю. Корпусная лингвистика.-Иркутск:ИГЛУ,2011.-С.38.
170
olinishi yoki juft so‗zlarni ikkita token holida ajratish semantik jihatdan
muammolarni yuzaga keltirishi mumkin:
<-> .
―So‗z asoslarini (stemlarni) topishga qaratilgan jarayon
stemming
hisoblanadi. Stemming stem (asos)larni topishga qartiladi. Stemmer so‗zni
kontekstga bog‗liq bo‗lmagan holda qayta ishlaydi, turli turkumga oid
bo‗lgan turli ma‘nodagi so‗zlarni farqlay olmaydi. Stemmerlar nisbatan
oddiy, ma‘lumotlarni tez sur‘atda qayta ishlaydi. Lekin ko‗p hollarda hal
qiluvchi ahamiyatga ega bo‗lmaydi
1
.
Lemmatizatsiya
– morfologik analizning spetsifik masalasi, so‗zning
boshqa so‗zshakllaridan kelib chiqadigan dastlabki shakllanish jarayoni.
Lemmatizatsiya
– so‗zning dastlabki, boshlang‗ich formasini (lug‗atdagi
shaklini – lemmasini) tashkillashtirish texnikasi bo‗lib, bu jarayon shu
so‗zning boshqa so‗z-shakllaridan kelib chiqqan holda amalga oshiriladi.
Lemmatizatsiya morfologik tahlil metodi tarkibiga kiradi, u ikki bosqichni
o‗z ichiga oladi: 1) deklarativ bosqich – bunda muayyan so‗zning mumkin
bo‗lgan barcha shakllari (so‗z-shakllar) belgilanadi; 2) protsedura bosqichi
– bunda so‗z asos va qo‗shimchalarga, ya‘ni leksemalarga yoki
morfemalarga bo‗linadi. Lemmatizatsiya so‗zlarning grammatik valentligi,
qaysi affikslar bilan birika olish imkoniyatini ham belgilab beradi.
Masalan, o‗zbek tilida so‗zlarning lug‗atdagi shakli – lemmasi
quyidagicha:
-
ot so‗z turkumi uchun – bosh kelishik, birlik shakli (
non, gul, hayot
);
-
fe‘l so‗z turkumi uchun – harakat nomi shakli (
yozmoq, kulmoq,
ranjimoq
);
-
sifat so‗z turkumi uchun – oddiy daraja shakli (
yaxshi, yashil, og„ir
).
Gullar, gullarni, gullarga, gullarda, gulllardan, gullarning;
buyurmoq, buyurdi, buyurgan, buyuryapti, buyurmoqchi; qizil, qizg
‗
ish,
qizilroq
2
.
Lemmatizatsiya tahlil davomida bir so‗z sifatida qaraladigan so‗zning
turli flektiv shakllari guruhini namoyon etadi. Asos shakl
lemma
hisoblanadi. Lemmatizatsiya so‗z turkumlarini farqlash (idenfikatsiya)
bilan bog‗liq, so‗zning qisqartmasidan to unga muvofiq keladigan
so‗zgacha bo‗lgan shakllarni o‗zida ifoda etadi. Aynan lemmatizatsiya
tadqiqotchiga muayyan leksemaning barcha mumkin bo‗lgan variantlarini
kiritmasdan ajratishga va o‗rgatishga imkon beradi
3
.
1
Захаров В.П., Богданова С.Ю. Корпусная лингвистика.-Иркутск:ИГЛУ,2011.-С.39.
2
Po„latov A., Muhamedova S.
Kompyuter lingvistikasi. –T., 2007.
Rahimov A.
Kompyuter
lingvistikasi asoslari. –T., 2011.
3
Захаров В.П., Богданова С.Ю. Корпусная лингвистика.-Иркутск:ИГЛУ,2011.-С.39.
171
Lemmatizatsiya ham so‗zning asosini aniqlashdan iborat jarayon
bo‗lib, faqat unda berilgan so‗z shakli qaysi so‗z turkumiga tegishli
ekanligi ilgaridan berilgan bo‗ladi. Masalan, stemmer
Do'stlaringiz bilan baham: |