В информационный поиск Introduction to Information Retrieval


Stemming va lemmatizatsiya



Download 130,11 Kb.
bet8/10
Sana01.07.2022
Hajmi130,11 Kb.
#722108
1   2   3   4   5   6   7   8   9   10
Bog'liq
Маъруза 4

Stemming va lemmatizatsiya

Affiks - old qo'shimchalar ( prefikslar ), qo'shimchalar, infikslar, postfikslar, shuningdek, tugatish ( fleksiyonlar ) uchun umumiy nom .

Affiks tushunchasi ildiz tushunchasiga qarama-qarshidir .

qo‘shilishi so‘z yasalish (masalan, eman + ok = eman) va fleksiyaning (eman + a = eman) usullaridan biridir.

Stemming va lemmatizatsiya

Lemmatizatsiya - bu so'zlarning leksika va morfologik tahlilidan foydalangan holda aniq jarayon bo'lib , u faqat flektiv sonlarni olib tashlaydi va so'zning lemma deb ataladigan asosiy yoki lug'at shaklini qaytaradi.

va hokazolarni beruvchi prefiks yoki oxirlar.

Stemming va lemmatizatsiya

Masalan , koʻrgan leksemasi oʻzak boʻlish paytida s harfiga aylanishi mumkin, lemmatizatsiya esa leksemaning feʼl yoki ot boʻlishiga qarab yo koʻrish soʻzini yoki koʻrgan soʻzini qaytaradi .

To'liq morfologik tahlil ma'lumotni qidirishda juda kam foyda keltiradi.

Lemmatizatsiya ba'zi so'rovlar uchun juda foydali bo'lishi mumkin bo'lsa-da , boshqa so'rovlar uchun u unumdorlikni sezilarli darajada kamaytiradi.

ildiz otish to'liqlikni oshiradi, lekin qidiruvning aniqligini pasaytiradi.

Stemming va lemmatizatsiya

Stemming va lemmatizatsiya ko'pincha indekslash jarayoniga kiritilgan qo'shimcha dasturiy ta'minot komponentlari yordamida amalga oshiriladi.

Hozirgi vaqtda bunday dasturlar juda ko'p, ham tijorat, ham erkin tarqatiladi.

Stemming va lemmatizatsiya

Amaliy qo'llanmalarda o'z samaradorligini qayta-qayta ko'rsatgan inglizcha so'zlarning eng keng tarqalgan algoritmi Porter algoritmidir ( Porter , 1980).

Stemmer 1980-yilda Martin Porter tomonidan nashr etilgan stemming algoritmidir . Keyinchalik Martin "Qor to'pi" loyihasini yaratdi va algoritmning asosiy g'oyasidan foydalanib, hind-evropa tillari, shu jumladan rus tili uchun stemmerlarni yozdi.

Stemming va lemmatizatsiya

Algoritm so'z o'zagi asoslarini ishlatmaydi , faqat bir qator qoidalarni ketma-ket qo'llagan holda, tilning xususiyatlaridan kelib chiqqan holda, oxir va qo'shimchalarni kesib tashlaydi va shuning uchun tez ishlaydi, lekin har doim ham to'g'ri emas.


Download 130,11 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish