В информационный поиск Introduction to Information Retrieval



Download 130,11 Kb.
bet9/10
Sana01.07.2022
Hajmi130,11 Kb.
#722108
1   2   3   4   5   6   7   8   9   10
Bog'liq
Маъруза 4

Algoritm juda mashhur va takrorlangan edi, u ko'pincha turli ishlab chiquvchilar tomonidan o'zgartirildi va har doim ham muvaffaqiyatli emas. Taxminan 2000 yilda Porter loyihani "muzlatib qo'yish" va o'z veb-saytidan algoritmning yagona amalga oshirilishini (bir nechta mashhur dasturlash tillarida) tarqatishni davom ettirishga qaror qildi.

Stemming va lemmatizatsiya

Stemmer Porter

stemmerining asosiy g‘oyasi shundan iboratki, so‘z yasovchi qo‘shimchalar soni cheklangan.

Algoritm besh bosqichdan iborat. Har bir bosqichda so'z yasovchi qo'shimchasi kesiladi va qolgan qismi qoidalarga muvofiqligi tekshiriladi (masalan, ruscha so'zlar uchun o'zak kamida bitta unli tovushni o'z ichiga olishi kerak). Agar olingan so'z qoidalarga javob bersa, keyingi bosqichga o'tish sodir bo'ladi. Aks holda, algoritm kesish uchun boshqa qo'shimchani tanlaydi.

Birinchi bosqichda maksimal shakl yasovchi qo‘shimchasi, ikkinchisida – “i” harfi, uchinchisida – so‘z yasovchi qo‘shimchasi, to‘rtinchisida – ustun shakl qo‘shimchalari, “l” va bittasi kesiladi. ikkitadan " n".

Stemming va lemmatizatsiya

Ba'zi misol qoidalari quyidagicha ko'rinadi:

qoida Misol

SSES —> SS erkalaydi —> erkalaydi

IES —> I poniyalar —> poni

SS —> SS erkalash- > erkalash

S —> mushuklar -> mushuklar

yoki

ed " bilan tugasa, " ed " ni olib tashlang

ing " bilan tugasa, " ing " ni olib tashlang

ly " bilan tugasa, " ly " ni olib tashlang

Stemming va lemmatizatsiya

Ushbu algoritm ko'pincha so'zni kerak bo'lgandan ko'ra ko'proq qisqartiradi, bu esa so'zning to'g'ri o'zagini olishni qiyinlashtiradi, masalan, to'shak-> tom (bu holda, haqiqatan ham o'zgarmagan qism yotoqdir , lekin stemmer uchun eng uzun morfemani tanlaydi. o'chirish).

Shuningdek , Porterning stemmeri so'z ildizidagi har qanday o'zgarishlarga (masalan, chiqish va ravon unlilar) dosh berolmaydi.


Download 130,11 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish