В информационный поиск Introduction to Information Retrieval


Belgilar ketma-ketligini segmentatsiyasining noaniqligi tufayli , bu usullarning barchasi ba'zan xatolarni keltirib chiqaradi va shuning uchun izchil va bir ma'noli tokenizatsiyani kafolatlay olmaydi



Download 130,11 Kb.
bet4/10
Sana01.07.2022
Hajmi130,11 Kb.
#722108
1   2   3   4   5   6   7   8   9   10
Bog'liq
Маъруза 4

Belgilar ketma-ketligini segmentatsiyasining noaniqligi tufayli , bu usullarning barchasi ba'zan xatolarni keltirib chiqaradi va shuning uchun izchil va bir ma'noli tokenizatsiyani kafolatlay olmaydi.

Terminlar leksikasining ta’rifi

Patent WEISSMAN Adam J. (AQSh )

Terminlar leksikasining ta’rifi

2018-03-22 _ Umumiy atamalarga e'tibor bermaslik : so'zlarni to'xtatish.

Ba'zan foydalanuvchilarning axborot ehtiyojlarini qondirish uchun qimmatli bo'lmagan ba'zi juda keng tarqalgan so'zlar, odatda, leksikondan chiqarib tashlanadi.

Ular to'xtash so'zlari ( to'xtash so'zlari ) deb ataladi.

Terminlar leksikasining ta’rifi

uchun atamalar to'plamdagi chastotalar bo'yicha tartiblanadi (bu Hujjatlar to'plamidagi atamalarning umumiy soniga teng ).

Keyin indekslangan hujjatlarning mavzu sohasi bilan semantik munosabati asosida qo'lda filtrlangan eng tez-tez uchraydigan atamalar to'xtash ro'yxatiga kiritiladi , ularning elementlari indeksatsiya paytida o'chiriladi.

Terminlar leksikasining ta’rifi

Stopword ro'yxati misoli :

a , an , va , bor, kabi, da, bo'lmoq, tomonidan, uchun, dan, bor, u, ichida, bu, bu, uning, dan, kuni, bu, bu, uchun, edi, edi, iroda, bilan.

veb- qidiruv tizimlarida tez - tez ishlatilmaydi .

Terminlar leksikasining ta’rifi

3. Normallashtirish.

Tokenni normallashtirish ( token normallashtirish - ekvivalent ma'noga ega bo'lgan belgilar ketma- ketligi orasidagi ahamiyatsiz farqlarni bartaraf etish uchun leksemalarni kanonik shaklga o'tkazish jarayoni .

Normallashtirishning eng keng tarqalgan usuli - ekvivalentlik sinflarini aniqlash ( ekvivalentlik sinflar ), odatda a'zolaridan birining nomi bilan atalgan .

Normallashtirish - leksemalarni tenglik sinflariga ajratish.

Terminlar leksikasining ta’rifi

Ekvivalentlik sinfiga misol.

So'zlar be/ is/ are/ edi/am be nomli ekvivalentlik sinfini hosil qiladi .


Download 130,11 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish