22. Qidiruv algoritmlarida indekslash nima?


Invertlangan indeksni qurishning asosiy bosqichlari haqida ma’lumot bering?



Download 0,92 Mb.
bet2/48
Sana03.09.2021
Hajmi0,92 Mb.
#163223
1   2   3   4   5   6   7   8   9   ...   48
Bog'liq
22-25 javoblar

23.Invertlangan indeksni qurishning asosiy bosqichlari haqida ma’lumot bering?

Teskari indeks - bu ma'lumotlar to'plami, unda tegishli ro'yxatdagi hujjatlar to'plamining har bir so'zi uchun to'plamdagi barcha hujjatlar ro'yxati keltirilgan. Matnni qidirish uchun teskari indeks ishlatiladi. Teskari indeks uchun ikkita variant mavjud:

-har bir so'z uchun faqat hujjatlar ro'yxatini o'z ichiga olgan indeks,

-har bir hujjatdagi so'zning o'rnini qo'shimcha ravishda indeks

Qidiruv so'rovidagi barcha so'zlar topilgan hujjatlarni topish muammosi qanday hal qilinganligini tasvirlaylik. Bir so'zli qidiruv so'rovini qayta ishlashda javob allaqachon teskari indeksda - faqat so'rovdan so'zga mos keladigan ro'yxatni oling. To'liq so'rovni qayta ishlashda so'rov so'zlarining har biriga mos keladigan ro'yxatlarning kesishishi olinadi.

Haqiqiy qidiruv tizimlarida qo'llash xususiyatlari Hujjatlarda so'zning paydo bo'lishi ro'yxatida, odatda, id identifikatoridan tashqari, omillar ham ko'rsatiladi (TF-IDF, ikkilik omil: "so'z sarlavhaga tushdi yoki kirmadi", boshqa omillar). Indeksni barcha so'z shakllari bilan emas, balki lemmalar (kanonik so'z shakllari orqali) tuzish mumkin. To'xtash so'zlarni chiqarib tashlashingiz mumkin va ular uchun indeks yaratmaysiz, chunki ularning har biri korpusdagi deyarli barcha hujjatlarda uchraydi. Kesishmalarni hisoblashni tezlashtirish uchun skip-pointer evristikasidan foydalaniladi. Ko'p so'zlarni o'z ichiga olgan so'rovlarni qayta ishlashda kvorum funktsiyasidan foydalaniladi, bu so'rovning barcha so'zlari topilmaydigan hujjatlarning bir qismini saralashning keyingi bosqichiga o'tadi.

"Teskari indeks (yoki uni" so'z pozitsiyalari ro'yxati "deb ham atashadi) - bu har bir davr uchun mavjud bo'lgan barcha hujjatlar to'plamlaridagi ushbu atama mavjud bo'lgan barcha hujjatlar to'plamlari ko'rsatilgan ma'lumotlar tuzilishi."

Belgilangan hujjatlar to'plami uchun teskari ro'yxatni tuzish uchun bizga quyidagilar kerak:

Tegishli hujjat identifikatorlari bilan birga har bir hujjatda atamalar ketma-ketligi jadvalini yarating;

Ushbu jadvalni alfavit bo'yicha saralash (ortish bo'yicha);

Xuddi shu atamalarni so'zlar va alohida hujjat identifikatorlari bo'yicha guruhlash;

Hujjat identifikatorlarini joylashtiring (bizning holimizda har qanday saralash opsiyasi mos keladi).




Download 0,92 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   48




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish