Internetda axborot izlash


Qidiruv tizimning tarkibi va printsiplari



Download 78,5 Kb.
bet4/5
Sana14.06.2022
Hajmi78,5 Kb.
#669207
1   2   3   4   5
Bog'liq
Axborotlarni izlash fanidan mustaqil ish 2

Qidiruv tizimning tarkibi va printsiplari
Rossiyada asosiy qidiruv tizimi Yandex, keyin Rambler.ru, Google.ru, Aport.ru, Mail.ru. Bundan tashqari, hozirda Mail.ru "Yandex" ning mexanizmi va qidiruv bazasidan foydalanmoqda.
Deyarli barcha yirik qidiruv tizimlari boshqalardan farq qiladigan o'z tuzilishiga ega. Biroq, barcha qidiruv tizimlari uchun umumiy bo'lgan asosiy komponentlarni ajratib ko'rsatish mumkin. Tuzilishdagi farqlar faqat ushbu tarkibiy qismlarning o'zaro ta'sir mexanizmlarini amalga oshirish shaklida bo'lishi mumkin.
Indekslash moduli
Indekslash moduli uchta yordamchi dasturlardan (robotlar) iborat:
O'rgimchak (o'rgimchak) - veb-sahifalarni yuklab olish uchun mo'ljallangan dastur. O'rgimchak sahifani yuklab oladi va ushbu sahifadagi barcha ichki havolalarni chiqaradi. Har bir sahifaning HTML-kodi yuklab olinadi. Robotlar sahifalarni yuklab olish uchun HTTP protokollaridan foydalanadilar. "O'rgimchak" quyidagicha ishlaydi. Robot serverga "get / path / document" so'rovini va boshqa ba'zi HTTP so'rov buyruqlarini yuboradi. Bunga javoban robot xizmat ma'lumotlari va hujjatning o'zi bo'lgan matn oqimini oladi.

  • Sahifa url

  • sahifa yuklab olingan sana

  • serverning javobi http sarlavhasi

  • sahifa tanasi (HTML-kod)

Crawler ("sayohat qiluvchi" o'rgimchak) - sahifada topilgan barcha havolalarni avtomatik ravishda ko'rib chiqadigan dastur. Sahifada mavjud bo'lgan barcha havolalarni ta'kidlaydi. Uning vazifasi - o'rgimchakning qaerga borishi kerakligini, havolalar asosida yoki oldindan belgilangan manzillar ro'yxati asosida aniqlash. Crawler, topilgan havolalardan so'ng, qidiruv tizimiga hali ham noma'lum bo'lgan yangi hujjatlarni izlaydi.
Indexer - bu o'rgimchaklar tomonidan yuklab olingan veb-sahifalarni tahlil qiladigan dastur. Indeksator sahifani tarkibiy qismlariga ajratadi va ularni o'z leksik va morfologik algoritmlari yordamida tahlil qiladi. Matn, sarlavhalar, havolalar, strukturaviy va uslubiy xususiyatlar, html-maxsus xizmat teglari va boshqalar kabi turli xil sahifa elementlari tahlil qilinadi.
Shunday qilib, indekslash moduli berilgan manbalar to'plamini havolalar orqali ko'rib chiqish, duch kelgan sahifalarni yuklab olish, olingan hujjatlarning yangi sahifalariga havolalarni chiqarish va ushbu hujjatlarni to'liq tahlil qilish imkonini beradi.

Download 78,5 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish