Qidiruv mexanizmini tanlash Qidiruv mexanizmlaridan foydalanish ketma-ketligi har bir mashinadan foydalangan holda qidiruv samaradorligini pasayishiga qarab belgilanadi.
Umuman olganda, 180 ga yaqin qidiruv tizimlari ma'lum, ular qamrov zonalarida, qidirish tamoyillari (va shu sababli kirish tilida va qabul qilingan so'rovlar xarakterida), indeks ma'lumotlar bazasining hajmi, ma'lumotlarning yangilanish tezligi, "nostandart" ma'lumotlarni qidirish qobiliyati va boshqalar. Qidiruv mexanizmlarini tanlashning asosiy mezonlari serverning indeksli ma'lumotlar bazasining hajmi va qidiruv tizimining o'zi, ya'ni so'rovlarning murakkablik darajasi.
Qidiruv tizimlari to'g'risida batafsilroq "Tarmoq ma'lumotlarini qidirish vositalari" bo'limida tasvirlangan.
Qidiruv tizimlariga so'rovlarni tuzish va bajarish Bu juda katta miqdordagi ma'lumotlarni (asosan shovqin) qayta ishlash bilan bog'liq bo'lgan eng qiyin va vaqt talab qiladigan bosqich. Tezaurus asosida tanlangan qidiruv tizimlari uchun so'rovlar tuziladi, shundan so'ng aniq bo'lmagan ahamiyatsiz ma'lumotlarni o'chirish uchun so'rovni aniqlashtirish mumkin bo'ladi. Keyin qidirish maqsadlari nuqtai nazaridan eng qiziqlaridan boshlab, manbalarni tanlash amalga oshiriladi. Keyingi tahlil qilish uchun tegishli deb topilgan manbalardan ma'lumotlar yig'iladi.
Talabni shakllantirish So'rovlarning formati va semantikasi ikkalasi ishlatiladigan qidiruv tizimiga va muayyan mavzu sohasiga qarab farq qiladi. So'rovlar qidiruv maydoni imkon qadar aniqlashtirilishi va torayishi uchun tuzilgan.
Bir kengaytirilgan so'rovga nisbatan bir nechta tor so'rovlardan foydalanishga ustunlik beriladi. Umumiy holda, har bir asosiy tushuncha uchun tezaurusdan alohida so'rov to'plami tayyorlanadi. Shuningdek so'rovlarni sinchkovlik bilan amalga oshirish - tezaurusni tozalash va to'ldirish, shuningdek shovqin haqidagi ma'lumotni o'chirish uchun amalga oshiriladi.
Turli xil qidiruv tizimlarining so'rov tillari asosan quyidagi funktsiyalarning kombinatsiyasidir:
Boolean algebra operatorlari VA, YO'Q, YO'Q:
AND (I) - ushbu operator bilan bog'liq barcha shartlarni o'z ichiga olgan hujjatlarni qidiradi;
OR (OR) - qidiruv matni kamida ushbu operator tomonidan bog'langan atamalardan birini o'z ichiga olishi kerak;
NOT - matnda ushbu operatorga tegishli hech qanday shartlar bo'lmagan hujjatlarni qidiring.
Masofa operatorlari - so'zlar orasidagi buyurtma va masofani cheklash, masalan:
YO'Q - ikkinchi atama birinchisidan uzoqroq bo'lishi kerak, ma'lum miqdordagi so'zlardan oshmasligi kerak;
TO'G'RISIDA - berilgan shartlarga rioya qilingan holda;
ADJ - operator tomonidan bog'langan atamalar bog'liq.
Shartlarni qisqartirish qobiliyati - bu tugash o'rniga "*" belgisini ishlatish qidirish ro'yxatiga uning boshlang'ich qismidan (shablon) olingan barcha so'zlarni kiritish imkonini beradi.
Tilning morfologiyasini hisobga olish - mashina qidiruv amalga oshirilayotgan tilda mumkin bo'lgan ushbu atamaning barcha shakllarini avtomatik ravishda hisobga oladi.
Jumlalar, iboralar bo'yicha qidirish qobiliyati.
Hujjat elementlari bo'yicha qidirishni cheklash (so'rov so'zlari sarlavha, birinchi xatboshi, havolalar va hokazolarda bo'lishi kerak).
Termik uchrashuvlar soniga cheklovlar.
Grafik rasmlarni qidirish qobiliyati.
Kichik va katta harflarga sezgirlik.
So'rov natijasi (havolalar ro'yxati) ikki bosqichda ko'rib chiqiladi. Birinchi bosqichda qidiruv tizimining nomukammalligi yoki so'rovning etarli darajada "razvedkasi" tufayli tanlab olinmagan aniq bo'lmagan manbalar kesiladi. Bunga parallel ravishda semantik tahlil keyingi so'rovlarni o'zgartirish uchun tezaurusni aniqlashtirish maqsadida o'tkaziladi. Keyinchalik ishlov berish har bir topilgan manbalarga ketma-ket kirish va u erdagi ma'lumotlarni tahlil qilish orqali amalga oshiriladi.