Qidiruv mashinalari yordamida axborot izlash. Eng ko‘p qo‘llanuvchi, lekin
shu bilan bir paytda eng murakkab qidiruv usuli qidiruv tizimlaridan foydalangan holda axborot izlash hisoblanadi. Uning keng tarqalganligi qidiruv tizimlari ko‘p sonli saytlar indeksini qamrab olishi va to‘g‘ri ifodalangan so‘rov yordamida qiziqtirayotgan resurslarga tezda ssilkalar olish mumkinligi bilan asoslanadi. Usulning murakkabligi shundaki, natija sifatli bo‘lishi uchun eng to‘g‘ri keluvchi qidiruv tizimlarini tanlay olish, unga so‘rovlarni to‘g‘ri shakllantirish, uning o‘ziga xos xususiyatlari va funksional imkoniyatlarini hisobga olish zarur.
Qidiruv tizimlarini tanlash.
Ushbu bosqich qidiruv mashinalaridan bu mashinalarning har birini qo‘llagan holda kutilayotgan samaradorlikning pasayib borishiga muvofiq foydalanish ketma- ketligini aniqlashni talab qiladi.
Qamrab olish mintaqalari, qidiruv o‘tkazish tamoyillari (demak, so‘rovlar tili va xarakteri bo‘yicha ham), indeks bazasi hajmi, axborotni yangilash tezligi,
«nostandart» axborot izlash qobiliyati bo‘yicha farqlanuvchi jami bir necha yuzga yaqin qidiruv mashinalari ma’lum. Qidiruv mashinalarini tanlashning asosiy mezoni serverning indeks bazasi hajmi va qidiruv mashinasining o‘zi rivojlanganlik darajasi, ya’ni u qabul qilayotgan so‘rovlarning murakkablik darajasi hisoblanadi.
Qidiruv mashinalariga so‘rovlar tuzish va bajarish
Bu katta hajmdagi axborotni qayta ishlash bilan bog‘liq eng murakkab va mehnat talab qiluvchi bosqichdir. Tezaurus asosida tanlab olingan qidiruv serverlariga so‘rov shakllantiriladi. Dastlabki natijalar olingandan so‘ng relevant bo‘lmagan axborotni chiqarib tashlash maqsadida so‘rovni aniqlashtirish mumkin. So‘ngra qidiruv maqsadlaridan kelib chiqqan holda eng qiziqarli resursdan boshlab resurslarni tanlash amalga oshiriladi va relevant deb tan olingan resurslar ma’lumotlari tahlil uchun to‘planadi.
So‘rovlar formati ham, semantikasi ham qo‘llanayotgan qidiruv mashinasi va muayyan predmet sohasiga qarab turli variantda bo‘lishi mumkin. So‘rovlar shunday tuzilishi kerakki, qidiruv sohasi maksimal darajada aniqlashtirilgan bo‘lishi, ya’ni bitta kengaytirilgan so‘rovdan foydalanish o‘rniga bir nechta kichik maxsus so‘rovlardan foydalanish maqsadga muvofiq.
Turli mashinalar uchun so‘rov tillari asosan quyidagi funksiyalarning birikuvi hisoblanadi:
hujjatlar qidirishni quyidagi operatorlari yordamida amalga oshirish: AND, OR, NOT, AND – u birlashtiruvchi barcha atamalar bor bo‘lgan, OR – izlanayotgan matnda operator birlashtirgan atamalardan hech bo‘lmasa bittasi mavjud bo‘lgan; NOT – matnida mazkur operator ortidan keluvchi atamalar yo‘q bo‘lgan hujjatni izlash;
atamalarni kesish imkoniyati – atamaning oxiri o‘rniga belgisidan foydalanish ro‘yxatga so‘zning boshlang‘ich qismi shablonidan boshlanuvchi barcha so‘zlarni kiritishga imkon beradi;
til morfologiyasini hisobga olish – mashina qidiruv borayotgan tilda mazkur atamaning barcha shakllarini avtomatik ravishda hisobga oladi;
so‘z birikmasi, ibora bo‘yicha ma’lumot qidirish imkoniyati;
qidiruvni hujjat elementi bilan cheklash (so‘rov so‘zlari aynan sarlavhada, birinchi abzatsda, ssilkada joylashishi mumkin va hokazo);
hujjat chiqarilgan sana bo‘yicha cheklash;
atamalarning mos tushishi soni bo‘yicha cheklash;
grafik tasvirlarni izlash imkoniyati;
kichik va bosh xarflarga qarab izlash.
So‘rov natijasi, ya’ni tizim chiqarib bergan topilgan resurslarga ssilkalar ro‘yxati ikki bosqichda qayta ishlanadi. Dastlabki bosqichda ro‘yxat tarkibiga qidiruv mashinasining
mukammal emasligi yoki so‘rovning yetarli darajada «intellektual» emasligi sababli kirib qolgan norelevant manbalar chiqarib tashlanadi. Parallel ravishda keyingi so‘rovlarni modifikatsiyalash uchun tezaurusni aniqlashtirish maqsadida semantik tahlil o‘tkaziladi. Keyingi ishlar topilgan har bir resurs bilan ketma-ketlikda ishlash va undagi axborotni tahlil qilish yo‘li bilan amalga oshiriladi.
Resurslar tahlili va axborot to‘plash
Axborot izlashning yakuniy bosqichi resurslar tahlili va axborot to‘plash hisoblanadi. Resurslarning birlamchi tahlili agar bor bo‘lsa annotatsiyalarga, yo‘q bo‘lsa resursning axborot mazmuniga asoslanishi lozim. Shundan keyin axborot tanlab olingan manbalardan chiqarib olinadi va mos keluvchi maqsadlarda foydalaniladi.
Do'stlaringiz bilan baham: |