62. Axborotni izlash prinsiplarini tushuntirib bering.
Axborot qidirish - bu ma'lum ma'lumot to'plamida kerakli ma'lumotni In (so'z yoki ma'lumot) qidirish mezoniga muvofiq topish jarayoni. Qidiruv predmeti - bu qidiruv so'rovida norasmiy ravishda ifodalangan foydalanuvchi ma'lumotlariga bo'lgan ehtiyoj. Axborot olish va "ma'lumot olish" o'rtasida farq bo'lishi kerak. Axborotni izlash mezonlari va uning natijalari deterministik emas. Bu axborotni olishni "ma'lumot olish" dan ajratib turadi, bu rasmiy ravishda belgilangan predikatlar to'plami bilan ishlaydi, tuzilgan ma'lumotlar bilan ishlaydi va natijasi har doim deterministik bo'ladi. Qidiruv davriy, rekursiv, tanlab, ko'p o'lchovli amalga oshirilishi mumkin.
Axborotni qidirish nazariyasi qidiruv jarayonining barcha tarkibiy qismlarini o'rganadi, ya'ni: matnni qayta ishlash (indeksatsiya), so'rovlarni qayta ishlash va bajarish, reyting, foydalanuvchi interfeysi va mulohazalar. Ma'lumotni qidirishda quyidagi omillarni hisobga olish kerak:
1. Zarur ma'lumotlarni topishga bo'lgan axborot ehtiyoji In, yoki Y. Axborot ehtiyoji - inson shaxsi, ijtimoiy guruh, umuman jamiyat hayoti va rivojlanishini ta'minlash uchun axborot mahsulotlari va xizmatlarini olish zarurati; faoliyatning ichki stimuli.
2. Axborot tili - axborotni qidirish texnologiyalarida axborotni, faktlarni va ma'lumotlarni rasmiylashtirish maqsadida ishlatiladigan sun'iy til.
3. Qidiruv retsepti (query, so'rov) - umuman olganda, ma'lumot tilidan foydalangan holda tuzilgan namunadagi matn shabloni.
4. Har qanday matnning asosiy semantik mazmunini ifodalovchi, axborot qidirish tilining tavsiflovchisi – Дескриптор (lotincha descriptor - tavsiflovchi), leksik birligi (so'z, so'z birikmasi). Deskriptor tabiiy tilda ham tuzilishi mumkin. Axborot qidirish tizimidagi hujjatlarni axborot olishda foydalaniladi.
5. Indekslash ((indexing, indeksatsiya) - indeks tuzish yoki tayinlash jarayoni - keyingi qidirish uchun zarur bo'lgan xizmat ma'lumotlari tarkibi. Har qanday hujjat matnining asosiy tarkibini faqat axborot qidirish tizimining tilida ifodalash. Bu kerakli hujjatni qidirishni soddalashtirish uchun ko'plab boshqalar qatorida qo'llaniladi.
6. Lemmatizatsiya (lemmatization, normallashtirish) - so'z shaklini lug'at shakliga qisqartirish, ya'ni lemma.
7. Axborotni qidirish texnologiyasi va qidirish strategiyasi.
8. Topilgan ma'lumot Ip yoki X ning qidiruv so'roviga muvofiqligini baholash mezonlari.
9. Qidiruv tizimining samaradorligini yoki qidiruv texnologiyalarining samaradorligini baholash.
10. Qidiruv amalga oshiriladigan ma'lumotlar to'plami (Data set). Bu to'plam, uning elementlari ichki tuzilishga ega bo'lmagan ma'lumotlar elementlari - identifikatorlar deb nomlangan birma-bir yozishmalarga qo'yiladi. Kalitni kiritish axborot ob'ektlari atributlari va ba'zi yangi axborot elementlari o'rtasida yozishmalarni o'rnatishni anglatadi.
Do'stlaringiz bilan baham: |