Ma'lumotni chiqarish
Axborot manbalari ma'lumotlar, bilimlar, hujjatlar bo'lishi mumkin. Har qanday predmet sohasidagi ma'lumotlar manbalari ob'ektlar va ularning xususiyatlari, ushbu ob'ektlar tomonidan yoki ular uchun bajariladigan jarayonlar va funktsiyalardir. Har qanday predmet sohasi uchta vakolat shaklida ko'rib chiqiladi: haqiqiy, rasmiy va axborot.
To'g'ridan-to'g'ri ma'lumotni izlash jarayonida quyidagi bosqichlarni ajratish mumkin:
• to'plash - mavzu doirasidagi ma'lumotlarning tizimli yoki tizimsiz (o'z-o'zidan) to'planishi;
• tuzilish - asosiy tushunchalarni ajratib ko'rsatish, maksimal aniqlik, o'zgarish va qo'shilish qulayligi bo'lgan ma'lumotlarni taqdim etish uchun tuzilmani ishlab chiqish;
• rasmiylashtirish - tuzilgan ma'lumotni mashinada ishlov berish formatida taqdim etish, ya'ni. ma'lumotlar va bilimlarni tavsiflash tillarida;
• texnik xizmat - rasmiylashtirilgan ma'lumotlar va bilimlarni to'g'irlash (qo'shish, yangilash), eskirgan ma'lumotlarni olib tashlash, foydalanuvchilarga kerakli ma'lumotlarni topish uchun ma'lumotlarni va bilimlarni filtrlash.
Izlash (qidiruv) shakllari
To’liq matnli qidiruv
Meta ma’lumotlar (metadata) bo’yicha qidirish
Tasvirlarni qidirish
Qidiruv usullari
Manzilli (Adresli) qidiruv
Semantik qidirish
Hujjatli qidiruv
Faktografik qidiruv
Axborot qidirish – bu kognitiv psixologiya, informatika, axborot dizayni, lingvistika (tilshunoslik), semiotika va kutubxonashunoslik kabi fanlar kesishmasida turuvchi ilmiy soha hisoblanadi.
Axborotni qidirish masalalari
AQ ning asosiy masalasi – foyalanuvchiga uning axborotga bo’lgan ehtiyojlarini qondirishga yordam berishdan iborat.
Asosiy masalalar:
Modellashtirish masalasi;
Hujjatlarni klassifikatsiyalash;
Hujjatlarni filtrlash;
Hujjatlarni klasterizatsiyasi;
Qidiruv tizimlari arxitekturasi va foydalanuvchi interfesini loyihalash;
Axborotlarni ajratib olish, xususiy holda hujjat annotatsiyasi va referatini tayyorlash;
So’rov tillari va boshq.
Samaradorlikni baholash
AQT tomonidan topilgan hujjatlar so’rovga qanchalik mos kelishini baholashning ko’plab usullari mavjud. Afsuski, so’rovlarning muvofiqlik darajasi, boshqacha aytganda relevantnosti, sub’ektiv tushuncha hisoblanadi, muvofiqlik darajasi esa so’rov bajarilishi natijalarini baholovchi aniq insonga bog’liq.
Aniqlik (precision)
Bu AQTlari tomonidan topilgan tegishli hujjatlar sonining topilgan hujjatlarning umumiy soniga nisbati sifatida aniqlanadi:
To’liqlik (recall)
Topilgan relevant hujjatlar sonining bazadagi umumiy relevant hujjatlar soniga nisbati:
Tushish (qatordan chiqish) (fall-out)
fall-out relevant bo’lmagan manbalarni topish ehtimolini tavsiflaydi va topilgan relevant bo’lmagan hujjatlar sonining ma’lumotlar bazasidagi relevant bo’lmagan hujjatlarning umumiy soniga nisbati sifatida aniqlanadi: F-o’lchov (F-measure, Van Rizbergen o’lchovi)
P aniqlik va R to’liqlikning o’rta vaznli garmonik o’rtacha qiymati sifatida aniqlanadigan F-o’lchovdan foydalaniladi:
Odatda F-o’lchov quyidagi ko’rinishda ifodalanadi:
Axborotni ajratib olish
Axborotni ajratib olish (angl. information extraction) — bu komp’yuterda tayyorlangan aniq strukturaga ega bo’lmagan yoki kuchsiz strukturalashgan hujjatlardan aniq struturaga ega bo’lgan ma’lumotlarni avtomatik ajratib olish yoki qurish.
Axborotni ajratib olish tabiiy tildagi matnlarni qayta ishlab bilan bog’liq bo’lib, axborotlarni qidirishning bir ko’rinishi hisoblanadi.
“Kecha, 2019 yil 31 noyabr kuni Toshkent shahrida o’tkaziladigan Shanxay hamkorlik tashkilotiga a’zo davlatlarning hukumat rahbarlari uchrashuvida ishtirok etish uchun Rossiya Federatsiyasining bosh vaziri Dmitriy Medvedov Toshkent shahriga keldi”
Axborotlarni ajratib olishning maxsus masalalari:
Nomlangan (ya’ni, muhim, tayanch) elementlarni tanish, masalan: odamlar ismi, tashkilot nomlari, geografik nomlar, vaqt va pul birliklari va h.k.
Anaformalar va o’zaklarning aniqlanishi: bitta va aynan shu ob’etga tegishli (daxldor) bog’liqliklarni aniqlash. Bunday bog’lanishlarning xos holatlari – olmoshli anaforalar.
Atamalarni (terminlarni) ajaratish: berilgan matn uchun kalit so’zlari va iboralarni topish.
Do'stlaringiz bilan baham: |