Mavzu: tizimda axborotni izlash va ajratib olish



Download 89,5 Kb.
bet9/18
Sana29.08.2021
Hajmi89,5 Kb.
#159116
1   ...   5   6   7   8   9   10   11   12   ...   18
Bog'liq
1-mavzu axborotni izlash va ajratib olish

Kalit so'zlarni ro'yxati

  • To'g'ri kalit so'zlar to'plami ma'lumotni maqbul izlash uchun hal qiluvchi ahamiyatga ega. Masalan, qidiruv tizimini "MARP" kalit so'zi sifatida belgilab, biz ushbu qisqartirish paydo bo'lgan hujjatlar ro'yxatini olamiz (Moskva Tadbirkorlikni rivojlantirish bo'yicha agentlik). Ammo, agar biz kengroq mavzudagi hujjatlar bilan qiziqsak, masalan: tadbirkorlikni rivojlantirish va biz ushbu ikki so'zdan sodda so'rovni hosil qilsak, unda qidiruv tizimi bizga yuz minglab elementlarning ro'yxatini beradi, ularni boshqarish juda qiyin bo'ladi.

  • Shu sababli, kalit so'zlarning maqbul to'plamini tuzish uchun Zipf qonunlarini qo'llashga asoslangan protsedura qo'llaniladi, u quyidagilardan iborat: ular istalgan mavzuga yaqin bo'lgan har qanday manbali matnni olishadi, ya'ni. "namuna" va muhim so'zlarni ta'kidlab, tahlil qiling. Manba matni kitob, maqola, veb-sahifa yoki boshqa hujjat bo'lishi mumkin. Matn tahlili quyidagicha amalga oshiriladi:

  • Matndan to'xtatish so'zlarini olib tashlash.

  • Har bir so'zning paydo bo'lish chastotasini hisoblash va ularning chastotasini pasayish tartibida so'zlar joylashtirilgan ro'yxatni tuzish.

  • Ro'yxat o'rtasida joylashgan chastota diapazonini tanlash va matnning ma'nosiga to'liq mos keladigan ushbu so'zlar oralig'ini tanlash.

  • OR (OR) mantiqiy operatori bilan bog'liq ravishda shu tarzda tanlangan kalit so'zlarning ro'yxati shaklida qidiruv tizimiga so'rov yuborish. Ushbu shakldagi so'rov ro'yxatdagi so'zlarning kamida bittasi bo'lgan matnlarni aniqlashga imkon beradi.

  • Ushbu so'rovni qidirish natijasida olingan hujjatlar soni juda katta bo'lishi mumkin. Shu bilan birga, ko'pgina qidiruv tizimlarida ishlatiladigan hujjatlarning tartiblanishi (ularning so'rov so'zlarining paydo bo'lish chastotasining pasayishi tartibida tartiblanishi) tufayli, ro'yxatning birinchi sahifalarida deyarli barcha hujjatlar tegishli bo'lib, boshlang'ich hujjat boshidan uzoq bo'lishi mumkin.

  • Semantik tillar deb nomlangan tezaurusning tuzilishi yanada adekvat ko'rinadi, bunda har bir asosiy atama uchun tegishli so'zlar va shovqinli so'zlar jadvali alohida tuzilgan (manbada topilmasligi kerak) - ba'zi qidiruv tizimlari (AltaVista) bunga imkon beradi. Shunday qilib, atamalarning yagona ierarxik tuzilishi o'rniga biz alohida ravishda kengaytirilishi va o'zgartirilishi mumkin bo'lgan jadvallar to'plamini olamiz.


  • Download 89,5 Kb.

    Do'stlaringiz bilan baham:
  • 1   ...   5   6   7   8   9   10   11   12   ...   18




    Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
    ma'muriyatiga murojaat qiling

    kiriting | ro'yxatdan o'tish
        Bosh sahifa
    юртда тантана
    Боғда битган
    Бугун юртда
    Эшитганлар жилманглар
    Эшитмадим деманглар
    битган бодомлар
    Yangiariq tumani
    qitish marakazi
    Raqamli texnologiyalar
    ilishida muhokamadan
    tasdiqqa tavsiya
    tavsiya etilgan
    iqtisodiyot kafedrasi
    steiermarkischen landesregierung
    asarlaringizni yuboring
    o'zingizning asarlaringizni
    Iltimos faqat
    faqat o'zingizning
    steierm rkischen
    landesregierung fachabteilung
    rkischen landesregierung
    hamshira loyihasi
    loyihasi mavsum
    faolyatining oqibatlari
    asosiy adabiyotlar
    fakulteti ahborot
    ahborot havfsizligi
    havfsizligi kafedrasi
    fanidan bo’yicha
    fakulteti iqtisodiyot
    boshqaruv fakulteti
    chiqarishda boshqaruv
    ishlab chiqarishda
    iqtisodiyot fakultet
    multiservis tarmoqlari
    fanidan asosiy
    Uzbek fanidan
    mavzulari potok
    asosidagi multiservis
    'aliyyil a'ziym
    billahil 'aliyyil
    illaa billahil
    quvvata illaa
    falah' deganida
    Kompyuter savodxonligi
    bo’yicha mustaqil
    'alal falah'
    Hayya 'alal
    'alas soloh
    Hayya 'alas
    mavsum boyicha


    yuklab olish