Mavzu: axborotni izlash reja

ОЦЕНИТЕ Voloperfo Залысины зарастут за месяц! Делала так 4 раза в неделю!

Download 462 Kb.

bet	24/34
Sana	23.03.2022
Hajmi	462 Kb.
	#506957

1 ... 20 21 22 23 24 25 26 27 ... 34

Bog'liq
Mavzu tizimda axborotni izlash va ajratib olish

ОЦЕНИТЕ

Voloperfo
Залысины зарастут за месяц! Делала так 4 раза в неделю!

OrthoFix
Огромная шишка на ноге исчезла за 6 ночей: запишите эту хитрость
Tadqiqotning maqsadi avtomatlashtirilgan axborot qidirish tizimlarini o'rganishdir.
Ushbu kurs ishidagi vazifa avtomatlashtirilgan axborot olishning nazariy asoslarini, tasnifini va axborot qidirish tizimlarining turlarini o'rganadi. Shuningdek, u hozirda foydalanilayotgan ma'lumotlar - to'liq matnli va gipermatnli qidiruv tizimlarining qidiruv kataloglari bo'yicha materiallarni tahlil qiladi. Internet paydo bo'lishi bilan qidirish muammosi dolzarb bo'lib qoldi.
Internet - bu butun dunyo bo'ylab kompyuter tarmog'i bo'lib, u yagona axborot muhiti bo'lib, istalgan vaqtda ma'lumot olish imkoniyatini beradi. Ammo boshqa tomondan, Internetda juda ko'p foydali ma'lumotlar saqlanadi, ammo ularni topish uchun ko'p vaqt talab etiladi. Ushbu muammo qidiruv tizimlarining paydo bo'lishiga sabab bo'ldi. Ushbu kursda Internetda qidiruv tizimlari ko'rib chiqiladi.
1. Axborot-qidirish tizimi
Axborot qidirish tizimi (ISS) - bu tuzilgan ma'lumotlarning katta massivlarini qayta ishlash, saqlash, saralash, filtrlash va qidirish uchun qo'llaniladigan kompyuter muhiti.
Har bir ISS o'ziga xos ob'ektlar to'plami va ularning atributlari bilan tavsiflangan ma'lum bir sinf muammolarini hal qilishga mo'ljallangan.
IRS ikki xil:
1. Hujjatli film.
Hujjatli ISSda barcha saqlanadigan hujjatlar maxsus tarzda indekslanadi, ya'ni har bir hujjatga qidiruv tasvirini tashkil etuvchi individual kod beriladi. Qidiruv davom etmoqda hujjatlarning o'zi emas, balki qidiruv tasvirlari bilan. Ular katta kutubxonalardan kitoblarni shunday izlashadi. Birinchidan, karta katalogda, so'ngra kitobning o'zi unda ko'rsatilgan raqam bilan topiladi.
2. Faktografik.
Faktografik IRSda hujjatlar emas, balki har qanday predmet sohasiga oid faktlar saqlanadi. Qidiruv fakt asosida amalga oshiriladi. Har bir XKS ikki qismdan iborat: ma'lumotlar bazasi (JB) va ma'lumotlar bazasini boshqarish tizimi (ma'lumotlar bazasi). Ma'lumotlar bazasi - bu ma'lum bir mavzu sohasiga tegishli tuzilgan ma'lumotlarning nomlangan to'plamidir.
Ma'lumotlar bazasini boshqarish tizimi bu ma'lumotlar bazalarini yaratish, ularni zamonaviyligini ta'minlash va ulardagi kerakli ma'lumotlarni qidirishni tashkil qilish uchun zarur bo'lgan dasturiy ta'minot va til vositalari majmuidir.
Ayni paytda juda ko'p turli xil ma'lumotlar bazalari mavjud. Dbase, Clipper, FoxPro, Paradox, Microsoft Access kabi eng mashhurlari.
2. Axborot manbalari
Bular WWW, yangiliklar guruhlari, pochta ro'yxatlari va FTP-serverlar kabi mashhur Internet-resurslar. Albatta, siz kerakli ma'lumot manbalarini qo'lda qidirishingiz, kompyuter fanlari va Internet bo'yicha ixtisoslashgan jurnallardan manzillarini bilib olishingiz, toifalari bo'yicha tasniflangan manzillari bo'lgan maxsus qog'ozli ma'lumotnomalardan foydalanishingiz mumkin. Biroq, Internet kabi o'zgaruvchan makon uchun maxsus vositalardan foydalanishni o'rganish kerak, ularning maqsadi axborot resurslari to'g'risidagi ma'lumotlarni to'plash va foydalanuvchilarga tezkor qidiruv xizmatini taqdim etishdir.
ISS (axborot qidirish tizimi) - bu ma'lumotlarni qidirish tili va tegishli qidirish qoidalariga asoslangan holda ma'lumot manbalarining tavsiflari (indeks) bilan maxsus ma'lumotlar bazasida qidirish va kerakli ma'lumotlarni tanlashni ta'minlaydigan tizim. Har qanday XKSning asosiy vazifasi foydalanuvchining axborot ehtiyojlariga mos ma'lumotlarni topishdir. Qidiruv natijasida hech narsani yo'qotmaslik, ya'ni so'rov bilan bog'liq barcha hujjatlarni topish va ortiqcha narsalarni topmaslik juda muhimdir. Shu sababli, qidiruv protsedurasining sifatli xarakteristikasi - dolzarbligi kiritiladi.
Muvofiqlik - qidiruv natijalarining formulali so'rovga mos kelishidir. Keyinchalik, biz asosan Jahon tarmog'i (WWW) uchun ISSni ko'rib chiqamiz. WWW uchun IRSning asosiy ko'rsatkichlari fazoviy miqyos va ixtisoslashuvdir. Fazoviy miqyosi bo'yicha XKSni mahalliy, global, mintaqaviy va ixtisoslashgan deb ajratish mumkin. Mahalliy qidiruv tizimlari bitta server miqyosida sahifalarni tezda topishga mo'ljallangan bo'lishi mumkin. Mintaqaviy IRS ma'lum bir mintaqaning axborot resurslarini, masalan, Internetdagi rus tilidagi sahifalarni tavsiflaydi. Global qidiruv tizimlari, mahalliylardan farqli o'laroq, cheksizlikni qabul qilishga intilishadi - Internetning barcha axborot makonining resurslarini iloji boricha to'liq tavsiflash. Umuman olganda, WWW uchun quyidagi qidiruv vositalarini ajratish mumkin: kataloglar, qidiruv tizimlari, metasearch motorlari.
Katalog - bu veb-resurslarga havolalar bilan mavzular bo'yicha tasniflangan izohlar ro'yxati bo'lgan qidiruv tizimi. Tasniflash odatda odamlar tomonidan amalga oshiriladi. Katalogdagi qidiruv juda qulay va mavzularni izchil aniqlashtirish orqali amalga oshiriladi. Biroq, kataloglar mahalliy qidiruv tizimidan foydalanib, ma'lum bir toifani yoki sahifani kalit so'zlar bo'yicha tezda qidirish imkoniyatini qo'llab-quvvatlaydi. Katalog ma'lumotnomasi ma'lumotlar bazasi (indeks) odatda cheklangan bo'lib, katalog xodimlari tomonidan qo'lda to'ldiriladi. Ba'zi kataloglardan foydalaniladi avtomatik yangilash indeks. Katalogdagi qidiruv natijasi asl manbaga gipermatnli havola bilan hujjatlarning qisqacha tavsifidan (izohidan) iborat ro'yxat shaklida taqdim etiladi.
Qidiruv tizim - bu axborot resurslari to'g'risida ma'lumotlarni o'z ichiga olgan robot tomonidan yaratilgan ma'lumotlar bazasiga ega qidiruv tizimi. Qidiruv tizimlarning o'ziga xos xususiyati shundaki, veb-sahifalar, Usenet maqolalari va boshqalar haqidagi ma'lumotlarni o'z ichiga olgan ma'lumotlar bazasi robot dasturi tomonidan yaratilgan. Bunday tizimda qidiruv foydalanuvchi tomonidan so'rov bo'yicha amalga oshiriladi, kalit so'zlar to'plamidan yoki tirnoq ichiga olingan iboradan iborat. Indeks robotlarni indekslash orqali shakllanadi va yangilanadi. Hujjat tavsifida ko'pincha dastlabki bir nechta jumlalar yoki kalit so'zlarni ta'kidlagan holda hujjat matnidan parchalar mavjud. Qoida tariqasida, hujjatning yangilangan (tekshirilgan) sanasi, uning kilobaytdagi kattaligi, ba'zi tizimlar hujjat tilini va uning kodlanishini belgilaydi (rus tilidagi hujjatlar uchun). Siz olgan natijalar bilan nima qilishingiz mumkin? Agar hujjatning nomi va tavsifi sizning talablaringizga javob bersa, darhol havola orqali asl manbasiga o'tishingiz mumkin. Muammoning natijalarini yanada chuqurroq tahlil qilish uchun buni yangi oynada qilish qulayroq. Ko'pgina qidiruv tizimlari topilgan hujjatlarni qidirishga imkon beradi va siz qo'shimcha shartlarni kiritish orqali so'rovingizni aniqlashtirishingiz mumkin. Agar tizimning razvedkasi yuqori bo'lsa, sizga o'xshash hujjatlarni qidirish xizmati taklif qilinishi mumkin. Buning uchun siz o'zingiz yoqtirgan hujjatni tanlaysiz va uni namuna sifatida tizimga ko'rsatasiz. Biroq, o'xshashlikni aniqlashni avtomatlashtirish juda ahamiyatsiz vazifadir va ko'pincha bu funktsiya umidlaringiz uchun yaxshi ishlamaydi. Ba'zi qidiruv tizimlari natijalarni qayta saralashga imkon beradi. Vaqtingizni tejash uchun qidiruv natijalarini fayl sifatida saqlashingiz mumkin mahalliy disk keyinchalik oflayn o'rganish uchun.
3. Chet elda va Rossiyada mashhur qidiruv tizimlarining manzillari
Chet el qidiruv tizimlari.
Google - www.google Altavista - www.altavista Excite - www.excite HotBot - www.hotbot Northern Light - www.nesternlight Go (Infoseek) - www.go (infoseek) Fast -www.alltheweb.
Rossiya qidiruv tizimlari: www.yandex (yoki www.ya) Rambler - www.rambler Aport - www.aport.
Metasearch qidiruvi.
Iltimos, diqqat qiling, turli xil qidiruv tizimlari Internetdagi turli xil ma'lumot manbalarini tavsiflaydi. Shuning uchun siz o'zingizni faqat ko'rsatilgan qidiruv tizimlaridan birida qidirish bilan cheklay olmaysiz. Endi o'z indeksini shakllantirmaydigan, ammo boshqa qidiruv tizimlarining imkoniyatlaridan foydalanishga qodir bo'lgan qidiruv vositalari bilan tanishamiz. Bu metasearch motorlari (qidiruv xizmatlari) - bir vaqtning o'zida bir nechta qidiruv tizimlariga foydalanuvchi so'rovlarini yuborishi mumkin bo'lgan tizimlar, so'ngra natijalarni birlashtirishi va havolalari bo'lgan hujjat shaklida foydalanuvchiga taqdim etishi mumkin.
Taniqli metasearch dvigatellarining manzillari.
MetaCrawler - www.metacrawler SavvySearch - www.savvysearch.
4. Axborot manbalarini qidirish
Keling, yangiliklar guruhlarida maqolalar kabi ma'lumot manbasini topish muammosini muhokama qilaylik. Qidiruv vositalarini bu holda WWW qidiruv tizimlari deb hisoblash mumkin, ular nafaqat WWW maydonini, balki yangiliklar guruhlaridagi maqolalarni ham indeksatsiya qiladi va ushbu resursda maxsus qidiruv rejimiga ega. Yangilik guruhlarini qidirish, masalan, qidirish serveri Altavista. Shuni ta'kidlash kerakki, WWW qidiruv tizimlari yangiliklar guruhlarini juda tez indekslaydi va vebda mavjud maqolalar haqidagi ma'lumotlarni o'z ichiga oladi. Yangiliklar arxivlarini qidirish uchun ixtisoslashgan tizimlar mavjud bo'lib, ulardan eng mashhurlari Deja tizimi (www.deja). Ushbu tizim sizga kiritilgan atamani o'z ichiga olgan alohida maqolalarni qidirish va ma'lum mavzuni muhokama qilishga bag'ishlangan aniq yangiliklar guruhlarini qidirish imkonini beradi. Siz Deja-da ro'yxatdan o'tishingiz va ba'zi yangiliklar guruhlariga obuna bo'lishingiz mumkin.
Endi fayllarni qidirishga imkon beruvchi vositalarni ko'rib chiqamiz. Ko'pgina WWW qidiruv tizimlari multimedia fayllarini qidirish uchun xizmat ko'rsatishni boshladilar (Altavista, Aport). Buning uchun maxsus operatorlarni bilishning hojati yo'q, lekin rasm, MP3 / audio yoki video havolalari yordamida bosh sahifadan maxsus qidirish rejimiga o'tish kifoya. Izlash mumkin bo'lgan fayl nomi yoki multimedia fayliga havolaga sharhdagi matn orqali amalga oshiriladi. Dasturiy ta'minotni topish haqida gap ketganda, Internet tarmog'ida Internet-qidiruv tizimlari mavjud, ularning ba'zilari Internet yoki ma'lum bir operatsion tizim uchun dasturiy ta'minot topishga ixtisoslashgan. Ushbu tizimlar oxir-oqibat sizni kerakli dasturiy mahsulotni yuklab olishingiz mumkin bo'lgan ma'lum bir serverga olib boradi. Archie serverlarini eslatib o'tish joizki, ular FTP serverlarida fayllarni qidirish xizmatini ham taqdim etishadi, ammo veb-serverlardan foydalanish ancha qulaydir.
Manzil ma'lumotlarini topish uchun qidiruv vositalarini ko'rib chiqing. Keling, Oq va Sariq izlash tushunchalarini tanishtiramiz.
Oq qidirish - manzil ma'lumotlarini oldindan ma'lum bo'lgan shaxsning shaxsiy ismiga (shaxs yoki tashkilotning nomi) asoslangan holda qidirish.
Sariq izlash - o'zingizning ismingizni qo'shimcha funktsiyalar bo'yicha (kasb bo'yicha, geografiya bo'yicha) qidirib toping va keyin uning manzil ma'lumotlarini qidiring.
Odatda Yellow Pages tizimlari darhol Oq Sahifalarni o'z ichiga oladi - qabul qiluvchi darhol uning telefon raqami va pochta manzilini ko'rishi mumkin. Bundan tashqari, ba'zi sariq sahifalar o'zlarining obunachilarining alfavitlar ro'yxatida oddiy qidirish imkonini beradi (oq qidiruv). Boshqa tomondan, Oq sahifalarda sariq izlash elementlari ham mavjud - o'z ismlarini ko'rsatishdan tashqari, ular odatda shahar, shtat nomini va boshqa qidiruv ma'lumotlarini toraytiradigan ma'lumotlarni ko'rsatishga imkon beradi (bu ko'plab ismlar uchun zarur). Ehtimol, shuning uchun haqiqatan ham oq qidiruvlarni amalga oshiradigan ko'plab onlayn telefon kataloglari o'zlarini "Yellow Pages" deb atashadi.
5. WWW uchun zamonaviy ISS arxitekturasi
Axborot-qidirish tizimlarini qurish muammolari va ularni hal qilish usullarini tavsiflashdan oldin, bunday tizimning odatiy sxemasini ko'rib chiqamiz. Bag'ishlangan turli xil nashrlarda maxsus tizimlar, masalan, tizimning turli xil tarkibiy qismlarini tartibga solish printsipi bilan emas, balki bir-biridan faqat o'ziga xos dasturiy echimlarni qo'llash usuli bilan farq qiladigan diagrammalar berilgan. Shuning uchun biz ushbu sxemani ishdan olingan misol yordamida ko'rib chiqamiz.
Shakl 1. Axborot-qidirish tizimining tipik sxemasi
Ushbu diagrammadagi mijoz ma'lum bir ma'lumot manbai uchun tomoshabin hisoblanadi. Bugungi kunda eng ommabop Netscape Navigator kabi ko'p protokolli dasturlar. Bunday dastur WWW, Gopher, Wais hujjatlari, FTP arxivlari, pochta ro'yxatlari va Usenet yangiliklar guruhlarini ko'rishni ta'minlaydi. O'z navbatida, ushbu barcha axborot resurslari axborot qidirish tizimini izlash ob'ekti hisoblanadi.
Foydalanuvchi interfeysi (foydalanuvchi interfeysi) nafaqat tomoshabin, balki axborot qidirish tizimida ham ushbu ibora foydalanuvchining qidiruv tizimi bilan aloqasi usuli sifatida tushuniladi: so'rovlar yaratish va qidiruv natijalarini ko'rish tizimi.
Qidiruv tizim (qidiruv tizimi) - ma'lumotni qidirish tilidagi (IPL) so'rovni tizimning rasmiy so'roviga tarjima qilish, Internet-ning axborot resurslariga havolalarni izlash va foydalanuvchiga ushbu qidiruv natijalarini namoyish qilish uchun xizmat qiladi.
Indeks ma'lumotlar bazasi (ma'lumotlar bazasi indekslari) - XKSning asosiy ma'lumotlar qatori bo'lgan va axborot resursining manzilini topishda foydalaniladigan indeks. Indeksning arxitekturasi shunday qidirib topilganki, qidiruv imkon qadar tezroq bo'ladi va shu bilan birga tarmoqning har bir topilgan axborot resurslarining qiymatini taxmin qilish mumkin bo'ladi.
So'rovlar (foydalanuvchi so'rovlari) - uning (foydalanuvchi) shaxsiy ma'lumotlar bazasida saqlanadi. Har bir so'rovni disk raskadrovka qilish uchun ko'p vaqt talab etiladi, shuning uchun tizim yaxshi javob beradigan so'rovlarni eslab qolish juda muhimdir.
Indeksli robot - Internetni skanerlash va indekslar bazasini yangilab turish uchun ishlatiladi. Ushbu dastur tarmoqning axborot resurslari holati to'g'risida asosiy ma'lumot manbai hisoblanadi.
WWW saytlari bu butun Internet yoki aniqrog'i tomoshabinlar ko'radigan axborot resurslari.
Keling, ushbu tarkibiy qismlarning har birini qurish printsipiga muvofiq maqsadni batafsil ko'rib chiqamiz va ushbu tizim va mahalliy turdagi an'anaviy ISS o'rtasidagi farqni aniqlaymiz.
Axborot resurslari va ularning IPSda taqdim etilishi.
Shakldan ko'rinib turibdiki. 1, Internet-ISS hujjatli massivi - bu oltita asosiy turdagi hujjatlar to'plami: WWW sahifalari, Gopher fayllari, Wais hujjatlari, FTP arxiv yozuvlari, Usenet yangiliklari va pochta jo'natmalaridagi maqolalar. Bularning barchasi juda xilma-xil ma'lumotlar bo'lib, ular har xil, bir-biriga mutlaqo mos kelmaydigan ma'lumotlar formatlari: matnlar, grafik va audio ma'lumotlar va umuman ushbu omborlarda mavjud bo'lgan barcha narsalar shaklida taqdim etiladi. Tabiiy savol tug'iladi - bularning barchasi bilan axborot qidirish tizimi qanday ishlashi kerak?
An'anaviy tizimlar hujjatlarni qidirish tasvirining kontseptsiyasidan foydalanadi - AML. Odatda, bu atama hujjatning o'rnini bosadigan va haqiqiy hujjat o'rniga qidiruvlarda ishlatiladigan narsani anglatadi. Qidiruv tasviri - bu hujjatlar qatorining ma'lum bir modelini haqiqiy massivga qo'llash natijasidir. Eng mashhur model - bu vektorli model bo'lib, unda har bir hujjatda uning ma'nosini eng munosib aks ettiradigan atamalar ro'yxati berilgan. Aniqroq aytganda, hujjatga qidiruvda ishlatilishi mumkin bo'lgan atamalar soniga teng o'lchovli vektor beriladi. Mantiqiy vektor modeli bilan vektor elementi POD da atamaning mavjudligiga yoki yo'qligiga qarab 1 yoki 0 ga teng. Keyinchalik murakkab modellarda atamalar tortiladi - vektor elementi 1 yoki 0 ga emas, balki ushbu atamaning hujjatga mosligini aks ettiradigan ma'lum bir songa (vaznga) tengdir. Bu IPS Internet-da eng mashhur bo'lgan so'nggi model edi.
Umuman aytganda, hujjatlarni tavsiflash uchun boshqa modellar mavjud: axborot oqimlari va qidiruvning ehtimollik modeli va loyqa to'plamlarda qidirish modeli. Tafsilotlarga to'xtamasdan, Lycos, WebCrawler, AltaVista, OpenText va AliWeb tizimlarida hozirgacha faqat chiziqli model ishlatilishiga e'tibor berish mantiqan to'g'ri keladi. Biroq, boshqa modellarni qo'llash bo'yicha tadqiqotlar olib borilmoqda, ularning natijalari ishlarda aks ettirilgan. Shunday qilib, ISS hal qilishi kerak bo'lgan birinchi vazifa - hujjat yoki axborot resursiga kalit so'zlar ro'yxatini berishdir. Ushbu protsedura indeksatsiya deb ataladi. Ammo, ko'pincha, indeksatsiya har bir indekslangan atama u paydo bo'lgan hujjatlar ro'yxati bilan bog'liq bo'lgan teskari ro'yxat faylini yaratishni anglatadi. Ushbu protsedura faqat maxsus holat, aniqrog'i, ISS qidiruv apparatini yaratishning texnik jihati.
Indekslashda muammo shundaki, qidiruv rasmini hujjat yoki axborot resursiga bog'lash lug'at tushunchasiga asoslanadi, undan ushbu atamalar belgilangan atamalar to'plami sifatida tanlanadi. An'anaviy tizimlarda boshqariladigan lug'at tizimlari va erkin lug'at tizimlariga bo'linish mavjud edi. Boshqariladigan lug'at ba'zi bir leksik ma'lumotlar bazasini saqlashni o'z zimmasiga oldi, unga atamalar qo'shilishi tizim ma'muri tomonidan amalga oshirildi va barcha yangi hujjatlar faqat ushbu ma'lumotlar bazasidagi atamalar tomonidan indekslanishi mumkin edi. Bepul lug'at yangi hujjatlar paydo bo'lishi bilan avtomatik ravishda to'ldirildi. Biroq, yangilanish vaqtida lug'at ham tuzatilgan. Amalga oshirish ma'lumotlar bazasini to'liq qayta yuklashni o'z ichiga oldi. Ushbu yangilanish vaqtida hujjatlarning o'zi qayta yuklandi va lug'at yangilandi va yangilanganidan keyin hujjatlar qayta tiklandi. Yangilash protsedurasi ko'p vaqt talab qildi va tizim yangilanishi paytida unga kirish yopiq edi.
Endi har kuni resurslar paydo bo'ladigan va yo'q bo'lib ketadigan anarxik Internetda bunday protsedura mumkinligini tasavvur qiling. GopherSpace uchun Veronica dasturiy ta'minotini yaratishda barcha serverlar ro'yxatdan o'tgan bo'lishi kerak va shu bilan resursning borligi yoki yo'qligi saqlanib qolindi. Veronika oyiga bir marta Gopher hujjatlari uchun tekshiruv o'tkazdi va Gopher hujjatlari uchun AML ma'lumotlar bazasini yangiladi. Butunjahon tarmog'ida bunga o'xshash narsa yo'q. Ushbu muammoni hal qilish uchun tarmoqni skanerlash dasturlari yoki indekslovchi robotlar qo'llaniladi. Robotlarni yaratish ahamiyatsiz ish emas; robotning looplashi yoki virtual sahifalarga kirish xavfi mavjud. Robot tarmoqni skanerdan o'tkazadi, yangi manbalarni topadi, ularga shartlarni tayinlaydi va ularni ma'lumotlar bazasiga joylashtiradi. Asosiy savol - hujjatlarga qanday atamalarni kiritish, ularni qaerdan olish kerak, chunki bir qator manbalar umuman matn emas.
Bugungi kunda robotlar o'zlarining virtual so'zlarini boyitish uchun indekslash uchun quyidagi manbalardan foydalanadilar: gipermatnli havolalar, sarlavhalar, izohlar, kalit so'zlar ro'yxati, to'liq matnli hujjatlar va o'zlarining veb-sahifalari haqidagi ma'mur xabarlari. Telnet, gopher, ftp, matnli bo'lmagan ma'lumotlarni indeksatsiya qilish uchun asosan Usenet yangiliklar va pochta ro'yxatlari, Mavzu va Kalit so'zlar maydonlari uchun URL-lar ishlatiladi. AML-ni yaratish uchun eng katta hajm HTML hujjatlari tomonidan berilgan. Biroq, hujjatlarning ro'yxatdagi elementlaridan barcha atamalar qidiruv rasmlarida tugaydi deb o'ylamaslik kerak. Indekslash uchun ishlatib bo'lmaydigan taqiqlangan so'zlar (to'xtash so'zlar) ro'yxatlari, umumiy so'zlar (predloglar, bog'lanishlar va boshqalar) juda faol ishlatiladi. Shunday qilib, masalan, OpenText-da to'liq matnli indeksatsiya deb ataladigan narsa ham aslida hujjat matnidagi so'zlarni tanlash va turli lug'atlar to'plami bilan taqqoslashdir, shundan so'ng bu atama POD-ga, so'ngra tizim indeksiga kiradi. Lug'atlar va indekslarni ko'paytirmaslik uchun (bugungi kunda Lycos tizim indeksi allaqachon 4 TB), vazn atamasi qo'llaniladi. Hujjat odatda 40 - 100 eng "qiyin" atamalar orqali indekslanadi.
6. Qidiruv ko'rsatkichi
Resurslar indekslanganidan va tizim POD qatorini tuzgandan so'ng, qidiruv tizimining qurilishi boshlanadi. POD-fayl yoki fayllarning frontal ko'rinishi uzoq vaqt talab qilishi aniq, bu interaktiv WWW tizimi uchun mutlaqo qabul qilinmaydi. Qidiruvni tezlashtirish uchun ko'pgina tizimlarda talab bo'yicha ma'lumotlarni tezkor qidirishga yo'naltirilgan o'zaro bog'liq fayllar to'plami bo'lgan indeks tuziladi.
Turli tizimlar indekslarining tuzilishi va tarkibi bir-biridan farq qilishi mumkin va ko'pgina omillarga bog'liq: qidiruv tasvirlari massivining kattaligi, axborot qidirish tili, tizimning turli tarkibiy qismlarining joylashishi va boshqalar. Keling, nafaqat ibtidoiy mantiqiy, balki kontekstli va vaznli qidirishni ham amalga oshirish mumkin bo'lgan tizim misolidan foydalanib indeksning tuzilishini ko'rib chiqamiz, shuningdek ko'plab Internet qidiruv tizimlarida mavjud bo'lmagan bir qator boshqa xususiyatlarni, masalan Yahoo. Ko'rib chiqilayotgan tizimning indekslari sahifa identifikatorlari jadvali (sahifa-ID), kalit so'zlar jadvali (Keyword-ID), sahifalarni o'zgartirish jadvali, sarlavha jadvali, gipermatnli havolalar jadvali, teskari (IL) va to'g'ridan-to'g'ri ro'yxat (FL) dan iborat.
Sahifa identifikatori sahifa identifikatorlarini URL manziliga, Kalit so'z identifikatori - har bir kalit so'zni o'sha so'z uchun noyob identifikatorga, sarlavha jadvali - sahifa identifikatoridan sahifa sarlavhasiga, gipermatnli bog'lanish jadvali - sahifa identifikatoridan gipermatnga ushbu sahifaga havola qiladi. Teskari ro'yxat hujjatdagi har bir kalit so'zni juftliklar ro'yxati bilan bog'laydi - sahifa identifikatori, so'zning sahifadagi o'rni. To'g'ridan-to'g'ri ro'yxat - bu sahifalarni qidirish rasmlarining massivi. Ushbu fayllarning barchasi u yoki bu tarzda qidirishda foydalaniladi, ammo asosiysi teskari ro'yxat fayli. Qidiruv natijasi ushbu fayl sahifa identifikatorlari ro'yxatining birlashishi va / yoki kesishishi. Natijada paydo bo'lgan ro'yxat, gipermatn bilan bog'langan sarlavhalar ro'yxatiga o'tkaziladi, foydalanuvchiga veb-brauzerida qaytariladi.
Teskari ro'yxat yozuvlarini tezda qidirish uchun uning ustiga yana bir nechta fayllar, masalan, ushbu juftliklar bilan boshlangan teskari ro'yxat yozuvlarini ko'rsatuvchi harflar juftligi fayli quriladi. Bundan tashqari, ma'lumotlarga to'g'ridan-to'g'ri kirish mexanizmi ishlatiladi - xashlash. Indeksni yangilash uchun ikkita yondashuv kombinatsiyasi qo'llaniladi. Birinchisini sahifani o'zgartirish jadvali yordamida "tezda" indeksini tuzatish deb atash mumkin. Ushbu echimning mohiyati juda oddiy: eski indeks yozuvlari qidiruvda ishlatiladigan yangisini nazarda tutadi. Bunday havolalar soni uni qidirish paytida sezish uchun etarli bo'lganda, indeksning to'liq yangilanishi sodir bo'ladi - uni qayta yuklash. Har bir aniq Internet-provayderda qidiruv samaradorligi faqat indeks arxitekturasi bilan belgilanadi. Odatda, ushbu massivlarni tashkil etish usuli "kompaniya siri" va uning mag'rurligidir.
7. Tizimning axborot qidirish tili
Indeks foydalanuvchidan yashiringan qidiruv tizimining faqat bir qismidir. Ushbu apparatning ikkinchi qismi - bu ma'lumotni qidirish tili (IPL), bu tizimga so'rovni oddiy va vizual shaklda shakllantirishga imkon beradi. IPLni tabiiy til sifatida yaratish romantikasi uzoq vaqtdan beri orqada qoldi - bu Wais tizimida uni amalga oshirishning dastlabki bosqichlarida qo'llanilgan yondashuv. Agar foydalanuvchidan so'rovlarni tabiiy tilda kiritish talab qilingan bo'lsa ham, bu tizim foydalanuvchi so'rovini semantik tahlil qiladi degani emas. Hayot nasri shundan iboratki, odatda bu ibora so'zlarga bo'linib, ulardan taqiqlangan va oddiy so'zlar olib tashlanadi, ba'zida so'z boyligi normallashadi, so'ngra barcha so'zlar mantiqiy VA yoki OR bilan bog'lanadi. Shunday qilib, quyidagi so'rov:
Unix Platformasida ishlatiladigan dastur Unix AND Platform AND dasturiga aylantiriladi, bu quyidagicha ma'noni anglatadi: "Unix, Platform va Software so'zlari bir vaqtning o'zida bo'lgan barcha hujjatlarni toping." Variantlar ham mumkin. Masalan, aksariyat tizimlarda "Unix Platformasi" iborasi parol sifatida tan olinadi va alohida so'zlarga bo'linmaydi. Yana bir yondashuv - so'rov va hujjat o'rtasidagi yaqinlik darajasini hisoblash. Aynan shu yondashuv Lycos tomonidan qo'llaniladi. Bunday holda, hujjatlar va so'rovlarni taqdim etishning vektorli modeliga muvofiq, ularning yaqinligi o'lchovi hisoblanadi. Bugungi kunda o'nga yaqin turli xil yaqinlik o'lchovlari ma'lum. Hujjatlarni qidirish tasviri va foydalanuvchi so'rovi orasidagi burchak kosinusi eng ko'p ishlatiladi. Odatda, so'rovga mos keladigan hujjatning ushbu foizlari topilgan hujjatlar ro'yxatida ma'lumot sifatida beriladi.
Alta Vista zamonaviy Internet IPS orasida eng rivojlangan so'rovlar tiliga ega. Odatiy VA, YO'Q, YO'Q to'plamidan tashqari, ushbu tizim NEAR-dan foydalanishga imkon beradi, bu esa kontekstli qidiruvni tashkil etishga imkon beradi. Tizimdagi barcha hujjatlar maydonlarga bo'linadi, shuning uchun so'rovda foydalanuvchi hujjatning qaysi qismida kalit so'zni ko'rishga umid qilishini ko'rsatishingiz mumkin: havola, sarlavha, izoh va hk. Shuningdek, masalaning tartiblangan maydonini va hujjatlarning so'rovga yaqinligi mezonini belgilashingiz mumkin.
Axborot olish nazariyasi hujjatli axborot qidirish tizimlari (XKS) xususiyatlarini o'rganishdan boshlandi. Bunday tizimlarda ma'lumot olish deganda ma'lum ma'lumotlarni o'z ichiga olgan hujjatlarni (maqolalar, ilmiy-texnik hisobotlar, mualliflik guvohnomalari va patentlarning tavsiflari, kitoblar va boshqalarni) topish uchun amalga oshiriladigan operatsiyalarning ma'lum bir ketma-ketligi tushuniladi (keyinchalik hujjatlarning o'zi yoki ularning rasmiylashtirilishi bilan nusxalari), yoki berilgan savollarga javoblarni aks ettiruvchi aniq ma'lumotlarni berish maqsadida.
Axborot izlash amalga oshiriladigan axborot elementlari massivi qidiruv massivi deyiladi. Mavjud axborot xizmatlari turlari jadvalda keltirilgan.


Tasniflash xususiyati	Xizmat turi
Tashabbus manbasi bo'yicha	majburiy; iste'molchilarning iltimosiga binoan
Hujjatlar turlari bo'yicha
Fokus yoki maqsadli yo'nalish bo'yicha	axborot nashrlari (ko'plab manzillar); ma'lumotni tanlab tarqatish (bitta manzil)
Chastotasi yoki shoshilinchligi bo'yicha	joriy ogohlantirish; retrospektiv qidirish
Hujjatlarni iste'molchiga etkazish usuli bilan	hujjatlarni yoki ularning nusxalarini iste'molchilarga to'g'ridan-to'g'ri o'tkazish; ikki bosqichli xizmat (birinchi navbatda, axborot nashrlari, keyin esa - iste'molchini qiziqtirgan hujjatlarning nusxalari

Xulosa
Men ko'rib chiqqan qidiruv tizimlari mukammal emas. Ideal qidiruv tizimi quyidagi talablarga javob berishi kerak deb ishoniladi:
Ma'lumotlar bazasini tezkor qidirish va tezkor javob.
Qidiruv natijalarining ishonchliligi va aniqligi.
Foydalanish qulayligi
Yaxshi tashkil etilgan va yangilangan ko'rsatkich.
Axborot resurslari ko'lami va ularning soni doimiy ravishda kengayib bormoqda. Ma'lumotlar bazasi mukammal emasligi ayon bo'ladi. Aqlli agentlar - bu ma'lumotni filtrlash va aniqroq natijalarga erisha oladigan yangi avlod qidiruv tizimlari markazida yangi yo'nalish. Internet dunyoda axborot tarqatish va qabul qilishdagi cheklovlarni yo'q qilib, tinimsiz shiddat bilan rivojlanishda davom etmoqda. Shu bilan birga, ushbu ma'lumot okeanida kerakli hujjatni topish juda oson emas, shuni ham yodda tutish kerakki, uzoq vaqt davomida ishlaydigan serverlar bilan bir qatorda, tarmoqda yangilari paydo bo'ladi.
Bibliografiya
axborot kompyuter tarmog'i qidirmoq
1. Ashmanov I.S. Qidiruv tizimlarida veb-saytlarni reklama qilish / I.S. Ashmanov. - M.: "Uilyams", 2007. - 304 p.
2. Baikov V.D. Internet. Ma'lumot qidirish. Veb-saytni targ'ib qilish / V.D. Baikov. - SPb.: BHV - Peterburg, 2000. - 288 p.
3. Lande D.V. Internetda bilim izlash / D.V. Lande. - M.: "Dialektika", 2005. - 272 b.
4. Chursin N.A. Ommabop informatika / N.A. Chursin.- M.: "Uilyams", 2007. - 300 p.
Allbest.ru saytida joylashtirilgan
...

Download 462 Kb.

Do'stlaringiz bilan baham:

1 ... 20 21 22 23 24 25 26 27 ... 34