Наргис Қосимова


Қидирув тизимларининг таркиби ва тамойиллари



Download 8,33 Mb.
Pdf ko'rish
bet25/200
Sana03.06.2022
Hajmi8,33 Mb.
#631826
1   ...   21   22   23   24   25   26   27   28   ...   200
Bog'liq
онлайн журналистика-намунавий-дастур

Қидирув тизимларининг таркиби ва тамойиллари. 
Деярли барча 
йирик қидириш механизмлари бошқалардан фарқли ўз тузилишига эга бўлса-
да, уларга тааллуқли асосий таркибий қисмларни аниқлаш мумкин. 
Таркибидаги фарқлар фақат ушбу компонентларнинг ўзаро таъсирлаш 
механизмларини амалга ошириш шаклида бўлади. Демак, қидирув тизимлари 
асосан интекслаш модули ёрдамида фаолият юритади. Модуль учта ёрдамчи 
дастурлар (роботлар)дан иборат: 
Spider (ўргимчак) - веб-саҳифаларни юклаб олиш учун мўлжалланган 
дастур. Spider саҳифани юклайди ва ушбу саҳифадаги барча ички 
ҳаволаларни юзага чиқаради. Роботлар саҳифаларни юклаб олиш учун HTTP 
протоколларидан фойдаланади. Spider қуйидагича ишлайди: робот, серверга 
40
Обзор лучших поисковых систем мира: цели, технологии, отличия. https://sitechecker.pro/ru/search-engines 


40 
“get/path/document” сўрови ва бошқа HTTP сўров буйруқларини юборади. 
Жавобан робот хизмат маълумотлари ва ҳужжатнинг ўзини юклаб олади. Ҳар 
бир юклаб олинган саҳифа қуйидаги форматда сақланади: 

URL манзили; 

саҳифа юклаб олинган сана; 

http сервер жавоб сарлавҳаси; 

саҳифа манзили (HTML-код).
Crawler
(“саёҳат қилувчи” ўргимчак) – барча топилган ҳаволаларга 
автоматик равишда тўғри келадиган дастур. Унинг ишлаш жараёни олдиндан 
белгиланган манзиллар рўйхатига асосланади. Crawler топилган ҳаволалар 
орқали ҳали номаълум бўлган янги ҳужжатларни қидиришга мослашган. У 
ҳаволаларга, ёки олдиндан киритилган манзиллар рўйхатига таянган ҳолда 
қидирув тизимига номаълум бўлган янги ҳужжатларни қидиради. Сайт эгаси 
robots.txt ёрдамида маълум бир саҳифаларни ўчириши мумкин, ундан 
фойдаланган ҳолда файллар, саҳифалар ёки сайтлар каталоглари 
индексациясини таъқиқлаш имконияти мавжуд. Қидирув тизими келгусида 
индексация қилиш учун ҳар бир саҳифанинг мазмунини таҳлил қилади. 
Сўзлар сарлавҳалардан, саҳифадаги матнлардан ёки махсус майдонлар – 
метатеглардан чиқариб олиниши мумкин. 
Indexer
(индексатор робот) - бу ўргимчаклар томонидан юклаб олинган 
веб-саҳифаларни таҳлил қилувчи дастур бўлиб, саҳифани унинг таркибий 
қисмларига ажратади ва уларни ўзининг лексик ва морфологик алгоритмлари 
орқали таҳлил қилади. Саҳифанинг турли элементлари - матн, сарлавҳа, 
тизимли ва услубий ҳаволалар таҳлилга тортилади. Шундай қилиб, 
индекслаш модули сизга маълум бир манбалар тўпламини, саҳифаларни 
ҳаволалар орқали юклаб олиш, олинган саҳифалардан янги саҳифаларга 
ҳаволалар олиш ва ушбу ҳужжатларни тўлиқ таҳлил қилиш имконини 
беради
41
. Саҳифани олдиндан қисмларга бўлган ҳолда, ўз лексик ва 
морфологик алгоритмларини қўллаб таҳлил қиладиган модулдир. Веб-
саҳифанинг барча элементлари қисмларга ажратилади ва алоҳида-алоҳида 
таҳлил қилинади. Веб-саҳифалар ҳақидаги маълумотлар келгуси сўровларда 
улардан яна фойдаланиш мақсадида маълумотларнинг индекс базасида 
сақланади. Индекс фойдаланувчининг сўрови бўйича ахборотни тезда топиш 
имконини беради. Googleга ўхшаш бир қатор қидирув тизимлари саҳифани 
бутунича, ёки унинг кэш деб номланадиган бир қисмини, ҳамда веб-саҳифа 
тўғрисидаги турли маълумотларни сақлайди. AltaVista сингари бошқа 
тизимлар эса топилган ҳар бир саҳифадаги ҳар бир сўзни сақлайди. Кэшдан 
41
Как работает поисковая система? https://seo-akademiya.com/baza-znanij/osnovyi-seo/princzip-rabotyi-poiskovoj-sistemyi


41 
фойдаланиш илгари кирилган саҳифалардан ахборотни ажратиб олиш 
имкониятини тезлаштиради. Кэшланган саҳифаларда ҳар доим 
фойдаланувчи сўров пайтида киритган матн бўлади. Веб-саҳифа янгиланган, 
яъни унда фойдаланувчининг матни ўчиб кетган, кэшдаги саҳифа эса ҳали 
ҳам эски бўлган ҳолатларда бу жуда қўл келади. Бу вазият ҳаволаларнинг 
йўқолиши (инг. linkrot) ва Googleнинг фойдаланувчига (use ability) нисбатан 
дўстона муносабати билан боғлиқ. У кэшдан сўров матнига эга бўлган 
матннинг қисқа бўлакларини беришни назарда тутади. Бунда энг кам ҳайрат 
принципи амал қилади, яъни одатда фойдаланувчи олинган саҳифалар 
матнларида изланган сўзларни кўришни кутади (User expectations). Бундан 
ташқари, саҳифаларнинг кэшланиши қидирувни тезлаштиради, кэшдаги 
саҳифаларда бошқа бирор жойда топилмайдиган маълумотлар бўлиши 
мумкин.
Қидирувчи индексатордан олинган чиқиш файллари билан ишлайди. 
Қидирувчи фойдаланувчи сўровларини қабул қилади, индекс ёрдамида 
уларни қайта ишлайди ва қидирув натижаларини қайтаради.
Фойдаланувчи сўровни қидирув тизимига киритганда (одатда, калит 
сўзлар ёрдамида), тизим ўз индексини текширади ва энг мос келадиган веб-
саҳифаларнинг рўйхатини (бирор-бир мезон бўйича сараланган) ҳужжат 
сарлавҳасидан ва баъзида матннинг бир қисмидан иборат бўлган қисқача 
аннотациясини чиқариб беради. Қидирув инlекси веб-саҳифадан чиқариб 
олинган ахборот асосида махсус услуб бўйича тузилади. 2007 йилдан бошлаб 
Google қидирув тизими изланаётган ҳужжатларнинг яратилиш вақтини 
ҳисобга олган ҳолда қидириш имконини беради (“Қидирув қурилмалари” 
менюсини чақириш ва вақт диапазонини кўрсатиш). Кўпгина қидирув 
тизимлари сўровларда И, ИЛИ, НЕ дан фойдаланиш имконини беради, бу эса 
изланаётган калит сўзлар рўйхатини кенгайтиришда қўл келади. Бунда тизим 
сўзлар ёки жумлаларни қандай киритилган бўлса, шу тарзда излайди. Айрим 
қидирув тизимларида тахминий қидириш имконияти мавжуд, бунда 
фойдаланувчилар калит сўзгача бўлган масофани кўрсатган ҳолда қидирув 
соҳасини кенгайтиришади. Шунингдек, концептуал қидирув ҳам мавжуд 
бўлиб, унга кўра изланаётган сўз ва жумлаларнинг веб-саҳифа матнларида 
қўлланилиши статистик жиҳатдан таҳлил қилинади. Ушбу тизимлар табиий 
тилда сўровлар киритиш имконини беради. ask com ана шундай қидирув 
тизимларига мисол бўла олади. 
Қидирув тизимининг фойдалилиги у топган саҳифаларнинг 
релевантлигига боғлиқ бўлади. Гарчи, миллионлаб веб-саҳифаларда 
қайсидир сўз ёки жумла мавжуд бўлса-да, фақат уларнинг айримларигина 


42 
бошқаларига нисбатан релевант, оммабоп ва нуфузли бўлиши мумкин. 
Аксарият қидирув тизимлари рўйхатнинг бошига “энг яхши” натижаларни 
чиқариш учун муайян тартибга солиш услубидан фойдаланади. Қидирув 
тизимлари қайси саҳифалар релевант экани ва натижалар қандай тартибда 
кўрсатилиш кераклигини турлича ҳал қилади. Қидирув услублари ҳам 
интернетнинг ўзи сингари вақт ўтиши билан ўзгариб бормоқда. Жумладан, 
қидирув тизимларининг иккита асосий тури пайдо бўлди, булар: калит 
сўзларнинг олдиндан маълум бўлган ва иерархия жиҳатидан тартибга 
солинган тизими ҳамда матнни таҳлил қилиш асосида инвертацияланган 
индекс генерацияланадиган тизимлар.

Download 8,33 Mb.

Do'stlaringiz bilan baham:
1   ...   21   22   23   24   25   26   27   28   ...   200




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish