Internetni ko'rib chiqaylik
Odamlar haqida gapirganda Internetda qidirish mashinalar, ular haqiqatan ham qidiruv tizimini anglatadi Internet... Internet Internetning eng ko'zga ko'ringan qismiga aylanishidan oldin, odamlarga Internetda ma'lumot topishga yordam beradigan qidiruv tizimlari mavjud edi. "Gopher" va "Archie" deb nomlangan dasturlar ulangan turli serverlarda joylashgan fayllarni indekslash imkoniyatiga ega edi Internet Internet va qidirish vaqtini sezilarli darajada qisqartirdi kerakli dasturlar yoki hujjatlar. 1980 -yillarning oxirida "Internet ko'nikmalari" ning sinonimi gopher, Archi, Veronika va boshqalarni ishlatish qobiliyati edi. qidiruv dasturlari. Hozirgi kunda ko'pchilik Internet foydalanuvchilari o'z qidiruvlarini World Wide Web yoki WWW bilan cheklab qo'ygan.
Kichik boshlanish
Sizga kerakli hujjatni yoki faylni qaerdan topish kerakligi haqida javob berishdan oldin, bu fayl yoki hujjat allaqachon topilgan bo'lishi kerak. Yuz millionlab mavjud WEB-sahifalar haqida ma'lumot topish uchun qidiruv tizimi maxsus robot dasturidan foydalanadi. Bu dastur o'rgimchak ("o'rgimchak", o'rgimchak) deb ham ataladi va sahifada topilgan so'zlar ro'yxatini tuzish uchun ishlatiladi. Bunday ro'yxatni tuzish jarayoni deyiladi veb -skanerlash(Internetda skanerlash). "Foydali" (mazmunli) so'zlar ro'yxatini tuzish va yozib olish uchun qidiruv o'rgimchasi boshqa bir necha sahifalarni "skanerlashi" kerak.
Qanday qilib kimdir boshlanadi O'rgimchak(o'rgimchak) sizning veb -sayohatingizmi? Odatda boshlang'ich nuqtasi dunyodagi eng katta serverlar va juda mashhur veb -sahifalardir. O'rgimchak o'z sayohatini shunday saytdan boshlaydi, topgan barcha so'zlarini indekslaydi va boshqa saytlarga havolalarni bosib o'z harakatini davom ettiradi. Shunday qilib, o'rgimchak robot veb -maydonining kattaroq "bo'laklarini" qamrab olishni boshlaydi. Google.com akademik qidiruv tizimi sifatida ish boshladi. Ushbu qidiruv tizimi qanday yaratilgani tasvirlangan maqolada Sergey Brin va Lorens Peyj (Google asoschilari va egalari) Google o'rgimchaklar qanchalik tez ishlashiga misol keltirdilar. Ulardan bir nechtasi bor va odatda qidiruv 3 o'rgimchakdan boshlanadi. Har bir o'rgimchak veb -sahifalarga bir vaqtning o'zida 300 tagacha ulanishni qo'llab -quvvatlaydi. 4 ta o'rgimchidan foydalangan holda, Google tizimi sekundiga 100 sahifani qayta ishlashga qodir bo'lib, taxminan 600 kilobayt / sek tezlikda trafik hosil qiladi.
O'rgimchaklarga kerakli ma'lumotlarni berish uchun Google ilgari faqat o'rgimchaklarga yangi URL manzillarini "tashlab yuborish" bilan shug'ullanadigan serverga ega edi. URL -ni IP -manzilga tarjima qiladigan domen nomlari serverlari (DNS) nuqtai nazaridan Internet -provayderlarga qaram bo'lmaslik uchun, Google o'ziga xos xususiyatga ega. DNS server, sahifalarni indeksatsiyalashga sarflangan vaqtni minimal darajada kamaytirish. Google Robot tashrif buyurganida HTML sahifasi, 2 narsani hisobga oladi: Sahifadagi so'zlar (matn);
- ularning joylashuvi (sahifaning tanasining qaysi qismida). Kabi xizmat bo'limlaridan joylashgan so'zlar sarlavha, taglavhalar, meta teglar va boshqalar foydalanuvchi qidiruvi uchun muhim deb belgilangan. Google o'rgimchaklari "a", "an" va "the" kabi kesimlardan tashqari, sahifadagi har bir o'xshash so'zni indekslash uchun yaratilgan. Boshqa qidiruv tizimlarida indekslashga biroz boshqacha yondashuv bor.
Qidiruv mexanizmlarining barcha yondashuvlari va algoritmlari oxir -oqibat o'rgimchak robotlarini tezroq va samarali ishlashiga qaratilgan. Masalan, ba'zi qidiruv robotlari sahifadagi sarlavhalar, havolalar va 100 tagacha so'zlarni, hatto matnning birinchi 20 satridagi har bir so'zni indekslashda kuzatadilar. Bu indekslash algoritmi, xususan, Lycos uchun.
AltaVista kabi boshqa qidiruv tizimlari har xil yo'nalishda harakat qiladi va har birini indekslaydi alohida so'z mamlakatlar, shu jumladan "a", "an", "the" va boshqa ahamiyatsiz so'zlar.
Do'stlaringiz bilan baham: |