Bir qarashda, indeks hajmi oshgani sayin, axborot qamrovi ortishi kerak,
Bu qidiruv tizimi qaysi veb-sahifalarni indekslashiga bog'liq bo'lsa-da:
ba'zi sahifalar boshqalarga qaraganda ko'proq ma'lumotga ega. Bundan tashqari, hukm qilish qiyin qidiruv tizimi tomonidan indekslangan veb ulushi haqida, chunki a bor ko'p sonli dinamik veb-sahifalar. Masalan, http:// sahifasiga kirish
www.yahoo.com/any_string xato emas, yaroqli HTML sahifani qaytaradi,
muloyimlik bilan foydalanuvchini Yahoo! mavjud emas -
mavjud. Ushbu "yumshoq 404 xatosi" ko'pchilikning bir misolidir,
veb-serverlar cheksiz miqdordagi haqiqiy veb-sahifalarni yaratganda. Garchi
bu sahifalarning ba'zilari sizni majburlaydigan zararli tuzoqlardir
sud roboti (indekslash uchun veb-sahifalarni muntazam ravishda yuklab oladigan komponent;
20-bobga qarang) spamli veb-saytga yopishib oling va uning ko'p sonini indekslang
sahifalar.
To'g'riroq savol berishimiz mumkin: "Ikkisining indekslarining o'lchamlari qanday
qidiruv tizimlari? Ammo bu savol ham quyidagi sabablarga ko'ra noto'g'ri.
1. So'rovlarga javoban, qidiruv tizimi veb-sahifalarni, kontentni qaytarishi mumkin
(to'liq yoki qisman) indekslanmagan. qidiruv tizimlari
Tizimlar veb-sahifadagi faqat dastlabki bir necha ming so'zni indekslashga moyildir. Ba'zi hollarda, qidiruv tizimi bu sahifani biladi p
indekslangan sahifalar bilan bog'langan, lekin o'zini indekslamaydi
sahifa p. 21-bobda ko'rsatilganidek, bunday holatda, p sahifa mumkin
qidiruv natijalari ro'yxatiga tushing.
2. Qidiruv tizimlari odatda o‘z indekslarini bir necha daraja va segmentlarga ajratadi.
politsiyachilar, va har bir qidiruv paytida ularning hammasi ham tekshirilmaydi (darajali indekslar tasvirlangan
7.2.1-bandda). Masalan, veb-sayt ichida chuqur joylashgan veb-sahifa,
indekslanishi mumkin, lekin oddiy qidiruvlarda topilmaydi. Lekin,
Ehtimol, u maxsus cheklangan qidiruv natijasida qaytariladi
sayt (bu turdagi qidiruv ko'pchilik qidiruv tizimlari tomonidan taklif etiladi).
Shunday qilib, qidiruv tizimi indekslari turli sinflarni o'z ichiga oladi
indekslangan sahifalar va indeks hajmini aks ettiruvchi yagona ko'rsatkich bunday qilmaydi
mavjud. Shunga qaramay, qarindoshni taxminiy baholash uchun ko'plab usullar taklif qilingan
E1 va E2 qidiruv tizimlari indekslarining o'lchamlari. Ularning asosidagi asosiy gipoteza
Buning asosi shundaki, har bir qidiruv tizimi vebning siz bo'lgan qismini indekslaydi
mustaqil va tasodifiy qasam ichish. Shu bilan birga, juda ishonchsiz
taxminlar: 1) Internet cheklangan miqdordagi sahifalardan iborat bo'lib, ulardan qidiruv tizimi
tizim kichik to'plamni tanlaydi; 2) har bir qidiruv tizimi o'zining kichik to'plamini tanlaydi
zhestvo mustaqil ravishda boshqa va tasodifiy. Munozarada ko'rsatilgandek
20-bobda qidiruv robotlari, bu taxminlar haqiqatdan uzoqdir. Biroq, umumiy-
Ulardan bosh irg'ab, siz usuli deb nomlanuvchi klassik baholash usulini qo'llashingiz mumkin
ikkinchi qo'lga olish (qo'lga olish-qayta qo'lga olish usuli).
Aytaylik, qidiruv tizimi indeksidan tasodifiy sahifani tanlashimiz mumkin
tizimi E1 va uning E2 qidiruv tizimining indeksiga tegishli ekanligini tekshiring va aksincha.
Ushbu tajribalar natijasida qidiruv tizimi indeksidan x sahifalar ulushini taxmin qilish mumkin
E2 qidiruv tizimining indeksidagi E1 tizimi va qidiruv tizimining indeksidagi sahifalarning y ulushi
E1 qidiruv tizimi indeksidagi E2 mavzulari. |Ei| bilan belgilang qidiruv indeksi hajmi
Ei tizimlari. Keyin
Demak, bundan kelib chiqadi:
Agar E1 va E2 haqidagi taxminlarimiz mustaqil va tasodifiy kichik to'plamlar sifatida
veb to'g'ri bo'lgan va bizning sahifani tanlash usuli bir tomonlama emas edi, keyin taxmin beradi
|E1|/|E2| munosabati uchun xolis bahoga ega bo'lar edi. Bu erda ikkita sahnani ajratib ko'rsatish kerak
ria. Ushbu ball yoki qidiruv tizimlaridan birining indeksiga kirish huquqiga ega bo'lgan kishi tomonidan olinadi. tizimlari (masalan, E1 kompaniyasining xodimi) yoki mustaqil ekspert bo'lmagan qidiruv tizimi indekslariga kirish. Birinchi holda, biz shunchaki vaziyatni aytishimiz mumkin - Indeksdan hujjatlarni aqlli tarzda oling. Ikkinchi variant qiyinroq: biz kerak bitta qidiruv tizimining indeksidan tasodifiy sahifani tortib oling, undan tashqarida tizimiga o'ting va keyin ushbu sahifa boshqa qidiruv tizimining indeksiga tegishli ekanligini tekshiring tizimlari.