Foydalanilgan adabiyotlar ro’yhati: An Introduction to Information Retrieval -- Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze – Cambridge 2009 UP
Qanday qilib teskari indeksni qurish kerak degan savolga javob topamiz.
Kalit so’zlar va atamalar: bundan keyin indeks so’zi o’rniga index ishlatiladi.
Teskari indexni qurish prosessi qisqacha qilib index qurish yoki indexlash deyiladi. Uni amalga oshiradigan jarayon yoki mashina indekser deb yuritiladi.
Indekslash algoritmlarini loyihalash apparat cheklovlari bilan uzviy bo’gliq
Shuning uchun birinchi bo’lib indekserga qo’yiladigan hardware talablar ni o’rganib chiqamiz.
Undan keyin esa tartib asosida bloklangan indekslash va bir necha algoritmlarni ko’rib chiqamiz.
Tizimning 2007 yildagi oddiy parametrlari.
Qidiruv vaqti - disk boshini yangi joyga joylashtirish uchun zarur bo'lgan vaqt. Bir baytga uzatish vaqti - bosh to'g'ri holatda bo'lganda diskdan xotiraga o'tkazish tezligi.
Cache – Xotiradagi ma'lumotlarga kirish diskdagi ma'lumotlarga kirishdan ko'ra tezroq. Xotiradagi baytga kirish uchun bir necha soat sikli (ehtimol 5 × soniya) kerak bo'ladi, lekin uni diskdan o'tkazish ancha uzoqroq vaqtni oladi (taxminan 2×soniya).
Qidiruv vaqti – Diskni o'qish yoki yozishni bajarayotganda, disk boshi diskning ma'lumotlar joylashgan qismiga o’tishiga biroz vaqt sarflaydi. Bu vaqt qidiruv vaqti deb ataladi va odatdagi disklar uchun o'rtacha 5 ms ni tashkil qiladi. Qidiruv paytida hech qanday ma'lumot uzatilmaydi. Ma'lumot uzatish tezligini maksimal darajada oshirish uchun birgalikda o'qiladigan ma'lumotlar bo'laklari diskda doimiy ravishda saqlanishi kerak.
Qidiruv vaqti – Diskni o'qish yoki yozishni bajarayotganda, disk boshi diskning ma'lumotlar joylashgan qismiga o’tishiga biroz vaqt sarflaydi. Bu vaqt qidiruv vaqti deb ataladi va odatdagi disklar uchun o'rtacha 5 ms ni tashkil qiladi. Qidiruv paytida hech qanday ma'lumot uzatilmaydi. Ma'lumot uzatish tezligini maksimal darajada oshirish uchun birgalikda o'qiladigan ma'lumotlar bo'laklari diskda doimiy ravishda saqlanishi kerak.
Operatsion tizimlar odatda butun bloklarni o'qiydi va yozadi. Shunday qilib, diskdan bitta baytni o'qish butun blokni o'qishga teng vaqt talab qilishi mumkin. Blok o'lchamlari 8, 16, 32 va 64 kilobayt (KB) keng tarqalgan. Asosiy xotiraning o'qilayotgan yoki yozilayotgan blok saqlanadigan qismini biz bufer deb ataymiz.
Diskdan xotiraga ma'lumotlarni uzatish protsessor tomonidan emas, balki tizim shinasi tomonidan amalga oshiriladi. Bu protsessor diskni kiritish/chiqarish jarayonida ma'lumotlarni qayta ishlash uchun mavjudligini bildiradi.
Axborotlarni izlash tizimlarida ishlatiladigan serverlar odatda bir necha gigabayt (GB) asosiy xotiraga ega, ba'zan esa o'nlab GB. Mavjud disk maydoni bir necha marta kattaroqdir.