Buning ikkita afzalligi bor: u tezroq, chunki saralash yo'qtalab qilinadi va u xotirani tejaydi, chunki biz eʼlonlar roʻyxatiga tegishli boʻlgan atamani kuzatib boramiz, shuning uchun eʼlonlar termIDlarini saqlash shart emas. Natijada, SPIMI-INVERT ning individual qo'ng'iroqlari qayta ishlanishi mumkin bo'lgan bloklar ancha katta bo'ladi va indeks yaratish jarayoni umuman samaraliroq bo'ladi. Biz atamaning eʼlonlar roʻyxatini birinchi marta uchratganimizda qanchalik katta boʻlishini bilmasligimiz uchun dastlab qisqa eʼlonlar roʻyxatiga joy ajratamiz va har safar u toʻlganida boʻsh joyni ikki barobarga oshiramiz (8–9-qatorlar). Bu oraliq ma'lumotlar tuzilmalarida termIDlarni o'tkazib yuborishdan xotirani tejashga qarshi turadigan ba'zi xotira isrof bo'lishini anglatadi. Biroq, SPIMI-da blokning dinamik qurilgan indeksi uchun umumiy xotira talablari BSBI-ga qaraganda hali ham past. - Buning ikkita afzalligi bor: u tezroq, chunki saralash yo'qtalab qilinadi va u xotirani tejaydi, chunki biz eʼlonlar roʻyxatiga tegishli boʻlgan atamani kuzatib boramiz, shuning uchun eʼlonlar termIDlarini saqlash shart emas. Natijada, SPIMI-INVERT ning individual qo'ng'iroqlari qayta ishlanishi mumkin bo'lgan bloklar ancha katta bo'ladi va indeks yaratish jarayoni umuman samaraliroq bo'ladi. Biz atamaning eʼlonlar roʻyxatini birinchi marta uchratganimizda qanchalik katta boʻlishini bilmasligimiz uchun dastlab qisqa eʼlonlar roʻyxatiga joy ajratamiz va har safar u toʻlganida boʻsh joyni ikki barobarga oshiramiz (8–9-qatorlar). Bu oraliq ma'lumotlar tuzilmalarida termIDlarni o'tkazib yuborishdan xotirani tejashga qarshi turadigan ba'zi xotira isrof bo'lishini anglatadi. Biroq, SPIMI-da blokning dinamik qurilgan indeksi uchun umumiy xotira talablari BSBI-ga qaraganda hali ham past.
Tarqalgan indekslash - To'plamlar ko'pincha shunchalik kattaki, biz bitta mashinada indeks yaratishni samarali bajara olmaymiz. Bu, ayniqsa, katta kompyuter klasterlariga muhtoj bo'lgan World Wide Web uchun to'g'ri keladi har qanday oqilona o'lchamdagi veb indeksini yaratish. Shunday qilib, veb-qidiruv tizimlari indeks yaratish uchun taqsimlangan indekslash algoritmlaridan foydalanadi. Qurilish jarayonining natijasi bir nechta mashinalarga bo'lingan taqsimlangan indeksdir - yoki muddatga ko'rayoki hujjatga muvofiq.
- Biz ushbu bo'limda tasvirlangan taqsimlangan indeksni yaratish usuli - bu taqsimlangan hisoblash uchun umumiy arxitektura MapReduce ilovasi. MAPREDUCE MapReduce katta kompyuter klasterlari uchun mo'ljallangan. Klasterning maqsadi ixtisoslashtirilgan apparatga ega superkompyuterdan farqli o'laroq, standart qismlardan (protsessor, xotira, disk) qurilgan arzon tovar mashinalari yoki tugunlarida katta hisoblash muammolarini hal qilishdir. Bunday klasterlarda yuzlab yoki minglab mashinalar mavjud bo'lsa-da, individual mashinalar istalgan vaqtda ishdan chiqishi mumkin.
Do'stlaringiz bilan baham: |