«Yangi O‘zbekistonda islohotlarni amalga oshirishda zamonaviy axborot-kommunikatsiya
texnologiyalaridan foydalanish» mavzusida Xalqaro ilmiy-amaliy konferentsiya
Andijon
27-29 oktabr 2021 yil
322
Ma'lumotlarni normallashtirishga ko'plab yondashuvlar mavjud. Bu maydon
qiymatlari uchun yakuniy lug'atdan foydalanish, matnni tabiiy tilda avtomatik
ravishda belgilash, biz qanday ob'ekt haqida gaplashayotganimizni aniqlash uchun
va ma'lum bir tartibda keyingi atamalar foydalanish bo'lishi mumkin.
Bunda biz professional kataloglashtiruvchilar tomonidan yaratilgan MARC
formatidagi yozuvlarni ko'rib chiqamiz, shuning uchun normallashtirish blokida
faqat yozuv to'liqlik talablariga muvofiqligi tekshiriladi (bog'lanish uchun unda
etarli ma'lumotlar mavjud).
Juftliklarni tuzish
Kiruvchi yozuvni har bir avtoritet yozuv yoki bibliografik yozuv elementlari
bilan taqqoslash mashaqqatli jarayon bo'lishi mumkin. Shuning uchun, kirish
ma’lumoti bilan mos keladigan avtoritet yozuvlar yoki bibliografik yozuv elementlar
sonini kamaytirish kerak. Buning kamaytirish uchun ko'p yo'llari mavjud bo’lib
ularning bir nechtasini keltirib o’tamiz.
1. Standart bloklar usuli bir xil blokli kalitga ega bo’lgan yozuvlarni bitta
blokka ajratadi [1]. Blok kalitlari yozuvlarning atributlari asosida tuziladi, masalan,
familiyaning birinchi 4 belgisi. Bundan tashqari, blok kaliti ham murakkab bo'lishi
mumkin, masalan, "indeks" xususiyati "yosh" xususiyati bilan ham tashkil topgan
bo’lishi mumkin. Kalitlar bloklar juda katta yoki juda kichik bo'lmagan tarzda
tanlanishi kerak.
2. Yaqin qo'shnilar usuli yozuvlarni tartiblash kaliti asosida tartiblaydi va
belgilangan o'lchamdagi ω oynani barcha yozuvlar bo'ylab ketma-ket siljitadi [2].
Oyna ichidagi yozuvlar bir-biri bilan bog'langan juftliklarni tashkil qiladi va nomzod
ro'yxatiga kiritiladi. Oynadan foydalanish har bir yozuv uchun mumkin bo'lgan
taqqoslash sonini 2ω - 1 gacha cheklaydi. Agar bitta kalit qiymati bo'lgan yozuvlar
soni deraza kattaligidan oshsa, Bu usul to'g'ri ishlamasligi mumkin, chunki bu holda
barcha kerakli yozuvlar taqqoslanmaydi.
3. Bigram-indekslash usuli noravshan bloklarga ajratish uchun
mo'ljallangan[3]. Asosiy g'oya shundan iboratki, blok kalitlarining qiymatlari
bigramlar ro’yxatiga aylantiriladi (ikki belgidan iborat ostki satrlar) va keyin ushbu
chegaralar asosida ushbu bigramlardan ro'yxatlar tuziladi (masalan, 80% dan ortiq
bigramga ega bo'lgan barcha yozuvlar tanlanadi).
Ushbu ish doirasida ikkita qiymatdan: muallifning familiyasi va ismi-
sharifidan iborat murakkab kalit yordamida qidirish usuli qabul qilindi. Kalit qiymati
kiruvchi yozuv bilan aniqlanadi, qidirish avtoritet faylda amalga oshiriladi. Bu aniq
taqqoslashni qo’llaydi. Bunday mexanizm murakkab hisob-kitoblar mashaqqatini
sezilarli darajada kamaytirishi mumkin.
Taklif qilinayotgan yondashuvning muhim xususiyatlaridan biri, kirish
yozuvi bilan kengaytirilgan avtoritet yozuvlarni taqqoslash amalga oshiriladi.
Kengaytirilgan avtoritet yozuv, mavjud avtoritet yozuvlaridan tashqari, tizimda
saqlangan va u bilan bog'langan bibliografik yozuv ma'lumotlarni ham o'z ichiga
oladi. Ushbu yondashuv tahlilga jalb qilingan ma'lumot miqdorini oshirish va
aniqroq natijalarni olish imkonini beradi.
Do'stlaringiz bilan baham: |