Yangi manbalar tahlili
Qayta qidirish tsikllarini o'tkazishda, so'nggi ma'lumotlarni qidirishda yoki tadqiqot ob'ekti dinamikasida rivojlanish tendentsiyalarini tahlil qilishda yangi hosil bo'lgan manbalarni izlash kerak bo'lishi mumkin.
Boshqa mumkin bo'lgan sabab shundaki, ko'pgina qidiruv tizimlari o'zlarining indekslarini sezilarli darajada kechikish bilan yangilaydilar va bu katta hajmdagi ma'lumotlarni qayta ishlash natijasida kelib chiqadi va bu kechikish odatda sizni qiziqtiradigan mavzu shunchalik kam mashhur bo'ladi. Ushbu ixtisoslik ixtisoslashgan hududda qidirishni amalga oshirishda juda muhim bo'lishi mumkin.
Qidiruv mexanizmi texnologiyasi
Geografik qidiruv hududlarini aniqlash
Axborot izlash amaliy maqsadlarni ko'zlaganligi sababli - marketing, ishlab chiqarish, sof utilitar va shunga o'xshashlar - axborot manbasining amaliy ahamiyati tegishli manbaning jug'rofiy joylashishiga ham bog'liq bo'lishi mumkin.
Tezaurusni tuzish
Qidiruv tizimlaridan samarali foydalanish uchun ular orasidagi semantik munosabatlarni hisobga olgan holda tuzilgan kalit so'zlar ro'yxati kerak, ya'ni. tezaurus. Tezaurusni tuzishda kalit so'zlarning sinonimlarini, homonimlarini va morfologik o'zgarishini qayta ishlashni ta'minlash kerak.
Zipf qonunlaridan foydalanish
Matnda so'z necha marotaba uchraganiga so'zning paydo bo'lish chastotasi deyiladi. Agar siz chastotalarni pasayish tartibida tartiblasangiz va ularni raqamlasangiz, u holda chastotaning seriya raqami chastota darajasi deb nomlanadi. Matnda so'zni topish ehtimoli \u003d so'zning yuzaga kelish chastotasi / matndagi so'zlarning soni. Zipf shuni aniqladiki, agar biz matndagi so'zni topish tezligini chastota darajasiga ko'paytirsak, natijada olingan qiymat bir xil tildagi barcha matnlar uchun deyarli o'zgarmas bo'ladi:
C \u003d (so'zlarning paydo bo'lishi chastotasi X chastotasi darajasi) / so'zlar soni
Bu shuni anglatadiki, daraja grafigi chastotaga nisbatan teng tomonli giperboldir.
Zipf shuningdek, berilgan chastotaga ega bo'lgan so'zlar sonining chastotaga bog'liqligi ham bir tilda bo'lgan barcha matnlar uchun giperbola va doimiy ekanligini aniqladi.
Ushbu qonunlardan nimani o'rganish mumkin? Yuqoridagi turli matnlarga bog'liqlikni o'rganish shuni ko'rsatdiki, matnning eng muhim so'zlari diagrammaning o'rtasiga to'g'ri keladi, chunki maksimal chastotali so'zlar odatda old qo'shimchalar, zarralar, olmoshlar, ingliz tilida - maqolalar ("to'xtash so'zlari" deb nomlanadi) va kamdan-kam uchraydigan so'zlar ko'p holatlarda tanqidiy emas. Ushbu naqsh asosida quyidagi metodologiyani taklif qilish mumkin.
Do'stlaringiz bilan baham: |