Data Mining (so'zma-so'z inglizchadan tarjima qilinganida - "ma'lumotlar qazib olish") - bu ma'lumotni avtomatlashtirilgan ravishda qazib olish bilan bog'liq bo'lgan (qayta ishlangan ma'lumotlarda bevosita mavjud) axborot texnologiyalaridagi yo'nalish.
Zamonaviy Data Mining texnologiyasi ma'lumotlardagi munosabatlarning turli qismlarini aks ettiruvchi andozalar kontseptsiyasiga asoslangan. Ma'lumotlarni qazib olish usullarining muhim xususiyati - bu aniqlangan naqshlarning ahamiyatsizligi bo'lib, ular yashirin bilim deb ataladigan ma'lumotlardagi aniq bo'lmagan, ilgari noma'lum bo'lgan qonuniyatlarni aks ettirishi va mijozlar tarkibidagi o'zgarishlar, kredit kartalaridagi firibgarlikni aniqlashdir.
Ma'lumotlarni izlash(qidirish) usullari quyidagi turlarni aniqlashga imkon beradi:
• ketma-ketlik (masalan, ma'lum bir vaqt oralig'ida A hodisasidan so'ng, B voqea sodir bo'lishi mumkin);
• hodisalar orasidagi bog'liqlik (masalan, A va B hodisalar bir vaqtning o'zida sodir bo'lishi mumkin);
• tasnif (ob'ektlar nisbatan doimiy xususiyatlarga ega bo'lgan guruhlardan biriga kiradi);
• klasterlash tasniflashdan farq qiladi, chunki guruhlarning o'zi oldindan belgilanmagan va to'g'ridan-to'g'ri tahlil paytida tanlanadi;
• prognoz - maqsad ko'rsatkichlari harakati dinamikasini aks ettiruvchi vaqt qatorlarini qurish.
Text Mining - bu matnli ma'lumotlarni qayta ishlashga yo'naltirilgan Ma'lumotlarni qazib olishning bir turi va Internet-resurslarni kuzatishda keng qo'llaniladi. Text Mining-ning vazifasi sintaksisni emas, balki matnlar ma'nosining semantikasini tahlil qilish, undan foydalanuvchi uchun eng mazmunli ma'lumotlarni tanlashdir (kontent-tahlil bilan chambarchas bog'liqlik mavjud). Odatda, quyidagi Text Mining dasturlari ajratiladi:
• tabiiy tilda matnlarni referatlash;
• matnli hujjatlarni tasniflash (tematik indeksatsiya);
• matnli hujjatlar va ularning qismlarini klasterlash;
• matnli hujjat ontologiyasini qurish (asosiy atamalar va ular orasidagi bog'lanishlar), masalan, semantik tarmoq;
Internetdagi asosiy ma'lumot yetkazib beruvchilar orasida quyidagilar ajralib turadi: axborot agentliklari, ommaviy axborot vositalarining veb-resurslari, yuridik va jismoniy shaxslarning saytlari, o'quv saytlari (kutubxonalar, ma'lumotnomalar, boshqa saytlarga havolalar, kataloglar va boshqalar). , ma'lumot almashish uchun saytlar (suhbatlar, yangiliklar guruhlari, ijtimoiy tarmoqlar va boshqalar).
Internetdagi ma'lumotlarning doimiy ravishda o'sib borishi o'zaro bog'liq ikkita vazifani hal qilish zarurligiga olib keladi: tahlil qilish va kerakli ma'lumotlarni izlash. Internetda ma'lumot topish muammolari quyidagi omillar bilan bog'liq:
• axborotni taqdim etish uchun yetarli darajada ishlab chiqilmagan standartlar (turli xil taqdimot formatlari, noto'g'ri tuzilgan ma'lumotlar);
• ma'lumotni taqdim etish uchun turli xil tillar va lingvistik xususiyatlarni hisobga olish zarurati;
• saqlanadigan va uzatiladigan axborot hajmining tez o'sishi;
• axborotni olish tezligiga yuqori talablar;
• navigatsiya usullarining nomukammalligi.
Axborot qidirish tizimlari (AQT) asosida Internetda ma'lumot qidirishning keng usullari mavjud, ammo ularni ikkita asosiy sinfga bo'lish mumkin :
qidiruv tizimlari va qidiruv kataloglari . Keling, ushbu sinflarning har birini alohida ko'rib chiqaylik.
Qidiruv tizimlar, o'z navbatida, ikki guruhga bo'linadi:
Do'stlaringiz bilan baham: |