10.5. Boshqacha standartlar Data Mining 10.5.1. SQL/MM standarti 1991-yil oxirida-1992-yil boshida, IEEE tashkiloti homiyligida harakat qiladigan matnli qidiruv tizimlarini ishlab chiquvchilar sfql (Structured Full-text Query Language) deb nomlangan tilning spetsifikatsiyasini amalga oshirdilar. SFQLNING maqsadi to'liq matnli hujjatlarda ishlatilishi mumkin bo'lgan SQL tiliga kengaytmani tasvirlashdan iborat edi.
Ushbu spetsifikatsiya e'lon qilinganidan so'ng, u ma'lumotlarni tahlil qilish bilan shug'ullanadigan tashkilotlar tomonidan tanqid qilindi. Eng katta tanqid SFQL tilining kalit so'zlaridan umumiy qabul qilingan kontekstda foydalanishga olib keldi.1992 oxirida Tokioda bo'lib o'tgan konferensiyada qaror qabul qilindi SQL tilini kengaytirishda mojarolar yuzaga keldi va ayni paytda SQL standartlashtirish qo'mitasi ob'ektga yo'naltirilgan qo'shimchani ishlab chiqdi SQL. Bu erda SQL ob'ekt turlari uchun sinf kutubxonalarini tasvirlaydigan standart qabul qilindi (har bir toifadagi kompleks uchun o'tish: saytda harakatlanish, qidiruv Shu kabi kutubxonada tasvirlangan strukturaviy turlar SQL ning birinchi sinf turi edi. Tavsiya etilgan standart SQL/MM sifatida tanilgan (MM multimediya — multimediya deb tarjima qilingan). Tavsiya etilgan ma'lumotlar toifalari to'liq matnli ma'lumotlar, mekansal ma'lumotlar (spatial), tasvirlar va boshqalarni o'z ichiga olgan.
SQL kabi, yangi SQL/MM standarti ham bir nechta qismlardan iborat.Ushbu qismlar birinchi qismdan tashqari bir-biriga bog'liq emas. Bu asos bo'lib, boshqa qismlardan foydalanish bo'yicha qo'llanma xarakteriga ega. Ushbu SQL / MM Data Mining standartining oltinchi qismi Data Mining jarayoniga bag'ishlangan. Data Mining algoritmlariga standart interfeyslarni taqdim etishga harakat qiladi. Ular har qanday ob'ektga asoslangan ma'lumotlar bazasi tizimining yuqori darajasini va oraliq darajani ifodalaydi.
Ushbu standart to'rtta asosiy Data Mining modelini qo'llab-quvvatlaydi:
* qoidalar modeli-ma'lumotlarning turli qismlari o'rtasidagi munosabatlarda shablonlarni (qoidalarni) topishga imkon beradi;
* kümelenme modeli-umumiy xususiyatlarga ega bo'lgan ma'lumotlar yozuvlarini bir joyga to'plashga yordam beradi va bu xususiyatlarning eng muhimlarini aniqlaydi;
* regressiya modeli-tahlilchilarga ma'lum bo'lgan yangi raqamli ma'lumotlarning qiymatlarini taxmin qilishga yordam beradi;
* tasniflash modeli regressiya modeliga o'xshaydi, lekin raqamli emas, balki aniq ma'lumotlar (sinflar) ni taxmin qilishga qaratilgan.
Modellar yangi tizimli foydalanuvchi turlari orqali qo'llab-quvvatlanadi. Har bir model uchun dm_*model turi ma'lum, bu erda * almashtiriladi:
-Clas-tasniflash modeli uchun;
- Qoida-qoidalar modeli uchun;
- Clustering-Klaster modeli uchun;
-Regression-regressiya modeli uchun.
Ushbu turlar ma'lumotlardan olingan modelni tavsiflash uchun ishlatiladi. Modellar dm_*Settings turlari yordamida parametrlanadi (bu erda* Clas, Rule, Clus yoki Reg). Ular sizga turli xil model metrlarini (masalan, daraxtlarning chuqurligi) o'rnatish imkonini beradi.
Model yaratilgach va o'qitilgach, u sinov jarayoniga bo'ysunishi kerak. Buning uchun dm_miningdata kabi namunalarni qurish amalga oshiriladi, bu DM_MiningMapping kabi test ma'lumotlarini o'z ichiga oladi. Ushbu ma'lumotlar asl ma'lumot sifatida ishlatiladigan Relational jadvallardagi turli ustunlarni aniqlaydi. Sinov modeli natijasi dm_*TestResult turidagi bir yoki bir nechta misol (bu erda * faqat Clas yoki Reg). Model haqiqiy ma'lumotlarga kirganda, natija dm_*Result (bu erda * Clas, Clus yoki Reg, lekin Rule emas). Ko'pgina hollarda modellarni sinab ko'rish va ishga tushirishni boshqarish uchun dm_*vazifa turi holatlaridan foydalanish kerak.