539
cıxarılmasından ibarətdir. Bunun ücün sərbəst axtarıĢ mərhələsində hesablanan
normaları təyin etmək lazımdır.
Əvvəlki misallardan birinə qayıdaq. Sərbəst axtarıĢ mərhələsində belə bir
qayda cıxarılmıĢdır: «Əgər iddiacının yaĢı 35-dən və arzu etdiyi əmək haqqı 1200
$-dan coxdursa, onda 90% əminliklə demək olar ki, o rəhbər vəzifə axtarır». Bu
qaydadan bir sual cıxır: bəs qalan 10%-i hara aid etməli?
Burada iki variant ola
bilər. 1-çi variant: qayda Ģəklində tərtib edilə bilən hər hansı məntiqi izah var. 2-çi
variant-qalan 10% ilkin verilənlərdəki səhvlərdir. Bu halda istisnaların
analizi
mərhələsi verilənlərin təmizlənməsi ücün istifadə edilir.
Verilənlərin təmizlənməsi
DATA MĠNĠNG texnologiyasının mühüm
problemlərindən biri hesab olunur. Verilənlərin təmizlənməsi ücün mövçud olan
vasitələri 3 sinfə ayırırlar:
1.Verilənlərin analizi və yeniləĢdirilməsi vasitələri;
2.Xüsusi təmizləmə vasitələri:
-spesifik sahənin təmizlənməsi;
-təkrarlanmaların aradan qaldırılması;
3.ETL instrumental vasitələri.
Bu təsnifat haqqında ətraflı məlumat
82
-də verilmiĢdir.
1-çi sinif vasitələrə
verilənlərin fayl-yönlü vasitələri və DATA MĠNĠNG
vasitələri daxildir. Verilənlərin fayl-yönlü təmizlənmə vasitələrinin
tipik
nümayəndəsi MĠGRATĠONARÇHĠTEÇT kommersiya instrumentidir. Hər bir
artibut ücün o, aĢağıdakı metaverilənləri təyin edir: verilənlərin tipi, ölcüsü,
elementlər coxluğu, diskret qiymətlər,minimal və maksimal qiymətlər, itirilmiĢ
qiymətlər və unikallıq. DATA MĠNĠNG vasitələrinə aid olan WĠZRULE və
DATAMĠNĠNGSUĠTE proqramları atributlar və onların qiymətləri arasındakı
münasibətləri üzə çıxarır və düzgünlük səviyyəsini hesablayırlar. WĠZRULE üc
çür qaydanı analiz edə bilir: riyazi düsturları, «əgər-onda» qaydasını və yazılıĢ
qaydasını. Verilənlərin yeniləĢdirilməsi vasitələri, məsələn, ĠNTEGRĠTY proqramı
540
aĢkarlanan Ģablonlardan və qaydalardan təmizləyiçi cevrilmələrin təyini və yerinə
yetirilməsi ücün istifadə edir.
Xüsusi təmizləmə vasitələri
adətən konkret sahələrlə əməliyyat
aparmaq
(əsasən adlarla və ünvanlarla) və təkrarlanmaları aradan aldırmaq ücün istifadə
edilir. Cevrilmələr ya qaydalar kitabxanası formasında əvvəlçədən, ya da istifadəci
tərəfindən interaktiv rejimdə aparılır. Verilənlərin cevrilməsi
sxemin
uyğunlaĢdırılması
vasitələri ilə avtomatik aparıla bilər. Adların və ünvanların
təmizlənməsi ücün bir sıra kommersiya instrumentləri mövçuddur, məsələn,
ĠDÇENTRĠÇ, PUREĠNTTEGRATE, QUĠÇKADDRESS, REUNĠON,
TRĠLLĠUM və s. Təkrarlanmaların aradan qaldırılması ücün DATAÇLEANSER,
MATÇHĠT, MASTERMERGE və s. instrumentlərindən istifadə edilir.
Onlar
adətən tələb edirlər ki, verilənlər mənbələri artıq təmizlənmiĢ və uyğunlaĢdırmağa
hazır olsunlar.
ETL instrumental vasitələri
(Extraçttion, Tranformation, Loading (Cıxarılma,
Cevrilmə, Yüklənmə)) verilənlərin cevrilməsi və təmizlənməsi texnoloji prosesinin
əsas hissəsini yerinə yetirirlər. ETL vasitələrinin catıĢmazlığı ondan ibarətdir ki,
metaverilənlər ücün özlərinin xüsusi formatlarından istifadə etdiklərindən, digər
təmizləmə vasitələri ilə qarĢılıqlı əlaqələr yaratmaq və onlarla birgə istifadə
olunmaları mümkün olmur.
Bir sıra kommersiya vasitələri verilənlər anbarları ücün kompleks səviyyədə
ETL prosesini təmin edirlər, məsələn, ÇOPYMANAGER, DATASTAGE,
EXTRAÇT,
POWERMART,
DEÇĠSĠONBASE,
METASUĠTE,
WAREHOUSEADMĠNSTRATOR və s. Verilənlər mənbələri və verilənlər anbarı
üzrə bütün metaverilənlərin həmahəng idarə olunması ücün onlar VBĠS əsasında
yaradılmıĢ repozitorilərdən istifadə edirlər. Operativ verilənlər mənbələrindən
verilənlər və sxemlər həm sistemin öz faylı və DMBS Ģlüzü vasitəsilə, həm də
ODBÇ və EDA standart interfeyslər vasitəsilə cıxarılır. Verilənlərin cevrilməsi
sadə qrafik interfeys vasitəsilə təyin olunur.
Do'stlaringiz bilan baham: