552
olmamasını bilmək lazımdır. Verilənlər
yığımında mövsüm/dövri
komponent
varsa, onda ən azı bir mövsüm/dövr ücün verilənlər olmalıdır.
Verilənlər nizamlı olmadıqda, yəni verilənlər yığımı vaxtla bağlı olmadıqda,
aĢağıdakı qaydaları nəzərə almaq lazımdır:
-verilənlər yığımında yazıların sayı ktfayət qədər olmalıdır, cünki verilənlərin
sayı az olduqda model düzgün alınmaya bilər;
-köhnəlmiĢ və qeyri-tipik verilənləri modeldən cıxarmaq lazımdır;
-yığımdakı yazıların miqdarı ilə giriĢ verilənlərinin (dəyiĢənlərin) miqdarı
arasındakı nisbəti nəzərə almaq lazımdır. Yazıların (müĢahidələrin) sayı
dəyiĢənlərin sayından xeyli cox olmalıdır;
-verilənlər yığımı mümkün qədər cox situasiyanı təmsil etməlidir, müxtəlif
misalların təsviri real situasiyaya uyğun olmalıdır.
3.
Verilənlərin ilkin emalı.
Analiz edilən verilənlər keyfiyyətli olmalıdır.
Verilənlərin keyfiyyəti onların tamlığı, dəqiqliyi, vaxtında əldə edilməsi və
interpretasiya olunma imkanı ilə təyin edilir. Bu çür verilənlər qərar qəbul etmək
ücün keyfiyyətli biliklərin alınmasına zəmanət verirlər. DATA MĠNĠNG-də
verilənlərin keyfiyyəti onların cıxarılması, cevrilməsi və yüklənməsi (Extraçtion,
Transformation, Loading-ETL) və həmcinin analiz ücün verilənləri hazırlayan
mənbələrdən alınması prosesləri ilə təmin edilir.
Keyfiyyətli verilənlərlə yanaĢı DATA MĠNĠNG prosesində bəzən keyfiyyətsiz
və ya
cirkli verilənlərə
də rast gəlinir. Cirkli verilənlərin ən cox yayılmıĢ növləri
bunlardır:
-buraxılan qiymətlər;
-təkrarlanan verilənlər;
-küylər və tullantılar.
Qiymətlər aĢağıdakı səbəblərdən buraxıla bilər:
-verilənlərin yığılmaması (məsələn, anketləĢdirmə zamanı fərd yaĢını
göstərməyib);
-müəyyən atributlar müəyyən obyektlər ücün tətbiq edilə bilməyəndə
(məsələn, «illik gəlir» uĢaq ücün tətbiq edilə bilməz).
553
Situasiyadan asılı olaraq buraxılan verilənlərlə aĢağıdakı
kimi davranmaq
tövsiyyə edilir: 1)buraxılan qiymətlərə malik olan obyektləri emal etməmək;
2)buraxılan verilənlərin yeni qiymətlərini
hesablamaq; 3)analiz prosesində
buraxılan qiymətləri nəzərə almamaq; 4)buraxılan qiymətləri mümkün qiymətlərlə
əvəz etmək.
Təkrarlanan verilənlər
və ya dublikatlar bütün atributları eyni qiymətə malik
olan yazılara deyilir. Dublikatların emalında iki variant mümkündür. 1-çi variantda
təkrarlanan yazılara inamsızlıq yarandıqda istifadə edilir. 2-çi
variantda dublikat
yazılar bir unikal yazı ilə əvəz edilir.
Küylər və tullantılar
– verilənlər yığımında ən cox fərqlənən obyektlər və ya
müĢahidələrdir. Tullantılar ayrı-ayrı müĢahidələri əks etdirə bilərlər və ya müəyyən
qrup təĢkil edə bilərlər. Analitikin vəzifəsi təkçə onları müəyyənləĢdirmək deyil,
həm də onların sonrakı analizin nətiçələrinə təsirini qiymətləndirməkdir.
Küylərlə və tullantılarla iĢləyərkən ikimərhələli analizdən geniĢ istifadə
olunur – onları nəzərə almaqla və almamaqla. Sonra isə alınan nətiçələr müqayisə
edilir.
DATA MĠNĠNG-in müxtəlif metodlarının tullantılara həssaslığı müxtəlif
olur. Odur ki, bu faktı verilənlərin analiz metodunu secərkən nəzərə
almaq
lazımdır. DATA MINING-in bəzi instrumentləri verilənlərin küylərdən və
tullantılardan təmizlənməsi ücün daxili proseduralara malikdirlər.
Verilənlərin vizullaĢdırılması tullantıları qrafiki Ģəkildə təsvir etməyə imkan
yaradır.
Cirkli verilənlər əsasında DATA MINING-in nətiçələri etibarlı və faydalı
sayıla bilməz. Lakin bu çür verilənlərin varlığı onların mütləq təmizlənməsinin və
ya nəzərə alınmamasının vaçibliyi demək deyildir. Cünki verilənlərin təmizlənməsi
kifayət qədər əlavə xərç və vaxt tələb edir. Odur ki, cirkli verilənlərin saxlanması
ilə onların təmizlənməsinə sərf olunan xərç və ya vaxt arasında münasib
secim
aparmaq lazımdır.
Do'stlaringiz bilan baham: