554
mənbədən alınan verilənlərin inteqrasiyası zamanı verilənlərin təmizlənməsinə
ehtiyaç daha cox olur. Cünki əksər halda mənbələrdə müxtəlif verilənlər müxtəlif
çür təsvir olunurlar. Odur ki, müxtəlif təsvirləri birləĢdirmək və təkrarlanan
informasiyanı ləğv etmək lazımdır.
Verilənlərin təmizlənməsi ücün xüsusi vasitələr adətən konkret sahələrlə
(əsasən adlarla və ünvanlarla) iĢləyirlər və ya təkrarlanmaları aradan qaldırırlar.
Cevrilmələr ya qaydalar kitabxanası formasında, ya da istifadəci tərəfindən
interaktiv
rejimdə yerinə yetirilir. Verilənlərin cevrilməsi sxemin
uyğunlaĢdırılması vasitələri ilə avtomatik aparıla bilər.
Hazırda verilənlərin təmizlənməsinə maraq xeyli artıb. Verilənlərin
təmizlənməsi ücün artıq təkmil instrumental vasitələr hazırlanıb. Bu vasitələr
haqqında yuxarıda «Ġstisnaların analizi» mövzusunda məlumat verilir.
Modellərin qurulması
.
ModelləĢdirmə
– sözün geniĢ mənasında real aləmi dərk etmək ücün
modellərin qurulması və istifadə edilməsi ilə məĢğul olan elmi isqtiqamətdir.
ModelləĢdirmə, verilənlərin analizinin əsasını təĢkil edən və verilənlərin tədqiq
edilməsi ücün kifayət qədər səmərəli olan metoddur. Real həyatda
coxlu
hadisələr və proseslər mövçuddur ki, onların tədqiq edilməsi ücün təçrübə aparmaq
mümkün olmur. Məhz bu çür hallarda modelləĢdirmə tətbiq edilir. ModelləĢdirmə
bir proses kimi modelin qurulmasından və tədqiq edilməsi vaçib olan xassələrin
öyrənilməsindən ibarətdir. Beləliklə, modelləĢdirmənin köməyilə
qurulan modelin
uyğun xassələrini tədqiq etməklə obyektin xassələri öyrənilir. ModelləĢdirmə həm
metod, həm proses, həm də elmi fənndir.
DATA MINING modellərinin qurulmasında məqsəd modelləĢdirilən obyekti,
prosesi, hadisəni tədqiq etmək və qərarların qəbulu ücün yeni biliklər almaqdan
ibarətdir. Analitik (mütəxəssis) öyrənilən obyektə oxĢar model qurur.
Model
müxtəlif təsvirlər, sxemlər, riyazi düsturlar və s. Ģəklində ifadə oluna bilər.
Modeldən istifadənin üstünlüyü modelin tədqiq edilən obyektə nisbətən sadə
olmasındadır. Model, tədqiqatın məqsədi baxımından obyektdə kicik detallara fikir
vermədən, daha əhəmiyyətli amilləri ayırmağa imkan verir. Model müçərrəd
555
xarakter daĢıdığından, əksər hallarda onda natamamlıq özünü göstərir, yəni model
real obyekti tam əks etdirə bilməz.
Sadə misala baxaq. Fərz edək ki, VB-də firmanın müĢtəriləri haqqında
aĢağıdakı verilənlər saxlanır: müĢtərinin gəlirləri, ailə vəziyyəti, üstünlük verdiyi
amillər və s. Bu informasiya əsasında müĢtərinin yeni malın potensial alıçısı olub-
olmaması təyin edilir.
Modeli qurarkən biz nəzərə alırıq ki, müĢtərinin secimi VB-də olan
xarakteristikalarla təyin ediləçək, yəni bu məsələnin həlli ücün həmin verilənlərin
daha əhəmiyyətli olması qəbul edilir. Lakin müĢtərinin qərarına digər amillər də
təsir edə bilər (məsələn, moda, reklam, analoji maldan digər istehsalcıların bazara
cıxarması və s.). Bu amillər modeldə nəzərə alınmayıb. Odur ki, modelin tətbiqi
prosesində
onun
strukturu
amillərin
dəqiqləĢdirilməsi
yolu
ilə
təkmilləĢdirilirməlidir.
Modellərin qurulması ücün DATA MINING-in metodlarından və
alqoritmlərindən istifadə edilir. Müxtəlif məsələləri həll edə bilən
ideal model
yoxdur. Odur ki, DATA MINING-in instrumental vasitələrinə müxtəlif modelləri
qurmaq ücün imkanlar daxil edilir və həmcinin modellərin geniĢləndirilməsi
imkanları nəzərə alınır. DATA MINING-in bəzi instrumentləri konkret tətbiq
sahələri ücün hazırlanır.
DATA MINING GROUP iĢci qrupu müxtəlif istehsalcılar tərəfindən
hazırlanan modellərin mübadiləsi ücün PMML (Prediçtive
Model Markup
Language) standartı təklif etmiĢdir.
DATA MINING-in böyük ceĢidli metodlarının icərisindən elələri secilməlidir
ki, onlardan istifadə etməklə qurulan model tədqiq olunan obyekti daha yaxĢı təsvir
edə bilsin. Bəzən axtarılan qanunauyğunluqları tapmaq ücün bir necə metoddan və
alqoritmdən istifadə edilməsi lazım gəlir. Bu halda metodlardan bəziləri
modelləĢdirmənin əvvəlində, digərləri isə sonrakı mərhələlərdə istifadə edilir.
Məsələn, eyni tip müĢtərilər qruplarını təyin etmək ücün klasterləĢdirmənin
metodlarından biri istifadə edilir, nətiçədə müĢtərilər qruplara bölünür və hər qrupa
kod mənsub edilir. Sonradan həlletmə ağaçları metodundan istifadə edilir. Bu
556
zaman qrupların kodları (əvvəlki metodun iĢinin nətiçələri) alınan
qanunauyğunluqların inteqrasiyası ücün istifadə edilir.
Modelin qurulması ücün metodun secilməsi məsələnin qoyuluĢu,
ilkin
verilənlər yığımının xüsusiyyətləri, həll olunan məsələnin xüsusiyyətləri, tələb
olunan nətiçələri əsasında aparılmalıdır.
Do'stlaringiz bilan baham: