581
baxılan əlamətin (malın) olub - olmamasını göstərən 1 və 0-la doldurulmuĢ binar
matris verilir. CıxıĢda isə birgə rast gələn əlamətlərin (onların ehtimallarının və
doğruluqlarının qiymətlərini göstərməklə) klasterləri formalaĢdırılır. Bundan əlavə,
«əgər A əlaməti varsa, onda .... ehtimalla B əlaməti və .. .ehtimalla Ç əlaməti var»
tipli assosiativ istiqamətlənmiĢ qaydalar da tərtib edilir.
Transaçtional Basket Analysis (TB) –Tranzaksiyalı «zənbil» analizi
. BA
alqoritminin modifikasiyasıdır və cox böyük həçmli verilənlərin analizi ücün tətbiq
edilir. Bu modulda verilənlər bazasının hər bir yazısı bir zənbilə yox, bir
tranzaksiyaya uyğun götürülür. Bu alqoritm əsasında ĠNTERNET - mağazalarda
məhsulların reklamı və tövsiyyə edilməsi ücün ayrıça «X-SellAnalyst»
proqram
məhsulu hazırlanmıĢdır.
Mətni analiz modulları
POLYANALYST sistemində DATA MINING instrumentləri ilə təbii dildə
mətnlərin analizi metodları –TEXT MINING alqoritmləri – inteqrasiya edilmiĢdir.
Həmin modullara qısaça baxaq.
Text Analysis (TA) –Mətni analiz
modulu verilənlər bazalarında
strukturlaĢdırılmamıĢ mətni sahələrin formallaĢdırılması ücün istifadə edilir. Bu
zaman mətn tipli sahə bul əlamətlərinin dəsti kimi təsvir edilir. Bu əlamətlər
baxılan sözun mətndə varlığını və rastgəlmə tezliyini, onun dayanıqlı
sözbirləĢməsi və ya anlayıĢ olmasını əks etdirirlər. Bununla da sistemdə
reallaĢdırılan DATA MINING alqoritmlərinin mətni sahələrə tətbiqi ücün
imkan
yaranır. Bundan əlavə, bu metoddan daha cox yayılmıĢ anlayıĢların
avtomatik
ayrılması hesabına mətni komponentlərin yaxĢı baĢa düĢülməsi ücün istifadə oluna
bilər.
Text Çateqorizer (TÇ)- Mətnlərin kataloqizatoru modulu
mövçud mətnlərin
iyerarxik kataloqunu avtomatik yaratmağa və ağaçvari strukturun hər bir qovĢağını
niĢanlamağa imkan verir. Bununla da analiz edilən mətn sahələrinin
tematik
strukturunu asan baĢa düĢmək mümkün olur.
Link Terms (LT) – AnlayıĢların əlaqəsi
modulu tədqiq edilən verilənlər
bazasının mətn sahələrində rast gələn anlayıĢlar arasında əlaqələri üzə cıxarmaq və
582
onları qraf Ģəklində təsvir etmək ücündür. Həmin qrafdan həmcinin secilən
əlaqələri reallaĢdıran yazıları təyin etmək ücün istifadə edilə bilər.
Mətni verilənlərlə iĢləmək ücün POLYANALYST sisteminə
iki tip
alqoritmlər daxil edilmiĢdir:
1.Acar sözləri üzə cıxaran və onlarla iĢləyən alqoritmlər;
2.Mətnləri sorğular dilinin köməyilə istifadəci tərəfindən təyin edilən siniflərə
ayıran alqoritmlər.
1-çi tip alqoritmlər yalnız ingilis dilində mətnlərlə iĢləyir. 2-çi tip alqoritmlər
isə həm ingilis, həm də rus dillərindəki mətnlərlə iĢləyə bilirlər.
Text OLAP (OLAP mətni) və Taxonomies (taksononiyalar).
Bir-birinə oxĢar olan bu metodlar mətnlərin kateqoriyalaĢdırılması ücün
istifadə edilir. OLAP mətnində istifadəci mətni sorğudan ibarət olan adlandırılmıĢ
sütunlar yaradır, məsələn:
cıxarma
AND
neft
AND NOT (
filiz
OR
kömür
OR
qaz
)». Modulun iĢ prosesində sorğunun hər bir Ģərti verilənlər bazasının hər
bir sənədinə tətbiq edilir və uyğunluq halında həmin sənəd uyğun kateqoriyaya aid
edilir. Modulun iĢi qurtarandan sonra istifadəci lazımi sütunu secib, həmin Ģərtə
çavab verən mətnlərə baxa bilər. Tapılan sözlər həmin sənədlərdə müxtəlif
rənglərlə təsvir edilir.
Taksonomiyalarla iĢləmə zamanı istifadəci sorğu Ģərtlərinə uyğun ağaçvari
struktur quraĢdırır. Sistem hər bir sənədi bu ağaçın qovĢaqlarına uyğun taksona
(qrupa) aid edir. Modul iĢini qurtardıqdan sonra istifadəci taksonomiyanın (ağaçın)
doldurulmuĢ qovĢaqları ilə hərəkət edərək rənglənmiĢ sözlərlə ifadə edilmiĢ
sənədlərə baxa bilər.
Do'stlaringiz bilan baham: