Ўзбекистон республикаси ахборот технологиялари ва коммуникацияларини ривожлантириш вазирлиги муҳаммад ал-хоразмий номидаги


РОККИО АЛГОРИТМИ АСОСИДА ЎЗБЕК ТИЛИДАГИ МАТНЛИ



Download 7,67 Mb.
Pdf ko'rish
bet176/260
Sana25.02.2022
Hajmi7,67 Mb.
#291106
1   ...   172   173   174   175   176   177   178   179   ...   260
Bog'liq
2-qism-toplam-4-5-mart

РОККИО АЛГОРИТМИ АСОСИДА ЎЗБЕК ТИЛИДАГИ МАТНЛИ 
ҲУЖЖАТЛАРНИ ТАСНИФЛАШ ЁНДАШУВИ
О.Ж. Бабомурадов (т.ф.д., Муҳаммад ал-Хоразмий номидаги ТАТУ)
 
Л.Б. Бобоев (таянч докторант, ТАТУ ҳузуридаги АКТ ИИМ) 
Матнли маълумотлардан ташкил топган ҳужжатларни таснифлаш 
(ҳужжатларни олдиндан аниқланган гуруҳларга ажратиш) механизмини 
ишлаб чиқиш долзарб муаммолар сирасига киради. Ушбу маърузада матнни 
таснифлашда Роккио алгоритмидан фойдаланиш келтирилган. 
Роккио алгоритми биринчи марта Ж.Ж. Роккио томонидан 1971 йилда 
алоқадор мулоҳазалардан фойдаланиш учун тўлиқ матнли маълумотлар 
базаларини сўров қилиш усули сифатида таништирилган [1]. Ўшандан бери 
кўплаб тадқиқотчилар матн ва ҳужжатларни таснифлаш учун ушбу усулга 
мурожаат қилишди ва ишлаб чиқишди [2], [3]. Ушбу таснифлаш алгоритмида 
ҳар бир маълумот берувчи сўз учун булин белгилар ўрнига 
TF
IDF

оғирликлари қўлланилади. Роккио алгоритми ўқув ҳужжатлари тўпламидан 
фойдаланиб, ҳар бир синф учун прототип векторини яратади. Ушбу прототип 
маълум бир синфга тегишли бўлган ўқув ҳужжатлари векторларига нисбатан 
ўртача вектор бўлади. Кейин у ҳар бир синов ҳужжатини синов ҳужжати ва 
прототип векторларининг ҳар бири ўртасида максимал ўхшашликка эга 
бўлган синфга тайинлайди [4]. Ўртача вектор 
c
синфининг масса маркази 
ҳисоблайди: 
 
1
c
d
d D
c
c
v
D




(2.25) 


386 
бу ерда 
c
D

D
ҳужжатлар тўплами ичидаги 
c
синфга тегишли бўлган 
ҳужжатлар тўплами ва 
d
v

d
ҳужжатнинг вазнланган векторли кўриниши. 
Ҳужжатнинг башорат қилинган ёрлиғи 
d
ҳужжат ва масса маркази 
ўртасидаги энг кичик бўлган Евклид масофа орқали аниқланади: 
*
arg min
c
d
c
c
v



(2.26) 
Масса марказларининг бирлик узунлигини қуйидагича нормаллаштириш 
мумкин: 
c
c
d
d D
c
d
d D
v
v






(2.27) 
Шунинг учун синов ҳужжатларининг ёрлиғини қуйидагича олиш 
мумкин: 
*
arg min
c
d
c
c
v



(2.28) 
Тажрибавий тадқиқотлар учун Ўзбекистон Миллий ахборот агентлиги 
давлат расмий ахборот манбаидан 10 та категорияга тегишли 1847 та энг 
охирги ўзбек тилидаги янгиликлар пости олинди. Ушбу матнли маълумотлар 
тўпламини таснифлашда Роккио алгоритмидан фойдаланилган ҳолда 76% 
аниқликка эришилди (1-расм). 
1-расм. Роккио алгоритмининг УзА маълумотларини таснифлашдаги чалкашлик 
матрицаси 
Матнни таснифлаш учун Роккио алгоритми кўплаб чекловларни ўз 
ичига олади, масалан, ушбу моделдан фойдаланган ҳолда фақат бир нечта 
тегишли ҳужжатларни олиш мумкин [5]. Бундан ташқари, ушбу 
алгоритмнинг натижалари семантикани ҳисобга олиш кераклигини кўрсатиб 
турибди. 
Фойдаланилган адабиётлар рўйхати 
[1] 
ROCCHIO and J., “Relevance feedback in information retrieval,” Smart Retr. Syst. 
Autom. Doc. Process., pp. 313–323, 1971, Accessed: Dec. 02, 2020. [Online]. Available: 
http://ci.nii.ac.jp/naid/10000074359/en/. 
[2] 
I. Partalas et al., “LSHTC: A Benchmark for Large-Scale Text Classification.” 2015. 


387 
[3] 
B. Sowmya, Chetan, and K. G. Srinivasa, “Large scale multi-label text classification of a 
hierarchical dataset using Rocchio algorithm,” 2016 Int. Conf. Comput. Syst. Inf. Technol. 
Sustain. Solut., pp. 291–296, 2016. 
[4] 
V. Korde, “Text Classification and Classifiers:A Survey,” Int. J. Artif. Intell. Appl., vol. 3, 
pp. 85–99, 2012, doi: 10.5121/ijaia.2012.3208. 
[5] 
S. T. Selvi, P. Karthikeyan, A. Vincent, V. Abinaya, G. Neeraja, and R. Deepika, “Text 
categorization using Rocchio algorithm and random forest algorithm,” 2016 Eighth Int. 
Conf. Adv. Comput., pp. 7–12, 2017.

Download 7,67 Mb.

Do'stlaringiz bilan baham:
1   ...   172   173   174   175   176   177   178   179   ...   260




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish