Korpus tashkil qilish. Maktab inson og‘zaki nutqi va tafakkurini rivojlantirishda asosiy rol o‘y- naydi. O‘zbek tili matnlarini avtomatik tahlil qilishni maktab darsliklaridan boshlash maqsadga muvofiq- dir. Shuning matnlarni avtomatik tahlil qilishni “School corpus” deb ataluvchi maktab darsliklaridan ibo- rat korpusda tadqiqot o‘tkazish ni maqsad qildik. “School corpus” deb atalgan korpus https://kitob.uz/ portalida joylashgan 25 (o‘qish: 1‒4-sinflar, ona tili: 1‒11-sinflar, adabiyot: 5‒11 sinflar)ta maktab dars- liklaridan iborat boʻlib, o‘zbek tili matnlarinidan nomuhim so‘zlarni avtomatik aniqlash tadqiqoti jarayo- nida foydalanildi. Korpus Jami 731155 ta so‘zdan, 47 165 ta takrorlanmas so‘zlardan iborat.
Dastlab, nomuhim so‘zlarni topishda quyidagi 3 ta metodni keltiramiz:3
Unigram.
Bigram.
Kollakatsiya.
Unigram metodi. Ushbu metoda so‘zning TF-IDF asosidagi bitta so‘zli nomuhim so‘zni aniqlashni ko‘rib chiqamiz.
soni.
Algoritm-1:
D j TF ( a i )= k j / h j , bu yerda h j ‒ j hujjatidagi so‘zlar soni. K j – j hujjatidagi a i – so‘zning
IDF( a i )= ln (n/m) n=25. M- 25 ta hujjat orasida ai ni o‘z ichiga olgan hujjatlar soni.
W ij (a i )=
W ij (a i ) ‒ so‘zning vazni deyiladi - a i .
1 Lutfullayeva D.E. O‘zbek tilining amaliy grammatikasi. Toshkent, “Yangi asr avlodi”, 2010.
2 Jones K.S. A statistical interpretation of term specificity and its application in retrieval Journal of Documentation MCB University Press, 2004, Vol. 60.
3 Jurafsky D., Martin J. Speech and Language Processing. An Introduction to Natural Language Processing, Com- putational Linguistics and Speech Recognition, 2008.
Biz Wij (ai ai+1) nolga yaqin bo‘lgan 47165 noyob so‘zning 5 foizini olamiz va ularni to‘xtash so‘zlari deb e’lon qilamiz.
abdulla
aka
asosida
ayt
aytib
aziz
baho
bahor
baland
beradi
berdi
berib
berilgan
bering
bichimi
bilan
bilib
bilim
biri
birinchi
…………………
2339. aylamakka
2340. aylasak
2341. aytishuvlarda
2342. bachalar
2343. bachi
2344. badiiyatni
2345. bag‘ayri
2346. bag‘rimdami
2347. baid
2348. balladalar
2349. banddin
2350. bandkushoy
2351. barchalarining
2352. barglarga
2353. bastayi
2354. baxilga
2355. baxtdan
2356. baytallarga
2357. bazmni
2358. begonani
Bigram metodi. Oʻzbek tilida matndagi baʼzi soʻzlar alohida kuzatilganda nomuhim so‘z hisoblan-
maydi, lekin birikma soʻzlar sifatida qaralganda nomuhim so‘z boʻlishi mumkin. Masalan:
Konferensiyada turli sohalardagi muhandislar ishtirok etishadi.
Konferensiyada muhandislar ishtirok etishadi.
Gapdagi tagiga chizilgan so‘zlarni olib tashlash gaplarning ma’nosiga deyarli ta’sir qilmaydi. Mi- solda “turli” va “sohalardagi” so‘zlari yakka so‘zlar sifatida kuzatilganda to‘xtash so‘z emas, biroq birik- ma sifatida kuzatilsa, to‘xtash so‘zga aylanadi.
Algoritm-2:
Matnlar korpusidagi barcha iboralar qaraladi. Misolimizda bunday iboralar soni 731155 tani tashkil qiladi. Bu iboralardan biz har xillarini tanlaymiz (takrorlanishlarni olib tashlay- miz). Bizning misolimizda 489857 ta shunday ibora kelib chiqdi.
489857 birikmasi uchun juftlik qaraladi. so‘z uchun biz keyingi so‘zni eng katta ehtimol bilan tanlaymiz.
Bu so‘z bo‘lsin. Bunday juftliklar takrorlanmas juftliklar deb ataladi (Bizning kor- pus unsial juftlarimiz uchun 90959).
Korpusning har 25 ta hujjati uchun takrorlanmas juftliklarning muddatli chastotasi hisoblanadi. Biz uni DjTF ( ), deb belgilaymiz.
DjTF ( )= kj / hj, bu yerda hj ‒ j hujjatidagi ahamyatli juft so‘zlar soni. Kj – j hujjati- dagi takrorlanmas juftliklar soni.
IDF( )=ln(n/m) n=25. m-25 ta hujjat orasida takrorlanmas juftlarni o‘z ichiga olgan hujjatlar soni.
Wij (ai ai+1)=
Wij (ai ai+1) ‒ takrorlanmas
juftlarning vazni deyiladi.
Biz Wij (ai ai+1) nolga yaqin bo‘lgan 90957 noyob juftlikning 5 foizini olamiz va ularni nomu- him so‘zlar deb e’lon qilamiz.
chop etildi
har bir
kitob jamg‘armasi
nima uchun
o‘rta ta’lim
men ham
bilan birga
yaxshi muqova
o‘z vaqtida
ham bir
bir necha
barcha varaqlari
o‘zi ham
bu yerda
bo‘lib qoldi
u ham
uchun ham
uning bu
butun darslikning
yangi darslikning
…………………………………….
4529. velosiped baxtiga
4530. vodiy daralariga
4531. voqealarga aralashadi
4532. xarakteri amallari
4533. xarakterini izohlang
4534. xonimning uylariga
4535. xoqonning hayoti
4536. xotirasini abadiylashtirish
4537. xudoyor davron
4538. xushxabar ammo
4539. yapon arab
4540. yasagan qayiqlarni
4541. yasalgan fe’llar
4542. yaxshilar ahbob
4543. yig‘isi alomatning
4544. yig‘lagan bolasini
4545. yig‘och chog‘liq
4546. yodlang islom
4547. yo‘lakda bir
4548. yo‘llardan biri
Kollokatsiya metodi. Bigram usuliga o‘xshaydi: bigram usulida AB juftini hosil qiluvchi ikkinchi B so‘zi sifatida faqat maksimal ehtimolga ega bo‘lgan so‘z olinadi. Ikkinchi so‘z B faqat bitta (agar bir nechta so‘zlar bir xil ehtimolga ega bo‘lsa, bittasi ixtiyoriy tanlanadi). Kollokatsiya usuli ikkinchi so‘z B uchun barcha mumkin bo‘lgan so‘zlarni oladi. Bu shuni anglatadiki, birikma usuli yordamida ko‘proq juft so‘zlar topildi. Usulning qolgan qismi Bigram usuli bilan bir xil.
Algoritm-3:
Korpusning jami muhim ahamyatga ega birikma so‘zlarini qaraladi. Bunday birik-
malar soni 731155 tani tashkil etadi. Ularning 489857 tasi oʻziga xos birikma soʻzlardir.
D j TF (a i a i+1 )= k j / h j , bu yerda: hj ‒ j hujjatidagi jami muhim ahamiyatga ega juft so‘zlar soni . K j – j hujjatidagi ai a i+1 kollokatsiyalar soni.
IDF( a i a i+1 )=ln(n/m) n=25. m- 25 ta hujjat ichida ai a i+1 to‘plamlarini o‘z ichiga olgan huj- jatlar soni.
Wij (ai ai+ 1)=
Wij (ai ai+1)- ai a i+1 qo‘shma gaplarning og‘irligi deyiladi.
Biz Wij (ai ai+1) nolga yaqin boʻlgan 489857 noyob juftlikning 5 foizini olamiz va ularni nomu- him so‘zlar deb eʼlon qilamiz.
nima uchun
bir kuni
o‘rta ta’lim
uchun darslik
chop etildi
kitob jamg‘armasi
abad ham
abadiy kuchidan
24471. odamlarni ko‘rishadi
24472. odamlarning chehralari
24473. odamlarning haqiga
24474. odamlarning kamligi
24475. odamlarning ko‘zidan
24476. odamlarning ko‘zini
24477. odamlarning nomlarini
24478. odamlarning og‘irini
130
abadiy manziliga
abadiy muhrlanib
abadiyan xudo
abadligi hamda
abadulabad badnom
abadulabad to‘rajakdur
abay singari
abbos degan
abbos qilichi
abdulaziz qaytib
abdulazizga qaradi
………………………………….
24479. odamlarning qaysi
24480. odamlarning va
24481. odamlarning zilzila
24482. odamligi uni
24483. odamligini ham
24484. odamligini ta’minlab
24485. odamlik qiyofasini
24486. odamman deb
24487. odamman deganini
24488. odammas axir
24489. odamni ajdodlari
24490. odamni ona
nildi:
Xulosa. Nomuhim so‘zlarni ajratib olish (yoki aniqlash) uchun korpusga uchta usul qo‘lla-
Unigram metodi.
Bigram metodi.
Kollakatsiya metodi.
Har bir usul tavsiflangan va algoritm shaklida taqdim etildi. Usullar ketma-ket ishlatilishi mumkin
va natijalar nomuhim so‘zlarning yakuniy ro‘yxatini shakllantirish uchun qo‘shilishi mumkin. Matnga TFIDF asosida qarab, har bir nomuhim so‘z bo‘lishi mumkin. Usullarni tez taqqoslash, nomuhim so‘zlar- ni biriktirish usuli yordamida aniqlashning ko‘payishini ko‘rsatadi. Tadqiqotda ikki so‘zli birikma ko‘rib chiqiladi va buning sababi shundaki, nomuhim so‘zlar sifatida ishlaydigan uch yoki undan ortiq so‘z bi- rikmalari unchalik keng tarqalgan emas, ammo biz hali ham bu yo‘nalishda yana bir ish qilish kerak, deb hisoblaymiz.
Keyinchalik, biz ushbu natijani berilgan matndan kalit so‘zlarni avtomatik ravishda ajratib olish va berilgan matnning izohini avtomatik ravishda chiqarish jarayonida foydalanamiz.
Do'stlaringiz bilan baham: |