Oʻzbekiston respublikasi оliy va oʻrta maxsus



Download 2,07 Mb.
bet95/158
Sana24.02.2023
Hajmi2,07 Mb.
#914238
1   ...   91   92   93   94   95   96   97   98   ...   158
Bog'liq
llm saechasmalari PdfToWord

Korpus tashkil qilish. Maktab inson og‘zaki nutqi va tafakkurini rivojlantirishda asosiy rol o‘y- naydi. O‘zbek tili matnlarini avtomatik tahlil qilishni maktab darsliklaridan boshlash maqsadga muvofiq- dir. Shuning matnlarni avtomatik tahlil qilishni “School corpus” deb ataluvchi maktab darsliklaridan ibo- rat korpusda tadqiqot o‘tkazish ni maqsad qildik. “School corpus” deb atalgan korpus https://kitob.uz/ portalida joylashgan 25 (o‘qish: 1‒4-sinflar, ona tili: 1‒11-sinflar, adabiyot: 5‒11 sinflar)ta maktab dars- liklaridan iborat boʻlib, o‘zbek tili matnlarinidan nomuhim so‘zlarni avtomatik aniqlash tadqiqoti jarayo- nida foydalanildi. Korpus Jami 731155 ta so‘zdan, 47 165 ta takrorlanmas so‘zlardan iborat.
Dastlab, nomuhim so‘zlarni topishda quyidagi 3 ta metodni keltiramiz:3

  • Unigram.

  • Bigram.

  • Kollakatsiya.

Unigram metodi. Ushbu metoda so‘zning TF-IDF asosidagi bitta so‘zli nomuhim so‘zni aniqlashni ko‘rib chiqamiz.






soni.
Algoritm-1:



  1. D j TF ( a i )= k j / h j , bu yerda h j j hujjatidagi so‘zlar soni. K j j hujjatidagi a i so‘zning




  1. IDF( a i )= ln (n/m) n=25. M- 25 ta hujjat orasida ai ni o‘z ichiga olgan hujjatlar soni.

  2. W ij (a i )=

  3. W ij (a i ) ‒ so‘zning vazni deyiladi - a i .


1 Lutfullayeva D.E. O‘zbek tilining amaliy grammatikasi. Toshkent, “Yangi asr avlodi”, 2010.
2 Jones K.S. A statistical interpretation of term specificity and its application in retrieval Journal of Documentation MCB University Press, 2004, Vol. 60.
3 Jurafsky D., Martin J. Speech and Language Processing. An Introduction to Natural Language Processing, Com- putational Linguistics and Speech Recognition, 2008.

Biz Wij (ai ai+1) nolga yaqin bo‘lgan 47165 noyob so‘zning 5 foizini olamiz va ularni to‘xtash so‘zlari deb e’lon qilamiz.



    1. abdulla

    2. aka

    3. asosida

    4. ayt

    5. aytib

    6. aziz

    7. baho

    8. bahor

    9. baland

    10. beradi

    11. berdi

    12. berib

    13. berilgan

    14. bering

    15. bichimi

    16. bilan

    17. bilib

    18. bilim

    19. biri

    20. birinchi

…………………
2339. aylamakka
2340. aylasak
2341. aytishuvlarda
2342. bachalar
2343. bachi
2344. badiiyatni
2345. bag‘ayri
2346. bag‘rimdami
2347. baid
2348. balladalar
2349. banddin
2350. bandkushoy
2351. barchalarining
2352. barglarga
2353. bastayi
2354. baxilga
2355. baxtdan
2356. baytallarga
2357. bazmni
2358. begonani

Bigram metodi. Oʻzbek tilida matndagi baʼzi soʻzlar alohida kuzatilganda nomuhim so‘z hisoblan-
maydi, lekin birikma soʻzlar sifatida qaralganda nomuhim so‘z boʻlishi mumkin. Masalan:

  1. Konferensiyada turli sohalardagi muhandislar ishtirok etishadi.

  2. Konferensiyada muhandislar ishtirok etishadi.

Gapdagi tagiga chizilgan so‘zlarni olib tashlash gaplarning ma’nosiga deyarli ta’sir qilmaydi. Mi- solda “turli” va “sohalardagi” so‘zlari yakka so‘zlar sifatida kuzatilganda to‘xtash so‘z emas, biroq birik- ma sifatida kuzatilsa, to‘xtash so‘zga aylanadi.



Algoritm-2:




  1. Matnlar korpusidagi barcha iboralar qaraladi. Misolimizda bunday iboralar soni 731155 tani tashkil qiladi. Bu iboralardan biz har xillarini tanlaymiz (takrorlanishlarni olib tashlay- miz). Bizning misolimizda 489857 ta shunday ibora kelib chiqdi.

  2. 489857 birikmasi uchun juftlik qaraladi. so‘z uchun biz keyingi so‘zni eng katta ehtimol bilan tanlaymiz.

Bu so‘z bo‘lsin. Bunday juftliklar takrorlanmas juftliklar deb ataladi (Bizning kor- pus unsial juftlarimiz uchun 90959).

  1. Korpusning har 25 ta hujjati uchun takrorlanmas juftliklarning muddatli chastotasi hisoblanadi. Biz uni DjTF ( ), deb belgilaymiz.

  2. DjTF ( )= kj / hj, bu yerda hj ‒ j hujjatidagi ahamyatli juft so‘zlar soni. Kj – j hujjati- dagi takrorlanmas juftliklar soni.

  3. IDF( )=ln(n/m) n=25. m-25 ta hujjat orasida takrorlanmas juftlarni o‘z ichiga olgan hujjatlar soni.




  1. Wij (ai ai+1)=

  2. Wij (ai ai+1) takrorlanmas

juftlarning vazni deyiladi.

  1. Biz Wij (ai ai+1) nolga yaqin bo‘lgan 90957 noyob juftlikning 5 foizini olamiz va ularni nomu- him so‘zlar deb e’lon qilamiz.




  1. chop etildi

  2. har bir

  3. kitob jamg‘armasi

  4. nima uchun

  5. o‘rta ta’lim

  6. men ham

  7. bilan birga

  8. yaxshi muqova

  9. o‘z vaqtida

  10. ham bir

  11. bir necha

  12. barcha varaqlari

  13. o‘zi ham

  14. bu yerda

  15. bo‘lib qoldi

  16. u ham

  17. uchun ham

  18. uning bu

  19. butun darslikning

  20. yangi darslikning

…………………………………….
4529. velosiped baxtiga
4530. vodiy daralariga
4531. voqealarga aralashadi
4532. xarakteri amallari
4533. xarakterini izohlang
4534. xonimning uylariga
4535. xoqonning hayoti
4536. xotirasini abadiylashtirish
4537. xudoyor davron
4538. xushxabar ammo
4539. yapon arab
4540. yasagan qayiqlarni
4541. yasalgan fe’llar
4542. yaxshilar ahbob
4543. yig‘isi alomatning
4544. yig‘lagan bolasini
4545. yig‘och chog‘liq
4546. yodlang islom
4547. yo‘lakda bir
4548. yo‘llardan biri

Kollokatsiya metodi. Bigram usuliga o‘xshaydi: bigram usulida AB juftini hosil qiluvchi ikkinchi B so‘zi sifatida faqat maksimal ehtimolga ega bo‘lgan so‘z olinadi. Ikkinchi so‘z B faqat bitta (agar bir nechta so‘zlar bir xil ehtimolga ega bo‘lsa, bittasi ixtiyoriy tanlanadi). Kollokatsiya usuli ikkinchi so‘z B uchun barcha mumkin bo‘lgan so‘zlarni oladi. Bu shuni anglatadiki, birikma usuli yordamida ko‘proq juft so‘zlar topildi. Usulning qolgan qismi Bigram usuli bilan bir xil.





Algoritm-3:




  1. Korpusning jami muhim ahamyatga ega birikma so‘zlarini qaraladi. Bunday birik-

malar soni 731155 tani tashkil etadi. Ularning 489857 tasi oʻziga xos birikma soʻzlardir.

  1. D j TF (a i a i+1 )= k j / h j , bu yerda: hj ‒ j hujjatidagi jami muhim ahamiyatga ega juft so‘zlar soni . K j j hujjatidagi ai a i+1 kollokatsiyalar soni.

  2. IDF( a i a i+1 )=ln(n/m) n=25. m- 25 ta hujjat ichida ai a i+1 to‘plamlarini o‘z ichiga olgan huj- jatlar soni.




  1. Wij (ai ai+ 1)=

  2. Wij (ai ai+1)- ai a i+1 qo‘shma gaplarning og‘irligi deyiladi.

  3. Biz Wij (ai ai+1) nolga yaqin boʻlgan 489857 noyob juftlikning 5 foizini olamiz va ularni nomu- him so‘zlar deb eʼlon qilamiz.




    1. nima uchun

    2. bir kuni

    3. o‘rta ta’lim

    4. uchun darslik

    5. chop etildi

    6. kitob jamg‘armasi

    7. abad ham

    8. abadiy kuchidan

24471. odamlarni ko‘rishadi
24472. odamlarning chehralari
24473. odamlarning haqiga
24474. odamlarning kamligi
24475. odamlarning ko‘zidan
24476. odamlarning ko‘zini
24477. odamlarning nomlarini
24478. odamlarning og‘irini

130


  1. abadiy manziliga

  2. abadiy muhrlanib

  3. abadiyan xudo

  4. abadligi hamda

  5. abadulabad badnom

  6. abadulabad to‘rajakdur

  7. abay singari

  8. abbos degan

  9. abbos qilichi

  10. abdulaziz qaytib

  11. abdulazizga qaradi

………………………………….
24479. odamlarning qaysi
24480. odamlarning va
24481. odamlarning zilzila
24482. odamligi uni
24483. odamligini ham
24484. odamligini ta’minlab
24485. odamlik qiyofasini
24486. odamman deb
24487. odamman deganini
24488. odammas axir
24489. odamni ajdodlari
24490. odamni ona




nildi:


Xulosa. Nomuhim so‘zlarni ajratib olish (yoki aniqlash) uchun korpusga uchta usul qo‘lla-



  • Unigram metodi.

  • Bigram metodi.

  • Kollakatsiya metodi.

Har bir usul tavsiflangan va algoritm shaklida taqdim etildi. Usullar ketma-ket ishlatilishi mumkin

va natijalar nomuhim so‘zlarning yakuniy ro‘yxatini shakllantirish uchun qo‘shilishi mumkin. Matnga TFIDF asosida qarab, har bir nomuhim so‘z bo‘lishi mumkin. Usullarni tez taqqoslash, nomuhim so‘zlar- ni biriktirish usuli yordamida aniqlashning ko‘payishini ko‘rsatadi. Tadqiqotda ikki so‘zli birikma ko‘rib chiqiladi va buning sababi shundaki, nomuhim so‘zlar sifatida ishlaydigan uch yoki undan ortiq so‘z bi- rikmalari unchalik keng tarqalgan emas, ammo biz hali ham bu yo‘nalishda yana bir ish qilish kerak, deb hisoblaymiz.
Keyinchalik, biz ushbu natijani berilgan matndan kalit so‘zlarni avtomatik ravishda ajratib olish va berilgan matnning izohini avtomatik ravishda chiqarish jarayonida foydalanamiz.



Download 2,07 Mb.

Do'stlaringiz bilan baham:
1   ...   91   92   93   94   95   96   97   98   ...   158




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish