Shakl 1. Har bir toifadagi maqolalar soni.
1-jadvalda har bir yangilik maqolasi uchun ma'lumotlar to'plamining statistik ma'lumotlari ko'rsatilgan. 1-jadvalda har bir maqoladagi so'zlarning o'rtacha soni - 232, belgilarning o'rtacha soni - 1956 ko'rsatilgan. Ishlab chiquvchilar tomonidan tayyorlangan maʼlumotlar toʻplami daryo.uz saytining maxsus boʻlimi ruxsati bilan qiziquvchilarga berilishi mumkin.
3.2. Matnni oldindan qayta ishlash
Matnni tasniflash vazifasini bajarish uchun to'plangan ma'lumotlar to'plami uchun ma'lumotlarni oldindan qayta ishlash jarayoni amalga oshiriladi. Bunday jarayon bizga, birinchi navbatda, ahamiyatsiz (muhim) ma'lumotlarni olib tashlash orqali moddiy (muhim) ma'lumotlar hajmini kamaytirishga yordam beradi. Ikkinchidan, bu matn tasniflagichlarining aniqligini oshiradi. Yangilik maqolasi matnlarini oldindan qayta ishlash uch bosqichdan iborat. Birinchi bosqichda xabar matnlaridan barcha tinish belgilari va raqamlari olib tashlanadi. Bu yerda o‘zbek tilidagi o‘, g‘, ’ harf va belgilarining lotin grafikasi asosida qo‘llanilishi ham ko‘rib chiqiladi. Ikkinchi bosqich barcha harflarni kichik harflarga aylantirish bilan bog'liq. Uchinchi bosqich matnlardan to‘xtash so‘zlarini olib tashlaydi.
Natural Language Processing (NLP) va Information Retrieval vazifalaridagi toʻxtash soʻzlari matnning muhim va foydali xususiyatlarini aks ettiradi. To'xtash so'zlarining asosiy vazifasi to'g'ri tuzishdir 1-jadval. Yig'ilgan ma'lumotlar to'plami haqida ba'zi statistik ma'lumotlar.
Sinf nomi (o'zbek)
|
Sinf nomi (inglizcha)
|
Maqolalar soni
|
So'zlarning o'rtacha soni
|
O'rtacha soni
belgilar
|
Dunyo
|
World
|
2000
|
279
|
2330
|
Ilm-fan
|
Science
|
384
|
241
|
2009
|
Madaniyat
|
Culture
|
1559
|
154
|
1270
|
Mahalliy
|
Local
|
2000
|
670
|
5739
|
Show-business
|
Show-business
|
424
|
138
|
1123
|
Sport
|
Sport
|
2000
|
276
|
2348
|
Texnologiyalar
|
Technologies
|
1551
|
155
|
1318
|
Avto
|
Auto
|
1516
|
128
|
1096
|
Foto
|
Photo
|
1165
|
152
|
1227
|
Kino
|
Movie
|
625
|
132
|
1096
|
Barchasi
|
Total
|
13224
|
232
|
1956
|
jumlalarni va bog'lovchi iboralarni tuzing. NLP vositalaridan foydalanadigan universal to'xtash so'zlari ro'yxati yo'q. Shuning uchun, turli vositalarda, maqsadga qarab, tegishli to'xtash so'zlar ro'yxati qo'llaniladi. O‘zbek tili uchun to‘xtash so‘zlar ro‘yxati yo‘q. Biz shunday ro'yxatni tuzdik. Ushbu ishni yakunlash uchun ikkita usul qo'llanildi. Birinchi yondashuvda barcha to'plangan matnlar asosida chastota lug'ati [19] va TF-IDF vazn lug'ati ishlab chiqildi va ko'pchilik chastotali so'zlar asosida to'xtash so'zlari ta'kidlandi. Ikkinchi yondashuv mavjud inglizcha to'xtash so'zlarining tarjimasiga asoslangan edi. Ushbu ikki yondashuvning natijalari to'xtash so'zlari ro'yxatida umumlashtirildi. Shunday qilib, o‘zbek tili uchun to‘xtash so‘zlar ro‘yxati birinchi bo‘lib ma’lum qilindi. Roʻyxatda 373 ta soʻz bor. Oʻzbek tilidagi toʻxtash soʻzlarini https://github.com/ilyosrabbimov/uzbek-stop-words manzilidan JSON va TXT formatlarida yuklab olish mumkin. O‘zbekcha to‘xtash so‘zlar ro‘yxati zarur hollarda hal qilinishi lozim bo‘lgan vazifalarga muvofiq kengaytirilishi mumkin. 2-jadvalda oʻzbek tilidagi toʻxtash soʻzlari roʻyxatidan namunalar keltirilgan.
Do'stlaringiz bilan baham: |