2. Tegishli ish
Ushbu bo'limda onlayn yangiliklar maqolalarini tasniflash vazifasi bilan bog'liq ishlar tahlil qilinadi. Shuning uchun bizning vazifamizga mos keladigan va turli tabiiy tillarga tegishli tadqiqotlar tahlil qilinadi.
Turkiyada yangiliklar va axborot hujjatlarini tasniflashda [3] samarali va tezkor TFIDF algoritmi va chiziqli yadro funksiyasiga ega SVM klassifikatori algoritmi vazn matritsasi yaratish uchun ishlatilgan. Yangilik toifalarini aniqlash uchun ikkita turkcha matn ma'lumotlar to'plamida tajriba o'tkazildi va natijada kolonistlarning aniqlanishi mos ravishda 99% va 98% aniqlikka erishildi. [2] da turkiy tildagi matnlarni turkumlashtirish muammolari n-gramma modeli, tinish belgilarini tanlash va oʻzak belgilaridan foydalanish asosida hal qilindi. Bu erda asosiy tasniflash algoritmlari Naive Bayes, Support Vector Machines va Random Forest edi. Natijada turk gazetalari maqolalaridan maqolalarning yozilish uslubini, maqola muallifini va xodimning jinsini bashorat qilish muammosi o'rganildi.
Ikki morfologik jihatdan boy va bir-biriga yaqin aglutinativ tillar (qozoq, uyg‘ur) uchun matn tasniflash masalasi [13] da batafsil ko‘rib chiqiladi. Bu ishda Uyg'urcha matnlar uchun to'qqiz kategoriya bo'yicha: moliya, huquq, madaniyat, turizm, sport, ta'lim, fan, sog'liqni saqlash va ko'ngilochar, qozoqcha matnlar uchun sakkiz kategoriya bo'yicha: moliya, sport, huquq, turizm kabi matnlarni tasniflash vazifalari bajarildi. , madaniyat, fan, ta'lim va ko'ngilochar. Tajriba natijalariga ko‘ra, morfema asosidagi yondashuv so‘zga asoslangan yondashuvga qaraganda yaxshiroq natija ko‘rsatganligi ta’kidlandi. Ushbu tadqiqotlarni o'tkazish uchun mashinani o'rganish va TF-IDF algoritmlari va so'z vektor texnologiyasi ishlatilgan.
Indoneziya tilidagi yangiliklar toifasiga asoslangan tvitlarni avtomatik tasniflash vazifasi [10] da oʻrganilgan. Turli manbalardan 11 ta toifa aniqlandi. Ularni tasniflash uchun ZeroR, Na¨ive Bayes Multinomial (NBM), Support Vector Machine, Random Forest va Sequential Minimal Optimization algoritmlaridan foydalanilgan. 77,47% aniqlikdagi eng yaxshi natija NBM tasniflagichi tomonidan qayd etilgan. Tadqiqot natijalari asosida veb-ilova ishlab chiqildi, bu berilgan tvit qaysi toifaga tegishli ekanligini aniqlash imkonini beradi. [11] da Indoneziya tilidagi raqamli yangiliklarni tasniflash uchun Support Vector Machine va TF-IDF algoritmlaridan foydalaniladi. Tajribalar natijalari asosida Support Vector Machine algoritmining gamma va C parametrlarining ruxsat etilgan qiymatlari aniqlandi va 85% tasniflash aniqligi olindi.
Arabcha yangiliklar maqolalari uchun ko‘p yorliqli matn tasnifi muammosi [5] da muhokama qilingan. Ushbu vazifani bajarish uchun quyidagi tasniflagichlardan foydalanildi: Qaror daraxti, Tasodifiy o'rmon va K-Yaqin qo'shnilar bilan k = 5. Boshqa bir tadqiqotda [6] arab matnlarida ko'p yorliqli matn tasnifi muammosini hal qilish uchun nazorat ostida yondashuv. ishlatilgan, tanlangan ma'lumotlar to'plamida 71% aniqlik natijasi bilan tajriba o'tkazildi. Ko'p yorliqli matnlarni tasniflash vazifasini soddalashtirish uchun bir nechta usullar taklif qilindi. Ushbu usullardan biri ko'p yorliqli ma'lumotlar usulini mos keladigan yagona yorliqli ma'lumotlar usuliga aylantirishga asoslangan edi. Bu yuqoridagi ishlarda qo'llaniladigan usul.
Do'stlaringiz bilan baham: |