Avtomatik va qo'lda yondashuvlar Faol
o'rganish (AL) - bu [4] da tasniflagichlarni o'rgatish uchun qo'llaniladigan yarim nazorat ostidagi mashinani o'rganish usuli. U inson annotatsiyasi uchun korpusdan eng istiqbolli ma'lumotlar nuqtalarini shunday tanlaydiki, u har bir teg uchun olingan bilimni maksimal darajada oshiradi va shu bilan bir darajaga erishish uchun zarur bo'lgan teglarning umumiy sonini kamaytiradi.
Shundan so'ng, model yangi ma'lumotlarni o'z ichiga
olgan holda yana o'qitiladi va jarayon takrorlanadi.
Qo'shimcha yorliqli ma'lumotlar nuqtasining
foydaliligini o'lchash uchun bir nechta turli xil tanlash sxemalari ishlab chiqilgan. Ular ma'lumotlar nuqtalarini modelning noaniqligi, modelning eng katta o'zgarishi yoki xatolarning eng katta kamayishi bilan tanlaydilar [8]. [4] da qoÿllaniladigan Qoÿmita soÿrovi (QBC) qoÿmitaga asoslangan yondashuvdan foydalanadi, bunda bir nechta tasniflagichlar oÿquv majmuasini boÿlish orqali mustaqil ravishda oÿqitiladi. Keyin har bir tasniflagich toza korpusga qo'llaniladi. Turli
tasniflagichlarning izohlarida eng katta kelishmovchilikni
ko'rsatadigan matnlar qo'lda annotatsiya uchun tanlanadi.
Bu intuitiv ma'noga ega, chunki tizim o'sha matnlar bo'yicha izohlovchidan yordam so'raydi, chunki u eng ishonchsiz bo'ladi. [4] mualliflari tasodifiy tanlab olish bilan solishtirganda AL yordamida izohlash xarajatlarini 48% dan 72% gacha qisqartirish haqida xabar berishadi.
[9] da iboralar darajasidagi sen timentni aniqlashga yangi yondashuv kiritilgan. Algoritm iboraning kontekstual qutbliligini o'z ichiga olgan atamalarning
apriori qutbliligiga asoslangan holda aniqlaydi. Frazalar darajasidagi his-tuyg'ularni aniqlash qiyin jarayon,
chunki ko'plab kichik omillar iboraning qutbliligini o'zgartirishi mumkin; masalan, kontekstga qarab, a priori qutbli atama inkor qilish orqali qarama-qarshi qutbga ega bo'lishi mumkin yoki bo'lmasligi mumkin: (yaxshi emas yoki nafaqat yaxshi, balki ...). Boshqa omillar - o'zgartiruvchilar (ozgina og'riq, juda qo'rqib ketish), sintaktik rol (o'g'rini ushladi yoki o'g'ri) va taklifning modalligi. Annotatsiyani qo'lda qo'llash usuli qo'llaniladi, unda izohlovchilar iboralarning kontekstual qutbliligini ijobiy, salbiy, neytral yoki ikkala toifali toifalar bilan belgilaydilar. O'rnatishdan ko'ra, faol o'rganish oltin standart korpusni qurishni tezlashtirishi mumkin edi.
Tanlov siklini aprior polaritega ega bo'lgan yoki qutblilikka ta'sir qiluvchi atamalar soniga asoslangan oddiy algoritm yordamida tez saqlash mumkin.
Kategoriyalar yaxshidan yomongacha butun spektrni qamrab olganligi sababli, toifalarning kengayishi faqat bo'linish orqali sodir bo'lishi mumkin, ya'ni (yaxshidan juda yaxshi va biroz yaxshi). Shunday qilib, yangi farqlar quyidagi tarzda amalga oshirilishi mumkin
Machine Translated by Google
3
qadam va qayta foydalanish mumkinligi kafolatlanadi.
Yuqori sifatli izohli korpusni oson yaratishni osonlashtirishning yana bir usuli korpusni qo'lda yaratish jarayonini soddalashtirishdir. Veb- annotatsiya vositalarining ikki turi mavjud.
Ulardan biri annotatsiya jarayonini tezlashtirish uchun kontentdan xabardor bo'lgan murakkab
va ishlatish uchun qulay interfeyslarga qaratilgan.
Nemis va frantsuz tillari va Penn Treebank yorlig'i set2 foydalanadi . 2003 yilga kelib, Stenford POS teggeri tsiklik qaramlik tarmoqlaridan foydalangan holda 97,24% token aniqligiga erishdi [13].
Do'stlaringiz bilan baham: |