Tabiiy tillarni qayta ishlash nima? (NLP)
NLP - bu kompyuterlar uchun aqlli va foydali usulda tahlil qilish, tushunish va inson tilidan ma'no olish usulidir. NLP-dan foydalanib, ishlab chiquvchilar avtomatik umumlashtirish, tarjima, nomlangan ob'ektni aniqlash, munosabatlarni ajratish, fikrlarni tahlil qilish, nutqni aniqlash va mavzular segmentatsiyasi kabi vazifalarni bajarish uchun bilimlarni tashkil qilishi va tuzishi mumkin.
"Matnni shunchaki belgilar ketma-ketligi kabi muomala qiladigan oddiy so'z protsessorlari operatsiyalaridan tashqari, NLP tilning ierarxik tuzilishini hisobga oladi: bir nechta so'zlar jumlalar, bir nechta iboralar jumlalar va oxir-oqibat jumlalar g'oyalarni etkazadi", John Rehling, NLP Meltwater Group mutaxassisi, tabiiy tillarni qayta ishlash ijtimoiy media tuyg'ularini qanday ochishda yordam berishini aytdi. "Tilning ma'nosini tahlil qilib, NLP tizimlari grammatikani tuzatish, nutqni matnga aylantirish va tillar o'rtasida avtomatik ravishda tarjima qilish kabi uzoq vaqt foydali rollarni bajargan."
NLP matnlarni tahlil qilish uchun ishlatiladi, bu mashinalarga insonning qanday gapirishini tushunishga imkon beradi. Ushbu inson-kompyuterning o'zaro ta'siri real dunyo dasturlarini avtomatik matnni umumlashtirish, fikrlarni tahlil qilish, mavzularni ajratib olish, nomni aniqlash, nutq qismlarini teglash, aloqalarni ajratish, stemming va boshqalarni amalga oshirishga imkon beradi. NLP odatda matn ishlab chiqarish, mashinani tarjima qilish va savollarga avtomatik javob berish uchun ishlatiladi.
NLP kompyuter fanida qiyin muammo sifatida tavsiflanadi. Inson tili kamdan-kam aniq yoki aniq gapiriladi. Inson tilini tushunish nafaqat so'zlarni, balki tushunchalarni va ularning ma'nosini yaratish uchun qanday bog'liqligini tushunishdir. Til inson ongini o'rganish uchun eng oson narsalardan biri bo'lishiga qaramay, tilning noaniqligi tabiiy tilni qayta ishlashni kompyuterlar uchun qiyinlashtirmoqda.
Ishlab chiquvchilar NLP algoritmlarini nimadan foydalanishlari mumkin?
NLP algoritmlari turli xil foydalanishga ega. Asosan, ular ishlab chiquvchilarga inson tilini tushunadigan dastur yaratishga imkon beradi. Inson tilining murakkab tabiati tufayli NLP-ni o'rganish va to'g'ri amalga oshirish qiyin bo'lishi mumkin. Biroq, ushbu maqoladan olgan bilimlaringiz bilan siz NLP-ni muvaffaqiyatli ishlatish uchun yaxshiroq jihozlanasiz. Ba'zi loyihalarni ishlab chiquvchilar NLP algoritmlaridan foydalanishi mumkin:
Summarizer yordamida muhim bo'lmagan va markaziy g'oyalarni chiqarib olish uchun matn bloklarini sarhisob qiling.
Parsey McParseface-dan foydalanib, chat orqali bot-bot yarating, bu Google tomonidan ishlab chiqilgan, nuqtai nazarni belgilash usulidan foydalanadigan chuqur o'rganish modelidir.
Avtomatik ravishda Teg yordamida tarkibdan kalit so'zlarni teglarini yarating, bu LDA-ni ishlatadi, bu matn tarkibidagi mavzularni ochib beradi.
Tanlangan nomni tanib olishdan foydalanuvchi shaxs, joy yoki tashkilot kabi qazib olingan ob'ekt turini aniqlang.
Juda salbiydan neytralgacha juda ijobiygacha bo'lgan matn satrining mazmunini aniqlash uchun Sentiment Analysis-dan foydalaning.
PorterStemmer-dan foydalanib, so'zlarni o'zlarining ildizlariga qisqartiring yoki tok qiling yoki Tokenizer-dan foydalanib, matnni tokenlarga ajrating.
Dastlabki kunlarda ko'plab tilni qayta ishlash tizimlari bir qator qoidalar to'plamini kodlash orqali ishlab chiqilgan: [9] [10] masalan, grammatika yozish yoki muammoning evristik qoidalarini ishlab chiqish orqali.
1980-yillarning oxiri va 1990-yillarning o'rtalarida "statistik inqilob" [11] [12] deb nomlanganligi sababli, tabiiy tillarni qayta ishlash bo'yicha ko'pgina tadqiqotlar mashinani o'rganishga ko'proq tayandi. Mashinasozlik paradigmasi statistik ma'lumotlardan foydalanishni talab qiladi, bunda avtomatik qoidalarni tahlil qilish orqali avtomatik ravishda ushbu qoidalarni o'rganish uchun (korpusning ko'plik shakli - bu odatdagi real misollardagi hujjatlar to'plami, ehtimol inson yoki kompyuter izohlari bilan).
Tabiiy tillarni qayta ishlash vazifalariga turli xil mashina o'rganish algoritmlari qo'llanilgan. Ushbu algoritmlar kirish ma'lumotlari natijasida hosil bo'ladigan katta "xususiyatlar" to'plamini kiritish sifatida qabul qilinadi. Qaror daraxtlari kabi eng qadimgi ishlatilgan algoritmlarning ba'zilari o'sha paytda keng tarqalgan qo'lyozma qoidalar tizimiga o'xshash qattiq, keyin esa qoidalarni ishlab chiqardi. Ammo, borgan sari, tadqiqotlar statistik modellarga e'tiborni qaratdi, ular har bir kirish xususiyatiga real baholangan og'irliklarni biriktirish asosida yumshoq, ehtimoliy qarorlar qabul qiladi. Bunday modellarning afzalligi shundan iboratki, ular bitta emas, balki turli xil javoblarning nisbiy ishonchliligini ifoda eta oladi va bunday model katta tizimning tarkibiy qismi sifatida kiritilganda yanada ishonchli natijalarni beradi.
Mashinada o'qitish algoritmlariga asoslangan tizimlar qo'lda ishlab chiqarilgan qoidalarga nisbatan juda ko'p afzalliklarga ega:
Mashinada o'qitish jarayonida qo'llaniladigan o'quv protseduralari avtomatik ravishda eng ko'p uchraydigan holatlarga qaratiladi, holbuki qoidalarni qo'l bilan yozish paytida harakatni qaerga yo'naltirish kerakligi aniq emas.
Avtomatik o'rganish protseduralari notanish ma'lumotlarni kiritish uchun (masalan, ilgari ko'rilmagan so'zlar yoki tuzilmalarni o'z ichiga olgan) va xatolarni kiritishda (masalan, noto'g'ri yozilgan yoki tasodifan qoldirilgan so'zlar bilan) modellarni ishlab chiqarish uchun statistik ma'lumotlarning algoritmlaridan foydalanishi mumkin. Umuman olganda, bunday yozuvlarni qo'lda yozilgan qoidalar bilan muloyimlik bilan ishlatish, yoki umuman olganda yumshoq qarorlar chiqaradigan qo'lda yozilgan qoidalar tizimini yaratish juda qiyin, xatolarga moyil va ko'p vaqt talab etadi.
Avtomatik ravishda qoidalarni o'rganishga asoslangan tizimlar ko'proq ma'lumotlarni kiritish orqali oddiyroq bo'lishi mumkin. Biroq, qo'lda yozilgan qoidalarga asoslangan tizimlar faqat qoidalarning murakkabligini oshirish orqali aniqroq amalga oshirilishi mumkin, bu ancha qiyin vazifa. Xususan, qo'lda tayyorlangan qoidalarga asoslangan tizimlarning murakkabligi chegarasi mavjud, undan tashqarida tizimlar tobora boshqarib bo'lmaydigan holga keladi. Shu bilan birga, mashina o'qitish tizimiga kirish uchun ko'proq ma'lumot yaratish shunchaki izohlash jarayonining murakkablashuvisiz, ishlaydigan odam sonining tegishli o'sishini talab qiladi.
Do'stlaringiz bilan baham: |