Oʻzbekiston respublikasi oliy va oʻrta maxsus ta’lim vazirligi



Download 0,6 Mb.
bet5/5
Sana04.03.2022
Hajmi0,6 Mb.
#483231
1   2   3   4   5
Bog'liq
Tabiiy tilni qayta ishlashni boshlash

Gensim - bu Python-da yozilgan mavzularni modellashtirish , o'xshashlikni qidirish va tabiiy tilni qayta ishlash uchun kutubxona .
2009 yilda Radim Řehůřek tomonidan ishlab chiqilgan Gensim ikkita narsada ustun bo'lishni maqsad qilgan, biri tabiiy tilni qayta ishlash, ikkinchisi esa ma'lumot
olish. U ma'lum toifadagi ma'lumotlarning katta to'plamlarida ishlaydi va undan juda aniq ma'lumot beradi.
Gensim Yashirin Dirichlet ajratish (LDA) , Tasodifiy proyeksiyalar (RP) , yashirin semantik tahlil (LSA/LSI/LVD) va ierarxik Dirichlet jarayoni
(HDP) kabi bir nechta mashhur algoritmlar uchun xotiradan mustaqil amalga oshirish imkoniyatlarini taklif etadi .
Gensim boshqa dasturlash tillari bilan integratsiyani osonlashtiradigan silliq API yordami bilan ta'minlangan, shu bilan birga keng ko'lamli hujjatlar va o'quv
qo'llanmalar sizni dasturlash sayohatingizda yo'naltiradi. Gensim-dan foydalanishning asosiy sharti uni ishga tushirish uchun NumPy va Scipy paketlaridir. Resurslar -


gensim Documentation — Rasmiy hujjatlar va oʻquv qoʻllanmalari. Darslar sahifasi juda foydali.
  • PYNLPI

  • FoLiA XML va boshqa ko'plab umumiy NLP formatlari (CQL, Giza, Moses, ARPA, Timbl va boshqalar) bo'yicha keng funksionallik.
    Ananas ” deb talaffuz qilingan bu Python uchun ochiq manbali tabiiy tillarni qayta
    ishlash kutubxonasi. PyNLPl murakkab ma'lumotlar turlari va algoritmlarni qo'llab- quvvatlash bilan soddalashtirilgan modellarni yaratish va n-gramm va chastotalar ro'yxatini olishdan tortib turli vazifalar uchun idealdir.

Shuningdek, u Moses , Timbl , Giza va boshqa bir nechta NLP fayl formatlarini qo'llab-quvvatlash bilan jihozlangan. PyNLPl kutubxonasi bir nechta paketlardan iborat bo'lib, ular taklif qiladigan narsalarning o'ziga xos xususiyatlariga kiradi.
Quyida ushbu paketlardan bir nechtasi keltirilgan:
  • pynlpl.datatypes qo'shimcha ma'lumotlar turlarini qo'shadi
  • pynlpl.formats.giza GIZA++ soʻzlarni hizalamasidan maʼlumotlarni oʻqish uchun
  • pynlpl.formats.tmbl Timbl ma'lumotlarini o'qish imkonini beradi
  • pynlpl.textprocessors oddiy tokeniser va n-gramm ekstraktsiyasi sifatida
  • CGN nutq qismi teglarini tahlil qilish uchun pynlpl.formats.cgn
  • Naqsh

  • Veb (ma'lumotlar) qazib olish / skanerlash va umumiy NLP vazifalari.
    Pattern, birinchi navbatda, Python uchun veb-mining moduli bo'lib, unda ma'lumotlarni qazib olish, tabiiy tilni qayta ishlash, mashinalarni o'rganish va tarmoq tahlili kabi ko'plab maqsadlar uchun vositalar mavjud.Patternning NLP jihatiga e'tibor qaratib, u har qanday NLP ning muhim xususiyatlari bilan yaxshi jihozlangan, masalan, nutq qismlari, n-grammalar, hissiyotlarni tahlil qilish, WordNet, matn tasnifi va tokenizatsiya.
    U darhol boshlash uchun 350 dan ortiq birlik testlari va 50 dan ortiq misollar bilan to'liq hujjatlashtirilgan . Veb-API-larni qo'llab-quvvatlash Pattern funksiyalarini kengaytirish uchun boshqa dasturlash tillari bilan oson integratsiyalashish imkonini beradi.
    Google Trend - Vaqt o'tishi bilan naqsh qiziqishi

NLTK — eng ko'p tilga olingan NLP kutubxonasi
NLTK — eng ko'p tilga olingan NLP kutubxonasi
Google Trends — Shakl ( manba )
  • Poliglot

  • Ko'p tillilik va transliteratsiya imkoniyatlari.
    Rami Al-Rfou tomonidan ishlab chiqilgan Polyglot - bu Pythonning tabiiy tillarini qayta ishlash kutubxonasi bo'lib, u keng tillar to'plami bilan shug'ullanishi kerak
    bo'lgan ilovalar uchun juda mos keladi.
    Tokenizatsiya, tilni aniqlash, nutqning bir qismini belgilash va qolganlari kabi bir nechta tabiiy tilni qayta ishlash xususiyatlarini qo'llab-quvvatlagan holda, uning har bir NLP xususiyati bir nechta tillarni qo'llab-quvvatlash orqali yanada kuchaytiriladi. Bir nechta tillarni qo'llab-quvvatlash uni mahalliylashtirish hal qiluvchi rol
    o'ynaydigan hayotiy variantga aylantiradi. U batafsil hujjatlar bilan birga keladi, bu har bir kishi uchun kirish jarayonini soddalashtiradi.
  • TextBlob

NLTK - Nomlangan ob'ektlarni aniqlash ( manba )
Textblob ( manba )
Textblob matnga asoslangan ma'lumotlarni qayta ishlash uchun boshqa ochiq manba Python kutubxonasi bo'lib, API orqali boshqa dasturlash tillari bilan silliq integratsiyani taklif etadi. Agar siz standart NLP operatsiyalarini bajarishga shoshilayotgan bo'lsangiz, Textblob sizning qutqaruvchingiz bo'lishi mumkin. U har qanday tabiiy tilni qayta ishlash kutubxonasi uchun standart bo'lgan bir nechta xususiyatlarni taqdim etadi, masalan:
  • Nutq qismini teglash
  • His-tuyg‘ularni tahlil qilish
  • Tasniflash
  • Tokenizatsiya
  • n-gramm
  • So‘zning o‘zgarishi
  • WordNet integratsiyasi
  • Tilni tarjima qilish va aniqlash Google Translate tomonidan quvvatlanadi
  • So'z va iboralar chastotalari
  • Tahlil qilish
  • Imlo tuzatish
  • Kengaytmalar orqali yangi modellar yoki tillarni qo'shing

  • U yangi o'quvchilar uchun o'rganish egri chizig'ini nisbatan yumshoqroq qilish uchun keng qamrovli qo'llanmalar bilan birga keladi.
    Resurslar -


TextBlob Documentation - Rasmiy hujjatlar va tezkor ishga tushirish qo'llanmasi.
TextBlob bilan tabiiy tilni qayta ishlash asoslari - TextBlob-dan foydalangan holda ajoyib, qisqa NLP halokat kursi.

Download 0,6 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish