LABORATORIYA ISHI №10.
3.10. Python’ning NLP ga oid kutubxonalari bilan ishlash
Ishning maqsadi.
Talabalarda Python’ning NLP ga oid kutubxonalari bilan ishlash
bo‘yicha amaliy bilim va ko‘nikmalar hosil qilish.
Qisqacha nazariy ma’lumotlar
: NLP shug‘ullanadigan masalalar o‘ziga xos
murakkabliklarga ega bo‘lib, ular asosan tabiiy tildagi polisemiya, omonimiya, anafora, ellipsis
kabi turli hodisalar bilan bog‘liqdir. Tabiiy tildagi matnni avtomatik tushunmasdan turib, NLP
muammolarini hal etish mumkin emas. Shu bois keyingi yillar ichida «matnni avtomatik qayta
ishlash» jumlasi o‘rnida «matnni avtomatik tushunish» jumlasi ilmiy doirada keng qo‘llanilmoqda.
2. Tabiiy tilni tushunish (Natural Language Understanding, NLU) – kirish tilidagi matnni
sintaktik, mantiqiy shakl hamda ma’no jihatdan tahlil qilish va
uning mazmuniga mos yangi
tahrirdagi matnni generatsiya qilish masalalarini o‘z ichiga oladi.
3. Tabiiy til interfeysini yaratish (Natural Language Interface, NLI) – foydalanuvchi va
elektron qurilmalar o‘rtasidagi muloqot usulini tashkil etishdan iborat bo‘lib,
u tabiiy tildagi
muloqot usuliga asoslangan.
4. Tabiiy til generatsiyasi (Natural Language Generation, NLG) – bu kompyuterning
berilganlar bazasidagi mavjud axborotlar asosida ma’lum bir tabiiy
tilni generatsiya qilish
masalalarini o‘z ichiga oladi.
NLP ga oid dasturiy texnologiyalar.
Bugungi kunda dunyo miqyosida tabiiy tillarni avtomatik qayta ishlash (NLP) borasida
keng ko‘lamli ilmiy-tadqiqot ishlari amalga oshirilmoqda.
Tabiiy tillarning kompyuterga yo‘naltirilgan lisoniy modellarini yaratish, tadqiq etish va
amaliy maqsadlarda foydalanish, bir so‘z
bilan aytganda, lingvistik muammolarni
avtomatlashtirilgan tizimlar orqali hal etishga yo‘naltirilgan dasturiy texnologiyalar bir so‘z bilan
til texnologiyalari deb yuritiladi. Bunday texnologiyalardan bugungi kunda xorijiy mamlakatlarda
keng ko‘lamda foydalanilmoqda. Til texnologiyalarining aksariyatida xorijiy tillarga oid lingvistik
modellarni tadqiq etish va qayta ishlash ko‘zda tutilgan bo‘lib, ularning ba’zilarida, masalan,
Python platformasidagi NLTK,
SpaCy kutubxonalari, Wolfram Alpha va shunga o‘xshash
tizimlarda o‘zbek tilining ham ayrim elementlari ustida sodda tadqiqotlar o‘tkazish mumkin.
Ayni vaqtda dunyo miqyosida faoliyat ko‘rsatayotgan til texnologiyalari haqidagi eng ko‘p
ma’lumotlarni olish uchun NLPub elektron lingvistik resurlar katalogiga murojaat qilish mumkin.
NLPub – tabiiy tillarni qayta ishlashga oid elektron resurslar katalogi bo‘lib, undagi
ma’lumotlar tartib bilan, klassifikatsiya qilingan holda elektron katalogning turli bo‘limlariga
joylashtirilgan (
1- jadvalga qarang).
Shuningdek, NLPub rus tiliga oid lingvistik resuslarni yaratish
va takomillashtirish
maqsadiga qaratilgan quyidagi loyihalarni ham o‘z ichiga oladi:
1) RUSSE (RUSsian Semantic Evalution) – hisoblash semantikasi usullarini taqqoslashga
oid seminar-loyiha (semantik jihatdan bir-biriga yaqin bo‘lgan so‘zlarni aniqlash usullari o‘zaro
taqqoslanib, tahlil etiladi);
2) LRWC (Lexical Relations from the Wisdom of the Crowd) – semantik munosabatlar
bo‘yicha ekspertlar muhokamasiga oid loyiha.
3) YARN (Yet Another RussNet) – rus tilining yangi ochiq elektron tezaurusini yaratish
bo‘yicha loyiha;
4) RTLOD (Russian Thesaurus Linked Open Data) – rus tilining o‘zaro bog‘liq
ma’lumotlardan tashkil topgan ochiq elektron tezaurusini yaratishga oid loyiha;
5) RDT (Russian Distributional Thesaurus) – rus tilining ochiq distributiv tezaurusini
yaratishga oid loyiha va h.k.
1- jadval
NLPub elektron katalogning asosiy bo‘limlari
Usullar va
instrumentlar
Resurslar
Ekspertlar va
tadbirlar
Ta’lim
Matnni qayta ishlash,
nutqni qayta ishlash,
utilitalar, usullar,
algoritmlar
Lug‘atlar,
tezauruslar,
korpuslar,
ma’lumotlar
banki
Tashkilotlar,
konsultatsiya
beruvchi ekspertlar,
konferensiyalar
Ta’lim, adabiyot,
diplom mavzulari
Bundan
tashqari, NLPub 2012-yildan buyon Rossiyada har yili bir marta o‘tkaziladigan
AINL (Artificial Intelligence and Natural Language) va 2015-yildan buyon Sankt-Peterburgda
o‘tkaziladigan ISMW (Intelligence, Social Media and Web) konferensiyalarning doimiy axborot-
hamkori bo‘lib hisoblanadi.
Topshiriqlar:
1.
NLP nima?
2.
NLP ga oid dasturiy texnologiya qaysilar?
3.
Python dasturi yordamida turli masalalar yeching?
4.
Ingliz, Krill alifbosini yozilishi, o’qilishi, 10 lik va 16
lik sanoq sistemalarida
ifodalanishini to’g’risida jadval hosil qiling?