TERMIZ DAVLAT UNIVERSITETI O’ZBEK FILOLOGIYASI FAKULTETI FILOLOGIYA O’ZBEK TILINI O’QITISH YO’NALISHI 419-GURUH 3-KURS TALABASI MALLAYEVA MAXLIYONING UMUMIY PSIXOLOGIYA FANIDAN TAYYORLAGAN
KORPUS YARATISH MUOMMOLARI
REJA:
KORPUS LINGVISTIKASI NIMA
KORPUSLARDAN FOYDALANISH
MUAYYAN SOHALARDAN OLINGAN KORPUSLAR
Korpus lingvistikasi nima?
Qanday holatlar
Ilova
Korpuslardan foydalanish
Yaratilish jarayoni
Korpuslarni yaratishdagi qiyinchiliklar
Morfologik belgi
Sintaktik belgi
Semantik belgilash
Axborot-qidiruv tizimlarini qo'llash
Rus tilining milliy korpusi
Perspektivlar
Nihoyat
Bir necha o'n yillar oldin olimlar lingvistik tadqiqotlarni avtomatlashtirishni orzu qilishlari mumkin edi. Ish qo'lda bajarildi, ko'p sonli talabalar jalb qilindi, "e'tiborsizlik" xatosi katta ehtimollik bor edi va eng muhimi, bularning barchasi juda ko'p vaqtni oldi.
Kompyuter texnologiyalarining rivojlanishi bilan tadqiqotni katta hajmdagi tezroq olib borish mumkin bo'ldi va bugungi kunda tilni o'rganishning istiqbolli yo'nalishlaridan biri korpus lingvistikasidir. Uning asosiy xususiyati - katta hajmdagi matnli ma'lumotlardan foydalanish, yagona bazaga birlashtirilgan, maxsus tarzda belgilangan va korpus deb ataladi.
Bugungi kunda millionlab dan o'nlab milliardlab leksik birliklarni o'z ichiga olgan turli lingvistik materiallar asosida turli maqsadlar uchun yaratilgan ko'plab korpuslar mavjud. Ushbu yo'nalish istiqbolli deb e'tirof etiladi va amaliy va tadqiqot maqsadlariga erishishda sezilarli muvaffaqiyatlarni namoyish etadi. Tabiiy til bilan u yoki bu tarzda shug'ullanadigan mutaxassislarga matn korpusi bilan kamida asosiy darajada tanishish tavsiya etiladi.
Ushbu yo'nalishning shakllanishi o'tgan asrning 60-yillari boshlarida Qo'shma Shtatlarda Braun korpusining tashkil etilishi bilan bog'liq. Matnlar to'plami bor-yo'g'i 1 million so'z shakllaridan iborat edi va bugungi kunda bunday hajmdagi korpus mutlaqo raqobatdosh bo'lmaydi. Bu ko'p jihatdan kompyuter texnologiyalarining rivojlanish sur'atlari, shuningdek, yangi tadqiqot resurslariga talablarning ortib borishi bilan bog'liq.
90-yillarda korpus lingvistikasi toʻlaqonli va mustaqil fanga aylandi, matnlar toʻplamlari tuzildi va bir necha oʻnlab tillar uchun belgilandi. Bu davrda, masalan, Britaniya Milliy Korpusi 100 million token bilan yaratilgan.
Tilshunoslikning ushbu yo'nalishi rivojlanib borgan sari matnlarning hajmlari ko'payib boradi (va milliardlab lug'at birliklariga etadi) va belgilar tobora xilma-xil bo'lib boradi. Bugungi kunda Internetda siz yozma va og'zaki nutq, ko'p tilli va o'qituvchilik, badiiy yoki akademik adabiyotga, shuningdek, boshqa ko'plab turlarga yo'naltirilgan jamlanmalarni topishingiz mumkin.
Qanday holatlar
Korpus lingvistikasida korpus turlarini bir necha asoslar bo'yicha ifodalash mumkin. Tasniflash uchun matnlar tili (rus, nemis), kirish rejimi (ochiq manba, yopiq, tijorat), manba material janri (badiiy, hujjatli, akademik, jurnalistika) asos bo'lishi mumkinligi intuitiv ravishda aniq.
Og'zaki nutqni ifodalovchi materiallarni yaratish qiziqarli tarzda amalga oshiriladi. Bunday nutqni qasddan yozib olish respondentlar uchun sun'iy sharoit yaratishi va natijada olingan materialni "spontan" deb atash mumkin emasligi sababli, zamonaviy korpus tilshunosligi boshqacha yo'l tutdi.Ko'ngilli mikrofon bilan jihozlangan va u ishtirok etgan barcha suhbatlar kun davomida yozib olinadi. Atrofdagilar, albatta, kundalik suhbat jarayonida ilm-fan rivojiga hissa qo‘shayotganini bila olmaydi.
Keyinchalik, olingan audio yozuvlar ma'lumotlar bankida saqlanadi va transkript kabi bosma matn bilan birga keladi. Shunday qilib, kundalik og'zaki nutqning korpusini yaratish uchun zarur bo'lgan belgilash mumkin bo'ladi.
Ilova
Tildan foydalanish mumkin bo'lgan joyda, matn korpusidan ham foydalanish mumkin. Tilshunoslikda korpus usullarini qo'llashdan maqsad quyidagilar bo'lishi mumkin:
Saylovchilar va mijozlarning ijobiy va salbiy fikr-mulohazalarini kuzatish uchun siyosat va biznesda faol foydalaniladigan kayfiyat dasturlarini yaratish.
Axborot tizimini lug'atlar va tarjimonlar bilan bog'lash, ularning samaradorligini oshirish.
Tilning tuzilishini, uning rivojlanish tarixini va yaqin kelajakdagi o'zgarishlarni bashorat qilishni tushunishga yordam beradigan turli xil tadqiqot vazifalari.
Morfologik, sintaktik, semantik va boshqa xususiyatlar asosida axborotni ajratib olish tizimini ishlab chiqish.
Turli lingvistik tizimlar ishini optimallashtirish va boshqalar.
Korpuslardan foydalanish
Resurs interfeysi odatiy qidiruv tizimiga o'xshaydi va foydalanuvchidan ma'lumot bazasini qidirish uchun so'z yoki so'zlar birikmasini kiritishni taklif qiladi. Aniq so'rov shakliga qo'shimcha ravishda siz deyarli har qanday lingvistik mezon bo'yicha matnli ma'lumotlarni topish imkonini beruvchi kengaytirilgan versiyadan foydalanishingiz mumkin.
Qidiruv uchun asos bo'lishi mumkin:
Bundan tashqari, siz so'zlar ketma-ketligi uchun qidiruv mezonlarini birlashtira olasiz: masalan, hozirgi zamonda, birinchi shaxsda, birlikda, keyin "in" predlogi va ot kelishigidagi otning barcha holatlarini toping. Bunday oddiy vazifani hal qilish foydalanuvchiga bir necha soniya vaqt oladi va belgilangan maydonlarda bir necha marta bosishni talab qiladi.
Yaratilish jarayoni
Qidiruvning o'zi ham barcha subkorpuslarda, ham ma'lum bir maqsadga erishish ehtiyojlariga qarab alohida tanlangan bittasida amalga oshirilishi mumkin:
Birinchi qadam korpusning asosini qaysi matnlar tashkil etishini aniqlashdir. Amaliy maqsadlarda ko'pincha jurnalistik, gazeta materiallari, Internet sharhlari qo'llaniladi. Tadqiqot loyihalarida turli xil korpus turlari qo'llaniladi, ammo matnlar umumiy asosda tanlanishi kerak.
Olingan matnlar to'plami oldindan qayta ishlanadi, xatolar tuzatiladi, agar mavjud bo'lsa, matnning bibliografik va ekstralingvistik tavsifi tayyorlanadi.
Matnsiz barcha ma'lumotlar yo'q qilinadi: grafiklar, rasmlar, jadvallar o'chiriladi.
Tokenlar, odatda so'zlar, keyingi ishlov berish uchun ajratiladi.
Nihoyat, hosil bo'lgan elementlar to'plamining morfologik, sintaktik va boshqa belgilari amalga oshiriladi.
Bajarilgan barcha amallarning natijasi sintaktik tuzilma bo'lib, uning ustida taqsimlangan elementlar to'plami bo'lib, ularning har biri uchun nutqning bir qismi, grammatik va ba'zi hollarda semantik xususiyatlar aniqlanadi.
Korpuslarni yaratishdagi qiyinchiliklar
Korpusni olish uchun juda ko'p so'z yoki jumlalarni birlashtirish etarli emasligini tushunish muhimdir. Bir tomondan, matnlar to'plami muvozanatli bo'lishi kerak, ya'ni har xil turdagi matnlarni ma'lum nisbatlarda taqdim etishi kerak. Boshqa tomondan, tananing tarkibi maxsus tarzda belgilanishi kerak.
Birinchi masala kelishuv asosida hal qilinadi: masalan, badiiy matnlarning 60 foizi, hujjatli matnlarning 20 foizi to‘plamga kiritilgan, ma’lum ulush og‘zaki nutqning yozma taqdimotiga, qonun hujjatlariga, ilmiy ishlarga va hokazolarga ajratilgan.Bugungi kunda. muvozanatli korpus uchun ideal retsept yo'q.
Kontentni belgilash haqidagi ikkinchi savolni hal qilish qiyinroq. Matnni avtomatik belgilash uchun ishlatiladigan maxsus dasturlar va algoritmlar mavjud, ammo ular yuz foiz natija bermaydi, ular noto'g'ri ishlashga olib kelishi va qo'lda qayta ko'rib chiqishni talab qilishi mumkin. Ushbu muammoni hal qilishning imkoniyatlari va muammolari V.P.Zaxarovning korpus tilshunosligi bo'yicha ishida batafsil yoritilgan.
Matnni belgilash bir necha darajalarda amalga oshiriladi, biz ularni quyida sanab o'tamiz.
Morfologik belgi
Maktabdan biz rus tilida nutqning turli qismlari mavjudligini va ularning har biri o'ziga xos xususiyatlarga ega ekanligini eslaymiz. Masalan, fe'lda otda bo'lmagan kayfiyat va zamon kategoriyalari mavjud. Ona tilida so'zlashuvchi ism va fe'llarni qo'shishdan tortinmaydi, ammo qo'l mehnati 100 million tokenni belgilash uchun ishlamaydi. Barcha kerakli operatsiyalarni kompyuter bajarishi mumkin, ammo buning uchun uni o'rgatish kerak.
Morfologik belgilar kompyuter uchun har bir so'zni nutqning ma'lum bir grammatik xususiyatlarga ega bo'lgan qismi sifatida "tushunishi" uchun zarurdir. Rus tilida (har qanday boshqa tilda bo'lgani kabi) bir qator muntazam qoidalar ishlaganligi sababli, mashinaga bir qator algoritmlarni qo'yish orqali morfologik tahlil qilishning avtomatik tartibini qurish mumkin. Biroq, qoidadan istisnolar, shuningdek, turli murakkablashtiruvchi omillar mavjud. Natijada, bugungi kunda sof kompyuter tahlili idealdan uzoqdir va hatto 4% xatolar 100 million birlik korpusda 4 million so'z qiymatini beradi, bu esa qo'lda qayta ko'rib chiqishni talab qiladi.
Bu muammo V.P.Zaxarovning “Korpus lingvistikasi” kitobida batafsil yoritilgan.
Sintaktik belgi
Tahlil yoki tahlil qilish - gapdagi so'zlarning munosabatini aniqlaydigan protsedura. Algoritmlar to'plami yordamida matndagi mavzu, predikat, qo'shimchalar va turli xil burilishlarni aniqlash mumkin bo'ladi. Ketma-ketlikdagi qaysi so'zlar asosiy va qaysi biri bog'liq ekanligini aniqlab, biz matndan ma'lumotni samarali ajratib olishimiz va qidiruv so'roviga javoban faqat bizni qiziqtirgan ma'lumotni qaytarish uchun mashinani o'rgatishimiz mumkin.
Aytgancha, zamonaviy qidiruv tizimlari buni "olmada qancha kaloriya bor" yoki "Moskvadan Sankt-Peterburggacha bo'lgan masofa" kabi tegishli so'rovlarga javoban uzoq matnlar o'rniga aniq raqamlarni berish uchun foydalanadi. Biroq, tasvirlangan jarayonning eng asoslarini tushunish uchun siz "Korpus lingvistikasiga kirish" yoki boshqa asosiy darslik bilan tanishishingiz kerak bo'ladi.
Semantik belgilash
So'zning semantikasi oddiy so'z bilan aytganda, uning ma'nosidir. Semantik tahlilda keng qo'llaniladigan yondashuv - bu so'zga teglarni belgilash, uning semantik toifalar va pastki kategoriyalar to'plamiga tegishliligini aks ettiradi. Bunday ma'lumotlar korpus lingvistikasi usullaridan foydalangan holda matn hissiyotlarini tahlil qilish, avtomatik umumlashtirish va boshqa vazifalar uchun algoritmlarni optimallashtirish uchun qimmatlidir.
Juda keng semantikaga ega bo'lgan mavhum so'zlar bo'lgan bir qator daraxt "ildizlari" mavjud. Bu daraxt shoxlari bo'lgan sari ko'proq o'ziga xos leksik elementlarni o'z ichiga olgan tugunlar hosil bo'ladi. Masalan, “maxluq” so‘zini “inson”, “hayvon” kabi tushunchalar bilan bog‘lash mumkin. Birinchi so'z keyinchalik turli kasblarga, qarindoshlik atamalariga, millatga, ikkinchisi - hayvonlarning sinflari va turlariga bo'linadi.
Axborot-qidiruv tizimlarini qo'llash
Korpus lingvistikasidan foydalanish sohalari faoliyatning turli sohalarini qamrab oladi. Korpuslar lug'atlarni tuzish va tuzatish, avtomatik tarjima tizimlarini yaratish, umumlashtirish, faktlarni ajratib olish, his-tuyg'ularni aniqlash va boshqa matnlarni qayta ishlash uchun ishlatiladi.
Bundan tashqari, bunday manbalar dunyo tillarini va umuman tilning ishlash mexanizmlarini o'rganishda faol foydalaniladi. Oldindan tayyorlangan katta hajmdagi ma'lumotlarga kirish tillarning rivojlanish tendentsiyalarini tezkor va har tomonlama o'rganishga, neologizmlar va barqaror nutq burilishlarini shakllantirishga, leksik birliklarning ma'nolarini o'zgartirishga va hokazolarga yordam beradi.
Bunday katta hajmdagi ma'lumotlar bilan ishlash avtomatlashtirishni talab qilganligi sababli, bugungi kunda kompyuter va korpus lingvistikasi o'rtasida yaqin aloqa mavjud.
Rus tilining milliy korpusi
Ushbu korpus (qisqacha RNC deb ataladi) turli xil vazifalarni hal qilish uchun resursdan foydalanishga imkon beruvchi bir qator kichik korpuslarni o'z ichiga oladi.
RNC ma'lumotlar bazasidagi materiallar quyidagilarga bo'linadi:
90-2000-yillardagi ommaviy axborot vositalarida mahalliy va xorijiy nashrlar uchun;
og'zaki nutq yozuvlari;
aksentologik jihatdan belgilangan matnlar (ya'ni stress belgilari bilan);
dialektal nutq;
she'riy asarlar;
sintaktik belgili materiallar va boshqalar.
Axborot tizimi, shuningdek, asarlarning rus tilidan ingliz, nemis, frantsuz va boshqa ko'plab tillarga (va aksincha) parallel tarjimalari bilan subkorpuslarni o'z ichiga oladi.
Shuningdek, ma'lumotlar bazasida rus tilidagi yozma nutqni uning rivojlanishining turli davrlarida aks ettiruvchi tarixiy matnlar bo'limi mavjud. Chet el fuqarolari uchun rus tilini o'zlashtirishda foydali bo'lishi mumkin bo'lgan o'quv korpusi ham mavjud.
Rus tilining milliy korpusi 400 million leksik birliklarni o'z ichiga oladi va ko'p jihatdan Evropa tillari korpuslarining katta qismidan oldinda.
Perspektivlar
Ushbu sohani istiqbolli deb tan olish foydasiga Rossiya universitetlarida, shuningdek, xorijiy universitetlarda korpus lingvistika laboratoriyalarining mavjudligi. Ko'rib chiqilayotgan axborot-qidiruv resurslari doirasida foydalanish va tadqiq qilish yuqori texnologiyalar, savol-javob tizimlari sohasidagi ayrim yo'nalishlarni rivojlantirish bilan bog'liq, ammo bu yuqorida muhokama qilindi.
Korpus lingvistikasining keyingi rivojlanishi barcha darajalarda, ya'ni texnik jihatdan, ma'lumotlarni qidirish va qayta ishlash jarayonlarini optimallashtiradigan yangi algoritmlarni joriy etish, kompyuterlarning imkoniyatlarini kengaytirish, operativ xotirani ko'paytirish va kundalik hayotni yakunlash nuqtai nazaridan prognoz qilinmoqda. kundalik hayotda ushbu turdagi resurslardan foydalanishning tobora ko'proq usullari.hayot va ish.
Nihoyat
O'tgan asrning o'rtalarida 2017 yil uzoq kelajakka o'xshab ko'rindi, unda kosmik kemalar Koinotning bepoyon bo'ylab harakatlanadi va robotlar odamlar uchun barcha ishlarni bajaradi. Darhaqiqat, fan "bo'sh joylar" bilan to'lib-toshgan va insoniyatni asrlar davomida qiynayotgan savollarga javob berishga umidsiz urinishlar qiladi. Tilning ishlashiga oid savollar bu erda g'ururlanadi va korpus va hisoblash tilshunosligi ularga javob berishga yordam beradi.
Katta hajmdagi ma'lumotlarni qayta ishlash sizga ilgari kirish imkoni bo'lmagan naqshlarni aniqlash, ma'lum lingvistik xususiyatlarning rivojlanishini bashorat qilish va deyarli real vaqtda so'zlarning shakllanishini kuzatish imkonini beradi.
Amaliy global darajada korpusni, masalan, jamoatchilik kayfiyatini baholashning potentsial vositasi sifatida ko'rib chiqish mumkin - Internet haqiqiy foydalanuvchilar tomonidan yaratilgan turli xil matnlarning doimiy ravishda to'ldiriladigan ma'lumotlar bazasi: bular sharhlar, sharhlar, maqolalar va boshqa ko'plab shakllar. nutq.
Bundan tashqari, korpuslar bilan ishlash bizga Google yoki Yandex xizmatlaridan tanish bo'lgan ma'lumotlarni qidirishda ishtirok etadigan bir xil texnik vositalarni, mashina tarjimasi va elektron lug'atlarni ishlab chiqishga yordam beradi.
Do'stlaringiz bilan baham: |