Tadqiqotning ilmiy-nazariy asosi. Tadqiqotning ilmiy-nazariy asosini morfologik tahlil, xususan, tilni iyerarxik modellashtirishiga oid nazariyalar tashkil etadi.
Tadqiqotning ilmiy yangiligi. Kompyuter lingvistikasi yoki korpus lingvistikasi yo‘nalishlarida audio korpusga asoslangan morfologik tahlil hali qilinmagan.
Audio korpus matnlarining morfologik tahlil texnologiyasining korpus asosida yaratishning tadqiq etilishi ishning yangiligi hisoblanadi.
Magistrlik dissertatsiyasining nazariy va amaliy ahamiyati. Morfologik tahlil texnologiyasi tizimlari, ularni yaratishning ilmiy tomonlari, gap modellarini tuzish usullari ishning nazariy ahamiyatini tashkil etsa, uning amaliy ahamiyati o‘zbekcha matnlar asosida yaratilgan uzbekcorpus.uz dagi morfolgik sintezlash va stemming.uz platformasi uni amaliyotga tadbiqida ko‘rinadi.
Ishning tuzilishi va hajmi. Magistrlik dissertatsiyasi kirish, uch bob, xulosa, foydalanilgan adabiyotlar ro‘yxati va ilovalardan iborat. Ishning umumiy hajmi ….. bet.
I BOB. LINGVISTIK KORPUSLAR TOKSONOMIYASIGA DOIR TADQIQOTLAR
Xorijda korpus lingvistikasining o‘rganilishi
XX asrning 50-yillaridan boshlab tabiiy tillarga qayta ishlov berish, turli texnologiyalar yordamida tarjima qilish kengaya boshladi. Bu tufayli ma’lum bir tilning lingvistik bazasini yaratishga ehtiyoj ortdi. Fandagi bu turdagi izlanishlar tilshunoslikka texnologiyalarni tadbiq etishga va tilshunoslikka doir sohalar ko‘payishiga zamin yaratdi. Buning natijasida axborot qidiruv tizimi, korpus lingvistikasi va tarjimada morfologik tahlilning nazariyalarini o’rganish, tahlil tizimi uchun formal til va grammatikani ishlab chiqish kerakligi aks etdi.
Taksonomiya (yunoncha tiz - tizim, tartib va nōmos - qonun) - murakkab tashkil etilgan ierarxik bog'liq ob'ektlarni tasniflash va tizimlashtirish tamoyillari va amaliyoti haqidagi ta'limot. Taksonomiya tamoyillari ko'plab ilmiy bilim sohalarida geografiya, geologiya, tilshunoslik, etnografiya ob'ektlarini va organik dunyoning butun xilma-xilligini tartibga solish uchun qo'llaniladi. Tilshunoslikda ham korpuslarning ierarxik tizimini yaratishda mana shunday qonuniyatlardan foydalaniladi.
Dunyo tilshunosligida kompyuter va korpus lingvistikasi muammolarini o‘rganish XX asrning 40-yillarida boshlangan. Jumladan, o‘tgan asrning 60-yillarida mazkur jarayon jadallashib, XXI asr boshlarida o‘zida millionlab so‘zlarni aks ettiruvchi yuzlab til korpuslar paydo bo‘ldi. Sun’iy intellektning avtomatik tarjima, kompyuter tahlili, kompyuter tahriri, tezaurus, elektron lug‘at singari imkoniyatlari kengaydi. Uning ilmiy-nazariy asoslari yaratildi va amaliyotda qo‘llash mumkin bo‘lgan ilk namunalari qo‘llanila boshladi. Korpus yaratishning lingvistik, matematik va dasturiy jihatlari olimlar tomonidan qilingan bir qancha ishlarda o‘z ifodasini topgan.3 Chunonchi, rus va ingliz tillari bo‘yicha korpus lingvistikasi turli sohalar kesimida V.Zaxarov, A.Sedov, A.Baranov, R.Potapova, V.Rikov, U.Frensis, N.Leontyeva, V.Martin, S.Kubler, A.Laurans, E.Etwell, S.Hunston, L.Boizou, McKenneri, J.Grafmiller, J.Grieve, N.Grum, S.Hansson, K.McAulif, M.Malberg, P.Milin, A.Murakami, R.Peych, A.Shembri, P.Tompson, B.Vinter, G.Lich kabi xorijiy olimlar tomonidan ham turkologiyada korpus lingvistikasi bo‘yicha ilmiy tadqiqotlar olib borilgan.
Korpus - bu bir necha yoki muayyan til matnlarining yig‘indisiga asoslangan elektron shaklda to‘plangan ma’lumot (so‘rovnoma)lar tizim.
Korpus lingvistikasi jahon kompyuter lingvistikasining eng yaxshi rivojlanayotgan sohalaridan biri bo‘lib, ko‘pgina yutuqlarga erishilgan. Oliy ta’limda fan sifatida ham o‘qitiladi. Korpus lingvistikasi kompyuter lingvistikasining tarkibiy qismi, til korpusini yaratish, kompyuter texnologiyasi yordamida ulardan foydalanishning umumiy nazariyasi va amaliyoti bilan shug‘ullanadi. Korpus lingvistikasining predmeti–til korpusi. U ingliz tilida linguistic corpus yoki text corpus kabi atamalar bilan qo‘llanilib, ilmiy adabiyotlarda turlicha ta’riflangan. Til korpusi ma’lum tilning belgilangan davrdagi, turli janrlardagi, rang-barang uslub, hududiy hamda ijtimoiy variantdagi matnlarining elektron shakldagi maxsus dasturiy ta’minot asosidagi yig‘indisidir. Til korpuslari elektron kutubxonalardan farq qiladi. Korpus elektron kutubxonalardan keskin farq qiladi. Elektron kutubxonada ma’lum bir millatga tegishli bo‘lgan ma’naviy merosni yig‘ish va uni kelajak avlodga yetkazishni maqsad qilinadi. Korpusda esa muayyan bir tilni tadqiq qilish, uni o‘rganish va o‘rgatish uchun mo‘ljallangan matnlar yig‘ilgan bo‘ladi. Bunday matnlar telefondagi suhbatlar, gazeta matnlari, shoir va yozuvchilar ijodiga bag‘ishlangan ham bo‘lishi mumkin. Yana bir farqlaridan biri shuki, korpusda annotatsiya mavjud(matnlar qo‘shimcha ma’lumot bilan to‘ldirilgan bo‘ladi). Masalan, matn va uning komponentlariga maxsus izoh (masalan, so‘z turkumi haqida ma’lumot) berilishi lozim. Bu izoh matn tegi (belgi, ishora) yoki annotatsiya deb ataladi. Mukammal ishlangan annotatsiya foydalanuvchiga qulaylik yaratadi. Chunki oddiy elektron matnlarda so‘zning xarakterini ochib beruvchi razmetka mavjud emas. Izlayotgan odamga faqatgina so‘z kerak bo‘lsa odatdagi matn muharrirlari ham yetarli. Lekin qo‘shimcha ma’lumotlar(grammatik ma’nosi, turkumi) kerak bo‘lsa korpus qulay. Annotatsiyaning to‘liq shaklda bo‘lishi til korpusining ahamiyatini belgilab beruvchi asosiy omillardan biridir. Bugungi kunda korpuslarda bir qancha annotatsiya turlari mavjud: morfologik, sintaktik va boshqalar.
Korpusga asosan bir tilga oid ma’lumotlar kiritiladi va mavzu qamroviga qarab ulardagi materiallar ma’lum bir turlarga ajratiladi. Mavjud korpuslardagi matnlar foizini hisoblasa, adabiyot 40% ni tashkil qiladi. Bular sirasiga memuar asalar, publitsistik janrdagi matnlar ham kiradi. Korpusdagi ma’lumotlarning ishonarli ekanligini uning reprezentativligi belgilaydi. Bunga korpus hajmining kengligi, matnlarning turli janrlarga oidligi bilan erishiladi. Reprezentativlik atamasi ostida zaruriy hajm, miqdor, janr, uslub, mualliflarga tegishli matnlar proporsiyasining to‘g‘ri tanlanishi tushuniladi.
Reprezentativ korpus uchun tanlanadigan matnlar 15 turdagi janr(registr)ni qamrab olishi, ulardan 6tadan 80tagacha elementar belgilarga ko‘ra tanlanishi lozim. Matnlar, odatda, matbuot: reportaj; matbuot: bosh maqola; matbuot: obzor; diniy matnlar; ko‘nikma, mashg‘ulot, xobbi; ilmiy-ommabop adabiyot; belletristika, biografiya, esse; turli (boshqaruv hujjatlari, korxona, tashkilot, ishlab chiqarish hisoboti), ilmiy asar; badiiy adabiyot; mistika, detektiv; ilmiy proza; sarguzasht, memuar; ishqiy romanlar; hajviy asarlar kabi janrlarda bo‘ladi.4
Korpus menejeri ham mavjud bo’lib, u ajralmas qismidir. Korpus menejeri korpusda ishlash uchun matnlarni qidiruv tizimi. U statistik ma’lumotlar va qidiruv natijasini foydalanuvchiga qulay shaklda ko‘rsatib beradigan dasturiy ta’minot. Qidiruv natijasi odatda konkardans shaklida paydo bo‘ladi. Korpus menejerining qidiruv imkoniyati aniq so‘zshakli, so‘zning lemma (korpusda leksema shunday ataladi) shakli, birikmali bo‘lingan va bo‘linmagan sintagma, morfologik belgilarga asoslangan jamlanma shaklini qamrab oladi. Korpus menejeriga qo‘yiladigan eng asosiy talab matnning kalit so‘zlari ro‘yxati, to‘liq konkordans ro‘yxatni yarata olish; faqat so‘zni emas, balki so‘z birikma so‘roviga ham javob bera olish; shablon asosida (murakkab so‘rov) qidiruvni amalga oshirish; olingan natija (chiqarilgan ro‘yxat)ni bir necha mezon asosida saralay olish; so‘zshaklga berilgan so‘rovni cheklanmagan miqdordagi kontekstda aks ettirish; korpusning alohida elementlari bo‘yicha statistik ma’lumot bera olish; korpus razmetkasidan kelib chiqqan holda lemma, so‘zshaklning morfologik xususiyati hamda metaaxborot (bibliografik, tipologik)ni to‘liq ifodalay olish; natijalarni saqlash, chop etish; fayl, korpusning cheklanmagan hajmi bilan ishlay olish; qidiruvni tez amalga oshirish, natijalarni chiqarish; turli matn formatlarini (txt, doc, rtf, html, xml va b.) o‘qiy olish, shu format bilan ishlash; malakali hamda yangi foydalanuvchi uchun birdek qulay bo‘lishidir5.
Tabiiy tillarda qanday jarayonlar kechayotganligini koprus orqali bilib olish uchun uning ko‘lamini kengaytirish, yozma nutq bilan birgalikda og‘zaki materiallardan ham foydalanish zarur. Korpus sohasida ish ko‘radigan eng birinchi sohalardan bir bu – leksikografiya. Korpus katta hajmdagi lug‘atlarni tuzishda asosiy tayanch vositalardan biri.
Rus tilshunos olimlaridan bir R.G.Piotrovskiy aytishicha: ““Ishonarli lingvistik ma’lumotlar katta massivli matnlar majmuasidangina olinishi mumkin” ekan. Keyingi yillar davomida tadqiqot ishlarida izlanuvchilar bevosita korpuslar bilan ishlarini olib bormoqdalar. Bu esa tilshunoslik sohasiga til texnologiyalarini ham jalb qilmoqda.
Korpusning paydo bo‘lishi, rivojlanishi ikki bosqichdan iborat. Birinchi bosqich: kompyuter asrigacha bo‘lgan davr. Ikkinchi bosqich esa kompyuter asri korpuslari davri. Birinchi davr korpusi – kartotekalar to‘plamidan iborat. Ular bugungi korpus ko‘rinishida bo‘lmasa-da, lingvistik tadqiqot uchun material vazifasini o‘tagan. Kompyuter asrida esa ular elektron shaklga kirdi, dasturlashtirildi.
Korpusni tuzish, o‘rganish va uni amalda qo‘llash XVIII asrlarda boshlangan bo‘lib, Bibliyaga oid bo‘lgan tadqiqotlarni olib borish natijasida keng rivojlandi. Kompyuter asrigacha bo‘lgan noelektron shakld bo‘lgan va undan ma’lumotlarni topish avtomatlashtirilmaganligi bilan xarakterlanadi. Korpus lingvistikasidagi bu davr raqamli texnologiyalar asrigacha bo‘lgan davr sanaladi. Mashhur hind tilshunosi Panini tomonidan tuzilgan hind grammatikasi shaklan noelektron, lekin mazmuman korpus metodiga asoslangan edi(1-2-rasm).
Mil.avv. 5-4-asrlarda bu korpus folklor shaklda og’izdan og’izga ko‘chib kelgan. Kopyuter asrigacha bo‘lgan ko‘plab korpuslar diniy kitoblarga bog‘liq bo‘lgan. Ularning orasida xristianlarning muqaddas kitobi Injil matnlari va uning atroflicha o‘rganilganligi bilan ajralin turadi. Bunday korpus simfoniya yoki konkardans nomi bilan XIII asrda paydo bo‘la boshladi.
Manbalarga ko‘ra 1990-yilga kelib dunyo tillarining kompyuter tahliliga mo‘ljallangan 600 ga yaqin korpusi borligi aniqlangan6.
Inglizcha korpus lingvistika atamasi ilk marta 1984-yilda qo‘llangan. Rossiyada esa bu atama 1996-yilda Xalqaro ingliz tili korpusi (International Corpus of English) asoschisi Sidni Grinbaum tomonidan ma’ruzalaridan birida qo‘llanilgan.
Amaliy jihatdan esa korpus lingvistikasiga XX asrning 60-yillarida Braun korpusi asoschilari tomonidan asos solingan. Brown University Standard Corpus of Modern American English yoki oddiygina Brown Corpusi amerika-inglizcha matn namunalarining elektron toʻplami boʻlib, turli janrlardagi birinchi yirik tuzilgan korpusdir. Ushbu korpus kundalik tildagi so'z turkumlarining chastotasi va tarqalishi bo‘yicha ilmiy tadqiqotlar uchun birinchi marta qo‘llangan edi. Rod-Aylenddagi Braun universitetidan Genri Kuchera va U. Nelson Frensis tomonidan tuzilgan bu umumiy til korpusi boʻlib, 1961-yilda Qoʻshma Shtatlarda chop etilgan maqolalardan tuzilgan. U jami millionga yaqin soʻzdan iborat va 500 ta inglizcha namunani oʻz ichiga oladi(3-rasm).
(3-rasm)
Korpusdan tadqiqot uchun erkin foydalanish an’anasini ana shu korpus boshlab bergan. Bu korpus asosida 1969 yilda “Amerika meros lug‘ati”ga (American Heritage Dictionary) asos solingan.
Britaniya milliy korpusi (British national corpus, BNC) eng katta namunaviy korpuslardan biri bo‘lib, unda 100 mln atrofida so‘z mavjud. Korpus 1991-1994-yillar davomida Oksford universitetida Lankaster universiteti va Britaniya kutubxonasi yordamida yaratilgan. Unda chegaralanmagan mavzu va uslubdagi matnlar mavjud. Milliy korpusdagi matnlar barchasi segmentlangan bo‘lib, gaplardagi so‘zlar grammatik tahlil qilingan. Bundan tashqari, kiritilgan matnalar uchta asosiy mezon bo‘yicha tahrirlangan: matn yozilgan vaqti, hududi va uning nashriyoti.(4-rasm)
Yuqoridagi rasmda Britaniya Milliy korpusi interfeysi berilgan bo‘lib, korpus haqida va undagi matnlar haqida ma’lumotlar olish mumkin.
Yana bir mahshur korpuslardan biri bu Chex milliy korpusi(Český národní korpus). U zamonaviy chex tilida bo‘lib, sinxron morfologik, razmetkalangan korpus. CHNK instituti 1994-yilda Chexiya ta’lim vazirligi yordamida Praga universitetida turli grantlar e’lon qilinishi va homiylar ko‘magida yaratilgan. Chex tilining birinchi korpusi 1999-yilda yaratilgan va unga 1990-1999-yillar orlig’idagi matnlar va 1950-yilgacha bo‘lgan adabiyot materiallari kiritilgan. Quyida Chex milliy korpusida kontext bo‘yicha “мама” so‘zi qidirilgan va hammaga tanish “Пуст всегда...” she’ri orqali topilgan
Bu korpusning ilk na’munasida 100 mln atrofida so‘z qatnashgan yozma matnlar, bundan tashqari uncha katta bo‘lmagan og‘zaki va shevaga oid so‘zlar o‘rin olgan edi.
Zamonaviy Amerika ingliz tili korpusi (COCA) foydalanish bepul bo‘lgan ingliz tilidagi eng katta korpusdir. http://corpus.byu.edu/coca sayti orqali foydalanish mumkin. Bu korpus 2008-yilda M.Devis tomonidan Brigham Young universitetida yaratilgan. 2019-yil statistikasiga ko‘ra COCA hajmi 1990-yildan 2017-yilgacha mavjud bo‘lgan matnlardan olingan bo‘lib, unda og'zaki uslubdagi suhbatlar, badiiy adabiyot, ommabop jurnallar, gazetalar va ilmiy adabiyotlardan foydalangan holda 560 million so‘zni tashkil etdi. Har ikki yilda qaytadan ko‘rib chiqiladi va zamonga moslashtiriladi.
Yuqoridagi korpuslar eng kattalari bo‘lib, ulardan tashqari mashhur va foydalanuvchilar ko‘p bo‘lgan boshqa Google Books, Global Web-Based English, The Intellegient Web-Based Corpus kabi korpuslar ham mavjud. Google Web-Based English korpusidagi ma’lumotlar 20 ta ingliz tilida so‘zlashuvchi hududlardan olingan. The Intellegient Web-Based Corpus esa bular ichida yangilaridan bo‘lsa-da, uning hajmi 14 mlrd so‘zdan iborat. Google Booksning tarkibiga kiruvchi diaxronik Ngram Viewerni ham aytib o‘tish kerak, chunki u boshqalaridan farqli ravishda Google Books kutubxonasi asosida yaratilgan. Bu korpus ichida 9 ta tilde mavjud kitoblarning tekstlari o‘rin olgan. Birgina rus tiliga oid ma’lumotlar 67 mlrd so‘zlarni yanada aniqroq aytganda 591 310 ta matn mavjud(eng oxirgi joylashtirilgan ma’lumotlar 2008-yil).7
Eng birinchi rus tilidagi korpus 1980-yillarda, rus tilining chastotali lug‘ati asosida Shvetsiyadagi Uppsala universitetida yaratilgan. Bu korpus yaratilgunga qadar, 1960-1970-yillarda rus tili korpusiga 1 mln atrofidagi so'zlari asosiy manba qilib olingan “Rus tili chastotali lug'ati” yaratilgan edi (Zasorina, 1977). Korpus tarkibiga turli xil ijtimoiy va siyosiy matnlar, badiiy adabiyot, ilmiy va ilmiy-ommabop matnlar ham kiritilgan edi. L.N.Zasorina korpus uchun leksik materiallar yig‘ishda va asosiy dasturni loyihalashda bosh bo‘lgan.
Uppsala rus tilidagi korpusning hajmi ilmiy va badiiy adabiyot namunalaridagi 600 ta tekst va 1 mln ta so‘zdan iborat. Korpus yaratuvchilari fikricha, korpus zamonaviy rus tili holatini aks ettirishi kerak edi. Shuning uchun korpusni shakllantirishdan maqsad, birinchi navbatda, adabiy tilni ifodalash bo‘lgan v a so'zlashuv nutqi namunalari mavjud emas. Korpusdagi tekstlar lotin alifbosi va maxsus belgilar yordamida yoziladi. Quyidagicha: “&Perestrojka vse glubhe zatragivaet hiznennye interesy millionov, obqestva v celom. Estestvenno, l~di xot„t lu†we u„snit’ sut’ i nazna†enie processov obnovleni„, blihnie i dal’nie celi preobrazovanij, opredelit’ svoe otnowenie k nim”. Bularning barchasi morfologik teglangan.
2004-yil aprel oyiga kelib Rus tili milliy korpusi yaratildi(NKRY). Korpus barcha: rus tiliga qiziquvchilar, uni o‘rganuvchilar, xorijliklar, turli savollariga javob oluvchilar, maktab o‘quvchilari, talabalar va o‘qituvchi-professorlar uchun mo‘ljallangan. Hajmi esa 1950-2010-yillardagi mavjud tekstlardagi 288.7 mln so‘z va so‘z birikmalaridan iborat.
Multimediyali rus tili korpusi (МУРКО), Yevropa Ittifoqi korpusi asosida ko‘ptilli korpus (ECI/MCI), Ingliz milliy korpusi (BNC)larda audiokorpuslar va ta’limiy korpuslar ham yaratilgan. Ular orasida mashhur yozuvchi va shoirlarning mualliflik korpuslar ham mavjud. A.P.Chexov, U.Shekspir, Dante, A.S.Pushkin kabilarning ijodiga bag‘ishlangan mualliflik korpuslaridan audiokorpuslar ham o‘rin egallagan.
Rus milliy korpusidagi multimediyali korpusning hajmi 5 449 075 ta so‘zni tashkil qiladi. Mazkur subkorpus doimiy ravishda yangilanib boradi. Har bir berilgan video 8-30 soniyalarda aks etgan. Har bir tovush ohangi, unlilar talaffuzi alohida-alohida keltiriladi. Har bir uslubdan olingan matn va audiolardagi ovoz egasining yoshi, jinsi, millati ko‘rsatiladi. Bu esa dialektologiya uchun juda zarur va juda muhim manba bo‘lib xizmat qiladi.
Yuqorida sanab o‘tilganlardan tashqari “matnlarning maxsus korpuslari ham mavjud”. Ya’ni kichik hajmdagi, aniq maqsadga yo‘naltirilgan va foydalanuchilarning ma’lum bir sohasiga moslashtirilgan bo‘ladi. Bunday korpuslarda matnlar mavzulashtirilgan va tematikaga oid topshiriqlar berilgan. Misol tariqasida, Sank-Peterburg ingliz tilini o‘rganayotgan maktab o‘quvchilari korpus((SPbEFLLC)ini aytish mumkin. Korpus asosiy maqsadi maktab o‘quvchilarining ingliz tili matnlarini o‘rganishi qilib olingan. Korpus tarkibidagi matnlar Sank-Peterburg maktablaridan 2007-yil noyabrdan dekabrgacha muddatda yig‘ilgan. Matnni yig‘uvchilar esa oldindan maxsus testdan o‘tgan 78 nafar 9-11-sinf o‘quvchilari edi. 50 ming atrofidagi so‘zlarning ko‘pi intermediate va upper-intermediate darajasidadir.
Yana boshqa maxsus korpuslardan misol keltirganda Regensburg diaxron korpusini (eski rus tili matnlariga oid), Qadimgi Rus qo‘lyozma manbalari korpusini(qo‘lda yozilgan kitoblar va xatlar), parallel korpuslarini (“Manuskript” va “Igorev polki so‘zi”) aytib o‘tish mumkin.
Ilk bor Factored va MLCommons tomonidan MSWC – Ko‘p tilli og‘zaki so‘zlar korpusining birinchi versiyasi yaratildi. Bu korpus 50 xil tildagi katta hajmdagi ovozli ma’lumotlarni o‘z ichiga oladi. Bu tillarda 5 milliarddan ortiq kishilar so‘zlashadi va ko‘pgina tillar uchun bu ovozli interfeys ta’lim olish uchun mo‘ljallangan ilk cheklanmagan bepul ma‘lumotlar bazasidir.
Kalit so‘zlarni aniqlash, og‘zaki termin orqali qidirish va turli sohadagi odamlarga foyda keltiruvchi boshqa dasturlar sohasidagi akademik tadqiqotlarni va tijorat ishlarda foydalanishga mo‘ljallangan. Bunda har qanday tildagi kalit so‘zlar uchun ovozli interfeys yaratish maqsad qilib qo‘yilgan.
Ovozli dasturlar allaqachon kundalik hayotga kirib kelgan. Masalan, foydalanuvchi atrofidagi holatlarni aniqlash ko‘plab aqlli ilovalar (masalan, Apple Siri, Amazon Alexa yoki Google ovozli yordamchisi) zimmasiga yuklatilgan. Chiroqni o‘chirish yoki murakkabroq interfeysni ishga tushirish kabi harakatlarni boshqarishda buyruq ohangidagi so‘zlarni to‘xtovsiz eshitish uchun kalit so‘zlarni aniqlash tizimi yaratilgan. Bunday ovozli dasturlar ba’zi odamlar uchun axborot asrida qulaylik hisoblansa, ko‘zi ojiz kishilar uchun muhim ta’lim olish vositasi hamdir.
Bunday dasturlar katta ma’lumotlar bazasining kompyuter modellarini o‘rganishni talab qiladi. Aslida korpus bunday dasturiy ta’minot uchun kalit so‘zlar turli kontekstlardagi minglab so‘zlarni to‘plash va tekshirish uchun resurs bo‘lib xizmat qiladi. MLCommons MSWC 50 ta tildagi nutqni aniqlash uchun katta hajmdagi ma’lumotlar bazasini yaratishda tabiiy tilning audiomatnli korpusidan foydalanmoqda va u doimiy ravishda yangilanib boradi. Umuman olganda, ma’lumotlar bazasi 340 000 dan ortiq so‘zni va 6000 soatdan iborat 23 million miqdordagi bir daqiqali audiomatnlarni o‘z ichiga oladi. Ushbu ma’lumotlar to‘plamining ochiq manbali resurslarini yaratishda foydalanuvchilar takliflarida mavjud alohida so‘zlarini ham ajratib uchun qo‘llaniladi. Bu esa turli tillarda ovozli yordamchilar uchun kalit so‘zlarni aniqlash modellarini o‘qitish uchun ishlatilishi mumkin.
MSWC da ma’lumotlar bazasidagi tillardan 12 tasi eng ko‘p qo‘llaniladigan 100 soatdan ortiq ma’lumotlar, 12 tasi 10 soatdan 100 soatgacha bo‘lgani o‘rtacha ishlatiladigan ma’lumotlar va 26 tasi kam ma'lumotli 10 soatdan kam bo‘lgan kam qo‘llaniladigan tillardir. MSWC ma’lumotlar to‘plami ushbu tillardan 46 tasi uchun ochiq manbali og‘zaki nutq ma’lumotlarining yagona to‘plamidir. Har bir kalit so‘zni o‘rganish, tekshirish va test qilish uchun oldindan belgilangan bo‘linmalarga ega va ma’lumotlar bazasini yaratish va kalit so‘zlarni tasniflash uchun ishlatiladigan ochiq manba vositalarini ham chiqarish mumkin.
Do'stlaringiz bilan baham: |