MAVZU:Xorvatiya milliy korpusi - Croatian National Corpus
TAQDIMOT TAYYORLOVCHI:ALLANAZAROVA BARCHINOY
XORVATIYA MILLIY KORPUSI Xorvatiya milliy korpusi (Xorvat: Hrvatski nacionalni korpus, HNK) eng katta va eng muhimi korpus ning Xorvat tili. Tuzilishi 1998 yilda Tilshunoslik institutida boshlangan
Xorvat tilining nazariy asoslari va umumiy maqsadlar uchun mo'ljallangan, ko'p millionli korpusga bo'lgan ehtiyojning ifodasi bundan ham oldinroq paydo bo'la boshladi.Xorvatiya milliy korpusi barcha sohalarni, mavzularni, janrlarni va uslublarni qamrab olgan xorvat tilida yozilgan tanlangan matnlardan tuzilgan: badiiy va ilmiy matnlardan darsliklar, gazetalar, foydalanuvchilar guruhlari va suhbat xonalariga qadar.
Dastlab korpus ikki qismga bo'lingan 1 2
Xorvatiya elektron matnli arxivi
Zamonaviy xorvat tilining 30 million korpusi
Kevin Bones You can speak a bit about this person here
Zamonaviy xorvat tilining 30 million korpusi
Bu erda 1990 yildan matnlardan namunalar kiritilgan. Matn namunalarini kiritish mezonlari quyidagilardir: ona tilida so'zlashuvchilar tomonidan yozilgan, turli sohalar, janrlar va mavzular. Tarjima qilingan matn yoki she'r chiqarib tashlandi.
Xorvatiya elektron matnli arxivi (HETA) bu erda to'liq matn, xususan, agar u erda joylashtirilgan bo'lsa, 30 metrlik muvozanatni buzadigan ketma-ket nashrlar (jildlar, seriyalar, nashrlar va boshqalar).
2004 yildan boshlab, 3-avlod korpusi kontseptsiyasini qabul qilish bilan, ikkita tarkibiy tuzilish bir nechta subkorporatsiya va kattaroq hajm foydasiga qoldirildi. 2005 yildan buyon 105 million HKK tokenlari mavjud bo'lib, ular birma-bir va bir butun korpusda qidirilishi mumkin bo'lgan turli subkorporatsiyalardan iborat. 2004 yildan beri HNK yangi server platformasiga, ya'ni Manatee / Bonito server-mijoz arxitekturasiga ko'chib o'tdi. HNK-dan qo'ng'iroq qilish uchun (bugungi kunda bepul sinovga kirish imkoniyati mavjud)
Uning interfeysida korpus bo'yicha murakkab va batafsil ishlab chiqilgan so'rovlar, statistik natijalarning har xil turlari, turli xil so'rovlar mezonlari bo'yicha (ularning chastotalari bilan) umumiy yoki qisman so'zlar ro'yxati, turlarning chastotali taqsimoti, kollokatsiyani avtomatik aniqlash va boshqalar mavjud.
Ushbu korpusning so'nggi versiyasi (3-versiya)[7] 216,8 million tokenga ega. Onlayn qidiruvni NoSketch Engine tarkibiga kiruvchi Bonito 2 veb-interfeysi orqali qidirish mumkin,[8] dasturiy ta'minotning cheklangan versiyasi Sketch Dvigatel.
E'TIBORINGIZ UCHUN RAHMAT
E'TIBORINGIZ UCHUN RAHMAT
Do'stlaringiz bilan baham: |