Обсуждены и интерпретированы основные вопросы компьютерной лингвистики


(British  N ational  Corpus.  BMC)



Download 53,48 Mb.
Pdf ko'rish
bet79/163
Sana26.07.2021
Hajmi53,48 Mb.
#128715
1   ...   75   76   77   78   79   80   81   82   ...   163
Bog'liq
Kompyuter lingvistikasi. A.Rahimov

(British  N ational  Corpus.  BMC),  R o ssiy a d a   Rus  tilining  mashina  fondi 
(М ашинный  фонд  русского  языка)  h a m d a   Rus  tilining 
M illi y  
Korpusi 
(Национальны й  корпус  русского  язы ка)  lo y ih a la ri  ish la b   c h iq ild i.73 
M asalan,  R us  tilining  milliy  korpusi  hajm i  hozirgi  k u n d a  149  mln  s o ‘zdan 
iborat.  K eyingi  yillarda  In tern et  tizim ining  rivojlanishi  virtual  matnlar kor­
pusi  yuzaga  kelishiga  olib  keldi.  Y a ’ni  In ternetdagi  qidiriv  saytlari,  elek- 
tro n   k u tu b x o n alar,  virtual  ensiklopediyalar  korpus  vazifasini  b ajarm o q d a. 
K o rp u sn in g   ja n ri  va  tem atik  rang-barangligi  In tern etd an   foydalanuvchi- 
ning qiziqishlariga b o g ‘liq. M asalan, ilm-fan doirasida Wikipedia k atta hajm- 
dagi  m a tn la r  korpusi  sifatida  fo y d alan ilm o q d a.74
K o rp u s  lingvistikasida  parallel  m atn lar  korpusi  ham   m uhim   aham iyat 
k a s b   e ta d i.  Parallel  matnlar  korpusi  esa,  o ‘z  n a v b a tid a ,  b a d iiy   a sa r, 
q o ‘llanm a, om m aviy ax b o ro t vositalari, turli xil hujjatlarning ikki yoki undan 
k o ‘p  tillardagi  elektron  holdagi  k o ‘rinishlaridir.  M asalan,  Y evropa  Ittifoqi 
o 'zin in g   b arch a  qon u n   va  hujjatlarini  ingliz,  fransuz,  nem is,  ispan  va  ital- 
yan  tillarida n ash r qiladi  h am d a ular In tern et tizim iga b arch ag a ochiq arxiv 
sifatida  q o ‘yiladi.  Bunday  k o rp u slarn in g   afzalligi  shundaki,  ular  y o rd am i­
da  n a fa q a t  biron  bir  so ‘z  yoki jum laning,  balki  b u tu n   boshli  m atn larn in g  
turli  tillardagi  varian tlarin i  bilish  im koniyati  m avjud.  X uddi  m an a  shu  im- 
k o n iy at  tufayli  m axsus konkordanser dasturlar ishlab chiqish  orqali  turli  xil 
ixtisoslik  lug‘atlari  tuzish  im koniyati  tu g ‘iladi.  U sh b u   im k o n iy atlar  k o m p ­
yuter  leksikografiyasi  uchun  ulkan  ah am iy at  kasb  etadi.
K o m p y u ter  leksikografiyasiga  sem antik  m aydon,  sem antik  tarm o q ,  se­
m an tik   to ‘r  h am d a  freym  sem antikasining  faol  tatb iq   etilishi  natijasida  ul­
k an   k o m p y u te r  le k sik o g ra fiy a   resu rsla ri  y a ra tild i.  S h u n d a y   y irik   lek- 
sikografik  resurslardan  biri  FRAM ENET b o ‘lib,  u  Internet tizim ida on-line 
rejim ida  ishlaydi.75  M azk u r  tizim  C h.F illm orning  «Tools  for  Lexicon  Buil­
ding»  loyihasi  asosida  K aliforniya  shtati,  Berkli  shahridagi  X a lq aro   infor- 
m atik a  in stitu tid a  ishlab  chiqilgan.  F ram en et  resursining  m a ’lu m o tlar  ba- 
zasida  10  000  ta  leksik  birlik  m avjud,  u n d an   6000  dan  o rtig 'i  t o i i q   anno- 
tatsiyaga ega. B undan tashqari, m a ’lum otlar bazasida 800 ta  sem antik freym 
k o ‘rsatilgan,  135  000  an n o tatsiy ali  gap lar  keltirilgan.
E lek tro n   Iug‘atlar  tuzish ja ra y o n id a   m a ’lu m o tlar om bori,  m a tn la r  kor-
73  http:www.corpus.leeds.ac.uk/list.html
74
linguistics
75  http://framenet.icsi.berkeley.edu/


88
A. Rahimov
pusini  yaratish,  qidiruv  tizim i,  k o d lash ,  lingvistik  va  dasturiy  t a ’m in o t  un- 
surlari q a to rid a  lemmatizatsiya  bosqichi  ham  m avjud.  L em m atizatsiya -  bu 
s o ‘zning  d astlab k i,  b o sh lan g 'ich   form asini  (lug‘atdagi  shaklini  -   lem m asi- 
ni) tashkillashtirish texnikasi b o i i b , b u  ja ra y o n  o ‘sha so 'zn in g  b o sh q a so ‘z- 
shakllaridan  kelib  chiqqan  h o ld a  am alga  oshiriladi.  L em m atizatsiya  m o r­
fologik  tahlil  m etodi  tark ib ig a  kiradi,  u  ikki  bosqichni  o ‘z  ichiga  oladi:  1) 
deklarativ bosqich -  b u n d a m uayyan so'zning m um kin b o ig a n  barcha shakl- 
lari  (so ‘z-shakllar)  belgilanadi;  2) p ro tse d u ra   bosqichi -  b u n d a so ‘z asos  va 
q o 'sh im ch alarg a,  y a ’ni  leksem alarga  yoki  m orfem alarga  b o iin a d i.  Lem ­
m atizatsiya  so 'z la rn in g   g ra m m a tik   valentligi,  qaysi  affikslar  bilan  birika 
olish  im koniyatini  ham   belgilab  beradi.  M asalan,  o 'zb ek   tilida  s o ‘zlarning 
lu g ‘atdagi  shakli  -   lem m asi  quyidagicha:
-  o t so ‘z tu rk u m i uchun -  bo sh   kelishik,  birlik shakli;
-  fe’l s o ‘z tu rk u m i uchun -  h a ra k a t nom i shakli;
-  sifat so ‘z tu rk u m i uchun -  oddiy d a ra ja  shakli.
D aftarlarn i, daftarlarg a, d aftarlarn in g , d a ftarlard an , d a f ta r la r d a ! d aftar
Y ugurdi,  yugurgan,  y u guryapti,  yugurm oqchi  !  yugurm oq
K o ‘kim tir, k o 'k ish , k o ‘k ro q   ! k o ‘k
K itobiy lu g ‘atlar va elektron lu g 'a tla rn in g  farqi quyidagilarda k o 'rin ad i:
1.  K itobiy  lu g 'atlarn in g   tuzilishi:  a)  lu g ‘atning  so'zligi  shakllantiriladi; 
b) m isollar karto tek alari tuziladi; c) lu g 'a t m aqolalari yoziladi; d) lu g ‘atning 
qolyozm a varianti  tayyorlanadi; e) q o iy o z m a  ta h rir etiladi;  f) m u allif tuza- 
tishlar qiladi; g) n ash r uchun teriladi; h) lu g ‘at sahifalanadi; i) k o rrek tiro v k a 
qilinadi; j)  lug‘at  nashr  etiladi.
2.  E lektron  lu g 'atlarn in g  tayyorlanishi:  a)  lu g 'atn in g  so ‘zligi  sh ak llan ti­
riladi; b) m isollar korpusi (elektron k arto tek alari) tuziladi; c) lu g 'a t m aq o la­
lari  yoziladi;  d)  lu g ‘at  m a q o la la rin i  m a ’lu m o tla r  b azasiga  k o 'c h irila d i;
e)  bevosita  m a ’lu m o tlar b azasida  lu g 'a t  m atni  ta h rir etiladi,  k o rrek tiro v k a 
qilinadi;  0   lingvistik  t a ’m in o t  d astu riy   t a ’m inot  bilan  u y g 'u n lash tirilad i;
g) elektron  lu g ‘at.
K itobiy lu g 'a tla r tuzilishi sah ifalar ketm a-ketligiga tay an ad ig an  chiziq- 
lilik  tam oyiliga  b o ‘ysunadi.  E lek tro n   lu g ‘a tla r  stru k tu rasi  gipertekst  tex- 
nologiyasiga  asoslangan  b o ia d i,  bu  esa  foydalanuvchiga  lu g 'a t  m aqola- 
larining  ixtiyoriy  qism iga  tezk o r  m u ro ja a t  qilish  im konini  beradi.
E lektron  lu g 'atlarn in g   ishlash  prinsiplarini  um um lashtirib  quyidagicha 
izohlash  m um kin:76  T ilning  h a r  bir  so 'zig a  m utan o sib   keluvchi  kod  ishlab 
chiqiladi  va  q o ila n a d i,  k o d n i  q a y ta   ishlash  ja ra y o n id a   z a ru riy   b o ig a n
76  P oiatov 
A .. 
Muhamedova 
S. 
Kompyuter  lingvistikasi.  -T o sh k en t, 
2007.  -
B .58-61.



Download 53,48 Mb.

Do'stlaringiz bilan baham:
1   ...   75   76   77   78   79   80   81   82   ...   163




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish