(British N ational Corpus. BMC), R o ssiy a d a Rus tilining mashina fondi
(М ашинный фонд русского языка) h a m d a Rus tilining
M illi y
Korpusi
(Национальны й корпус русского язы ка) lo y ih a la ri ish la b c h iq ild i.73
M asalan, R us tilining milliy korpusi hajm i hozirgi k u n d a 149 mln s o ‘zdan
iborat. K eyingi yillarda In tern et tizim ining rivojlanishi virtual matnlar kor
pusi yuzaga kelishiga olib keldi. Y a ’ni In ternetdagi qidiriv saytlari, elek-
tro n k u tu b x o n alar, virtual ensiklopediyalar korpus vazifasini b ajarm o q d a.
K o rp u sn in g ja n ri va tem atik rang-barangligi In tern etd an foydalanuvchi-
ning qiziqishlariga b o g ‘liq. M asalan, ilm-fan doirasida Wikipedia k atta hajm-
dagi m a tn la r korpusi sifatida fo y d alan ilm o q d a.74
K o rp u s lingvistikasida parallel m atn lar korpusi ham m uhim aham iyat
k a s b e ta d i. Parallel matnlar korpusi esa, o ‘z n a v b a tid a , b a d iiy a sa r,
q o ‘llanm a, om m aviy ax b o ro t vositalari, turli xil hujjatlarning ikki yoki undan
k o ‘p tillardagi elektron holdagi k o ‘rinishlaridir. M asalan, Y evropa Ittifoqi
o 'zin in g b arch a qon u n va hujjatlarini ingliz, fransuz, nem is, ispan va ital-
yan tillarida n ash r qiladi h am d a ular In tern et tizim iga b arch ag a ochiq arxiv
sifatida q o ‘yiladi. Bunday k o rp u slarn in g afzalligi shundaki, ular y o rd am i
da n a fa q a t biron bir so ‘z yoki jum laning, balki b u tu n boshli m atn larn in g
turli tillardagi varian tlarin i bilish im koniyati m avjud. X uddi m an a shu im-
k o n iy at tufayli m axsus konkordanser dasturlar ishlab chiqish orqali turli xil
ixtisoslik lug‘atlari tuzish im koniyati tu g ‘iladi. U sh b u im k o n iy atlar k o m p
yuter leksikografiyasi uchun ulkan ah am iy at kasb etadi.
K o m p y u ter leksikografiyasiga sem antik m aydon, sem antik tarm o q , se
m an tik to ‘r h am d a freym sem antikasining faol tatb iq etilishi natijasida ul
k an k o m p y u te r le k sik o g ra fiy a resu rsla ri y a ra tild i. S h u n d a y y irik lek-
sikografik resurslardan biri FRAM ENET b o ‘lib, u Internet tizim ida on-line
rejim ida ishlaydi.75 M azk u r tizim C h.F illm orning «Tools for Lexicon Buil
ding» loyihasi asosida K aliforniya shtati, Berkli shahridagi X a lq aro infor-
m atik a in stitu tid a ishlab chiqilgan. F ram en et resursining m a ’lu m o tlar ba-
zasida 10 000 ta leksik birlik m avjud, u n d an 6000 dan o rtig 'i t o i i q anno-
tatsiyaga ega. B undan tashqari, m a ’lum otlar bazasida 800 ta sem antik freym
k o ‘rsatilgan, 135 000 an n o tatsiy ali gap lar keltirilgan.
E lek tro n Iug‘atlar tuzish ja ra y o n id a m a ’lu m o tlar om bori, m a tn la r kor-
73 http:www.corpus.leeds.ac.uk/list.html
74
linguistics
75 http://framenet.icsi.berkeley.edu/
88
A. Rahimov
pusini yaratish, qidiruv tizim i, k o d lash , lingvistik va dasturiy t a ’m in o t un-
surlari q a to rid a lemmatizatsiya bosqichi ham m avjud. L em m atizatsiya - bu
s o ‘zning d astlab k i, b o sh lan g 'ich form asini (lug‘atdagi shaklini - lem m asi-
ni) tashkillashtirish texnikasi b o i i b , b u ja ra y o n o ‘sha so 'zn in g b o sh q a so ‘z-
shakllaridan kelib chiqqan h o ld a am alga oshiriladi. L em m atizatsiya m o r
fologik tahlil m etodi tark ib ig a kiradi, u ikki bosqichni o ‘z ichiga oladi: 1)
deklarativ bosqich - b u n d a m uayyan so'zning m um kin b o ig a n barcha shakl-
lari (so ‘z-shakllar) belgilanadi; 2) p ro tse d u ra bosqichi - b u n d a so ‘z asos va
q o 'sh im ch alarg a, y a ’ni leksem alarga yoki m orfem alarga b o iin a d i. Lem
m atizatsiya so 'z la rn in g g ra m m a tik valentligi, qaysi affikslar bilan birika
olish im koniyatini ham belgilab beradi. M asalan, o 'zb ek tilida s o ‘zlarning
lu g ‘atdagi shakli - lem m asi quyidagicha:
- o t so ‘z tu rk u m i uchun - bo sh kelishik, birlik shakli;
- fe’l s o ‘z tu rk u m i uchun - h a ra k a t nom i shakli;
- sifat so ‘z tu rk u m i uchun - oddiy d a ra ja shakli.
D aftarlarn i, daftarlarg a, d aftarlarn in g , d a ftarlard an , d a f ta r la r d a ! d aftar
Y ugurdi, yugurgan, y u guryapti, yugurm oqchi ! yugurm oq
K o ‘kim tir, k o 'k ish , k o ‘k ro q ! k o ‘k
K itobiy lu g ‘atlar va elektron lu g 'a tla rn in g farqi quyidagilarda k o 'rin ad i:
1. K itobiy lu g 'atlarn in g tuzilishi: a) lu g ‘atning so'zligi shakllantiriladi;
b) m isollar karto tek alari tuziladi; c) lu g 'a t m aqolalari yoziladi; d) lu g ‘atning
qolyozm a varianti tayyorlanadi; e) q o iy o z m a ta h rir etiladi; f) m u allif tuza-
tishlar qiladi; g) n ash r uchun teriladi; h) lu g ‘at sahifalanadi; i) k o rrek tiro v k a
qilinadi; j) lug‘at nashr etiladi.
2. E lektron lu g 'atlarn in g tayyorlanishi: a) lu g 'atn in g so ‘zligi sh ak llan ti
riladi; b) m isollar korpusi (elektron k arto tek alari) tuziladi; c) lu g 'a t m aq o la
lari yoziladi; d) lu g ‘at m a q o la la rin i m a ’lu m o tla r b azasiga k o 'c h irila d i;
e) bevosita m a ’lu m o tlar b azasida lu g 'a t m atni ta h rir etiladi, k o rrek tiro v k a
qilinadi; 0 lingvistik t a ’m in o t d astu riy t a ’m inot bilan u y g 'u n lash tirilad i;
g) elektron lu g ‘at.
K itobiy lu g 'a tla r tuzilishi sah ifalar ketm a-ketligiga tay an ad ig an chiziq-
lilik tam oyiliga b o ‘ysunadi. E lek tro n lu g ‘a tla r stru k tu rasi gipertekst tex-
nologiyasiga asoslangan b o ia d i, bu esa foydalanuvchiga lu g 'a t m aqola-
larining ixtiyoriy qism iga tezk o r m u ro ja a t qilish im konini beradi.
E lektron lu g 'atlarn in g ishlash prinsiplarini um um lashtirib quyidagicha
izohlash m um kin:76 T ilning h a r bir so 'zig a m utan o sib keluvchi kod ishlab
chiqiladi va q o ila n a d i, k o d n i q a y ta ishlash ja ra y o n id a z a ru riy b o ig a n
76 P oiatov
A ..
Muhamedova
S.
Kompyuter lingvistikasi. -T o sh k en t,
2007. -
B .58-61.
Do'stlaringiz bilan baham: |