12-MA’RUZA
MATNLARNI AVTOMATIK TAHRIRLASH
Reja:
Avtomatik tahrir yo‘nalishi.
Matn tahirini amalga oshirish jarayoni
Nogrammatik ifodalar.
Avtomatik tahrir jarayonida avtomatik tizimlardan foydalanish.
Kompyuter lingvistikasida mavjud avtomatik tizimlar.
Boris tizimining ishlash prinsipi.
Ma’lumotlar bazasini yaratish.
Tayanch so‘z va iboralar: matn tahriri, mexanik xatolar, matn muhar-
virlari, avtomatik tahrir, Boris tizimi, nogrammatik ifodalar, tezaurus, deskripto, kompyuter lingvistikasi, kompyuter dasturlari, ishlash prinsipi, savol-javob tizimi.
Avtomatik tahrir kompyuter lingvistikasining asosiy yo‘nalishlaridan biri bo‘lib, u kompyuterdagi matn muharrirlari Microsoft Word, Excel, Wordpad, Lexicon) rivojlanshi bilan bog‘liqdir. Bilamizki, avtomatik tahrir deganda matndagi mexanik xatolarning avtomatik tarzda to‘g‘rilanishi va xato ekanligi haqidagi signallarning userga taklif etilishi kabilar bilan bog‘liq. Aniq misollar bilan tushuntiriladigan bo‘lsa, Microsoft Word dasturi bilan ishlar ekanmiz, unda so‘zlarning-yozilishi bilan bog‘liq xatolar bo‘lsa, ularning ostiga qizil yoki ko‘k rangda chizilishi, katta harf bilan yozilishi kerak bo‘lgan so‘zlarning avtomatik bosh harfga o‘tkazilishi, hujjatga avtomatik numeratsiya qo‘yilishi kabilar avtomatik tahrir erishgan yutuqlar hisoblanadi.
Avtomatik tahrir yo‘nalishi XX asr o‘rtalariga kelib rivojlandi. U matn muharrir dasturlari bilan birgalikda yangicha imkoniyatlar bilan, qo‘shimcha effektlar bilan rivojlanmoqda. Oddiy muharrirlardan farqi shundaki, unda tahrir avtomatik tarzda qisqa vaqt birligi ichida hajman katta bo‘lgan matnni tez tekshirish va xatolarni to‘g‘rilash imkoniyati bo‘ladi. Avtomatik tahrirning pragmatik ahamiyati shundaki, u kelajakda taraqqiy etsa, yetarli ma’lumotlar bazasi yaratilsa va maxsus dasturlar ishlab chiqil-sa, muharrir kasbi uchun ehtiyoj qolmaydi. Bu esa matn bilan ishlashni osonlashtiradi.
Ma’lumki, kompyuter yaratilmasdan ilgari matnlar yozuv mashinkalarida terilgan, bu jarayonda orfografik, punktuatsion, stilistik va Grammatik xatolarga yo‘l qo‘yilsa, matnni boshdan oxirigacha qayta yozib chiqishga to‘g‘ri kelgan, bu csa foydalanuvchiga noqulaylik tug‘dirgan. Kompyuterda esa matnni tahrirlash birmuncha qulay bo‘lib, unda foydalanuvchi dialogli rejimda ishlaydi va o‘z o‘rnida xatolarni to‘g‘rilash imkoniyatiga ega bo‘ladi. Hatto matn bilan ishlash jarayonida biz yuqorida ta’kidlab o‘tgan avtomatik tahrirlash, xatolarni to‘g‘rilash imkoniyati ham mavjud. Shu o‘rinda alohida ta’kidlash zarurki, avtomatik tahrirlash tizimi faqat matn muharrirlari dasturlari bazasiga qo‘shilgan tillarda amal qiladi, masalan, ingliz, rus, nemis, fransuz tillarida. Agar bazada mavjud bo‘lmagan tilda matn kiritilsa, uni avtomatik tahrirlay olmaydi, ayrim internatsional so‘zlar bundan mustasno. Avtomatik tahrirlash jarayonida MS Word lug‘atida mavjud bo‘lmagan so‘z uchrasa, ostiga qizil chiziq bilan ajratib ko‘rsatiladi. Mazkur holat quyidagi sababga ko‘ra bo‘lishi mumkin, bunda o‘sha so‘z imlosi haqida dastur variant taklif eta olmaydi, chunki Ms Word lug‘atida bu so‘z mavjud emas. Ehtimol u so‘z tog‘ri yozilgan bo‘lishi mumkin, bunda insonning ishtiroki zarur bo‘ladi. Agar so‘zning imlosi to‘g‘ri bo‘lsa, matnda yana tez-tez qayta ishlalilsa, uning avtokorreksiyada to‘g‘ri deb sanalishi uchun Ms Word lug‘atiga «kiritib qo‘yish» (kontekst menyudagi «add» yoki «добавить» komandasi yordamida) mumkin. Matn kiritish davomida so‘z yoki so‘zlar birikmasi ko‘k chiziq bilan ajratib qo‘yiladi, bunda so‘zning imlosida xato mavjud. Bu holda foydalanuvchi xatoni o‘zi tog‘rilab qo‘yishi zarur yoki ostiga chizilgan so‘zda sichqonchaning o‘ng tomoni bosilsa, kontekst menyusida so‘zning to‘g‘ri varianti taklif etiladi va uni tanlashi zarur bo‘ladi.
Avtomatik tahrirlash tizimi juda ko‘p amaliy vazifalarni o‘z ichiga oladi. Bu vazifalarning eng asosiylarini umumlashtirib sanab o‘tmoqchimiz:
orfografiyani tekshirish;
grammatika va stilistikani tekshirish;
kontekstli qidiruv;
formatlash;
avtomatik referatlash - matndagi kalit so‘zlar asosida uning umumiy mundarijasini yaratish;
matn ichiga jadval, rasm, turli figuralar, klip-artlar, grafik sxemalar, diagrammalar qo‘shish, giperhavolalar bilan ta’minlash;
matndagi abzaslar, belgilar, so‘zlarning aniq miqdorini aniqlash (statistikasini ko‘rsatish);
tezaurus xizmati - matndagi muayyan so‘zning sinonimik variantlarini aniqlash; *
transliteratsiyalash - bir alifbodan boshqa alifboga o‘tkazish (masalan, kirill alifbosidan lotin alifbosidagi harfga almashtirish).
Avtomatik tahrirda uch tarkibli asosiy vazifa e’tiborga olinishi lozim:
1. Orfografiyani tekshirish - bu vazifa morfologik tahlil yordamida amalga oshiriladi, bunda etalon lug‘atdagi baza asosida tekshiriladi.
2. Sintaksisni tekshirish orfografiyani tekshirishdan ko‘ra murakkabroq. Chunki orfografiyani tekshiruvchi dasturlar yaratilgan, lekin norasmiy matnlarning sintaktik jihatdan avtomatik tahriri masalasi haligacha hal etilgani yo‘q. Rasmiy matnlarning avtomatik tahriri bo‘yicha muhim natijalarga erishilgan.
3. Semantik tahrirlash inson tafakkurini modellashtirishga asoslangan sun’iy intellekt tizimi bilan bog‘liq ravishda o‘rganilmoqda. Bunda mazkur ko‘p aspektli muammoni semantik maydon, freym yondashuv, tezauruslar tizimini boyitish, so‘z va so‘z birikmalari o‘rtasidagi paradjgmatik-munosabatlar (sinonimiya, gipo-giperonimik-tur-jins munosabati)ni modellashtirishga tatbiq etish asosida hal etisn mumkin. Chunki inson bunday assotsiatiy munosabatlarni o‘z intellek’tiga tayanib o‘rnata oladi, biroq bu jarayon kompyuter uchun murakkabdir.
Ms Word dasturida orfografiyani tekshirish imkoniyati cheklanganligi bois hozirgi kunda maxsus Spell Checker dasturlar yaratilmoqda. Bundау dasturlar sirasiga quyidagilarni kiritish mumkin: SpellLink Multilingual Yevro ingliz, ispan, italyan, nemis, fransuz, portugal, ukrain tillaridagi so‘zlarrung to‘g‘ri yozilishini tekshiradi), Orfo Spellink Fnglish. SpellLink French. SpellLink Italian. SpellLink Spanish rus va ukrain tillaridagi so‘zlarning imlosini tekshirishga yordam beradi), Asutype, Spellex, Spell Catcher kabi. Mazkur dasturlar Word dasturi ustiga qo‘shimcha o‘rnatiladi.
Insoniyatning rivojlanish tarixida qo‘lga kiritgan barcha yutuqlari zamirida o‘zining hayotiy faoliyatini yaxshilash, qisqa fursatlarda ko‘p ishlarni amalga oshirish, aql-zakovatining tuganmas imkoniyatlarini namoyon qilish, jamiyat manfaatlari uchun xizmat qilish maqsadi yotadi. “Kompyuter texnologiyalari” deb nom olgan asrimizda fan-texnika yutuqlari, deyarli, barcha sohaning ajralmas qismiga aylanib ulgurdi. Jumladan, tilshunoslik sohasi ham ayni shu jarayondan mustasno emas. Matematika, informatika, lingvistika fanlarining kesishgan nuqtasida shakllangan yangi soha – kompyuter lingvistikasini axborot texnologiyalarisiz, kompyuter dasturlarisiz tasavvur qilib bo‘lmaydi. Endilikda bu soha lingvistika oldiga yangi talablarni qo‘yib, fan doirasida turli yo‘nalishlarning paydo bo‘lishiga zamin tayyorlamoqda.
Dunyo afkor ommasi tez fursatlarda samaradorligi yuqori bo‘lgan holatda ma’lumot olishni xohlaydi. Qaysi manbaga murojaat qilmaylik, unda ifodalangan asosiy fikrni tezlikda anglash, matn mazmunini o‘zlashirish diqqat markazida turadi. Axborot uzatishda faqat xabar olish emas, balki xabar atrofidagi tegishli ma’lumotlarni ham o‘zlashtirish, bilish lozim bo‘ladi. Shu ma’noda, jahon tilshunosligida kompyuter tizimi asosidagi bir qator dasturlar yaratilganini ta’kidlash joiz. Ana shunday tizimlardan biri ingliz tili asosida dasturlashtirilgan BORIS tizimidir.
BORIS savol-javob asosida amalga oshadigan dastur bo‘lib, matn haqida axborot olishga, mazmunini chuqur o‘zlashtirishga xizmat qiladi. BORIS tizimida mashinaning o‘zi dastur asosida savol qo‘yadi, javob beradi va matnni tahlil qiladi. Dastlab on-line tarzida savol-javob usulida ishlaydigan tizim tarixiga qisqacha to‘xtalib o‘tamiz.
START dunyodagi birinchi savol-javob tarzida ishlaydigan on-line boshqaruv tizimi hisoblanadi. Bu tizim 1993- yil dekabr oyidan boshlab doimiy ravishda qo‘llana boshlangan. Boris Katz va uning hamkorlari Info Lab Group tomonidan rivojlantirilgan. Axborot beruvchig g‘ayri oddiy bu tizimning maqsadi foydalanuvchilarga “soniyada to‘g‘ri ma’lumot”ni yetkazish bo‘lgan. Bu tizim, dastlab, milliondan ortiq inglizcha joylar ( shaharlar, poytaxtlar, ko‘llar, koordinatalar, ob-havo, xaritalar, demografik holat, siyosiy va iqtisodiy tizim), filmlar (nomlari, aktyorlari, rejissorlari), odamlar (tug‘ilgan yili, joyi), lug‘atlar haqidagi savollarga javoblarni o‘z ichiga qamrab olgan. Ular shartli ravishda geografiya, madaniyat va san’at, ilm-fan kabi tarmoqlarga bo‘lingan.
Do'stlaringiz bilan baham: |