Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti



Download 7,21 Mb.
Pdf ko'rish
bet8/398
Sana26.02.2022
Hajmi7,21 Mb.
#467559
1   ...   4   5   6   7   8   9   10   11   ...   398
Bog'liq
Тайёр Миллий корпус тўплам 17.05

Abstract: 
Linguists use corpus to reveal the characteristics of a language, to reveal the times when 
words are faded in and faded out, and to reveal the characteristics of the authors and made special 
dictionaries. Computer scientists working in the field of Natural Language Processing use corpus for 
language modeling, morphological and syntactic studies, and translation between languages. As can be 
seen from these explanations, the corpus should be prepared in accordance with the intended use. This 
paper explains how to prepare balanced and unbalanced corpus and what the criteria should be. 
Keywords
: Corpus, Balanced Corpus, Unbalanced Corpus, Current Corpus, Timed Corpus, Brown 
Corpus. 
Bilişim dünyasındaki gelişmeler doğal olarak dil bilimi çalışmalarını da etkilemiştir. Bir dilin 
yapısını, özelliklerini, zaman içindeki değişimini incelemek ve değerlendirmek üzere bilgi sistemlerinin 
olanaklarından yararlanılabileceği görülmüştür. Bu alanda yapılan temel çalışmalardan biri ilgili dilde 
yazılmış veya söylenmiş olanların belli kurallara uyularak derlenmesi ve bir araya getirilmesi ve bunların 
bilişim ortamında araştırmacılara sunulmasıdır. Bir dilde yazılmış ve söylenmiş olanları içeren sözcük 
kümesine derlem adı verilmektedir. Derlem için verdiğimiz bu tanım çok geneldir ve derlemi değişik 
biçimde tanımlayanlar da vardır. Örneğin: 
1.
“Derlem, bir dil hakkında varsayım oluşturmak veya dilin dil bilimsel tanımına başlamak için 
kullanılan, yazılı metin veya kayıtlı konuşmalardan oluşabilen dil bilimsel bilgi topluluğudur” 
[Crystal, 1991].
2.
“Bir ülkenin karakteristik özelliğini ve dilin çeşitliliğini göstermesi için seçilen, doğal olarak oluşan 
metin dağarcığıdır” [Sinclair, 1991]. 
Derlem Doğal Dil İşleme (DDİ) alanında kullanılabilen ve sözcükler üzerinde işlemlerin hızlı ve 
doğru şekilde yapılmasını sağlayabilen, metinlerden oluşan özel bir sözcük dağarcığı olarak da 
tanımlanabilmektedir.
Dil bilimciler derlemi dildeki gelişmeleri ve değişimleri incelemek için isterler. Buna karşın 
bilişimciler dilin modelini çıkarmak, biçim bilimi ve söz dizimi çalışmalarında yararlanmak için derlem 
hazırlarlar. Dolayısıyla güncel dil üzerinde çalışırlar. Diller arası çeviri ile ilgilenenler, iki dili de 
kapsayacak ikili derlemler üzerinde çalışırlar.
Doğal dillerin özeliklerinin ortaya çıkarılması amacıyla farklı araştırmacılar tarafından 1940’lardan 
beri çalışmalar yapıldığı bilinmektedir. Bilgisayar teknolojisi 1940 ve 50’li yıllarda yeterli olmadığından 
bu amaca uygun miktarda veri toplanamamış ve işlenememiştir. Yakın geçmişte bilgisayar 
teknolojisindeki gelişmeler geniş ölçekli veri toplanmasına ve bu verilerin işlenmesine olanak 
verdiğinden, doğal dillerin özeliklerinin belirlenmesi konusunda önemli katkılar sağlamıştır. 
Bir doğal dilin özeliklerinin ortaya çıkarılması, dil eğitimi, sözlüklerini hazırlama, dili çözümleme, 
anlam çıkarma, konuşma tanıma [Nadas, 1984: 859-861], optik karakter okuma [Kukich, 1992: 377-439], 
diller arası çeviri, veri şifreleme ve çözme, heceleme [Church, 1991: 93-103], engellilere yardımcı olma 
gibi konularda temel yapıyı oluşturmaktadır. Dilin özelikleri bilindiğinde harfler arası ilişkiler, sözcükler 
arası bağıntılar ve bir metnin dili belirlenebilmektedir.
4
*
İstanbul Teknik Üniversitesi. Bilgisayar ve Bilişim Fakültesi. İstanbul – Türkiye. adali@itu.edu.tr 



Download 7,21 Mb.

Do'stlaringiz bilan baham:
1   ...   4   5   6   7   8   9   10   11   ...   398




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish