Abstract:
Linguists use corpus to reveal the characteristics of a language, to reveal the times when
words are faded in and faded out, and to reveal the characteristics of the authors and made special
dictionaries. Computer scientists working in the field of Natural Language Processing use corpus for
language modeling, morphological and syntactic studies, and translation between languages. As can be
seen from these explanations, the corpus should be prepared in accordance with the intended use. This
paper explains how to prepare balanced and unbalanced corpus and what the criteria should be.
Keywords
: Corpus, Balanced Corpus, Unbalanced Corpus, Current Corpus, Timed Corpus, Brown
Corpus.
Bilişim dünyasındaki gelişmeler doğal olarak dil bilimi çalışmalarını da etkilemiştir. Bir dilin
yapısını, özelliklerini, zaman içindeki değişimini incelemek ve değerlendirmek üzere bilgi sistemlerinin
olanaklarından yararlanılabileceği görülmüştür. Bu alanda yapılan temel çalışmalardan biri ilgili dilde
yazılmış veya söylenmiş olanların belli kurallara uyularak derlenmesi ve bir araya getirilmesi ve bunların
bilişim ortamında araştırmacılara sunulmasıdır. Bir dilde yazılmış ve söylenmiş olanları içeren sözcük
kümesine derlem adı verilmektedir. Derlem için verdiğimiz bu tanım çok geneldir ve derlemi değişik
biçimde tanımlayanlar da vardır. Örneğin:
1.
“Derlem, bir dil hakkında varsayım oluşturmak veya dilin dil bilimsel tanımına başlamak için
kullanılan, yazılı metin veya kayıtlı konuşmalardan oluşabilen dil bilimsel bilgi topluluğudur”
[Crystal, 1991].
2.
“Bir ülkenin karakteristik özelliğini ve dilin çeşitliliğini göstermesi için seçilen, doğal olarak oluşan
metin dağarcığıdır” [Sinclair, 1991].
Derlem Doğal Dil İşleme (DDİ) alanında kullanılabilen ve sözcükler üzerinde işlemlerin hızlı ve
doğru şekilde yapılmasını sağlayabilen, metinlerden oluşan özel bir sözcük dağarcığı olarak da
tanımlanabilmektedir.
Dil bilimciler derlemi dildeki gelişmeleri ve değişimleri incelemek için isterler. Buna karşın
bilişimciler dilin modelini çıkarmak, biçim bilimi ve söz dizimi çalışmalarında yararlanmak için derlem
hazırlarlar. Dolayısıyla güncel dil üzerinde çalışırlar. Diller arası çeviri ile ilgilenenler, iki dili de
kapsayacak ikili derlemler üzerinde çalışırlar.
Doğal dillerin özeliklerinin ortaya çıkarılması amacıyla farklı araştırmacılar tarafından 1940’lardan
beri çalışmalar yapıldığı bilinmektedir. Bilgisayar teknolojisi 1940 ve 50’li yıllarda yeterli olmadığından
bu amaca uygun miktarda veri toplanamamış ve işlenememiştir. Yakın geçmişte bilgisayar
teknolojisindeki gelişmeler geniş ölçekli veri toplanmasına ve bu verilerin işlenmesine olanak
verdiğinden, doğal dillerin özeliklerinin belirlenmesi konusunda önemli katkılar sağlamıştır.
Bir doğal dilin özeliklerinin ortaya çıkarılması, dil eğitimi, sözlüklerini hazırlama, dili çözümleme,
anlam çıkarma, konuşma tanıma [Nadas, 1984: 859-861], optik karakter okuma [Kukich, 1992: 377-439],
diller arası çeviri, veri şifreleme ve çözme, heceleme [Church, 1991: 93-103], engellilere yardımcı olma
gibi konularda temel yapıyı oluşturmaktadır. Dilin özelikleri bilindiğinde harfler arası ilişkiler, sözcükler
arası bağıntılar ve bir metnin dili belirlenebilmektedir.
4
*
İstanbul Teknik Üniversitesi. Bilgisayar ve Bilişim Fakültesi. İstanbul – Türkiye. adali@itu.edu.tr
Do'stlaringiz bilan baham: |