Alisher Navoiy nomidagi Toshkent
davlat o‘zbek tili va adabiyoti
universiteti
“O‘ZBEK MILLIY VA TA’LIMIY
KORPUSLARINI YARATISHNING NAZARIY
HAMDA AMALIY MASALALARI”
Xalqaro ilmiy-amaliy konferensiya
Vol. 1
№. 01 (2021)
9
Doğal dillerin özelikleri genel olarak yapısal ve olasılık olmak üzere iki yöntemle incelenmektedir
[Shannon, 1951: 50-64]. Yapısal incelemeler sözcük türleri (eylem, ad, ilgeç, önad gibi), kök, gövdeler ve
ekler üzerinde yapılmaktadır. Olasılık temelli incelemeler ise harf ve sözcükler üzerinde iki ayrı şekilde
sürdürülmektedir: Harf incelemelerinde harflerin n-li (n=1,2,3...) ardalanma sıklıkları, bir harfin diğerine
göre durumu gibi harfler arasındaki ilişkiler, ünlü ve ünsüz harfler incelenmektedir. Sözcük
incelemesinde ise bir sözcükteki harf sayısı, sözcükteki harflerin ardalanma durumları, sözcüklerin n-li
ardalanma sıklıkları, tümcedeki sözcük dizilimleri incelenmektedir [Jurafsky, 2000: 193-199].
1.
Derlem Türleri
Derlemleri değişik bakış açılarından sınıflandırabiliriz. Amacına göre şöyle sınıflandırabiliriz:
Dil bilimi çalışmalarına yönelik derlemler. Kısaca Dil Bilimi Derlemi olarak adlandırabiliriz.
DDİ çalışmalarına yönelik derlemler. Kısaca DDİ Derlemi olarak adlandırabiliriz. İkili derlemleri
de bu sınıf içinde düşünebiliriz.
Yapıları açısından değerlendirdiğimizde derlemleri dengeli ve dengesiz derlemler olarak iki kümeye
ayırabiliriz:
Dengesiz derlem çok sayıda metin içerir ve bu metinlerin kaynağına ilişkin bilgi içermesi
beklenmez. Önemli olan derlemin büyük dolayısıyla kapsamlı olmasıdır.
Dengeli derlem ise o dildeki tüm alanlardan eşit boylarda metin alınarak oluşturulmaktadır.
Dengesiz derlem daha fazla metin içerdiği için daha değişik alanlarda kullanılabilir. Amaç harf
analizi yapmak ise küçük boyutta bir derlem yeterlidir ancak sözcük analizi yapılacak ise çok büyük
boyutta derlem gereklidir. Ayrıca bazı sıra dışı sözcükler için dengesiz derlemler daha kullanışlıdır.
Derlem güncel yazılı dilden oluşturulabileceği gibi eski kitap veya belgelerden veya sözlü dili
temsil eden konuşmalardan da oluşabilir [Church, 1993: 1-24]. Bir dilde, sözlü anlatımda kullanılan
sözcük sayısı, yazılı anlatımda kullanılan sözcük sayısından daha az olmakta ayrıca sözlü anlatımdaki
sözcük yapısı, lehçe farklılıkları ya da başka nedenlerle yazılı anlatımlara göre değişiklikler
gösterebilmektedir [Jurafsky, 2000: 193-199].
Yazılı derlemden farklı olarak, sözlü derlem çoğunlukla noktalama işaretleri içermemekle beraber
sözcük olarak işlenip işlenemeyeceği belirsiz olan sözcükler de içerebilmektedir. Sözcükler yarım
kalabilmekte, yazılı derlemde olmayan sözlü (hı, hım gibi) ve sözsüz (sessizlik) duraksama ifadeleri
bulunabilmektedir. Ayrıca bu ifadelerin her birinin kendisine özgü bir anlamı da bulunmaktadır. Bu
anlamların da araştırılması ve bu sözcüklerin o dile özgü ve derlemde yer alabilecek sözcükler olup
olmadıkları belirlenmelidir.
Derlemin oluşturulması sırasında birleşik sözcükler, çoğul sözcükler gibi aynı kökten türeyen
ancak fakat farklı anlamlar içerebilen sözcüklerin de ne şekilde değerlendirileceği belirlenmelidir.
Birleşik sözcüklerin veya çoğul sözcüklerin derlem içinde ayrı sözcükler olarak değerlendirilmesi derlemi
oluşturan sözcük sayısını etkileyecektir. Ayrıca çözümleme algoritmalarının çeşitli değişikliklere
uğramasını veya tüm olasılıkları da dikkate alan algoritmaların geliştirilmesini gerektirecektir.
Do'stlaringiz bilan baham: |