Alisher Navoiy nomidagi Toshkent davlat o‘zbek tili va adabiyoti universiteti “O‘ZBEK MILLIY VA TA’LIMIY KORPUSLARINI YARATISHNING NAZARIY HAMDA AMALIY MASALALARI” Xalqaro ilmiy-amaliy konferensiya
Vol. 1 №. 01 (2021) 12
Metin boyu: 2000 sözcük
Sözcük sayısı: Yaklaşık 1.000.000
Brown derleminin ilk hazırlandığındaki içeriği Çizelge-2'de gösterilmiştir. Tümüyle insanlar
tarafından hazırlanan bu derlemde sözcükler niteliklerine göre etiketlenmiştir. Çizelge-3'te kullanılan
etiketler (Part-of-speech tags: POS tag) ve açıklamaları verilmiştir. Açıklama kısmında örnekler İngilizce
verilmiştir. Günümüzde sözcüklerin etiketlenmesinde kural temelli, olasılık temelli ve öğrenmeye dayalı
yöntemler kullanılmaktadır. Böylece DDİ alanında çalışanlar, DDİ'nin sağladığı olanakları kullanarak
kendileri için yararlı bir aracı geliştirmektedir.
Çizelge-2: Brown Derlemindeki Konular Metin türü Metin sayısı Oran % Metin türü Metin sayısı Oran % Haberler 44
8,8
Güncel töre 48
9,6
Siyasi
Kitap
Spor
Dergi
Toplumsal
Anı 75
15
Spor haberleri
Kitap
Ekonomi
Dergi
Kültürel
Çeşitli 30
6
Köşe yazıları 27
5,4
Kamu belgeleri
Köşe yazıları
Kurumsal raporlar
Günlük yorumlar
Sanayi raporları
Başyazı
Üniversite kataloglar
Yorumlar 17
3,4
Sanayi yayınları
Tiyatro
Eğitim 80
16
Kitap
Doğa bilimleri
Müzik
Eczacılık
Dans
Matematik
Dini yayınlar 17
3,4
Sosyal bilimler
Kitaplar
Siyasal bilgiler
Dergiler
Uygarlık
Risaleler
Teknoloji
Beceri ve uğraşlar 36
7,2
Kurgu 29
5,6
Kitaplar
Roman
Dergiler
Hikâye
Amerikan İngilizcesi için sözel derlem de 1990'da hazırlanmıştır. Bu derlem telefon santrali
üzerinde geçen telefon konuşmalarından derlenmiştir. Santral derlemi olarak adlandırılan bu derlemde
altışar dakikalık 2430 konuşmanın kaydı yer almaktadır. Kaba bir hesaplama ile 243 saatlik ses kaydının
yazılı biçimidir. Bu tür derlemler dilin sözel incelemeleri için gerekli olduğu kadar konuşmayı yazıya
aktarma çalışmaları için de gerekli olmaktadır.
Brown derleminde kullanılan etiketleme yöntemine bakıldığında çok ayrıntıya inildiği
görülmektedir. Hazırlanacak her derlemin bu ayrıntıda olması gerekmemektedir. Bazı derlemlerde
yalnızca sözcüklerin temel niteliklerinin etiket olarak verildiği görülmektedir. Bunun DDİ çalışmaları için
yeterli olduğu savunulmaktadır. Brown derlemi Amerikan İngilizcesi için hazırlanmıştır dolayısıyla bu
dilin gerektirdiği bazı özellikleri derleme yansıtmak gerekmiştir. Türkçe için hazırlanacak bir derlemde
bu derlemde yer alan her etiketin kullanılması gerekmemektedir. Diğer bir deyişle her dil için
hazırlanacak derlemde kullanılacak etiketlerin o dil için gerekli olması gerekir.