первых корпусов была неавтоматической, синтаксическая разметка корпусов
следующего поколения была сделана автоматически/полуавтоматически на
основе программы синтаксического разбора. Существуют разные методы
синтаксической маркировки: один - древовидный метод ассоциации слов в
предложении, другой - путем присоединения синтаксического тега к
текстовым единицам. Один из аннотированных постулатов, разработанных в
1993 г. Дж. Личем, автором книг «Ланкастер-Осло / Берген» (LOB) и
Британский национальный корпус (BNC), - это идея четкого и понятного
описания
языковых
знаков.
По
его
мнению,
макет корпуса для
общепользования должен соответствовать трем принципам.
1. Разметка (аннотация корпуса) должна быть основана на схеме
анализа, доступной пользователю в виде руководства или инструкции, и
каждый параметр должен включать ее.
2. Открытый макет кейса для пользователя должен быть «в
теоретическом отношении нейтральным»: параметры разметки должны
состоять из понятной всем системы понятий. Если корпус рассчитан на
конкретный
проект,
необходимо
использовать
в
его
обозначении
специальную, авторскую и общепринятую классификацию: и в этом случае
от разработчика требуется опираться на теорию того или иного языка.
3. Схема аннотации корпуса должна быть четко указана кем, для какой
аудитории, потому что существуют разные юридические и технические
ограничения на использование корпуса61.
Таким образом, для разработки системы синтаксических тегов, наряду с
достижениями компьютерных технологий, можно разработать программу
синтаксического разборатора корпуса, основанную на теориях синтаксиса в
узбекской лингвистике.
Во втором разделе главы
«Синтаксическая нотация и ее возможности в
различных случаях»
рассматриваются типы синтаксической аннотации. Наше
наблюдение за теоретическим материалом по принципу синтаксической
аннотации, созданном Дж. Личем, показало, что аудитория корпуса с
синтаксической аннотацией будет широкой; возможность такого корпуса для
связи с информационными системами будет шире. Вместе с тем подход к
построению корпуса, основанный на существующих классификациях, не
возлагающий всю ответственность за согласованность выставления оценок
на автора, позволяет выявить пробелы в языковых описаниях, недостатки
языковых подходов, несоответствия.
И.М.Богуславский подчеркивает, что разметка текста осуществляется
специальным тегом - маркером, и делит теги на отдельные (1), контейнерные
(2). Один тег предоставляет информацию о текстовой единице (слове), а тег
контейнера несет информацию о структуре текста, хранящегося в системе
разметки.
1.
Do'stlaringiz bilan baham: