1. ОПРЕДЕЛЕНИЕ ЕДИНИЦЫ АНАЛИЗА
При квантитативном исследовании любой системы необходимо вы-
явить е д и н и ц ы а н а л и з а . В зависимости от задач исследования
та или иная единица (буквы, фонемы, морфемы, словоформы, слова,
словосочетания, предложения, текст) может быть принята за единицу
счета. В лексикостатистических работах такой единицей может быть
слово, словоформа, словоупотребление.
Выделяя в качестве единицы счета тот или иной лингвистический
элемент, мы должны решить вопрос о слове и его границах.
Проблема слова в языкознании не является всесторонне освещенной
и решенной. Попытки дать общее определение слова, применимое ко
всем языкам, приводят к неясным и расплывчатым формулировкам.
Как отмечается в литературе [9], особая трудность определения слова
основана на том, что будучи единством значения, звучания и морфологи-
ческой структуры, слово является центром, в котором скрещиваются
проблемы фонетики, лексикологии и синтаксиса. Трудность дать точную
характеристику слова приводит к возникновению огромного количества
его определений. Так, А.А. Потебня [86] считал все грамматические
формы слова отдельными словами, В.В. Виноградов [25] слово пони-
мает как сложное единство звукового знака и значения. Ф. Соссюр [93]
предлагает рассматривать слово как звуковой отрезок, передающий
значение определенного понятия. Г. Глисон [32] определяет слово как
отрезок текста, заключенного между двумя пробелами. Другие лингви-
сты понимают слово как материально оформленное единство звучания
и значения, отражающее своей семантической стороной элементы реаль-
20
ной действительности и передающее соответствующее значение при помо-
щи выразительных средств данной языковой системы [11].
По мере изучения системности в языке вообще, в лексике в том
числе, слово стали рассматривать как гносеологически значимый элемент
языка, основанный на отражательной семантике и обладающий (по со-
держанию и по форме выражения) онтологическим статусом в системе
конкретного языка [102].
Однако нетрудно заметить, что массовое статистическое обследова-
ние лингвистических единиц может быть осуществлено только на базе
формальной процедуры. Поэтому из всех определений слова наиболее
приемлемым в лингвостатистическом исследовании является определе-
ние Г. Глисона. В качестве единиц счета текста мы будем использовать
словоупотребление, т.е. последовательность букв, ограниченную двумя
пробелами. Полностью совпадающие словоупотребления называются
с л о в о ф о р м а м и . Они выступают в качестве единицы частотного
словаря. В некоторых случаях разные формы слов можно объединить
под основной формой (у существительных - форма именительного
падежа, у глаголов — инфинитив). Такие единицы словаря называются
л е к с е м а м и .
Вторым принципиальным вопросом, возникающим при составлении
словаря, является определение критерия принадлежности слова к той
или иной части речи или лексико-грамматическому классу слов.
Лексико-грамматические классы слов с точки зрения их морфоло-
гической природы и синтаксических функций достаточно хорошо изуче-
ны. Что же касается семантической природы этих классов слов, харак-
тера смысловой структуры каждой части речи, ее места и роли в семанти-
ческой структуре каждого языка, то эти вопросы остаются дискуссион-
ными. Существующие точки зрения на части речи не дают возможности
построить унифицированную схему частей речи. Такая ситуация остро
ощущается при массовом обследовании больших массивов текста в лин-
гвостатистических исследованиях. Отсутствие специально разработанной
классификации частей речи заставляет составителей частотных слова-
рей придерживаться традиционной классификации для каждого конкрет-
ного языка.
В ходе развития лингвостатистики и дальнейшего внедрения автома-
тизации в лингвистику разработана система лексико-грамматической
индексации, позволяющая различать лексико-грамматическую и грамма-
тическую омонимию в частотном словаре. Словоупотребления с разными
индексами рассматриваются как разные лексические единицы. Одинако-
вые по форме словоформы, снабженные разными индексами, могут
быть при необходимости объединены в одно словарное слово при сохра-
нении их индексов.
Do'stlaringiz bilan baham: |