объем принимается за минимальную выборку. Сообщения в текстах,
относящихся к другим подъязыкам, занимают объем значительно мень-
ший. Так, для подъязыка публицистики минимальный объем составляет
100 словоупотреблений. Это объясняется спецификой представления
информации в газетах. Результаты обследования минимальных выбо-
рок разной длины при одинаковых общих объемах выборочной сово-
купности (200 тыс. словоупотреблений) в научных и газетных текстах
на английском языке дали в первом случае 10 тыс. разных словоформ,
а во втором — 25 тыс. [3].
Для обеспечения качественного исследования языковой структуры
необходимо разбиение полной выборки на такое число подвыборок,
при котором можно грамотно применить статистический аппарат теории
вероятностей. С этой целью минимальные выборки объединяются в под-
выборки (группы) по 5 тыс. словоупотреблений, затем в большие вы-
борки - 100 тыс. и, наконец, в конечную выборку — 200 тыс. слово-
употреблений [табл. 1].
Предложенная методика сбора материала позволяет сохранить всю
информацию о лингвистических объектах и составить частотный список,
который рассматривается в качестве модели вероятностного распределе-
ния единиц.
Таблица 1
Схема объединения выборок
Подвыборка (группа)
Средняя выборка
Большая выборка
Конечная выборка
1-10
50
000
Минимальные выборки
1 1 - 2 0 2 1 - 3 0
50
000 50 000
31
- 40
50
000
100 000 100 000
200 000
Теперь перейдем к рассмотрению вопросов, связанных с необходи-
мым объемом выборки для проведения качественного лингвостатисти-
ческого исследования языковой структуры.
4. ВОПРОС О РАЦИОНАЛЬНОМ ОБЪЕМЕ ВЫБОРКИ
Определение рационального объема выборки является принципиаль-
ным вопросом в лингвостатистике и поэтому он дебатируется по суще-
ству на всем протяжении развития лингвостатистических исследований.
Такой интерес проистекает из прагматических требований, предъявля-
24
емых к словарю моделируемого подъязыка. Точность и качественность
статистического анализа обеспечивается таким объемом выборки, при
котором эмпирические параметры являются отражением характеристик
генеральной совокупности, из которых взята данная выборка. Другими
словами, выводы, полученные на основании исследования определенной
выборки, позволяют судить о статистической структуре данного стиля
и подъязыка.
Несмотря на то, что оценка достоверности статистических данных
и определение объема выборки, необходимого для получения надежного
с точки зрения математической статистики словаря, рассматриваются
в каждой лингвостатистической работе, и авторами предлагаются различ-
ные критерии достаточности лингвистической выборки, полного и стро-
гого метода, основанного на четких предпосылках на сегодняшний
день, не существует. Поэтому вопрос о рациональном объеме выборки
рассмотрим на примере составления статистически достоверного слова-
ря моделируемого подъязыка.
Исследование этого вопроса сводится к решению частных задач:
1) определение объема практически полной выборки; 2) определение
объема выборки относительно характеристик качества словаря; 3) вы-
числение объема выборки согласно статистическим критериям.
Do'stlaringiz bilan baham: