Системно квантитативный подход в лингвистике по учебной дисциплине: Введение в прикладную лингвистику

Download 198,5 Kb.

bet	1/2
Sana	26.01.2023
Hajmi	198,5 Kb.
	#903380
Turi	Контрольная работа

1 2

Bog'liq
СИСТЕМНО КВАНТИТАТИВНЫЙ ПОДХОД В ЛИНГВИСТИКЕ

Частное учреждение образовательная организация высшего образования

"ОМСКАЯ ГУМАНИТАРНАЯ АКАДЕМИЯ"

КОНТРОЛЬНАЯ РАБОТА

НА ТЕМУ: СИСТЕМНО КВАНТИТАТИВНЫЙ ПОДХОД В ЛИНГВИСТИКЕ

по учебной дисциплине: Введение в прикладную лингвистику

Выполнил(а):Хасанов А.А.
Ф. И.О.
Направление подготовки:
Филология
Форма обучения: заочная
Оценка: ____________________________
____________________________
Подпись Фамилия И.О.
“____”________________20___ г.

Омск, 2023

СИСТЕМНО КВАНТИТАТИВНЫЙ ПОДХОД В ЛИНГВИСТИКЕ

Содержание
Введение
1.Системно квантитативный подход в лингвистике
1.1 Значение качественных и количественных данных для изучения языка
1.2 Понятие квантитативной лингвистики и ее отличие от математической лингвистики
2. Проблематика квантитативной лингвистики
2.1. Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения
2.2. Основные области приложения структурно-вероятностной модели языка
2.3. Авторизация текста: пример экспертизы
Заключене
Список литературы

Введение

Квантитативная лингвистика (КЛ) является одним из направлений прикладной лингвистики (ПЛ), «области языкознания изучающей методы решения практических задач, связанных с оптимизацией использования языка». Как видно из определения, прикладная лингвистика находится под влиянием общей теории языка, но этот процесс обоюдный: исследования, проводимые в русле прикладной лингвистики, сами воздействую на развитие общей лингвистики, устанавливают новые критерии проведения лингвистических изысканий. Так, например, применение статистических и/или количественных методик на данный момент является обязательным требованием любого лингвистического проекта.
Как научная дисциплина прикладная лингвистика появилась во второй половине двадцатого века, когда ученые пришли к выводу о том, что решение многих задач не может быть чисто лингвистическим. На Западе термин ПЛ (Applied Linguistics) применяется, прежде всего, по отношению к теории и практике преподавания иностранных языков. В России же данный термин получил распространение в связи с появлением первых компьютеров, первых систем автоматической обработки текстов, машинного перевода, автоматического реферирования, аннотирования и т.д. Именно поэтому в русскоязычной литературе вплоть до настоящего момента применяются термины «компьютерная лингвистика», «инженерная лингвистика», что не вполне корректно, поскольку каждая из вышеперечисленных дисциплин имеет свои собственные цели, задачи, методы в рамках прикладной лингвистики.
В КЛ под законом понимается класс гипотез, выведенных из теоретических допущений, математически сформулированных, взаимосвязанных с другими законами в этой области и в достаточном объёме и успешно проверенных на эмпирических данных, то есть таких, которые нельзя было опровергнуть несмотря на многочисленные попытки.
Köhler пишет о законах КЛ: «Более того, можно показать, что эти свойства лингвистических элементов и отношений между ними подчиняются универсальным законам, которые могут быть сформулированы строго математически также как и законы естественных наук. Нужно иметь в виду в данном контексте, что эти законы стохастической природы; они не соблюдаются в каждом отдельном случае (в этом не было бы необходимости и возможности); они скорее определяют вероятности событий или количественные отношения изучаемых явлений.

1.Системно квантитативный подход в лингвистике

1.1 Значение качественных и количественных данных для изучения языка
дешифровка текст компьютерный авторизация
Язык представляет собой, как принято говорить в современном языкознании, некоторое системно-структурное образование. Отдельные подсистемы языка называют уровнями, которые представлены соответствующими единицами- фонемами, морфемами лексемами, синтагмами (предложениями).
Поскольку единицы каждого уровня языка находятся в иерархи- ческой зависимости от единиц вышестоящего уровня, то понятно, что, например, число производных слов в том или ИНОМ языке №ДСТ зависеть 01 числа аффиксов (префиксов и суффиксов) с деривационным значением, а число морфем - от числа фонем, В то же время число фонем в различных языках не совпадает Эти простые примеры показывают, что язык характеризуется определенными качественными и количественными признаками.
Качественный анализ языка представляет собой не что иное, как его категоризацию, т. е. выделение в языке определенных классов явлении. объединенных определенными качественными признаками. Этими явлениями (категориями) могут быть, как показано выше, единицы языка (фонемы, морфемы, лексемы), грамматические категории, грамматические способы (аффиксация, словосложение, редупликация и т. и ). типы слов (знаменательные, служенные; вульгаризмы, диалектизмы, архаизмы, неологизмы), типы предложений (сложные, простые: сочинительные, подчинительные и т.д.). Однако любая категоризация, т с, качественный анализ языка, неразрывно связана с квантификацией языка, т. с. его количественным анализом. Анализируя категории языка, мы говорим, что в немецком языке, в отличие от русского, имеется не 6, а лишь 4 падежные формы: в русском языке, в отличие от украинского, не 7, а 6 падежей, а в латинском - 8.
Таким образом, нет никакого сомнения в том, что язык наряду с качественными признаками обладает и количественными. Еще в большей степени обладает количественными признаками речь и ее письменное воплощение (манифестация) - текст.
В современной науке различают так называемые "хорошо организованные системы и "плохо организованные (диффузные) системы. К хорошо организованным системам относится, например, движение планет, Благодаря четкой упорядоченности этой системы становится возможным точно вычислить и заранее предсказать время солнечного затмения и т. п. К плохо организованным системам относится интеллектуальная деятельность человека, а вместе с ней - и ' языковое поведение “, т. е. использование языка. 'Одно из самых примечательных явлений современной науки, - полагает В. В Налимов - это стремление перейти от изучения хорошо организованных систем к плохо организованным системам. Иначе говоря, наблюдается необходимость перейти к изучению задач с плохой структурой.
Считается, что наиболее эффективными методами изучения плохо организованных систем являются методы математической статистики.
Таким образом, язык может быть исследован с помощью качественных и количественных методов. В зависимости от целей и задач, которые ставит перед собой лингвист при изучении явлений языка и речи, в осуществляемом им исследовании могут применяться либо качественные, либо количественные методы анализа, либо и те и другие в равной степени, либо преимущественно первые или вторые. Могут возникнуть также задачи (особенно при анализе текста), которые не могут быть выполнены иначе, как с помощью количественных методов.

1.2 Понятие квантитативной лингвистики и ее отличие от математической лингвистики

Область знаний, которая занимается количественным анализом языка и речи, называют в современной науке по-разному. Чаще всего употребляются четыре термина: математическая лингвистика, квантитативная лингвистики, статистика речи, лингвостатистика. Ясно, что при веем сходстве этих наименовании между ними существуют определенные различия.

Как показано в самом математическом аппарате, точнее, в совокупности математических методов можно условно различать количественные и не количественные методы. С помощью неколичественных методов (теория множеств, теория алгоритмов, математическая логика) целесообразно изучать, прежде всего. систему языка (langue). Этот раздел науки получил название "комбинаторная лингвистика. С помощью количественных методов (прежде всего, теория вероятностен и математическая статистика) целесообразно исследовать речь (текст), т. е. parole. Это второе направление и называют квантитативной лингвистикой.
Таким образом, можно было бы полагать, что математическая лингвистика является более широким понятием по сравнению с квантитативной лингвистикой, коль скоро математическая лингвистика включает и комбинаторную, и квантитативную лингвистику, а квантитативная лингвистика является более широким понятием по сравнению со статистикой и речи пли лингвистической статистикой. На практике, однако, понятия математическая лингвистика и квантитативная лингвистика совпадают, которая называется математическая лингвистика, но в котором рассматриваются проблемы квантитативной лингвистики (имеются и другие примеры синонимичного употребления терминов математическая лингвистика и квантитативная лингвистика). Если, таким образом, рассматривать лингвостатистику как одну из составных частей квантитативной лингвистики, становится очевидным, что между лингвостатистикой и квантитативной (математической) лингвистикой существует заметная разница, т. к. число объектов и набор методов, с помощью которых эти объекты изучаются в лингвостатистике, значительно уже, чем в математической лингвистике в целом.
Математическая лингвистика, как полагают специалисты это не лингвистическая, а математическая дисциплина.
Следует также заметить, что в западноевропейской литературе термином «квантитативная лингвистика» обозначается та область науки. которую в отечественном языкознании называют «лингвистическая статистика» или «лингвостатистика», «статистика речи», «статистика текста».
Таким образом, главный водораздел проходит, по-видимому, между математической лингвистикой как одной отраслей математики и квантитативно» лингвистикой как совокупностью методов и приемов, с помощью которых можно осуществить количественный анализ свойств языка и речи. Именно так следует, как нам представляется, понимать термин квантитативная лингвистка.

Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения

Название «квантитативная лингвистика» достаточно условно, хотя и довольно широко используется в современной научной литературе.

Оно характеризует междисциплинарное направление в прикладных исследованиях, в котором в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа.
Иногда квантитативная (или количественная) лингвистика противопоставляется комбинаторной лингвистике.
В последней доминирующую роль занимает «неколичественный» математический аппарат — теория множеств, математическая логика, теория алгоритмов и т.д.
Применение количественных методов при описании функционирования языка мало чем отличается от использования аналогичного инструментария в естественных и гуманитарных науках. Привлечение методов измерения и подсчета языковых реализаций позволяет, однако, существенно модифицировать представление о языковой системе и возможностях ее функционирования.
В этом отношении квантитативная лингвистика оказывается важнейшим фактором, влияющим на лингвистическую теорию. Например, в сфере грамматики теоретическая лингвистика, как правило, ограничивается констатацией существования в русском языке системы падежей. Со структурной точки зрения этого, быть может, и достаточно. Между тем за рамками обсуждения остается весьма существенная информация о том, как часто используются различные падежи, какова динамка использования различных падежей с течением времени. Исследование такого рода позволило бы выявить тенденции развития падежной системы и на основе этого даже сформулировать гипотезы о будущем состоянии грамматической системы русского языка.
Другой пример. С системной точки зрения в русском, английском и латинском языках имеется форма именительного падежа единственного числа личных местоимений. Однако в английском языке при глаголе эта форма местоимения практически всегда необходима, в русском — местоимение в этих случаях обычно представлено, а в латыни — как правило, отсутствует. Отсутствие достоверных количественных данных об этих языковых явлениях делает структурное описание явно недостаточным. Разумеется, имеются и смешанные случаи.
Близкие проблемы возникают и в сфере лексики. Обычные толковые словари не помещают в составе словарной статьи информации о частоте использования той или иной лексемы. Это связано с очень большим объемом работы, который надо проделать, чтобы для каждого слова указать хоть какие-то рамки частотности. Для пользователя словаря такая информация может оказаться очень важной, часто решающей для принятия решения об использовании слова. Ср., например, высокочастотные в публицистике идиомы с головы до ног/с ног до головы (48 вхождений на 21 млн словоупотреблений), целиком и полностью (49 вхождений на 21 млн), на все сто (42 вхождения на 21 млн), ровным счетом, ни больше ни меньше (71 вхождение на 21 млн), ни много, ни мало (133 вхождения на 21 млн) и весьма редкие для газетно-журнального стиля выражения море разливанное (9 вхождений на 21 млн), (и) стар и млад (8 вхождений на 21 млн), разные разности (1 вхождение на 21 млн).
С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, то есть создать структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. Эту сторону использования количественных методов следует считать приложением статистики в языкознании. К моделям такого рода относится, например, «модель жизненного цикла слова», предложенная А. А. Поликарповым. Проведенный им квантитативный анализ показал, что в достаточно значительной временной перспективе имеется явная тенденция к увеличению степени абстрактности значений у многозначного слова — чем позже возникает значение, тем оно более абстрактно. Разработанная количественная модель позволяет делать интересные предположение об относительном «возрасте» различных частей речи, тенденций развития лексической системы языка и т.д.
Из приведенного примера видно, что задача построения структурно-вероятностной модели функционирования языка относится к теоретическим проблемам лингвистики и входит в компетенцию теории языка. В прикладной же области квантитативная лингвистика представлена прежде всего использованием фрагментов этой модели.

Основные области приложения структурно-вероятностной модели языка

Лингвистический мониторинг функционирования языка. Задача лингвистического мониторинга заключается в выявлении общих особенностей функционирования языковой системы в конкретном типе дискурса (научном, политическом дискурсе, текстах средств массовой информации и т.д.). В качестве предмета лингвистического мониторинга могут выступать такие феномены естественного языка, как типы языковых ошибок, сфера иностранных заимствований, новые слова и значения, новые (креативные, творческие — не конвенциональные) метафоры, тематическое распределение лексики (например, лексика временных и пространственных отношений, лексика выражения чувств и эмоций, спортивная лексика и т.д.), особенности использования в текстах тех или иных грамматических форм, синтаксических конструкций. Технология лингвистического мониторинга основывается на двух важнейших предпосылках: во-первых, на регулярности и периодичности анализируемых данных, и, во-вторых — на достаточно большом объеме привлекаемого материала, на репрезентативности выборки данных. В силу этого лингвистический мониторинг невозможен без соответствующего компьютерного обеспечения. Использование компьютерной технологии позволяет давать оценку исследуемому феномену, выявляя его распределение по времени, по источникам, авторам и т.д.
Информация о статистических закономерностях функционирования языковой системы лежит в основе некоторых методик анализа данных, разрабатываемых в политической лингвистике. К ним относится, в частности, методика контент-анализа, используемая для выявления структуры и состояния общественного сознания. При помощи контент-анализа появляется возможность по частоте употребления лексем реконструировать, например, ценностные ориентации общества, выявлять актуальные темы публичной политики, оценивать динамику изменения тематики политических дискуссий и т.д.
Компьютерное моделирования языка и речи. Другая важная область прикладного использования знаний о частоте использования тех или иных языковых структур — компьютерная лингвистика. Многие компьютерные программы, связанные с функционированием языка, используют алгоритмы, основывающиеся на данных о частоте употребления фонем, морфем, лексических единиц и синтаксических конструкций.
Например, программы автоматической коррекции орфографии содержат словари, как правило, только наиболее частотных лексем. Редкие слова пользователь может вводить в свой индивидуальный словарь. Аналогичные словари используются в программах автоматического распознавания письменного текста и речи (типа Fine Reader). Абсолютная частота появления лексем (особенно терминологической лексики) используется в системах автоматического аннотирования и реферирования. Так, согласно статистико-дистрибутивному методу автоматического индексирования информативными для данного текста считаются скопления слов, расположенных достаточно близко друг от друга, частота которых превосходит некоторую пороговую величину, например, среднюю частоту слов в документе (метод ACSI-Matic).
Дешифровка кодированного текста. В процессе дешифровки также могут использоваться данные о частоте употребления графем, морфем и слов, а также их взаимном расположении. К настоящему времени разработаны продуктивные алгоритмы дешифровки, основанные на частоте и дистрибуции элементов кодированного текста. Близки к задачам дешифровки формальные процедуры «открытия» морфемного состава неописанного языка, предложенные З. Харрисом.
Авторизация/атрибуция текста. Проблема авторизации текста относится к числу классических проблем филологического исследования. Часто она рассматривается в рамках «количественной стилистики» — стилеметрии. Авторизация включает как литературную, так и лингвистическую составляющую. В.В. Виноградов в книге «Проблема авторства и теория стилей» сформулировал типологию факторов атрибуции текста. К субъективным факторам он относит:
а) субъективно-коммерческие;
б) субъективно-конъюнктурные;
в) субъективно-эстетические;
г) субъективно-психологические;
д) субъективно-идеологические факторы.
Есть и объективные факторы:
а) документально-рукописные (археологические);
б) исторические (биографии, свидетельства современников);
в) историко-идеологические и сопоставительно-идеологические;
г) историко-стилистические;
д) художественно-стилистические;
е) лингвостилистические.
Однако чисто филологическое направление авторизации не позволяет построить объективные операциональные критерии анализа и атрибуции текста. К сожалению, большинство факторов, на которые обращает внимание В. В. Виноградов, плохо формализуемы. Иными словами, разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.
Перспектива объективизации экспертного знания была обнаружена в использовании количественных, статистических методов анализа текста. Пионером в этой области стал Н. А. Морозов, перу которого принадлежит опубликованная в 1915 г. работа «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд».
Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематически связанную лексику — слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, — а на служебные слова и слова тематически нейтральные. Дело в том, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.
В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основания авторизации могут быть различны, но использование количественных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области — привлечение к авторизации текста теории распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров — средняя длина предложения, количество вложенных синтаксических структур, количество слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты которого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей.
Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур, а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотношение чужой речи (прямой, смешанной, вложенной) с авторской также оказывается стилеобразующим фактором. Эта характеристика стиля отражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE. Ниже разбирается пример авторской экспертизы текста, основанный на методике анализа квазисинонимичных лексем.

Закон Ципфа – Мандельброта и его применение

В конце 40-х годов нашего столетия Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать следующим образом. Если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, затем расположить эти слова в порядке убывания частоты их встречаемости в данном тексте и пронумеровать в порядке от 1 (порядковый номер наиболее часто встречающегося слова) до R, то для любого слова произведение его порядкового номера (ранга) / в таком списке и частоты его встречаемости в тексте будет величиной постоянной, имеющей примерно одинаковое значение для любого слова из этого списка. Аналитически закон Ципфа может быть выражен в виде:

fr = c

где f – частота встречаемости слова в тексте;
r – ранг (порядковый номер) слова в списке;
с – эмпирическая постоянная величина.
Полученная зависимость графически выражается гиперболой. Исследовав таким образом самые разнообразные тексты и языки, в том числе языки тысячелетней давности, Дж. Ципф для каждого из них построил указанные зависимости, при этом все кривые имели одинаковую форму – форму гиперболической лестницы, т.е. при замене одного текста другим общий характер распределения не изменялся.
Закон Ципфа был открыт экспериментально. Позднее Б. Мандельброт предложил его теоретическое обоснование. Он полагал, что можно сравнивать письменный язык с кодированием, причем все знаки должны иметь определенную стоимость. Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к аналогичной закону Ципфа зависимости:

= c

где y – величина (близкая к единице), которая может изменяться в зависимости от свойств текста.

Дж. Ципфом и другими исследователями было установлено, что такому распределению подчиняются не только все естественные языки мира, но и другие явления социального и биологического характера: распределения ученых по числу опубликованных ими статей, городов США по численности населения, населения по размерам дохода в капиталистических странах, биологических родов по численности видов и др.
Одним из подходов к составлению тезауруса может стать использование законов Ципфа. Рассмотрим их более подробно. Число, показывающее сколько раз встречается слово в тексте, называется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты называется рангом частоты. Вероятность обнаружения слова в тексте равно отношению частоты вхождения слова к числу слов в тексте. Ципф определил, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке:

С = ( f х r )/n

где f — частота вхождения слов, r — ранг частоты, n — число слов.

Это значит, что график зависимости ранга от частоты представляет из себя равностороннюю гиперболу. Ципф также установил, что зависимость количества слов с данной частотой от частоты постоянна для всех текстов в пределах одного языка и также является гиперболой.
Исследование вышеуказанных зависимостей для различных текстов показали, что наиболее значимые слова текста лежат в средней части диаграммы, так как слова с максимальной частотой, как правило, являются предлогами, частицами, местоимениями, в английском языке — артиклями (так называемые «стоп-слова»), а редко встречающиеся слова в большинстве случаев не имеют решающего значения. Таким образом, данная особенность может помочь правильно выбрать ключевые слова для проведения поиска информации.
Процедура оптимального выбора ключевых слов, основанная на применении законов Ципфа, заключается в следующем: берут любой текст-источник, близкий к искомой теме, то есть «образец», и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, web-страница, любой другой документ. Анализ текста производится в следующем порядке:
1. стоп-слова удаляются из текста;
2. вычисляется частота вхождения каждого слова и составляется список, в котором слова расположены в порядке убывания их частоты;
3. выбирается диапазон частот, лежащий в середине списка, и из него отбираются слова, наиболее полно соответствующие смыслу текста;
4. составляется запрос к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором OR(ИЛИ)
Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов. Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов, то есть расположению их в порядке убывания частоты вхождения в документ слов запроса, применяемому в большинстве поисковых машин, на первых страницах найденных ресурсов практически все документы должны оказаться релевантными.

Дешифровка текста

Дешифровка — исследование сообщений или текстов для обнаружения информации, закодированной или представленной способом, не известным исследователю. Открываемый в процессе дешифровки способ представления информации, содержащейся в тексте, называется ключом.

По предмету исследования различаются: естественнонаучная дешифровка, занимающаяся изучением явлений природы, рассматриваемых как язык (исследование белковых и нуклеотидных цепей, распознавание образов при отсутствии эталонов сравнения, медицинская диагностика и т. д.); техническая дешифровка, исследующая результаты человеческой деятельности, не являющиеся национальными языками общения (нотные и картографические документы неизвестного содержания, сообщения секретного характера, изучаемые с помощью так называемой военной дешифровки); лингвистическая дешифровка, имеющая целью исследование текстов на языках, смысл которых непонятен или полагается непонятным из теоретических соображений. Ключ в этом случае имеет весьма сложное строение и содержит двуязычный словарь и грамматику.
По методу исследования различаются: прикладная дешифровка, которая использует свойства отдельных языков и даже отдельных сообщений и имеет целью открытие конкретного ключа, и общая (универсальная) дешифровка, которая создаёт способы отыскания ключей для возможно более широкого класса языков и опирается на их общие (универсальные) свойства. Эти свойства определяются сочетаемостью языковых элементов.
Прикладная лингвистическая дешифровка исследует, как правило, древние тексты, для которых неизвестны письменность или язык (или то и другое). При этом, в отличие от общей дешифровки, используются не только сведения о сочетаемости элементов текста, но и «внешние» данные: наличие параллельных переводов («билингвы»), знание собственных имён и исторических событий, современных текстам, и т. д.
Важнейшие открытия в этой области — дешифровка египетской письменности, дешифровка клинописных текстов на древнеперсидском, аккадском и шумерском языков, текстов на хетто-лувийских языках, крито-микенского письма Б и письменности майя. Основную роль в этих достижениях играли не столько уже выработанные наукой методы, сколько выдвижение удачной «решающей идеи». Так, дешифровка египетской письменности началась с сопоставлениягреческих царских имён Птолемея, Береники и Александра с участками египетских текстов, обведёнными рамкой («картушами»); дешифровка древнеперсидской клинописи началась с сопоставления титулатуры двух царей, хорошо известных по античным источникам, один из которых был сыном царя, а другой не был; дешифровка хеттского языка началась с предположения о родстве хеттского uatar, eku/aku с германским water, латинским aqua и др.
Значительный вклад в развитие дешифровки внесли советские учёные: Ю.В. Кнорозов (работы по дешифровке письменности майя, а также древнеиндийских памятников из Мохенджо-Даро и Хараппы), И. М. Дьяконов, М. В. Софронов (работы по хетто-лувийским языкам и языкам Центральной Азии) и другие.
Общая дешифровка имеет характер теоретической дисциплины. При отождествлении класса дешифруемых языков с классом всех национальных языков общая дешифровка по своему предмету сближается с общим языкознанием. Если же подразумевается класс всех встречающихся в действительности языков, то она сближается с теорией познания. Результатом исследований по общей дешифровке большей частью являются реализуемые на ЭВМ методы распознавания лингвистических явлений — дешифровочные алгоритмы, которые представляют собой операционные определения этих явлений.
Ряд работ по прикладной дешифровке содержит и результаты общего характера, например предложенный Кнорозовым метод классификации морфем на служебные и знаменательные. Однако большинство работ по общей дешифровке связано с дескриптивной лингвистикой. З. Харрисом была выдвинута «дистрибутивная гипотеза» о возможности распознания любого лингвистического явления путём изучения сочетаемости единиц «низшего уровня». Им же предложена идея алгоритма, устанавливающего границы между морфемами в тексте без пробела между словами. Весьма важны для общей дешифровки работы К. Э. Шеннона, которым, в частности, получены формулы, определяющие наименьший объём текста, допускающего однозначную дешифровку.
Начиная с конца 50‑х гг. работы в области общей дешифровки велись в основном советскими учёными. В исследованиях Н. Д. Андреева и А. Я. Шайкевича по выделению морфем использовались элементы теории вероятностей и комбинаторики. Б. В. Сухотиным предложены так называемые оптимизационные дешифровочные алгоритмы, которые строятся по следующей схеме: описывается множество возможных решений; вводится «функция качества», позволяющая оценить каждое решение некоторым числом; отыскивается решение, имеющее наивысшее «качество». В 70—80‑х гг. ряд дешифровочных задач возник в связи с программой поиска внеземных цивилизаций (установление разумности сигналов, задача дешифровки изображений и т. д.).

Download 198,5 Kb.

Do'stlaringiz bilan baham:

1 2