часть, главный недостаток, важная задача.
Для фильтрации списка терминов-кандидатов, выявленных по образ-
цам, применяется ряд способов, один из самых распространённых — ис-
3.8. ИЗВЛЕЧЕНИЕ ТЕРМИНОЛОГИЧЕСКОЙИНФОРМАЦИИ 117
пользование стоп-слов, к которым относят служебные слова (союзы, ме-
стоимения, частицы и т. д.), слова общей и оценочной лексики: каждый,
другой, плохой и т.п., заведомо не являющиеся терминами в рассматри-
ваемой области. Из множества терминов-кандидатов исключаются сами
стоп-слова и словосочетания, которые полностью состоят из них.
Дополнительно отметим, что лингвистические критерии в ряде слу-
чаев учитывают особенности морфемной структуры терминов. Так, меди-
цинские термины обычно образуются с помощью греческих или латинских
корней и аффиксов: стенокардия (стенос — узкий, кардия — сердце), кар-
диология (кардио (от кардия) — относящийся к сердцу, логия (от логос) —
учение).
Для извлечения терминов целесообразно также учитывать контексты,
в которых они употребляются, это особенно действенно для новых терми-
нов. В частности, в научно-технических текстах регулярно используются
конструкции, в рамках которых термины определяются или вводятся в
употребление. Например, фраза вида
Такая последовательность называется временным рядом
вводит термин временной ряд, а фраза
Под адресом возврата понимается адрес. . .
объясняет термин адрес возврата. Последнюю фразу можно формализо-
вать в виде шаблона следующим образом:
под T <падеж=творит> понимается D,
где под и понимается — фиксированные словоформы, T — термин в тво-
рительном падеже, D — определение (объяснение) термина. С помощью
данного шаблона возможно выявление в тексте не только термина, но и
его определения, что необходимо при создании, например, глоссария обра-
батываемого документа.
Лингвистические критерии хорошо работают вне зависимости от раз-
мера текста и частоты употребления в них терминов, однако обычно они
учитывают только типичную грамматическую структуру терминов и ти-
пичные контексты (все возможные структуры и контексты описать в шаб-
лонах очень сложно). Для более надёжного извлечения терминов допол-
нительно используются статистические критерии, которые опираются на
118 Автоматическая обработка текстов и анализ данных
предположение, что наиболее информативные единицы текста имеют тен-
денцию к многократному употреблению в нем.
Статистические критерии учитывают как частоту встречаемости слов
в обрабатываемом тексте или коллекции текстов, так и вычисляемые на
базе этих частот статистические величины. К статистическим критериям
относится широко применяемая в информационном поиске мера TF-IDF
[36], а также применяемый для извлечения длинных терминов показатель
C-Value [17]. В среднем, статистические критерии работают тем лучше,
чем больше размер обрабатываемого текста или коллекции текстов, поэто-
му они широко применяются при построении терминологических словарей
и тезаурусов по текстам предметной области. Среди статистических мер,
используемых для извлечения терминологических словосочетаний, особую
роль занимают меры ассоциации, оценивающие устойчивость многослов-
ных терминов.
Устойчивость словосочетания, т. е. его повторяемость в речи, а так-
же степень связанности входящих в словосочетание слов можно измерить
статистически: чем чаще слова встречаются рядом друг с другом на рас-
стоянии 3-5 слов (такое расстояние свидетельствует о наличии синтаксиче-
ской и/или смысловой связи между словами), тем с большей вероятностью
они образуют словосочетание. В компьютерной лингвистике синтаксически
правильные словосочетания, устойчивые в статистическом смысле, обычно
называются коллокациями. Большинство многословных терминов явля-
ются коллокациями.
Для выявления коллокаций в ходе обработки текста для каждой пары
слов собирается информация о частоте их встречаемости по отдельности и
вместе, затем вычисляются значения выбранной меры ассоциации, и пары
слов упорядочиваются согласно значениям используемый меры. В общем
случае, чем выше значение меры, тем сильнее связаны слова и устойчи-
во их сочетание. При извлечении терминов берутся пары слов с б´oльшим
значением меры, порог отсечения определяется эмпирически.
Наиболее часто для выявления терминов как коллокаций использу-
ются мера MI и ее модификации, а также t-score, Dice, log-likelihood [31].
Например, мера MI:
3.8. ИЗВЛЕЧЕНИЕ ТЕРМИНОЛОГИЧЕСКОЙИНФОРМАЦИИ 119
𝑀 𝐼 = log
2
𝑓 (𝑎, 𝑏)𝑁
𝑓 (𝑎)𝑓 (𝑏)
учитывает 𝑁 — размер корпуса в словах, 𝑓(𝑎) — частоту встречаемости
слова 𝑎, 𝑓(𝑏) — частоту встречаемости слова 𝑏, 𝑓(𝑎, 𝑏) — частоту совместной
встречаемости слов 𝑎 и 𝑏 и оценивает степень зависимости появления двух
слов в корпусе друг от друга.
Если выявленные двусловные коллокации рассматривать как единое
целое, то с помощью указанных мер можно распознавать в тексте и более
длинные словосочетания (трехсловные, четырехсловные и т. д.), что позво-
ляет извлекать с помощью статистических критериев длинные термины с
произвольной синтаксической структурой.
Применяемые статистические и лингвистические критерии в полной
мере не могут учесть всех особенностей извлекаемых терминов: в текстах
достаточно часто остаются нераспознанными малочастотные термины или
термины с нестандартной синтаксической структурой, и в то же время из-
влекается много нетерминологических единиц.
В современных системах извлечения терминов основным способом по-
вышения полноты и точности распознавания терминов является подбор
нужной комбинации статистических и лингвистических критериев. Как
правило, сначала отбираются слова и словосочетания, удовлетворяющие
определенным лингвистическим критериям, а затем полученный список со-
кращается с помощью статистических критериев. В последнее время для
определения наилучшей комбинации признаков, используемых для извле-
чения терминов из коллекции текстов определённой предметной области,
стали привлекать методы машинного обучения [27]. При обучении машин-
ного классификатора используется широкий набор лингвистических и ста-
тистических признаков термина, включая различные статистические ме-
ры, лингвистические особенности (часть речи и др.), особенности записи
слов (регистр букв), что особенно важно для распознавания однословных
терминов.
При извлечении терминологической информации отдельной пробле-
мой является распознавание всех вхождений терминов в анализируемый
текст с сопутствующим подсчётом частоты употребления, что необходимо
120 Автоматическая обработка текстов и анализ данных
в задачах обработки отдельного текста: для извлечения ключевых слов, по-
строения предметных указателей. Сложности выявления различных вхож-
дений терминов в текст в первую очередь связаны с тем, что термины при
употреблении достаточно часто видоизменяются — усекаются, сокращают-
ся, заменяются синонимами, соединяются и т. д. [21, 22]: коммуникативная
многозначность запроса — коммуникативная многозначность, синтак-
сическое представление — СинП, вложенный файл — вложение. Подобные
текстовые варианты представляют собой различные формы выражения од-
ного и того же понятия и по возможности должны быть распознаны.
Для выявления текстовых вариантов терминов обычно используются
правила их образования, записываемые по отдельности для каждого грам-
матического образца термина [21]. Например, правило вида A N −→ A A N
описывает варьирование английских терминов вида A N (прилагательное
и следующее за ним существительное), и позволяет, в частности, для тер-
мина acidic protein (кислый белок) распознать в тексте его вариант acidic
epidermal protein (кислый белок эпидермиса). В целом правила варьирова-
ния терминов зависят от конкретного естественного языка.
Важной задачей извлечения терминологической информации является
выявление семантических связей терминов, к которым относятся:
∙
синонимическая связь (компьютер — ЭВМ );
∙
род-вид (регистр — регистр общего назначения);
∙
Do'stlaringiz bilan baham: |