В учебном пособии рассматриваются базовые вопросы компьютерной линг- вистики: от теории лингвистического и математического моделирования



Download 2,74 Mb.
Pdf ko'rish
bet7/14
Sana23.02.2022
Hajmi2,74 Mb.
#162917
TuriРеферат
1   2   3   4   5   6   7   8   9   10   ...   14
Bog'liq
NLP and DA


часть, главный недостаток, важная задача.
Для фильтрации списка терминов-кандидатов, выявленных по образ-
цам, применяется ряд способов, один из самых распространённых — ис-


3.8. ИЗВЛЕЧЕНИЕ ТЕРМИНОЛОГИЧЕСКОЙИНФОРМАЦИИ 117
пользование стоп-слов, к которым относят служебные слова (союзы, ме-
стоимения, частицы и т. д.), слова общей и оценочной лексики: каждый,
другой, плохой и т.п., заведомо не являющиеся терминами в рассматри-
ваемой области. Из множества терминов-кандидатов исключаются сами
стоп-слова и словосочетания, которые полностью состоят из них.
Дополнительно отметим, что лингвистические критерии в ряде слу-
чаев учитывают особенности морфемной структуры терминов. Так, меди-
цинские термины обычно образуются с помощью греческих или латинских
корней и аффиксов: стенокардия (стенос — узкий, кардия — сердце), кар-
диология (кардио (от кардия) — относящийся к сердцу, логия (от логос) —
учение).
Для извлечения терминов целесообразно также учитывать контексты,
в которых они употребляются, это особенно действенно для новых терми-
нов. В частности, в научно-технических текстах регулярно используются
конструкции, в рамках которых термины определяются или вводятся в
употребление. Например, фраза вида
Такая последовательность называется временным рядом
вводит термин временной ряд, а фраза
Под адресом возврата понимается адрес. . .
объясняет термин адрес возврата. Последнюю фразу можно формализо-
вать в виде шаблона следующим образом:
под T <падеж=творит> понимается D,
где под и понимается — фиксированные словоформы, T — термин в тво-
рительном падеже, D — определение (объяснение) термина. С помощью
данного шаблона возможно выявление в тексте не только термина, но и
его определения, что необходимо при создании, например, глоссария обра-
батываемого документа.
Лингвистические критерии хорошо работают вне зависимости от раз-
мера текста и частоты употребления в них терминов, однако обычно они
учитывают только типичную грамматическую структуру терминов и ти-
пичные контексты (все возможные структуры и контексты описать в шаб-
лонах очень сложно). Для более надёжного извлечения терминов допол-
нительно используются статистические критерии, которые опираются на


118 Автоматическая обработка текстов и анализ данных
предположение, что наиболее информативные единицы текста имеют тен-
денцию к многократному употреблению в нем.
Статистические критерии учитывают как частоту встречаемости слов
в обрабатываемом тексте или коллекции текстов, так и вычисляемые на
базе этих частот статистические величины. К статистическим критериям
относится широко применяемая в информационном поиске мера TF-IDF
[36], а также применяемый для извлечения длинных терминов показатель
C-Value [17]. В среднем, статистические критерии работают тем лучше,
чем больше размер обрабатываемого текста или коллекции текстов, поэто-
му они широко применяются при построении терминологических словарей
и тезаурусов по текстам предметной области. Среди статистических мер,
используемых для извлечения терминологических словосочетаний, особую
роль занимают меры ассоциации, оценивающие устойчивость многослов-
ных терминов.
Устойчивость словосочетания, т. е. его повторяемость в речи, а так-
же степень связанности входящих в словосочетание слов можно измерить
статистически: чем чаще слова встречаются рядом друг с другом на рас-
стоянии 3-5 слов (такое расстояние свидетельствует о наличии синтаксиче-
ской и/или смысловой связи между словами), тем с большей вероятностью
они образуют словосочетание. В компьютерной лингвистике синтаксически
правильные словосочетания, устойчивые в статистическом смысле, обычно
называются коллокациями. Большинство многословных терминов явля-
ются коллокациями.
Для выявления коллокаций в ходе обработки текста для каждой пары
слов собирается информация о частоте их встречаемости по отдельности и
вместе, затем вычисляются значения выбранной меры ассоциации, и пары
слов упорядочиваются согласно значениям используемый меры. В общем
случае, чем выше значение меры, тем сильнее связаны слова и устойчи-
во их сочетание. При извлечении терминов берутся пары слов с б´oльшим
значением меры, порог отсечения определяется эмпирически.
Наиболее часто для выявления терминов как коллокаций использу-
ются мера MI и ее модификации, а также t-score, Dice, log-likelihood [31].
Например, мера MI:


3.8. ИЗВЛЕЧЕНИЕ ТЕРМИНОЛОГИЧЕСКОЙИНФОРМАЦИИ 119
𝑀 𝐼 = log
2
𝑓 (𝑎, 𝑏)𝑁
𝑓 (𝑎)𝑓 (𝑏)
учитывает 𝑁 — размер корпуса в словах, 𝑓(𝑎) — частоту встречаемости
слова 𝑎, 𝑓(𝑏) — частоту встречаемости слова 𝑏, 𝑓(𝑎, 𝑏) — частоту совместной
встречаемости слов 𝑎 и 𝑏 и оценивает степень зависимости появления двух
слов в корпусе друг от друга.
Если выявленные двусловные коллокации рассматривать как единое
целое, то с помощью указанных мер можно распознавать в тексте и более
длинные словосочетания (трехсловные, четырехсловные и т. д.), что позво-
ляет извлекать с помощью статистических критериев длинные термины с
произвольной синтаксической структурой.
Применяемые статистические и лингвистические критерии в полной
мере не могут учесть всех особенностей извлекаемых терминов: в текстах
достаточно часто остаются нераспознанными малочастотные термины или
термины с нестандартной синтаксической структурой, и в то же время из-
влекается много нетерминологических единиц.
В современных системах извлечения терминов основным способом по-
вышения полноты и точности распознавания терминов является подбор
нужной комбинации статистических и лингвистических критериев. Как
правило, сначала отбираются слова и словосочетания, удовлетворяющие
определенным лингвистическим критериям, а затем полученный список со-
кращается с помощью статистических критериев. В последнее время для
определения наилучшей комбинации признаков, используемых для извле-
чения терминов из коллекции текстов определённой предметной области,
стали привлекать методы машинного обучения [27]. При обучении машин-
ного классификатора используется широкий набор лингвистических и ста-
тистических признаков термина, включая различные статистические ме-
ры, лингвистические особенности (часть речи и др.), особенности записи
слов (регистр букв), что особенно важно для распознавания однословных
терминов.
При извлечении терминологической информации отдельной пробле-
мой является распознавание всех вхождений терминов в анализируемый
текст с сопутствующим подсчётом частоты употребления, что необходимо


120 Автоматическая обработка текстов и анализ данных
в задачах обработки отдельного текста: для извлечения ключевых слов, по-
строения предметных указателей. Сложности выявления различных вхож-
дений терминов в текст в первую очередь связаны с тем, что термины при
употреблении достаточно часто видоизменяются — усекаются, сокращают-
ся, заменяются синонимами, соединяются и т. д. [21, 22]: коммуникативная
многозначность запроса — коммуникативная многозначность, синтак-
сическое представление — СинП, вложенный файл — вложение. Подобные
текстовые варианты представляют собой различные формы выражения од-
ного и того же понятия и по возможности должны быть распознаны.
Для выявления текстовых вариантов терминов обычно используются
правила их образования, записываемые по отдельности для каждого грам-
матического образца термина [21]. Например, правило вида A N −→ A A N
описывает варьирование английских терминов вида A N (прилагательное
и следующее за ним существительное), и позволяет, в частности, для тер-
мина acidic protein (кислый белок) распознать в тексте его вариант acidic
epidermal protein (кислый белок эпидермиса). В целом правила варьирова-
ния терминов зависят от конкретного естественного языка.
Важной задачей извлечения терминологической информации является
выявление семантических связей терминов, к которым относятся:

синонимическая связь (компьютер — ЭВМ );

род-вид (регистр — регистр общего назначения);

Download 2,74 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   ...   14




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish