2.5.4 Формирование множеств семантических связей
В связи с особеностями анализа естественноязыковых сообщений,
описанных в предыдущем пункте, после этапа семантического анализа
рассматриваются все полученные гипотезы. В дальнейшем в работе
рассматривается одна отдельная гипотеза, и считается очевидным, что все
описанные шаги должны быть применены к каждой из полученных гипотез.
77
При формировании множества семантических связей необходимо учитывать,
что для вычисления функции похожести необходимо, чтобы каждая связь была
представлена числом, и в то-же время, удовлетворяла следующим условиям:
1. Связи различных типов не должны пересекаться, какие бы термины они не
связывали
2. Связи близких терминов должны иметь близкое значение
Для реализации требования 1 достаточно для каждого типа связи разбить
числовую ось от нуля до L_MAX на N отрезков, где L_MAX – максимальное
значение, которое может быть сопоставлено связи, а N – число типов связи. Таким
образом, в диапазон значений
попадают вся связи k-ого типа,
.
Для реализации требования 2, смысл которого подробно описан в п. 2.5.5,
предлагается следующий подход:
Каждому термину, который может быть связан связью типа k, ставится в
соответствие число T. Организуем соответствие так, чтобы для двух близких
терминов (синонимов) числа T были близки. Для этого можно, например,
воспользоваться словарем синонимов.
В качестве простейшего способа назначения
можно предложить
положительные числа с шагом s = 11, так чтобы к каждому слову можно было
приписать 9 синонимов, заняв, таким образом, оставшиеся до следующего
интервала значения.
Рассмотрим пример назначения
для слова «выполнить». Пусть слову
«выполнить» будет поставлено в соответствие число
. Тогда для
синонимы слова «выполнить» будут иметь следующие значения:
T
i
Термин
100 слушаться
101 соблюсти
102 претворить
78
103 осуществить
104 исполнить
105
выполнить
106 сделать
107 реализовать
108 воплотить
109 провести
110 удовлетворить
Таблица 2.5.4.1 Соответствие параметра T
i
терминам
В результате, каждому термину для каждого типа связи k поставлено в
соответствие несколько чисел
:
Основное значение
. Одно значение числа
каждый термин
получает «по-определению», это значение будет характеризовать его
точное употребление. Например, для слова «выполнить» из примера
выше это будет значение
.
Дополнительные значения
. Несколько других значений, в
зависимости от числа вхождений этого термина в списки синонимов
для других слов. Так, например, для слова «исполнить» из примера
выше значение
будет дополнительным, поскольку в данном
случае оно входит в список как синоним.
Таким образом, каждой связи двух терминов
типа k ставится в
соответствие одно или несколько чисел
, таких что:
, (2.5.4.1)
где
– значение параметра
для первого термина связи,
– значение
параметра
для второго термина связи. Такой выбор значения для
позволяет
для каждой связи находить близкие по «смыслу» связи, что позволяет
существенно
расширить
возможности
определения
угрозы
утечки
конфиденциальной информации.
79
Do'stlaringiz bilan baham: |