77
При формировании множества семантических связей необходимо учитывать,
что для вычисления функции похожести необходимо, чтобы каждая связь была
представлена числом, и в то-же время, удовлетворяла следующим условиям:
1. Связи различных типов не должны пересекаться, какие бы термины они не
связывали
2. Связи близких терминов должны иметь близкое значение
Для реализации требования 1 достаточно для каждого типа связи разбить
числовую ось от нуля до L_MAX на N отрезков, где L_MAX – максимальное
значение, которое
может быть сопоставлено связи, а N – число типов связи. Таким
образом, в диапазон значений
попадают вся связи
k-ого типа,
.
Для реализации требования 2, смысл которого подробно описан в п. 2.5.5,
предлагается следующий подход:
Каждому термину, который может быть связан связью типа
k, ставится в
соответствие число
T. Организуем соответствие так, чтобы для двух близких
терминов (синонимов) числа
T были близки. Для этого можно, например,
воспользоваться словарем синонимов.
В качестве простейшего
способа назначения
можно предложить
положительные числа с шагом s = 11, так чтобы к каждому слову можно было
приписать 9 синонимов, заняв, таким образом, оставшиеся до следующего
интервала значения.
Рассмотрим пример назначения
для слова «выполнить».
Пусть слову
«выполнить» будет поставлено в соответствие число
. Тогда для
синонимы слова «выполнить» будут иметь следующие значения:
T
i
Термин
100 слушаться
101 соблюсти
102 претворить
78
103 осуществить
104
исполнить
105
выполнить
106 сделать
107 реализовать
108 воплотить
109 провести
110 удовлетворить
Таблица 2.5.4.1 Соответствие параметра
T
i
терминам
В
результате, каждому термину для каждого типа связи
k поставлено в
соответствие несколько чисел
:
Основное значение
. Одно значение числа
каждый термин
получает «по-определению», это значение будет характеризовать его
точное употребление.
Например, для слова «выполнить» из
примера
выше это будет значение
.
Дополнительные значения
. Несколько других значений, в
зависимости от числа вхождений этого термина в списки синонимов
для других слов. Так, например, для слова «исполнить» из примера
выше значение
будет дополнительным, поскольку в данном
случае оно входит в список как синоним.
Таким образом, каждой связи двух терминов
типа
k ставится в
соответствие одно или несколько чисел
, таких что:
, (2.5.4.1)
где
– значение параметра
для
первого термина связи,
– значение
параметра
для второго термина связи. Такой выбор значения для
позволяет
для каждой связи находить близкие по «смыслу» связи, что позволяет
существенно
расширить
возможности
определения
угрозы
утечки
конфиденциальной информации.