Методы повышения показателей качества фильтрации dlp-систем на основе предметно-ориентированной морфологической модели естественного языка

Метод идентификации защищаемых данных в передаваемых сообщениях

Download 1,32 Mb.

Pdf ko'rish

bet	34/47
Sana	22.02.2022
Hajmi	1,32 Mb.
	#102152

1 ... 30 31 32 33 34 35 36 37 ... 47

Bog'liq
Диссертация

2.5 Метод идентификации защищаемых данных в передаваемых сообщениях
на основе анализа связей в объектной модели естественного языка
2.5.1 Суть предлагаемого метода
Как было показано в разделе 2.2, обнаружение защищаемых данных (фактов
I) с использованием графов, которые описывают семантические связи между
анализруемыми объектами, является затруднительным и, во многих случаях,
неприменимым на практике.
Суть анализа графов, описывающих семантические связи между объектами и
их свойствами, состоит в том, что происходит сравнение объектов и их
характеристик. Поскольку реализация на графах достаточно точно описывает
объектную модель, можно сделать вывод, что любая система, основанная на
сравнении семантических объектов будет иметь сравнимую производительность.
Поэтому исследование в этом направление не видится перспективным. При этом

73
необходимо отметить, что такие способы применимы при небольших объемах
защищаемых данных.
Основной идеей предлагаемого метода выявления защищаемых данных
является использование для сравнения связей объектов, вместо самих объектов.
Рассмотрим предложение «Планируется размещение в датацентре в
ближайшее время.» Предположим, что эта информация является коммерческой
тайной или ее частью, и она не должна покидать пределы ИС компании, которая
является ее владельцем. Семантические связи в этом предложении можно видеть
на рис. 2.5.1.
размещение
Планируется
в датацентре
в ближайшее
время
действие
когда?
где?
Рис. 2.5.1 Семантические связи в «защищаемом» предложении
Вместо сравнения объекта («размещение») и его характеристик
(«планируется» и т.д.) предлагается сравнивать связи между объектами:
«действие» между «размещение» и «планируется», «когда?» между
«планируется» и «в ближайшее время» и «где?» между «планируется» и «в
датацентре». Таким образом, в результате анализа защищаемых данных
синтаксический анализатор DLP-системы будет обладать набором связей с
определенными характеристиками.
При передаче сообщения, подлежащего анализу, синтаксический анализатор
DLP-системы будет строить такой-же набор связей для передаваемого сообщения.
Предположим, что передается сообщение «Рассчитываем вскоре разместиться в
DC.» Рассмотрим семантические связи, которые будут получены в результате
анализа этого сообщения (рис. 2.5.2).

74
Рассчитываем
разместитьcя
в DC
вскоре
что?
когда?
где?
Рис. 2.5.2 Семантические связи в передаваемом предложении
После несложного преобразования, которое может быть выполнено
автоматически, можно получить семантические связи на рис. 2.5.3.
размещение
рассчитывается
в DC
вскоре
действие
когда?
где?
Рис. 2.5.3 Семантические связи в передаваемом предложении после одного из
преобразований
Таким образом, в результате анализа передаваемого сообщения может быть
получен следующий набор семантических связей: «действие» между
«размещение» и «рассчитывается», «когда?» между «рассчитывается» и «вскоре»
и «где?» между «рассчитывается» и «в DC».
Сравнивая рис. 2.5.1 и 2.5.3, а также наборы семантических связей,
полученных в результате анализа защищаемого и передаваемого текстов можно
отметить их похожесть. Суть предлагаемого метода состоит в том, чтобы
автоматически строить множества таких связей и сравнивать их. При
обнаружении похожести можно сделать вывод, что передаваемое сообщение
содержит защищаемые факты I.

75
Как будет показано в дальнейшем, выполнение таких операций может быть
организовано достаточно быстро, что решает проблему производительности с
большими объемами данных при использовании классического метода сравнения
объектов.

Download 1,32 Mb.

Do'stlaringiz bilan baham:

1 ... 30 31 32 33 34 35 36 37 ... 47