53
Анализ меток
секретности
Статистический
анализ
Морфологический
анализ
Анализ по
регулярным
выражениям
Анализ по
цифровым
отпечаткам
Другие методы
анализа
Рис. 2.1.5. Общая схема подсистемы анализа DLP-системы
Подаваемые на вход подсистеме анализа данные разделяются на сообщения,
для которых метки секретности заранее
определены и уже известны, и на
сообщения, уровень секретности которых еще не определен.
Решение по первой группе сообщений принимается достаточно просто, на
основе имеющейся метки секретности.
Для принятия решения по второй группе сообщений, для которых уровень
секретности еще не определен, необходимо провести анализ.
Для этого
используются ряд статичтических методов анализа текстов естественного языка,
методы, основанные на морфологическом анализе передаваемых сообщений, а
также методы, основанные на регулярных выражениях, цифровых отпечатках и
т.д.
Перечисленные методы имеют различные показатели
полноты и точности
поиска защищаемых данных в передаваемых сообщениях. Естественно-языковые
сообщения, обрабатываемые в корпоративных ИС, могут содержать защищаемую
информацию как в исходном виде (так, как она хранится в виде документов и
прочих носителей защищаемой информации), так и в измененном –
54
преобразованном в другую формулировку, содержащему сокращения,
специфические для отрасли компании термины и жаргонные выражения и т.д.
Для решения задачи выявления DLP-системой угрозы утечки конфиденциальной
информации в этом случае необходимо использование методов,
позволяющих
выявить попытку передачи защищаемой информации как в исходном, так и в
изменненном виде. Таким образом, для выявления угрозы утечки
конфиденциальной информации в современных ИС
DLP-системы наиболее
целесообразно использовать аналитические методы, которые основаны на
морфологическом анализе передаваемых сообщений.
Кроме того, при передаче защищаемой информации в измененной
формулировке статистический метод, а также
методы анализа по цифровым
отпечаткам и регулярным выражениям не применимы, поскольку не учитывают
синтаксические и семантические особенности ЕЯ.
В разделе 1.1 (Основные модели обработки естественно-языковой
информации в DLP-системах) показано, что последний
этап морфологического
анализа – этап семантического анализа – недостаточно обеспечен теорией и
практикой. В связи с этим для повышения показателей полноты и точности
обнаружения угрозы утечки конфиденциальной информации DLP-системой
необходимо развить и доработать используемые методы морфологического
анализа.
Do'stlaringiz bilan baham: