105
данных в передаваемых сообщениях на основе анализа связей в объектной модели
естественного языка.
10. Реализован описанный метод снижения числа ошибок первого и второго
рода в морфологических анализаторах DLP-систем. На основе этой реализации
был проведен эксперимент, показавший эффективность предложенного метода.
Таким образом, использование метода в DLP-системе позволяет повысить
показатели полноты и точности обнаружения утечки конфиденциальной
информации.
11. Реализован
описанный
метод
предотвращения
передачи
конфиденциальных ЕЯ собщений, содержащих отсутствующие в словаре
парадигмы слов. Эксперимент показал, что использование предложенного метода
позволяет повысить точность определения естественноязыковых
конструкций в
DLP-системах. Таким образом, использование метода в DLP-системе позволяет
повысить
показателей
полноты
и
точности
обнаружения
утечки
конфиденциальной информации.
12. Предложенный метод выявления защищаемых данных на основе анализа
связей в объектной модели естественного языка, в отличие от предыдущих двух
методов, проверить экпериментально чрезвычайно затруднительно. Показано, что
представленный метод идентификации защищаемых данных в передаваемых
сообщениях с точки зрения производительности существенно эффективнее чем
методы, основанные на сравнении семантических графов. Временная сложность
предложенного метода линейно зависит от числа вершин семантического графа, в
отличие от квадратичной (в лучшем случае) или факториальной (в худшем
случае) сложности методов, основанных на сравнении семантических графов.
Это позволяет использовать предложенный метод в
DLP-системах с большим
числом защищаемых документов без существенной задержки передаваемых
сообщений на время анализа.
Важной особенностью предложенного метода является то, что его
сложность зависит от числа вершин меньшего из семантических графов (как
106
правило, это семантический граф передаваемого сообщения), а не большего, как в
случае с аглоритмами поиска подграфов в графах.
13. Предложенный метод определения морфологических характеристик
слов эффективнее применять в сочетании с другими методами, основанными на
других принципах. Это позволит сократить число гипотез морфологических
характеристик слов предложений
анализируемого сообщения, что приведет
повышению показателей качества полноты и точности выявления DLP-системой
угрозы утечки конфиденциальной информации. При этом предложенный метод
обладает важным преимуществом – для его работы не требуются предварительно
размеченные тексты или иные специально подготовленные данные, за
исключением словарей морфологических описаний слов.
14. Описанный метод предотвращения передачи конфиденциальных ЕЯ
собщений, содержащих отсутствующие в словаре парадигмы слов, как это
следует из его названии, применим в первую
очередь для анализа сообщений,
некоторые слова которых отсуствуют в словаре морфологических описаний слов.
Также предложенный метод может использоваться при периодическом
пополнении множества защищаемых документов. В результате анализа каждого
добавляемого документа возможно появление новых терминов, отстутствующих в
словаре морфологических описаний слов. Для повышений показателей качества
выявления DLP-ситемой угроз утечки конфиденциальной информации,
содержащейся в защищаемых документах, необходимо пополнить словарь
морфологических описаний слов найденными терминами.
Предлогаемый метод
позволяет существенно ускорить и упростить этот процесс.
15. Описанный в работе метод идентификации защищаемых данных в
передаваемых сообщениях на основе анализа связей в объектной модели
естественного языка применяется на последнем этапе анализа, после
семантического.
На уровне синтаксического анализа с большой вероятностью будет иметься
множество различных гипотез описания передаваемого сообщеия и защищаемых
данных. Описанный в работе метод идентификации защищаемых данных в
107
передаваемых сообщениях позволяет позволяет работать с множетсвом гипотез,
поступающис после этапа семантического анализа. Полученные гипотезы должны
быть последовательно обработаны, и при определении схожести хотя бы одной из
них с защищаемыми данными передача сообщения должна быть заблокирована.
Важно отметить, что при анализе естественноязыковых сообщений с целью
выявления угроз ИБ нет ничего плохого в том,
что будут обнаружены
неестественные или неочевидные трактовки передаваемого текста: если
передаваемое сообщение можно тракотовать как защищаемый текст, то не важно,
что именно имел ввиду отправитель. Система защиты от утечек должна
безусловно блокировать передачу такого сообщения.
Таким образом, неверная (точнее, непредполагаемая), но формально
допустимая интерпретация передаваемого сообщения не вызывает ошибку при
выявлении утечек информации – «ложное» срабатывание в данном случае не
является ложным.
Применение разработанных методов позволяет решить поставленную задачу
повышения показателей качества защиты DLP-систем.