Оценка применимости метода идентификации защищаемых данных в
передаваемых сообщениях на основе анализа связей в объектной модели
естественного языка
Описанный в работе метод идентификации защищаемых данных в
передаваемых сообщениях на основе анализа связей в объектной модели
естественного языка применяется на последнем этапе анализа, после
семантического (Рисунок 3.2.1).
97
Графематический анализ
Морфологический анализ
Синтаксический анализ
Семантический анализ
Отдельные слова
Морфологический
характеристики слов
Зависимости слов
в предложении
Семантический анализ
Выявление защищаемой
информации
Семантический граф
Рис. 3.2.1. Место метода идентификации защищаемых данных в
передаваемых сообщениях на основе анализа связей в объектной модели
естественного языка в функции морфологического анализа F
2
В терминах формальной модели DLP-системы это этап F
25
(2.2.5) функции
морфологического анализа F
2
.
В главе 2 уже упоминалось, что на уровне синтаксического анализа с
большой вероятностью будет иметься множество различных гипотез описания
передаваемого сообщеия и защищаемых данных.
При анализе естественноязыковых сообщений с целью выявления угроз ИБ
нет ничего плохого в том, что будут обнаружены неестественные или
неочевидные трактовки передаваемого текста: если передаваемое сообщение
можно тракотовать как защищаемый текст, то не важно, что именно имел ввиду
98
отправитель. Система защиты от утечек должна безусловно блокировать передачу
такого сообщения.
Таким образом, неверная (точнее, непредполагаемая), но формально
допустимая интерпретация передаваемого сообщения не может вызвать ошибку
при выявлении утечек информации – «ложное» срабатывание в данном случае не
является ложным.
Описанный в работе метод идентификации защищаемых данных в
передаваемых сообщениях позволяет позволяет работать с множетсвом гипотез,
поступающис после этапа семантического анализа. Полученные гипотезы должны
быть последовательно обработаны, и при определении схожести хотя бы одной из
них с защищаемыми данными передача сообщения должна быть заблокирована.
Однако следует учитывать особенности ЕЯ, носители которого обладают
такими возможностями, до моделирования которых науке еще нужно пройти
очень большой путь. Это, прежде всего, видение мира. За текстами ЕЯ человек
видит картины внешнего мира, которые несут гораздо больше информации, чем
самтекст. Человек способен по отдельным компонентам, присутствующим в
тексте, восстанавливать эти картины, дополнять их, использовать причинно-
следственные зависимости для прослеживания последующих изменений,
динамики. Такая возможность выходит далеко за рамки моделей, основанных на
логическом выводе. Отсюда следует особенность текстов ЕЯ. Как правило, в них
умалчивается то, что известно адресатам, для которых предназначен текст, и что
легко восстанавливается по тексту. Другими словами, большое количество
нужной пользователю информации дается в текстах ЕЯ в скрытом виде. Такая
информация называется имплицитной [62].
Надо отметить, что описанный метод идентификации защищаемых данных в
передаваемых сообщениях не учитывает имплицитную информацию, которая
может содержаться в тексте. Это является одним из перспективных направлений
для дальнейшего развития предлагаемого метода.
Моделирование
понимания
в
рамках
интерактивного
подхода
(учитывающего
действия
участников
общения)
не
ограничивается
99
распознаванием формы, дешифровкой (определением семантики частных
значений лексенмы, так называемых лексико-семантических вариантов),
«сложением», т.е. синтезом возможного смысла сообщения. Действия
слушающего, как теперь очевидно, включают в себя и возможные выводы
(импликатуры) из сказанного, и перебор возможных вариантов понимания с
учетом «угадывания» намерений говорящего («если бы говорящий имел в виду Х,
он бы скорее сказал X, а не Y, как тут») и ряд других действий. Такая более
громоздкая модель может применяться не только для моделирования поведения
участников общения в «нормальных», тривиальных условиях, когда говорящий
стремится к наиболее полному и однозначному пониманию («что имел в виду, то
и сказал», т.е. понимать надо буквально).
Наиболее простой случай отклонения от буквального понимания – это,
видимо, намек. Это высказывание, которое содержит в себе некоторые
инструкции по формированию импликатур, желательных для говорящего.
Отсутствие иллокутивной ценности высказывания («Зачем об этом говорить?»)
должно заставить адресата сделать возможные выводы.
Как мы уже отмечали, импликатуры обязательно сопровождают понимание
сообщения [63]. В случае намека говорящий так выстраивает свои высказывания,
что они не имеют ценности сами по себе и этим стимулируется действие
слушающего. Заметим, что для понимания намека необходим полный набор
информации, сопровождающий каждый речевой акт: понимание языковых
единиц, знание контекста и наличие общих сведений у участников общения,
правила выводов, для намеков с перлокутивными целями – представления об
иерархии, речевом этикете (какие-то просьбы неприлично высказывать в лоб) и
т.п. Как отмечалось в [64], информативность намека является следствием
постулатов Грайса, а именно, принципа релевантности [65], хотя нарушаются
многие другие постулаты. В той или иной степени, это можно отнести и к другим
случаям нетривиальной подачи информации.
Остановимся на наиболее парадоксальном случае использования языковых
средств – на иронии. По Квинтиллиану, ирония – это высказывание, которое надо
100
понимать в противоположном смысле. Однако в русском языке слово ирония,
ироничный используется гораздо шире. Анализ бытовых употреблений слова
ирония показывает, что в русском языковом сознании к иронии относится и
насмешка, не связанная с «обратным» пониманием [66].
Предложенный
метод
практически
не
учитывает
возможность
нетривиального и понимания передаваемого сообщения. Несущественный эффект
в этом направлении может быть достигнут использованием расширенных
множеств синонимов, однако это не даст качественного решения проблемы
небуквального понимания передаваемого сообщения. Это направление также
является перспективным. Однако, в отличие от описанной выше проблемы
передачи имплицитной информации, решение будет лежать вне описанного
метода выявления защищаемых данных, поскольку он изначально предполагает
буквальное понимание анализируемых тектов.
Необходимо отметить, что несмотря на указанные проблемы передачи
имплицитной информации и нетривиального понимания передаваемых
сообщений предложенный метод идентификации защищаемых данных в
передаваемых сообщениях позволяет морфологическим анализаторам DLP-
систем эффективно анализировать поступающие после семантического анализа
гипотезы передаваемых сообщений. Это позволяет выявлять угрозу
конфиденциальности защищаемой информации даже в случае предачи
защищаемых фактов в измененной формулировке.
Do'stlaringiz bilan baham: |