Необходимость постоянной автоматической актуализации словаря
морфологических описаний слов
Для достижения поставленной в работе цели – повышения показателей
полноты и точности обнаружения DLP-системой угроз информационной
безопасности – необходимо максимизировать точность
и полноту
функции F
DLP
. Из (2.1.2) и (2.2.5) видно, что показатели качества
и полноту
существенно зависят от показателей качества на этапе морфологического
анализа.
Основной задачей на этапе морфологического анализа (
в (2.2.5)) является
определение морфологических характеристик каждого слова в передаваемом
сообщении. Для этого используется морфологический словарь (иначе, словарь
морфологических описаний слов).
Сообщения, циркулирующие в вычислительных сетях, обрабатываемые с
целью мониторинга состояния информационной безопасности, имеют ряд
особенностей. Среди них необходимо отметить небольшую длину и
использование специфических выражений и аббревиатур [4]. Примером могут
являться сообщения в интернет-мессенджерах или социальных сетях.
Из этого следует, что во-первых, морфологические словари DLP-системы
должны помимо «общеизвестных» слов содержать специфичные для компании,
где развертывается DLP-система, термины и сокращения. Во-вторых,
естественный язык, особенно устная речь, содежит неологизмы. Поэтому
словарь морфологических описаний слов DLP-системы также должен
постоянно пополняться неологизмами. В третьих, в связи со спецификой
анализируемых текстов, в таком словаре должны быть не только корректные
словоформы, но и словоформы с типичными ошибками, которые допускаются
людьми при написании текстов
61
Задача пополнения словарей морфологических описаний слов является
довольно трудоемкой. Тем более, эта задача является нетипичной для служб ИБ
и ИТ, которые, как правило, занимаются обслуживанием DLP-систем.
Следовательно, необходимо получить способ простого, по возможности
автоматического пополнения словарей морфологических описаний слов DLP-
системы.
Работы в этом направлении ведутся уже достаточно давно. Большой вклад в
рассматриваемом вопросе внес коллектив ЭМИ РАН [26], а также компании АОТ,
Noolab, RCO и др. [27].
Морфологический словарь может быть формально описан следующим
образом.
Пусть W = { w
i
}, i=1,..., n – множество исходных форм слов БД СЗИ
(база
данных средства защиты информации).
Пусть P = { p
j
}, j=1,..., k – множество парадигм исходных форм слов.
Каждому элементу множеств P и W соотвествует морфологическое
описание
,
. (2.2.9)
Морфологическим словарем (или словарем морфологических описаний
слов) будем называть совокупность множеств W, P и D с указанными между
ними соответствиями (2.2.9).
Для обнаружения DLP-системой угроз информационной безопасности
необходимо, чтобы морфологический словарь DLP-системы содержал все
употребляемые на момент передачи сообщения слова и их словоформы:
. Кроме того, для каждого слова и словоформы должны быть указаны
соответствующие им морфологические признаки D.
Как уже упоминалось, «классических» словарей для этого недостаточно,
необходимое постоянное пополнение новыми словами и словоформами.
Тогда необходимо найти такие функции f и g, что
f
; (2.2.10)
62
g
(2.2.11)
где
– функция, соответствия элементов множества элементам множества
; g – функция, соответствия элементов множества элементам множества .
Таким образом, для для повышения показателей полноты и точности
обнаружения DLP-системой угроз информационной безопасности необходимо
найти такие функции
и , чтобы процесс пополнения словарей
морфологических описаний слов был максимально упрощен и автоматизирован.
Do'stlaringiz bilan baham: |