Методы повышения показателей качества фильтрации dlp-систем на основе предметно-ориентированной морфологической модели естественного языка


Необходимость постоянной автоматической актуализации словаря



Download 1,32 Mb.
Pdf ko'rish
bet26/47
Sana22.02.2022
Hajmi1,32 Mb.
#102152
1   ...   22   23   24   25   26   27   28   29   ...   47
Bog'liq
Диссертация

Необходимость постоянной автоматической актуализации словаря 
морфологических описаний слов
Для достижения поставленной в работе цели – повышения показателей 
полноты и точности обнаружения DLP-системой угроз информационной 
безопасности – необходимо максимизировать точность 
и полноту 
функции F
DLP
. Из (2.1.2) и (2.2.5) видно, что показатели качества 
и полноту 
существенно зависят от показателей качества на этапе морфологического 
анализа. 
Основной задачей на этапе морфологического анализа (
в (2.2.5)) является 
определение морфологических характеристик каждого слова в передаваемом 
сообщении. Для этого используется морфологический словарь (иначе, словарь 
морфологических описаний слов).
Сообщения, циркулирующие в вычислительных сетях, обрабатываемые с 
целью мониторинга состояния информационной безопасности, имеют ряд 
особенностей. Среди них необходимо отметить небольшую длину и 
использование специфических выражений и аббревиатур [4]. Примером могут 
являться сообщения в интернет-мессенджерах или социальных сетях.
Из этого следует, что во-первых, морфологические словари DLP-системы 
должны помимо «общеизвестных» слов содержать специфичные для компании, 
где развертывается DLP-система, термины и сокращения. Во-вторых, 
естественный язык, особенно устная речь, содежит неологизмы. Поэтому 
словарь морфологических описаний слов DLP-системы также должен 
постоянно пополняться неологизмами. В третьих, в связи со спецификой 
анализируемых текстов, в таком словаре должны быть не только корректные 
словоформы, но и словоформы с типичными ошибками, которые допускаются 
людьми при написании текстов 


61 
Задача пополнения словарей морфологических описаний слов является 
довольно трудоемкой. Тем более, эта задача является нетипичной для служб ИБ 
и ИТ, которые, как правило, занимаются обслуживанием DLP-систем. 
Следовательно, необходимо получить способ простого, по возможности 
автоматического пополнения словарей морфологических описаний слов DLP-
системы. 
Работы в этом направлении ведутся уже достаточно давно. Большой вклад в 
рассматриваемом вопросе внес коллектив ЭМИ РАН [26], а также компании АОТ, 
Noolab, RCO и др. [27].
Морфологический словарь может быть формально описан следующим 
образом. 
Пусть W = { w

}, i=1,..., n – множество исходных форм слов БД СЗИ
(база 
данных средства защиты информации). 
Пусть P = p

}, j=1,..., – множество парадигм исходных форм слов. 
Каждому элементу множеств P и W соотвествует морфологическое 
описание

. (2.2.9) 
Морфологическим словарем (или словарем морфологических описаний 
слов) будем называть совокупность множеств W, P и D с указанными между 
ними соответствиями (2.2.9). 
Для обнаружения DLP-системой угроз информационной безопасности
необходимо, чтобы морфологический словарь DLP-системы содержал все 
употребляемые на момент передачи сообщения слова и их словоформы: 
. Кроме того, для каждого слова и словоформы должны быть указаны 
соответствующие им морфологические признаки D
Как уже упоминалось, «классических» словарей для этого недостаточно, 
необходимое постоянное пополнение новыми словами и словоформами. 
Тогда необходимо найти такие функции  и g, что 
f

; (2.2.10) 


62 
g

 (2.2.11)
где 
– функция, соответствия элементов множества элементам множества 
g – функция, соответствия элементов множества элементам множества . 
Таким образом, для для повышения показателей полноты и точности 
обнаружения DLP-системой угроз информационной безопасности необходимо 
найти такие функции 
и , чтобы процесс пополнения словарей 
морфологических описаний слов был максимально упрощен и автоматизирован.

Download 1,32 Mb.

Do'stlaringiz bilan baham:
1   ...   22   23   24   25   26   27   28   29   ...   47




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish