Методы повышения показателей качества фильтрации dlp-систем на основе предметно-ориентированной морфологической модели естественного языка



Download 1,32 Mb.
Pdf ko'rish
bet40/47
Sana22.02.2022
Hajmi1,32 Mb.
#102152
1   ...   36   37   38   39   40   41   42   43   ...   47
Bog'liq
Диссертация

Точность 


88 
Рис. 3.1.4. Результаты измерения полноты 
Эксперимент показал, что при использовании сгенерированного описанным 
выше методом словаря точность поиска возрола на 20%, а полнота на 29%. 
Следовательно, использование описанного метода может увеличить вероятность 
корректного распознавания естественноязыковых конструкций морфологическим 
анализатором DLP-системы, что решает поставленную задачу повышения 
показателей качества фильтрации DLP-систем. 
Оценка показателей качества метода идентификации защищаемых 
данных в передаваемых сообщениях на основе анализа связей в 
объектной модели естественного языка 
Предложенный метод выявления защищаемых данных на основе анализа 
связей в объектной модели естественного языка, в отличие от предыдущих двух 
методов, не проверен экспериментально. Это связано с тем, что реализация 
проверки показателей качества выявления одних текстов естественного языка в 
других крайне затруднительна. Среди основных проблем, возникающих при 
попытке сравнить показатели качества решения этой задачи, можно отметить 
следующие: 
1. Высокая 
сложность качественной реализации некоторых этапов 
морфологического анализа (2.2.5) 
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Поиск на основе исходного 
словаря 
Поиск на основе 
сгенерированного словаря 
Полнота 


89 
2. Отсутствие подготовленных данных (защищаемых текстов ЕЯ и текстов 
ЕЯ, содержащих в себе различными способами измененные факты 
защищаемых текстов), на которых можно проводить экперименты по 
оценке эффективности тех или иных методов 
3. Отсутствие открытых реализаций других методов идентификации 
защищаемых данных в передаваемых сообщениях, которые необходимы 
для сравнения 
Последняя проблема связана со спецификой разработки программых и 
аппаратных продуктов в области ИБ, а также узостью и специфичностью задач, 
которые решаются DLP-системами. 
В связи с этим в настоящий момент возможно только теоретическое 
сравнение производительности предложенного метода. 
Для построения семантической модели текстов естественного языка сейчас, 
как правило, используются графы. В частности – деревья. [40][41][57][58]. В 
таком случае основная задача DLP-системы – задача поиска защищаемого факта в 
передаваемом сообщении – сводится к задаче поиска изоморфизма двух графов. 
Рассмотрим сначала теоретические оценки сложности решения этой задачи.
Пусть 
– конечное множество и – подмножество множества его 
двухэлементных подмножеств. Тогда пара 
называется (простым) 
графом c множеством вершин 
и множеством ребер . Будем говорить, что 
вершины 
и графа смежны, если последний содержит ребро { }
Граф 
может быть задан матрицей смежности графа , 
т.е. квадратной 
матрицы, определяемой следующим образом: 
{
 
Графы 
и
называются изоморфными,
, если 
существует биекция 
, сохраняющаяя ребра, т.е. для любых вершин 
имеет место эквивалентность 

)
(3.1.1) 


90 
где 
и 
– образы вершин 
и 
относительно биекции 
. Последняя 
называется изоморфизмом графа 
на граф 
. Множество таких изоморфизмов 
обозначим через 
. Таким образом,

Легко видеть, что изоморфные графы имеют одинаковое число вершин и 
одинаковое число рёбер. Более того, поскольку, очевидно, изоморфизмы 
сохраняют степени вершин, то граф, изоморфный регулярному, сам регулярен и 
имеет ту же степень. 
В таком случае может вознинуть вопрос, почему задача поиска DLP-
системой защищаемого факта в передаваемом сообщении сводится к задаче 
поиска изоморфизма двух графов? Как правило, фильтруемые DLP-системой 
сообщения меньше, и даже существенно меньше, чем документы, которые 
содержат защищаемые факты. Поэтому точнее было бы говорить о задаче поиска 
подграфа в графе. А задача поиска подграфа в графе является NP-полной [59].
Проблема изоморфизма графов состоит в нахождении наиболее 
эффективного алгоритма, распознающего, являются ли два заданных графа 
изоморфными. Более точно, мы интересуемся вычислительной сложностью 
следующей задачи:
для графов
и 
определить верно ли, что 

Не умаляя общности мы всегда будем предполагать, что оба графа имеют 
одинаковое число вершин 
. Поэтому легко проверить, принадлежит ли данная 
биекция 
множеству 
: проверка условия (3.1.1) эквивалентна 
проверке 
равенств
 
где 
и
. Поэтому проблема изоморфизма 
принадлежит классу NP. Однако, до настоящего времени неизвестно, 
принадлежит ли она классу P проблем, для которых существует алгоритм 
полиномиальной сложности; неизвестно также, является ли она NP-полной 
проблемой [38]. 


91 
Также из [38] известно, что изоморфизм n вершинных графов распознаваем 
за время 
( (√ )) (3.1.2) 
Рассмотрим практические реализации задачи изоморфизма подграфа. 
Наиболее широко используемым алгоритмом решения этой задачи является 
алгоритм Ульмана [39]. В работе [61] показано, что этот алгоритм в сравнении с 
другими дает лучшие результаты с точки зрения временной сложности для задачи 
поиска изоморфизма пар графов. 
В работе [39] представлен еще один быстрый алгоритм – VF2. Сравнение 
временной сложности этих алгоритмов приведено в табл. 3.1.1. 

Download 1,32 Mb.

Do'stlaringiz bilan baham:
1   ...   36   37   38   39   40   41   42   43   ...   47




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish