86
Рис. 3.1.2. Зависимость количества полученных шаблонов от числа
разобранных текстов
По графику видно, что число шаблонов линейно возрастает в зависимости от
числа
разобранных текстов, что говорит о возможности улучшения полученных
нами параметров. По приблизительной оценке, при мощности множества
шаблонов ~10
9
, можно снижения числа ошибок разбора на 30-35%.
Полученная на выходе системы гипотеза
является в среднем более
корректной, чем случайно выбранная из исходных. Иными словами, число верных
совпадений морфологических характеристик слов в предложении выше, чем у
случайно выбранной гипотезы, что подтверждено экспериментом.
Оценка показателей качества метода предотвращения передачи
конфиденциальных ЕЯ собщений, содержащих отсутствующие в словаре
парадигмы слов
Для оценки показателей качества метода предотвращения передачи
конфиденциальных ЕЯ собщений, содержащих отсутствующие в словаре
парадигмы слов, обозначим количество правильных извлечений системы анализа
DLP-фильтра
h, количество
требуемых извлечений d, а общее количество
извлечений
n. Тогда для полноты
и точности выявления угроз утечки в
передаваемом сообщении справедливы следующие соотношения:
i
i
i
h
R
d
и
i
i
i
h
P
n
.
Эксперимент по поиску с использованием словарей
проводился на основе
случайной выборки предложений из национального корпуса русского языка [32].
Объем выборки – 180 тыс. словоупотреблений, из которых 90 тыс. – пресса и по
30 тыс. из научных текстов, художественных текстов и законодательства.
Для проведения эксперимента была разработана простая поисковая система,
использующая в своей основе булевскую модель поиска [35]. Разработанная
система позволяла автоматически формировать поисковые запросы и
87
обрабатывать результаты поиска. Таким образом,
значение d числа требуемых
извлечений было известно при формировании поисковых запросов, что
обеспечивало правильность полученного результата. Общее количество
извлечений
p и количество
правильных извлечений h вычислялись в ходе
эксперимента, после обработки каждого поискового запроса.
В первом случае, поисковая система использовала словарь Зализняка и
словарь с полными морфологическими описаниями
для только одного слова
каждого класса. Во втором случае, использовался словарь, который сгенерирован
с помощью описанного выше метода.
Необходимо отметить, что вместо реализации шага 4 предложенного метода
(определение класса слов из передаваемого сообщения, отсутствующих в
морфологическом словаре) класс слова определялся по словарю Зализняка. Т.е.
брались те слова, которые отсутствуют в словаре морфологических описаний слов
Z, но присутствуют в словаре Зализняка.
В ходе эксперимента измерялись полнота (
R) и точность (
P)
поиска на
случайной выборке из национального корпуса русского языка. Результаты
измерения приведены на графике на рис. 1, 2.
Рис. 3.1.3. Результаты измерения точности
P
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
Поиск на основе исходного
словаря
Поиск на основе
сгенерированного словаря
Do'stlaringiz bilan baham: