4
Введение
Актуальность темы исследований
Количество зарегистрированных утечек конфиденциальной информации
увеличивается с каждым годом. Это связано как с
развитием и повсеместным
распространением информационных систем, применяемых для обработки данных,
так и с увеличением ценности самих информационных активов компаний. На
рисунке 1 показан постоянный рост числа зарегистрированных утечек
конфиденциальной информации с 2006 по 2013 годы [74].
Рисунок 1. Число зарегистрированных утечек информации с 2006 по
2013 годы.
Самым действенным элементом обеспечения безопасности данных в
корпоративных информационных системах остается применение технических
средств защиты информации – прежде всего средств предотвращения утечек
данных (Data Leak Prevention, DLP) [1].
В настоящий момент можно выделить несколько
ключевых направлений
развития информационных систем (ИС), которые неизбежно повлияют на
идеологию DLP-систем. Во-первых, это принципиальное отличие типов
информации и требований к ее защите в зависимости от специфики организаций.
Даже в компаниях, относящихся к одному и тому же сегменту (банки,
госорганизации, телекоммуникации), структура информационных активов
неодинакова.
Во-вторых, наблюдается переход на комуникацию через разновидности
«социальных сетей» с помощью мобильных устройств. [2] Это накладывает
5
определенный отпечаток на передаваемые сообщения: по сравнению, к примеру, с
классической
перепиской по e-mail, они короче, их стиль ближе к разговорной
речи, а также существенно чаще встречаются специфические выражения и
аббревиатуры. Анализ таких сообщений с помощью статистических методов,
которые хорошо зарекомендовавали себя в поисковых задачах, затруднителен в
силу специфики, которая приведена выше.
Естественно-языковые
сообщения, обрабатываемые в корпоративных ИС,
могут содержать защищаемую информацию как в исходном виде (так, как она
хранится в виде документов и прочих носителей защищаемой информации), так и
в измененном – преобразованном в другую формулировку, содержащему
сокращения, специфические для отрасли компании термины и сленговые
выражения и т.д.
Для решения задачи выявления
DLP-системой
угрозы
утечки
конфиденциальной информации необходимо использование лингвистических
технологий, позволяющих выявить попытку передачи защищаемых данных как в
исходном, так и в изменненном виде.
Таким образом, повышение характеристик устойчивости обработки,
полноты, точности, адекватности идентифицируемых конструкций естетсвенного
языка (ЕЯ) позволяет увеличить показатели качества обнаружения угроз хищения
и модификации документов, повысить показатели защищенности информации в
процессе хранения и обработки и уменьшить вероятностные показатели
преодоления системы защиты.
Сложность практической реализации методов автоматической обработки
естественно языковых текстов и идентификации, содержащихся в них данных, на
уровне
семантики, существенно затрудняет достижения показателей полноты,
точности вычисления текстовой информации для методов и средств пассивного и
активного противодействия угрозам информационной безопасности.
Возникает противоречие между возможностями, которые предоставляют
современные информационные технологии, и существующим научно-
методическим и математическим обеспечением DLP-систем,
реализующих
6
алгоритмы автоматизированной обработки текстов ЕЯ с целью выявления угроз
информационной безопасности.
Следствием неразрешенности этого противоречия является необходимость
разработки методов повышения показателей качества анализа естественно-
языковых сообщений в DLP-системах.
Таким образом, обоснование и разработка методов повышения показателей
качества обнаружения угроз утечки конфиденциальной информации за счет
повышения показателей качества анализа естественно-языковых сообщений
является актуальной научной задачей.
Do'stlaringiz bilan baham: