Альманах научных работ молодых ученых
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1
104
В качестве методов расследования были кратко рассмотрены SIEM-системы, DLP-
системы и «Мониторинг СМИ и социальных сетей» [1, 2].
Основным недостатком SIEM и
DLP является то, что они не действуют вне периметра организации. Также особенностью
DLP является то, что система предотвращает утечки и не позволяет полноценно работать с
уже произошедшими инцидентами.
Исходя из этого, можно с уверенностью сказать, что
утечка конфиденциальной информации способна произойти за пределами организации с
использованием личных мобильных телефонов и компьютерной техники. Лингвистическая
идентификация автора по его сообщениям способна компенсировать этот недостаток путем
установления источника утечки, но в данной работе она имеет смысл после того, как утечка
уже произошла.
В ходе работы был разработан пошаговый метод проведения постинцидентного
анализа, для которого необходимо:
1.
собрать сообщения
𝑀 от пользователей 𝑈;
2. извлечь лингвистические признаки
𝐹 [3] из 𝑀;
3. извлечь
𝐹 из сообщения с конфиденциальной информацией 𝑚
𝑐𝑜𝑛𝑓
;
4. определить автора
𝑚
𝑐𝑜𝑛𝑓
;
5. проанализировать получившиеся результаты.
На первом этапе было собрано множество сообщений от множества пользователей,
посредством DLP-системы контура информационной безопасности (КИБ) SearchInform, а
именно с помощью модулей: MailSniffer, FTPSniffer, HTTPSniffer.
Перехваченные данные
были в текстовом виде.
На втором и третьем этапах было произведено извлечение лингвистических признаков,
алгоритм показан на рис. 1.
Рис. 1. Извлечение лингвистических признаков
Четвертым этапом являлось определение источника утечки. Из компьютерной системы
получен список пользователей и их сообщений. Затем произведено извлечение
характеристик их сообщений, после чего произведено разделение данных на обучающую и
тестовую выборки. На этих данных построен алгоритм модели классификации, который
проходил тестирование. После этого тестирования получен классификатор, на вход которого
подавалось сообщение с
конфиденциальной информацией, а на выходе получен список
вероятных авторов сообщения с информацией конфиденциального характера.
Этап анализ и оценки происходил по следующему алгоритму, показанному на рис. 2.
База Данных
Интернет-ресурс
Сообщение
m
conf
Формирование
вектора
характеристик
m
conf
Анализ и извлечение
характеристик
m
conf
Характеристики
сообщения
m
conf
Сохранение
характеристик
m
conf
в базу данных
DLP Сервер
Сообщения M,
принадлежащие
u
Характеристики
сообщений
Формирование векторов
представления
характеристик всех
m для
всех u
Анализ сообщений и
извлечение характеристик
Сохранение характеристик
в Базу данных
Альманах научных работ молодых ученых
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1
105
Рис. 2. Анализ и оценка результатов
В результате работы удалось установить точность идентификации верно определенных
источников утечки – 75,69%. Количество пользователей на один набор сообщений было
равно 10, среднее количество сообщений на один набор – 231, а среднее количество
символов в одном сообщении составляло 1200.
Дальнейшие планы по исследованию предполагают
рассмотреть возможность
выявления методов стеганографии, а также определить влияние этих методов на
лингвистические характеристики автора сообщения.
Do'stlaringiz bilan baham: