УДК 004.056
СПОСОБ ПОСТРОЕНИЯ ЗАЩИЩЕННОГО ВЕБ-РЕСУРСА С ИСПОЛЬЗОВАНИЕМ
ТЕХНОЛОГИИ HONEYPOT И ДИНАМИЧЕСКОЙ ГЕНЕРАЦИЕЙ КОНТЕНТА
Менщиков А.А., Комарова А.В.
Научный руководитель – д.т.н., профессор Гатчин Ю.А.
Работа выполнена в рамках темы НИР № 617026 «Технологии киберфизических систем:
управление, вычисления, безопасность».
Современные информационные системы содержат огромное количество информации: коммерческой
и личной. Любая информация подвержена утечкам по незащищенным каналам. Во всемирной сети
существуют специальные программные средства, веб-роботы, которые несанкционированно
собирают разного рода информацию. Владельцам веб-сайтов необходимо применять меры защиты от
кражи своей информации. В работе рассмотрен подход по построению защищенного ресурса в сети
Интернет. Непосредственно защита осуществлялась путем использования технологии Honeypot и
динамической генерации контента сайта.
Ключевые слова: информационная безопасность, защита информации, веб-роботы, парсинг, сбор
информации, технология Honeypot, обнаружение веб-роботов, динамическая генерация контента.
Любой веб-ресурс, даже не использующийся людьми в данный промежуток времени,
каждый день посещается большим количеством веб-роботов (парсеров, краулеров) [1]. Эти
роботы могут быть легитимными (они могут анализировать контент веб-ресурса,
индексировать сайты для улучшения работы в поисковых системах и т.д.) и нелегитимными
– т.е. роботами-злоумышленниками. Цель последних – эксплуатация уязвимостей сайта.
Вредоносные парсеры рассылают рекламу, спам, совершают покупки, крадут информацию о
товарах на сайте и многое другое [2]. Такие злонамеренные действия, в конечном счете,
ведут к финансовым потерям владельца сайта: к проблемам доступа у легитимных
пользователей, к уменьшению пропускной способности ресурса, увеличению траффика за
единицу времени [3]. Трудность состоит в том, что парсеров не просто вычислить, так как
они скрывают свое присутствие, маскируются под реальных людей, и могут иметь
распределенную архитектуру. Но и краулеры имеют свои слабые стороны: их создатели
стремятся держать баланс между стоимостью разработки и степенью защиты своего робота.
Большинство парсеров имеют «универсальную» архитектуру, подходящую для большинства
сайтов, но не для всех. Столкнувшись с «защищенным» ресурсом, веб-роботы могут не
Альманах научных работ молодых ученых
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1
88
только украсть заведомо подложную информацию, но и могут быть засечены, что в
дальнейшем может привести к раскрытию своего «хозяина». Также, краулеры имеют слабую
рефлексию результатов, т.е. в случае сбора очевидно ложной информации, «хозяин» может
далеко не сразу зафиксировать этот факт и внести исправления. Несмотря на все
вышесказанное, с каждым годом можно наблюдать увеличение объема парсинга на
несколько процентов [4]. По этой причине создание способа построения защищенного веб-
ресурса становится актуальной задачей.
В аналогичном направлении исследований работают и другие ученые, в том числе и
несколько зарубежных коллективов, особенно стоит отметить исследователей из Wright State
University [5].
Среди характеристик поведения пользователей веб-ресурса авторы выделяют
временные, структурные, поведенческие, основанные на ошибках, и основанные на типе
контента. Анализ этих категорий позволяет выявлять признаки, характерные для средств
автоматизированного сбора информации (парсеров, краулеров). Обнаружение достигается за
счет использования технических методов обнаружения, сигнатурных правил обнаружения и
расчета статистических метрик поведения.
Для того чтобы выявить робота-злоумышленника, авторами предлагается использовать
технологию Honeypot, что в переводе с английского «горшок с медом» или другими словами
– приманка. Как следует из названия, Honeypot – это ресурс безопасности, предназначение
которого – попасться злоумышленнику, навлечь на себя атаку [5]. Данный ресурс может
являться и имитируемым сервисом, и полноценной операционной системой, может
представлять собой как специальный выделенный сервер, так и один сетевой сервис, главной
целью ресурса остается привлечение внимания взломщиков. После нападения владелец
Honeypot может исследовать поведение парсера, изучить стратегию его поведения и таким
образом определить, как могут быть нанесены удары по реально существующим объектам
безопасности.
В качестве способов первичного обнаружения краулера могут использоваться скрытые
для человеческого глаза разделы ресурса (ссылки или файлы), которые робот заполнит, а
человек – нет; анализ структуры запроса, если запрос нехарактерен для легитимного
пользователя; некоторые технические методы (анализ источников запросов, анализ
правильности обработки активного содержимого и т.д.) [3].
Совокупность различных подходов к обнаружению позволяет осуществить точную
корректировку обнаружения и управлять соотношением точности и полноты обнаружения, а
также частотой ложных срабатываний.
Для изучения поведения краулера на веб-ресурсе, в него был встроен модуль
динамической генерации правдоподобного контента на уровне рендеринга шаблонов
списков и единиц данных. Для генерации использовались методы цепей Маркова и LSA с
рандомизацией. Генерация производилась на основе корпуса существующих текстов из веб-
ресурса, что позволило создавать тексты, мало отличимые от оригинала. Мы
проанализировали разные выборки из текстов и различные параметры алгоритмов, но это не
повлияло существенным образом на поведение веб-роботов на ресурсе, они продолжали
свою активность даже будучи внутри Honeypot, что позволило изучить их действия,
модифицируя структуру сайта и объем получаемых ими данных.
В связи с все большим ростом количества и активности веб-роботов, тема исследования
на сегодняшний день является актуальной. Рассматриваемый в работе способ построения
веб-ресурса показал свою эффективность и хорошие результаты по обнаружению и
противодействию автоматизированному сбору информации. В дальнейшем авторами
планируется увеличить выборку и создать универсальную библиотеку данных, которые
могли бы использоваться и в других проектах. Работа в данном направлении будет
способствовать дальнейшему развитию области, и может послужить хорошим базисом для
будущих исследований.
Альманах научных работ молодых ученых
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1
89
Do'stlaringiz bilan baham: |