276
методов воздействия, так и с использованием легитимного функционала веб
ресурсов. Данная информация подвергается
автоматизированному сбору и
обработке специальными средствами, называемыми веб-роботами [2,4].
Существует большое число разновидностей веб-роботов как по
характеру поведения, так и по целям сбора информации. Их используют
поисковые системы, такие как Яндекс или Google для индексирования веб-
ресурсов и сбора контекстной информации[3]. Веб-роботы могут не просто
собирать и анализировать информацию, а
еще и выполнять различные
активные действия, например:покупка билетов, аренда, торги на аукционах,
написание комментариев и статей на веб-ресурсах, рассылка спама, поиск
уязвимостей.
По стратегии обнаружения можно разделить методы обнаружения
автоматизированного
сбора информации на активные, осуществляемые
непосредственно во время обработки запроса, и на отложенные,
выполняемые уже постфактум.
Методы обнаружения можно также разделить на четыре категории по
типу работы[1]:
синтаксический анализ логов веб-сервера;
сигнатурный анализ трафика;
анализ трафика на основе машинного обучения;
программные методы обнаружения и противодействия веб-роботам.
Преимуществом первых двух методов является их быстродействие, а
также простота реализации. Однако они не способны выявлять продвинутых
веб-роботов. Данную проблему могут решить алгоритмы обнаружения,
основанные на машинном обучении.
Для применения сценариев противодействия
веб-роботам необходимо
осуществить процедуру обнаружения. Запросы от пользователей
группи-
руются в сессии, что позволяет строить поведенческий профиль на основе
связанных последовательных запросов от каждого пользователя. На первом
этапе происходит сбор данных от веб-сервера. Рассчитываются семанти-
ческие характеристики каждого из узлов веб-ресурса, а
также графовые
характеристики на основе построенного графа связности страниц сайта.
Для расчёта данных характеристик в рамках сессии строятся
комбинации из средних и медианных значений параметров каждого запроса,
а также изучается их распределение и среднеквадратическое отклонение
значений.
На втором этапе происходит формирование профиля для легитимных
пользователей и веб-роботов. Рассчитываются сессионные характеристики,
учитывающие распределение значений параметров каждого из запросов в
рамках сессии. На основе данных характеристик, а
также достоверной
информации о происхождении сессии формируется классификационная
модель.
На третьем этапе происходит процедура идентификации сессий. Для
каждой
сессии
вычисляется
результат
комбинации
решений
о
277
принадлежности пользователя к роботизированным сессиям по приведённой
формуле (1), а также происходит выбор подходящего сценария реагирования.
1
(
1| using
) (1)
th
i
i
p
P y
i method
Весовой параметр
i
p
подбирается экспертным образом, где
1
1
n
i
i
p
. n –
количество используемых методов обнаружения и противодействия, y –
результат классификации (равен 1, если сессия отнесена к роботизиро-
ванной). P – вероятность отнесения сессии к роботизированной.
На четвёртом этапе происходит реагирование (рисунок 1) и формируется
сообщение об инциденте.
Рис. 1. Схема процесса противодействия
Выбор процедуры реагирования состоит из следующих шагов:
1. Определение коэффициента ущерба от пропуска веб-робота (ошибка
первого рода);
2. Определение коэффициента ущерба от неверной классификации
легитимного пользователя (ошибка второго рода);
3. Выбор порогов срабатывания трёх сценариев реагирования экспертным
методом (блокировка, ограничение лимитов действий,
проверка на основе
CAPTCHA[5]).
В связи со все большим ростом количества и активности веб-роботов,
для решения проблемы обнаружения веб-роботов требуется целый комплекс
инструментов. Необходимо изучить работающие методы, позволяющие
обнаружит веб-роботов на основе определенных параметров запросов и
информации об их активности. Также необходимо разработать систему,
позволяющую данные методы применять,
собрав всю необходимую
информацию, осуществляя ее подготовку к обработке и принятию
дальнейшего решения. В связи с этим предлагается разработка комплексного
подхода к обеспечению безопасности веб-ресурсов и формирования
представительных наборов данных, которые могут использованы для
машинного обучения и применительны к задаче обнаружения и
противодействия автоматизированному сбору информации с веб-ресурсов.
Литература
1. Менщиков А.А., Гатчин Ю.А. Методы обнаружения
автоматизированного сбора
информации с веб-ресурсов//Кибернетика и программирование.2015.–№ 5.– С. 136–157.
2. Отчет East-West Digital News [Электронный реcурс] –
278
3. Паутов К. Г., Попов Ф. А. Информационная система анализа и тематической
классификации веб-страниц на основе методов машинного обучения // Современные
проблемы науки и образования. 2012. №6.
4. Менщиков А.А. Методы обнаружения автоматизированного сбора информации с веб-
ресурсов // Альманах научных работ молодых ученых Университета ИТМО-2016. – Т.
3. – С. 230-232.
5. Bursztein E., Martin M., Mitchell J. Text-based CAPTCHA strengths and weaknesses
//Proceedings of the 18th ACM conference on Computer and communications security. –
ACM, 2011. – Pp. 125-138.
Do'stlaringiz bilan baham: