АНАЛИЗ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ И АВТОМАТИЗИРОВАННЫХ СРЕДСТВ
Самаров Х.К. (ТУИТ им. Мухаммада ал-Хоразмий, доцент, к.т.н)
Ваисов Ф.Б. (ТУИТ имени Мухаммада ал-Хоразмий, магистрант)
В данной статье рассматривается особенности поведения пользователей и автоматизированных систем, профиль поведения пользователя-человека и пользователя-робота, исследование автоматизированных средств таких как веб-скрапер, определение и блокировка веб скраперов, методы применяемы для противодействия обнаружения их системой.
Ключевые слова: Веб-робот (краулер), поисковой робот, веб-скрапинг, как веб-скраперы обходят блокировок, веб-ресурс.
В современном мире проблема разработки систем обнаружения автоматизированного сканирования также сбора информации с каждым днем становится все более актуальной. Главной идеей, лежащей в основе таких систем, является тот факт, что для рядовых пользователей не характерна автоматизация своих действий. Профиль поведения пользователей и автоматизированных роботов отличаются как по функциональным возможностям, так и по цели выполнения. Говоря о функциональных возможностях человека, он не в состоянии выполнять многочисленные запросы одновременно и с большой скоростью. Пользователь своей главной целью ставит получение информации с веб-ресурса, тогда как целью автоматизированных средств является заполучению преимущества перед легитимными пользователями.
Ещё одним немало важным фактором является перемещение по веб-ресурсу. При перемещении по веб-ресурсу человек должен соблюдать структуру веб-ресурса, когда перемещается между его узлами и для дальнейшего выполнения необходимых ему действий. Взаимодействие человека веб-ресурсом происходит посредством веб-интерфейса, тогда как автоматизированные средства такие как веб-роботы, веб-скраперы работают напрямую с API. Такие средства не ограничены взглядом на интерфейс они способны переходить по ссылкам, которые не доступны для рядовых пользователей, они видят ситуацию глобально.
Также пользователи отличаются от веб-роботов тем, что пользователь заходит на веб-сайт с конкретной задачей т.е. в зависимости от типа сайта (новостной или изучения связанных тематик, каталог товаров и т.п.), то целью веб-робота является массовый сбор информации и многоаспектного взаимодействия с веб-ресурсом. Веб-роботы воспринимают веб-ресурс не в семантическом многообразии, а с технической точки зрения и нацелены на выполнение своей автоматизированной задачи.
Все эти аспекты дают основу для формирования границы между поведением веб-робота и пользователя-человека.
Одним из видов таких средств является веб-скраперы. Веб-скрапинг (web-scrapping) – это процесс извлечения данных со страниц веб-ресурсов посредством автоматизации обращений к веб-ресурсу. Веб-скрапперы необходимы для сбора больших данных объёмов данных. Такие автоматизированные средства порой могут нанести вред веб-ресурсу. Так как активность таких программ увеличивает нагрузку на веб-сервер и замедляет его работу также автоматизированное извлечение данных со страниц веб-ресурса может быть нежелательным.
Процесс скрапинга состоит из трёх основных этапов:
На этом этапе программа совершает HTTP запросы по URL-адресам в соответствии с логикой работы и извлекает HTML код страниц.
На втором этапе с помощью специальных механизмов (регулярные выражения, HTML-парсеры, искусственный интеллект) происходит выделение необходимой информации из HTML-кода.
На третьем этапе программа сохраняет структурированные данные в таблицах или базах данных.
Do'stlaringiz bilan baham: |