Сборник докладов республиканской научно-технической конференции значение информационно-коммуникационных


ОБ ОДНОМ ПОДХОДЕ МАШИННОГО ОБУЧЕНИЯ



Download 7,55 Mb.
Pdf ko'rish
bet131/267
Sana14.07.2022
Hajmi7,55 Mb.
#795134
TuriСборник
1   ...   127   128   129   130   131   132   133   134   ...   267
Bog'liq
Maqola

ОБ ОДНОМ ПОДХОДЕ МАШИННОГО ОБУЧЕНИЯ 
ПРОТИВОДЕЙСТВИЯ АВТОМАТИЗИРОВАННОМУ СБОРУ 
ИНФОРМАЦИИ С ВЕБ-САЙТОВ 
Х.К. Самаров (доцент, ТУИТ им. Мухаммада ал-Хоразмий)
Ф.Б. Ваисов (магистрант, ТУИТ им. Мухаммада ал-Хоразмий) 
На сегодняшний день все большее количество информации переносится 
в сеть Интернет. Это и персональные данные людей, и личная переписка, и 
данные банковских карт, или другие ценные информации и уникальный 
контент. Это приводит к возрастанию активности атак, направленных на 
несанкционированный сбор такой информации с помощью как активных 


276 
методов воздействия, так и с использованием легитимного функционала веб 
ресурсов. Данная информация подвергается автоматизированному сбору и 
обработке специальными средствами, называемыми веб-роботами [2,4].
Существует большое число разновидностей веб-роботов как по 
характеру поведения, так и по целям сбора информации. Их используют 
поисковые системы, такие как Яндекс или Google для индексирования веб-
ресурсов и сбора контекстной информации[3]. Веб-роботы могут не просто 
собирать и анализировать информацию, а еще и выполнять различные 
активные действия, например:покупка билетов, аренда, торги на аукционах, 
написание комментариев и статей на веб-ресурсах, рассылка спама, поиск 
уязвимостей. 
По стратегии обнаружения можно разделить методы обнаружения 
автоматизированного сбора информации на активные, осуществляемые 
непосредственно во время обработки запроса, и на отложенные, 
выполняемые уже постфактум.
Методы обнаружения можно также разделить на четыре категории по 
типу работы[1]:

синтаксический анализ логов веб-сервера;

сигнатурный анализ трафика;

анализ трафика на основе машинного обучения;

программные методы обнаружения и противодействия веб-роботам. 
Преимуществом первых двух методов является их быстродействие, а 
также простота реализации. Однако они не способны выявлять продвинутых 
веб-роботов. Данную проблему могут решить алгоритмы обнаружения, 
основанные на машинном обучении. 
Для применения сценариев противодействия веб-роботам необходимо 
осуществить процедуру обнаружения. Запросы от пользователей
группи-
руются в сессии, что позволяет строить поведенческий профиль на основе 
связанных последовательных запросов от каждого пользователя. На первом 
этапе происходит сбор данных от веб-сервера. Рассчитываются семанти-
ческие характеристики каждого из узлов веб-ресурса, а также графовые
характеристики на основе построенного графа связности страниц сайта.
Для расчёта данных характеристик в рамках сессии строятся 
комбинации из средних и медианных значений параметров каждого запроса, 
а также изучается их распределение и среднеквадратическое отклонение 
значений. 
На втором этапе происходит формирование профиля для легитимных 
пользователей и веб-роботов. Рассчитываются сессионные характеристики, 
учитывающие распределение значений параметров каждого из запросов в 
рамках сессии. На основе данных характеристик, а также достоверной 
информации о происхождении сессии формируется классификационная 
модель.
На третьем этапе происходит процедура идентификации сессий. Для 
каждой 
сессии 
вычисляется 
результат 
комбинации 
решений 
о 


277 
принадлежности пользователя к роботизированным сессиям по приведённой 
формуле (1), а также происходит выбор подходящего сценария реагирования. 
1
(
1| using 
) (1)
th
i
i
p
P y
i method




Весовой параметр 
i
p
подбирается экспертным образом, где 
1
1
n
i
i
p



. n – 
количество используемых методов обнаружения и противодействия, y – 
результат классификации (равен 1, если сессия отнесена к роботизиро-
ванной). P – вероятность отнесения сессии к роботизированной. 
На четвёртом этапе происходит реагирование (рисунок 1) и формируется 
сообщение об инциденте. 
Рис. 1. Схема процесса противодействия 
Выбор процедуры реагирования состоит из следующих шагов: 
1. Определение коэффициента ущерба от пропуска веб-робота (ошибка 
первого рода); 
2. Определение коэффициента ущерба от неверной классификации 
легитимного пользователя (ошибка второго рода); 
3. Выбор порогов срабатывания трёх сценариев реагирования экспертным 
методом (блокировка, ограничение лимитов действий, проверка на основе 
CAPTCHA[5]). 
В связи со все большим ростом количества и активности веб-роботов, 
для решения проблемы обнаружения веб-роботов требуется целый комплекс 
инструментов. Необходимо изучить работающие методы, позволяющие 
обнаружит веб-роботов на основе определенных параметров запросов и 
информации об их активности. Также необходимо разработать систему, 
позволяющую данные методы применять, собрав всю необходимую 
информацию, осуществляя ее подготовку к обработке и принятию 
дальнейшего решения. В связи с этим предлагается разработка комплексного 
подхода к обеспечению безопасности веб-ресурсов и формирования 
представительных наборов данных, которые могут использованы для 
машинного обучения и применительны к задаче обнаружения и 
противодействия автоматизированному сбору информации с веб-ресурсов.
 
Литература 
1.
Менщиков А.А., Гатчин Ю.А. Методы обнаружения автоматизированного сбора 
информации с веб-ресурсов//Кибернетика и программирование.2015.–№ 5.– С. 136–157. 
2.
Отчет East-West Digital News [Электронный реcурс] – 


278 
3.
Паутов К. Г., Попов Ф. А. Информационная система анализа и тематической 
классификации веб-страниц на основе методов машинного обучения // Современные 
проблемы науки и образования. 2012. №6.
4.
Менщиков А.А. Методы обнаружения автоматизированного сбора информации с веб-
ресурсов // Альманах научных работ молодых ученых Университета ИТМО-2016. – Т. 
3. – С. 230-232. 
5.
Bursztein E., Martin M., Mitchell J. Text-based CAPTCHA strengths and weaknesses 
//Proceedings of the 18th ACM conference on Computer and communications security. – 
ACM, 2011. – Pp. 125-138. 

Download 7,55 Mb.

Do'stlaringiz bilan baham:
1   ...   127   128   129   130   131   132   133   134   ...   267




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish