Методы искусственного интеллекта в задачах обеспечения безопасности компьютерных сетей в. Ю. Колеватов, Е. В. Котельников

Download 388,5 Kb.

Pdf ko'rish

bet	6/9
Sana	21.04.2022
Hajmi	388,5 Kb.
	#568977
Turi	Задача

1 2 3 4 5 6 7 8 9

Bog'liq
Методы искусственного интеллекта в задачах обеспечения безопасности компьютерных сетей

Х

| H
i
) используется «наивное»
4
4
Системы классификации, построенные на таком предположении, называются
наивными
байесовскими классификаторами
(
Naive Bayes Classifiers
).

12
предположение об условной независимости компонентов вектора
Х
. В этом случае
условная вероятность вычисляется по формуле [19]:







m
j
i
j
i
H
X
P
H
P
1
|
|
X
.
(1)
Рассмотрим пример спам-фильтра
5
на основе теоремы Байеса [20]. При
обучении фильтра массив электронных писем делится на два класса: спам и полезная
корреспонденция. Для каждого слова вычисляется частота его встречаемости в обоих
классах писем.
Обозначим
F
S
(W
i
)
– количество спам-писем, в которых встретилось слово
W
i
, а
F
NS
(W
i
)
– количество полезных писем, в которых встретилось слово
W
i
. В задаче
присутствуют две гипотезы:
H
S
– письмо является спамом,
H
NS
– полезное письмо.
Тогда вероятность того, что появление слова
W
i

в письме означает спам, вычисляется
по формуле:


 
 
 
i
NS
i
S
i
S
S
i
W
F
W
F
W
F
H
W
P


|
,
а вероятность того, что слово
W
i

не указывает на спам в письме:


 
 
 
i
NS
i
S
i
NS
NS
i
W
F
W
F
W
F
H
W
P


|
.
Вектор
W
включает все слова нового письма. Тогда для нового письма
вероятность того, что оно спам, вычисляется по формуле Байеса следующим образом:



  

   
 

NS
NS
S
S
S
S
S
H
P
H
P
H
P
H
P
H
P
H
P
H
P
|
|
|
|
W
W
W
W


.
Учитывая формулу (1) и считая априорные вероятности обеих гипотез
одинаковыми, получаем:
















m
j
NS
j
m
j
S
j
m
j
S
j
S
H
W
P
H
W
P
H
W
P
H
P
1
1
1
|
|
|
|
W
.
5
Спам-фильтр – разновидность фильтрации сообщений электронной почты, при которой
отсеиваются нежелательные письма, чаще всего рекламного содержания.

13
Отнесение письма к спаму или к полезным письмам производится обычно с
учетом заданного пользователем порога, значения которого составляют 0,6 ÷ 0,8. После
принятия решения по письму в базе данных обновляются вероятности для входящих в
него слов.
Рассмотренный метод прост в реализации, эффективен (после обучения на
достаточно большой выборке писем отсекает до 95–97 % спама), обладает
возможностью дообучения. Указанные достоинства объясняют тот факт, что на основе
теоремы Байеса построено множество современных спам-фильтров.
Для обхода традиционных спам-фильтров спамеры стали вкладывать рекламную
информацию в картинку, а текст в письме либо отсутствует, либо не несет смысла.
Против этого приходится пользоваться либо средствами распознавания текста
(довольно сложная процедура), либо старыми методами фильтрации – «черные списки»
и регулярные выражения (так как такие письма часто имеют стереотипную форму).
Лаборатория Касперского в своих продуктах реализовала технологию распознавания
текста на вложенных картинках и дальнейшую пересылку на спам-фильтр [21].
Развитием вероятностного подхода на основе теоремы Байеса являются
байесовские сети (Bayesian networks)
. Байесовская сеть представляет собой модель,
отражающую
вероятностные
и
причинно-следственные
отношения
между
переменными и позволяющую составить наглядное описание полного совместного
распределения вероятностей [2]. По структуре сеть является ориентированным графом,
в котором каждая вершина имеет некоторые значения вероятностей.
Для получения работоспособной байесовской сети ее обучают на наборе
данных, подготовленном экспертами. При обучении стараются минимизировать риск
возникновения ошибки при работе сети в дальнейшем. Для этого используются
специальные алгоритмы, такие как
градиентный спуск
, алгоритм
EM
(
Expectation –
Maximization, ожидание – максимизация
) и др. [2, 22].

Download 388,5 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8 9