12
предположение об условной независимости компонентов вектора
Х
. В
этом случае
условная вероятность вычисляется по формуле [19]:
m
j
i
j
i
H
X
P
H
P
1
|
|
X
.
(1)
Рассмотрим пример спам-фильтра
5
на основе теоремы Байеса [20]. При
обучении фильтра массив электронных писем делится на два класса: спам и полезная
корреспонденция. Для каждого слова вычисляется частота его встречаемости в обоих
классах писем.
Обозначим
F
S
(W
i
)
–
количество спам-писем, в которых встретилось слово
W
i
, а
F
NS
(W
i
)
– количество полезных писем, в которых встретилось слово
W
i
. В
задаче
присутствуют две гипотезы:
H
S
– письмо является спамом,
H
NS
– полезное письмо.
Тогда вероятность того, что появление слова
W
i
в письме означает спам, вычисляется
по формуле:
i
NS
i
S
i
S
S
i
W
F
W
F
W
F
H
W
P
|
,
а вероятность того, что слово
W
i
не указывает на спам в письме:
i
NS
i
S
i
NS
NS
i
W
F
W
F
W
F
H
W
P
|
.
Вектор
W
включает все слова нового письма. Тогда для нового письма
вероятность того,
что оно спам, вычисляется по формуле Байеса следующим образом:
NS
NS
S
S
S
S
S
H
P
H
P
H
P
H
P
H
P
H
P
H
P
|
|
|
|
W
W
W
W
.
Учитывая формулу (1) и считая априорные вероятности обеих гипотез
одинаковыми, получаем:
m
j
NS
j
m
j
S
j
m
j
S
j
S
H
W
P
H
W
P
H
W
P
H
P
1
1
1
|
|
|
|
W
.
5
Спам-фильтр – разновидность фильтрации сообщений электронной почты, при которой
отсеиваются нежелательные письма, чаще всего рекламного содержания.
13
Отнесение письма к спаму или к полезным письмам
производится обычно с
учетом заданного пользователем порога, значения которого составляют 0,6 ÷ 0,8. После
принятия решения по письму в базе данных обновляются вероятности для входящих в
него слов.
Рассмотренный метод прост в реализации, эффективен (после обучения на
достаточно большой выборке писем отсекает до 95–97 % спама), обладает
возможностью дообучения. Указанные достоинства объясняют тот факт, что на основе
теоремы Байеса построено множество современных спам-фильтров.
Для обхода традиционных спам-фильтров спамеры стали вкладывать рекламную
информацию в
картинку, а текст в письме либо отсутствует, либо не несет смысла.
Против этого приходится пользоваться либо средствами распознавания текста
(довольно сложная процедура), либо старыми методами фильтрации – «черные списки»
и регулярные выражения (так как такие письма часто имеют стереотипную форму).
Лаборатория Касперского в своих продуктах реализовала технологию распознавания
текста на вложенных картинках и дальнейшую пересылку на спам-фильтр [21].
Развитием вероятностного подхода на основе
теоремы Байеса являются
байесовские сети (Bayesian networks)
. Байесовская сеть представляет собой модель,
отражающую
вероятностные
и
причинно-следственные
отношения
между
переменными и позволяющую составить наглядное описание полного совместного
распределения вероятностей [2]. По структуре сеть является ориентированным графом,
в котором каждая вершина имеет некоторые значения вероятностей.
Для получения работоспособной байесовской сети ее обучают на наборе
данных, подготовленном экспертами. При обучении стараются
минимизировать риск
возникновения ошибки при работе сети в дальнейшем. Для этого используются
специальные алгоритмы, такие как
градиентный спуск
,
алгоритм
EM
(
Expectation –
Maximization, ожидание – максимизация
) и др. [2, 22].
Do'stlaringiz bilan baham: