КЛАССИФИКАЦИЯ ЭЛЕКТРОННЫХ ПИСЕМ НА ОСНОВЕ БАЙЕСОВСКОГО МЕТОДА
Хамидов Ш.Ж. (ТУИТ, докторант)
Абдуллаева С.Б. (ТГПУ, магистрант)
В настоящее время нельзя обойтись без использования электронной почты (e-mail) для людей, которые хотят общаться с друзьями и компаниями. Кроме этого, электронная почта применяется для регистрации учетных записей в других системах, социальных сетях и платформах. Рост популярности и количества пользователей электронной почты привело к увеличению числа угроз на электронную почту во всем мире.
Спам является одной из самых сложных проблем в почтовых сервисах. Он потребляет пропускную способность сети и пространство для хранения, резко увеличивает нагрузку на почтовые серверы, перегружает пользователей. Спам сообщения обычно распространяются с помощью массовых рассылок и списков адресов, собранных с различных веб-страниц и ресурсов. Основным и самым эффективным методом защиты от спама электронной почты является фильтрация.
Одной из основных задач фильтрации является классификация входящих сообщений электронной почты. При классификации электронных писем сообщения можно разделить на две группы: легитимная (ham-называемая также не спамом), и массовая электронная рассылка (spam-также известные как спам). Существует множество алгоритмов обнаружения спам во входящем потоке сообщений. Алгоритмы обнаружения спама можно классифицировать, используя следующие подходы:
- статистические (вероятностные);
- линейные;
- на основе сходства;
- логические.
В настоящей работе рассмотрен статический подход классификации спама в электронной почте. Принцип работы статистического классификатора заключается в выделении свойств, вычислении вероятностей для отдельных свойств, и затем объединения всех вычисленных вероятностей в значение для всего сообщения.
Байесовский классификатор является статистическим методом классификации. Он был выделен как эффективный метод для автоматического построения спам фильтрации с хорошей производительностью. Простой статистический классификатор, который вычисляет набор вероятностей путем подсчета частоты и комбинации значений в данном наборе данных. Он основывается на Теореме Байеса со строгими предположениями независимости среди признаков. Метод определяет спам путём нахождения в теле письма признаков спама – заранее определённых строк или их комбинаций. Некоторые слова имеют определенную вероятность появления в спаме или не спаме.
В данном методе классификатор для идентификации спама в электронной почте использует набор слов, а сообщения представляются в виде набора слов. Набор слов всегда используется в методах классификации документов или сообщений, где частота встречаемости каждого слова используется в качестве признака для обучения классификатора. Этот набор слов включен в выбранные наборы данных.
Общий алгоритм работы этого метода состоит из двух циклов:
Обучение фильтра – производится анализ множество писем, про которые заранее достоверно известно, являются ли они спамом. Для каждого встреченного слова из этих писем вычисляется вес - оценка вероятности того, что письмо с этим словом является спамом. Общая формула этого вычисления имеет вид:
- вероятность того, что данное письмо является спамом, если в нем встречается слово .
- вероятность того, что спам в письме состоит из определенного слова .
- вероятность того, что письмо содержит спам.
- вероятность того, что письмо со спамом содержит определенное слово .
- вероятность того, что письмо не является спамом.
После расчёта этой вероятности результат сравнивается с некоторым заранее определённым пороговым значением и принимается решение, к какому классу отнести сообщение.
Анализ сообщений – входящее почтовое сообщение сканируется на предмет наличия слов, для которых известен вес. Далее делается «наивное» предположение, что все эти слова являются независимыми событиями, то есть частота появления одного слова никак не зависит от частоты появления других.
Данный метод обладает рядом преимуществ, которые делают системы, построенные на его основе, самыми популярными на сегодняшний день решениями для классификации. Они просты во внедрении и удобны в использовании, при качественном обучении показывают высокие результаты.
Теорему Байеса можно использовать для классификации любых текстов, а не только спам. Применение байесовской теории, позволяет с достаточно большой вероятностью определять спам на основе анализа текста или слова. Он ориентирован только на работу с текстом. Метод не может классифицировать изображения или документы определённого формата.
Спам является большой проблемой, для решения которой создана система классификации. Существующие методы классификации имеют свои преимущества и недостатки. Для уменьшения ложных срабатываний, целесообразно будет использовать алгоритмы комбинированно.
Do'stlaringiz bilan baham: |