Альманах научных работ молодых ученых
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1
31
В данной области проводятся многочисленные исследования и разработка все более
новых методов и подходов для решения проблемы защищенности Интернет-пользователей
от вредоносного контента. Это применение «черных» и «белых» списков, использование
систем родительского контроля, входящих в состав антивирусного программного
обеспечения или же в виде самостоятельных решений, а также использование функции
«безопасного поиска» в различных web-сервисах [2].
В данных системах блокировки нежелательного контента на
первый план выходит
необходимость минимизации количества ложных срабатываний, ведь если система будет
систематически блокировать подозрительные на ее взгляд ресурсы, которые на самом деле
не представляют никакой опасности, пользователь, скорее всего, просто отключит ее [3]. Для
решения этой проблемы необходимо разработать алгоритмы, позволяющие успешно
относить веб-сайты к определенным классам с необходимой точностью. Задача точной
классификации содержимого веб-страниц усложняется тем, что классификатор,
предназначенный для анализа страницы на одном языке, может некорректно работать со
страницей на другом, тем самым, повышая риск получения пользователем нежелательного
или запрещенного контента. В данной
работе был предложен подход, основанный на
использовании машинного перевода текста, содержащегося на веб-страницах, на язык,
понятный классификатору.
В общем случае для определения тематического наполнения веб-страницы может
использоваться следующая информация: текст, HTML-структура, URL-адрес, медиаконтент
(изображения, видезаписи и т.д.).
Классификация веб-страниц по URL-адресу может быть осуществлена при условии, что
адрес отражает тематику веб-сайта [4]. Достоинством данного подхода является то, что адрес
сайта в большинстве случаев представляет собой набор (или элементы) английских слов, что
позволяет унифицировать классификаторы. Главным недостатком является то, что
смысловое содержание URL-адреса не всегда соответствует содержимому сайта.
Подход к классификации веб-сайтов, основанный на анализе структуры страниц
(HTML-тегов), позволяет выделять из содержимого веб-страницы ключевые поля, такие как
заголовки, названия разделов, подписи и др. Это позволяет не анализировать всю страницу
целиком, а лишь наиболее важные ее части (например, заголовки, тексты ссылок, ключевые
слова и т.д.), что существенно повышает качество работы классификатора по сравнению с
анализом полного текста. Недостатком подхода является возможное отсутствие
соответствующих тегов. Кроме того, структурные признаки веб-страниц позволяют выявить
такие категории сайтов как чаты и блоги за счет схожей структуры страниц. Данный подход
позволяет с высокой степенью точности отнести веб-страницу к классу, основанному на
структурных признаках сайта, но не подходит для классификации, основанной на смысловых
признаках.
Для классификации веб-страницы по признаку
возрастной принадлежности, а также
наличию нежелательной или запрещенной для распространения информации наиболее
эффективным и широко используемым является анализ текстового содержания веб-
страниц.
Классификация текстового содержимого может осуществляться полностью вручную,
либо полуавтоматически с помощью созданного вручную набора правил, либо
автоматически с применением методов машинного обучения. При этом, несмотря на
высокую точность, ручная классификация дорога и неприменима в случаях, когда
необходимо классифицировать большое количество веб-страниц с высокой скоростью.
Другой подход основан на формировании набора правил, по которым можно отнести
текст к той или иной категории. Этот подход лучше предыдущего,
поскольку процесс
классификации автоматизируется и, следовательно, количество обрабатываемых документов
практически не ограничено. Более того, построение правил вручную может дать лучшую
Альманах научных работ молодых ученых
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1
32
точность классификации. Однако создание и поддержание правил в актуальном состоянии
требует постоянных усилий специалиста.
Основываясь на анализе описанных раннее недостатков, в настоящем исследовании
был использован третий подход к классификации текстов, основанный на машинном
обучении (Data Mining). В этом подходе «набор правил» или, как принято называть,
критерий принятия решения текстового классификатора, вычисляется автоматически из
обучающих данных (другими словами, производится обучение классификатора).
В настоящее время классификация сайтов по результатам анализа текста,
содержащегося на веб-странице, производится с очень высокой степенью точности. Однако
существуют веб-страницы на иностранных языках, к которым классификатор может быть не
адаптирован. В подобных ситуациях переходят к другим методам классификации:
1. анализ объектов на странице, не связанных с текстом (например, медиаконтент);
2. создание нового классификатора с использованием обучающей выборки;
3. использование автоматического перевода иностранного текста.
Анализ изображений и другого контента,
размещенного на веб-странице, безусловно,
может сыграть очень важную роль в процессе выбора класса, которому принадлежит
анализируемая страница, но далеко не всегда на веб-страницах размещенный контент
соответствует ее содержанию, поэтому предлагаемый метод может использоваться лишь как
дополнение к тестовому анализу.
Метод классификации с обучением классификатора с использованием обучающей
выборки позволит адаптировать классификатор к иностранному языку и научить работать со
страницами на анализируемом языке в дальнейшем, но обучение классификатора очень
ресурсозатратно.
По этой причине в данной работе был использован метод автоматического
(машинного) перевода иностранного текста на язык, понятный классификатору, и
исследовалась зависимость точности его работы от перевода.
Системы автоматического (машинного) перевода – программы, осуществляющие
полностью автоматизированный перевод. Главным критерием программы является качество
перевода.
Так как необходимо использовать
машинный перевод текста, размещенного на веб-
сайте на язык, понятный классификатору, рассмотрим системы машинного перевода
текста.
Примерами таких систем могут являться: Google Translate, Яндекс.Переводчик,
PROMT, Bing, Webtran.
Выделим основные характеристики для сравнения систем машинного перевода.
1. Возможность автоматического определения языка. Так как текст, содержащийся на сайте,
может быть написан на разных языках,
необходимо, чтобы определение этого языка
производилось автоматически.
2. Количество поддерживаемых языков. Так как сайты могут содержать информацию на
различных языках, то чем больше языков поддерживает система машинного перевода, тем
более вероятна успешная классификация сайта.
3. Возможность автоматического выбора стилистической направленности текста, что
повысит качество перевода.
4. Возможность
перевода
устойчивых
выражений
(фразеологизмы,
устойчивые
словосочетания).
5. Возможность перевода больших объемов текста. Так как на сайтах может содержаться
неограниченное количество текстовой информации, то необходимо, чтобы система
машинного перевода могла обрабатывать большое количество текстовой информации [5].
Сравнительная характеристика выбранных систем машинного перевода по заданным
критериям представлена в таблице.
Альманах научных работ молодых ученых
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1
33
Таблица. Сравнение систем машинного перевода
Критерии
Системы
Google
Translate
Яндекс.
Перевод
PROMT
Bing
Webtran
Автоматическое
определение языка
+
+
+
+
–
Количество
поддерживаемых
языков
103
95
17
62
102
Выбор стиля текста
+
+
+
–
–
Перевод устойчивых
выражений
+
+
+
–
+
Перевод больших
объемов текста
+
+
–
+
+
В результате анализа систем машинного перевода, была выбрана наилучшая система по
параметрам, необходимым для перевода информации, содержащейся на сайтах: Google
Translate.
В результате выполнения работы был проведен анализ имеющихся подходов к
классификации веб-сайтов. Классификация веб-сайтов может быть основана на анализе
URL-адресов, HTML-тегов и текстового содержимого. Так как первые два подхода не всегда
характеризуют смысловое наполнение сайта, выбранным подходом является подход,
основанный на анализе текстового содержимого сайта.
В связи с тем, что текстовая информация на иностранном языке, размещенная на сайте,
может быть не понятна классификатору, необходимо использовать дополнительные методы
классификации веб-сайта. Имеются также такие методы классификации веб-сайтов как по
медиасодержимому, другим параметрам, не связанным с текстовым содержимым.
Данные
методы ресурсозатратны и не всегда позволяют определить категорию сайта. В связи с этим
для обработки текстового содержимого сайтов, написанных на языках, неизвестных
классификатору, необходимо использование автоматического перевода исходного текста на
необходимый язык. Был проведен анализ существующих систем автоматического перевода.
Рассмотрены современные системы машинного перевода, а также проведен сравнительный
анализ по выбранным характеристикам.
Do'stlaringiz bilan baham: