Санкт-Петербург



Download 10,56 Mb.
Pdf ko'rish
bet20/198
Sana24.02.2022
Hajmi10,56 Mb.
#209176
1   ...   16   17   18   19   20   21   22   23   ...   198
Bog'liq
1 almanakh 2018 tom1

Ключевые слова: Data Mining, анализ данных, защита от информации, категорирование веб-сайтов, 
автоматический перевод, системы машинного перевода. 
В настоящее время происходит постоянный рост объема доступной информации в сети 
Интернет. Не вся информация, содержащаяся на веб-страницах, является желательной к 
распространению. В Российской Федерации имеется перечень информации, распространение 
которой на территории страны запрещено. Перечень такой информации представлен в статье 
15.1 Федерального закона № 149-ФЗ «Об информации, информационных технологиях и о 
защите информации» [1]. 
Для защиты от этой нежелательной или запрещенной информации необходимо 
использовать эффективные механизмы, классифицирующие информацию и регулирующие 
доступ к ней. В первую очередь это важно для ограничения доступа к определенным видам 
информации по возрастным категориям, в частности, блокировки информации, 
запрещенной для просмотра детьми, а также защиты других пользователей от 
вредоносного контента. На сегодняшний день ограничение доступа достигается за счет 
ведения «черных» и «белых» списков, но данных подход не эффективен, так как 
количество сайтов растет с каждым днем, а базы запрещенных ресурсов не успевают за их 
темпом роста. 
Общей целью исследования является защита пользователей в сети Интернет от 
нежелательной или незаконной информации. 
Целью работы стал анализ возможности применения средств автоматического перевода 
текста для классификации веб-сайтов, содержащих текст на неизвестном языке. 
Для достижения поставленной цели необходимо было решить следующие задачи: 
1. провести анализ подходов к классификации веб-сайтов; 
2. провести анализ подходов к классификации текстов на разных языках; 
3. провести анализ существующих систем автоматического перевода. 
Проблема недостаточной защищенности интернет-пользователей от нежелательной или 
запрещенной информации является актуальной в настоящее время. Успехи в данной области 
очень важны, например, для противодействия пропаганде экстремистской деятельности, 
борьбы с распространением нелицензионных материалов и ограждения несовершеннолетних 
от неприемлемого контента. 


Альманах научных работ молодых ученых 
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1 
31 
В данной области проводятся многочисленные исследования и разработка все более 
новых методов и подходов для решения проблемы защищенности Интернет-пользователей 
от вредоносного контента. Это применение «черных» и «белых» списков, использование 
систем родительского контроля, входящих в состав антивирусного программного 
обеспечения или же в виде самостоятельных решений, а также использование функции 
«безопасного поиска» в различных web-сервисах [2]. 
В данных системах блокировки нежелательного контента на первый план выходит 
необходимость минимизации количества ложных срабатываний, ведь если система будет 
систематически блокировать подозрительные на ее взгляд ресурсы, которые на самом деле 
не представляют никакой опасности, пользователь, скорее всего, просто отключит ее [3]. Для 
решения этой проблемы необходимо разработать алгоритмы, позволяющие успешно 
относить веб-сайты к определенным классам с необходимой точностью. Задача точной 
классификации содержимого веб-страниц усложняется тем, что классификатор, 
предназначенный для анализа страницы на одном языке, может некорректно работать со 
страницей на другом, тем самым, повышая риск получения пользователем нежелательного 
или запрещенного контента. В данной работе был предложен подход, основанный на 
использовании машинного перевода текста, содержащегося на веб-страницах, на язык, 
понятный классификатору. 
В общем случае для определения тематического наполнения веб-страницы может 
использоваться следующая информация: текст, HTML-структура, URL-адрес, медиаконтент 
(изображения, видезаписи и т.д.). 
Классификация веб-страниц по URL-адресу может быть осуществлена при условии, что 
адрес отражает тематику веб-сайта [4]. Достоинством данного подхода является то, что адрес 
сайта в большинстве случаев представляет собой набор (или элементы) английских слов, что 
позволяет унифицировать классификаторы. Главным недостатком является то, что 
смысловое содержание URL-адреса не всегда соответствует содержимому сайта. 
Подход к классификации веб-сайтов, основанный на анализе структуры страниц 
(HTML-тегов), позволяет выделять из содержимого веб-страницы ключевые поля, такие как 
заголовки, названия разделов, подписи и др. Это позволяет не анализировать всю страницу 
целиком, а лишь наиболее важные ее части (например, заголовки, тексты ссылок, ключевые 
слова и т.д.), что существенно повышает качество работы классификатора по сравнению с 
анализом полного текста. Недостатком подхода является возможное отсутствие 
соответствующих тегов. Кроме того, структурные признаки веб-страниц позволяют выявить 
такие категории сайтов как чаты и блоги за счет схожей структуры страниц. Данный подход 
позволяет с высокой степенью точности отнести веб-страницу к классу, основанному на 
структурных признаках сайта, но не подходит для классификации, основанной на смысловых 
признаках. 
Для классификации веб-страницы по признаку возрастной принадлежности, а также 
наличию нежелательной или запрещенной для распространения информации наиболее 
эффективным и широко используемым является анализ текстового содержания веб-
страниц. 
Классификация текстового содержимого может осуществляться полностью вручную, 
либо полуавтоматически с помощью созданного вручную набора правил, либо 
автоматически с применением методов машинного обучения. При этом, несмотря на 
высокую точность, ручная классификация дорога и неприменима в случаях, когда 
необходимо классифицировать большое количество веб-страниц с высокой скоростью. 
Другой подход основан на формировании набора правил, по которым можно отнести 
текст к той или иной категории. Этот подход лучше предыдущего, поскольку процесс 
классификации автоматизируется и, следовательно, количество обрабатываемых документов 
практически не ограничено. Более того, построение правил вручную может дать лучшую 


Альманах научных работ молодых ученых 
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1 
32 
точность классификации. Однако создание и поддержание правил в актуальном состоянии 
требует постоянных усилий специалиста. 
Основываясь на анализе описанных раннее недостатков, в настоящем исследовании 
был использован третий подход к классификации текстов, основанный на машинном 
обучении (Data Mining). В этом подходе «набор правил» или, как принято называть, 
критерий принятия решения текстового классификатора, вычисляется автоматически из 
обучающих данных (другими словами, производится обучение классификатора). 
В настоящее время классификация сайтов по результатам анализа текста, 
содержащегося на веб-странице, производится с очень высокой степенью точности. Однако 
существуют веб-страницы на иностранных языках, к которым классификатор может быть не 
адаптирован. В подобных ситуациях переходят к другим методам классификации: 
1. анализ объектов на странице, не связанных с текстом (например, медиаконтент); 
2. создание нового классификатора с использованием обучающей выборки; 
3. использование автоматического перевода иностранного текста. 
Анализ изображений и другого контента, размещенного на веб-странице, безусловно, 
может сыграть очень важную роль в процессе выбора класса, которому принадлежит 
анализируемая страница, но далеко не всегда на веб-страницах размещенный контент 
соответствует ее содержанию, поэтому предлагаемый метод может использоваться лишь как 
дополнение к тестовому анализу. 
Метод классификации с обучением классификатора с использованием обучающей 
выборки позволит адаптировать классификатор к иностранному языку и научить работать со 
страницами на анализируемом языке в дальнейшем, но обучение классификатора очень 
ресурсозатратно. 
По этой причине в данной работе был использован метод автоматического 
(машинного) перевода иностранного текста на язык, понятный классификатору, и 
исследовалась зависимость точности его работы от перевода. 
Системы автоматического (машинного) перевода – программы, осуществляющие 
полностью автоматизированный перевод. Главным критерием программы является качество 
перевода. 
Так как необходимо использовать машинный перевод текста, размещенного на веб-
сайте на язык, понятный классификатору, рассмотрим системы машинного перевода 
текста. 
Примерами таких систем могут являться: Google Translate, Яндекс.Переводчик, 
PROMT, Bing, Webtran. 
Выделим основные характеристики для сравнения систем машинного перевода. 
1. Возможность автоматического определения языка. Так как текст, содержащийся на сайте, 
может быть написан на разных языках, необходимо, чтобы определение этого языка 
производилось автоматически. 
2. Количество поддерживаемых языков. Так как сайты могут содержать информацию на 
различных языках, то чем больше языков поддерживает система машинного перевода, тем 
более вероятна успешная классификация сайта. 
3. Возможность автоматического выбора стилистической направленности текста, что 
повысит качество перевода. 
4. Возможность 
перевода 
устойчивых 
выражений 
(фразеологизмы, 
устойчивые 
словосочетания). 
5. Возможность перевода больших объемов текста. Так как на сайтах может содержаться 
неограниченное количество текстовой информации, то необходимо, чтобы система 
машинного перевода могла обрабатывать большое количество текстовой информации [5]. 
Сравнительная характеристика выбранных систем машинного перевода по заданным 
критериям представлена в таблице. 


Альманах научных работ молодых ученых 
XLVII научной и учебно-методической конференции Университета ИТМО. Том 1 
33 
Таблица. Сравнение систем машинного перевода
Критерии 
Системы 
Google 
Translate 
Яндекс. 
Перевод 
PROMT 
Bing 
Webtran 
Автоматическое 
определение языка 




– 
Количество 
поддерживаемых 
языков 
103 
95 
17 
62 
102 
Выбор стиля текста 



– 
– 
Перевод устойчивых 
выражений 



– 

Перевод больших 
объемов текста 


– 


В результате анализа систем машинного перевода, была выбрана наилучшая система по 
параметрам, необходимым для перевода информации, содержащейся на сайтах: Google 
Translate. 
В результате выполнения работы был проведен анализ имеющихся подходов к 
классификации веб-сайтов. Классификация веб-сайтов может быть основана на анализе 
URL-адресов, HTML-тегов и текстового содержимого. Так как первые два подхода не всегда 
характеризуют смысловое наполнение сайта, выбранным подходом является подход, 
основанный на анализе текстового содержимого сайта. 
В связи с тем, что текстовая информация на иностранном языке, размещенная на сайте, 
может быть не понятна классификатору, необходимо использовать дополнительные методы 
классификации веб-сайта. Имеются также такие методы классификации веб-сайтов как по 
медиасодержимому, другим параметрам, не связанным с текстовым содержимым. Данные 
методы ресурсозатратны и не всегда позволяют определить категорию сайта. В связи с этим 
для обработки текстового содержимого сайтов, написанных на языках, неизвестных 
классификатору, необходимо использование автоматического перевода исходного текста на 
необходимый язык. Был проведен анализ существующих систем автоматического перевода. 
Рассмотрены современные системы машинного перевода, а также проведен сравнительный 
анализ по выбранным характеристикам. 

Download 10,56 Mb.

Do'stlaringiz bilan baham:
1   ...   16   17   18   19   20   21   22   23   ...   198




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish