Международный научно-образовательный электронный журнал «образование и наука в XXI веке». Выпуск №27 (том 6)



Download 3,36 Mb.
Pdf ko'rish
bet57/92
Sana23.07.2022
Hajmi3,36 Mb.
#844959
TuriСборник
1   ...   53   54   55   56   57   58   59   60   ...   92
Bog'liq
ОИНВ21ВЕКЕ. Июнь 2022. Том 6

Использованная литература: 
1. 
https://www.mayoclinic.org/diseases-conditions/meningitis/symptoms-causes/syc-
20350508
 
2.
https://ru.m.wikipedia.org/wiki/%D0%9C%D0%B5%D0%BD%D0%B8%D0%BD
%D0%B3%D0%B8%D1%82
  
3. 
https://www.kp.ru/guide/meningit.html
  


143 
ФИО автора: 
Ахмедов Э.Ю. 
(MSc, ассистент, кафедра программный 
инжиниринг, Ургенчский филиал Ташкентского университета информационных 
технологий имени Мухаммада ал-Хорезмий, “ Современные тенденции и 
актуальные вопросы применения цифровых технологий в социально-
экономической сфере.”
 
Название 
публикации:
«ОБРАБОТКИ 
ЕСТЕСТВЕННОГО 
ЯЗЫКА. 
МОРФОЛОГИЧЕСКИЙ АНАЛИЗ» 
Аннотация.
Сегодня наблюдается взрывной рост количества информации, 
создаваемой людьми и машинами на естественном языке. Основной частью 
таких данных являются неструктурированные данные, такие как фотографии, 
видеозаписи, аудиозаписи, а также тексты на естественном языке. 
Язык обладает многозначностью, которая проявляется на разных уровнях: 
от уровня отдельных звуков в устной речи до уровня значения отдельных слов и 
предложений в письменном тексте. Проблема машинного понимания 
естественного языка является сложной и требует специальных автоматических 
методов. 
Ключевые слова. 
анализа и синтеза естественных языков, машинный 
перевод, нормализация текста, алгоритмический стемминг, лемматизация. 
На сегодняшний одной из важных нерешенных проблем является задача 
разработки моделей, методов и алгоритмов построения семантической сети на 
основе слабо структурированных языковых ресурсов без использования 
дополнительных высококачественных баз знаний в процессе построения. 
Обработка естественного языка - общее направление искусственного 
интеллекта 
и 
математической 
лингвистики, 
изучающее 
проблемы 
компьютерного анализа и синтеза естественных языков [1].
Морфологический анализ включает четыре компонентов: 
- стемматизация; 
- лемматизация; 
- стемматизация; 


144 
- приписывание граммем;
- получение парадигм; 
Для обсуждения принципы построения морфологических анализаторов
необходимо понятия из классической лингвистики. 
Морфема - это наименьшая единица языка или минимальная значимая и 
неделимая часть слова (корень, приставка, суффикс, окончание). 
Корень - главная значимая часть слова. В корне заключено общее значение 
однокоренных слов. 
Аффикс – морфема, видоизменяющая слова, отражает отношение между 
словами. Например, префикс и постфикс, а по-простому – приставка и суффикс. 
Пример 
розовый→роз-оват-ый («слегка, немного розовый»), танцевать→ за-танцевать 
(«начать танцевать»), под-не-вольный, бес-при-данница. 
Стемматизация – это процесс определения корень слова для заданного 
слова, в ходе исследуемые слова организуются на базе выбранного принципа. 
Пример
Для словоформ зеленый, зелень, зеленеть, зеленеющий в результате 
стемматизации будет получена псевдооснова зелен. 
Лемматизация – процесс опеределения словоформы к лемме, словарная 
форма слова. Лемма имени существительного – это форма слова в единственном 
числе (если оно есть у существительного) и именительном падеже. Словоформе 
столов соответствует лемма СТОЛ.
Аналитические методы не рещають все задачи морфологического анализа, 
трудно определить част речи и грамматические признаки словоформы. 
Аналитические алгоритмы считаются эффективны индексации текстовых 
массивов работы со словарями естественных языков. Рассмотрим подробно 
следующие алгоритмы выделения основ: 
- алгоритм Ловинса (Lovins, 1968); 
- алгоритм Портера (Porter, 1980); 
- алгоритм Пейса – Хаска (Paice/Husk, 1990) [2]. 


145 
Морфологическому анализ считается для распознование языка 
подготовительным этапом: текст разделяются на предложения, в каждом 
предложении определяются слова, знаки припинания и другие элементы текста 
– числа, формулы, таблицы. Этот этап называется токенизацией, а 
разработанные результаты единицы (слова, числа, знаки припинания) 
называется токенами [3]. 
Стемминг – процесс определения неизменяющейся основы заданного 
слова (стеммы), которая необязательно совпадает с его морфологическим 
корнем. Лемматизация – процесс приведения заданного слова к лемме, то есть к 
его нормальной (словарной) форме. Стемминг и лемматизация преследуют одну 
и ту же цель – сокращение флективных форм слов до их нормальной формы. 
Отличие состоит в том, что алгоритмы стемминга действуют без понимания 
контекста и разницы между словами, алгоритмы же лемматизации основаны на 
применении словарей и морфологического анализа. 
Хотя лемматизация это более тонкий и точный процесс, соответственно и 
более ресурсоемкий, тем не менее у алгоритмов стемминга имеются свои 
преимущества: скорость работы и простота внедрения. Кроме того, во многих 
случаях низкая аккуратность в нахождении стемм может не иметь критически 
важного значения. 
К числу наиболее популярных реализаций алгоритмов стемминга, 
разработанных к настоящему времени, относятся стеммеры Д.Б. Ловинс, М. 
Портера, К. Пэйса и Г. Хаска (алгоритм Ланкастера). Большинство 
алгоритмических стеммеров в той или иной степени являются производными от 
них или их модификациями. Кроме того, имеют место алгоритмы стемминга, 
основанные на статистическом, стохастическом и гибридном подходах, 
например, Stemka, N- грамм стеммеры, Brute force стеммеры и т.д. 
Существующие алгоритмы стемминга в подавляющем числе ориентированы на 
синтетические языки, то есть те в которых преобладает формообразование с 
использованием морфем. 


146 
Авторы 
[4] 
сравнивают алгоритмы стемминга Портера и Ланкастера. 
Оценка выполнялась на основе ошибок результатов стемминга и визуализации 
текстовых данных. В качестве исходных данных авторы использовали 10 
текстовых документов, которые были выбраны случайным образом из Интернет 
газет. Полученные авторами результаты показывают, что алгоритм Портера 
работает эффективнее на 43%, чем алгоритм Ланкастера. 
В работе 
[5] 
описывается алгоритм нормализации слов на основе 
классификации окончаний и суффиксов. Общее количество которых составляет 
26526 суффиксов и 3565 окончаний. Для всех частей речи построен конечный 
автомат с учетом морфологических свойств казахского языка. Также авторами 
разработан алгоритм стемминга без словаря на основе классификации 
суффиксов и окончаний. Алгоритм протестирован на текстовых корпусах 
казахского языка. 
Авторами работы 
[6] 
предложен алгоритм на основе морфологических 
правил персидского языка, работающий по принципу снизу вверх. Алгоритм 
состоит из трех этапов: подстроковые теги, соответствие правил, соответствие 
антиправил. Всего задано 252 правил и 20 антиправил. На первом этапе 
извлекаются морфологические свойства для всех возможных подстрок. 
Определяются морфемы и их кластеры, а также основы слов (ядра). На этапе 
соответствия правил для каждого ядра извлекаются соответствующие правила. 
Неподходящие к правилам ядра переходят на следующий этап соответствия 
антиправил. Алгоритм тестировался с помощью текстового корпуса «Hamshahri» 
и показал корректное извлечение 90,1% основ слов. 
В статье 
[7] 
разработан новый метод получения основы слов для разных 
языков. Хотя эксперимент был проведён авторами только для английского и 
персидского языков. Утверждается, что метод не зависит от морфологических 
правил языка. В методе используется двуязычный словарь для определения 
основ слов. Предложенный метод разделён на несколько этапов. На первом этапе 
проводится кластеризация структурных и семантических сходств слов из 
словаря. Далее из каждого кластера выбирается слово - кандидат. Эти кандидаты 


147 
используются для идентификации новых слов. Проведенные эксперименты 
показывают, что для английского языка метод работает с точностью до 69,52%, 
а для персидского языка - 70,32%. 
Основной недостаток рассмотренных выше алгоритмов стемминга состоит 
в том, что найденные с их помощью стеммы, далеко не всегда соответствуют 
морфологическому корню слов. Обычно такие проблемы возникают в тех 
случаях, 
когда тип слова заранее неизвестен, либо словоформа образована в соотвествии 
с несколькими правилами. Таким образом, происходит ситуация, выделенные 
основы слов сами по себе не имеют смысла. 
Узбекский язык является агглютинативным языком, отличающимся 
полисемантичностью аффиксальных и служебных морфем. Несмотря на то, что 
узбекский язык имеет множество отличий от английского языка, который также 
считается агглютинативным, однако он в полной мере допускает применение 
техники нормализации текстов на основе алгоритмов стемминга [8]. 
Целью данной работы является разработка метода нормализации текстов 
на узбекском языке на основе стемминг алгоритма для обработки слов, 
структурный тип которых известен заранее. 

Download 3,36 Mb.

Do'stlaringiz bilan baham:
1   ...   53   54   55   56   57   58   59   60   ...   92




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish