Использованная литература:
1.
https://www.mayoclinic.org/diseases-conditions/meningitis/symptoms-causes/syc-
20350508
2.
https://ru.m.wikipedia.org/wiki/%D0%9C%D0%B5%D0%BD%D0%B8%D0%BD
%D0%B3%D0%B8%D1%82
3.
https://www.kp.ru/guide/meningit.html
143
ФИО автора:
Ахмедов Э.Ю.
(MSc, ассистент, кафедра программный
инжиниринг, Ургенчский филиал Ташкентского университета информационных
технологий имени Мухаммада ал-Хорезмий, “ Современные тенденции и
актуальные вопросы применения цифровых технологий в социально-
экономической сфере.”
Название
публикации:
«ОБРАБОТКИ
ЕСТЕСТВЕННОГО
ЯЗЫКА.
МОРФОЛОГИЧЕСКИЙ АНАЛИЗ»
Аннотация.
Сегодня наблюдается взрывной рост количества информации,
создаваемой людьми и машинами на естественном языке. Основной частью
таких данных являются неструктурированные данные, такие как фотографии,
видеозаписи, аудиозаписи, а также тексты на естественном языке.
Язык обладает многозначностью, которая проявляется на разных уровнях:
от уровня отдельных звуков в устной речи до уровня значения отдельных слов и
предложений в письменном тексте. Проблема машинного понимания
естественного языка является сложной и требует специальных автоматических
методов.
Ключевые слова.
анализа и синтеза естественных языков, машинный
перевод, нормализация текста, алгоритмический стемминг, лемматизация.
На сегодняшний одной из важных нерешенных проблем является задача
разработки моделей, методов и алгоритмов построения семантической сети на
основе слабо структурированных языковых ресурсов без использования
дополнительных высококачественных баз знаний в процессе построения.
Обработка естественного языка - общее направление искусственного
интеллекта
и
математической
лингвистики,
изучающее
проблемы
компьютерного анализа и синтеза естественных языков [1].
Морфологический анализ включает четыре компонентов:
- стемматизация;
- лемматизация;
- стемматизация;
144
- приписывание граммем;
- получение парадигм;
Для обсуждения принципы построения морфологических анализаторов
необходимо понятия из классической лингвистики.
Морфема - это наименьшая единица языка или минимальная значимая и
неделимая часть слова (корень, приставка, суффикс, окончание).
Корень - главная значимая часть слова. В корне заключено общее значение
однокоренных слов.
Аффикс – морфема, видоизменяющая слова, отражает отношение между
словами. Например, префикс и постфикс, а по-простому – приставка и суффикс.
Пример
розовый→роз-оват-ый («слегка, немного розовый»), танцевать→ за-танцевать
(«начать танцевать»), под-не-вольный, бес-при-данница.
Стемматизация – это процесс определения корень слова для заданного
слова, в ходе исследуемые слова организуются на базе выбранного принципа.
Пример
Для словоформ зеленый, зелень, зеленеть, зеленеющий в результате
стемматизации будет получена псевдооснова зелен.
Лемматизация – процесс опеределения словоформы к лемме, словарная
форма слова. Лемма имени существительного – это форма слова в единственном
числе (если оно есть у существительного) и именительном падеже. Словоформе
столов соответствует лемма СТОЛ.
Аналитические методы не рещають все задачи морфологического анализа,
трудно определить част речи и грамматические признаки словоформы.
Аналитические алгоритмы считаются эффективны индексации текстовых
массивов работы со словарями естественных языков. Рассмотрим подробно
следующие алгоритмы выделения основ:
- алгоритм Ловинса (Lovins, 1968);
- алгоритм Портера (Porter, 1980);
- алгоритм Пейса – Хаска (Paice/Husk, 1990) [2].
145
Морфологическому анализ считается для распознование языка
подготовительным этапом: текст разделяются на предложения, в каждом
предложении определяются слова, знаки припинания и другие элементы текста
– числа, формулы, таблицы. Этот этап называется токенизацией, а
разработанные результаты единицы (слова, числа, знаки припинания)
называется токенами [3].
Стемминг – процесс определения неизменяющейся основы заданного
слова (стеммы), которая необязательно совпадает с его морфологическим
корнем. Лемматизация – процесс приведения заданного слова к лемме, то есть к
его нормальной (словарной) форме. Стемминг и лемматизация преследуют одну
и ту же цель – сокращение флективных форм слов до их нормальной формы.
Отличие состоит в том, что алгоритмы стемминга действуют без понимания
контекста и разницы между словами, алгоритмы же лемматизации основаны на
применении словарей и морфологического анализа.
Хотя лемматизация это более тонкий и точный процесс, соответственно и
более ресурсоемкий, тем не менее у алгоритмов стемминга имеются свои
преимущества: скорость работы и простота внедрения. Кроме того, во многих
случаях низкая аккуратность в нахождении стемм может не иметь критически
важного значения.
К числу наиболее популярных реализаций алгоритмов стемминга,
разработанных к настоящему времени, относятся стеммеры Д.Б. Ловинс, М.
Портера, К. Пэйса и Г. Хаска (алгоритм Ланкастера). Большинство
алгоритмических стеммеров в той или иной степени являются производными от
них или их модификациями. Кроме того, имеют место алгоритмы стемминга,
основанные на статистическом, стохастическом и гибридном подходах,
например, Stemka, N- грамм стеммеры, Brute force стеммеры и т.д.
Существующие алгоритмы стемминга в подавляющем числе ориентированы на
синтетические языки, то есть те в которых преобладает формообразование с
использованием морфем.
146
Авторы
[4]
сравнивают алгоритмы стемминга Портера и Ланкастера.
Оценка выполнялась на основе ошибок результатов стемминга и визуализации
текстовых данных. В качестве исходных данных авторы использовали 10
текстовых документов, которые были выбраны случайным образом из Интернет
газет. Полученные авторами результаты показывают, что алгоритм Портера
работает эффективнее на 43%, чем алгоритм Ланкастера.
В работе
[5]
описывается алгоритм нормализации слов на основе
классификации окончаний и суффиксов. Общее количество которых составляет
26526 суффиксов и 3565 окончаний. Для всех частей речи построен конечный
автомат с учетом морфологических свойств казахского языка. Также авторами
разработан алгоритм стемминга без словаря на основе классификации
суффиксов и окончаний. Алгоритм протестирован на текстовых корпусах
казахского языка.
Авторами работы
[6]
предложен алгоритм на основе морфологических
правил персидского языка, работающий по принципу снизу вверх. Алгоритм
состоит из трех этапов: подстроковые теги, соответствие правил, соответствие
антиправил. Всего задано 252 правил и 20 антиправил. На первом этапе
извлекаются морфологические свойства для всех возможных подстрок.
Определяются морфемы и их кластеры, а также основы слов (ядра). На этапе
соответствия правил для каждого ядра извлекаются соответствующие правила.
Неподходящие к правилам ядра переходят на следующий этап соответствия
антиправил. Алгоритм тестировался с помощью текстового корпуса «Hamshahri»
и показал корректное извлечение 90,1% основ слов.
В статье
[7]
разработан новый метод получения основы слов для разных
языков. Хотя эксперимент был проведён авторами только для английского и
персидского языков. Утверждается, что метод не зависит от морфологических
правил языка. В методе используется двуязычный словарь для определения
основ слов. Предложенный метод разделён на несколько этапов. На первом этапе
проводится кластеризация структурных и семантических сходств слов из
словаря. Далее из каждого кластера выбирается слово - кандидат. Эти кандидаты
147
используются для идентификации новых слов. Проведенные эксперименты
показывают, что для английского языка метод работает с точностью до 69,52%,
а для персидского языка - 70,32%.
Основной недостаток рассмотренных выше алгоритмов стемминга состоит
в том, что найденные с их помощью стеммы, далеко не всегда соответствуют
морфологическому корню слов. Обычно такие проблемы возникают в тех
случаях,
когда тип слова заранее неизвестен, либо словоформа образована в соотвествии
с несколькими правилами. Таким образом, происходит ситуация, выделенные
основы слов сами по себе не имеют смысла.
Узбекский язык является агглютинативным языком, отличающимся
полисемантичностью аффиксальных и служебных морфем. Несмотря на то, что
узбекский язык имеет множество отличий от английского языка, который также
считается агглютинативным, однако он в полной мере допускает применение
техники нормализации текстов на основе алгоритмов стемминга [8].
Целью данной работы является разработка метода нормализации текстов
на узбекском языке на основе стемминг алгоритма для обработки слов,
структурный тип которых известен заранее.
Do'stlaringiz bilan baham: |