Масаланинг қўйилиши
:
nml
T
ва
1
nm
T
қуйидагича,
)
,
1
(
,...,
,
),
,
1
;
,
1
(
,...,
,
:
1
2
1
*
2
1
1
m
i
x
x
x
X
T
m
j
l
q
x
x
x
X
K
T
in
i
i
i
nm
q
jn
j
j
q
j
q
nml
=
=
=
=
=
(1)
берилган
ва
nml
T
даги
l
K
K
K
,..,
,
2
1
учун
p
q
K
K
p
q
,
бўлсин.
Талаб
этилади
:
nml
T
даги
m
n
,
ва
олдиндан
ўрнатилган
,
,
лар
асосида
ҳар
бир
Z
i
W
нинг
таркибига
кирувчи
jk
x
ларнинг
чекли
сонини
белгиловчи
)
,
,
,
,
(
0
n
m
f
n
=
нинг қийматини аниқлаш
;
Масалани eчиш услуби:
[1]да келтирилган алгоритмларда
nml
T
даги
)
,
1
(
l
q
K
q
=
лардаги
j
Z
ларга нисбатан ҳосил қилиниши мумкин бўлган барча
Z
i
W
лар сони
n
m
m
2
*
=
(2)
104
аниқланади.
Бу ерда
m
-
nml
T
даги
j
Z
лар
сони. У ҳолда
*
m
та
Z
i
W
лар орасидан
0
n
та
jk
x
лардан
иборат
Z
i
W
ларни
танлаб олишнинг мумкин бўлган ҳолатлар
сони
0
0
2
n
m
n
C
N
=
(3)
аниқланади. Демак
,
j
Z
лар
ёрдамида
ҳосил
қилиниши
мумкин
бўлган
0
n
та
jk
x
лардан
иборат
Z
i
W
ларнинг барча ҳолатлар тўплами
N
аниқ бўлди.
У ҳолда
Z
i
W
ларни танлаб олишда
Вапник –
Червоненкиснинг иккинчи
теоремасидан фойдаланамиз [2].
Унинг мазмуни шундан иборатки, агар
nml
T
даги
q
K
га хос танлаб
олинадиган
jk
x
ларга мос
)
(
X
F
лар
q
K
даги
j
X
ларни
p
K
даги
j
X
лардан хатоли
ажратишда
частота билан ҳатоликка йўл қўйса, у ҳолда
(
)
−
1
ишончлилик
билан таъкидлаш мумкинки, ушбу
)
(
X
F
лар ёрдамида янги
*
i
X
ларни таниб
олишдаги ҳатолик эҳтимоли
)
(
+
сондан ошмайди, бу ерда
m
N
2
ln
ln
−
=
.
(4)
(4) муносабатни эътиборга олсак, қуйидаги хулосага келамиз, яъни
nml
T
даги
jk
x
лардан
p
K
га хос бўлган
jk
x
лар
тизимостилари ҳосил қилинганда ва
уларга мос қурилган
)
(
X
F
лар
q
K
даги
j
X
ларни
P
K
даги
j
X
лардан ажратишда
частота хатоликларга йўл қўйса,
у ҳолда
)
(
X
F
лар орасидан энг кичик
частота хатоликга йўл қўйган
)
(
X
F
лар аниқланади ва уларнинг ёрдамида янги
*
i
X
ларни
)
,
1
(
l
q
K
q
=
ларнинг бирига тегишли эканлигини аниқлашда рўй
берадиган хатолик эҳтимоли
)
(
+
дан ошмайди ва унинг ишончлилиги
)
1
(
−
ни қаноатлантиради.
У ҳолда (4) дан,
m
N
2
ln
ln
2
−
=
+
(5)
ҳосил
қиламиз.
Демак,
)
2
ln
ln
2
(ln
ln
0
n
m
n
N
+
+
=
. Ҳосил қилинган
N
ln
нинг қийматини (5)нинг чап
қисмига
қўямиз
ln
)2m
ε
n
m
n
2
+
+
=
+
+
(
)
2
ln
ln
2
(ln
0
.
Бундан
2
ln
ln
2
ln
ln
2
)
(
2
0
n
m
m
n
+
+
+
+
=
(6)
аниқлаймиз.
Шундай қилиб,
nml
T
даги
ҳар бир
q
K
даги
j
Z
лар ёрдамида танлаб
олинадиган
Z
i
W
лар
q
K
даги
j
X
ларни
p
K
даги
j
X
лардан ажратишда
частота
хатоликларга йўл қўйса, у ҳолда
Z
i
W
лар орасидан энг кичик
частота
хатоликга йўл қўядиган
Z
i
W
ларни аниқлаш учун танлаб олинадиган ҳар бир
Z
i
W
га қўшимча талаблар қўйилади.
Шундай қилиб, танланадиган
j
Z
i
W
ларнинг ҳар бири
nml
T
да
q
K
даги
j
X
ларни
p
K
даги
j
X
лардан
ажратишдаги хатолик эҳтимолини қаноатлантирса, у
105
ҳолда
j
Z
i
W
ларга мос қурилган
)
(
X
F
лар янги
*
i
X
ларни таниб олишда йўл
қўйиши
мумкин бўлган хатолик эҳтимоли
ε)
+
(
ошмайди
ва ушбу
хатоликнинг ишончлилиги
η
ни қаноатлантиради.
Дастурий таъминот
ва ҳисоблш эксперименти:
Юқорида
келтирилганлар асосида дастурий
таъминот
яратилди
.
2-
расм.
Z
i
W
ларни аниқлаш ва улар ёрдамида янги
*
i
X
ларни таниб олиш
.
Алгоритм ва дастур
3
,
300
,
30
T
)
3
;
300
;
30
(
=
=
=
l
m
n
эталон ва
8
,
30
T
)
8
;
30
(
1
=
=
m
n
назорат танловлар учун va
2
,
0
=
,
1
,
0
=
,
95
,
0
=
қийматлар берилганда
синовдан ўтказилди. Берилган қийматларда
0
n
нинг қиймати (6)га асосан
5
0
=
n
аниқланди.
5
0
=
n
га асосланиб учта синфнинг ҳар бири учун 5 та
белгилардан
иборат
ва
уларни
қаноатлантирувчи
мантиқий
классификаторлар тизимостилари шакллантирилди ва улар асосида 8 та янги
объект таниб олинди. 8 та янги объектдан 6 таси биринчи ва 2таси
иккинчи
синфга тегишли эканлиги аниқланди.
Адабиётлар
1.
Бекмуратов К.А Эталон танловдаги синфлар кeсишганда
классификаторлар тизимостиларини шакллантириш. «Информатика ва
Энергетика муаммолари» Ўзбекистон журнали. 2019 йил. №6.Тошкент.
2.
Вапник В.Н., Червоненкис А.Я. Теория распознавания образов
(статистические
проблемы
обучения).
-
М.: Наука, 1974.
-
415 с.
3.
Бекмуратов К.А.,
Бекмуратов Д.К.
Последовательный выбор
признаков, обладающих требуемой разделяющей силой
. XI -
Международная
106
научно
-
практическая конференция. "Научные перспективы
XXI
века.
Достижения и перспективы нового столетия". Ежемесячный научный журнал
№4(11) / 2015, часть 4. Россия, г. Новосибирск, 22
-
23.05, 2015 г. 9
-
13 с.
ISSN
34567-1769. 18-
19 май 2015 г. Новосибирск.
-
5 с
.
4.
Бекмуратов К.А., Ахатов А.Р.,
Бекмуратов Д.К.
Формирование
сложных признаковых пространств
r-
го ранга, обеспечивающих качество и
надежность распознавания. «Проблемы вычислительной и прикладной
математики». Научный
журнал, №1(19), 2019.ТУИТ, Ташкент. (
ISSN: 2181-
8460). 24-
38 с.
ПРИМЕНЕНИЕ ТЕОРИЯ КОНЕЧНЫХ АВТОМАТОВ ДЛЯ
МОРФЕМНОГО РАЗБОР ИМЕН СУЩЕСТВИТЕЛЬНЫХ В
УЗБЕКСКОМ ЯЗЫКЕ
Бакаев И. И.
1
,
Шафиев Т.Р
1
1
Научно
-
инновационный центр информационно
-
коммуникационных
технологий при ТУИТ
, bakayev2101@gmail.com
Огромный поток информации в Интернете привел к быстрому
развитию индустрии обработки естественного языка (NLP). Различные
поисковые системы в настоящее время развивают свои проекты, такие как
обмен информацией между пользователями, машинный перевод
информации, проверка писем на спам
-
фильтр и обработка систем "вопрос
-
ответ". Однако есть проблемы который из
-
за недостаточного изучение
структуры некоторых языков, результат поиска не полностью соответствуют
потребностям пользователя.
На сегодняшней день, один из проблем поисковых систем это
морфологический и морфемный анализ слов, который сталкивается при
обработке запросов пользователей. Примером таких языков является
узбекский, который относится к семьи турецких языков. Из
-
за влияния
арабского, персидского и русского языков структура языка стало более
сложным. Для решения таких проблем используя морфологический анализ и
морфемный анализ слов, которые выдаёт более точные результаты на
поисковых запросах.
Исходя из вышесказанного, целю данной статьи является подробный
анализ и разработка алгоритма для морфологического и морфемного анализа
узбекского языка, где учитывается в словообразовании аффиксы(суффиксы),
аффиксоиды, аффиксы и другие формы суффиксов для имен
существительных.
А также разработка качественного алгоритма для
описание морфемного разбора имен существительных и морфологического
анализа узбекского языка с конечных автоматов.
Узбекский язык является одним из агглютинативных языков тюркской
семьи. В этом языке каждое грамматическое значение выражается
отдельными аффиксами [1]. Термин аффикс в грамматиках узбекского языка,
как и в грамматиках других тюркских языков принять в обобщенном
107
значении. Под ним подразумеваются префиксы, инфиксы, суффиксы,
окончание, приставки [3]. В узбекском языке словообразовательные аффиксы
(суффикс) обычно добавляются после корня слов, а затем в слова
добавляются окончания (аффикс принадлежности, падежные аффиксы) [2].
Правила взаимосвязи узбекского имени существительного и аффиксов
Введём некоторые условные переменные для показа правила
взаимосвязи узбекского имени существительного и аффиксов
W
–
словоформа,
1
2
{w , w ,..., w }
n
W
=
K
–
корень слова
SX
–
словообразовательные аффиксы (суффикс)
AF
–
аффиксы (аффикси субъективной отценки, аффикс
множественное число, принадлежности, падежные)
Например
,
sinf+dosh+lar+im+ga.
(своим одноклассникам).
корень+ {суффикс} +{аффикс}
+ -
операция конкатенация символьных строчек
-
0,1, …n последовательных операция конкатенация.
Формально описывающий математические модель образование для
словоформ имен существительных:
4
1
0
0
n
j
i
j
i
W
K
sx
af
=
=
= +
+
Обобщенно можно описать образования имен существительных с
помощью конечных автоматов (КА) в следующим виде:
0
(
, ,
, , ),
n
M
W Q q F
=
−
конечный автомат:
M
−
входной алфавит:
,
,
W
K SX AF
=
−
множества состояний:
0
1
3
, ,
Q
q q q
=
−
Функция перехода:
:
( , )
Q W
Q
Q W
→
−
начальное состояние:
0
0
, (
);
q
Q
q
−
множество конечных состояний:
,(
);
F F
Q
1-
рис.
КА
для разбора имен существительных
Описываем значение функции переходов для КА имен существительных:
108
0
1
1
2
1
3
2
3
3
3
(
,
)
( ,
)
( ,
)
(
,
)
(
,
)
q K
q
q SX
q
q AF
q
q AF
q
q AF
q
=
=
=
=
=
Как видно из вышеуказанного КА, он допускает словоформ имен
существительных с формулой (1).
КА допускает словоформ при состояние
q
2
,
q
3
.
Можно преобразовать данный КА в КА с единственным конечным
состоянием:
2-
рис.
Приведенный КА для разбора имен существительных с единственным
конечным состоянием
Описание морфемного
разбора имен существительных с помощи конечных
автоматов
Словоформа
W
допускается с помощью КА если
1
2
,
,...,
n
W
W W
W
=
Если
0
1
, ,...,
n
r r
r
: последовательности состояний, что
1)
0
0
r
q
=
2)
1
(
,
),
1...
i
i
i
r
r
W i
n
−
=
=
3)
n
r
F
Значение функции переходов для приведенного КА:
q
0
-
начальное состояние
0
1
1
2
1
2
2
2
2
3
2
3
3
3
( , )
( ,
)
( , )
( ,
)
( ,
)
( , )
( ,
)
q K
q
q SX
q
q
q
q SX
q
q AF
q
q
q
q AF
q
=
=
=
=
=
=
=
Сделан качественный и комплексный анализ научных исследований,
связанных с проблемой морфологической анализа
узбекского языка. Так же
исследовано модели и алгоритмы использования суффиксов для
агглютинативного семейства языков.
Для исследования модели морфологического анализа узбекского языка
предложено
математическая
модель,
которая
учитывает
в
109
словообразовательные суффиксы, аффиксоиды и другие формы аффиксов
для имен существительных.
На основе созданного математической модели разработана алгоритм
морфемного разбора и группу преднадлежность слоформ с помощи
конечного автоматов, которая поддерживает разбор словоформ
принадлежащий лексическому категорию имен существительных.
Do'stlaringiz bilan baham: |