Масаланинг қўйилиши:
nml
T
ва
1
nm
T
қуйидагича,
)
,
1
(
,...,
,
),
,
1
;
,
1
(
,...,
,
:
1
2
1
*
2
1
1
m
i
x
x
x
X
T
m
j
l
q
x
x
x
X
K
T
in
i
i
i
nm
q
jn
j
j
q
j
q
nml
=
=
=
=
=
(1)
берилган ва
nml
T
даги
l
K
K
K
,..,
,
2
1
учун
p
q
K
K
p
q
,
бўлсин.
Талаб этилади:
nml
T
даги m
n, ва олдиндан ўрнатилган
,
,
лар асосида
ҳар бир
Z
i
W
нинг таркибига кирувчи
jk
x
ларнинг чекли сонини белгиловчи
)
,
,
,
,
(
0
n
m
f
n =
нинг қийматини аниқлаш;
Масалани eчиш услуби: [1]да келтирилган алгоритмларда
nml
T
даги
)
,
1
(
l
q
K
q
=
лардаги
j
Z
ларга нисбатан ҳосил қилиниши мумкин бўлган барча
Z
i
W
лар сони
n
m
m
2
*
=
(2)
104
аниқланади. Бу ерда
m
-
nml
T
даги
j
Z
лар сони. У ҳолда
*
m
та
Z
i
W
лар орасидан
0
n
та
jk
x
лардан иборат
Z
i
W
ларни танлаб олишнинг мумкин бўлган ҳолатлар
сони
0
0
2
n
m
n
C
N
=
(3)
аниқланади. Демак,
j
Z
лар ёрдамида ҳосил қилиниши мумкин бўлган
0
n
та
jk
x
лардан иборат
Z
i
W
ларнинг барча ҳолатлар тўплами
N
аниқ бўлди.
У ҳолда
Z
i
W
ларни танлаб олишда Вапник – Червоненкиснинг иккинчи
теоремасидан фойдаланамиз [2].
Унинг мазмуни шундан иборатки, агар
nml
T
даги
q
K
га хос танлаб
олинадиган
jk
x
ларга мос
)
(X
F
лар
q
K
даги
j
X
ларни
p
K
даги
j
X
лардан хатоли
ажратишда
частота билан ҳатоликка йўл қўйса, у ҳолда
(
)
−
1
ишончлилик
билан таъкидлаш мумкинки, ушбу
)
(X
F
лар ёрдамида янги
*
i
X
ларни таниб
олишдаги ҳатолик эҳтимоли
)
(
+
сондан ошмайди, бу ерда
m
N
2
ln
ln
−
=
.
(4)
(4) муносабатни эътиборга олсак, қуйидаги хулосага келамиз, яъни
nml
T
даги
jk
x
лардан
p
K
га хос бўлган
jk
x
лар тизимостилари ҳосил қилинганда ва
уларга мос қурилган
)
(X
F
лар
q
K
даги
j
X
ларни
P
K
даги
j
X
лардан ажратишда
частота хатоликларга йўл қўйса, у ҳолда
)
(X
F
лар орасидан энг кичик
частота хатоликга йўл қўйган
)
(X
F
лар аниқланади ва уларнинг ёрдамида янги
*
i
X
ларни
)
,
1
(
l
q
K
q
=
ларнинг бирига тегишли эканлигини аниқлашда рўй
берадиган хатолик эҳтимоли
)
(
+
дан ошмайди ва унинг ишончлилиги
)
1
(
−
ни қаноатлантиради.
У ҳолда (4) дан,
m
N
2
ln
ln
2
−
=
+
(5) ҳосил қиламиз. Демак,
)
2
ln
ln
2
(ln
ln
0
n
m
n
N
+
+
=
. Ҳосил қилинган
N
ln
нинг қийматини (5)нинг чап
қисмига қўямиз
ln
)2m
ε
n
m
n
2
+
+
=
+
+
(
)
2
ln
ln
2
(ln
0
. Бундан
2
ln
ln
2
ln
ln
2
)
(
2
0
n
m
m
n
+
+
+
+
=
(6)
аниқлаймиз.
Шундай қилиб,
nml
T
даги ҳар бир
q
K
даги
j
Z
лар ёрдамида танлаб
олинадиган
Z
i
W
лар
q
K
даги
j
X
ларни
p
K
даги
j
X
лардан ажратишда
частота
хатоликларга йўл қўйса, у ҳолда
Z
i
W
лар орасидан энг кичик
частота
хатоликга йўл қўядиган
Z
i
W
ларни аниқлаш учун танлаб олинадиган ҳар бир
Z
i
W
га қўшимча талаблар қўйилади.
Шундай қилиб, танланадиган
j
Z
i
W
ларнинг ҳар бири
nml
T
да
q
K
даги
j
X
ларни
p
K
даги
j
X
лардан ажратишдаги хатолик эҳтимолини қаноатлантирса, у
105
ҳолда
j
Z
i
W
ларга мос қурилган
)
(X
F
лар янги
*
i
X
ларни таниб олишда йўл
қўйиши мумкин бўлган хатолик эҳтимоли
ε)
+
(
ошмайди ва ушбу
хатоликнинг ишончлилиги
η
ни қаноатлантиради.
Дастурий
таъминот
ва
ҳисоблш
эксперименти:
Юқорида
келтирилганлар асосида дастурий таъминот яратилди.
2-расм.
Z
i
W
ларни аниқлаш ва улар ёрдамида янги
*
i
X
ларни таниб олиш.
Алгоритм ва дастур
3
,
300
,
30
T
)
3
;
300
;
30
(
=
=
=
l
m
n
эталон ва
8
,
30
T
)
8
;
30
(
1
=
=
m
n
назорат танловлар учун va
2
,
0
=
,
1
,
0
=
,
95
,
0
=
қийматлар берилганда
синовдан ўтказилди. Берилган қийматларда
0
n
нинг қиймати (6)га асосан
5
0
=
n
аниқланди.
5
0
=
n
га асосланиб учта синфнинг ҳар бири учун 5 та
белгилардан
иборат
ва
уларни
қаноатлантирувчи
мантиқий
классификаторлар тизимостилари шакллантирилди ва улар асосида 8 та янги
объект таниб олинди. 8 та янги объектдан 6 таси биринчи ва 2таси иккинчи
синфга тегишли эканлиги аниқланди.
Адабиётлар
1. Бекмуратов
К.А Эталон танловдаги синфлар кeсишганда
классификаторлар тизимостиларини шакллантириш. «Информатика ва
Энергетика муаммолари» Ўзбекистон журнали. 2019 йил. №6.Тошкент.
2. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов
(статистические проблемы обучения). - М.: Наука, 1974.-415 с.
3. Бекмуратов К.А., Бекмуратов Д.К. Последовательный выбор
признаков, обладающих требуемой разделяющей силой. XI - Международная
106
научно-практическая конференция. "Научные перспективы XXI века.
Достижения и перспективы нового столетия". Ежемесячный научный журнал
№4(11) / 2015, часть 4. Россия, г. Новосибирск, 22-23.05, 2015 г. 9-13 с. ISSN
34567-1769. 18-19 май 2015 г. Новосибирск.-5 с.
4. Бекмуратов К.А., Ахатов А.Р., Бекмуратов Д.К. Формирование
сложных признаковых пространств r-го ранга, обеспечивающих качество и
надежность распознавания. «Проблемы вычислительной и прикладной
математики». Научный журнал, №1(19), 2019.ТУИТ, Ташкент. (ISSN: 2181-
8460). 24-38 с.
ПРИМЕНЕНИЕ ТЕОРИЯ КОНЕЧНЫХ АВТОМАТОВ ДЛЯ
МОРФЕМНОГО РАЗБОР ИМЕН СУЩЕСТВИТЕЛЬНЫХ В
УЗБЕКСКОМ ЯЗЫКЕ
Бакаев И. И.
1
, Шафиев Т.Р
1
1
Научно-инновационный центр информационно-коммуникационных
технологий при ТУИТ, bakayev2101@gmail.com
Огромный поток информации в Интернете привел к быстрому
развитию индустрии обработки естественного языка (NLP). Различные
поисковые системы в настоящее время развивают свои проекты, такие как
обмен
информацией
между
пользователями,
машинный
перевод
информации, проверка писем на спам-фильтр и обработка систем "вопрос-
ответ". Однако есть проблемы который из-за недостаточного изучение
структуры некоторых языков, результат поиска не полностью соответствуют
потребностям пользователя.
На сегодняшней день, один из проблем поисковых систем это
морфологический и морфемный анализ слов, который сталкивается при
обработке запросов пользователей. Примером таких языков является
узбекский, который относится к семьи турецких языков. Из-за влияния
арабского, персидского и русского языков структура языка стало более
сложным. Для решения таких проблем используя морфологический анализ и
морфемный анализ слов, которые выдаёт более точные результаты на
поисковых запросах.
Исходя из вышесказанного, целю данной статьи является подробный
анализ и разработка алгоритма для морфологического и морфемного анализа
узбекского языка, где учитывается в словообразовании аффиксы(суффиксы),
аффиксоиды, аффиксы и другие формы суффиксов для имен
существительных. А также разработка качественного алгоритма для
описание морфемного разбора имен существительных и морфологического
анализа узбекского языка с конечных автоматов.
Узбекский язык является одним из агглютинативных языков тюркской
семьи. В этом языке каждое грамматическое значение выражается
отдельными аффиксами [1]. Термин аффикс в грамматиках узбекского языка,
как и в грамматиках других тюркских языков принять в обобщенном
107
значении. Под ним подразумеваются префиксы, инфиксы, суффиксы,
окончание, приставки [3]. В узбекском языке словообразовательные аффиксы
(суффикс) обычно добавляются после корня слов, а затем в слова
добавляются окончания (аффикс принадлежности, падежные аффиксы) [2].
Правила взаимосвязи узбекского имени существительного и аффиксов
Введём некоторые условные переменные для показа правила
взаимосвязи узбекского имени существительного и аффиксов
W – словоформа,
1
2
{w , w ,..., w }
n
W =
K – корень слова
SX – словообразовательные аффиксы (суффикс)
AF
–
аффиксы
(аффикси
субъективной
отценки,
аффикс
множественное число, принадлежности, падежные)
Например,
sinf+dosh+lar+im+ga. (своим одноклассникам).
корень+ {суффикс} +{аффикс}
+ - операция конкатенация символьных строчек
- 0,1, …n последовательных операция конкатенация.
Формально описывающий математические модель образование для
словоформ имен существительных:
4
1
0
0
n
j
i
j
i
W
K
sx
af
=
=
= +
+
Обобщенно можно описать образования имен существительных с
помощью конечных автоматов (КА) в следующим виде:
0
(
, ,
, , ),
n
M
W Q q F
=
− конечный автомат: M
− входной алфавит:
,
,
W
K SX AF
=
− множества состояний:
0
1
3
, ,
Q
q q q
=
− Функция перехода:
:
( , ) Q W
Q
Q W
→
− начальное состояние:
0
0
, (
);
q
Q
q
− множество конечных состояний:
,(
);
F F
Q
1-рис. КА для разбора имен существительных
Описываем значение функции переходов для КА имен существительных:
108
0
1
1
2
1
3
2
3
3
3
(
,
)
( ,
)
( ,
)
(
,
)
(
,
)
q K
q
q SX
q
q AF
q
q AF
q
q AF
q
=
=
=
=
=
Как видно из вышеуказанного КА, он допускает словоформ имен
существительных с формулой (1). КА допускает словоформ при состояние q
2
,
q
3
.
Можно преобразовать данный КА в КА с единственным конечным
состоянием:
2-рис. Приведенный КА для разбора имен существительных с единственным
конечным состоянием
Описание морфемного разбора имен существительных с помощи конечных
автоматов
Словоформа W допускается с помощью КА если
1
2
,
,...,
n
W
W W
W
=
Если
0
1
, ,...,
n
r r
r
: последовательности состояний, что
1)
0
0
r
q
=
2)
1
(
,
),
1...
i
i
i
r
r W i
n
−
=
=
3)
n
r
F
Значение функции переходов для приведенного КА:
q
0
-начальное состояние
0
1
1
2
1
2
2
2
2
3
2
3
3
3
( , )
( ,
)
( , )
( ,
)
( ,
)
( , )
( ,
)
q K
q
q SX
q
q
q
q SX
q
q AF
q
q
q
q AF
q
=
=
=
=
=
=
=
Сделан качественный и комплексный анализ научных исследований,
связанных с проблемой морфологической анализа узбекского языка. Так же
исследовано модели и алгоритмы использования суффиксов для
агглютинативного семейства языков.
Для исследования модели морфологического анализа узбекского языка
предложено
математическая
модель,
которая
учитывает
в
109
словообразовательные суффиксы, аффиксоиды и другие формы аффиксов
для имен существительных.
На основе созданного математической модели разработана алгоритм
морфемного разбора и группу преднадлежность слоформ с помощи
конечного
автоматов,
которая
поддерживает
разбор
словоформ
принадлежащий лексическому категорию имен существительных.
Литература
1. Hozirgi o’zbek adabiy tili . 1,2,3- kitoblar. ( Akademik litsey va kasb-
hunar kollejlari ning 1,2,3 bosqich talabalari uchun darslik.) ( Qayta ishlangan 3-
nashr) - T.: “ILM ZIYO ” , 2015.-576 b.
2. B. Mengliуev, B. Bahriddinova. O`zbek tilining so`z tarkibi o`quv lug`ati.
(Maktab o`quvchilari uchun) –T. : «Yangi asr avlodi», 2007- 59 b.
3. Е. А. ЛЕВАШОВ. Еще раз об аффиксоидах. http://sldi.ru/chto-takoe-
affiksoid-primery-affiksoidov. [дата обращение: 24.01.2020]
Do'stlaringiz bilan baham: |