Методы повышения показателей качества фильтрации dlp-систем на основе предметно-ориентированной морфологической модели естественного языка


 Формирование множества корректных шаблонов предложений



Download 1,32 Mb.
Pdf ko'rish
bet29/47
Sana22.02.2022
Hajmi1,32 Mb.
#102152
1   ...   25   26   27   28   29   30   31   32   ...   47
Bog'liq
Диссертация

2.3.2 Формирование множества корректных шаблонов предложений 
Сформировать достаточное множество корректных шаблонов вручную не 
представляется возможным. Если рассматривать 14 частей речи (как один из 
морфологических признаков) и только предложения длиной до 10 слов, то 
мощность множества T, необходимого для анализа таких предложений, можно 
грубо оценить по следующей формуле: 

| ∑
. (2.3.1) 
Очевидно, что корректно разметить такое или сравнимое с таким число 
предложений за разумное время невозможно. Автоматическое решение этой 
подзадачи «напрямую» сталкивается с исходной решаемой проблемой – с 
проблемой автоматического определения морфологических признаков в 
предложениях.
Для решения этой подзадачи была использована следующая идея. Искомое 
множество T можно формировать на основе предложений, состоящих только из 
однозначных с точки зрения морфологических признаков слов. 
Таким образом, процесс формирования множества корректных шаблонов 
предложений состоит из следующих шагов.
1. Формирование морфологического словаря, в котором исключены все 
омонимы. 
2. Определение предложений, состоящих только из полученных на шаге 1 
слов. 
3. Создание шаблонов на основе полученных на шаге 2 предложений. 
4. Добавление полученных шаблонов в искомое множество. 
На шаге 1 для каждой словоформы в словаре ищется совпадающая с ней, но 
отличающаяся морфологическим описанием. Если найдены совпадающие 
словоформы, у которых отличается морфологические признаки, то эта 


66 
словоформа не добавляется в словарь. Те в создаваемый словарь попадают 
словоформы, которые имеют единственное морфологическое описание. 
Шаги 2–4 являются сугубо техническими и не представляют интереса. 
Описанный способ дает возможность получить необходимое множество T 
автоматически, без использования предварительно размеченных текстов. Таким 
образом, реализуется первая часть предлагаемого метода. 

Download 1,32 Mb.

Do'stlaringiz bilan baham:
1   ...   25   26   27   28   29   30   31   32   ...   47




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish