Методы повышения показателей качества фильтрации dlp-систем на основе предметно-ориентированной морфологической модели естественного языка


Формирование множества гипотез о морфологических признаках



Download 1,32 Mb.
Pdf ko'rish
bet30/47
Sana22.02.2022
Hajmi1,32 Mb.
#102152
1   ...   26   27   28   29   30   31   32   33   ...   47
Bog'liq
Диссертация

2.3.3 Формирование множества гипотез о морфологических признаках 
слов в предложении 
Следующей подзадачей является формирование множества гипотез H о 
морфологических признаках слов в предложении. Для этого для каждого слова в 
предложении из словаря извлекается список возможных морфологических 
признаков. Далее, с помощью перестановки возможных морфологических 
признаков для каждого слова формируется искомое множество H
2.3.4 Поиск в множестве корректных шаблонов каждой из гипотез 
Полученное в первой части множество корректных шаблонов S предложений 
достаточно велико (2.3.1). Поиск перебором в таком множестве будет крайне 
неэффективен. В связи с этим предлагается организовать хранение множества 
корректных шаблонов с помощью словаря. 
В нашей реализации описываемого метода шаблон предложения s
i
представляет 
собой 
последовательность 
чисел, 
т.е. 
морфологические 
характеристики кодируются числами. 
t
i
 = {m
i
}, i=1,..., n, m
i
– закодированная морфологическая характеристика i-
го слова в предложении. 
В качестве примера можно рассмотреть шаблон, полученный из предложения 
«Документы были отправлены заказчику утром.». Для наглядности рассмотрим 
только один морфологический признак – часть речи. В нашем случае кодирование 
выполнялось следующим образом (Таблица 2.3.1).
Часть речи 
Код 
Существительное 0x0001 


67 
Глагол 
0x0002 
... 
Наречие 
0x0100 
Предлог 
0x0200 
Таблица 2.3.1. Кодирование частей речи числовыми значениями 
Таким образом, шаблон, полученный из указанного выше предложения, 
имеет вид: 
t = {1, 2, 2, 1, 256}. 
Для организации хранения и поиска по большому числу таких числовых 
последовательностей был выбран словарь неограниченной вложенности, где на 
каждом уровне ключем является код части речи, а значением – кортеж из словаря 
следующего уровня и числа, означающего количество встреч предложения с 
частями речи, которые были закодированны использованными числами. 
T[m
1
] [m
2
]… [m
n
] = (T
n+1
, N), где T
n+1
– словарь следующего уровня 
вложенности, а N – число встреч шаблона t
i
. 
Такая структура хранения довольно проста в реализации и использовании, и 
позволяет выполнять поиск по большому числу шаблонов предложений с 
приемлемой скоростью, что подтверждается экспериментом. 

Download 1,32 Mb.

Do'stlaringiz bilan baham:
1   ...   26   27   28   29   30   31   32   33   ...   47




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish