Диссертация на соискание ученой степени кандидата технических наук Научный доктор технических наук, профессор Смагин Алексей

Модель базы данных интернет–форума

Download 5,86 Mb.

bet	18/43
Sana	10.07.2022
Hajmi	5,86 Mb.
	#771943
Turi	Диссертация

1 ... 14 15 16 17 18 19 20 21 ... 43

Bog'liq
INFO I.S dissert PoletaevVS

Модель потока текстовых сообщений

Модель базы данных интернет–форума

При создании интернет–форумов наибольшей популярностью пользуются программные платформы перечисленные ниже:

Invision Power Board (IPB);
Vanilla;
PunBB;
vBulletin;
phpBB;
XenForo;
Simple Machines Forum (SMF).

При реализации перечисленных выше программных платформ используются базы данных, структуры которых существенно различаются. Вместе с тем, в каждой из них данные хранятся таким образом, что позволяют для текстовых сообщений определять их принадлежность к конкретному форуму, автору, рейтингу автора, времени создания, теме форума, а также количеству сообщений темы форума. В связи с этим сформирована структура базы данных (модель) интернет–форумов (рисунок 2.3.).
Разработанная модель базы данных тематического интернет–форума, отличающаяся универсальностью, что позволяет исследовать и анализировать данные интернет–ресурсов, реализованных на базе наиболее популярных программных платформ для создания дискуссионных тематических информационных ресурсов. Применяя данную модель, при прогнозировании угроз и уязвимостей информационной безопасности могут анализироваться большинство существующих тематических интернет–ресурсов, независимо от конкретной платформы, используемой при их реализации.

Рисунок 2.3 – Логическая модель базы данных интернет–форумов

Модель потока текстовых сообщений

Каждое сообщение в отдельности представляет собой структуру, состоящую из следующих связанных между собой элементов (рисунок 2.4):
Рисунок 2.4 – Структура сообщения интернет–форума

Потоком текстовых сообщений является множество текстовых сообщений интернет–форумов, создаваемых пользователями.

В связи с тем, что моделирование потока текстовых сообщений тематических интернет–ресурсов осуществляется в целях последующего прогнозирование угроз и уязвимостей информационной безопасности, при построении модели требуется предусмотреть возможность осуществления статистического и семантического анализа сообщений, учитывая принадлежность к конкретному форуму, автору, рейтингу автора, времени создания, теме форума, а также количеству сообщений темы форума.
Как упоминалось ранее, в настоящее время онтология является наиболее эффективным средством для описания конкретной предметной области. Онтологический подход заключается в представлении предметной области в виде организованной совокупности понятий, учитывая существующие между ними связи и их свойства [83].
В общем виде модель потока текстовых сообщений, относящихся к предметной области, заданной онтологией, будет представлена тройкой:
_S_ M , O,T _,₍₂_.₁₎
где S_– поток текстовых сообщений в текущий момент времени τ;

– множество сообщений в потоке;
– онтология предметной области;
= * + – множество периодов времени, в которые велось наблюдение за потоком сообщений (часов, дней, месяцев и т.д.).
O  E, R, F _, _(2.2)
где – множество терминов предметной области;
– множество отношений между терминами предметной области;
– множество заданных на терминах и отношениях онтологии функций интерпретации (аксиоматизации) [32].
Каждое сообщение 𝑑 ∈ M представляется в виде:
^𝑑⁼⁽^𝑠^,^𝑡^,^𝐹𝑑^,^А^{), (2.3)}

^где^𝑠^—^текст^{сообщения,}^𝑡^∈^{1,…,τ}^—^момент^{времени}^{создания}^{сообщения;}^𝐹𝑑
= {w₁, …, w_k} – вектор, представляющий сообщение в предметной области, заданной онтологией O, k – количество терминов в онтологии O, координаты w_i (i
= 1, ... ,k) – веса терминов в сообщении, А – рейтинг автора сообщения.
При расчете весов используется модель ТF–IDF (Term frequency – Inverse document frequency), в соответствии с которой вес термина сообщения прямо пропорционален частоте его вхождения в сообщение и обратно пропорционален количеству сообщений, в которых встречается [6]:

𝑤_i
= 𝐹_i
· log (^𝐷) , (2.4)
𝐷𝐹_i

где 𝑤_i– вес термина i в сообщении;
𝐹_i– частота термина i в сообщении; D – общее количество сообщений;
𝐹_i– количество сообщений, в которых встречается термин i.
Указанная модель не учитывает того, что сообщения могут иметь различную длину, в связи с чем, частота термина и соответственно его вес будут уменьшаться при увеличении длины сообщений. По этой причине производится нормирование весов терминов в сообщении, делением их на евклидову норму (т.е. длину вектора–сообщения):

_w^*_^w i _^wi
(2.5)

i _d
Разработанная модель потока текстовых сообщений, относящихся к предметной области, заданной онтологией, отличается возможностью проводить семантическую фильтрацию сообщений и статистический анализ, учитывая принадлежность к конкретному форуму, автору, рейтингу автора, времени создания, теме форума, а также количеству сообщений темы форума, что позволяет осуществлять исследование и анализ данных тематических информационных ресурсов.

Download 5,86 Mb.

Do'stlaringiz bilan baham:

1 ... 14 15 16 17 18 19 20 21 ... 43

Диссертация на соискание ученой степени кандидата технических наук Научный доктор технических наук, профессор Смагин Алексей

Модель базы данных интернет–форума

Модель базы данных интернет–форума

Модель потока текстовых сообщений