Модель базы данных интернет–форума
При создании интернет–форумов наибольшей популярностью пользуются программные платформы перечисленные ниже:
Invision Power Board (IPB);
Vanilla;
PunBB;
vBulletin;
phpBB;
XenForo;
Simple Machines Forum (SMF).
При реализации перечисленных выше программных платформ используются базы данных, структуры которых существенно различаются. Вместе с тем, в каждой из них данные хранятся таким образом, что позволяют для текстовых сообщений определять их принадлежность к конкретному форуму, автору, рейтингу автора, времени создания, теме форума, а также количеству сообщений темы форума. В связи с этим сформирована структура базы данных (модель) интернет–форумов (рисунок 2.3.).
Разработанная модель базы данных тематического интернет–форума, отличающаяся универсальностью, что позволяет исследовать и анализировать данные интернет–ресурсов, реализованных на базе наиболее популярных программных платформ для создания дискуссионных тематических информационных ресурсов. Применяя данную модель, при прогнозировании угроз и уязвимостей информационной безопасности могут анализироваться большинство существующих тематических интернет–ресурсов, независимо от конкретной платформы, используемой при их реализации.
Рисунок 2.3 – Логическая модель базы данных интернет–форумов
Модель потока текстовых сообщений
Каждое сообщение в отдельности представляет собой структуру, состоящую из следующих связанных между собой элементов (рисунок 2.4):
Рисунок 2.4 – Структура сообщения интернет–форума
Потоком текстовых сообщений является множество текстовых сообщений интернет–форумов, создаваемых пользователями.
В связи с тем, что моделирование потока текстовых сообщений тематических интернет–ресурсов осуществляется в целях последующего прогнозирование угроз и уязвимостей информационной безопасности, при построении модели требуется предусмотреть возможность осуществления статистического и семантического анализа сообщений, учитывая принадлежность к конкретному форуму, автору, рейтингу автора, времени создания, теме форума, а также количеству сообщений темы форума.
Как упоминалось ранее, в настоящее время онтология является наиболее эффективным средством для описания конкретной предметной области. Онтологический подход заключается в представлении предметной области в виде организованной совокупности понятий, учитывая существующие между ними связи и их свойства [83].
В общем виде модель потока текстовых сообщений, относящихся к предметной области, заданной онтологией, будет представлена тройкой:
S M , O,T , (2.1)
где S – поток текстовых сообщений в текущий момент времени τ;
– множество сообщений в потоке;
– онтология предметной области;
= * + – множество периодов времени, в которые велось наблюдение за потоком сообщений (часов, дней, месяцев и т.д.).
O E, R, F , (2.2)
где – множество терминов предметной области;
– множество отношений между терминами предметной области;
– множество заданных на терминах и отношениях онтологии функций интерпретации (аксиоматизации) [32].
Каждое сообщение 𝑑 ∈ M представляется в виде:
𝑑 = (𝑠, 𝑡, 𝐹𝑑, А), (2.3)
где 𝑠 — текст сообщения, 𝑡 ∈ {1,…,τ} — момент времени создания сообщения; 𝐹𝑑
= {w1, …, wk} – вектор, представляющий сообщение в предметной области, заданной онтологией O, k – количество терминов в онтологии O, координаты wi (i
= 1, ... ,k) – веса терминов в сообщении, А – рейтинг автора сообщения.
При расчете весов используется модель ТF–IDF (Term frequency – Inverse document frequency), в соответствии с которой вес термина сообщения прямо пропорционален частоте его вхождения в сообщение и обратно пропорционален количеству сообщений, в которых встречается [6]:
𝑤i
= 𝐹i
· log ( 𝐷 ) , (2.4)
𝐷𝐹i
где 𝑤i – вес термина i в сообщении;
𝐹i – частота термина i в сообщении; D – общее количество сообщений;
𝐹i – количество сообщений, в которых встречается термин i.
Указанная модель не учитывает того, что сообщения могут иметь различную длину, в связи с чем, частота термина и соответственно его вес будут уменьшаться при увеличении длины сообщений. По этой причине производится нормирование весов терминов в сообщении, делением их на евклидову норму (т.е. длину вектора–сообщения):
w* w i wi
(2.5)
i d
Разработанная модель потока текстовых сообщений, относящихся к предметной области, заданной онтологией, отличается возможностью проводить семантическую фильтрацию сообщений и статистический анализ, учитывая принадлежность к конкретному форуму, автору, рейтингу автора, времени создания, теме форума, а также количеству сообщений темы форума, что позволяет осуществлять исследование и анализ данных тематических информационных ресурсов.
Do'stlaringiz bilan baham: |