30
критериям
достоверности,
трудоемкости
и
стоимости
обработки
информации. Обобщены возможности разработанных механизмов поиска,
распознавания, классификации и контроля достоверности по бинарным
метрикам, результаты анализа эффективности
обобщенного алгоритма
получены путем сравнения с эффективностью традиционной технологии
пакетной обработки данных. Доказано, что рекомендованные алгоритмы
достоверность информации ЭД повышают от двух до трех порядков;
коэффициенты трудоемкости и стоимости обработки информации снижаются
7-8 раз. Оптимизирован обобщенный алгоритм,
синтезирующий механизмы
поиска с полным перебором всех вариантов, эвристического поиска с
отжигом, со стохастическим моделированием по усеченной цепи Маркова.
Для
оценки
достоверности
информации
вводится
функция
соответствия
)
(
ij
F
элемента
ij
к элементу
ij
эталонной функции
)
(
*
ij
F
. Результат выполнения этой функции риска обусловливается
вероятностными
ситуациями
)
(
1
A
- появлением ошибок первого рода,
)
(
2
A
- появлением ошибок второго рода, где
1
A
- гипотеза о достоверности
элемента
ij
и
2
A - гипотеза о достоверности элемента
ij
. Функция риска
задаётся в
виде
2
1
)
(
)
(
2
1
A
A
A
A
+
=
,
1
A
,
2
A
- соответственно,
весовые
коэффициенты
)
(
1
A
и
)
(
2
A
.
Обозначено
в
виде
i
s
i
i
A
w
A
=
=1
1
1
)
(
,
i
w - весовое значение важности
ij
элемента
документа,
s = 1, 2, … ,16. Получены оценки функции риска по вероятности
ошибок
первого
рода
)
(
1
2
1
1
ij
A
p
D
z
z
P
+
=
,
D - общий интервал значений элемента
ij
документа;
)
(
1 1
ij
A
p
- априорная
вероятность появления ошибок типа
→
ij
ij
. Вероятность ошибки второго
рода
(
)
−
−
=
2
1
11
)
(
1
)
(
1
2
z
z
ij
A
dy
y
p
P
.
Для уменьшения общей вероятности необнаруженных ошибок первого
и второго родов определены экстремальные значения границ
1
z и
2
z - интервала
проверки соответствия
→
ij
ij
в их пределах. Оптимизация
заключается в нахождение частных производных, в проведении некоторых
преобразований в математическом выражение общей вероятности
необнаруженных ошибок, а также в определении оптимальных границ
опт
z
1
и
опт
z
2
.
Для Гауссовой функции получены следующие экстремальные значения
границ контроля
)]
(
1
[
2
1
2
1
A
z
z
опт
опт
−
=
=
,
- среднеквадратическое
отклонение функции распределения.
31
Исследована эффективность
разработанных алгоритмов, основанных
на использовании информационной избыточности различной природы по
коэффициенту выигрыша в достоверности (рис.2а) и коэффициенту
трудоемкости обработки информации (рис.2 б). график 1- алгоритм 1,
отражает результат использования статистических связей, график 2 -
алгоритм 2, логических связей, график 3- алгоритм 3,
структурно -
технологических связей, график 4 - алгоритм 4, семантических связей
элементов документа , полученных при
4
10
−
P
,
6
5
10
10
−
−
=
H
P
.
D
k T
Т
k
а)
б)
Рис. 2. Зависимости коэффициента выигрыша в достоверности
информации
D
k (рис. 2 а) и коэффициент трудоемкости обработки
информации
T оп. сек (рис. 2 б) от величины
12
6
10
10
=
l
десят. знак.
Коэффициент выигрыша достоверности рассчитывается по
P
P
k
H
D
=
.
Определено,
что
трудоемкость
традиционной
технологии
поэлементной обработки информации при
N=100
документах в четырех
ядерном процессоре равень
4
10
21
.
5
−
сек. А трудоемкость обработки
документов по предложенной технологии на основе обобщенного алгоритма
с параллельной обработки информации равень
4
10
17
.
0
−
сек. Алгоритмы,
использующие структурно- технологическую избыточность ЭД при
установленных показателях достоверности и
релевантности документов
скорости обработки информации существенно повышает.
В четвертой главе диссертации «
Программный комплекс
Do'stlaringiz bilan baham: