б) Случай, когда нет численных оценок, а есть только результаты
попарного сравнения
Пусть каждая альтернатива характеризуется n-свойствами и по каждому
из этих свойств проведена операция пожарного сравнения. Все операции
обладают свойствами транзитивности и антирефлексивности. Если сравнение
возможно для каждой пары альтернатив по каждому свойству, то оказывается
возможным все альтернативы ранжировать по каждому свойству, при этом
будет получен набор перестановок из альтернатив – матрица с n-столбцами (по
числу свойств) и m-строками (по числу альтернатив).
Пример модели принятия решения в условиях неопределённости.
В условиях неопределенности принцип выбора зависит, как отмечалось
выше, от характера противодействия противной стороны (внешней среды). В
тех случаях, когда среда «ведет себя» антагонистическим образом по
отношению к решению, выбранному органом управления системы, имеет
место ситуация, относящаяся к теории игр. Если среда «пассивна» (например,
это пассивная природа) и управляющему органу известно распределение
вероятностей на множестве состояний среды, то имеет место «игра с
природой», или «статистические решения». В общем случае возможна целая
градация ситуаций, определяющих стратегию поведения среды.
Рассмотрим далее информационную ситуацию, когда распределения
вероятностей на элементах состояния среды априори известны. Рассмотрим
простейший случай, не будем привлекать такие понятия, как функция
правдоподобия, функция потерь.
Итак, распределение вероятностей задано в виде ряда
𝑃 = (𝑝
1
, … , 𝑝
𝑗
, … , 𝑝
1
), 𝑝
𝑗
= 𝑃(𝜃 = 𝜃
𝑗
), ∑ 𝑃
𝑗
= 1
𝑛
1
где
𝜃
𝑗
– состояние среды.
Это одна из возможных простейших ситуаций. На практике расчет
априорного распределения вероятностей состояния среды производится либо
путем обработки статистического материала, либо аналитическими методами
на основании гипотез о поведении среды.
Обозначим:
1)
𝜒 = {𝜒
1
, … , 𝜒
𝑖
, … , 𝜒
𝑚
}
– множество возможных альтернатив –
вариантов принятия решения;
2)
𝜃 = {𝜃
1
, … , 𝜃
𝑗
, … , 𝜃
1
}
– множество возможных состояний среды,
причем вероятности этих состояний известны:
𝑃
𝑗
= 𝑃{𝜃 = 𝜃
𝑗
}
;
3)
Φ = {𝜙
1
, … , 𝜙
𝑡
, … , 𝜙
𝑟
}
– множество принципов (методов) выбора и
оценки принятого решения.
С методом выбора решения связано понятие оценочного функционала –
F
.
𝐹 = {𝑓
𝑖,𝑗
}
, где
f
i,j
– выигрыш (потеря), если при состоянии среды
𝜃
𝑗
∈ 𝜃
было принято решение
χ
i
∈
χ
.
Будем считать, что оценочный функционал имеет положительный
ингредиент и обозначается F
+
, если ставится задача достижения максимума:
max{f
i,j
}
. При отрицательном ингредиенте функционала F
-
лучшему решению
соответствует
min{f
i,j
}
.
Таким образом, ситуация принятия решения характеризуется тройкой
{θ, χ, F}
.
Соответственно может быть получена матрица значений оценочного
функционала (ситуационная матрица)
(
𝑓
1.1
𝑓
11.2
…
𝑓
1.𝑛
…
…
…
…
…
…
…
…
𝑓
𝑛.1
𝑓
𝑛.2
… 𝑓
𝑛.𝑛
)
Различным принципам выбора соответствуют определенные критерии
выбора – алгоритмы, которые определяют единственное оптимальное
решение или множество таких решений. Для рассматриваемой ситуации могут
быть использованы критерий Байесса, критерий минимакса (максимина),
критерий минимума дисперсии оценочного функционала и др.
Примеры решения оптимизационной задачи методом динамического
программирования
Динамическое программирование – метод оптимизации задач
(процессов, операций), решение которых может быть разбито на несколько
этапов, а целевая функция является соответственно аддитивной (или
мультипликативной).
Пусть задача (процесс) разбита на
n
этапов,
𝑖 = 1, 𝑛
̅̅̅̅̅
.
Целевая функция – суммарный выигрыш в задаче на максимум
(суммарные потери в задаче на минимум) запишется в виде
𝑊 = ∑ ∇𝑊
𝑖
𝑛
𝑖=1
где
∇𝑊
𝑖
– выигрыш (потери) на
i
-м этапе.
На каждом
i
-м этапе система (процесс) может находиться в одном
возможном для этого этапа состоянии – s
ki
, s
ki
∈
S
i
, здесь S
i
– множество всех
состояний системы (процесса) на i-м этапе. В каждом состоянии системы s
ki
может быть принято одно из возможных, согласно условиям задачи
(операции), решений (управлений) – a
j,ki
, где a
j,ki
∈
A
ki
, здесь A
ki
– множество
всех допустимых решений (управлений) при нахождении системы (процесса)
на i-м этапе в k-м состоянии.
В результате принятия решения система (процесс) переходит в s
l,i+1
состояние, при этом имеет место выигрыш (потери), равный
∇
W
k,i
(j).
Таким образом, в результате принятия j-го решения система (процесс)
перемещается с этапа i на этап i+1, при этом в зависимости от принятого
решения переходит из состояния s
k
в состояние s
l
, а целевая функция получает
приращение
∇
W
k,i
(j).
Существо метода заключается в том, что начиная с последнего этапа на
каждом i-м этапе для каждого k-го состояния ищется так называемый
условный оптимум W
+
k,i
, являющийся суммой текущего приращения целевой
функции и оптимального значения целевой функции от i+1 – го этапа до конца
процесса.
При этом в результате управления, принятого на i-м этапе, система
(процесс) перейдет на i+1-м этапе в состояние, зависящее от решения,
принятого на i-м этапе.
Основное рекуррентное соотношение метода запишется в виде
𝑊
𝑘,𝑖
+
= max
𝑗
{∇𝑊
𝑘,𝑖
(𝑗) + 𝑊
1,𝑖+1
+
(𝜑
𝑗
(𝑠
𝑘
→ 𝑠
1
))}
где
𝜑
𝑗
(𝑠
𝑘
→ 𝑠
1
)
– функция, определяющая, в какое состояние перейдет
система (процесс) из состояния k на этапе i при воздействии на систему
управления
a
j,ki
.
После последовательного вычисления всех условных оптимумов от
последнего n-го этапа до 1-го будет получен абсолютный оптимум и
определен вектор управлений
𝐴
опт
= (𝑎
1
, 𝑎
2
, … , 𝑎
𝑗,𝑘𝑖
, … , 𝑎
𝑛
)
, обеспечивающий
этот оптимум.
Do'stlaringiz bilan baham: |