ЭЛЕМЕНТЫ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ
Оптимизация непрерывных систем.
Выше говорилось о существовании обширного класса экономических и технических задач, в которых необходимо отыскать управление, представляющее собой некоторый многошаговый процесс принятия решения. Примером таких многошаговых процессов является управление дискретными системами, изменяющими свое состояние в соответствии с принятым управлением в некоторые дискретные моменты времени. Для решения задач оптимизации в таких системах предложен разработанный Р. Беллманом метод, получивший название динамического программирования.
Б основу метода положен интуитивно очевидный принцип, названный принципом оптимальности. В соответствии с этим принципом оптимальное управление определяется конечной целью управления и состоянием системы в рассматриваемый момент времени.
Приведем формулировку принципа оптимальности. Оптимальное поведение обладает тем свойством, что каковы бы ни были первоначальное состояние и решение е начальный момент, последующие решения должны составлять оптимальное поведение относительно состояния, получающегося в результате первого решения.
При использовании этого принципа оказывается возможным исходную сложную проблему отыскания многошагового управления заменить последовательным решением некоторого количества существенно более простых одношаговых задач оптимизации.
Смысл принципа оптимальности становится более ясным, если понять, что для любой оптимальной траектории каждый ее участок, связывающий любую промежуточную точку этой траектории с конечной, также является оптимальной траекторией.
Применим принцип оптимальности для оптимизации управления в непрерывных системах.
Рассмотрим задачу о минимизации функционала
(14.1)
для системы, поведение которой описывается совокупностью дифференциальных уравнений вида.
(14.2)
В соотношениях (14.1) и (14.2) использованы следующие обозначения: — вектор из области допустимых значений параметров системы, характеризующий состояние системы в данный момент времени; — вектор управления из области допустимых управлений Ω, В начальный момент времени t= 0, =н, время Т фиксировано.
Пусть в некоторый момент времени 0<τ<Т состояние системы характеризуется вектором (τ). Начиная с момента времени τ, в течение временного интервала продолжительностью Δτ используем некоторое произвольное управление uΔ (t) Ω. Тогда в соответствии с (14.2) в момент времени τ + Δτ система будет находиться в точке
Будем считать теперь, что, начиная с момента времени τ + Δτ и до конца, т.е. до t = T, используется оптимальное управление
Do'stlaringiz bilan baham: |