Статьи Соросовского Образовательного журнала в текстовом формате
Теория оптимального управления является частью современной теории экстремальных задач. В статье приводится постановка нескольких задач оптимального управления и обсуждаются некоторые методы их решения.
ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯВ. Б. КОЛМАНОВСКИЙ
Московский государственный институт электроники
и математики (технический университет)
ВВЕДЕНИЕ
Задачи оптимального управления относятся к теории экстремальных задач, то есть задач определения максимальных и минимальных значений. Уже то обстоятельство, что в этой фразе встретилось несколько латинских слов (maximum - наибольшее, minimum - наименьшее, extremum - крайнее, optimus - оптимальное), указывает, что теория экстремальных задач была предметом исследования с древних времен. О некоторых таких задачах писали еще Аристотель (384-322 годы до н.э.), Евклид (III в. до н.э.) и Архимед (287-212 годы до н.э.). Основание города Карфагена (825 год до н.э.) легенда ассоциирует с древнейшей задачей определения замкнутой плоской кривой, охватывающей фигуру максимально возможной площади. Подобные задачи именуются изопериметрическими. Характерной особенностью экстремальных задач является то, что их постановка была порождена актуальными запросами развития общества. Более того, начиная с XVII века доминирующим становится представление о том, что законы окружающего нас мира являются следствием некоторых вариационных принципов. Первым из них был принцип П. Ферма (1660 год), в соответствии с которым траектория света, распространяющегося от одной точки к другой, должна быть такова, чтобы время прохождения света вдоль этой траектории было минимально возможным. Впоследствии были предложены различные широко используемые в естествознании вариационные принципы, например: принцип стационарного действия У.Р. Гамильтона (1834 год), принцип виртуальных перемещений, принцип наименьшего принуждения и др. Параллельно развивались и методы решения экстремальных задач. Около 1630 года Ферма сформулировал метод исследования на экстремум для полиномов, состоящий в том, что в точке экстремума производная равняется нулю. Для общего случая этот метод получен И. Ньютоном (1671) и Г.В. Лейбницем (1684), работы которых знаменуют зарождение математического анализа.
Начало развития классического вариационного исчисления датируется появлением в 1696 году статьи И. Бернулли (ученика Лейбница), в которой сформулирована постановка задачи о кривой, соединяющей две точки А и В, двигаясь по которой из точки А в В под действием силы тяжести материальная точка достигнет В за минимально возможное время. В рамках классического вариационного исчисления в XVIII-XIX веках установлены необходимые условие экстремума первого порядка (Л. Эйлер, Ж.Л. Лагранж), позднее развиты необходимые и достаточные условия второго порядка (К.Т.В. Вейерштрасс, А.М. Лежандр, К.Г.Я. Якоби), построены теория Гамильтона-Якоби и теория поля (Д. Гильберт, А. Кнезер).
Дальнейшее развитие теории экстремальных задач привело в XX веке к созданию линейного программирования, выпуклого анализа, математического программирования, теории минимакса и некоторых иных разделов, одним из которых является теория оптимального управления. Эта теория подобно другим направлениям теории экстремальных задач, возникла в связи с актуальными задачами автоматического регулирования в конце 40-х годов (управление лифтом в шахте с целью наискорейшей остановки его, управление движением ракет, стабилизация мощности гидроэлектростанций и др.).
Заметим, что постановки отдельных задач, которые могут быть интерпретированы как задачи оптимального управления, встречались и ранее, например в "Математических началах натуральной философии" И. Ньютона (1687). Сюда же относятся и задача Р. Годдарда (1919) о подъеме ракеты на заданную высоту с минимальными затратами топлива и двойственная ей задача о подъеме ракеты на максимальную высоту при заданном количестве топлива.
За прошедшее время были установлены фундаментальные принципы теории оптимального управления: принцип максимума и метод динамического программирования. Указанные принципы представляют собой развитие классического вариационного исчисления для исследования задач, содержащих сложные ограничения на управление. Сейчас теория оптимального управления переживает период бурного развития как в связи с наличием трудных и интересных математических проблем, так и в связи с обилием приложений, в том числе и в таких областях, как экономика, биология, медицина, ядерная энергетика и др.
1. ПОСТАНОВКА ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ
Постановка любой конкретной задачи оптимального управления включает в себя ряд факторов: математическую модель управляемого объекта, цель управления (именуемую иногда критерием качества), различного рода ограничения на траекторию системы, управляющее воздействие, длительность процесса управления, класс допустимых управлений и т.д. Остановимся на этих факторах подробнее.
1.1. Модели объекта
В зависимости от вида рассматриваемого явления и желаемой степени детализации его изучения могут быть использованы различные типы уравнений: обыкновенные дифференциальные уравнения, уравнения с последействием, стохастические уравнения, уравнения в частных производных и т.д. Предположим ради определенности, что эволюция объекта описывается системой обыкновенных дифференциальных уравнений
Здесь u k R m - управление, x k R n - фазовый вектор системы, f k R n - заданная функция, R n - евклидово пространство размерности n. Придавая управлению u различные возможные значения, получаем различные состояния объекта, среди которых и выбирается оптимальное (то есть наилучшее) в том или ином смысле.
Пример 1. Рассмотрим прямолинейное движение тела постоянной массы m под действием управляющего воздействия u, создаваемого установленным на теле двигателем. Обозначим через x координату центра масс тела и предположим, что никакие другие силы на тело не действуют. Тогда в соответствии со вторым законом Ньютона уравнение движения тела имеет вид . Последнее уравнение эквивалентно системе двух уравнений первого порядка .
Пример 2. Охота, рыбная ловля, вырубка леса и т.д. представляют собой способы управления окружающей средой. Рассмотрим популяцию, численность которой x(t) в момент t регулируется с помощью управляющего воздействия u. Тогда для моделирования изменения x(t) может быть использовано уравнение П.Ф. Ферхюльста (1836)
где l и K - положительные параметры. Уравнение (2) возникает при моделировании рака костного мозга (миеломы), в этом случае x(t) - количество клеток миеломы, а член ux(t) отражает предположение, что больные клетки погибают прямо пропорционально концентрации введенного лекарства и размеру опухоли. Иногда более удовлетворительного соответствия можно достичь, если использовать уравнение (2) с запаздыванием n $ 0
которое именуется уравнением Г.Е. Хатчинсона (1948).
Иные модели управления численностью популяций описываются уравнениями в частных производных, уравнениями В. Вольтерра, стохастическими уравнениями и др. и учитывают такие факторы, как миграцию, неоднородность плотности расселения, неоднородность по возрастам и т.д.
1.2. Критерий качества
(минимизируемый функционал)
Управление системой (1) осуществляется для достижения некоторых целей, которые формально записываются в терминах минимизации по u функционалов J, определяемых управлением и и траекторией х, где
Здесь F и j - заданные скалярные функции. Задача (1), (3) именуется задачей О. Больца; если F ╞ 0, то задачей А. Майера и, наконец, задачей Лагранжа при j ╞ 0.
1.3. Ограничения на траекторию
В некоторых реальных ситуациях траектория системы не может принадлежать тем или иным частям пространства R n. Указанное обстоятельство находит отражение в ограничении вида x(t) k G(t), где G(t) - заданная область в R n. В зависимости от конкретного типа этих ограничений выделяют различные классы задач управления. В задачах с фиксированными концами начальное состояние x(t0) и конечное состояние x(T ) заданы. Если же x(t0) (или x(T )) не задано, то получаем задачу со свободным левым (правым) концом. Задача с подвижными концами - это задача, в которой моменты t0 и T фиксированы, а векторы x(t0) и x(T ) принадлежат соответственно областям G(t0) и G(T ). В ряде случаев ограничения носят интегральный характер и имеют вид
Если в задаче (1), (3) начальное положение x(t0) и конечное x(T ) заданы, моменты начала движения t0 и окончания T свободны, функция j ╞ 0 и F ╞ 1, то получаем задачу о переводе системы (1) из положения x(t0) в положение x(T ) за минимально возможное время. Подобного рода задачи именуются задачами оптимальными по быстродействию.
1.4. Ограничения на управление
Информационные ограничения на управление зависят от того, какая именно информация о системе (1) доступна при выработке управляющего воздействия. Если вектор x(t) недоступен измерению, то оптимальное управление ищется в классе функций u(t), зависящих только от t. В этом случае оптимальное управление именуется программным. Если же вектор x(t) известен точно при t0 # t # T, то оптимальное управление ищется в классе функционалов и называется синтезом оптимального управления (или управлением по принципу обратной связи). Здесь означает всю траекторию движения на отрезке t0 # s # t. Отметим, что принцип обратной связи является одним из центральных принципов кибернетики [1]. Техническим примером реализации принципа обратной связи являются центробежные регуляторы И.И. Ползунова (1766) и Дж. Уатта (1784), авиационный автопилот Д. Ольховского (1912) и братьев Сперри (1914), гидравлический усилитель Л. Фарко (1873).
Кроме информационных ограничений возможен и другой тип ограничений, обусловленный ограниченностью ресурсов управления, имеющих вид u(t) k U(t), где U(t) ? R m- заданное множество.
Подчеркнем, что для детерминированных задач (то есть задач, в которых уравнения движения, критерий качества и ограничения известны точно) оптимальное значение критерия качества (3), реализуемое в классе программных управлений и управлений по принципу обратной связи, одно и то же.
2. УСЛОВИЯ ОПТИМАЛЬНОСТИ
2.1. Принцип максимума [2]
Принцип максимума соответствует принципу Вейерштрасса и методу канонических уравнений Гамильтона в классическом вариационном исчислении. Сформулируем необходимые условия оптимальности в форме принципа максимума для задач Майера
Здесь U ? R m - заданное множество, x0 - заданное начальное положение системы. Введем в рассмотрение скалярную функцию Н и вектор сопряженных переменных y k R n с помощью соотношений
где штрих - знак транспонирования.
Предположим, что u(t) - оптимальное управление, а x(t) и y(t) - соответствующие траектория и вектор сопряженных переменных, удовлетворяющие уравнениям (4), (5). Тогда функция H(t, x(t), u, y(t)) достигает своего максимума по u k U в точке u(t)
Найдем из соотношения (6) зависимость u от t, y, x, то есть
u = u(t, x(t), y(t)).
Далее подставим (7) в (4), (5). В результате получим краевую задачу для системы обыкновенных дифференциальных уравнений относительно функций x(t) и y(t), среди решений которой только и может находиться оптимальная траектория. Если оптимальная траектория x(t) и вектор y(t) найдены, то оптимальное управление дается выражением (7). Отметим, однако, что поскольку соотношения (4)-(6) суть лишь необходимые условия оптимальности, то необходимо дополнительное обоснование оптимальности траектории и управления, найденных из соотношений (4)-(6).
2.2. Метод динамического программирования [3]
Метод динамического программирования является аналогом метода Гамильтона-Якоби, в котором изучается все поле оптимальных траекторий. Опишем применение метода динамического программирования для задачи (4). Выберем и зафиксируем произвольный момент времени t k [t0 , T ] и рассмотрим вспомогательную задачу управления (4) на отрезке [t, T ]. Обозначим через V(t, x) минимальное значение критерия качества во вспомогательной задаче при начальном условии x(t) = x, где х - произвольный вектор из R n. При некоторых предположениях функция V(t, x) удовлетворяет соотношениям
Решив задачу (8) и определив функцию V(t, x), можно затем найти синтез оптимального управления u(t, x) из соотношения
Возможность определять именно синтез оптимального управления является характерной чертой метода динамического программирования, особенно существенной в задачах управления при неполной информации. Использование метода динамического программирования при решении конкретных задач сопряжено с необходимостью решать нелинейное уравнение в частных производных (8), а также с необходимостью дополнительного исследования оптимальности управления, полученного из (9).
2.3. Линейно-квадратичная задача
Выше была описана универсальная техника решения задач оптимального управления, основанная на применении принципа максимума или метода динамического программирования. Наряду с этими методами при исследовании специальных классов задач оптимального управления могут быть использованы специальные приемы, эффективные именно для данного класса задач. Преимущество этих специальных приемов состоит в том, что с их помощью иногда можно проще осуществить аналогичное исследование рассматриваемой конкретной задачи.
Один из таких подходов, опирающийся на теорию двойственности выпуклых функций [4], эффективен для задач, линейных по фазовым координатам. При этом вычисление минимума критерия качества в исходной задаче сводится к вычислению максимума некоторого вспомогательного функционала. Это, в частности, дает возможность изучать задачи, в которых оптимального управления не существует. Другой подход, эффективный для линейных задач (то есть задач линейных и по фазовым координатам, и по управлениям), основан на использовании классической проблемы моментов [5].
Отмеченные выше трудности использования общих необходимых условий оптимальности также приводят к необходимости выделения конкретных классов задач, для которых оказывается возможным эффективное построение решения. Линейная квадратичная задача представляет собой один из таких классов. Проиллюстрируем применение к ней принципа максимума и метода динамического программирования на следующем скалярном примере:
Здесь a, b, g, h, T - заданные постоянные, причем g $ 0, h > 0, начальное положение системы x0 также задано, ограничения на управление отсутствуют. Требуется определить оптимальное управление системой (10) и соответствующее этому оптимальному управлению минимальное значение критерия качества (11). Применим вначале принцип максимума. Функция H = y(ax + bu) + gx2 + hu2. Поэтому уравнение (5) для сопряженной переменной y имеет вид
Условие максимума функции Н по и приводит к равенству ?H / ?u = 0. Следовательно, 2hu + yb = 0, то есть
Подставим выражение (13) для оптимального управления в уравнение (10). В результате получим краевую задачу относительно переменных х и y
Будем искать функцию y(t) в виде y(t) = 2P(t)x(t), где функция P(t) подлежит определению. С учетом (13) оптимальное управление тогда равняется
Кроме того, подставляя выражение для y(t) в (14), получаем, что функция P(t) есть решение дифференциального уравнения Рикатти
Уравнение (16) интегрируется в явном виде методом разделения переменных. После того как функция P(t) найдена, оптимальное управление дается выражением (15), причем дальнейшие вычисления констант показывают, что минимальное значение критерия качества
Исследуем теперь ту же задачу (10), (11), используя метод динамического программирования. Уравнения (8) с учетом (10), (11) принимают вид
Из (18) вытекает, что оптимальное управление дается выражением
Соотношения (18), (19) означают, что функция V есть решение нелинейного уравнения в частных производных первого порядка
Решение задачи (20) будем искать в виде V(t, x) = = P(t)x2. Подставляя это выражение в соотношения (20) и приравнивая к нулю коэффициенты при x2, заключаем, что функция P(t) удовлетворяет уравнению (16). Из уравнения (19) далее следует, что оптимальное управление имеет вид (15), а минимальное значение критерия качества дается формулой (17). Таким образом, для линейно-квадратической задачи принцип максимума и метод динамического программирования позволяют построить оптимальное управление (15) (причем в виде синтеза) и определить минимальное значение критерия качества (17). Последнее зависит только от начального положения системы x0 и величины P(0), то есть может быть определено заранее, до фактической реализации процесса управления. Аналогично и оптимальное управление может быть найдено в зависимости только от времени t. Для этого надлежит определить P(t) как решение задачи Коши (16), затем подставить управление (15) с найденным P(t) в уравнение (10) и решить его, определив x(t), наконец, подставить x(t) в (15) и получить программное оптимальное управление.
2.4. Задача об успокоении твердого тела
Одним из хорошо изученных классов задач оптимального управления являются задачи линейного оптимального быстродействия [2], а также некоторые задачи успокоения движения твердого тела (возникающие, например, в теории управления летательными аппаратами). Рассмотрим в качестве примера одну из них, именно задачу об успокоении твердого тела, вращающегося относительно центра масс О. Обозначим: Oxi , i = 1, 2, 3, - главные центральные оси инерции тела, xi - проекция вектора кинетического момента х на ось Oxi и А,В,С - главные центральные моменты инерции твердого тела. Управление и движением твердого тела осуществляется парой поворотных двигателей, которые можно расположить под любым углом относительно тела. Движение тела относительно центра масс описывается уравнениями Эйлера
Тело считается успокоенным, если величина модуля кинетического момента не превосходит заданной величины R $ 0. Предположим, что в начальный момент времени t0 = 0 значение кинетического момента x(0) задано, причем
.
Пусть далее T $ 0 - первый момент времени, когда | x(T ) | = R. Управляющий момент и, подчиненный ограничению | u | # b, требуется выбрать так, чтобы минимизировать время Т успокоения твердого тела. Используем для решения этой задачи метод динамического программирования. Соответствующее уравнение в частных производных относительно функции V(x) имеет вид
Вычисляя управление и, доставляющее минимум выражения в квадратных скобках (21), получим
Подставляя (22) в (21), получим нелинейное уравнение в частных производных относительно функции V
Будем искать решение задачи (23) в виде
где w - скалярная функция скалярного аргумента r $ R, подлежащая определению. Подставляя это выражение для V в (23), получим соотношения, определяющие функцию w:
Отсюда вытекает, что w(| x |) = | x | - R. Значит, оптимальное управление и, успокаивающее тело и минимальное время успокоения V(x) равны
Эти выражения показывают, что | u | = b, то есть вектор оптимального управления всегда максимален по величине и направлен против вектора кинетического момента.
3. НЕКОТОРЫЕ ЗАМЕЧАНИЯ
О ВЫЧИСЛИТЕЛЬНЫХ
И ПРИБЛИЖЕННЫХ МЕТОДАХ
В связи со значительными трудностями построения аналитического решения задач оптимального управления исключительное значение приобрели различные приближенные и численные методы их исследования [6-8]. В зависимости от алгоритмической основы метода он может быть отнесен к той или иной группе. Охарактеризуем некоторые из них. В основе первой группы методов лежит возможность сведения задачи оптимального управления к краевой задаче для системы дифференциальных уравнений с помощью принципа максимума с последующим использованием различных алгоритмов задания недостающих начальных условий. Ко второй группе численных методов относятся те, в которых ищется оптимальное управление с помощью итерационных процедур в пространстве управлений. При этом используются формулы для приращений критерия качества при вариации управления, приводящие либо к методам градиентного типа в пространстве управлений, либо к процедурам последовательных приближений. Третью группу составляют численные процедуры, основанные на переборе в пространстве траекторий или методе динамического программирования. Кроме того, имеются методы, эффективные для конкретных классов систем, например для линейных, а также методы, основанные на сведении исходной задачи оптимального управления к задаче математического программирования.
Опишем подробнее метод последовательных приближений, основанный на использовании метода динамического программирования для задачи (4). Зададимся произвольным допустимым управлением u0(t, x) (нулевым приближением к оптимальному), то есть управлением, при котором существует решение уравнения (4) и выполнено ограничение u0 k U. Решим далее линейное уравнение частных производных
Функция V0(t, x) представляет собой значение критерия качества при управлении u0 и начальном условии x(t) = x. После того как функция V0 определена, найдем следующее приближение u1(t, x) к оптимальному управлению из соотношения
Продолжая указанный процесс, можно построить последовательность управлений ui(t, x) и функций Vi(t, x), которые в некоторых случаях (например, в линейно-квадратическом) сходятся к решению исходной задачи. Описанная процедура естественным образом может быть использована и при применении принципа максимума к задаче (4). В этом случае необходимые условия оптимальности имеют вид краевой задачи (4)-(6). Зададимся опять некоторым допустимым управлением u0(t). Далее найдем при этом управлении соответствующую ему траекторию x0(t), решая уравнение (4) при u = u0 . Наконец, подставим u0 и x0 в (5) и определим y0(t). Зная функции x0(t) и y0(t), определим управление u1(t) из соотношения
Продолжая итерации, построим последовательности xi(t), ui(t), которые в некоторых ситуациях сходятся к решению исходной задачи оптимального управления (4). Так, например, в применении к линейно-квадратичной задаче (10), (11) этот процесс приводит к следующей аппроксимации решения P(t) нелинейного уравнения Рикатти (16) последовательностью Pi(t) решений линейных уравнений (i $ 1, P0(t) ╞ 0)
При этом последовательность Pi(t) равномерно сходится к P(t), причем Pi + 1(t) # Pi(t).
ЗАКЛЮЧЕНИЕ
В статье даны постановки некоторых задач оптимального управления и способы их исследования. Многочисленным применениям оптимального управления посвящены многие статьи и книги, частично упомянутые в [1-7]; укажем также книги [9-12], в которых обсуждаются приложения теории управления в медицине, ядерной энергетике, гироскопии и системах с гистерезисом.
ЛИТЕРАТУРА
1. Винер Н. Кибернетика и общество. М.: Изд-во иностр. лит., 1958.
2. Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. М.: Наука, 1969.
3. Беллман Р. Динамическое программирование. М.: Изд-во иностр. лит., 1960.
4. Алексеев В.М., Тихомиров В.М., Фомин С.В. Оптимальное управление. М.: Наука, 1979.
5. Красовский Н.Н. Теория управления движением. М.: Наука, 1968.
6. Черноусько Ф.Л., Колмановский В.Б. Вычислительные и приближенные методы оптимального управления // Итоги науки и техники. Мат. анализ. 1977. Т. 14.
7. Afanasiev V.N., Kolmanovskii V.B., Nosov V.R. Mathematical Theory of Control Systems Design. Dordrecht: Kluwer, 1996.
8. Беллман Р. Методы вычислений // Автоматика и телемеханика. 1993. ╧ 8. С. 10.
9. Swan G.W. Application of Control Theory in Medicine. N.Y.: Dekker, 1984.
10. Рудик А.П. Ядерные реакторы и принцип максимума Понтрягина. М.: Атомиздат, 1970.
11. Ройтенберг Я.Н. Гироскопы. М.: Наука, 1975.
12. Брокате М. Оптимальное управление системами гистерезисного типа // Автоматика и телемеханика. 1991. ╧ 12; 1992. ╧ 1.
* * *
Владимир Борисович Колмановский, доктор физико-математических наук, профессор. Автор более 100 научных статей и 10 монографий.