автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Гибридные решения уравнения Гамильтона-Якоби-Беллмана и их приложения к задачам синтеза управления распределенными системами

кандидата физико-математических наук
Иванова, Александра Петровна
город
Москва
год
2003
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Гибридные решения уравнения Гамильтона-Якоби-Беллмана и их приложения к задачам синтеза управления распределенными системами»

Оглавление автор диссертации — кандидата физико-математических наук Иванова, Александра Петровна

Введение

1 Синтез управления нагревом тела при случайных внешних воздействиях

1.1 Математическое описание процесса управления нагревом тела. Постановка задачи.

1.2 Сведение исходной задачи к задаче управления бесконечной системой стохастических дифференциальных уравнений первого порядка

1.3 Уравнение Гамильтона-Якоби-Беллмана для системы стохастических дифференциальных уравнений первого порядка

1.4 Решение уравнения Гамильтона-Якоби-Беллмана.

Задача распределенного управления. Функционал Майера.

1.5 Решение уравнения Гамильтона-Якоби-Беллмана.

Задача управления одним актуатором. Функционал Майера.

1.6 Решение уравнения Гамильтона-Якоби-Беллмана. Задача управления несколькими актуаторами.

Функционал Майера.

1.7 Решение уравнения Гамильтона-Якоби-Беллмана. Задача распределенного управления. Функционал Лагранжа.

1.8 Решение уравнения Гамильтона-Якоби-Беллмана.

Задача управления одним актуатором. Функционал Лагранжа.

1.9 Пример. Численный расчет линии переключения во "внутренней" области для 7V = 3, х1 = функционал Лагранжа.

1.10 Решение уравнения Гамильтона-Якоби-Беллмана. Задача управления несколькими актуаторами.

Функционал Лагранжа.

2 Управляемые колебания балок и пластин при случайных внешних воздействиях

2.1 Постановка задачи.

2.2 Сведение исходной задачи к задаче управления бесконечной системой стохастических дифференциальных уравнений первого порядка

2.3 Уравнение Гамильтона-Якоби-Беллмана для системы стохастических дифференциальных уравнений.

2.4 Решение уравнения Гамильтона-Якоби-Беллмана. Задача распределенного управления. Функционал Майера.

2.5 Решение уравнения Гамильтона-Якоби-Беллмана для распределенного управления.

Функционал Лагранжа.

2.6 Решение уравнения Гамильтона-Якоби-Беллмана в случае управления актуаторами.

Функционал Майера.

2.7 Решение уравнения Гамильтона-Якоби-Беллмана в случае управления актуаторами. Функционал Лагранжа.

2.8 Управление колебаниями пластины.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Иванова, Александра Петровна

Диссертация посвящена задачам синтеза оптимального управления распределенными системами, на которые действуют детерминированные и случайные силы в виде гауссовского белого шума. Рассматривается два вида управления - сосредоточенное в заданных точках (управление с помощью актуаторов) и распределенное. Предполагается, что абсолютные величины управляющих функций ограничены. В качестве критерия оптимальности рассмотрены стандартные функционалы - Майера (минимизация целевой функции к фиксированному моменту времени) и Лагранжа (минимизация функции цели на заданном интервале времени).

Одним из основных методов решения задачи синтеза оптимального управления для стохастических систем является метод динамического программирования Р. Беллмана [6]. Основная трудность при практическом применении этого метода заключается в необходимости решения задачи Коши для уравнения Гамильтона-Якоби-Беллмана (далее сокращенно: уравнения ГЯБ) во всем пространстве. Параболическое уравнение Беллмана является квазилинейным. Это обусловлено наличием операции вычисления минимума по всем возможным управлениям, в результате чего возникает нелинейная зависимость от величин частных производных функции Беллмана.

Отыскание точного решения уравнения Гамильтона-Якоби-Беллмана представляет сложную математическую проблему. Поэтому имеется лишь небольшое число задач, решение которых было получено с помощью непосредственного решения уравнения Беллмана. Исключением является задача управления с квадратичным критерием качества [2, 21, 32, 65]. Однако, как отмечено в работе [66], часто рецепт синтеза оптимального управления невозможно применить на практике в силу того, что управляющая функция допускает бесконечно большие значения. В то время как в ряде важных с практической точки зрения задач управления тепловыми и диффузионными процессами, а также в задачах гашения колебаний упругих тел содержатся ограничения на управление [12, 18, 22, 26, 37, 43, 54].

В связи с тем, что точное решение квазилинейного уравнения Беллмана, как правило, получить не удается, усилия исследователей посвященны разработке методов численного решения подобных уравнений. Так, в монографии [3] приведен пример численного решения уравнения Гамильтона-Якоби-Беллмана для задачи оптимального по быстродействию управления движением материальной точки. В монографии [1] описаны результаты применения этого же метода к задаче с последействием. В диссертационной работе [40] предложен метод приближенного решения уравнения Беллмана для задачи оптимального управления динамической системой, описываемой векторным дифференциальным уравнением, со свободным правым концом траектории и фиксированным интервалом управления.

В работе [35] для случая интегрального ограничения на управление был предложен метод решения уравнения Беллмана с использованием локальных решений (т.е. решений внутри некоторой части пространства), которые являются аппроксимацией функции Беллмана при достаточно больших значениях фазовой переменной.

Здесь и далее под локальным решением будем понимать функцию, удовлетворяющую начальным условиям и уравнению Гамильтона-Якоби-Бел-лмана в некоторой, возможно неограниченной, части пространства.

В работе [10] рассмотрена задача оптимального управления колебаниями математического маятника при ограничении на суммарный ресурс управления (интеграл от управляющей функции в произвольной неотрицательной степени не превосходит некоторой величины). Цель управления - минимизация заданной функции фазовых переменных к фиксированному моменту времени. Рассмотрен случай, когда на систему действуют случайные возмущения в виде гауссовского белого шума. Доказано, что найденные локальные решения уравнения Гамильтона-Якоби-Беллмана могут быть продолжены на все пространство.

В работах [67, 68] был предложен метод построения численно-аналитического (гибридного) решения уравнения Гамильтона-Якоби-Беллмана.

Под гибридным решением понимается непрерывно дифференцируемое решение задачи Коши для уравнения Гамильтона-Якоби-Беллмана, которое в некоторой неограниченной части пространства (далее в тексте: "внешняя" область) задается аналитически (локальное решение), а в остальной части пространства ("внутренней" области) достраивается численно как решение краевой задачи для соответствующего уравнения Беллмана.

В диссертации представлено дальнейшее развитие метода численно-аналитического конструирования гибридного решения уравнения Гамильтона-Якоби-Беллмана в применении к задачам построения синтеза оптимального управления стохастическими тепловыми и колебательными процессами в распределенных системах при наличии ограничения на величину управляющих функций.

В диссертации использованы методы функционального анализа, теории дифференциальных уравнений с частными производными, теории численных методов, теории случайных процессов и теории управления.

Для задач синтеза оптимального управления тепловыми и колебательными процессами в распределенных системах, находящихся под действием детерминированных и случайных сил, при заданных ограничениях на величины управляющий функций: рассмотрены случаи как распределенного так и сосредоточенного управления (управления актуаторами); получены в явном аналитическом виде локальные решения задач Коши для соответствующих уравнений Гамильтона-Якоби-Беллмана; реализованы численные алгоритмы решения квазилинейных уравнений Беллмана; построены гибридные непрерывно дифференцируемые решения задачи Коши для уравнений Беллмана, позволяющие построить синтез оптимального управления.

Достоверность полученных результатов обусловлена корректностью поставленных задач управления и строгостью их решения математическими методами. Часть полученных результатов подтверждена с помощью альтернативных методов [72].

Полученные в диссертации результаты могут найти применение в задачах управления с обратной связью тепловыми и колебательными процессами в телах, на которые действуют как детерминированные, так и внешние случайные силы в виде белого шума, при заданном ограничении на величину управляющих функций.

В работе предложены и программно реализованы численные методы решения рассматриваемых уравнений Гамильтона-Якоби-Беллмана, которые могут быть использованы при решении практических задач синтеза оптимального управления.

В первой главе рассмотрена задача управления процессом нагрева (охлаждения) физического тела конечного объема D.

Замечание. Во введении нумерация формул и утверждений совпадает с нумерацией в основном тексте диссертации.

В п. 1.1 описана постановка задачи управления тепловым процессом при случайных внешних воздействиях.

Уравнение, описывающее распределение температуры тела имеет вид -Аи(х} + ®>i W + /3w(x, t) + f(x, t) + <r(x, t)£(t). i=1

1.1)

Здесь t - время, 0 < t < T; x = (zi,£2>жз) - пространственная переменная; u(x,t) - температура тела в момент времени t в точке х; f(x,t) - плотность внутренних тепловых источников; Vj\t) - плотность управляемых тепловых актуаторов, находящихся в точке хг — (х\, хг2, жг3), г = 1,2,., к] 5(х — хг) - дельта-функция Дирака; w{x, t) - плотность распределенных управляемых тепловых источников; а и /3 - числа, принимающие значения 0 или 1; £(t) - гауссовский белый шум единичной интенсивности; a(x,t) - заданная функция; А - дифференциальный оператор, характеризующий процесс теплопередачи. Так, в одномерном случае (D - стержень конечной длины)

А = —а — дх2

Управление процессом нагрева (охлаждения) тела осуществляется путем выбора сосредоточенных функций V{(t) (а — 1, /? = 0) или распределенных функций w(x,t) (а = 0, (3 = 1).

На интенсивности Vj(t) управляемых тепловых актуаторов наложены ограничения:

К'(01 — Pii «=1,2,., к, pi — const > 0. (1.3)

В случае распределенного управления управляющая функция w(x,t) удовлетворяет интегральному ограничению w2(x,t)dx < R2. (1.4) D

К уравнению (1.1) необходимо добавить начальные условия, которые определяют температуру стержня в некоторый начальный момент времени, например, при t — 0 и(х,0) = и°(х), (1.5) где и°(х) - заданная функция; а также краевые условия на границе области .D, вид которых зависит от температурного режима на границе: поддерживается заданная температура, задан теплопоток, происходит теплообмен с окружающей средой.

Не умаляя общности, сделав замену переменных и изменив соответствующим образом функцию f(x,t), можно полагать, что все краевые условия являются однородными.

Цель управления - минимизация одного из функционалов - Майера или Лагранжа соответственно:

Е J(u(x,t) - u*(x,t))2dx

D T t=T

1.9)

1.10)

0 D где Е обозначает математическое ожидание, и*{х, t) - заданная функция. Можно сделать следующую замену и{х, t) = t) + и*(х, t)

1.11) и далее считать, что функция u*(x,t) = 0. Относительно функции ui(x,t) получим уравнение (1.1) с новой функцией /i(x,£): i(M) - /ОМ) - -- Au*(x,t).

1.12)

После замены (1.11), (1.12) функционалы (1.9) и (1.10) запишутся в виде Е

J и2(х, t)dx D Т t=T

Е J J и2(x,t)dxdt.

1.13)

1.14)

0 D

Решение краевой задачи (1.1) - (1.6), (1.7) или (1.8) с соответствующими условиями Коши (1.5) будем искать среди функций u(x,t) таких, что при каждом фиксированном х являются решением стохастического уравнения (1.1) в смысле Ито [15, 29], а при каждом фиксированном t функция и(х, t), как функция переменной ж, принадлежит соответствующему энергетическому пространству На (пространству Соболева), порожденному симметричным положительно-определенным оператором А (1.2) (см., например, [44, 49]).

В случае стержня (0 < х < /) норма элемента пространства Нд задается выражением

И1#л

V' (2Л4) о

Одним из наиболее эффективных способов решения краевых задач для уравнений в частных производных является метод разделения переменных (метод Фурье, метод собственных функций) [13, 18, 22]. Метод Фурье позволяет произвести декомпозицию исходной задачи и свести задачу синтеза управления уравнением теплопроводности к задаче синтеза управления системой стохастических дифференциальных уравнений первого порядка.

Метод декомпозиции исходной задачи на несколько более простых задач применялся в работах [45, 46, 59] для синтеза управления динамическими системами, описываемыми уравнениями Лагранжа 2-го рода. В работе [60] был предложен метод построения управления, основанный на декомпозиции системы и применении оптимального по быстродействию управления для каждой моды движения, полученной в результате разложения решения по методу Фурье.

В п. 1.2 описан метод декомпозиции. Решение u(x,t) уравнения (1.1) можно представить в виде разложения по собственным функциям оператора А оо u(x,t) = (1.19) 1 где Uj(t) определяются по формуле

Uj(t) = (u(x,t),iPj(x)). (1.18)

Здесь скобки означают скалярное произведение в пространстве L2.

Представления (1.19) записываются также для функций w(x,t), f(x}t) и а(х, t). Подставляя функции в виде полученных разложений (1-19) в исходное уравнение (1.1) и умножая скалярно обе части уравнения на собственные функции ф^х), г/>2{х), ■ • • •> Фп(х), ., получаем бесконечную систему стохастических дифференциальных уравнений первого порядка: uj(t) = —XjUj(t) +ajh + fiwj(t) + fj{t) + ^(tjftt), i=1 (1.20 J 1,2,.

Здесь и далее j-ое уравнение системы (1.20) будем считать эквивалентной записью уравнения следующего вида к duj{t) - -AjUj(t)dt + а ipjix^Viitfdt + /3wj(t)dt + fj(t)dt + <jj(t)dw{t), i=l где dw(t) - стандартный винеровский процесс [41, 47].

В задаче управления тепловыми актуаторами (а = 1, (5 = 0) интенсивности Vi(t) удовлетворяют ограничениям (1.3). Для задачи распределенного управления (а = 0, /3 = 1) ограничение на управление (1.4) примет вид оо

Е а-22) i=1

Функционалы Майера (1.13) и Лагранжа (1.14) после подстановки вместо функции и(х, t) ее разложения (1.19) можно записать следующим образом:

3=1

1.23) t=T т р. оо

JY,u)(t)dt. (1.24)

Е о i=1

После замены где

Pj(t) = е~х* J fj(s)eX]Sds (1.26) о систему (1.20) можно представить в виде йДО - -ЛуйДО + а £ + /HW + м i*=i (1.2

J = 1,2,.

Таким образом, исходная задача (1.1) сводится к задаче построения синтеза оптимального управления бесконечной системой стохастических дифференциальных уравнений (1.27) (в смысле Ито) при ограничениях (1.3) на и. интенсивности тепловых актуаторов или ограничениях (1.22) на интенсивность распределенного управления соответственно для функционалов качества Майера и Лагранжа следующего вида

В п. 1.3 описан метод динамического программирования и уравнения Гамильтона-Якоби-Беллмана.

Известно, что к изучению процессов, протекающих во времени, к каковым относится и изучаемый процесс нагрева (охлаждения) стержня, можно подходить двумя различными способами. Один из подходов состоит в рассмотрении отдельных траекторий системы [39], а другой - в изучении свойств всего множества траекторий [6]. Метод динамического программирования является одним из распространенных методов построения оптимального управления в виде синтеза и основан на изучении всего множества траекторий системы.

Функцией Беллмана называется функция, равная инфинуму минимизируемого (максимизируемого) функционала (критерия качества для управления) на траекториях исследуемой системы по всем допустимым управлениям.

Рассмотрим систему (1.27), составленную из первых N уравнений. Обозначим функцию Беллмана через Hn(u,t) - минимальное значение функционала Майера (1.31) или Лагранжа (1.32) при условии, что в момент времени т — Т — t система находится в состоянии й = {щ,и2,. .

В задаче Майера с функционалом (1.31) уравнение Гамильтона-Якоби-Беллмана для функции Hn(v,,t) имеет вид t=T

1.31) т

1.32)

Lm(Hn(u, г)) -f a min

1.33) с начальным условием n О))2, (1-34) з=1 где функции <£>у(т)? i = 1) 2,., N задаются формулой (1.26), т = Т — t -"обратное"время, Ьм - линейный дифференциальный оператор, определяемый равенством г ,,TN, » дНN kV , 9HN 1 2, ,d2HN\ , ч j — 1 J

Для задачи Лагранжа с функционалом (1.32) уравнение Гамильтона-Якоби-Беллмана для функции Беллмана Hn(u,t) имеет вид N f)HN к )

ЫН»(Ш,Г)) + „тin |g — |>(х>,(т) j + f" энN1

0 ^min J =0 (1.36) j j=i с нулевым начальным условием

Ялг(й,0)=0. (1.37)

Здесь Ll - линейный дифференциальный оператор следующего вида: г <tjn, ^ 9HN А/ dHN 1 2. чd2HN , , ч.2\

LL(Hn(u, г)) = -— + + 2 i + + j •

1.38)

Если найдено непрерывно дифференцируемое решение поставленной задачи Коши, то оптимальное управление будет определяться равенствами

N dHN

Vi(r) = -pi sign^^'^)-^-, t = 1,2,.,*. (1.100) j=l 3

В зависимости от управления (сосредоточенное или распределенное) и от вида минимизируемого функционала (Майера или Лагранжа) в диссертации рассмотрены четыре разные задачи Коши для уравнения Гамильтона-Якоби-Беллмана.

Описанные в п. 1.3 уравнения Гамильтона-Якоби-Беллмана являются квазилинейными параболическими уравнениями, следовательно, согласно [30, 57], решение задачи Коши для уравнения Гамильтона-Якоби-Беллмана существует и единственно.

В следующих параграфах рассмотрены все описанные выше задачи. Получены в аналитическом виде локальные решения соответствующий уравнений Гамильтона-Якоби-Беллмана. Приведены результаты численных расчетов, построены гибридные решения.

В п. 1.4 представлены в аналитическом виде локальные решения уравнения Гамильтона-Якоби-Беллмана в случае распределенного управления и функционала Майера.

Введем предположение о том, что каждый из коэффициентов разложения u)j(r) удовлетворяет следующему ограничению

KMI <rj, (1.39) где rj = , j = 1,2,., (1.40) оо f>5±

Aj - собственные значения, соответствующие собственным функциям ipj(x). Оптимальное управление в этом случае будет определяться равенствами wj{r) = -rj sign-j = 1,2,., N. (1.43)

Утверждение 1.1.

Пусть выполняются ограничения (1.39) для распределенной управляющей функгщи, тогда функция n 3=1 x

Н'(и„ т) = + V ~ Z'Ti + yj(0) j + f o)(s)e-^»ds, (1.55) 0 где = sign-J = hN, (1.56) является решением задачи (1.42) с. начальным условием (1-34) в области DN: г >

DN = [J Dj, где Dj = I uj,t : + ^(0)еА>т| > ^-(еА'т -1)1. (1.57) з=1 ^ J J

Значения </?j(0) вычисляются по формуле (1.26) при t = T(r = T — t = 0).

Из утверждения 1.1 следует, что локальное решение (1.55) справедливо в области Dn (1.57). Далее будем называть эту область "внешней". Для того, чтобы построить решение задачи Коши во всем пространстве, поставим задачу отыскания функции Беллмана в оставшейся части пространства ("внутренней" области) численно, как решение соответствующей краевой задачи для уравнения Гамильтона-Якоби-Беллмана. При этом на границах области будем задавать значения функции из найденного локального решения (1.55).

Известно [56, 73], что функция Беллмана, определяющая синтез оптимального управления, должна быть непрерывно дифференцируемым решением уравнения Гамильтона-Якоби-Беллмана. Для того чтобы получить непрерывно дифференцируемое гибридное решение задачи Коши для уравнения Беллмана во всем пространстве, применяется следующий подход. Краевая задача с заданными границами "внутренней" области заменяется на краевую задачу с нефиксированными границами. При этом на границах задаются значения функции, определяемые локальным решением во "внешней" области. В процессе численного решения уравнения Гамильтона-Якоби-Беллмана границы "внутренней" области расширяются до тех пор, пока не произойдет склейка производных функции Беллмана, полученных в результате численного решения краевой задачи во "внутренней" области, и производных, заданных аналитически во "внешней" области. Непрерывность самой функции Беллмана следует из постановки задачи. Сдвиг границ осуществляется за счет сужения "внешней" области.

В этом пункте также представлены результаты численных расчетов линии переключения во "внутренней"области. Построены непрерывно дифференцируемые гибридные решения Н*{щ,т) для j = 1, 2.

В п. 1.5 представлены в аналитическом виде локальные решения уравнения Гамильтона-Якоби-Беллмана для управления одним актуатором в случае функционала Майера.

В п. 1.6 представлены в аналитическом виде локальные решения уравнения Гамильтона-Якоби-Беллмана для управления к актуаторами в случае функционала Майера. Утверждение 1.3.

Пусть для интенсивностей актуаторов выполняются ограничения (1.3), тогда функция к n даjuj + £ zipi^j(xl))e-^t - y, zip^^x1) i=l i=i

7=1 ^

A,

2 T

M<>)) + I <J?(s)e~2XjSds, где n qjjN

Zi = sign г = 1, A:, удовлетворяет уравнению Гамильтона-Якоби-Беллмана (1.33) с начальными условиями (1.34) в области DN, определяемой неравенством n j=1

Е«Е л

Здесь ф* — max ф^х1). l<i<k

В п. 1.7 представлены в аналитическом виде локальные решения уравнения Гамильтона-Якоби-Беллмана для распределенного управления в случае функционала Лагранжа.

Утверждение 1.4.

Пусть выполняются ограничения (1.39) для распределенной управляющей функции, тогда функция n

Я*(«,т) = т), j=1

1.82) где

H3(uj,r) = ^ (^XjUj + zjrjfi 1 - e~2XjT) - ^rjiXju, + zjrj)( 1 - e"V) + т f 1 — e~2XjS 2e~^jT Г J .-ds + -^—(XJUJ + zJri) J Vj(s)eXlSdso 3 3 о f1 J <Pj{s)ds + J <p](s)ds,

3 о где dHj(uj,T)

Zj = Sign-—' J" = 1' N n во "внешней"области DN = \J где

2VV f f \ A -s j

UJ + J J ds 0

Г ■ — 1 (1-83)

A j exiT + 1 удовлетворяет уравнению Гамильтона-Якоби-Беллмана (1.76) с начальным условием Hi(uj, т — 0) = 0, j — 1, N.

Также представлены результаты численных расчетов функции Беллма-на во "внутренней"области. Построены непрерывно дифференцируемые гибридные решения H^(uj,r) для первой моды.

В п. 1.8 представлены в аналитическом виде локальные решения уравнения Гамильтона-Якоби-Беллмана для управления одним актуатором в случае функционала Лагранжа а также оценки ширины "внутренней"области.

В п. 1.9 рассмотрен пример численного решения уравнения Гамильтона-Якоби-Беллмана для управления одним актуатором в случае функционала Лагранжа. В случае трех мод уравнение Беллмана решено численно во "внутренней"области. Построено гибридное решение уравнения Беллмана для N = 3.

В п. 1.10 представлены в аналитическом виде локальные решения уравнения Гамильтона-Якоби-Беллмана для управления к актуаторами в случае функционала Лагранжа.

Утверждение 1.6.

Пусть для интенсивностей актуаторов выполняются ограничения (1.3), тогда функция

N / 1 / к 7=1 ^ J ^ » = 1 k \ 2 ч 4

-4 ]T ( ггф3{х1)рг J т N + j=l ?:=1 4=1 ' ' ' 4

-jw

1 g—2Aj.s 2eAj

2Л,ds +

Л,

J (PJ{s)eXl4si—i г~1 д-J <Pj(s)ds + J (fj(s)ds, где iV sign У^ ipj(xl) , г — 1, /г, 1 диз

3 = 1 J удовлетворяет уравнению Гамильтона-Якоби-Беллмана (1.99) с нулевыми начальными условиями HN(u,r = 0) = 0 в области

Dn = {щ,т:

X>j(^(l - + 2eV J л j=1 n j=i j

Здесь ф• = max^(z'). J i<i<k J

Во второй главе изучена задача управления поперечными колебаниями балки или пластины, подверженных случайным внешним воздействиям.

В п. 2.1 описана постановка задачи управления. Уравнения, описывающие состояние колебательной системы, можно записать в следующем виде dt ~ х, t) + а £ 5{х — x*)vi(t) + (3w(x, t) + сг(сс,

2.2) i=1

Здесь t - время, 0 < t < Т; х £ D - пространственная переменная, скаляр для балки и стержня, вектор х = (a^, ж2) в случае пластины; и(х} t) - отклонение (смещение) системы от положения равновесия в момент времени t в точке ж; p(x>t) - скорость смещения; Vi(t) - управляющие функции (актуа-торы), сосредоточенные в точках х\ i — 1,2,., fc; хг) - дельта-функция Дирака; w(x,t) - распределенная по системе управляющая функция; а и /3

- числа, принимающие значения 0 или 1; - гауссовский белый шум единичной интенсивности; <т(х, t) - заданная функция; А - дифференциальный оператор, определяющий упругие свойства системы. В случае балки оператор А имеет вид

Управляющие функции Vi удовлетворяют ограничениям (1.3), функции w(x,t) - ограничениям (1.4).

К системе дифференциальных уравнений (2.2) необходимо также добавить начальные условия и краевые условия, которые зависят от способа закрепления стержня или пластины [51].

Управление колебаниями стержня или пластины осуществляется путем выбора управляющих функций Vi(t), удовлетворяющих ограничениям (2.5) (или (1.3)), в случае управления актуаторами или функций w(x, t) при ограничении (1.4) в случае распределенного управления.

При этом в качестве цели оптимального управления можно задать один из функционалов качества: Майера или Лагранжа. В первом случае ставится задача отыскания такого управления, что математическое ожидание полной энергии системы будет минимально к некоторому заданному моменту времени t = Т (задача Майера) во втором случае (задача Лагранжа) следует минимизировать математическое ожидание интегрального значения полной энергии колебательной системы за время 0 < t < Т: и(х, 0) = <pi(x), р(ху 0) = ц>2(х)

2.7) е {(Aw, и) + {p,p)}\t=T min;

2.11)

2.12)

Здесь Е - знак математического ожидания, а операция (♦, •) обозначает вычисление скалярного произведения в пространстве L2(D).

Решение задачи (2.2) с соответствующими начальными и краевыми условиями будем: искать среди функций u(x,t), p(x,t) таких, что при каждом фиксированном х функции и(х, t) и р(х, t), как функции переменной t, являются решением стохастического уравнения (2.2) в смысле Ито [8, 56], а при каждом фиксированном t функция u(x,t), как функция переменной ж, принадлежит соответствующему энергетическому пространству На (пространству Соболева), порожденному симметричным положительно-определенным оператором А (2.3) (или (2.4)).

В случае балки (0 < х < I) норма элемента пространства На задается выражением (2.14).

Далее также полагаем, что при каждом фиксированном значении t функция р(х, t) принадлежит пространству L2{D), т.е.

Аналогичное предположение сделаем относительно функции cr(x,t).

В п. 2.2 описан метод декомпозиции.

Исходная задача для распределенной системы сводится к задаче построения синтеза оптимального управления бесконечной системой стохастических дифференциальных уравнений (2.17) при ограничениях на распределенное управление (1.22) или на сосредоточенное управление (1.3) с целью минимизации одного из функционалов качества Майера (2.19) или Лагранжа (2.20): D

Uj(t) =pj(t), к

Pj(t) = -A jUj(t) + a £ ф;(х*)ы(г) + (3wj(t) + (2.17) j= 1,2,.; функционалы Майера (2.11) и Лагранжа (2.12) примут вид t=T min

2.19) т

2.20)

В п. 2.3 описан метод динамического программирования и уравнения Гамильтона-Якоби-Беллмана для управляемых колебательных процессов. Для функционала Майера уравнение Беллмана имеет вид:

N ^ -rr-jy к

LM(HN(u,p, т)) + а mm |Е Е *Л''Ы*) \ + n nrrn дН

3 ^min I £>,-(т)— К = 0, (2.22)

Х>?<д2 I y=i J здесь HN (й,р,т) - функция Беллмана, равная минимальному значению (а точнее, инфинуму) функционала (2.19) при условии, что в момент времени г = Т — t система находится в состоянии й — (щ, и2). ., w/v), р — (Р1,Р2, • • • j^iv); т = Т — t ~ "обратное"время, Lm(Hn(w,p, т)) - линейный дифференциальный оператор, определяемый равенством nrjJV w

LM(HN(u,p, т)) =

А/ с>Я* ж <9Яя 1 2/ ^Я^Л дт

2.23)

Начальные условия для функции HN(й,р,т) следующие: i=1

Для задачи Лагранжа уравнение Гамильтона-Якоби-Беллмана можно записать в следующем виде:

Г N янм к 1

Ll(Hn(u,P, г)) + a mill J £ ^.(^(т) I +

-f/^min ^=0, (2.25)

Е ^ J--1

7=1 где Ll(Hn(йур,т)) - линейный дифференциальный оператор вида

7=1 rJV/V. ^ dHN i/ ая^ . ая^ 1 „

L>l{Hn(й,р, г)) = + - + -a|(r): ^

2.26)

В этом случае начальные условия для функции Беллмана нулевые.

Метод динамического программирования позволяет свести задачу оптимального управления системой дифференциальных уравнений к отысканию решения задачи Коши для нелинейного уравнения в частных производных.

Если найдено непрерывно дифференцируемое решение уравнения Гамильтона-Якоби-Беллмана (2.22) или (2.25) с начальными условиями (2.24) или (2.27) соответственно, то синтез оптимального управления определяется по нижеследующим формулам:

Формула (2.29) получена в предположении, что функции Wj(t) удовлетворяют ограничению (1.39) в уравнении (2.25).

В п. 2.4 представлены в аналитическом виде локальные решения уравнения Гамильтона-Якоби-Беллмана в случае распределенного управления и функционала Майера.

Утверждение 2.1.

Пусть выполняются ограничения (2.30) на коэффициенты разложения управляющей функции, тогда функция dHN(u ~ т)

Vi(r) = -Pj sign^ViH-д ; , г =1,2,., к. (2.28) или

Wj(r) =-гj s:

2.29) n

3=1

2.42) где 3 = 1, N, является решением задачи Коши (2.32), (2.24) в области DN:

Dn = \JD\ где ]У = : |р,| > . (2.43)

В качестве примера приведены результаты численных расчетов функции Беллмана и линии переключения управления. Построены непрерывно дифференцируемые гибридные решения HJ(uj,pj,T) для j = 1,2.

В п. 2.5 представлены в аналитическом виде локальные решения уравнения Гамильтона-Якоби-Беллмана в случае распределенного управления и функционала Лагранжа.

Утверждение 2.4.

Пусть выполняются ограничения (2.30) на управляющую функцию, тогда функция n

Hn(U,P,T) = HJ(uj,pj, г),

2 т J (г - + + IJ sa](s)ds, (2.71) V где dW (uj, pj, г)

Zj = sign--j = 1, ЛГ,

9^ является локальным решением задачи Коши (2.61), (2.62) по "внешней"об-n ласти DN — (J Z)J, где DJ определяются неравенствами:

3=1

Dj = ^ujlPj,T : \Pjr\ > ^-(1 - cos v/A^r)| .

В качестве примера рассмотрена задача оптимального управления колебаниями свободно опертого стержня прямоугольного сечения. Построены непрерывно дифференцируемые гибридные решения W(uj,pj,r) для j = l,2.

В п. 2.6 представлены в аналитическом виде локальные решения уравнения Гамильтона-Якоби-Беллмана в случае управления актуаторами для функционала Майера.

Утверждение 2.6.

Пусть управляющие функции i — 1, 2,., к, удовлетворяют ограничениям (2.5), тогда функция n

Нм(и,р,т) = ^H3{uj,phT), 3=1

H3(uhp.j,T) = ^NPi i=l sinv^rj +

E pi,4>j(xl)zi i=i лА;

1 - cos y/Xjr^j + J (Tj(s)ds^J , (2.89) где n

Zi = sign j=i dH3(uj,pj,T) dpj г = 1, к

2.90) является локальным решением задачи (2.76), (2.24) в случае управления актуаторами (а = 1, /3 = 0) в следующей "внешней"области j=i у/к

А А (V-*)2 где ф* = шах ф^{хг).

Ki<k

2.91)

2.92)

В п. 2.7 представлено локальное решение уравнения Гамильтона-Якоби-Веллмана в случае управления актуаторами для функционала Лагранжа. Утверждение 2.7.

Пусть выполняются условия утверждения 2.6. Тогда функция n '

2/ i=1 п

HJ(uj,pj, s)ds,

2.93) где H3(iij,pj, г) определяются по формуле (2.89), является локальным решением уравнения Гамильтона-Якоби-Беллмана (2.25), (2.26) с начальными условиями (2.27) для случая управления актуаторами (а = 1, (3 = 0) в области вида где величины ij>j определяются из (2.92).

В п. 2.8 рассмотрена задача управления колебаниями прямоугольной пластины со свободно опертыми краями.

Основные результаты, изложенные в диссертации, опубликованы в ра

Результаты работы докладывались на восьмом Всероссийсоком съезде по теоретической и прикладной механике в августе 2001 г., на научных конференциях "Неделя науки - 2002 г.", "Неделя науки - 2003 г." в Московском государственном университете путей сообщения (МИИТ), на четвертой международной конференции "Nonlinear Oscillations" ("Euromech02") в августе 2002 г., на конференции по теории управления, посвященной памяти академика Бориса Николаевича Петрова, в Институте проблем управления им. В.А. Трапезникова РАН в марте 2003 г., на четвертой международной конференции "Tools for mathematical modelling" ("MathTools03") в июне 2003 г., на международной конференции "Physics and Control" ("PhysCon03") в августе 2003 г., на научном семинаре "Управление и устойчивость" в Московском государственном институте электроники и математики (МИЭМ), на семинаре Института проблем механики РАН "Теория управления и динамика систем" (руководитель семинара - академик РАН Ф.Л. Черноусько).

Структура и объем диссертации. Диссертационная работа состоит из введения, двух глав, заключения, списка литературы, содержащего 76 наименований. Общий объем работы - 139 машинописных страниц.

Заключение диссертация на тему "Гибридные решения уравнения Гамильтона-Якоби-Беллмана и их приложения к задачам синтеза управления распределенными системами"

Заключение

В диссертационной работе рассмотрена задача синтеза оптимального управления распределенными системами при наличии внутренних детерминированных и внешних случайных возмущений в виде гауссовского белого шума. Рассмотрены два вида управления: распределенное по системе и управление, сосредоточенное в заданных точках (управление с помощью актуаторов). В обоих случаях на величину управляющих функций наложены ограничения. Цель управления - минимизация одного из функционалов качества: Майера или Лагранжа. В первом случае минимизируется целевая функция к заданному моменту времени, во втором случае - интеграл от функции цели на заданном промежутке времени.

Для решения поставленных задач применяется метод декомпозиции уравнения с частными производными, в результате чего исходная задача сводится к задаче управления системой стохастических дифференциальных уравнений первого порядка.

Для построения синтеза управления стохастической системой применяется метод динамического программирования. В силу ограничений на величину управляющих функций уравнение Гамильтона-Якоби-Беллмана содержит нелинейность в виде модуля, что осложняет процесс его решения.

В диссертации предложен метод построения гибридного решения нелинейного уравнения Гамильтона-Якоби-Беллмана. Под гибридным понимается такое решение, которое в некоторой неограниченной части пространства ("внешней" области) задается аналитически (локальное решение), а в остальной ограниченной части пространства ("внутренней" области) строится численно как решение краевой задачи для соответствующего уравнения Беллмана. Отметим, что полученное таким образом гибридное решение может иметь разрывные производные и, следовательно, не будет решением уравнения Гамильтона-Якоби-Беллмана, которое позволяет строить синтез оптимального управления.

Для того чтобы получить непрерывно дифференцируемое решение во всем пространстве, предлагается видоизменить краевую задачу следующим образом. Ставится задача отыскания такого положения границ "внутренней" области, при котором на границе "внешней" и "внутренней" областей локальное и численное решения и их соответствующие производные совпадут с некоторой наперед заданной точностью. Следует отметить, что сдвиг границ происходит в сторону "внешней" области, в которой имеется локальное решение.

Показано, что такой подход позволяет найти решение уравнения Гамильтона-Якоби-Беллмана для задач управления тепловым процессом и задач управления колебаниями. В этих случаях найдены в аналитическом виде соответствующие локальные решения уравнений Гамильтона-Якоби-Беллмана во "внешней" области для различных видов задач оптимального управления (распределенного управления, управления с помощью актуато-ров).

Проведена серия вычислительных экспериментов, которые продемонстрировали возможность получения непрерывно дифференцируемого гибридного решения уравнения Гамильтона-Якоби-Беллмана.

Процедура отыскания непрерывно дифференцируемого гибридного решения задачи Коши для уравнения Беллмана показала, что полученные в аналитическом виде локальные решения являются асимптотическими решениями при достаточно больших значениях фазовых переменных.

Библиография Иванова, Александра Петровна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Андреева Е.А., Колмановский В.В., Шайхет JI.E. Управления системами с последействием. М.: Наука, 1992.

2. Антипин А.А. Синтез оптимального управления для нелинейных детерминированных систем с условно-квадратичным критерием качества // Известия РАН. Теория и системы управления. 2001, N 4.

3. Афанасьев В.Н., Колмановский В.В., Носов В.Р. Математическая теория конструирования систем управления. М.: Высшая школа, 1989.

4. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. М.: Лаборатория Базовых Знаний, 2001.

5. Беллман Р. Динамическое программирование и уравнения в частных производных. М.: Мир, 1974.

6. Беллман Р., Энджел Э. Динамическое программирование. М.: ИЛ, 1960.

7. Бендат Дж., Пирсол А. Измерение и анализ случайных процессов. -М.: Мир, 1974.

8. Бенсуссан А., Лионе Ж.-Л. Импульсное управление и квазивариационные неравенства. М.: Наука, 1987.

9. Болотник Н.Н., Меликян А.А. Оптимальное управление одной динамической системой второго порядка с ударами // Изв. Академии Наук. Теория и системы управления. 2000, N 6.

10. Братусь А.С., Волосов К.А. Точные решения уравнения Гамильтона-Якоби-Беллмана для задач оптимальной коррекции с интегральным ограничением на суммарный ресурс управления // Доклады Академии Наук. 2002. - Т. 385, N 3. - С. 319-322.

11. Братусь А.С., Иванова А.П. Управление колебаниями упругих систем при случайных возмущениях. Восьмой Всероссийский съезд по теоретической и прикладной механике. Аннотации докладов. Екатеринбург: УрО РАН, 2001. - С. 120.

12. Бутковский А.Г. Методы управления системами с распределенными параметрами. М.: Наука. ГРФМЛ, 1975.

13. Волков И.К., Зуев С.М., Цветкова Г.М. Случайные процессы. М.: Издательство МГТУ им. Н.Э. Баумана, 2000.

14. Гилберт Стивен, Маккарти Билл. Самоучитель Visual С++ 6 в примерах. Учебник. / Пер. с англ. К.: Издательство "ДиаСофт", 2000.

15. Гихман И.И., Скороход А.В. Стохастические дифференциальные уравнения. К.: Наукова думка, 1968.

16. Годунов С.К., Рябенький B.C. Введение в теорию разностных схем. -М.: Физматгиз, 1962.

17. Дьяконов В.П. Maple 7: учебный курс. Спб.: Питер, 2002.

18. Егоров А.И. Оптимальное управление тепловыми и диффузионными процессами. М.: Наука, 1978.

19. Иванова А.П. Управление в виде синтеза для неоднородного уравнения теплопроводности // Известия РАН. Теория и системы управления. -2003, N 5. С. 26-34.

20. Иванова А.П. Распределенное управление с обратной связью для стохастического уравнения теплопроводности. Конференция по теории управления, посвященная памяти академика Бориса Николаевича Петрова (11 марта 2003 г.). Тезисы докладов. М., 2003. - С. 89.

21. Казаков И.Е. Общий метод синтеза управления в стохастической нелинейной системе по локальному квадратичному критерию // Известия РАН. Теория и системы управления. 1997, N 3.

22. Карташов Э.М. Аналитические методы в теории теплопроводности твердых тел. М.: Высшая школа, 2001.

23. Квакернаак X., Сиван Р. Линейные оптимальные системы управления. М.: Мир, 1977.

24. Ковалева А.С. Управление колебательными и виброударными системами. М.: Наука, 1990.

25. Колосов Г.Е. Синтез оптимальных автоматических систем при случайных возмущениях. М.: Наука, 1984.

26. Комков В. Теория оптимального управления демпфированием колебаний простых упругих систем. / Пер. с англ. М.: Мир, 1975.

27. Королева Н.И. Оптимальное управление некоторыми нелинейными системами с последействием. Диссертация на соискание ученой степени кандидата технических наук. М., 1991.

28. Крэйг Арнуш. Borland С++ 5: Освой самостоятельно. / Пер. с англ. -М.: Восточная Книжная Компания, 1997.

29. Кушнер Г. Дж. Стохастическая устойчивость и управление. / Пер. с англ. М.: Мир, 1969.

30. Ладыженская О.А., Солонников В.А., Уральцева Н.Н. Линейные и квазилинейные уравнения параболического типа. М.: Наука, 1967.

31. Лионе Ж.-Л. Оптимальное управление системами, описываемыми уравнениями с частными производными. / Пер. с фр. М.: Мир, 1972.

32. Лурье К.А. Оптимальное управление в задачах математической физики. М.: Наука. ГРФМЛ, 1975.

33. Матвеев Н.М. Сборник задач и упражнений по обыкновенным дифференциальным уравнениям. М.: Росвузиздат, 1962.

34. Мартинсон Л.К., Малов Ю.И. Дифференциальные уравнения математической физики. М.: Издательство МГТУ им. Н.Э. Баумана, 2002.

35. Овсеевич А.И. Локальный принцип Беллмана в задачах оптимального управления // Известия АН СССР. Техн. кибернетика. 1981, N 4.

36. Паппас Крис, Мюррей Уильям. Visual С++ 6. Руководство разработчика. / Пер. с англ. К.: Издательская группа BHV, 2000.

37. Петрасик Лонгин. Задачи оптимального управления электротепловыми процессами. Диссертация на соискание ученой степени доктора физико-математических наук. М., 2002.

38. Полянин А.Д. Справочник по линейным уравнениям математической физики. М.: ФИЗМАТЛИТ, 2001.

39. Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. М.: Наука, 1969.

40. Пронин А.И. Применение динамического прогаммирования и решение уравнения Беллмана с помощью сплайнов полуограниченной кривизны. Диссертация на соискание ученой степени кандидата физико-математических наук. М., 1993.

41. Пугачев B.C., Синицин И.Н. Стохастические дифференциальные системы. Анализ и фильтрация. М.: Наука. ГРФМЛ, 1990.

42. Пугачев B.C., Синицин И.Н. Теория стохастических систем. М.: Логос, 2000.

43. Рапопорт Э.Я. Оптимизация процессов индукционного нагрева металла. М.: Металлургия, 1993.

44. Ректорис К. Вариационные методы в математической физике и технике. / Пер. с англ. М.: Мир, 1985.

45. Решмин С.А. Применение метода декомпозиции для построения управления в динамических системах. Диссертация на соискание ученой степени кандидата физико-математических наук. М., 2001.

46. Решмин С.А., Черноусько Ф.Л. Синтез управления в нелинейной динамической системе на основе декомпозиции // ПММ. 1998. - Т. 62, вып. 1.

47. Розовский Б.Л. Эволюционные стохастические системы. М.: Наука, 1983.

48. Самарский А.А. Введение в теорию разностных схем. М.: Наука, 1971.

49. Соболев С.JI. Некоторые применения функционального анализа в математической физике. М.: Наука. ГРФМЛ, 1988.

50. Стеклов В.А. Основные задачи математической физики. М.: Наука. ГРФМЛ, 1983.

51. Тимошенко С.П. Колебания в инженерном деле. М.: ГИФМЛ, 1959.

52. Тихомиров Ю.В. Самоучитель MFC. Спб.: БХВ - Санкт-Петербург, 2000.

53. Тихонов А.Н., Самарский А.А. Уравнения математической физики. -М.: Наука, 1972.

54. Троицкий В.А. Оптимальные процессы колебаний механических систем. Л.: Машиностроение, 1976.

55. Фихтенгольц Г.М. Курс математического анализа. М.: Физматгиз, 1962.

56. Флеминг У., Ришел Р. Оптимальное управление детерминированными и стохастическими системами. / Пер. с англ. М.: Мир, 1978.

57. Фридман А. Уравнения с частными производными параболического типа. / Пер. с англ. М.: Мир, 1968.

58. Черноусъко Ф.Л. О построении ограниченного управления в колебательных системах. // ПММ. 1988. - Т. 52, вып. 4.

59. Черноусъко Ф.Л. Декомпозиция и субоптимальное управление в динамических системах. j j ПММ. 1990. - Т. 54, вып. 6.

60. Черноусъко Ф.Л. Ограниченные управления в системах с распределенными параметрами. // ПММ. 1992. - Т. 56, вып. 5.

61. Черноусько Ф.Л., Акуленко Л.Д., Соколов Б.Н. Управление колебаниями. М.: Наука. ГРФМЛ, 1980.

62. Черноусько Ф.Л., Колмановский В.Б. Оптимальное управление при случайных возмущениях. М.: Наука, 1978.

63. Anderson D., Townehill J. and Pletcher, R. Computational Fluid Mechanics and Heat Transfer. Hemisphere, New York, 1984.

64. Banks, H.T., Smith, R.C., Wang, Y. Smart Material Structures. Modelling, Estimation and Control. New York, John Wiley, 1996.

65. Bensoussan A. Perturbation methods in Optimal Control. New York, John Wiley, 1988.

66. Boyd S.P. and Barratt C.H. Linear Controller Design: Limits of Performance. Prentice Hall. Edgewood Cliffs (NJ), 1991.

67. Bratus A., Dimentberg M. and Iourtchenko D. Optimal Bounded Response Control for a Second-Order System Under a White-Noise Excitation, j j J. Vibration and Control. 2000, N 6.

68. Bratus A., Dimentberg M., Iourtchenko D. and Noori M. Hybrid solution method for Dynamic programming equations for MDOF stochastic systems. // Dynamics and Control. 2000, N 10.

69. Bratus A.S., Ivanova A.P. Feedback control for a heat equation under a white noise excitation. International Conference "Physics and Control"("PhysCon03"), August 20-22. Proceedings of the conference. -St. Petersburg, 2003. Vol. 4. - P. 1352-1356.

70. Bratus A., Ivanova A., Posviansky V. Bounded control of random vibrations for elastic system. 4th Euroinech Nonlinear Oscillations Conference, August 19-23. Book of abstracts. Moscow, 2002. - P. 56.

71. Buckdahn R., Rascanu A. On the existence of stochastic optimal control of distributed state system, // Nonlinear Analysis. 2003, vol. 52.

72. Crespo L.G., Sun J.Q. Stochastic optimal control of nonlinear systems via short-time Gaussian approximation and cell mapping // Nonlinear Dynamics. 2002, vol. 28.

73. Fleming W.H., Soner H.M. Controlled Markov processes and viscosity solutions. Springer-Verlag New York, 1993.

74. Ivanova A.P. Feedback distributed control for a heat conduction equation under a white-noise excitation. The fourth international conference "Tools for mathematical modelling", June 23-28. Book of abstracts. Saint-Petersburg, 2003. - P. 73.

75. Melikyan A.A. Generalized Characteristics of First Order PDEs: Applications in Optimal Control and Differential Games. Burkhauser, Boston, 1998.

76. Tzafestas S.G., Nightingale J.M. Optimal control of a class of linear stochastic distributed parameter systems. // Proc. IEE. 1968. Vol. 115, N 8.