автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов
Автореферат диссертации по теме "Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов"
На правах рукописи
___г—1
□□ЗОВТ1ВЭ
БАРАТОВА Екатерина Дмитриевна
РЕШЕНИЕ НЕКОТОРЫХ КЛАССОВ ДИФФЕРЕНЦИАЛЬНЫХ ИГР ПРИ НЕОПРЕДЕЛЁННОСТИ МЕТОДОМ ШТРАФНЫХ ФУНКЦИОНАЛОВ
Специальность 05.13.17 - теоретические основы информатики
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
Москва-2006
003067199
Работа выполнена на кафедре прикладной математики и информатики физико-математического факультета Борисоглебского государственного педагогического института
Научный руководитель:
доктор физико-математических наук, профессор Тараканов Андрей Федорович
Официальные оппоненты:
доктор физико-математических наук, профессор Горелик Виктор Александрович
доктор физико-математических наук, профессор Жуковский Владислав Иосифович
Ведущая организация:
Воронежский государственный университет
Защита диссертации состоится «ж..* ......^ж*.... 200.Г.. года
в .1$..,7..... часов на заседании диссертационного совета К 212.154.11 при Московском педагогическом государственном университете по адресу: 107140, Москва, Краснопрудная, 14, математический факультет МПГУ, ауд.301.
С диссертацией можно ознакомиться в библиотеке Московского педагогического государственного университета по адресу: 119992, Москва, ул. Малая Пироговская, 1.
У у»
Автореферат разослан "..'.ТТ."......гг..........200..® года.
Учёный секретарь Диссертационного совета ЧИКАНЦЕВА Н.И.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность. Проблемы обработки, передачи и использования информации в процессе принятия решений возникают во многих областях человеческой деятельности. Особенно остро эти проблемы встали сегодня, причиной чему является невероятно быстрое развитие современной науки и техники, что влечёт за собой постоянное усложнение и увеличение объёма поступающей информации. Это приводит к новым задачам, связанным с необходимостью обработки всё более сложных информационных структур. Большой интерес при этом представляет раздел теоретической информатики, связанный с решением задач оптимального управления, когда изучаемые процессы протекают во времени.
Наиболее значимыми на сегодняшний день являются исследования информационных процессов во взаимодействии сложных систем, основными характеристиками которых являются конфликтный характер принятия решений, иерархическая структура и т.п. Примерами сложных систем могут служить реальные системы в различных областях человеческой деятельности (в экономике - это предприятия, отрасли; в военном деле - подразделения; в социальной жизни - различные группы, сообщества, коллективы и т.д.).
Как правило, процесс принятия решения в сложной системе имеет конфликтный характер. При этом конфликт не подразумевает непременное столкновение противоположных интересов, но в первую очередь является способом взаимодействия сложных систем. Это становится причиной появления в формальной постановке задачи принятия решения многих целей, многих критериев оптимальности.
Ещё одной особенностью функционирования сложных систем является наличие различного рода возмущений или неконтролируемых факторов. Это помехи при передаче информации, её неполнота, погрешности измерений, не в полной мере понимаемая цель конфликта, неопределённость следующего хода оппонента и т.д. Например, в экономических системах неопределённостями могут быть недопоставки сырья, неблагоприятные погодные условия, изменение спроса на произведённую продукцию. Выделяют три типа неконтролируемых факторов: фиксированные, случайные и неопределённые. Если первые два случая исследованы достаточно подробно, то случай неопределённых факторов исследован недостаточно.
На практике при изучении сложных систем приходится учитывать фактор времени, поэтому соответствующие математические модели реальных процессов включают в себя описание функционирования динамической системы с помощью системы обыкновенных дифференциальных уравнений. Изучению динамических задач с учётом и без учёта неопределённости посвящена теория оптимального управления, большой вклад в становление которой внесли Л.С.Понтрягин, В.Г.Болтянский, Р.В.Гамкрелидзе и Е.Ф.Мищенко.
Параллельно теории оптимального управления при исследовании сложных систем находит широкое применение теория игр. В теории игр разрабатываются методы решения конфликтных ситуаций и учёта неопределённостей, получения условий оптимальности различных типов.
Сравнительно новым направлением теории игр является теория дифференциальных игр, в которой исследуется игровая постановка задач оптимального управления. Существенный вклад в построение основ теории игр внесли Р.Айзекс, Д.Блэкуэлл и М.Гиршик, Н.Н.Воробьев, С.Карлин, Н.Н.Красовский, Р.Д.Льюс и Х.Райфа, Дж. Фон Нейман и Н.О.Моргенштерн, Г.Оуэн, Л.С.Понтрягин. В дальнейшем исследования в этой области проводили Ю.Б.Гермейер, В.А.Горелик, В.И.Жуковский, А.Ф.Кононенко, Н.Н.Моисеев, Л.А.Петросян, А.И.Субботин, Н.Т.Тынянский, В.В.Фёдоров, А.А.Чикрий и др.
Изначачьно исследования в теории игр велись как в области статических решений, так и в программных и позиционных стратегиях. В первое время изучались только детерминированные задачи, в которых стратегии игроков полностью определяли ход игры, не учитывая неопределённые факторы. Так, были проведены исследования антагонистических, бескоалиционных, кооперативных, иерархических, коалиционных игр.
В последние годы стали активно изучаться дифференциальные игры при неопределённости. При этом наиболее подробно исследован их линейно-квадратичный вариант. Разработан ряд подходов к формализации решений, например: 1) максиминный (предполагается, что по отношению к одному игроку все остальные игроки и неопределённость настроены враждебно); 2) равновесия по Нэшу, Джоффриопу, Парето; 3) равновесие угроз и контругроз; 4) активное равновесие.
Для указанных выше видов дифференциальных игр (антагонистических, бескоалиционных, кооперативных и др.) популярны два общих подхода к принятию решений, названные соответственно «аналогом седловой точки» и «аналогом векторного максимина», основанных на использовании понятия векторной гарантии, сформулированы определения решения с использованием понятий оптимальности по Слейтеру, Парето, Джоффриону, Борвейпу, А-минимум. Изучены свойства решений и на основе функций Ляпунова-Беллмана доказаны достаточные условия оптимальности с приведением коэффициентных критериев в случае линейно-квадратичных функций выигрыша. Однако следует заметить, что практически все вышеуказанные исследования использовались при изучении позиционных дифференциальных игр.
Тем не менее, в том случае, когда дополнительная информация игрокам недоступна или не может быть эффективно использована в процессе игры, единственным возможным способом управления становится программа. Методы решения дифференциальных игр в программных стратегиях на сегодняшний день разработаны в основном для конкретных классов задач. При этом остаётся мало изученной научная проблема получения необходимых
условий оптимальности в дифференциальных играх общего вида и при наличии неопределённых факторов.
В данной работе предлагается подход к получению условий оптимальности для разных классов дифференциальных игр в условиях неопределённости на основе аппарата штрафных функций.
Предельный переход в условиях оптимальности для вспомогательных задач позволяет получить необходимые условия оптимальности в дифференциальных играх с программными стратегиями при неопределённости в. виде основного результата теории управления - принципа максимума, -сформулированного Л.С.Понтрягиным.
Метод штрафных функций был предложен Р.Курантом в 1943 г. в связи с решением задачи о движении тела в ограниченной области. В 1968 г. А.Балакришнан дал строгое обоснование применения метода штрафов к задачам оптимального управления. Адаптировал этот метод к минимаксным задачам исследования операций Ю.Б.Гермейер. В дальнейшем его подход был развит в исследованиях В.А.Горелика и В.В.Федорова.
Метод штрафов позволяет решать проблемы, связанные с наличием в задачах неопределённых параметров и различного типа ограничений и связей. Он используется для сведения исходных задач к вариационным, что позволяет достаточно единообразным образом разрабатывать необходимые условия оптимальности для исходных задач.
Объект настоящего исследования - игровые динамические задачи в условиях неопределённости.
Предмет исследования - необходимые условия оптимальности для дифференциальных игр в условиях неопределённости в нормальной форме (при кооперативном и изолированном поведении) и позиционной форме (двухуровневая иерархическая система).
Цель настоящей работы - исследование основных классов дифференциальных игр: кооперативных, антагонистических, иерархических, в условиях неопределённости в программных стратегиях с использованием принципа гарантированного результата на основе метода штрафных функционалов, получение необходимых условий оптимальности и демонстрация их работоспособности на модельных примерах.
В основу исследования положена гипотеза, что условия оптимальности для разных классов дифференциальных игр с неопределённостью могут быть получены на основе единого подхода с использованием штрафных функций.
Для достижения поставленной цели работы необходимо было решить следующие задачи:
• формулировка ^-оптимального и гарантированного решений для кооперативной игры при неопределённости;
• обоснование применения метода штрафных функционалов в кооперативной игре и вывод необходимых условий оптимальности для
кооперативной дифференциальной игры при неопределённости;
• формулировка определения решения для антагонистической игры при неопределённости;
• обоснование применения метода штрафных функционалов к антагонистической игре и вывод необходимых условий оптимальности для антагонистической дифференциальной игры при неопределённости;
• формулировка определения решения для иерархических игр при неопределённости;
• обоснование применения метода штрафных функционалов к иерархическим играм и вывод необходимых условий оптимальности для двухуровневой иерархической дифференциальной игры при неопределённости;
• численное исследование полученных решений.
Методологическую основу настоящего исследования составляют: выпуклый анализ; функциональный анализ; теория матриц и систем дифференциальных уравнений; методы и подходы теории дифференциальных игр и многокритериальных задач; методы и принципы теории оптимизации и оптимального управления; метод штрафных функционалов.
Научную новизну работы представляют результаты исследования указанных дифференциальных игр в программных стратегиях в условиях неопределённости с использованием принципа гарантированного результата и метода штрафов, а именно, формализация математических задач принятия решений, формулировки определений решений игр, обоснование метода штрафов для снятия дифференциальных связей и учёта неопределённости, вывод необходимых условий оптимальности.
Практическая значимость заключается в прикладной актуальности . данных классов игр. Например, программные стратегии могут быть использованы в военном деле при составлении планов операции, в управлении производственными объектами в условиях конкуренции или сотрудничества, в управлении многоуровневым производством без обратной связи или при неэффективном использовании дополнительной информации. Настоящее исследование позволяет предложить эффективное решение указанных проблем, что иллюстрируется в работе численным решением содержательных примеров.
На защиту выносятся следующие основные положения:
1. Определение гарантированных решений для основных классов дифференциальных игр при неопределённости.
2. Обоснование применения метода штрафных функционалов для снятия всех видов ограничений в дифференциальных играх.
3. Необходимые условия оптимальности для рассматриваемых классов
игр.
.Апробация. Результаты докладывались на научно-практических конференциях молодых ученых Балашовского филиала Саратовского государственного университета (СГУ) им. Н.Г.Чернышевского (Балашов, 2002, 2005,
2006 гг.), научно-методических семинарах кафедры информатики, на аспирантском объединении Балашовского филиала СГУ им. Н.Г.Чернышевского (Балашов, 2002, 2005, 2006 гг.), научно-методических семинарах кафедры прикладной математики и информатики Борисоглебского государственного педагогического института (Борисоглебск, 2006 г.), на V Всероссийской научно-практической конференции «Современные технологии в машиностроении» в Пензенском государственном университете (Пенза, 2002), на II Всероссийской научно-технической конференции «Проблемы информатики в образовании, управлении, экономике и технике» в Пензенском государственном, педагогическом университете им. В.Г.Белинского (Пенза, 2002), на Всероссийской научно-практической конференции «Проблемы и перспективы Российской экономики» в Пензенском государственном университете (Пенза, 2002). Результаты исследования апробированы численными экспериментами, описанными в диссертации.
Основные результаты диссертации опубликованы в 7 печатных работах.
Структура работы. Работа состоит из введения, трех глав, заключения и списка использованной литературы.
СОДЕРЖАНИЕ РАБОТЫ
Первая глава посвящена исследованию стратегических аспектов кооперативного поведения в дифференциальной игре N лиц в нормальной форме, которую для краткости будем именовать кооперативной игрой N лиц при неопределённости. В п. 1.1 даётся постановка задачи, описываются правила игры и вводится обобщенное определение оптимальности по Парето в условиях неопределённости (/^-оптимальной ситуации). Игра формулируется в виде упорядоченного набора
где {1.. ,ЛГ} - множество всех номеров игроков, £ - динамическая управляемая система, на которую влияют игроки и неопределённость, и функционирование которой описывается обыкновенным векторным дифференциальным уравнением
:х =Дит,...,ит,г,х, 0, *(/.) = *., ^[/,,5], (1)
где хеЯ", и(-1\...,и^еКг, гвК", ¿,,>9 - заданные моменты времени соответственно начала и окончания игры. Стратегия г'-го игрока отождествляется с его функцией управления г/''(-) со значениями из множества £/,, т.е. ггм(?)е£/,-, г = 1,Л7". Ситуацию игры отождествляется с набором Множества Д
допустимых управляющих воздействий г'-го игрока определим как множества ограниченных измеримых функций и(%) со значениями из заданных множеств Ц. Неопределенный фактор г является точкой множества .
Функции выигрыша игроков определим как
^(И0^-).....и{АГЧО,г) = Ф,(х(^0)+ \F.XuV{t),...,uW(t),z,x(t),t)dt,i = \,N. (2)
К
Партия игры разворачивается следующим образом. Каждый г'-й игрок выбирает на весь период времени свою конкретную допустимую
стратегию и(,'(-)- Независимо от такого выбора на управляемую систему Е действует некоторая неопределённость zeZ. При (f), / = 1 ,N, t e[t„3], и
каждого zeZ строится решение x(t), системы (1). Затем
совокупность (*/»(■),-Л), *(')) подставляется игроками в (2), и они вычисляют свои выигрыши при реализации любой неопределенности zeZ.
Задача состоит в нахождении такого набора программных стратегий и = u*(t) = (и(1)*(i),...,i/(iV)*(i)), / е [t„$], чтобы функции выигрыша принимали по возможности наибольшие значения J*, i = l,N, при реализации любой неопределённости z е Z.
Определение 1. Cumyaijun (й|1'",...,м(д')')бДх...хО(у называется р-оптгшалъной в игре Г, если при любых ситуациях ui]\-),...,um(-)eD\x...xD,y и любой неопределённости z е Z несовместна система неравенств:
J.VV.^V)>i = ijv,
и хотя бы одно из неравенств строгое.
В п. 1.2 вводится свёртка критериев и доказываются необходимые и достаточные условия существования /^-оптимальной ситуации. Составим единый критерий
= (3)
1 = 1
N
где СС[> О, =1. Для нахождения р-оптимальной ситуации критерий (3) ¡=1
перепишем в виде
J(um,...,um) = jj(uw,...,um,z)dz. 7.
Сформулируем следующую задачу. При ограничениях (1) найти такую ситуацию (w(1)*,...,«(A,)*) eDlx...y.DN, чтобы
7(ы(1)\..,и(Л,)*) = sup [j{um,...,u(N\z)dz = r. (4)
Теорема 1. Для того чтобы cumyaifm (и(1)*,...,м(Л/)*) e.D\x...xDN была р-оптималъной в игре (1), (2), необходимо и достаточно суи(ествования at> О,
N
5>, =1, таких, что (и(1)*,...,к(Л,)*) реализует равенства (4) при условиях (1). 1=1
В п. 1.3 вводится определение решения на основе гарантии линейной свёртки критериев и определяется гарантированное множество Парето.
Определение 2. Ситуация (н(1)*(■),...,м(Л,*(-)) еДх.. .хДу называется гарантирующей в задаче (1),(2), если при любых ситуациях
и некоторых сс<> О выполняется неравенство
762 Ы ге2М
Затем вместо задачи (1), (2) решается новая задача: при ограничениях (1) найти такую ситуацию (и(1)*(-),...,и(Л,)*(-))еАх...х1)№ чтобы
i» = sup
inf J(umQ,...,umQ,z) = J*. (5)
Полученная однокритериальная задача методом штрафных функций освобождается от дифференциальных связей, доказывается совпадение решений исходной и новой задач.
В задаче (1), (5) вводится новый целевой функционал со штрафом за нарушение дифференциальных связей:
5 (6) -2 J j\i(t)-f(um(t),...,um(t),z,x(t),tfdtdz,
2 t,
и рассматривается семейство задач, зависящих от параметра А:
У(Л)= sup (•),-, и(Л° 0,*0Д)- (7)
»("о,., уимо .
Решением задачи (6),(7) называется ситуация (ит* (•),..и соответствующий фазовый вектор **(')> обеспечивающие sup V(uW(■),...,ит(-),х(-),Л).
Теорема 2. Для любого фиксированного Я > О решение (м(''(г,Л),...,м(Л)(/,/1),х(г,А)) задачи (6),(7) существует, и имеет место равенство'.
\imV(A) = liminf
Я->со Л—»ooze"
/=1
■V Л' Л '
,JVi=l У .
**
= J*.
В п. 1.4 приводится доказательство теоремы о скорости сходимости метода
штрафов. Погрешность метода оценивается по формуле: Е{Л) = У (Л) - У*. Теорема 3 .Для достаточно больших Л имеет место оценка".
О <Е(Л)<
K2N2
им^(г)
где М > О, К > 0 - константы, И— число игроков, — мера множества 2.
В п. 1.5 полученная однокритериальная задача без ограничений сводится к задаче на максимум, доказывается совпадение решений полученной задачи и задач из п.1.3. Вводится функционал
W(м0)(•),...,u{N)(•),*(•), ш,Л) = а-Л И min
z
&
о, (*(£))+
N
\
+ j>,Ff(U(1J( t),...,uw(t\z,x{t),t)
dt-co
dz- (8)
J
5
- Я J J ¡i(í) - f(um (t),...,um (t),z, x(t), tfdtdz,
Z t,
и рассматривается семейство задач
ЩЛ)= sup W(uw(-),...,um('),x(-),a>,¿). (9)
U(1)0.....
Теорема 4. Для любого Л > 0 решение задачи (8), (9) существует, и имеют место равенства со* = ИтЖ(Л) = lim У(Л) = J*.
Я->зо Д->м
Далее выводятся необходимые условия оптимальности в виде обобщённого принципа максимума.
Теорема 5. Пусть (и(1>*(•),■••,иÍN)* (•)) eD¡x...xDv - оптимальная cumyaijim в
задаче (1), (5), определённая на отрезке [í,,i9]. ■**(•) — соответствующие траектории системы (1). Тогда существует такая неотрицательная измеримая функция p{z), что
jp(z)dz = l, z
причём p(z) = 0 при z g Arginf ,/(í¡(1),)...,k('v)*,z), а также не равные
одновременно нулю число в > О и вектор-функция ограниченной вариации такие, что
1) вектор-функция y/(z,-) на [Y,,i9] при любом фиксированном zeZ удовлетворяет уравнению
(В Y
yr(z,t) = - -§-f(um'(t),...,um\t),z,x\t),t)\ ¥(z,f)~
J
с условием трансверсальности
ы дх
2) для почти всех te[t,,S] и для любых u(i) eU-,j ~l,N, на наборе
(ит*(■),..(■)) выполняются неравенства
3 / Т
J ]([■£]г/("а)*(0.....(*U**(0,о] +
Zi, \
Вп.1.6 рассмотрен численный пример.
Во второй главе исследуется изолированное поведение, характерное для антагонистической игры. Здесь же рассматривается антагонистическое взаимодействие двух коалиций игроков, где внутри коалиций игроки совместно принимают решения, а между коалициями существует конкуренция.
Для данной игры в п.2.1 строится определение решения на основе принципа гарантированного результата. В данной главе под игрой понимается упорядоченный набор Г = ({1,2}, X, Z, {Ji(m(1), и{2\ z), J2{u{X), iP\ z)}>.
Функционирование динамической управляемой системы Z описывается обыкновенным векторным дифференциальным уравнением
х и(2\ z, х, 0, x(t,) = x.,te [t„S]. (10)
Функции выигрыша игроков
Э
7/(«(,)(-Хи<2)0.г) = Ф/(х(^))+ jFf(w(1)(i),«(2)(0^,*(/),0A, f = 1,2.
Партия игры разворачивается следующим образом. Каждый игрок выбирает на весь период времени [/,,5] свою конкретную допустимую стратегию ww(-)> г = 1,2- В результате складывается ситуация и(-) = (и(1,(-)> м(2)(-))-Независимо от такого выбора на управляемую систему £ действует некоторая неопределённость zeZ. При mw = u^'\t), г =1,2, ie[i,,,9], и каждого zsZ строится решение x(t), i е [i,, ^9], системы (10). Затем игроки одновременно и независимо определяют свои выигрыши при реализации наименее благоприятной неопределенности zeZ.
Гарантированный результат первого игрока
J{= sup inf infy1(M(,)(0.«(2)(-).z). (11)
„("(.)6A«(2)(06O2ieZ
Гарантированный результат второго игрока
Г2= sup inf rn?J2(um(-),um(-),z). (12)
A zeZ
Под решением данной игры понимается набор {(и(1)*,г/2>'*),(/]*>J^)}, состоящий из стратегий игроков, реализующих равенства (11),(12), и их соответствующих выигрышей.
Так как информация о стратегиях противника игрокам недоступна, то стратегия ит* находится при решении задачи (10), (11), а стратегия м(2)* - при решении аналогичной задачи (10), (12). Затем вычисляются выигрыши игроков
г* г* jx и j2 .
В п.2.2 и п.2.3 методом штрафов осуществляется освобождение от дифференциальных связей, и исходная задача сводится к задаче на максимум.
Используя штрафные функционалы
Г(и«> (-),*(0Д)= inf inf У1(и«(-),и(2)(-),г)-
ZxD2 t,
W(um(•), x(-), co,X,v)~ со —v J(mm[o, J, (и0)(•),u(2)(•),z) - cof /u(dzx dum) -
Z*D2
9
-A J ^x{t)-f{u(l\t),um{t),z,x(t\ti\dtfi{dzxdu(2)), ZxD2 к
где X > 0, v > 0 •<- штрафные параметры, ^dzxdvt1') - мера Лебега, заданная на множестве ZxD2. Получим соответственно семейство максиминных задач и затем задачу на максимум
• К(Д= sup V(uV(•),*(•),Я),
!(•),И0'«
ïF(Â,v) = sup Щии>(-),х(-),с»,Л,у). («(l,O.i(0)si2J<«'21)
-00<(У<+О0
Теорема 6. Пусть г/(1,*(-) еД - оптимальная стратегия в задаче (10), (11), определённая на отрезке [/,,<9]. х*(-) — соответствующие траектории системы (10). Тогда супцествует такая неотрицательная измеримая функция р(иа\), г), что
¡p(iP\-),z)fi(dzxdum) = l,
ZxD2
а также не равные одновременно нулю в > 0 и вектор-функция ограниченной вариации yAjP'X-), z, •) такие, что
1) вектор-функция 1//(и 2\-), г, •) на [г„,$] при любых фиксированных г е 2 и и<2\{) е 1/2 удовлетворяет уравнению
</>&2) (0,2,0 = -ф(М<2> (•), ¿) ^ (м(1)* (О, И<2) СО, (О, О -
дх
-[¿/(и(1),(0»и(2)(0.г,**(0,0]
с условием трансверсальности
И«(2) (•), г,= Ф(«(2) О), Ф, (х* (£));
ох
2) для почти всех /£[/,,.9] и для любых ит е£/,, на стратегии м1"*(•) авенство
9 ГУ \Т
выполняется неравенство 9
2у.В2 г,
В п.2.4 рассматривается антагонистическое взаимодействие двух коалиций игроков, как обобщение результатов первой и второй глав. В п.2.5 представлен численный пример.
В третьей главе рассматривается двухуровневая иерархическая игра двух лиц при неопределённости. Исследуются две задачи с различной информированностью игроков. В п.3.1 рассматривается случай учёта неопределённого фактора игроком верхнего уровня, игроку нижнего уровня известна реализовавшаяся неопределённость. Для данной игры в п.3.1.1 строится определение решения на основе принципа гарантированного результата. В данной главе под игрой понимается упорядоченный набор Г = ({1,2}, Е, г, {10х\ м(2), г), и<2), г)}). В этой игре 1-й игрок
находится на верхнем уровне иерархии (управляющий Центр), игрок под номером 2- на нижнем уровне. Функционирование динамической управляемой системы Е описывается обыкновенным векторным дифференциальным уравнением
х =Л1/'и(2и*,0, х(/.) = х.,*е[/,„9]. (13)
Функции выигрыша первого и второго игроков определим как
У, (м<» (■), и(2) (•), г) = Ф, {х{&)) + ]>, (и<1> (0, и<2> (г), г, х(0, 1)А,
г,
9
(и« (•), и(2) (•), г) = Ф2 (*(¿0) + ]У2 (м(2) (0, г, х(0, 0 А,
где функция F2 в явном виде содержит только стратегию 2-го игрока.
Партия игры разворачивается следующим образом. На управляемую систему Е действует некоторая неопределённость z е Z. Центр (1-й игрок), не зная реализовавшуюся неопределённость, выбирает на весь период времени свою конкретную допустимую стратегию м(1)(-) и сообщает её игроку нижнего уровня. Последний знает zeZ и с учётом фиксированного м(1)(-) выбирает свою 'допустимую стратегию м(2,(-) = м(2)(-, м(1'(■)), из условия максимума своей функции выигрыша. Центр, зная способ формирования стратегий игроком нижнего уровня, формирует множество
3(и«(-),г) = |и<2>(-)е= A \J2(iP\-),u™(-),z) = sup J2(^>(-),m(2)(-),z) ,
I J
которое есть множество стратегий 2-го игрока, максимизирующих его критерий J2 с учётом имеющейся у него информации о реализовавшейся неопределённости. Центр «осторожен», принимает решение, учитывая «благожелательность» игрока нижнего уровня, и определяет набор (и1"^),^2^-)). При (Г), /"=1,2, te[t„&\, и при любых z е Zстроится решение x(t),
t e[i,,i9], системы (13). Тогда гарантированный результат Центра
J{= sup inf sup J1(w(1)Q,m(2)0,z). (14)
Под решением игры Г понимается набор {(и^*,u(-2)"),(J^, J2)}, состоящий из стратегий игроков, реализующих максимин (14), и их соответствующих выигрышей.
Задача (13)-(14) является задачей с кратным максимином со связанными переменными (из-за взятия минимума по неопределённости и максимума по стратегиям из многозначного отображения 3(m(I)(-),z)), осложнённой наличием дифференциальных связей.
В п.3.1.2, п.3.1.3 и п.3.1.4 методом штрафов осуществляется освобождение от дифференциальных связей, переход от задачи на связанных множествах к задаче с распадающимися переменными, и исходная задача сводится к задаче на максимум.
Используя штрафной функционал
¿(M(1)(-),*(-;U) = inf sup 1/, (и(1) (■), и(2) (О.*)-
& ) - Я |х(0 - /(М<ч (О, И(2) (i), Z, x(t),of dt),
t.
где Л > О - параметр штрафа, получаем семейство максиминных задач
L(A)= sup Цит(-),х(-),Л).
Введение функционала
, zsZ
( 9
приводит к семейству максиминных задач
V(A,V)= sup V(um(-),um(-),x(-),X,V)>
где G(um(•), 2,x(0) = (min[0, ф™(.);z> x(.))]}2 >
cpixi;2) (•),*0) = sup [J2 (um (■),um(■),z)] - J2 (um (•),м(2) (■), z),
а затем, применяя функционал со штрафом
Ж(ит(-),ит(-),х(-1а,Л,7],у) = ю- v J(min[0, Jxium(\u{2\^z)-cofdz-
ö
J + f{u{}\t)y2\t),z,x(t),tf dt
ZL
получаем обычную задачу на максимум
W(ä,tj,v)= sup W(um(-),ui2\-),x(-),a,l,r;,v).
-00<й/<+00
Теорема 7. Пусть (ит\-),ит* {■)) еДхД,
— оптимальная ситуация в задаче (13), (14), определённая на отрезке х*(0 — соответствующие
траектории системы (13). Тогда существует такая неотрицательная измеримая функция p[z), что
¡p(z)dz = 1,
z
а также не равные одновременно нулю непрерывная функция 0(z)>О, неотрицательная измеримая функция y(z) и вектор-функция ограниченной вариации ц/(г, •) такие, что
1) вектор-функция yAz,-) на [/,,<9] при любом фиксированном zsZ удовлетворяет уравнению
y{z,t) = -e{z)p{z)^-Fl{um'{t),um\t),z,x'(t),t) -ox
-[I-Я«(1)Ч0.и(2Г(0,*,**(0,0) !ф,0 +
д sup F2(u^2)(t%z,x'(t),t)-F2(ui2)'(t),z,x'(t),t)
V'<2)(')eD2
+ 6{z)y{z)
дх
с условием трансверсальности
ох
2) для почти всех ie[/,,i9] на наборе (uw*(•)) выполняются неравенства
$ i у
для любых hw б Uj, i = 1,2.
В п.3.1.5 рассмотрен пример.
В п.3.2 исследуется случай отсутствия у всех игроков информации о реализовавшейся неопределённости. Аналогично п.3.1 для данной задачи в п.3.2.1 вводится определение решения. Формируемое Центром связанное множество, отражающее учёт неопределённости на нижнем уровне, будет отличным от множества из п.3.1.1:
3(w(1)(-)) = J«(2)0 еА I inf J2(«(1)(-),w(2)(').z)= sup inf J2(M(1)(-).«m(0,z)>.
1 zeZ J
Гарантированный результат Центра
Jj= sup sup MJx(um(-lu(2)(-),z). (15)
В п.3.2.2, п.3.2.3 и п.3.2.4 методом штрафов осуществляется освобождение от дифференциальных связей, переход от задачи на связанных множествах к задаче с распадающимися переменными, исходная задача сводится к задаче на максимум, и доказываются 'необходимые условия оптимальности в виде обобщённого принципа максимума.
Теорема 8. Пусть (м(1)*(-)'м^*(")) zD\xD2 — оптимальная ситуация в задаче (13), (15), определённая на отрезке [?»,$]. х'О - соответствующие траектории системы (13). Тогда существует такая неотрицательная измеримая функция p(z), что
\p{z)dz = 1, z
а также не равные одновременно нулю 0>О, у> О и вектор-функция ограниченной вариации y/{z,-) такие, что
1) вектор-функция tf/(z,-) на [/,,$] при любом фиксированном z^Z удовлетворяет уравнению
dz+
z z
я Лт )
^f{u^(tU2)\t),z,x\t),t)j y{z,t)jdz + + 9y~ inf sup F2{u^\t),zX{t),t)-^F2{M(i>{t),z,x\t),t)
zeZ
с условием трансверсальности
и*,¿9 = Ф(*)|-Ф,(*■(.?));
ох
2) для почти всех ?e[i,,i9] и для любых м1,) еС,-, г = 1,2, на наборе (и "'*(■),и <2,*(')) выполняются неравенства
dir' zeZ
В п.3.2.5 представлен пример.
В заключении перечислены основные результаты работы.
1. Для кооперативной дифференциальной игры при неопределённости сформулировано понятие гарантирующего решения, построенного с помощью применения принципа гарантированного результата к суммарному критерию с весовыми коэффициентами.
2. Сформулированы и доказаны необходимые условия оптимальности для кооперативной дифференциальной игры при неопределённости в виде обобщённого принципа максимума с применением штрафных функционалов.
3. Сформулировано определение решения для антагонистической дифференциальной игры при неопределённости на основе принципа гарантированного результата.
4. Сформулированы и доказаны необходимые условия оптимальности для антагонистической дифференциальной игры при неопределённости в виде обобщённого принципа максимума с применением штрафных функционалов.
5. Для двухуровневой иерархической игры при неопределённости сформулированы определения решений для различных случаев информированности верхнего и нижнего уровней на основе принципа гарантированного результата.
6. Сформулированы и доказаны необходимые условия оптимальности для двухуровневой иерархической дифференциальной игры в условиях неопределённости в виде обобщённого принципа максимума с применением
штрафных функционалов.
7. В среде МаШСАБ реализован метод численного определения решений кооперативной и антагонистической игр, что является обоснованием практической пригодности используемого метода.
Основное содержание диссертации отражено в работах:
1. Баратова, Е. Д. Метод штрафов и необходимые условия оптимальности в дифференциальной иерархической игре при неопределенности [Текст] / Е. Д. Баратова, А. Ф. Тараканов // Известия РАН. Теория и системы управления. - 2003. - № 3. - С. 30-36.
2. Баратова, Е. Д. Метод штрафов и необходимые условия оптимальности в дифференциальной кооперативной игре при неопределённости [Текст] / Е. Д. Баратова, А. Ф. Тараканов // Известия высших учебных заведений. Математика. - 2004. - № 12 (511). - С. 66-74.
3. Баратова, Е. Д. Метод штрафов для решения дифференциальной иерархической игры при неопределенности [Текст] / Е. Д. Баратова // Проблемы и перспективы Российской экономики : сборник статей Всероссийской научно-практической конференции (март 2002 г.) / под ред. В. Д. Дорофеева. - Пенза : Приволжский Дом знаний, 2002. - С. 118-121.
4. Баратова, Е. Д. Метод штрафов для решения дифференциальной кооперативной игры при неопределенности [Текст] / Е. Д. Баратова // Современные технологии в машиностроении : сборник материалов V Всероссийской научно-практической конференции в 2 ч. (февраль 2002 г.) / под ред. В. Д. Дорофеева. - Пенза : Приволжский Дом знаний, 2002. - Ч. 2. -
5. Баратова, Е. Д. Метод штрафов для решения дифференциальной коалиционной игры при неопределенности [Текст] / Е. Д. Баратова // Проблемы информатики в образовании, управлении, экономике и технике : сборник материалов II Всероссийской научно-практической конференции (ноябрь 2002 г.) / под ред. В. М. Линькова. - Пенза : Приволжский Дом знаний, 2002. -
6. Баратова, Е. Д. Решение дифференциальной иерархической игры в программных стратегиях при неопределенности [Текст] / Е. Д. Баратова. - М. , 2002.- 19 с.-Деп. в ВИНИТИ 10.07.02, № 1286.
7. Баратова, Е. Д. Решение дифференциальной коалиционной игры в программных стратегиях при неопределенности [Текст] / Е. Д. Баратова. - М., 2002. - 20 с. - Деп. в ВИНИТИ 10.07.02, № 1287.
С. 66-68.
С. 44-47.
Подл, к печ. 30.11.2006 Объем 1 п.л. Заказ №. 135 Тир 100 экз.
Типография Mill У
Оглавление автор диссертации — кандидата физико-математических наук Баратова, Екатерина Дмитриевна
Введение.
Глава 1. Кооперативная игра N лиц.
1.1. Постановка задачи и определение решения.
1.2. Необходимые и достаточные условия существования /мштимальной ситуации.
1.3. Гарантированное решение и освобождение от дифференциальных связей.
1.4. Скорость сходимости метода штрафов.
1.5. Сведение к задаче на максимум и необходимые условия оптимальности.
1.6. Пример.
Глава 2. Антагонистическая игра.
2.1. Постановка задачи и определение решения.
2.2. Освобождение от дифференциальных связей.
2.3. Сведение к задаче на максимум и необходимые условия оптимальности.
2.4. Антагонистическое взаимодействие двух коалиций.
2.5. Пример.
Глава 3. Иерархическая игра.
3.1. Учёт неопределённости игроком верхнего уровня.
3.1.1. Постановка задачи и определение решения.
3.1.2. Освобождение от дифференциальных связей.
3.1.3. Переход от задачи со связанными переменными к задаче с распадающимися переменными.
3.1.4. Сведение к задаче на максимум и необходимые условия оптимальности.
3.1.5. Пример.
3.2. Учёт неопределенности игроком нижнего уровня.
3.2.1. Постановка задачи и определение решения.
3.2.2. Освобождение от дифференциальных связей.
3.2.3. Переход от задачи со связанными переменными к задаче с распадающимися переменными.
3.2.4. Сведение к задаче на максимум и необходимые условия оптимальности.
3.2.5. Пример.
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Баратова, Екатерина Дмитриевна
Актуальность темы. Проблемы обработки, передачи и использования информации в процессе принятия решений возникают во многих областях человеческой деятельности. Причём технический прогресс и постоянное увеличение объёма и усложнение поступающей информации эти проблемы ставят в настоящее время достаточно остро. Дело в том, развитие ресурсо- и энергосберегающих технологий, защита окружающей среды от нежелательного вмешательства и другие сферы деятельности, связанные с участием людей, требуют повышения качества решений. Как следствие, возникают новые математические задачи, связанные с управлением сложными системами. Такие системы изучаются в рамках теоретической информатики, в частности, большой интерес представляют динамические системы, приводящие к задачам оптимального управления, когда процессы протекают во времени.
Наиболее значимыми на сегодняшний день являются исследования информационных процессов во взаимодействии сложных систем, основными характеристиками которых являются конфликтный характер принятия решений, иерархическая структура и т.п. Примерами сложных систем могут служить реальные системы в различных областях человеческой деятельности (в экономике - это предприятия, отрасли; в военном деле - отряды, армии; в социальной жизни - различные группы, сообщества, коллективы и т.д.).
Проблемы постановки, разработки и приложения математических моделей принятия оптимальных решений в сложных системах изучаются в таких дисциплинах, как системный анализ [63,64] и исследование операций [26,85].
Как правило, процесс принятия решения в сложной системе имеет конфликтный характер. При этом конфликт не подразумевает непременное столкновение противоположных интересов, но в первую очередь является способом взаимодействия сложных систем. Это становится причиной появления в формальной постановке задачи принятия решения многих целей, многих критериев оптимальности. Исследованиям в области многокритериальных задач посвящены, например, работы [11,32,38,43,45,46,72,81,98].
Ещё одной особенностью функционирования сложных систем является наличие различного рода возмущений или неконтролируемых факторов. Это помехи при передаче информации, её неполнота, погрешности измерений, не в полной мере понимаемая цель конфликта, неопределённость следующего хода оппонента и т.д. Например, в экономических системах неопределённостями могут быть недопоставки сырья, неблагоприятные погодные условия, изменение спроса на произведённую продукцию.
Теория исследования операций выделяет три типа неконтролируемых факторов: фиксированные, случайные и неопределённые. Если первые два случая исследованы достаточно подробно [26,58,86,96], то случай неопределённых факторов является наиболее сложным [41,42,44,54,57,58,82,90] и для игровых динамических задач исследован недостаточно.
На практике при изучении сложных систем приходится учитывать фактор времени, поэтому соответствующие математические модели реальных процессов включают в себя описание функционирования динамической системы с помощью системы обыкновенных дифференциальных уравнений. Изучению динамических задач с учётом и без учёта неопределённости посвящена теория оптимального управления - наука о методах определения законов управления объектами, допускающих реализацию с помощью технических средств автоматики. Большой вклад в становление теории внесли Л.С.Понтрягин, В.Г.Болтянский, Р.В.Гамкрелидзе и Е.Ф.Мищенко [15,16,24,73,74]. Дальнейшие исследования в этой области представлены в работах [14,22,23,39,59,64,65,75].
Параллельно теории оптимального управления при исследовании сложных систем находит широкое применение теория игр. По определению Н.Н.Воробьева [21], теория игр - это теория математических моделей принятия оптимальных решений в условиях конфликта и неопределённости, когда принимающий решение субъект («игрок») располагает информацией лишь о множестве возможных ситуаций, в одной из которых он в действительности находится, о множестве решений (стратегий), которые он может принять, и о количественной мере того «выигрыша», который он мог бы получить, выбрав в данной ситуации данную стратегию.
Модели теории игр находят широкое применение во многих сферах деятельности человека: в политике (способы взаимодействия между партиями союзами, блоками, группами и другими политическими объединениями), в экономике (различные варианты руководства системой предприятий, контроль над процессом выпуска товаров, регулирование взаимоотношений между потребителем и товаропроизводителем и т.д.), в военном деле (проведение военных операций при участии различных родов войск, с привлечением союзников, с несколькими противниками, взаимодействие однотипных боевых единиц и т.д.), в управлении (взаимосвязь управляющих подсистем различных уровней с учётом помех), в экологии (способы взаимодействия человека с природой, борьба биологических видов за существование и т.д.). Возникновение конфликтных ситуаций в указанных сферах естественно. В теории игр разрабатываются методы решения конфликтов и учёта неопределённостей, получения условий оптимальности различных типов.
Сравнительно новым направлением теории игр является теория дифференциальных игр, в которой исследуется игровая постановка задач оптимального управления.
Существенный вклад в построение основ теории игр внесли Р.Айзекс [1], Д.Блэкуэлл и М.Гиршик [13], Н.Н.Воробьев [21], С.Карлин [51],
Н.Н.Красовский [55,56], Р.Д.Льюс и Х.Райфа [60], Дж. Фон Нейман и О.Моргенштерн [66], Г.Оуэн [68], Л.С.Понтрягин [74,75,76,77,78]. В дальнейшем исследования в этой области проводили Ю.Б.Гермейер, В.А.Горелик, В.И.Жуковский, А.Ф.Кононенко, Н.Н.Моисеев, Л.А.Петросян, А.И.Субботин, Н.Т.Тынянский, В.В.Фёдоров, А.А.Чикрий и другие.
Изначально исследования в теории игр велись как в области статических решений [13,21,51,60,66], так и в программных [32,33] и позиционных [17,53,56,83] стратегиях. В первое время изучались только детерминированные задачи, в которых стратегии игроков полностью определяли ход игры, не учитывая неопределённые факторы. Так, были проведены исследования антагонистических [36,48,99], бескоалиционных [20,61], кооперативных [10,27,37,42,69,80,84], иерархических [29,90,93,97], коалиционных [18,41] игр.
В последние годы стали активно изучаться дифференциальные игры при неопределённости [41,42,47,82]. При этом наиболее подробно исследован их линейно-квадратичный вариант. Разработан ряд подходов к формализации решений, например: 1) максиминный (предполагается, что по отношению к одному игроку все остальные игроки и неопределённость настроены враждебно); 2) равновесия по Нэшу, Джоффриону, Парето; 3) равновесие угроз и контругроз; 4) активное равновесие.
Для указанных выше видов дифференциальных игр (антагонистических, бескоалиционных, кооперативных и др.) популярны два общих подхода к принятию решений, названные соответственно «аналогом седловой точки» и «аналогом векторного максимина», основанных на использовании понятия векторных гарантий, сформулированы определения решения с использованием понятий оптимальности по Слейтеру, Парето, Джоффриону, Борвейну, А-минимум. Изучены свойства решений и на основе функций Ляпунова-Беллмана доказаны достаточные условия оптимальности с приведением коэффициентных критериев в случае линейно-квадратичных функций выигрыша. Однако следует заметить, что практически все вышеуказанные исследования направлены на изучение позиционных дифференциальных игр и получение в них достаточных условий оптимальности.
Тем не менее, в том случае, когда дополнительная информация игрокам недоступна или не может быть эффективно использована в процессе игры, единственным возможным способом управления становится программа. Методы решения дифференциальных игр в программных стратегиях на сегодняшний день разработаны в основном для конкретных классов задач. При этом остаётся мало изученной научная проблема получения необходимых условий оптимальности в дифференциальных играх общего вида и при наличии неопределённых факторов. Некоторые подходы к решению указанной проблемы можно найти, например, в работах [17,30,32,33,70,96], однако в общем виде эта проблема ещё не решена.
В данной работе предлагается подход к получению условий оптимальности для разных классов дифференциальных игр в условиях неопределённости на основе аппарата штрафных функций.
Предельный переход в условиях оптимальности для вспомогательных задач позволяет получить необходимые условия оптимальности в дифференциальных играх с программными стратегиями при неопределённости в виде основного результата теории управления -принципа максимума, - сформулированного Л.С.Понтрягиным [16].
Метод штрафных функций был предложен Р.Курантом в 1943 г. в связи с решением задачи о движении тела в ограниченной области. В 1968 г. А.Балакришнан [2] дал строгое обоснование применения метода штрафов к задачам оптимального управления. Адаптировал этот метод к минимаксным задачам исследования операций Ю.Б.Гермейер [28]. В дальнейшем его подход был развит в исследованиях В.А.Горелика и В.В.Федорова [30,32,94,95,96]. Последние результаты в изучении минимаксных задач управления с помощью метода штрафов получены в работах [34,35,88,89].
Метод штрафов позволяет решать проблемы, связанные с наличием в задачах неопределённых параметров и различного типа ограничений и связей. Он используется для сведения исходных задач к вариационным, что позволяет достаточно единообразным образом разрабатывать необходимые условия оптимальности для исходных задач.
Объект настоящего исследования - игровые динамические задачи в условиях неопределённости.
Предмет исследования - необходимые условия оптимальности для дифференциальных игр в условиях неопределённости в нормальной форме (при кооперативном и изолированном поведении) и позиционной форме (двухуровневая иерархическая система).
Цель настоящей работы - исследование основных классов дифференциальных игр: кооперативных, антагонистических, иерархических, в условиях неопределённости в программных стратегиях с использованием принципа гарантированного результата на основе метода штрафных функционалов, получение необходимых условий оптимальности и демонстрация их работоспособности на модельных примерах.
В основу исследования положена гипотеза, что условия оптимальности для разных классов дифференциальных игр с неопределённостью могут быть получены на основе единого подхода с использованием штрафных функций.
Для достижения поставленной цели работы необходимо было решить следующие задачи:
• формулировка ¿»-оптимального и гарантированного решений для кооперативной игры при неопределённости;
• обоснование применения метода штрафных функционалов в кооперативной игре и вывод необходимых условий оптимальности для кооперативной дифференциальной игры при неопределённости;
• формулировка определения решения для антагонистической игры при неопределённости;
• обоснование применения метода штрафных функционалов к антагонистической игре и вывод необходимых условий оптимальности для антагонистической дифференциальной игры при неопределённости;
• формулировка определения решения для иерархических игр при неопределённости;
• обоснование применения метода штрафных функционалов к иерархическим играм и вывод необходимых условий оптимальности для двухуровневой иерархической дифференциальной игры при неопределённости;
• численное исследование полученных решений. Методологическую основу настоящего исследования составляют:
• выпуклый анализ [79];
• функциональный анализ [52];
• теория матриц и систем дифференциальных уравнений [25,62];
• методы и подходы теории дифференциальных игр и многокритериальных задач [26,41,47];
• методы и принципы теории оптимизации и оптимального управления [23,32,50,65,87];
• метод штрафных функционалов [96].
Научную новизну работы представляют результаты исследования указанных дифференциальных игр в программных стратегиях в условиях неопределённости с использованием принципа гарантированного результата и метода штрафов, а именно, формализация математических задач принятия решений, формулировки определений решений игр, обоснование метода штрафов для снятия дифференциальных связей и учёта неопределённости, вывод необходимых условий оптимальности.
Практическая значимость заключается в прикладной актуальности данных классов игр. Например, программные стратегии могут быть использованы в управлении производственными объектами в условиях конкуренции или сотрудничества, в управлении многоуровневым производством без обратной связи или при неэффективном использовании дополнительной информации, в военном деле при составлении планов операций. Настоящее исследование позволяет предложить эффективное решение указанных проблем, что иллюстрируется в работе численным решением содержательных примеров.
На защиту выносятся следующие основные положения:
1. Определение гарантированных решений для основных классов дифференциальных игр при неопределённости.
2. Обоснование применения метода штрафных функционалов для снятия ограничений в дифференциальных играх.
3. Необходимые условия оптимальности для рассматриваемых классов игр.
Апробация. Результаты докладывались на научно-практических конференциях молодых ученых Балашовского филиала Саратовского государственного университета (СГУ) им. Н.Г.Чернышевского (Балашов, 2002, 2005, 2006 гг.), научно-методических семинарах кафедры информатики, на аспирантском объединении Балашовского филиала СГУ им. Н.Г.Чернышевского (Балашов, 2002, 2005, 2006 гг.), научно-методических семинарах кафедры прикладной математики и информатики Борисоглебского государственного педагогического института (Борисоглебск, 2006 г.), на V Всероссийской научно-практической конференции «Современные технологии в машиностроении» в Пензенском государственном университете (Пенза, 2002), на II Всероссийской научно-технической конференции «Проблемы информатики в образовании, управлении, экономике и технике» в Пензенском государственном педагогическом университете им. В.Г.Белинского (Пенза, 2002), на Всероссийской научно-практической конференции «Проблемы и перспективы Российской экономики» в Пензенском государственном университете (Пенза, 2002). Кроме того, результаты исследования апробированы с помощью численных экспериментов, описанных в диссертации.
Структура работы. Работа состоит из трех глав.
Первая глава посвящена исследованию стратегических аспектов кооперативного поведения в дифференциальной игре N лиц в нормальной форме. Данную игру для краткости будем именовать кооперативной игрой N лиц при неопределённости. Для кооперативной игры N лиц при неопределённости предполагается, что игроки стремятся получить максимально возможный суммарный выигрыш, договорившись заранее о распределении прибыли. При этом для учёта неопределённости использовался принцип гарантированного результата, применяемого к линейной свёртке критериев исходной задачи.
В п. 1.1 и п. 1.2 вводится обобщенное определение оптимальности по Парето в условиях неопределённости (р-оптимальной ситуации) и доказываются необходимые и достаточные условия существования р-оптимальной ситуации.
В п.1.3 вводится определение решения на основе гарантии линейной свёртки критериев и определяется гарантированное множество Парето. Затем полученная однокритериальная задача методом штрафных функций освобождается от дифференциальных связей, доказывается совпадение решений исходной и новой задач. В п. 1.4 приводится доказательство теоремы о скорости сходимости метода штрафов. В п. 1.5 полученная однокритериальная задача без ограничений сводится к задаче на максимум, доказывается совпадение решений полученной задачи и задач из п.1.3 и выводятся необходимые условия оптимальности в виде обобщённого принципа максимума. В п. 1.6 рассмотрен численный пример.
Во второй главе исследуется изолированное поведение, характерное для антагонистической игры. Здесь же рассматривается антагонистическое взаимодействие двух коалиций игроков, где внутри коалиций игроки совместно принимают решения, а между коалициями существует конкуренция.
Для данной игры в и.2.1 строится определение решения на основе принципа гарантированного результата, затем в п.2.2 и п.2.3 методом штрафов осуществляется освобождение от дифференциальных связей и исходная задача сводится к задаче на максимум, а затем доказываются необходимые условия оптимальности в виде обобщённого принципа максимума. В п.2.4 рассматривается антагонистическое взаимодействие двух коалиций игроков. В п.2.5 представлен численный пример.
В третьей главе рассматривается двухуровневая иерархическая игра при неопределённости. Игрок нижнего уровня, основываясь на выбранных допустимых стратегиях игроков центра, принимает решение исходя из максимизации своей функции выигрыша. Затем игрок верхнего уровня (управляющий Центр) принимает окончательное решение, основываясь на принципе гарантированного результата. Так же рассматриваются два варианта учёта неопределённого фактора: в первом случае неконтролируемый фактор учитывается только игроками центра, а во втором случае игроки нижнего уровня также получают возможность оценить «свою» неопределённость.
В п.3.1 рассматривается случай учета неопределённого фактора игроком верхнего уровня. Для данной задачи вводится определение решения, затем следует переход от задачи со связанными переменными к задаче с распадающимися переменными и затем к задаче на максимум. После чего доказываются необходимые условия оптимальности. В п.3.1.5 рассмотрен пример. В п.3.2 рассматривается случай учёта «своей» неопределённости на каждом уровне. Для данной задачи также вводится определение решения, затем исходная задача на связанных множествах сводится к задаче на максимум и доказываются необходимые условия оптимальности. В п.3.2.5 представлен пример.
В заключении перечислены основные результаты работы. Основное содержание диссертации отражено в работах [3-9].
Заключение диссертация на тему "Решение некоторых классов дифференциальных игр при неопределенности методом штрафных функционалов"
Основные результаты диссертации.
1. Для кооперативной дифференциальной игры при неопределённости сформулировано понятие гарантирующего решения, построенного с помощью применения принципа гарантированного результата к суммарному критерию с весовыми коэффициентами.
2. Сформулированы и доказаны необходимые условия оптимальности для кооперативной дифференциальной игры при неопределённости в виде обобщённого принципа максимума с применением штрафных функционалов.
3. Сформулировано определение решения для антагонистической дифференциальной игры при неопределённости на основе принципа гарантированного результата.
4. Сформулированы и доказаны необходимые условия оптимальности для антагонистической дифференциальной игры при неопределённости в виде обобщённого принципа максимума с применением штрафных функционалов.
5. Для двухуровневой иерархической игры при неопределённости сформулированы определения решений для различных случаев информированности верхнего и нижнего уровней на основе принципа гарантированного результата.
6. Сформулированы и доказаны необходимые условия оптимальности для двухуровневой иерархической дифференциальной игры в условиях неопределённости в виде обобщённого принципа максимума с применением штрафных функционалов.
7. В среде Ма^САЭ реализован метод численного определения решений кооперативной и антагонистической игр, что является обоснованием практической пригодности используемого метода.
ЗАКЛЮЧЕНИЕ
В диссертации исследованы дифференциальные игры в программных стратегиях. Всем игрокам приходится действовать в условиях неопределённости. Несмотря на то, что подобные дифференциальные игры изучались и ранее, проблема поиска единого подхода к выводу необходимых условий оптимальности для разных классов игр не была решена. В данной работе необходимые условия оптимальности для кооперативной, антагонистической, иерархической игры доказываются с применением метода штрафных функционалов.
Библиография Баратова, Екатерина Дмитриевна, диссертация по теме Теоретические основы информатики
1. Айзеке, Р. Дифференциальные игры Текст. / Р. Айзеке. М. : Мир, 1967.-479 с.
2. Балакришнан, А. Введение в теорию оптимизации в гильбертовом пространстве Текст. / А. Балакришнан. М.: Мир, 1974. - 260 с.
3. Баратова, Е. Д. Метод штрафов и необходимые условия оптимальности в дифференциальной иерархической игре при неопределенности Текст. / Е. Д. Баратова, А. Ф. Тараканов // Известия РАН. Теория и системы управления. 2003. - № 3. - С. 30-36.
4. Баратова, Е. Д. Метод штрафов и необходимые условия оптимальности в дифференциальной кооперативной игре при неопределённости Текст. / Е. Д. Баратова, А. Ф. Тараканов // Известия высших учебных заведений. Математика. 2004. - № 12 (511). - С. 66-74.
5. B. Д. Дорофеева. Пенза : Приволжский Дом знаний, 2002. - С. 118-121.
6. Баратова, Е. Д. Решение дифференциальной иерархической игры в программных стратегиях при неопределенности Текст. / Е. Д. Баратова. М. , 2002.- 19 с. - Деп. в ВИНИТИ 10.07.02, № 1286.
7. Баратова, Е. Д. Решение дифференциальной коалиционной игры в программных стратегиях при неопределенности Текст. / Е. Д. Баратова. М. , 2002.-20 с.-Деп. в ВИНИТИ 10.07.02, № 1287.
8. Бардин, А. Е. Абсолютно кооперативное решение Текст. /
9. A. Е. Бардин, Е. В. Кирсанов // Динамические системы : сб. научн. тр. -Псков : Псковский пед. ин-т, 1994. С. 70-73.
10. Бардин, А. Е. Векторный риск в многокритериальных задачах Текст. / А. Е. Бардин, М. Е. Салуквадзе. Тбилиси : Институт систем управления АН Грузии, 1992. - 28 с.
11. Беллман, Р. Динамическое программирование Текст. / Р. Беллман. -М. : ИЛ, 1960.-400 с.
12. Блекуэлл, Д. Теория игр и статических решений Текст. / Д. Блекуэлл, М. Гиршик. М.: ИЛ, 1958. - 264 с.
13. Болтянский, В. Г. Математические методы оптимального управления Текст. / В. Г. Болтянский. М.: Наука, 1969. - 408 с.
14. Болтянский, В. Г. Принцип максимума в теории оптимальных процессов Текст. / В. Г. Болтянский // ДАН СССР. 1958. - Т. 119, № 6. -С. 1070-1073.
15. Болтянский, В. Г. К теории оптимальных процессов Текст. /
16. B. Г. Болтянский, Р. В. Гамкрелидзе, Л. С. Понтрягин // ДАН СССР. 1956. -Т. 110, № 1.-С. 7-10.
17. Вайсборд, Э. М. Введение в дифференциальные игры нескольких лиц и их приложения Текст. / Э. М. Вайсборд, В. И. Жуковский. М. : Советское радио, 1980. - 304 с.
18. Вайсборд, Э. М. О существовании решения в коалиционной дифференциальной игре Текст. / Э. М. Вайсборд, В. И. Жуковский // Системный анализ, моделирование и оптимизация прикладных задач : сб. научн. тр. М., 1990. - С. 31 -34.
19. Васильев, Ф. П. Методы решения экстремальных задач Текст. / Ф. П. Васильев. М.: Наука, 1981.-400 с.
20. Воробьев, Н. Н. Основы теории игр. Бескоалиционные игры Текст. / Н. Н. Воробьев. М.: Наука, 1984. - 496 с.
21. Воробьев, Н. Н. Современное состояние теории игр Текст. / Н. Н. Воробьев // Успехи мат. наук. 1970. - Т. 25, № 2. - С. 81-140.
22. Габасов, Р. Качественная теория оптимальных процессов Текст. / Р. Габасов, Ф. М. Кириллова. М.: Наука, 1971.-507 с.
23. Габасов, Р. Принцип максимума в теории оптимального управления Текст. / Р. Габасов, Ф. М. Кириллова. Минск : Наука и техника, 1974. -272 с.
24. Гамкрелидзе, Р. В. К общей теории оптимальных процессов Текст. / Р. В. Гамкрелидзе // ДАН СССР. 1969. - Т. 123, № 2. - С. 223-226.
25. Гантмахер, Ф. Р. Теория матриц Текст. / Ф. Р. Гантмахер. М. : Государственное издательство технико-теоретической литературы, 1953. -492 с.
26. Гермейер, Ю. Б. Введение в теорию исследования операций Текст. /Ю. Б. Гермейер. М.: Наука, 1971.-383 с.
27. Гермейер, Ю. Б. Игры с непротивоположными интересами Текст. / Ю. Б. Гермейер. М.: Наука, 1976. - 328 с.
28. Гермейер, Ю. Б. Приближенное сведение с помощью метода штрафных функций задачи определения максимина к задаче определения максимума Текст. / Ю. Б. Гермейер // Журнал вычислительной математики и математической физики. 1969. - Т. 9, № 3. - С. 730-731.
29. Гермейер, Ю. Б. О некоторых задачах теории иерархических систем управления Текст. / Ю. Б. Гермейер, Н. Н. Моисеев // Проблемы прикладной математики и механики: межв. сб. научн. тр. М.: Наука, 1971. - С. 30-43.
30. Горелик, В. А. Максиминные задачи на связанных множествах в банаховых пространствах Текст. / В. А.Горелик // Кибернетика. 1983. -№ 1.-С. 64-67.
31. Горелик, В. А. Приближенное нахождение максимина с ограничениями, связывающими переменные Текст. / В. А. Горелик // Журнал вычислительной математики и математической физики. 1972. -Т. 12, №2.-С. 510-517.
32. Горелик, В. А. Анализ конфликтных ситуаций в системах управления Текст. / В. А. Горелик, М. А. Горелов, А. Ф. Кононенко. М. : Радио и связь, 1991.-288 с.
33. Горелик, В. А. Теоретико-игровые модели принятия решений в эколого-экономических системах Текст. / В. А. Горелик, А. Ф. Кононенко. -М. : Наука, 1982.- 144 с.
34. Горелик, В. А. Метод штрафов для негладких минимаксных задач управления со связанными переменными Текст. / В. А. Горелик, А. Ф. Тараканов // Кибернетика. 1989. - № 4. - С. 52-56.
35. Горелик, В. А. Метод штрафов и принцип максимума для негладких задач управления с переменной структурой Текст. / В. А. Горелик, А. Ф. Тараканов // Кибернетика и системный анализ. 1992. - № 3. - С. 125130.
36. Давыдов, Э. Г. Методы и модели теории антагонистических игр Текст. / Э. Г. Давыдов. М. : Изд-во МГУ, 1978. - 266 с.
37. Данилов, Н. Н. Неантагонистические игры двух лиц Текст. / Н. Н. Данилов, Н. А. Зенкевич. Кемерово : Изд-во Кемеровского ГУ, 1990. -99 с.
38. Данскин, Дж. Теория максимина Текст. / Дж. Данскин. М. : Советское радио, 1970. - 326 с.
39. Дубов, Ю. А. Многокритериальные модели формирования и выбора вариантов систем Текст. / Ю. А. Дубов, С. И. Травкин, В. Н. Якимец. М. : Наука, 1986.-296 с.
40. Жаутыков, О. А. Дифференциальные игры нескольких лиц (с запаздыванием времени) Текст. / О. А. Жаутыков, В. И. Жуковский, С. Жаркынбаев. Алма-Ата : Наука, 1988. - 319 с.
41. Жуковский, В. И. Введение в дифференциальные игры при неопределенности Текст. / В. И. Жуковский. М. : МНИИПУ, 1997. - 461 с.
42. Жуковский, В. И. Кооперативные игры при неопределенности и их приложения Текст. / В. И. Жуковский. М. : Эдиториал УРСС, 1999. -336 с.
43. Жуковский, В. И. Векторная оптимизация динамических систем Текст. / В. И. Жуковский, Д. Т. Дочев. Болгария, Русе : ВТУ "А. Кынчев", 1981.- 187 с.
44. Жуковский, В. И. Многокритериальная оптимизация систем в условиях неполной информации Текст. / В. И. Жуковский, В. С. Молоствов. -М.: МНИИПУ, 1990. 112 с.
45. Жуковский, В. И. Оптимизация гарантий в многокритериальных задачах управления Текст. / В. И. Жуковский, М. Е. Салуквадзе. Тбилиси : МЕЦНИЕРЕБА, 1996. - 480 с.
46. Жуковский, В. И. Равновесные управления многокритериальных динамических систем Текст. / В. И. Жуковский, Н. Т. Тынянский. М. : Изд-воМГУ, 1984.-204 с.
47. Жуковский, В. И. Линейно-квадратичные дифференциальные игры Текст. / В. И. Жуковский, А. А. Чикрий. Киев : Наукова думка, 1994. -320 с.
48. Зенкевич, Н. А. Конечные антагонистические игры Текст. / Н. А. Зенкевич, В. А. Еськова. Кемерово : Изд-во Кемеровского ГУ, 1989. -186 с.
49. Зенкевич, Н. А. Игры со многими участниками Текст. / Н. А. Зенкевич, В. Д. Ширяев. Саранск : Изд-во Мордовского ГУ, 1989. -218 с.
50. Иоффе, А. Д. Теория экстремальных задач Текст. / А. Д. Иоффе, В. М. Тихомиров. М.: Наука, 1974. - 480 с.
51. Кар.лин, С. Математические методы в теории игр, программировании и экономике Текст. / С. Карлин. М.: Мир, 1964. - 838 с.
52. Колмогоров, А. Н. Элементы теории функций и функционального анализа Текст. / А. Н. Колмогоров, С. В. Фомин. М. : Наука, 1976. - 544 с.
53. Кононенко, А. Ф. Ситуация равновесия на классе позиционных стратегий в динамических дифференциальных играх п лиц Текст. / А. Ф. Кононенко, А. Э. Бунаков // ДАН СССР. 1976. - № 2. - С. 285-288.
54. Кононенко, А. Ф. Принятие решений в условиях неопределенности Текст. / А. Ф. Кононенко, А. Д. Халезов, В. В. Чумаков. М. : ВЦ АН СССР, 1991.-198 с.
55. Красовский, Н. Н. Игровые задачи о встрече движений Текст. / Н. Н. Красовский. М. : Наука, 1970. - 420 с.
56. Красовский, Н. Н. Позиционные дифференциальные игры Текст. / Н. Н. Красовский, А. И. Субботин. М.: Наука, 1974. - 456 с.
57. Красовский, Н. Н. Управление динамической системой. Задача о минимуме гарантированного результата Текст. / Н. Н. Красовский. М. : Наука, 1985.-420 с.
58. Куржанский, А. Б. Управление и наблюдение в условиях неопределенности Текст. / А. Б. Куржанский. М. : Наука, 1977. - 642 с.
59. Ли, Э. Б. Основы теории оптимального управления Текст. / Э. Б. Ли, Л. Маркус. М. : Наука, 1972. - 574 с.
60. Льюс, Р. Д. Игры и решения Текст. / Р. Д. Льюс, X. Райфа. М. : ИЛ, 1961.-642 с.
61. Малафеев, О. А. О существовании ситуации равновесия в дифференциальных бескоалиционных играх двух лиц с независимыми движениями Текст. / О. А. Малафеев // Вестник ЛГУ. 1980. - № 7. - С. 1216.
62. Матвеев, Н. М. Дифференциальные уравнения Текст. / Н. М. Матвеев. М.: Просвещение, 1988. - 256 с.
63. Моисеев, Н. Н. Математические задачи системного анализа Текст. / Н. Н. Моисеев. -М.: Наука, 1981.-487 с.
64. Моисеев, Н. Н. Элементы теории оптимальных систем Текст. / Н. Н. Моисеев. М.: Наука, 1975. - 528 с.
65. Мордухович, Б. Ш. Методы аппроксимаций в задачах оптимизации управления Текст. / Б. Ш. Мордухович. М.: Наука, 1988. - 360 с.
66. Фон Нейман, Дж. Теория игр и экономическое поведение Текст. / Дж. фон Нейман, Н. О. Моргенштерн. М. : Наука, 1973. - 230 с.
67. Ногин, В. Д. Основы теории оптимизации Текст.: учеб. пособие для студентов ВТУЗов / В. Д. Ногин, И. О. Протодьяконов, И. И. Евлампиев ; под ред. И. О. Протодьяконова. М. : Высшая школа, 1986. - 384 с.
68. Оуэн, Г. Теория игр Текст. / Г. Оуэн. М.: Мир, 1971. - 708 с.
69. Петросян, Л. А. Кооперативные дифференциальные игры и их приложения Текст. / Л. А. Петросян, В. В. Захаров. Томск : Изд-во ТГУ, 1985.-314 с.
70. Петросян, Л. А. Теория игр Текст. / Л. А. Петросян, Н. А. Зенкевич, Е. А. Семина. М. : Высшая школа, 1998. - 304 с.
71. Петросян, Л. А. Динамические игры и их приложения Текст. / Л. А. Петросян, Г. В. Томский. Л. : Изд-во ЛГУ, 1987. - 256 с.
72. Подиновский, В. В. Парето-оптимальные решения многокритериальных задач Текст. / В. В. Подиновский, В. Д. Ногин. М. : Наука, 1972.-254 с.
73. Понтрягин, Л. С. Математическая теория оптимальных процессов Текст. / Л. С. Понтрягин, В. Г. Болтянский, Р. В. Гамкрелидзе, Е. Ф. Мищенко. М. : Наука. Главная редакция физико-математической литературы, 1969. - 384 с.
74. Понтрягин, Л. С. К теории дифференциальных игр Текст. / Л. С. Понтрягин // Успехи математических наук. 1966. - Т. 21, Вып. 4. -С. 30-63.
75. Понтрягин, Л. С. Математическая теория оптимальных процессов и дифференциальные игры Текст. / Л. С. Понтрягин // Тр. МИАН. 1985. -Т. 169, №4.-С. 119-158.
76. Понтрягин, Л. С. Линейные дифференциальные игры Текст. / Л. С. Понтрягин, Е. Ф. Мищенко // Докл. АН СССР. 1967. - Т. 174, № 1. -С. 27-27.
77. Понтрягин, Л. С. О некоторых дифференциальных играх Текст. / Л. С. Понтрягин // Докл. АН СССР. 1964. - Т. 156, № 4. - С. 738-741.
78. Понтрягин, Л. С. Оптимизация и дифференциальные игры Текст. / Л. С. Понтрягин // Вестник АН СССР. 1978. -№ 7. - С. 10-17.
79. Пшеничный, Б. Н. Выпуклый анализ и экстремальные задачи Текст. / Б. Н. Пшеничный. М. : Наука. Главная редакция физико-математической литературы, 1980. - 320 с.
80. Розенмюллер, Н. Кооперативные игры и рынки Текст. / Н. Розенмюллер. М.: Мир, 1974. - 326 с.
81. Салуквадзе, М. Е. Задачи векторной оптимизации в теории управления Текст. / М. Е. Салуквадзе. Тбилиси : МЕЦНИЕРЕБА, 1975. -202 с.
82. Смольяков, Э. Р. Равновесные модели при несовпадающих интересах участников Текст. / Э. Р. Смольяков. М. : Наука, 1981. - 216 с.
83. Соболев, А. И. Кооперативные игры Текст. / А. И. Соболев // Проблемы кибернетики. 1982. - Вып. 39. - С. 201-222.
84. Современное состояние теории исследования операций Текст. / под ред. Н. Н. Моисеева. М.: Наука, 1979. - 464 с.
85. Субботин, А. И. Оптимизация гарантии в задачах управления Текст. / А. И. Субботин, А. Г. Ченцов.- М.: Наука, 1981. 142 с.
86. Сухарев, А. Г. Курс методов оптимизации Текст. / А. Г. Сухарев, А. В. Тимохов, В. В. Федоров. М. : Наука, 1986. - 328 с.
87. Тараканов, А. Ф. Принцип максимума для некоторых задач управления на связанных множествах. Ч. I. Текст. / А. Ф. Тараканов // Известия АН СССР. Техническая кибернетика. 1989. - № 1. - С. 54-57.
88. Тараканов, А. Ф. Принцип максимума для некоторых задач управления на связанных множествах. Ч. II. Текст. / А.Ф. Тараканов // Известия АН СССР. Техническая кибернетика. 1989. - № 2. - С. 10-13.
89. Тараканов, А. Ф. Решение Нэша-Слейтера иерархической игры в условиях неопределенности Текст. / А. Ф. Тараканов // Известия АН. Теория и системы управления. 2000. - № 4. - С. 70-77.
90. Теория игр. Доклады на I Всесоюзной конференции по теории игр. Ереван, 1968 Текст. / под ред. Н. Н. Воробьева. Ереван : Изд-во АН Армянской ССР, 1973. - 402 с.
91. Успехи теории игр. Труды II Всесоюзной конференции по теории игр. Вильнюс, 1971 Текст. / под ред. Э. Вилкас. Вильнюс : Минтис, 1971. -544 с.
92. Фаткин, Ю. М. Оптимальное управление в иерархических структурах Текст. / Ю. М. Фаткин // ДАН СССР, 1972. Т. 202, № 1. - С. 5961.
93. Федоров, В. В. О методе штрафных функций в задаче определения максимина Текст. / В. В. Федоров // Журнал вычислительной математики и математической физики. 1972. - Т. 12, № 2. - С. 321-333.
94. Федоров, В. В. Условия регулярности и необходимые условия максимина со связанными переменными Текст. / В. В. Федоров // Журнал вычислительной математики и математической физики. 1977. - Т. 17, № 1.-С. 79-90.
95. Федоров, В. В. Численные методы максимина Текст. / В. В. Федоров. М. : Наука, 1979. - 280 с.
96. Шевченко, Е. М. Принцип наилучшего гарантированного результата в задачах управления с несколькими функционалами Текст. / Е. М. Шевченко // Журнал вычислительной математики и математической физики. 1972.-Т. 12,№2.-С. 517-521.
97. Яновская, Е. Б. О существовании значения антагонистических игр с полунепрерывными функциями выигрыша Текст. / Е. Б. Яновская // Известия АН СССР. Техническая кибернетика. 1973. - № 6. - С. 56-60.
-
Похожие работы
- Метод штрафных функций и метод модифицированных функций Лагранжа в экстремальных задачах с неявно заданными целевыми функциями и ограничениями
- Равновесие по Нэшу при неопределенности
- Равновесие по Нэшу при определенности
- Метод точных штрафных функций для линейных смешанных целочисленных задач оптимизации
- Моделирование гарантированного результата в задачах управления движением с интегральными ограничениями в условиях воздействия помех
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность