автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Оптимальное управление в повторяющейся биматричной игре с конечной памятью и в поведенческой модели фирмы
Оглавление автор диссертации — кандидата физико-математических наук Семенищев, Алексей Андреевич
0.1 Введение
1 Повторяющаяся биматричная игра типа «дилемма заключенного» с конечной памятью
1.1 Биматричная игра «дилемма заключенного»
1.2 Повторяющаяся дилемма заключенного с конечной памятью игроков
1.3 Иерархическая постановка повторяющейся «дилеммы заключенного» с конечной памятью.
1.4 Оптимальное разбиение области Р в игре с одношаговой памятью.
1.5 Оптимальное разбиение области Р в игре с двухшаговой памятью.
2 Поведенческая модель фирмы
2.1 Постановка задачи.
2.2 Множество точек, оптимальных по Парето.
2.3 Управление системой с дискретным временем.
2.4 Управление системой с непрерывным временем.
2.5 Задача о приведении на множество Парето-оптимальных точек.
2.6 Управление с использованием типов поведения, не являющихся нормальными
Введение 2001 год, диссертация по информатике, вычислительной технике и управлению, Семенищев, Алексей Андреевич
Во многих технических, экономических и социальных процессах возникают задачи принятия решения, в которых важное место занимают игровые постановки. Основы теории статических игр были разработаны в 30 - 50-х гг. в трудах Дж. фон Неймана и О. Мор-генштерна [16]. Дж. Нэша [17], X. Штакельберга [48] и других исследователей (см. также [20, 5, 14]).
В конце 50-х -- начале 60-х гг. в работах Р. Айзекса [1] были сформулированы первые задачи антагонистических динамических игр и были предложены методы их решения. В дальнейшем эти задачи исследовались многими отечественными и зарубежными учеными. Фундаментальный вклад в построение теории антагонистических дифференциальных игр принадлежит научным школам академиков Н.Н. Красовского и Л.С. Понтрягина. Этому направлению посвящены исследования Р. Айзекса, Н.Н. Красовского, А.Н. Красовского, А.В. Кряжимского, А.Б. Куржанского, Е.Ф. Мищенко, М.С. Никольского, Ю.С. Осипова, Л.А. Петросяна, Л.С. Понтрягина, Б.Н. Пшеничного, А.14. Субботина, У. Флеминга, А.Г. Немцова и других авторов [1, 9, 10, 39, 11, 12, 13, 19, 21, 23, 24, 25].
Большое внимание исследователей уделяется математическим моделям, формализуемым в рамках теории неантагонистических позиционных дифференциальных игр. Такие модели возникают при описании динамических задач управления механическими, экономическими, биологическими системами, когда управление осуществляется разными участниками. При этом интересы участников не являются полностью противоположными, каждый из них оптимизирует собственный показатель качества и имеет свой собственный ресурс управления. В этом случае задача состоит в выработке управления, приемлемого для всех сторон, участвующих в игре. Основополагающие результаты в этом направлении были получены в работах Ю.Б. Гермейера, А.Ф. Кононенко. Л.А. Петросяна, Т. Башара, Дж. Лейтмана, Дж. Круза, Э.Мулена, В.И. Жуковского, А.Ф. Клейменова и других исследователей [3, 8, 21, 15, 4, 6]. Одна из основных проблем в неантагонистической игре состоит в выборе понятия решения, адекватного содержанию задачи. В соответствии с различными принципами оптимальности выделяются равновесные но Нэшу решения [17], решения по Штакельбергу [48], кооперативное решение по Парето [16].
Важным частным случаем неантагонистических динамических игр являются повторяющиеся биматричные игры [14, 27, 42]. Среди них отметим бесконечно повторяющуюся игру, на каждом шаге которой разыгрывается известная биматричная игра «дилемма заключенного», предложенная А.У. Таккером (см., напр., [14]). В исходной игре этого типа каждый игрок имеет две стратегии, а именно кооперироваться с партнером (стратегия С - cooperate) или отклоняться от сотрудничества (стратегия D - defect). При взаимной кооперации каждый игроки получает выигрыш р+, при взаимном отклонении - выигрыш р-. Если же один из игроков кооперируется в то время, как другой отклоняется, то кооперирующийся получает выигрыш , а его партнер - выигрыш р++. Величины выигрышей связаны соотношением р < р~ < р+ < р++
Сущность дилеммы заключается в том, что индивидуальный рационализм каждого игрока приводит к тому, что в игре реализуется ситуация (D,D), в которой игроки получают меньший выигрыш, чем если бы они кооперировались.
Активность, с которой изучается «дилемма заключенного» в последние годы, объясняется большим количеством ее интерпретаций с точки зрения социологии, психологии, биологии, экономики, политики, философии [14, 22, 27, 40, 42, 43, 44, 47, 51]. Основной вопрос, возникающий при анализе этой игры, следующий:какие условия необходимо создать игрокам, чтобы они проявили стремление к сотрудничеству [27]. Первым необходимым условием возникновения кооперации является бесконечное повторение игры, так как в случае ее конечного повторения легко доказывается [14], что оптимальной стратегией каждого игрока в смысле максимизации гарантированного выигрыша является отклонение на каждом шаге.
Наиболее известным экспериментом, в ходе которого эмулировалось бесконечное повторение игры, стали два компьютерных турнира, описанные в [27]. Участниками турнира являлись программы, реализующие некоторые решающие правила в повторяющейся игре. Эффект бесконечного повторения достигался за счет того, что была задана вероятность ги продолжения игры, одна и та же для каждого шага. Таким образом, средняя продолжительность игры составляла N(w) = шагов, а выигрыш игрока вычислялся по формуле / = E^fiW1, где fi Е {р ,р~,р+,р++} - выигрыш на г-ом шаге.
Турнир проводился по круговой схеме: каждая программа играла с каждой и, кроме того, со своей копией. В процессе принятия решения на программу не накладывалось никаких ограничений за исключением того, что ей не был известен алгоритм, по которому принимал решение партнер. Многие программы при выборе решения на текущем шаге использовали информацию о нескольких предыдущих шагах игры (например, так действовала стратегия TIT FOR TAT, ставшая победителем обоих турниров).
Как признают организаторы турниров [27], их результаты во многом зависели от состава участников, поэтому стратегии, получившие самые высокие результаты, объективно не могли быть признаны лучшими.
Вторым наиболее распространенным подходом к решению «дилеммы заключенного» является подход, основанный на рассмотрении динамического процесса как эволюционной игры [30, 31, 32, 33, 34, 35, 40, 43, 47, 49, 51, 53]. Идея заключается в том, что организуется партия повторяющихся игр, состоящая из довольно большого количества итераций, в некотором сообществе игроков - представителей различных популяций. Игроки одной популяции используют одну и ту же стратегию. Перед началом игры все игроки хорошо «перемешиваются», так что ни один из них не знает, с каким партнером он ведет игру. Более того, в некоторых экспериментах допускается, чтобы в ходе партии пары игроков разбивались и смешивались несколько раз.
По окончании партии подсчитываются накопленные выигрыши каждого игрока и на основе этих данных вычисляются рейтинги каждой популяции. Количество игроков каждой популяции, допущенных к игре в следующей партии, берется пропорциональным ее рейтингу.
Следует также отметить подход к решению повторяющихся биматричных игр, заключающийся в смене типов поведения [7, 37] игроков на протяжении повторяющейся игры.
Нормальным поведением игрока называется способ принятия решения, при котором он максимизирует свой выигрыш. Если игрок максимизирует выигрыш партнера, говорят, что его поведение является альтруистическим по отношению к партнеру, а если он стремится минимизировать выигрыш партнера, то такое поведение называется агрессивным.
Доказано [37, 38], что выбор типа поведения по определенному алгоритму при некоторых условиях приводит к тому, что частота появления игровой ситуации (С,С) в бесконечно повторяющейся игре стремится к единице. При этом существуют ситуации, в которых игроки должны проявлять альтруизм или агрессию по отношению к партнеру.
В диссертации решаются две задачи оптимального управления.
В первой главе диссертации проводится анализ бесконечно повторяющейся игры типа дилемма заключенного» при условии конечной памяти игроков. Считается, что для принятия решения на текущем шаге игры каждый игрок может использовать информацию о своих выигрышах на т предыдущих шагах игры. Вектор х = (х-т, ^-(m-i), • ■ • > x~i), где Х-г е {р ,р~,р+,р++} есть выигрыш первого игрока на г-ом шаге перед текущим, называется состоянием игры. Величины выигрышей нормируются таким образом, что = 0, р++ = 1, отсюда следует, что игра задается по существу двумя параметрами, р+ и р~, принадлежащими области
Р= <р~ <р+ <1,р+ >
Множество всех состояний игры отождествляется со множеством вершин некоторого графа, называемого графом игры.
Стратегией игрока в бесконечно повторяющейся игре называется некоторая функция, заданная на множестве всех состояний игры и принимающая значения из множества {С, D}. Множество всех стратегий с памятью т, очевидно, является конечным и обозначается через %. Переходы между вершинами графа игры, совершаемые в соответствии со стратегиями игроков, образуют траекторию игры.
В параграфе 1.2 доказано, что при любой стратегии hl G Н первого игрока и при любой стратегии h2 G % второго игрока игра носит циклический характер: начиная с некоторого шага траектория игры выходит на некоторый цикл z на графе игры и в дальнейшем остается на нем. Это позволяет определить выигрыш S\ первого игрока и S-2 второго игрока на цикле 2 как среднее арифметическое их выигрышей на всех переходах, составляющих этот цикл: я( ч h + k2р+ + k3p- k2p+ + hp" + fc4 h + k2 + k3 + h' kl + k2 + h + k4 Здесь через k\ обозначено количество (кратность) выигрышей р++ первого игрока на цикле г, А;2, А;3, Л;4 - кратности его выигрышей р+ ,р~, соответственно; вектор р — р+,р~) задает значения параметров игры.
При таком способе вычисления выигрышей возникает следующая проблема. При заданных стратегиях игроков h1, h2 £ % на графе игры может существовать множество циклов Z(hl, /г2), содержащее более одного элемента, причем выигрыши одного игрока на разных циклах существенно различны: на одних циклах выигрыш первого больше, чем выигрыш второго, на других циклах - наоборот, а также могут быть циклы, на которых выигрыши игроков одинаковы.
Поэтому для определения выигрышей игроков при заданных стратегиях используется гарантированный подход: fl(hl,h2,p) = min S}(z,p), zezih^h2) f2{h1,h2,p) = min S2{z,p) zeZ{hl,h2}
Основным результатом параграфа 1.2 является следующее утверждение. Утверждение 1.1 В симметричной постановке бесконечно повторяющейся «дилеммы заключенного» с конечной памятью игроков наибольшим гарантированным выигрышем каждого игрока является р~.
Для того, чтобы увеличить выигрыши игроков, была рассмотрена иерархическая постановка [48, 3] повторяющейся «дилеммы заключенного», изложенная в параграфе 1.3.
В иерархической постановке игры по Штакельбергу лидер (в качестве которого в работе выступает первый игрок) до начала игры объявляет свою стратегию и обязуется ее придерживаться в течение всей игры. Второй игрок, являющийся ведомым, обязан быть рациональным, то есть, зная стратегию лидера, определить свою наилучшую стратегию (в смысле максимизации гарантированного выигрыша) и использовать ее в течение всей игры.
При заданных параметров игры для каждой стратегии лидера h1 6 % можно определить множество наилучших ответов ведомого,
Ф(к\р) = {h2 <= П\ h2 = argmax /2(/i1, /г2,р)}. h2en которое, вообще говоря, может содержать более одной стратегии.
В этом случае гарантированный выигрыш лидера при использовании им стратегии /г1 G определяется по формуле
V(h\p)= min /i(/i\ h2,p)
Таким образом, в иерархической постановке повторяющейся «дилеммы заключенного» с конечной памятью игроков возникает следующая задача.
Задача 1.1 При заданных параметрах игры р е Р найти стратегию лидера h = h(p), максимизирующую его гарантированный результат.
Как установлено в работе, задача 1.1 разрешима в любой точке р € Р в силу того, что множество К конечно, и множество Ф(/г1,р) также является конечным при произвольной стратегии лидера h] 6 Н. Эти рассуждения подсказывают, что задача 1.1 может быть решена полным перебором.
В связи с этим возникает более общая задача. Задача 1.2 Построить разбиение области Р на подобласти {Рг}"=1; такие что для каждой подобласти Pi определена оптимальная стратегия лидера hi (одна и та оке для каждой точки р £ Рг).
Разбиение, являющееся решением задачи 1.2, называется оптимальным. В параграфе 1.3 приведен алгоритм построения оптимального разбиения (АПОР), решающий эту задачу за конечное число шагов. Его эффективность устанавливается из тех же соображений, что и разрешимость задачи 1.1. Кроме того, в алгоритме существенно используется то, что выигрыши игроков на любом цикле являются линейными функциями переменных что позволяет привлечь геометрический аппарат решения линейных неравенств с двумя неизвестными.
В результате применения алгоритма АПОР были построены оптимальные разбиения для игр с длиной памяти один и два шага.
Анализ игры с одношаговой памятью в параграфе 1.4 был проведен без применения вычислительной техники, так как количество различных стратегий и циклов в этой игре достаточно мало. Было установлено, что в любой точке р 6 Р оптимальной стратегией лидера является стратегия TIT FOR TAT, подробно проанализированная в [27]. При этом выигрыши лидера и ведомого одинаковы и равны то есть в данной постановке игра «дилемма заключенного» решена. Отметим, что в иерархической постановке статической «дилеммы заключенного» оптимальной стратегией лидера является D, и выигрыши обоих игроков при этом одинаковы и равны р~.
При анализе игры с двухшаговой памятью в параграфе 1.5 возникла следующая проблема. Поскольку алгоритм АПОР осуществляет полный перебор всех циклов, необходимо было ответить на вопрос: каким условиям должен удовлетворять набор чисел k = (ki,k2,ks, £4), чтобы на графе игры с двухшаговой памятью существовал цикл с таким набором кратностей.
Для ответа на этот вопрос сформулируем определение ассоциированного набора.
Определение 1.10 Пусть дан набор чисел к = к2, /сз, к±), где ki G 0,4, г = 1,4. Назовем ассоциированным с ним набор чисел п = (щ, п2, щ, п<±), где щ определяется как количество чисел в наборе к, не меньших г, г = 1,4.
Следующая теорема является критерием существования цикла с заданным набором кратностей.
Теорема 1.4 Цикл z с набором кратностей k = (ki,k2,k^, к4) на графе игры с двухшаго-вой памятью существует тогда и только тогда, когда выполнены условия щ ^ к\, ni + п2 ^ кг + к2, Щ + п2 ■+ n3 ^ ki + к2 + к3, где числа пх,п2,щ принадлежат набору п = {щ, п2, щ, п^), ассоциированному с набором к.
Использование алгоритма АПОР в игре с двухшаговой памятью привело к разбиению области Р на шесть подобластей, в каждой из которых определены оптимальные стратегии лидера и ведомого. Существенное отличие от игры с одношаговой памятью заключается в том, что лишь в одной из этих подобластей лидер и ведомый имеют одинаковые выигрыши, равные р+, а в остальных пяти подобластях выигрыш лидера больше выигрыша ведомого. Оптимальное разбиение в игре с двухшаговой памятью изображено на рисунке 1.16.
Вторая глава диссертации посвящена изучению одной поведенческой модели фирмы, предложенной голландским экономистом Ф.П. де Врисом.
Идея поведенческой модели фирмы как противоположность моделям, рассматриваемым в неоклассической теории, была предложена в 60-х годах в работе Сиерта и Марча [29].
Важным принципом, использованным в построении поведенческой модели фирмы, является подход, связанный с желаемыми (или ожидаемыми) уровнями показателей качества отделов фирмы [45, 46, 52, 41, 28]. Кроме того, в этой модели отдел менеджмента не подчиняет себе полностью остальные отделы фирмы, что позволяет использовать игровой подход к изучению ее динамики [28, 36].
В работе [50] рассмотрена математическая модель фирмы, состоящей из трех отделов: отдела производства, отдела продаж и отдела управления. Состояние фирмы описывается переменными (р, х), где р ^ 0 - стоимость единицы продукции, х ^ 0 - уровень слэка, или «ленивости» отдела производства.
Каждый отдел фирмы имеет свой показатель качества, зависящий от значений переменных р и х, а также некоторых фиксированных положительных параметров системы 9, а, г), 5.
Отдел производства заинтересован в том, чтобы стоимость производства единицы продукции, вычисляемая по формуле была как можно ближе к ее желаемому уровню, обозначаемому через с. Показателем качества отдела производства является величина
1с(р,х) = |с(р,х) - с\.
Объем продаж, который, как мы считаем, всегда соответствует спросу, определяется по формуле
Отдел продаж заинтересован в том, чтобы объем продаж приближался к его желаемому уровню, обозначаемому через w. Таким образом, критерий качества отдела продаж вычисляется по формуле
Наконец, отдел менеджмента заинтересован в том, чтобы прибыль фирмы, вычисляемая по формуле как можно меньше отличалась от ее желаемого уровня, обозначенного через п. Поэтому критерий качества отдела менеджмента определяется формулой
Задачей каждого отдела фирмы является минимизация его критерия, причем в [50] описана такая модель фирмы, что отделы менеджмента и производства управляют значениями переменных р их, соответственно, а отдел продаж никак не может влиять на состояние фирмы.
Iw(p) = |w(p) - U) тт(р,х) = (р - c(p,x))w(p), h{p,x) = |тт(р1х) - 7Г
Большую роль в изучении данной модели играют кривые на плоскости (р. х), в точках которых показатели качества отделов фирмы принимают нулевые значения. Решая уравнение 1с(р,х) = 0, получим уравнение кривой ж = М = пп--L bpz + rj
Аналогично, из уравнения I^(p,x) = 0 найдем уравнение кривой ^ bp2 + г] а Ъ
Наконец, показатель Iw(p) достигает своего минимума на вертикальной прямой
Га р = <р w
Управление фирмой является кооперативным процессом, в котором должны быть учтены интересы всех участников, поэтому естественным образом возникает задача построения множества точек, оптимальных по Парето, относительно критериев Ic(p, х), /^(р, х), Iw(p). Эта задача решается в параграфе 2.2 второй главы диссертации.
Напомним определения доминируемости и оптимальности по Парето (см., например,
5])
Определение 2.1 Точка Mi(pi,Xi) доминируется по Парето точкой М2(р2,^2); если выполнены неравенства h{P2,X2) ^ /c(pbXi),
Iw{P2) ^ Iw(Pl), причем по крайней мере одно из этих неравенств выполняется как строгое.
Точка (р*,х*), принадлежащая первому квадранту плоскости (р,х) и не доминируемая по Парето никакой другой точкой, называется оптимальной по Парето относительно критериев Ic(p, x),I7T(p, х), Iw{p).
В [54] описано множество P(c,if,w) точек, оптимальных по Парето в данной задаче при произвольных значениях параметров c,7r,w. В диссертации рассматривается только случай, когда выполнено условие С7Г < j, при котором кривые х = fi(p) и х = й{р) пересекаются в двух различных точках.
Множества точек, оптимальных по Парето, при различных значениях параметра w изображены на рисунках 2.3-2.5.
Несмотря на то,что любая точка первого квадранта плоскости (р, х) доминируется по Парето некоторой точкой множества P(c,n,w), в силу определенных ограничений, имеющих экономический характер, отделы менеджмента и производства не могут мгновенно изменить значения переменных р их так, чтобы точка, задающая состояние системы, оказалась во множестве Р(с, 7r,w).
В связи с этим возникает задача приведения системы на множество Р(с, тг, го) с использованием управлений, имеющих достаточно простую экономическую интерпретацию.
Для определения класса допустимых управлений в параграфах 2.3 и 2.4 рассматриваются различные типы поведения [7, 37] отделов менеджмента и производства.
Нормальным типом поведения отдела менеджмента называется такой способ изменения им переменной р, при котором значение критерия (р, х) монотонно убывает при постоянной величине переменной х.
Альтруистическим (агрессивным) поведением отдела менеджмента по отношению к отделу производства называется такое управление переменной р, при котором значение показателя 1с(р.х) монотонно убывает (соответственно, возрастает) при постоянном значении переменной х.
Аналогично, альтруистическим (агрессивным) поведением отдела менеджмента по отношению к отделу продаж называется такое управление переменной р, при котором значение показателя Iw(p) монотонно убывает (соответственно, возрастает) при постоянном значении переменной х.
Таким образом, существует множество U допустимых типов поведения отдела менеджмента:
U = {unr (р, х), uaplRD [р, х), uap9RD [р, х), uaslLD (р, х), uasgLD (р, х)}
Аналогично вводятся типы поведения отдела производства. Учитывая, что этот отдел управляет переменной х, изменение которой не влияет на величину критерия Iw(p), он имеет три различных типа поведения: нормальное поведение, когда он старается минимизировать свой показатель качества 1с(р,х), альтруизм по отношению к отделу менеджмента, когда отдел производства минимизирует показатель х), и агрессию по отношению к отделу менеджмента, когда отдел производства максимизирует значение этого показателя, управляя переменной х.
Допустимые типы поведения отдела менеджмента составляют следующее множество:
V = {vnr(p,x),v^lMD(p,x),v^eMD(p,x)j
Под управлением отдела менеджмента (производства) понимается выбор в каждой точке первого квадранта плоскости (р, х) некоторой функции и(р, х) £ U (соответственно, v(p, х) 6 V). При выбранных управлениях отделов менеджмента и производства движение системы описывается дифференциальными уравнениями р = и(р,х), X = v(p,x).
В параграфе 2.5 ставится задача нахождения условий, при которых траектория движения системы приходит на множество Р(с, тг, w) с использованием только нормальных типов поведения. Доказано, что эти условия задают множество меры нуль в пространстве параметров (с, n,w), то есть почти всегда использования нормальных типов поведения недостаточно.
В связи с этим ставится задача приведения системы на множество Р(с, tt,w) с использованием типов поведения, не являющихся нормальными. При этом время использования таких типов поведения необходимо минимизировать. Эта задача решена в параграфе 2.6 при выполнении условия стт < | и некоторых дополнительных ограничениях. Оптимальные траектории движения системы изображены на рисунках 2.23,2.32.
Основными результатами, полученными в диссертации являются:
1. Алгоритм построения оптимальных стратегий лидера и ведомого в бесконечно повторяющейся биматричной игре типа «дилемма заключенного» с конечной памятью игроков (параграф 1.3 первой главы).
2. Оптимальные стратегии игроков в играх с одно- и двухшаговой памятью (параграфы 1.4 и 1.5 первой главы); для построения оптимальных стратегий в игре с двухшаговой памятью на основе указанного алгоритма разработана программа.
3. Доказательство того, что стратегия TIT FOR TAT на самом деле является наилучшей стратегией лидера при всех значениях параметров игры с одношаговой памятью, и при некоторых значениях параметров в игре с двухшаговой памятью.
4. Построение множества точек, оптимальных по Парето, относительно критериев качества отделов фирмы (утверждения 2.1 и 2.2 параграфа 2.2).
5. Описание случаев, когда систему можно привести на множество P(c,7T,w) с использованием только нормальных типов поведения (утверждения 2.4 и 2.5 параграфа 2.5).
6. Синтез оптимального (в смысле минимизации времени использования типов поведения, не являющихся нормальными) управления системой в некоторых частных случаях (серия утверждений параграфа 2.6; оптимальные траектории движения изображены на рисунках 2.23,2.32).
Структура и объем работы. Диссертация состоит из введения, двух глав и списка литературы. Система нумерации формул, утверждений и рисунков содержит два индекса, первый из которых - номер главы, второй - номер объекта. Общий объем работы составляет 144 страницы машинописного текста, библиография 61 наименование.
Библиография Семенищев, Алексей Андреевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Айзеке Р. Дифференциальные игры. М.:Мир, 1967.
2. Воробьев Н.Н. Основы теории игр. Бескоалиционные игры. М.: Наука, 1984. 495 с.
3. Гермейер Ю.Б. Игры с непротивоположными интересами. М.-Наука, 1976.
4. Жуковский В.И., Тынянский Н.Т. Равновесные управления многокритериальных динамических систем. М.:Изд-во МГУ, 1984.
5. Карлин С. Математические методы в теории игр, программировании и экономике. Пер. с англ. Под ред. Н. Н. Воробьева. М.:Наука, 1964. 838 с.
6. Клейменов А.Ф. Неантагонистические позиционные дифференциальные игры. Екатеринбург: Наука, 1993. 185 с.
7. Клейменов А.Ф. О решениях в неантагонистической позиционной дифференциальной игре// ПММТ. 61. Вып. 5. 1997. С. 739-746.
8. Кононенко А.Ф. О равновесных позиционных стратегиях в неантагонистических дифференциальных играх// Докл. АН СССР, 1976. Т. 231. №2. С. 285-288.
9. Красовский Н.Н. Управление динамической системой. М.:Наука, 1985. 518 с.
10. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.:Наука, 1974. 456 с.
11. Кряжимский А.В. К теории позиционных дифференциальных игр сближения и ' уклонения// Докл. АН СССР, 1978. Т. 239. №4. С. 779-782.
12. Кряжимский А.В., Осипов Ю.С. О эволюционно-дифференциальных играх// Труды МИРАН им. В.А. Стеклова, 1995. Т. 211. С. 257-287.
13. Куржанский А.Б. Управление и наблюдение в условиях неопределенности. М.:Наука, 1977.
14. Льюс Р. Д., Райфа X. Игры и решения. Пер. с англ. М.:ИЛ, 1961. 642 с.
15. Мулен Э. Теория игр с примерами из математической экономики. М.:Мир, 1985.
16. Нейман Дж., Моргенштерн О. Теория игр и экономическое поведение. Пер с англ. М.: Наука, 1970.
17. Нэш Дж. Бескоалиционные игры// Матричные игры М.:Физматгиз, 1961. С. 205221.
18. Оре О. Теория графов. Пер. с англ. М.:Наука, 1968. 352 с.
19. Осипов Ю.С. Дифференциальная игра систем с последействием// Докл. АН СССР, 1971. Т. 196. № 4. С. 779-782.
20. Оуэн Г. Теория игр. Пер. с англ. М.:Мир, 1971.
21. Петросян JT.A. Устойчивость решений в дифференциальных играх со многими участниками// Вест. ЛГУ, 1977. №19. С. 46-52.
22. Петросян Л.А., Захаров В.В. Математические модели в экологии. С.-Петербург: Изд-во СПбГУ, 1997.
23. Понтрягин Л.С. О линейных дифференциальных играх, /// Докл. АН СССР, 1967. Т. 174. № 6.
24. Понтрягин Л.С. О линейных дифференциальных играх, II// Докл. АН СССР, 1967. Т. 175. № 4.
25. Субботин А.И., Ченцов А.Г. Оптимизация гарантии в задачах управления. М. .-Наука, 1981.
26. Филиппов А.Ф. Дифференциальные уравнения с разрывной правой частью. М.:Наука, 1985. 224 с.
27. Axelrod R. The evolution of cooperation. New York: Basic Books, 1984.
28. Bendor J., Mookherjee D., Ray D. Aspirations, Adaptive Learning, and Cooperation in Repeated Games. Mimeo, Indian Statistical Institute, 1994,
29. Cyert R., March J. A Behavioral Theory of the Firm. Prentice-Hall, Englewood Cliffs, 1963.
30. Friedman D. Evolutionary games in economics// Econometrica. Vol. 59. N2 3. P. 637-666.
31. Fudenberg D., Kreps D.M. Learning mixed equilibria// Games and Econ. Behavior, 1993. Vol. 5. P. 320-367.
32. Gaunersdorfer A., Hofbauer J. Fictitious play, Shapley polygons and replicator equation// Games and Econ. Behavior, 1995. Vol. 11. P. 279-303.
33. Hofbauer J., Sigmund K. The theory of evolution and dynamic systems. Cambridge Univ. Press, Cambridge, 1988.
34. Kaniovski Yu.M., Young H.P. Learning dynamics in games with stochastic perturbations// Games and Econ. Behavior, 1995. Vol. 11. P. 330-363.
35. Kaniovski Yu.M., Kryazhimskii A.V., Young H.P. Learning equilibria in games played by heterogeneous populations// IIASA Interim Report IR-97-017.
36. Karandikar R., Mookherjee D., Ray D.„ Vega-Redondo F. Evolving Aspirations and Cooperation// J. of Econ. Theory, 1998. Vol. 80. P. 292-331.
37. Kleimenov A.F., Kryazhimskii A.V. Normal behavior, altruism and aggression in cooperative game dynamics// IIASA Interim Report IR-98-076, 1998.
38. Kleimenov A.F., Volegova E.I. Problems of control by dynamics for repeated bimatrix 2x2 games with switching of local criteria for players// Nonsmooth and discontinuous problems of control and optimization, Pergamon Press, 1999.
39. Krasovskii A.N., Krasovskii N.N. Control under lack of information. Birkhauser, 1995. 322 p.
40. Maynard Smith J. Evolution and the theory of games. Cambrige Univ. Press, 1982. 222 p.
41. Nelson R.R., Winter S.G. An Evolutionary Theory of Economic Change. The Belknap Press of Harvard Univ. Press, 1982.
42. Nowak M., Sigmund K. The Alternating Prisoner's Dilemma// Journal of Theoretical Biology. 1994. Vol. 168. P. 219-226.
43. Nowak M., Sigmund K. Evolution of indirect reciprocity by image scoring / The dynamics of indirect reciprocity // IIASA Interim Report IR-98-040, 1998. 28 p.
44. Nowak M., Sigmund K. Games on Grids// IIASA Interim Report IR-99-038, 1999. 14 p.
45. Simon H. A Behavioral Model of Rational Choice// Quart. J. of Economics, 1955. Vol. 69. P. 99-118.
46. Simon H. Theories of Decision Making in Economics and Behavioral Scince// Amer. Econ. Review, 1959. Vol. 49. P. 253-283.
47. Smale S. The Prisoner's Dilemma and dynamical systems associated to non-cooperative games// Econometrica., 1980. Vol. 48. P. 1617-1634.
48. Von Stackelberg H. The theory of the market economy. London: Hodge, 1952.
49. Tarasyev A.M. A differential model for a 2x2 evolutionary game dynamics// Int. Inst, for App. Syst. Analysis, Austria, 1994. Working Paper, WP-94-63.
50. De Vries F.P. The Behavioral Firm and its Internal Game. Evolutionary Dynamics of Decision Making// IIASA Interim Report IR-99-036, 1999. 25 p.
51. Weibull J.W. Evolutionary game theory. Massachusetts Inst, of Techn. Press, 1995. 265 p.
52. Winter S. Satisficing, Selection, and the Innovating Remnant// Quart. J. of Economics, 1971. Vol. 85. P. 237-260.
53. Young P. The evolution of convention// Econometrica, 1993. Vol. 61. № 1. P. 57-84.
54. Клейменов А.Ф., Семенищев А.А. Построение множества оптимальных no Парето точек в одной многокритериальной задаче управления фирмой/ ИММ УрО РАН. Екатеринбург, 2001. 87 с. Деп. в ВИНИТИ 27.03.2001, №752-В2001.
55. Клейменов А.Ф., Семенищев А.А. Построение решений в одной многокритериальной задаче управления фирмой// Вестник Тамбов, гос. ун-та. 2000. №. 5. С. 458-459.
56. Семенищев А.А. Решение повторяющейся 2x2 биматричной игры с двухшаговой памятью в иерархической постановке// Тез. докл. 30-ой молодежной конференции «Проблемы теоретической и прикладной математики», Екатеринбург, 1999. С. 68-69.
57. Семенищев А.А. Стратегии Штакельберга для повторяющейся 2*2 биматричной игры с двухшаговой памятью// Тез. докл. Воронеж, весен, мат. шк. «Современные методы в теории краевых задач», Воронеж, 1999. С. 222.
58. Семенищев А.А. Решение повторяющейся Дилеммы Заключенного с конечной памятью игроков в иерархической постановке/ Урал, ун-т, Екатеринбург, 2000. 63 с. Деп. в ВИНИТИ 24.10.00, №2706-В00.
59. Kleimenov A.F., Semenishchev A.A. Repeated Prisoner's Dilemma. Stackelberg Solution with Finite Memory// Control Applications of Optimization: 11th IFAC Intern. Workshop, July 3-6, 2000: Abstr. Pergamon: Elsevier Sci., 2000. P. 113-114.
60. Kleimenov A.F., Semenishchev A.A. Repeated Prisoner's Dilemma. Stackelberg Solution with Finite Memory// Control Applications of Optimization: 11th IFAC Intern. Workshop, July 3-6, 2000: Proc. Pergamon: Elsevier Sci., 2000. P. 567-574.
61. Semenishchev A.A. Solution of the Repeated Prisoner's Dilemma With Finite Memory In Hierarchical Statement// Game Theory and Applications, 2001. Vol. 6. P. 141-163.
-
Похожие работы
- Равновесные стратегии поведения в бесконечных повторяющихся биматричных играх
- Поиск ситуаций равновесия в биматричных играх
- Вычислительный алгоритм решения конечной игры трех лиц в информационном расширении
- Декомпозиционные алгоритмы построения равновесных решений в динамических играх
- Прогностическое моделирование задач и принципов оптимизации налогообложения
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность