Нейросетевой метод управления на основе подкрепляемого обучения

Вичугов, Владимир Николаевич

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Нейросетевой метод управления на основе подкрепляемого обучения

кандидата технических наук: Вичугов, Владимир Николаевич
город: Томск
год: 2008
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Нейросетевой метод управления на основе подкрепляемого обучения»

Автореферат диссертации по теме "Нейросетевой метод управления на основе подкрепляемого обучения"

На правах рукописи

Вичугов Владимир Николаевич

НЕЙРОСЕТЕВОЙ МЕТОД УПРАВЛЕНИЯ НА ОСНОВЕ ПОДКРЕПЛЯЕМОГО ОБУЧЕНИЯ

Специальность 05.13.01 Системный анализ, управление и обработка информации (отрасль: промышленность)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Томск -2008

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Томский политехнический университет»

Научный руководитель: доктор технических наук, профессор

Цапко Геннадий Павлович

Официальные оппоненты: доктор технических наук, с.н.с.

Калайда Владимир Тимофеевич

кандидат технических наук, доцент Тараканов Дмитрий Викторович

Ведущая организация:

Санкт-Петербургский государственный электротехнический университет «ЛЭТИ», г. Санкт-Петербург

Защита состоится 10 декабря 2008 г. в 1430 на заседании совета по защите докторских и кандидатских диссертаций Д 212.269.06 при Томском политехническом университете по адресу: 634034, г. Томск, ул. Советская, 84, институт «Кибернетический Центр» ТПУ.

С диссертацией можно ознакомиться в Научно-технической библиотеке Томского политехнического университета по адресу: 634034, г. Томск, ул. Белинского, 55.

Автореферат разослан

ноября 2008 г.

Ученый секретарь Совета кандидат технических наук, доцент

М.А. Сонькин

Общая характеристика работы

Актуальность исследования. Постоянное усложнение технических объектов управления (ОУ) и расширение областей их применения приводит к необходимости развития средств и методов интеллектуального управления в условиях неопределенности и при изменяющихся условиях функционирования. Применение методов классической теории автоматического управления для управления сложными динамическими ОУ затруднено рядом факторов. Прежде всего, это сложность получения достаточно точного формализованного описания ОУ. Кроме того, параметры ОУ могут изменяться в широких пределах в процессе функционирования системы, либо иметь большой разброс значений от образца к образцу. Также следует учесть, что практически все реальные ОУ являются нелинейными, и их представление в виде линейных математических моделей является лишь приблизительным. Кроме того, наличие в реальных сигналах помех вносит дополнительные трудности в процесс получения адекватного математического описания ОУ. Преодоление указанных трудностей связывают с развитием интеллектуальных систем управления, основанных, в частности, на применении аппарата искусственных нейронных сетей.

Начиная с 1990-х гг. активно развивается метод подкрепляемого обучения (англ. reinforcement learning), относящийся к группе методов машинного обучения. В основе этого метода лежат те основополагающие принципы адаптивного поведения, которые позволяют живым организмам приспосабливаться к изменяющимся или неизвестным условиям обитания. В этом методе рассматривается система, которая в процессе взаимодействия с внешней средой получает сигнал подкрепления, характеризующий, насколько хорошо функционирует система в текущий момент времени. Алгоритмы, относящиеся к методу подкрепляемого обучения, определяют порядок изменения состояния системы таким образом, чтобы формируемые воздействия системы на внешнюю среду обеспечивали максимальное значение суммарного сигнала подкрепления, накопленного за длительный период времени. Одной из отличительных особенностей метода подкрепляемого обучения является тот факт, что в начале функционирования система не обладает практически никакой информацией о внешней среде, и обучение системы происходит в процессе взаимодействия с ней. Второй особенностью метода подкрепляемого обучения является формирование воздействий с учетом сигналов подкрепления, которые будут получены в отдаленном будущем.

Целью работы является разработка нейросетевого метода адаптивного управления, основанного на принципах подкрепляемого обучения и обеспечивающего формирование управляющих воздействий на основе взаимодействия с объектом управления.

Для достижения поставленной цели были решены следующие задачи:

1. Разработка модифицированного градиентного алгоритма обучения радиально-бизисных нейронных сетей (РБНС), обеспечивающего динамическое изменение структуры нейронной сети в процессе обучения. .

2. Разработка обобщенной структурной схемы нейросетевой ЯЬ-САУ и алгоритмов работы структурных блоков.

3. Разработка программного средства для моделирования нейросетевой ЯЬ-САУ.

4. Определение рекомендаций по настройке параметров управляющего устройства (УУ) в процессе работы ЯЬ-САУ.

5. Апробация разработанного метода управления в задачах управления линейными и нелинейными ОУ.

Методы исследований. В работе использованы методы теории управления, теории оптимизации, системного анализа, математического моделирования, прикладной математики и теории нейронных сетей.

Научную новизну работы определяют:

1. Модифицированный градиентный алгоритм обучения РБНС, отличающийся от классического градиентного алгоритма возможностью динамического изменения структуры РБНС.

2. Нейросетевой метод адаптивного управления, основанный на разработанной обобщенной структурной схеме нейросетевой ЯЬ-САУ и алгоритмах функционирования структурных блоков и обеспечивающий формирование управляющих воздействий на основе взаимодействия с ОУ.

3. Алгоритм адаптивного изменения значения параметра обучения в процессе функционирования нейросетевой ЯЬ-САУ, обеспечивающий устойчивость процесса обучения при использовании РБНС для представления функции оценки воздействия.

Практическая значимость н реализация результатов работы.

Разработанный метод управления может быть использован при разработке адаптивных систем управления, когда отсутствует априорная информация о математической модели ОУ. Разработанное программное средство моделирования нейросетевой ЯЬ-САУ может быть использовано для определения последовательности управляющих воздействий, переводящих ОУ из начального состояния в требуемое.

Разработанное программное средство моделирования нейросетевой ЯЬ-САУ используется в ОАО «Информационные спутниковые системы» имени академика М.Ф. Решетнева». Результат внедрения подтвержден соответствующим актом.

Основные положения, выносимые на защиту:

1. Разработанный модифицированный градиентный алгоритм обучения РБНС обеспечивает автоматическое формирование структуры нейронной сети в процессе обучения.

2. Нейросетевая ЯЬ-САУ позволяет формировать управляющие воздействия на ОУ в соответствии с выбранным критерием функционирования системы при неизвестных или изменяющихся свойствах ОУ.

3. Разработанный алгоритм адаптивного изменения значения параметра обучения позволяет обеспечить устойчивость процесса обучения при использовании РБНС для представления функции оценки воздействия.

Публикации. По результатам исследований опубликовано 14 работ, из них одна работа в издании, рекомендуемом списком ВАК.

Структура и объем работы. Диссертационная работа состоит из введения, трех глав, заключения, двух приложений. Основной текст изложен на 140 страницах, общий объем работы - 148 страниц. Диссертация включает 64 рисунка, 5 таблиц. Список использованных источников содержит 92 наименования.

Основное содержание работы

Во введении обоснована актуальность диссертационной работы, сформулированы цель и задачи исследования.

В первой главе приведено описание метода подкрепляемого обучения, проведен анализ алгоритмов обучения.

В методе подкрепляемого обучения рассматривается агент, взаимодействующий с внешней средой в дискретные моменты времени называемые тактами (рисунок 1). В данной работе сохранена терминология, которую использовали авторы метода подкрепляемого обучения. Под агентом понимается некоторая автономная система, которая имеет возможность получать информацию о состоянии внешней среды и формировать воздействия, которые приводят к изменению состояния внешней среды. Внешней средой называется все, что находится вне агента и с чем он взаимодействует.

состояние внешней

Рисунок 1 - Схема взаимодействия агента со средой

В каждый такт (, агент получает информацию о состоянии внешней среды ^е^, где 5 - конечное множество возможных состояний внешней среды, и на основе этой информации вырабатывает некоторое воздействие на внешнюю среду йг,е/?(5,), где А(х,) - конечное множество воздействий, которые агент может выработать при состоянии внешней среды я,. На следующем такте воздействие а, переводит внешнюю среду в новое состояние На каждом такте агент получает сигнал подкрепления г„ который является скалярной величиной и характеризует, насколько хорошо агент функционирует во внешней среде. Целью функционирования агента является максимизация суммарной величины подкрепления Л, которая на /-ом такте определяется по выражению

Д = гм + У' гм + У2' гм + - = ¿У* ' .

ыо

где уе [0,1] - параметр дисконтирования сигнала подкрепления, обеспечивающий сходимость суммарной величины подкрепления. Для достижения цели функционирования осуществляется определение значений функции оценки воздействия £>, аргументами которой являются состояние внешней среды л' и воздействие а, а значением функции является величина суммарной величины подкрепления для будущих тактов при условии, что на текущем такте при состоянии внешней среды 5 агент выберет воздействие а:

оо

к=О

при условии, что а,=а и

В том случае, когда значения функции оценки воздействия для всех возможных значений состояний и воздействий определены, функционирование агента для достижения цели функционирования заключается в выборе воздействия, соответствующего максимальному значению функции оценки воздействия при данном состоянии внешней среды:

а, =ащта х0($,,а).

аеЛ

В начале функционирования во внешней среде функция оценки воздействия имеет нулевые значения для всех значений аргументов. На каждом такте осуществляется изменение функции оценки воздействия в соответствии с одним из алгоритмов метода подкрепляемого обучения. Проведенный анализ алгоритмов обучения показал, что в том случае, когда функция оценки воздействия представлена с помощью матрицы чисел, предпочтительным является использование алгоритма ТО(Х), так как он позволяет за один шаг обучения уточнить значение функции оценки воздействия сразу в нескольких точках. При использовании функционального аппроксиматора для представления функции оценки воздействия наиболее предпочтительным алгоритмом обучения является алгоритм О-обучения.

Во второй главе представлена обобщенная структурная схема ИЬ-САУ, в которой для представления функции оценки воздействия используется матрица вещественных чисел. Входящий в состав ЯЬ-САУ ОУ должен удовлетворять следующим условиям:

1. ОУ является одномерным.

2. В любой момент времени можно измерить вектор переменных состояния ОУ. Под переменными состояния ОУ в данной работе подразумевается набор сигналов, который вместе с управляющим воздействием и однозначно определяет значение выходной величины у в будущие моменты времени.

Разработанная структурная схема ЛЬ-САУ показана на рисунке 2. Вектор входных сигналов УУ состоит из задающего воздействия g, скорости изменения задающего воздействия выходной величины у и вектора переменных состояния ОУ X. В результате обработки вектора входных сигналов УУ формирует управляющее воздействие и, значение которого является одним из элементов заранее определенного множества возможных воздействий А. Под действием управляющего воздействия и ОУ изменяет свое состояние. Наличие

в векторе входных сигналов производной входного воздействия £ и вектора переменных состояния ОУ X обусловлено тем, что в соответствии с методом подкрепляемого обучения сигналы подкрепления и состояния внешней среды должны обладать свойством марковости.

Управляющее устройство

функция

подкрепления ±

из

АУ

г[к]

блок «Агент»

УУА

УУО

«Ю

эк

параметры 1

квантователя параметры настроив.

ОУ

Рисунок 2 - Обобщенная структурная схема ЯЬ-САУ

Вектор входных сигналов поступает на вход импульсного элемента (ИЭ), который осуществляет дискретизацию по времени входных сигналов. На выходе ИЭ формируется вектор дискретных сигналов Р[к], который поступает на анализирующее устройство (АУ) и на квантователь С?. АУ вычисляет значение сигнала подкрепления /-[Л], а квантователь осуществляет квантование по уровню вектора дискретных сигналов /'[Л] и определяет значение сигнала состояния внешней среды которое является одним из элементов заранее определенного множества возможных состояний внешней среды 5. Устройство управления объектом (УУО) формирует сигнал воздействия на ОУ а[£), а устройство управления адаптацией (УУА) осуществляет коррекцию функции оценки воздействия в соответствии с алгоритмом ТО(А.) метода подкрепляемого обучения. Экстраполятор (ЭК) переводит дискретную величину а[к\ в непрерывное по времени управляющее воздействие и.

Разработаны алгоритмы работы каждого из элементов обобщенной структурной схемы ЯЬ-САУ. Для определения параметров квантователя необходимо задать количество уровней квантования для каждого элемента вектора сигналов Р[к\. Если ЛЬ-САУ предназначена для установления выходного сигнала ОУ у, равного задающему воздействию g, то для определения сигнала подкрепления г[А] предлагается использовать выражение

Максимальное значение этого выражения равно нулю и достигается только в том случае, когда выходной сигнал ОУ у равен задающему воздействию g.

На основе обобщенной структурной схемы ЯЬ-САУ было разработано программное средство «Исследование ЯЬ-САУ», главное окно которого показано на рисунке 3.

Задающее воздействие

Управляющее устройство

Объект управления

Параметры моделирования

Математическая модель объекта управления

Объем-управления <Маятник. ▼(

Количество переменных состоять ¡2

Система диФ4>еренц«з/1ьшх уравнений

НИ

dK2/dt- (9.81чЦх1))(0Гх2)ки

........У- х1.......

О гращчёння значений переменным состояния Минимум [Максимум Период Начзнач 2'pi pi -10 f 10 ¡0

Такт: О

Время кодеяироиания: О сак Значения переменный состояния; »1=3.1415Э *2»0 •

Задающее «ааявйствив:

Упрмлякаде в воздействие: ■ и»0

Энач«им« »входного сигнала: ..... у®0

Сиг-нал подкрепления: ; 1=0

Сукмариая величина подкрепления

за 10000 «шефов

R=0

Параметры контроллера: | ALPHAr0.98 GAOTA-O. 9 l,AMBDA-0.8S SPSIL0H»0.01

Применить Изменить 0У Загр'ригь

Сохранить

! Показать графики .}

Рисунок 3 - Главное окно программы «Исследование ЯЬ-САУ»

Программное средство позволяет задавать математическую модель ОУ в виде системы дифференциальных уравнений, определять вид и параметры задающего воздействия, задавать параметры настройки УУ, управлять процессом моделирования, отображать на экране значения всех моделируемых сигналов и их графики, определять значения показателей качества управления, сохранять результаты моделирования в файлы. Параметры настройки УУ включают в себя параметры алгоритма обучения ТВ(А,), количество уровней квантования для каждого входного сигнала, а также элементы множества возможных управляющих сигналов.

В программном средстве «Исследование ЯЬ-САУ» были проведены экспериментальные исследования систем управления линейными и нелинейными ОУ. Эксперименты показали необходимость перехода к представлению функции оценки воздействия с помощью функционального аппроксиматора вместо использования матрицы вещественных чисел. Данная необходимость определяется экспоненциальным ростом требуемой памяти для хранения матрицы чисел при увеличении порядка ОУ, либо при увеличении количества уровней квантования входных сигналов.

В третьей главе представлен нейросетевой метод управления, основанный на структурной схеме нейросетевой ЯЬ-САУ, в которой функция

оценки воздействия представлена с помощью радиально-базисной нейронной сети.

Проведенный анализ возможности использования различных типов искусственных нейронных сетей (ИНС) показал, что дополнительное обучение многослойного перцептрона в некотором участке рабочей области приводит к потере обученного состояния во всей рабочей области ИНС, что не позволяет использовать этот тип ИНС для аппроксимации функции оценки воздействия. Указанный недостаток отсутствует в РБНС, так как каждый элемент РБНС влияет на значение выходного сигнала преимущественно только в ограниченном участке рабочей области, который характеризуется положением центра элемента и параметром а, называемым шириной радиальной функции. Чем больше значение параметра с, тем больше размер области, на которую оказывает влияние данный элемент. Структура РБНС показана на рисунке 4. РБНС состоит из двух слоев. Все входные сигналы поступают на все элементы первого слоя без изменений.

: Цх-с,и

с(\ с!г... С1„ 1

Сад] Сщ2

Рисунок 4 - Структура радиально-базисной нейронной сети Выходной сигнал каждого элемента определяется функцией Гаусса

в, =ехрН=Ц-5-),

2а,

где а, - ширина функции 1-го элемента; с, 1, с,2, ..., с,„ - координаты центра 1-го элемента. Выходной сигнал РБНС вычисляется как взвешенная сумма сигналов элементов:

у=2>» /=1

где IV, - весовой коэффициент выходной связи 1-го элемента; т — количество элементов РБНС.

Для обучения РБНС используется градиентный алгоритм, основанный на минимизации целевой функции ошибки РБНС. В соответствии с этим алгоритмом для каждого элемента вычисляется величина изменений весового коэффициента Дн>„ величина изменения ширины элемента Ас, и величины изменения координат центра элемента Ас^.

В результате проведенных экспериментов, были выявлены некоторые недостатки РБНС:

1. В алгоритме обучения РБНС нет правил для первоначального задания количества элементов сети и их параметров, а так же нет правил для изменения количества элементов в процессе обучения. Равномерное распределение элементов в рабочей области не всегда является оптимальным. Также может возникнуть ситуация, когда количество элементов, заданное первоначально, является недостаточным для достижения требуемого качества обучения.

2. В процессе обучения изменяются параметры всех элементов сети. В результате при увеличении количества элементов вычислительные затраты на обучение также увеличиваются.

3. РБНС не может достичь устойчивого состояния в процессе обучения в тех случаях, когда существуют элементы, центры которых расположены очень близко друг к другу и ширина которых приблизительно одинакова. Появление таких ситуаций во многом зависит от выбранного количества элементов и их начальных параметров. Причина ухудшения качества обучения в такой ситуации заключается в том, что в градиентном алгоритме предполагается, что на выходное значение РБНС в каждой точке рабочей области в основном влияет только один элемент. При наличии нескольких таких элементов изменение их параметров в соответствии с градиентным алгоритмом не всегда приводит к уменьшению ошибки обучения.

Для определения ситуаций, когда параметры некоторых элементов становятся близкими друг к другу, было введено понятие коэффициента взаимного пресечения элементов. Для вычисления этого коэффициента для некоторого элемента РБНС необходимо найти второй элемент, центр которого расположен ближе всего к центру рассматриваемого элемента. Значение коэффициента взаимного пересечения определяется как сумма выходной величины текущего элемента в центре второго элемента и выходной величины второго элемента в центре текущего элемента:

I (с„-с4)2

р. ~ ехР(~~>Л . 2-) + ехр(-— ——г-),

2а, 2 аа

где / - номер элемента, для которого вычисляется значение коэффициента взаимного пересечения; <1 - номер элемента, центр которого расположен ближе всего к центру элемента с номером /. Номер элемента (1 определяется по формуле

d = argmm |£(с -с^)2 .

Значение коэффициента взаимного пересечения находится в интервале (0; 2]. Коэффициент принимает максимальное значение в том случае, когда центры рассматриваемых элементов совпадают. В ходе экспериментов по аппроксимации различных двумерных функций с помощью РБНС было определено, что ошибка РБНС начинает увеличиваться в том случае, когда максимальное значение коэффициента взаимного пересечения превышает 1,9. Поэтому для достижения максимального качества обучения РБНС необходимо ограничить увеличение значения коэффициента взаимного пересечения выше 1,9.

С целью исключения недостатков классического градиентного алгоритма обучения РБНС был разработан модифицированный градиентный алгоритм, блок-схема которого показана на рисунке 5. Блоки, которые отсутствуют в классическом алгоритме, отмечены на рисунке звездочками. Основные отличия от классического алгоритма заключаются в следующем:

1. Добавлены правила изменения структуры РБНС в процессе обучения (блок 2). В начале обучения РБНС не содержит элементов. По мере необходимости новые элементы добавляются, а неиспользуемые элементы удаляются.

2. Уменьшены вычислительные затраты, требуемые для каждого цикла обучения. Это достигается благодаря тому, что изменение параметров осуществляется не для всех элементов, как в классическом алгоритме, а только для элементов, выходная величина которых в рассматриваемой точке больше величины 9ИЗМ (блоки 4 и 5).

3. Исключена возможность возникновения ситуации, когда параметры некоторых элементов практически совпадают. Для этого вычисленные величины Асц и Дет, уменьшаются в том случае, если коэффициент взаимного пересечения элементов превышает пороговую величину ргр, равную 1,9 (блоки 7, 8,12,13).

Изменение структуры РБНС за счет добавления или удаления элементов приводит к изменению выходного значения РБНС только в окрестности центра добавляемого или удаляемого элемента, а не во всей рабочей области, как в случае с изменением структуры многослойного перцептрона. Поэтому добавление и удаление элементов РБНС возможно осуществлять в процессе обучения без необходимости запуска процесса обучения с самого начала.

Рассмотрим пример аппроксимации двумерной функции

х2 х2

Д*1 ,х2) = --3- ■+ 3) • соб(2х, +1 - ехр(-х2))

на участке х, б [- 1;1],х2 е [-1;1] с помощью РБНС. Поверхность данной функции показана на рисунке 6. При использовании классического градиентного алгоритма перед началом обучения была задана структура РБНС в виде 36 элементов с начальной шириной сг0=0,2, равномерно распределенных в рабочей области. После приблизительно одного миллиона циклов обучения среднеквадратическая ошибка обучения перестала уменьшаться и достигла значения 1,554-Ю"3.

Рисунок 5 - Блок-схема модифицированного градиентного алгоритма обучения

РБНС

Рисунок 6 - Поверхность функции/^]¿с2)

При использовании модифицированного градиентного алгоритма структура РБНС была определена автоматически в процессе обучения. После приблизительно трех миллионов циклов обучения количество элементов увеличилось до 30, а среднеквадратическая ошибка обучения составила 1,225-10"3. Результаты обучения РБНС показаны на рисунке 7. Таким образом, можно сделать вывод, что даже при меньшем количестве элементов модифицированный градиентный алгоритм позволяет достичь меньшей ошибки обучения по сравнению с классическим градиентным алгоритмом за счет динамического формирования структуры нейронной сети, но при этом требуется большее количество вычислительных ресурсов.

Рисунок 7 - Результат аппроксимации функцииД*,,^): а) распределение элементов; б) поверхность, показывающая зависимость выхода РБНС от входных значений

Разработанный модифицированный градиентный алгоритм обучения РБНС позволяет заменить в обобщенной структурной схеме ЯЬ-САУ матрицу I вещественных чисел, используемую в блоке УУО для представления функции I оценки воздействия, на РБНС. Разработанная обобщенная структурная схема I нейросетевой ЯЬ-САУ показана на рисунке 8. Импульсный элемент ИЭ, анализирующее устройство и экстраполятор работают по тем же алгоритмам, | как и в структурной схеме ЯЬ-САУ, представленной во второй главе. Основные отличия данной схемы от структурной схемы ЯЬ-САУ заключаются в следующих блоках:

1. Квантователь заменен на блок нормализации (БН), формирующий

I вектор состояния внешней среды 5ЗД, каждый элемент которого масштабирован к интервалу [-1; 1 ].

2. УУО и УУА работают с функцией оценки воздействия, представленной ' не матрицей вещественных чисел, а с помощью РБНС.

3. Выходной сигнал УУО аЩ представляет собою не сигнал управления, , а изменение сигнала управления иЩ.

Значение управляющего сигнала г/[А] рассчитывается как сумма управляющего сигнала на предыдущем такте и[к-\] и изменения этого сигнала

а)

б)

а[Л]. В таком случае для обеспечения свойства марковости вектора состояния внешней среды на вход блока нормализации подается значение управляющего сигнала на предыдущем такте и[А-1]. Такой способ формирования сигнала ы[А] обеспечивает возможность формирования сложных управляющий воздействий на ОУ при ограниченном количестве возможных значений сигнала а[к]. На рисунке 9 приведен пример формирования синусоидального воздействия и[к] в интервале [-5; 5] при пята возможных значениях сигнала аЩ: минус 0,3; минус 0,1; 0; 0,1 и 0,3.

Управляющее устройство

т 22Е

функция Блок «Агент»

подкрепления траттрытстро»«! X -----Ж----.

. 14

И-

иэ

АУ УУА

1 1

зд<

УУО

ЬН 1 1 _

ууо-1! Хы]

«и >

эк

ко

ОУ

ко

Ф-П

Рисунок 8 - Обобщенная структурная схема нейросетевой ЯЬ-САУ

ШИЦ™. ■г

2 • 41 1111

• Ю и 30 « Я а га « » ^

3 } •

»- . „ „ • » . - » 4» Рисунок 9 - Примеры графиков сигналов а[к\ и и[к]

В блоке «Агент» осуществляется определение функции оценки воздействия, которая представлена с помощью РБНС, обучаемой модифицированным градиентным алгоритмом. На вход РБНС подается Л^+1 сигналов (Л', - количество элементов вектора 5ВД): элементы вектора

состояния внешней среды S[k] и сигнал, соответствующий проверяемому выходному сигналу а. Последний сигнал, как и элементы вектора 5ЗД, должен быть масштабирован к интервалу [-1;1]. Значение функции оценки воздействия определяется выражением

Q{a,m) = y(xl,x2>...ix„), х, = *,[*], х. = 2 -1,

а —а

max mm

где у(хх,х2,...,хл) - выходное значение РБНС; х, - входные сигналы РБНС; л -количество входных сигналов РБНС, которое определяется выражением n=Ns+1; атт и атах — минимальное и максимальное значения элементов множества возможных выходных сигналов А.

Для выбора выходного сигнала на текущем шаге а[к] сначала определяется наилучшее значение а [к], которое в соответствии с текущим значением функции оценки воздействия характеризуется наибольшим значением суммарной величины подкрепления. Для определения наилучшего значения выходного сигнала а'[к] рассматриваются все возможные выходные сигналы а из множества А и среди них выбирается то значение, которое соответствует максимальному значению оценки воздействия Q(a, 5ЭД):

а [к] = argmax(6(a, £[£])).

аеЛ

Для комбинирования процессов исследования внешней среды и использования накопленных знаний в блоке «Агент» используется «е-жадная» стратегия управления. В соответствии с этой стратегией на каждом такте работы УУ определяется случайное значение величины е из диапазона [0,1). В зависимости от соотношения этой величины и параметра настройки УУ е для формирования выходного сигнала выбирается либо наилучшее значение a [fc], либо случайно выбранное значение из всех возможных: l^j ja'M, если е>£\

j-\rand-Nл\+1 иначе,

где rand - случайное число в диапазоне [0,1); NA - количество элементов в множестве возможных выходных сигналов A; j — случайное целое число в диапазоне [1Дл]. определяющее номер случайно выбранного выходного сигнала.

После того, как выходной сигнал а [/с] на текущем такте к. сформирован, на следующем такте (&+1) УУА осуществляет коррекцию функции оценки воздействия в соответствии с алгоритмом Q-обучения и с учетом сигнала подкрепления r[fc+l] и вектора состояния внешней среды £[£ + 1]. Для этого определяется наилучший сигнал а [&+1] и вычисляется ошибка временной разности td:

td = r[k+1] + у ■ Q(a[k ++1]) - б(а[А],ЗД).

Ошибка временной разности используется для коррекции значения функции оценки воздействия в точке, определяемой аргументами аЩ и 5ВД. Для этого вызывается процедура обучения РБНС по модифицированному

градиентному алгоритму в точке ••»*») новому значению РБНС у,

которое определяется выражением

у =Q{a[k],S[k]) + о.-td, где ае[0,1] - параметр обучения.

Когда в процессе обучения ошибка временной разности будет приближаться к нулю, тогда наилучшие выходные сигналы а [Л] будут приводить к цели функционирования системы, то есть к максимизации суммарной величины подкрепления.

Для исследования нейросетевых RL-САУ было разработано программное средство «Исследование NRL-САУ», которое основано на исходном коде программного средства «Исследование RL-САУ». NRL является сокращением фразы Neuronet Reinforcement Learning. Изменения исходного кода произошли в модели УУ. Также изменился пользовательский интерфейс модуля «Управляющее устройство».

В программном средстве реализована возможность адаптивного изменения значения параметра алгоритма Q-обучения а в процессе обучения. Адаптивное значение параметра обучения а позволяет обеспечить устойчивость процесса обучения. Если средняя ошибка обучения РБНС большая, то параметр а постепенно уменьшается до минимального значения, и наоборот, если ошибка РБНС достаточно маленькая, то параметр а увеличивается до начального значения. Адаптивное значение параметра а определяется следующим выражением:

а(*'(1-уД если (еср > е2)и(а(,) > а„,„); n^O+Yj, если (еср <е1)и(а(*) <а0); x(t) иначе,

где a(k) - значение параметра а на к-ом такте; атт — минимальное значение параметра а; Оо- начальное значение параметра а; уа - коэффициент изменения параметра a; £i и е2 - нижняя и верхняя границы интервала допустимых значений средней ошибки е^.

В программном средстве «Исследование NRL-САУ» были проведены экспериментальные исследования систем управления линейными и нелинейными ОУ второго, третьего и четвертого порядков, которые показали, что нейросетевая RL-САУ способна адаптироваться к неизвестным или изменяющимся свойствам ОУ для достижения цели функционирования. Рассмотрим пример управления ОУ «Акробот», который представляет собою два звена, соединенные между собою шарниром (рисунок 10). Первое звено соединено свободным концом шарниром с неподвижной точкой. Управляющим воздействием на данный ОУ является момент вращения М, приложенный ко второму звену. Выходной величиной ОУ является угол отклонения первого лвена от вертикали G).

в<м> =

Рисунок 10 - ОУ «Акробот»

Математическая модель дифференциальных уравнений сЬс.

ОУ представлена системой нелинейных

сЬс2 Л

= 0,19(2^ зт(х2 - *,) + 29,4 з'ш х, - 0,2дс3 - и) -

-2соб(х, - х2 )(2х] 31п(л:| -х2) + 9,8 бш х2 - 0,2х4 + и)~ 4(со5(дг, -х1))2(2х^$\п(х, -х1) + 29,4з'шх1 -0,2х3 -и) 5,33(7,11 - 4(соз(х, -л2))2)

= 5,33(2д:з вш^с, - х2) + 9,8 втл^ -0,2х4 + и)-

2соя(х, -х2)(2х^ зт(дг2 — дг,) + 29,4э1П дг, -0,2х3 - и) 7,11-4(со5(х,-*2))г '

Целью управления является достижение нулевого значения выходной величины, что соответствует верхнему вертикальному положению первого звена. Максимальное и минимальное значения управляющего воздействия и равны 2 и минус 2 соответственно. Возможные изменения управляющего воздействия равны минус 2,0 и 2. Таким образом, управляющее воздействие не может сразу измениться с максимального до минимального значения. Управляющее воздействие и=2 достаточно мало, чтобы перевести первое звено в требуемое положение, и приводит лишь к отклонению звеньев на небольшой угол. Поэтому единственный способ достижения требуемого состояния заключается в постепенном раскачивании звеньев.

За 5815 мин. модельного времени, что соответствует одному часу реального времени при моделировании на компьютере среднего класса, система научилась формировать последовательность управляющих воздействий продолжительностью 34 с, которая переводила ОУ в требуемое положение. На рисунке 11 показан график управляющего воздействия и положение звеньев через каждые 3 с. Серым цветом показаны промежуточные положения звеньев.

После обучения РБНС содержала 223 элемента, для хранения которых необходимо всего лишь около 20 килобайт оперативной памяти. Таким образом, результаты данного эксперимента подтверждают, что для нейросетевой ИЬ-САУ отсутствует проблема экспоненциального роста объема требуемой памяти и времени обучения с ростом порядка ОУ.

В результате исследований нейросетевых КЬ-САУ с различными линейными и нелинейными ОУ были сделаны следующие выводы:

1. Нейросетевая ЯЬ-САУ способна формировать управляющие воздействия в соответствии с выбранным критерием функционирования системы при неизвестной или меняющейся математической модели ОУ.

2. В нейросетевой КЬ-САУ существует возможность исключить резкие переключения управляющего воздействия за счет определения возможных значений его изменения и границ изменения. Таким образом, при ограниченном количестве выходных значений УУО способно формировать плавно изменяющееся управляющее воздействие, которое может быть реализовано на реальных исполнительных механизмах.

3. Использование РБНС для представления функции оценки воздействия в нейросетевой ЯЬ-САУ позволяет устранить проблему, связанную с экспоненциальным ростом объема требуемой памяти при увеличении количества элементов во входном векторе. Например, для ОУ второго порядка потребовалось около 10 килобайт оперативной памяти, а для нелинейного ОУ четвертого порядка - около 20 килобайт. При использовании модифицированного градиентного алгоритма обучения РБНС структура нейронной сети определяется в процессе обучения.

4. Для нейросетевой ЯЬ-САУ актуальной является проблема большого времени обучения и переобучения УУ при изменении параметров ОУ, поэтому на данный момент практическое применение ЛЬ-САУ может заключаться в определении последовательности управляющих воздействий для перевода ОУ из исходного состояния в требуемое при известной математической модели ОУ.

Основные результаты работы

В результате выполнения диссертационной работы получены следующие основные научные и практические результаты и сделаны следующие выводы.

2. Разработана обобщенная структурная схема нейросетевой ЯЬ-САУ, функционирующей на основе метода подкрепляемого обучения с применением РБНС для представления функции оценки воздействия. Определены алгоритмы работы структурных блоков.

V ........................ 1 ....................| Г

24 / зб (,с 1

Рисунок 11 - График управляющего воздействия на ОУ «Акробот», переводящего ОУ в требуемое состояние

3. Разработано программное средство «Исследование NRL-САУ», предназначенное для моделирования и исследования нейросетевых RL-САУ. Программное средство позволяет задавать математическую модель ОУ в виде системы дифференциальных уравнений, определять вид и параметры задающего воздействия, задавать параметры настройки УУ, управлять процессом моделирования, отображать на экране значения всех моделируемых сигналов и их графики, определять значения показателей качества управления, сохранять результаты моделирования в файлы.

4. Предложены рекомендации по настройке параметров УУ в процессе функционирования RL-САУ. Предложен алгоритм адаптивного изменения значения параметра обучения, обеспечивающий устойчивость процесса обучения при использовании РБНС для представления функции оценки воздействия.

5. Результаты экспериментальных исследований нейросетевой RL-САУ с линейными и нелинейными объектами показали приемлемое качество управления и способность RL-САУ адаптироваться к неизвестным или изменяющимся параметрам ОУ.

Перечень публикаций по теме диссертации

1. Внчугов, В.Н. Нейросетевой метод подкрепляемого обучения в задачах автоматического управления // Известия Томского политехнического университета, 2006. - т.309, № 7. - С. 92-96.

2. Вичугов, В.Н. Метод подкрепляемого обучения в задачах автоматического управления / В.Н. Вичугов, Г.П. Цапко // Известия Таганрогского государственного радиотехнического университета, 2007. -№ 3. - С. 171-174.

3. Вичугов, В.Н. Применение метода «Reinforcement Learning» в задачах автоматического управления / В.Н. Вичугов, С.Г. Цапко // Современные техника и технологии: Труды XI Международной научно-практической конференции студентов и молодых ученых. В 2 т. - Т. 2 - г. Томск, ТПУ, 28 марта - 1 апреля 2005 г. - Томск: Изд-во ТПУ, 2005. - С. 127-129.

4. Вичугов, В.Н. Представление Q-функций в RL-САУ на основе искусственной нейронной сети // Современные техника и технологии: Труды XII Международной научно-практической конференции студентов и молодых ученых - Томск, 27-31 марта 2006. - Томск: ТПУ, 2006. - С. 41-43.

5. Вичугов, В.Н. Моделирование адаптивных систем управления на основе подкрепляемого обучения / В.Н. Вичугов, Г.П. Цапко //Труды международных научно-технических конференций «Интеллектуальные системы» (IEEE AIS-06) и «Интеллектуальные САПР» (CAD-2006) - Дивноморское, 3-10 сентября 2006. - Москва: Физматлит, 2006. - С. 153-158.

6. Вичугов, В.Н. Применение метода подкрепляемого обучения для управления маятником // Высокие технологии, фундаментальные и прикладные исследования, образование: Сборник трудов Четвертой международной научно-практической конференции «Исследование, разработка и применение высоких

технологий в промышленности» - Санкт-Петербург, 2-5 октября 2007. - СПб: Изд-во Политехи, ун-та, 2007. - С. 309-311.

7. Вичугов, В.Н. Моделирование нейросетевых систем управления с использованием генетических алгоритмов обучения / В.Н. Вичугов, А.А. Вичугова И Имитационное моделирование. Теория и практика (ИММОД-2007): Сборник докладов третьей Всероссийской научно-практической конференции -Санкт-Петербург, 17-19 октября 2007. - СПб: ЦНИИТС, 2007. - С. 245-248.

8. Вичугов, В.Н. Применение генетических алгоритмов в нейросетевых системах автоматического управления / В.Н. Вичугов, А.А. Вичугова // Научная сессия МИФИ-2007. IX Всероссийская научно-техническая конференция «Нейроинформатика-2007» - Москва, 23-26 января 2007. - Москва: МИФИ, 2007.-С. 168-176.

9. Вичугов, В.Н. Адаптивные системы автоматического регулирования на основе нейронных сетей с применением генетических алгоритмов / В.Н. Вичугов, А.А. Вичугова // Современные техника и технологии: Труды XIII Международной научно-практической конференции студентов, аспирантов и молодых ученых - Томск, 26-30 марта 2007. - Томск: ТПУ, 2007. - С. 301-303.

10. Вичугов, В.Н. Нейросетевые системы управления с применением генетических алгоритмов / В.Н. Вичугов, А.А. Вичугова И Молодежь и современные информационные технологии: Сборник трудов V Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых -Томск, 27 февр. - 1 марта 2007. - Томск: Изд. ТПУ, 2007. - С. 365-367.

11. Вичугов, В.Н. Алгоритм генетической настройки нейросети в задачах управления / В.Н. Вичугов, А.А. Вичугова // Молодежь и современные информационные технологии: Сборник трудов VI Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых - Томск, 26-28 февраля 2008. - Томск: СПб Графике, 2008. - с. 335-336.

12. Вичугов, В.Н. Поиск оптимальных параметров нейросети для решения задач управления / В.Н. Вичугов, А.А. Вичугова II Современные техника и технологии: Труды XIV Международной научно-практической конференции студентов, аспирантов и молодых ученых в 3-х томах - т. 3 - Томск, 24-28 марта 2008. - Томск: ТПУ: Изд. ТПУ, 2008. - С. 266-267.

13. Vichugov, V.N. Application of Reinforcement Learning in Control System Development / V.N. Vichugov, G.P. Tsapko, S.G. Tsapko // The 9-th Russian-Korean International Symposium on Science and Technology (KORUS-2005): Proceedings -Novosibirsk State Technical University, 26 June - 2 July 2005. - Novosibirsk: NSTU, 2005. - P. 732-733.

14. Vichugov, V.N. Neural-Based Reinforcement Learning in Control Systems // Мехатроника: устройства и управление: Материалы II российско-корейского научно-технического семинара - Томск, 18 марта 2008. - Томск: ТПУ, 2008. - с. 18-19.

Подписано к печати 06.11.2008. Тираж 125 экз. Кол-во стр. 21. Заказ № 120 Бумага офсетная. Формат А-5. Печать RISO. Отпечатано в типографии ООО «РауШ мбх» Лицензия Серия ПД № 12-0092 от 03.05.2001г. 634034, г. Томск, ул. Усова 7, ком. 046 тел. (3822) 56-44-54

Оглавление автор диссертации — кандидата технических наук Вичугов, Владимир Николаевич

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

1 МЕТОД ПОДКРЕПЛЯЕМОГО ОБУЧЕНИЯ.

1.1 Постановка задачи подкрепляемого обучения.

1.2 Суммарная величина подкрепления.

1.3 Стратегия управления.

1.4 Исследование среды и использование знаний.

1.5 Свойства сигналов состояния внешней среды и подкрепления.

1.6 Функции оценки.

1.7 Оптимальная стратегия управления.

1.8 Оптимальные функции оценки.

1.9 Алгоритмы обучения.

1.9.1 Алгоритм временных разностей.

1.9.2 Алгоритм Q-обучения.

1.9.3 Алгоритм SARS А.

1.9.4 Алгоритм TD (А.).

1.9.5 Анализ алгоритмов обучения.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Вичугов, Владимир Николаевич

Постоянное усложнение технических объектов управления (ОУ) и расширение областей их применения приводит к необходимости развития средств и методов интеллектуального управления в условиях неопределенности и при изменяющихся условиях функционирования. Применение методов классической теории автоматического управления для управления сложными динамическими ОУ затруднено рядом факторов. Прежде всего, это сложность получения достаточно точного формализованного описания ОУ. Кроме того, параметры ОУ могут изменяться в широких пределах в процессе функционирования системы, либо иметь большой разброс значений от образца к образцу. В таких случаях регуляторы с постоянными настройками не всегда могут обеспечить требуемое качество работы системы. Также следует учесть, что практически все реальные ОУ являются нелинейными, и их представление в виде линейных математических моделей является лишь приблизительным. Многообразие видов нелинейностей, несмотря на большое количество публикаций по этой теме, не позволяет создать единую теорию идентификации нелинейных ОУ. Чаще всего применяется классический подход, основанный на аппроксимации нелинейностей рядами Гаммерштейна, Винера, Вольтера, полиномами Колмогорова-Габора и др. [25]. Однако область применения таких моделей ограничена. Кроме того, наличие в реальных сигналах помех вносит дополнительные трудности в процесс получения адекватного математического описания ОУ. Преодоление указанных трудностей связывают с развитием интеллектуальных систем управления, основанных, в частности, на применении аппарата искусственных нейронных сетей.

Начиная с 1990-х гг. активно развивается метод подкрепляемого обучения (англ. reinforcement learning), относящийся к группе методов машинного обучения [81]. В основе этого метода лежат те основополагающие принципы адаптивного поведения, которые позволяют живым организмам приспосабливаться к изменяющимся или неизвестным условиям обитания. В этом методе рассматривается система, которая в процессе взаимодействия с внешней средой получает сигнал подкрепления, характеризующий, насколько хорошо функционирует система в текущий момент времени. Алгоритмы, относящиеся к методу подкрепляемого обучения, определяют порядок изменения состояния системы таким образом, чтобы формируемые воздействия системы на внешнюю среду обеспечивали максимальное значение суммарного сигнала подкрепления, накопленного за длительный период времени. Одной из отличительных особенностей метода подкрепляемого обучения является тот факт, что в начале функционирования система не обладает практически никакой информацией о внешней среде, и обучение системы происходит в процессе взаимодействия с ней. Второй особенностью метода подкрепляемого обучения является формирование воздействий с учетом сигналов подкрепления, которые будут получены в отдаленном будущем.

В исходном виде метод подкрепляемого обучения предполагает конечное количество возможных состояний внешней среды и сигналов воздействия, что затрудняет его применение в задачах управления, в которых сигналы обычно являются непрерывными. Тем не менее, в зарубежной литературе рассматривается несколько успешных применений метода подкрепляемого обучения для управления моделями таких объектов, как тележка с шестом [65], перевернутый маятник и «Акробот» [53], а также для управления движением роботов [52, 55, 60, 67, 71]. Однако, указанные системы управления были разработаны под конкретные задачи, что не позволяет говорить о едином методе управления, основанном на подкрепляемом обучении.

Цель работы и задачи исследования. Целью работы является разработка нейросетевого метода адаптивного управления, основанного на принципах подкрепляемого обучения и обеспечивающего формирование управляющих воздействий на основе взаимодействия с объектом управления.

Для достижения поставленной цели были решены следующие задачи:

2. Разработка обобщенной структурной схемы нейросетевой RL-САУ и алгоритмов работы структурных блоков.

3. Разработка программного средства для моделирования нейросетевой RL-САУ.

4. Определение рекомендаций по настройке параметров УУ в процессе работы RL-САУ.

5. Апробация разработанного метода управления в задачах управления линейными и нелинейными ОУ.

Апробация работы. Основные положения и результаты диссертационной работы докладывались, обсуждались и вошли в сборники трудов IX Русско-Корейского международного симпозиума по науке и технологии KORUS-2005 (г. Новосибирск, 2005 г.), V и VI Всероссийских научно-практических конференций студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (г. Томск, 2007 и 2008 гг.), XI, XII и XIII Международных научно-практических конференций студентов, аспирантов и молодых ученых «Современная техника и технологии» (г. Томск, 2005-2007 гг.), IX Всероссийской научно-технической конференции «Нейроинформатика-2007» (г. Москва, 2007 г.), Международных научно-технических конференций «Интеллектуальные системы» (IEEE AIS-06) и «Интеллектуальные САПР» (CAD-2006) (г. Дивноморское, 2006 г.), IV международной научно-практической конференции «Исследование, разработка и применение высоких технологий в промышленности» (г. Санкт-Петербург, 2007 г.), III Всероссийской научно-практической конференции «Имитационное моделирование. Теория и практика» (ИММОД-2007) (г. Санкт-Петербург,

2007 г.), II Российско-Коррейского научно-технического семинара «Мехатроника: устройства и управление» (г. Томск, 2008 г.).

Научную новизну работы определяют:

2. Нейросетевой метод адаптивного управления, основанный на разработанной обобщенной структурной схеме нейросетевой ИЬ-САУ и алгоритмах функционирования структурных блоков и обеспечивающий формирование управляющих воздействий на основе взаимодействия с ОУ.

Практическая значимость и реализация результатов работы.

Разработанный метод управления может быть использован при разработке адаптивных систем управления, когда отсутствует априорная - - -информация о- математической модели ОУ. Разработанное программное средство моделирования нейросетевой ЯЬ-САУ может быть использовано для определения последовательности управляющих воздействий, переводящих ОУ из начального состояния в требуемое.

Разработанное программное средство моделирования нейросетевой ИЬ-САУ используется в ОАО «Информационные спутниковые системы» имени академика М.Ф. Решетнева». Результат внедрения подтвержден соответствующим актом.

Результаты диссертационной работы используются в учебном процессе при приведении лекционных занятий по курсу «Современные проблемы автоматизации и управления».

Основные положения, выносимые на защиту:

Личный вклад автора. Автором непосредственно получены все основные результаты работы: разработан модифицированный алгоритм обучения РБНС, разработана обобщенная структурная схема нейросетевой КЬ-САУ и алгоритмы работы структурных блоков, разработаны и написаны программы «Исследование ЯЬ-САУ» и «Исследование МЯЬ-САУ».

Заключение диссертация на тему "Нейросетевой метод управления на основе подкрепляемого обучения"

Основные результаты и выводы по главе 3

1. Представлен обзор основных типов ИНС и алгоритмов обучения.

2. Описан модифицированный градиентный алгоритм обучения РБНС.

3. Приведено описание разработанной обобщенной структурной схемы нейросетевой ЯЬ-САУ, в которой функция оценки воздействия представлена с помощью РБНС.

4. Приведены результаты экспериментальных исследований систем управления различными ОУ.

129

ЗАКЛЮЧЕНИЕ

Представленная диссертационная работа описывает результаты исследований, направленных на разработку метода управления, в основе которого лежит метод подкрепляемого обучения. В результате выполнения диссертационной работы получены следующие основные научные и практические результаты и сделаны следующие выводы.

1. Разработан модифицированный градиентный алгоритм обучения РБНС, в котором введено понятие коэффициента взаимного пересечения элементов. Основная особенность алгоритма заключаются в динамическом определении структуры РБНС в процессе обучения. Проведенные эксперименты показали, что РБНС, обученная модифицированным градиентным алгоритмом, характеризуется меньшей ошибкой обучения, чем РБНС, обученная классическим градиентным алгоритмом при одинаковом количестве элементов.

3. Разработано программное средство «Исследование МЯЬ-САУ», предназначенное для моделирования и исследования нейросетевых КЬ-САУ. Программное средство позволяет задавать математическую модель ОУ в виде системы дифференциальных уравнений, определять вид и параметры задающего воздействия, задавать параметры настройки УУ, управлять процессом моделирования, отображать на экране значения всех моделируемых сигналов и их графики, определять значения показателей качества управления, сохранять результаты моделирования в файлы.

4. Предложены рекомендации по настройке параметров УУ в процессе функционирования 11Ь-САУ.

5. Результаты экспериментальных исследований нейросетевой КЬ-САУ с линейными и нелинейными объектами показали приемлемое качество управления и способность ЯЬ-САУ адаптироваться к изменяющимся параметрам ОУ. Для нейросетевой ЯЬ-САУ актуальной является проблема большого времени обучения и переобучения УУ при изменении параметров ОУ, поэтому в настоящий момент практическое применение ЯЬ-САУ может заключаться в определении последовательности управляющих воздействий для перевода ОУ из исходного состояния в требуемое при известной математической модели ОУ.

Библиография Вичугов, Владимир Николаевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Антонов, В. Н. Адаптивное управление в технических системах: Учеб. Пособие / В. Н. Антонов, В. А. Терехов, И. Ю. Тюкин. Спб.: Издательство С.-Петербургского университета, 2001. - 244 с.

2. Анхимюк, В. Л. Теория автоматического управления / В. JI. Анхимюк, О.Ф. Опейко, Н.Н. Михеев. Мн.: Дизайн ПРО, 2000. - 352 с.

3. Барский, А. Б. Нейронные сети: распознавание, управление, принятие решений. М.: Финансы и статистика, 2004. - 176 с.

4. Ван-Кампсн, Н. Г. Стохастические процессы в физике и химии. М.: Высшая школа, 1990. 376 с.

5. Вичугов, В. Н. Метод подкрепляемого обучения в задачах автоматического управления / В.Н. Вичугов, Г. П. Цапко // Известия Таганрогского государственного радиотехнического университета, 2007. -№ 3. С. 171-174.

6. Вичугов, В. Н. Нейросетевой метод подкрепляемого обучения в задачах автоматического управления // Известия Томского политехнического университета, 2006. т.309, № 7. - С. 92-96.

7. Вичугов, В. Н. Нейросетевые системы управления с применением генетических алгоритмов / В. Н. Вичугов, А. А. Вичугова // Молодежь и современные информационные технологии: Сборник трудов V

8. Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых Томск, 27 февр. - 1 марта 2007. - Томск: Изд. ТПУ, 2007.-С. 365-367.

9. Вороновский, Г. К. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности / Г. К. Вороновский, К. В. Махотило, С. Н. Петрашев, С. А. Сергеев. Харьков: Основа, 1997.

10. Горбань, А. Н. Нейронные сети на персональном компьютере / А. Н. Горбань, Д. А. Россиев. Новосибирск: Наука, Сиб. отделение, 1996. -276 с.

11. Горбань, А. Н. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей / А. Н. Горбань // Сибирский журнал вычислительной математики— 1998. Т. 1, № 1. — С.12-24.

12. Джейн, А. К. Введение в искусственные нейронные сети / А. К. Джейн, Ж. Мао, К. М. Моиуддин. Открытые системы. - 1997. - №4. - С. 16-24.

13. Епанешников, А. М. Программирование в среде Turbo Pascal 7.0 / A. M. Епанешников, В. А. Епанешников. 3-е изд. - М.: «ДИАЛОГ-МИФИ», 1996.-288 с.

14. Ермаков, С. М. Статистическое моделирование / С. М. Ермаков, Г. А. Михайлов. М., 1982. - 290 с.

15. Зайцев, А. П. Основы теории автоматического управления: Учебное пособие. Томск: Изд. ТПУ, 2000. 152 с.

16. Каллан Р. Основные концепции нейронных сетей. : Пер. с англ. М.: Издательский дом «Вильяме», 2001. - 290 с.

17. Комарцова, JI. Г. Нейрокомпьютеры / JI. Г. Комарцова, А. В. Максимов. -М.: МГТУ им. Баумана, 2002. 320 с.

18. Комарцова, JI. Г. Исследование алгоритмов обучения многослойного персептрона / Л. Г. Комарцова // Нейрокомпьютеры: Разработка и применение. 2002. - № 12.

19. Комашинский, В. И. Нейронные сети и их применение в системах управления и связи / В. И. Комашинский, Д. А. Смирнов. М.: Горячая линия-Телеком, 2003. - 94 с.

20. Круглов, В. В. Искусственные нейронные сети: Теория и практика / В. В. Круглов, В. В. Борисов. М.: Горячая линия-Телеком, 2001. - 382 с.

21. Омату, С. Нейроуправление и его приложения. Кн. 2 : пер. с англ. / С. Омату, М. Халид, Р. Юсоф. М.: ИПРЖР, 2000. - 272 с.

22. Осовский, С. Нейронные сети для обработки информации : пер. с польск. / С. Осовский. М.: Финансы и статистика, 2002. — 344 с.

23. Редько, В. Г. Эволюция, нейронные сети, интеллект: Модели и концепции эволюционной кибернетики 3-е изд. / В.Г. Редько. - М.: Ком-Книга, 2005.

24. Редько, В.Г. Самообучающиеся агенты на основе нейросетевых адаптивных критиков / Мосалов О. П., Прохоров Д. В., Редько В. Г. // Искусственный интеллект 2004 - Т. 3 - С. 550-560.

25. Редько, В.Г. Нейросетевые адаптивые критики / В.Г. Редько, Д. В. Прохоров // Научная сессия МИФИ-2004. VI Всероссийская научно-техническая конференция "Нейроинформатика-2004". Сборник научных трудов. Часть 2. М.: МИФИ, 2004. С.77-84.

26. Редько, В. Г. Модели адаптивного поведения естественнонаучный подход к развитию информационных технологий // Информационные технологии и вычислительные системы. 2004. Вып.1. - С. 19-43.

27. Розенблат, Ф. Принципы нейродинамики. Перцептроны и теория механизмов мозга / Ф. Розенблат. М.: Мир, 1965.

28. Тархов, Д. А. Нейронные сети. Модели и алгоритмы. Кн. 18. М.: Радиотехника, 2005. - 256 с.

29. Терехов, В. А. Нейросетевые системы управления : учебное пособие / В. А. Терехов, Д. В. Ефимов, И. Ю. Тюкин. М.: Высшая школа, 2002. - 184 с.

30. Терехов, С. А. Нейродинамическое программирование автономных агентов // Лекция для Школы-семинара «Современные проблемы нейроинформатики». М.: МИФИ, 2004. Часть 2. - С. 111-139.

31. Уоссерман, Ф. Нейрокомпьютерная техника: Теория и практика: Пер. с англ. М.: Мир, 1992. - 240 с.

32. Усков, А. А. Интеллектуальные технологии управления. Искусственные нейронные сети и нечеткая логика / А. А. Усков, А. В. Кузьмин. М.: Горячая линия-Телеком, 2004. - 143 с.

33. Хайкин, С. Нейронные сети: полный курс 2-е издание / С. Хайкин; под ред. Н.Н. Куссуль. - М.: Издательский дом «Вильяме», 2006. - 1104 с.

34. Anderson, С. W. Learning to control an inverted pendulum using neural networks // IEEE Control Systems Magazine. 1989. - N9. - P. 31-37.

35. Anderson, C. W. Restricted Gradient-Descent Algorithm for Value-Function Approximation in Reinforcement Learning / A. da Motta Salles Barreto, C.W. Anderson // Artificial Intelligence. 2008. - N172. - P. 454-482.

36. Barreto, A. Restricted gradient-descent algorithm for value-function approximation in reinforcement learning / A. Barreto, C. W. Anderson // Artificial Intelligence. 2008. - Vol. 172, N4/5. - P. 454-482.

37. Baxter, J. Direct gradient-based reinforcement learning: I. Gradient estimation algorithms, Technical report / J. Baxter, P. Bartlett. Research School of Information Sciences and Engineering, Australian National University, July 1999.

38. Bellman, R. E. Dynamic Programming. Princeton University Press, 1957. -255 p.

39. Bellman, R. E. A Markov decision process // Journal of Mathematical Mechanics. 1957.-N6.-P. 679-684.

40. Bertsekas, D. P. Neuro-Dynamic Programming / D.P. Bertsekas, J.N. Tsitsilclis.- Belmont: MA: Athena Scientific, 1996.

41. Bhatnagara, S. Actor-critic algorithms for hierarchical Markov decision processes / S. Bhatnagara, J. R. Panigrahi // Automatica. 2006. - N42. - P. 637-644.

42. Boone, G. Minimum-time control of the Acrobot // International Conference on Robotics and Automation. Albuquerque, NM: IEEE Robotics and Automation Society, 1997.-Vol. l.-P. 3281-3287.

43. Boone, G. Efficient reinforcement learning: Model-based Acrobot control // International Conference on Robotics and Automation. Albuquerque, NM: IEEE Robotics and Automation Society, 1997. - Vol. l.-P. 229-234.

44. Brown, S. C. Intelligent control for an Acrobot / S. C. Brown, K. M. Passino // Intelligent Robotics Systems. 1997. - N3. - P. 209-248.

45. Chuan-Kai Lin. A reinforcement learning adaptive fuzzy controller for robots // Fuzzy Sets and Systems. 2003. - Vol. 137, N3. - P. 339-352.

46. Coulom, R. Reinforcement Learning Using Neural Networks, with Applications to Motor Control: Unpublished PhD thesis. Institut National Polytechnique de Grenoble, 2002. // http://sciencedirect.com

47. Dayan, P. TD(A.) converges with probability 1 / P. Dayan, T. Sejnowski // Machine Learning. 1994. - N14. - P. 295-301.

48. Duan, Y. Application of reinforcement learning in robot soccer / Yong Duan, Qiang Liu, XinHe Xu // Engineering Applications of Artificial Intelligence. -2007. Vol. 20, N7. - P. 936-950

49. Farrel, J. On the effects of the training sample density in passive learning control / J. Farrel, T. Berger // American Control Conference. 1995. - P. 872876.

50. Girosi, F. Networks and the best approximation property, Technical Report AIM-1164. Massachusetts Institute of Technology, Artificial Intelligence Laboratory and Center for Biological Information Processing Whitaker College, 1989.

51. Jianyu, L. Numerical solution of elliptic partial differential equation using radial basis function neural networks / Li Jianyu, Luo Siwei, Qi Yingjiana, Huang Yapinga // Neural Networks. 2003. - N5/6. - P. 729-734.

52. Jilin, Tu. Continuous reinforcement learning for feedback control systems : Unpublished M.S. Thesis. Department of Computer Science, Colorado State University, Fort Collins, CO, 2001. // http://sciencedirect.com

53. Hafner, R. Reinforcement Learning on an omnidirectional mobile robot / Roland Hafner, Martin Riedmiller // Proceedings of the 2003 IEEE/RSJ International Conference on Intelligent Robots and Systems. 2003. - Vol. 1. -P. 418-423.

54. Hauser, J. Nonlinear controllers for non-integrable systems: The acrobot example / J. Hauser, M. R. Murray // Proceedings of the 1990 American Control Conference. San Diego, CA, 1990. - Vol. 1. - P. 669-671.

55. Hornik, K. M. Approximation capabilities of mulilayer feedforward network // Neural Networks. 1991N4. - P. 251-257.

56. Hornik, K. M. Multilayer feedforward networks are universal approximators / K.M. Hornik, M. Stinchcombe, H. White // Neural Networks. 1989. - Vol. 2. -P. 359-366.

57. Igel, C. Neuroevolution for reinforcement learning using evolution strategies // Congress on Evolutionary Computation. IEEE Press, 2003. - Vol. 4. -P. 2588-2595.

58. Kaelbling, L. P. Reinforcement learning: A survey / Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore. // Journal of Artificial Intelligence Research. 1996. - N4. - P. 237-285.

59. Kohonen, T. Self-organizing maps / T. Kohonen. Berlin Heidelberg: SpringerVerlag, 1995.

60. Kondo, T. A reinforcement learning with evolutionary state recruitment strategy for autonomous mobile robots control / Toshiyuki Kondo, Koji Ito // Robotics and Autonomous Systems. 2004. - Vol. 46, N2.-P. 111-124.

61. McCuIloch, W. S. A logical calculus of ideas immanent in nervous activity / W.S. McCuIloch, W.H. Pitts // Bulletin of Mathematical Biophysics. 1943. -Vol.5.-P. 115-133.

62. Minsky, M. L. Perceptrons / M.L. Minsky, S.A. Papert Cambridge, MA: MIT Press, 1969.

63. Pal, S. Multilayer Perceptron, Fuzzy Sets, and Classification / Sankar K. Pal, Sushmita Mitra // IEEE Transactions on Neural Networks. 1992. - Vol. 3, N 5. -P. 683-696.

64. Peters, J. Reinforcement learning of motor skills with policy gradients / Jan Peters, Stefan Schaal // Neural Networks. 2008. - Vol. 21, N4. - P. 682-697.

65. Rumelhart, D. E. Learning representations of back-propagation errors / D. E. Rumelhart, G. E. Hinton, R. J. Williams // Nature (London). 1986. - Vol. 323. -P. 533-536.

66. Rust, J. Using randomization to break the curse of dimensionality // Econometrica. 1997.-N3.-P. 487-516.

67. Puterman, M. L. Markov Decision Processes: Discrete Stochastic Dynamic Programming. New York: John Wiley & Sons, 1994. - 672 p.

68. Red'ko, V. G. A Model of Evolution and Learning / Red'lco V.G., Mosalov O.P., Prokhorov D.V. // Neural Networks 2005 - Vol. 18, N 5-6 - P. 738-745.

69. Sabes, P. N. Approximating Q-values with basis function representations // 1993 Connectionist Models Summer School. Hillsdale, NJ: Lawrence Erlbaum Assoc. Inc., 1993.

70. Singh, S. P. An upper bound on the loss from approximate optimal-value functions / S. P. Singh, R.C. Yee // Machine Learning. 1994. - N3. - P. 227233.

71. Singh, S. P. Reinforcement learning with replacing eligibility traces / S. P. Singh, R. S. Sutton//Machine Learning. 1996.-N1/3.-P. 123-158.

72. Singh, S. P. Convergence results for single-step on-policy reinforcement-learning algorithms / S. P. Singh, T. Jaakkola, M. L. Littman, C. Szepesvari // Machine Learning. 2000. - N3. - P. 287-308.

73. Spong, M. W. The swing up control problem for the Acrobot // IEEE Control Systems Magazine. 1995. - N15. - P. 49-5 5.

74. Sutton, R. S. Reinforcement learning: An introduction / R. S. Sutton, A. G. Barto. Cambridge: MIT Press, 1998. - 322 p.

75. Sutton, R. S. Policy gradient methods for reinforcement learning with function approximation / R. S. Sutton, D. McAllester, S. Singh, Y. Mansour // Advances in Neural Information Processing Systems, 2000. P. 1057-1063.

76. Sutton, R. S. Generalization in reinforcement learning: Successful examples using sparse coarse coding // Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 1996. - Vol. 8. - P. 1038-1044.

77. Sutton, R. S. Learning to predict by the methods of temporal differences // Machine Learning. 1988. -N3. P. 9-44.

78. Tsitsiklis, J. N. Feature-based methods for large scale dynamic programming / J. N. Tsitsiklis, B. Van Roy // Machine Learning. 1996. - N22. - P. 59-94.

79. Wai-Tat, F. From Recurrent Choice to Skill Learning: A Reinforcement-Learning Model / F. Wai-Tat, J.R. Anderson // Journal of Experimental Psychology: General. 2006. - N2. - P. 184-206.

80. Watkins, C. Learning from Delayed Rewards: Unpublished PhD Thesis. -University of Cambridge, England, 1989. // http://sciencedirect.com

81. Watkins, C. Q-learning / C. Watkins, P.D. Dayan // Machine Learning. 1992. -N8.-P. 279-292.

82. Weaver, S. E. Preventing unlearning during on-line training of feedforward networks / S. E. Weaver, L. C. Baird, M. M. Polycarpou // International Symposium of Intelligent Control, Gaithersburg, 1998. P. 359-364.

83. Whitley, D. Genetic reinforcement learning for neurocontrol problems / D. Whitley, S. Dominic, R. Das, C.W. Anderson // Machine Learning. 1993. -N2/3.-P. 259-284.

84. Zhao, D. Z. GA-based control to swing up an Acrobot with limited torque / D. Z. Zhao, J. Yi // Transactions of the Institute of Measurement and Control. -2006.-N1.-P. 3-13.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00