автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Модели адаптивного поведения на базе эволюционных и нейросетевых методов
Автореферат диссертации по теме "Модели адаптивного поведения на базе эволюционных и нейросетевых методов"
На правах рукопис и
Мосалов Олег Петрович
МОДЕЛИ АДАПТИВНОГО ПОВЕДЕНИЯ НА БАЗЕ ЭВОЛЮЦИОННЫХ И НЕЙРОСЕТЕВЫХ МЕТОДОВ
Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
Москва-2007
003060967
Работа выполнена на кафедре прикладной математики Московского физико-технического института (государственного университета)
Научный руководитель
доктор физико-математических наук, с н с
РЕДЬКО Владимир Георгиевич
Официальные оппоненты доктор физико-математических наук,
с н с
РЯЗАНОВ Владимир Васильевич
кандидат физико-математических наук, ДОЛЕНКО Сергей Анатольевич
Ведущая организация
Институт системного программирования РАН
Защита диссертации состоится «Ябу> 2007 года в на
заседании диссертационного совета К212 156 02 в Московском физико-
техническом институте (государственном университете) по адресу 141700,
Московская область, г Долгопрудный, Институтский пер, д 9, ауд 903 КПМ
С диссертацией можно ознакомиться в библиотеке Московского физико-технического института (государственного университета)
Автореферат разослан «
дз»
2007 года
Ученый секретарь диссертационного совета К212 156 02 к ф -м н
О С Федько
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы
Работа посвящена исследованиям нейросетевых схем управления автономных адаптивных агентов
Работы по моделям адаптивного поведения были начаты в 1950-1970-х годах, в нашей стране их вели M JI Цетлин, M M Бонгард, Д А Поспелов и другие авторы В настоящее время за рубежом такие исследования активно ведутся в рамках направления «Адаптивное поведение». Основной подход этого направления - исследование архитектур, принципов и механизмов функционирования искусственных «организмов», которые могут приспосабливаться к переменной внешней среде Эти организмы называются аниматами (от англ animal + robot = animai) или агентами
Направление «Адаптивное поведение» рассматривается как бионический подход к исследованиям искусственного интеллекта. В нем особое внимание уделяется методам самообучения, обеспечивающим автономное существование аниматов. При этом широко используются современные компьютерные методы вычислительного интеллекта (computational intelligence) искусственные нейронные сети, эволюционное моделирование, метод обучения с подкреплением
В настоящее время активные работы в рамках направления «Адаптивное поведение» ведутся такими зарубежными исследователями, как Ж -А Мейер, Р Пфейфер, С Нолфи, Р Брукс, Дж Эдельман В нашей стране моделирование адаптивного поведения ведут только немногие группы исследователей под руководством В А Непомнящих, А А Жданова, А И Самарина, Л А Станкевича
Одной из перспективных работ в рамках направления исследований «Адаптивное поведение» является проект «Мозг анимата», который ориентирован на формирование иерархической системы управления анимата, отдельными элементами которой могут выступать нейросетевые блоки, в частности нейросетевые адаптивные критики.
Нейросетевые адаптивные критики являются одним методов теории обучения с подкреплением Основанные на них системы управления являются достаточно интеллектуальными и способны обеспечивать автономное адаптивное поведение Их использование возможно как для управления отдельными искусственными организмами, так и в качестве элементов более сложных систем Известно применение нейросетевых адаптивных критиков при решении ряда задач, однако этот метод все еще недостаточно хорошо изучен и требует дополнительных исследований
В последнее время активно исследуются нейроэволюционные методы -рассмотрение популяций взаимодействующих между собой и средой агентов на основе нейронных сетей. При этом используются такие биологически
инспирированные принципы, как наследственность, изменчивость и естественный отбор
Методы теории обучения с подкреплением, в том числе нейросетевые адаптивные критики, и нейроэволюционные методы решают одну и ту же задачу - оптимизацию нейронных сетей - различными способами первые в течение жизни отдельного агента, вторые в процессе эволюции популяции
Одновременное применение этих двух подходов может заметно увеличить адаптивные способности автономных агентов, функционирующих в переменных, плохо определенных средах В этой связи необходимо детально исследовать процессы самообучения в системах управления автономных агентов, проанализировать -волюционные процессы в популяциях таких агентов и одновременное и>- воздействие на адаптивные свойства Такой анализ необходимо провести на практически важных примерах
Настоящая работа посвящена решению этих задач Разрабатываемые и исследованные в диссертации модели могут быть использованы как для описания и понимания механизмов адаптации в живых организмах, так и при разработках искусственных автономных систем
На основании изложенного тема диссертации является актуальной Цель и задачи работы
Целью диссертационной работы является исследование процессов формирования систем управления автономных агентов, способных обеспечить адаптивное поведение в сложной, изменяющейся со временем внешней среде Для достижения поставленной цели было необходимо решить следующие задачи
1 Исследование математических моделей систем управления на базе нейросетевых адаптивных критиков и детальное изучение происходящих в них процессов обучения Анализ адаптивных свойств поведения автономных агентов, которое обеспечивается такими системами управления
2 Построение и исследование математической модели многоагентной системы автономных адаптивных агентов Анализ процессов оптимизации систем управления агентов посредством обучения или эволюционной настройки, а также их одновременного использования Изучение особенностей взаимодействия индивидуального обучения и эволюционной настройки
3 Разработка методик построения классифицирующих систем на основе исследованных методов путем одновременного применения обучения и эволюционной настройки Разработка комплекса программ для реализации этих методик
4 Анализ возможностей применения нейроэволюционных методов на примере задачи классификации типов инсультов
Научная новизна
1 Выяснено, что на основе нейросетевых адаптивных критиков могут быть построены системы управления, обеспечивающие свойства поведения агентов, аналогичные тем, которые наблюдаются у животных, например, инерционность при смене тактик поведения и игнорирование мелких деталей
2. Разработана и исследована математическая модель многоагентной системы, в которой адаптация агентов происходит путем обучения и эволюционной настройки Показано, что совместное применение обучения и эволюционной настройки обеспечивает более эффективную оптимизацию систем управления автономных агентов, нежели обучение или эволюционная настройка в отдельности
3 Продемонстрировано, что при совместном использовании обучения и эволюционной настройки происходит процесс генетической ассимиляции приобретенных навыков, так называемый эффект Болдуина
4 Предложена и исследована нейроэволюционная методика построения классифицирующей нейросетевой системы для случая, когда размер обучающей выборки мал и различные классы представлены в ней неравномерно Показано, что с помощью этой методики может быть построена система классификации типов инсультов, обеспечивающая нулевую ошибку распознавания.
Практическая ценность
1 Разработаны алгоритмы построения нейросетевых систем управления автономных агентов на основании взаимодействия эволюционной настройки и индивидуального обучения
2 Построена нейросетевая классифицирующая система для распознавания типов инсультов.
Методы исследования:
В работе использовались методы математического моделирования, теории искусственных нейронных сетей, эволюционного моделирования, теории обучения с подкреплением На защиту выносятся:
1 Результаты исследований процессов обучения в моделях систем управления агентов на основе нейросетевых адаптивных критиков Результаты исследования адаптивных свойств автономных агентов, сопоставление этих свойств с простыми адаптивными свойствами живых организмов
2 Математическая модель многоагентной системы, в которой адаптация агентов происходит путем эволюционной оптимизации и индивидуального обучения Сопоставительный анализ эффективности трех вариантов настройки систем управления агентов посредством а) обучения,
б) эволюционной настройки, в) одновременного использования обучения и эволюционной настройки
3 Комплекс программ, реализующий методику построения нейроэволюционной классифицирующей системы путем одновременного применения обучения и эволюционной настройки
4 Классифицирующая система распознавания типов инсульта для случая, когда обучающая выборка имеет малый объем и представители различных классов представлены в ней неравномерно
Апробация работы и научные публикации
Основные результаты диссертационной работы были доложены и обсуждены на следующих научных конференциях Artificial Neural Networks Biological Inspirations - ICANN 2005 (Варшава, 2005), International Joint Conference on Neural Networks - IJCNN 2005 (Монреаль, 2005), The Ninth International Conference on the Simulation of Adaptive Behavior (Рим, 2006), V-VIII Всероссийские научно-технические конференции
«Нейроинформатика» (Москва, МИФИ, 2003, 2004, 2005, 2006), Н-й Международный научно-практический семинар «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2003), Международная научно-техническая конференция «Интеллектуальные системы, IEEE AIS'03» (Геленджик, 2003), Всероссийская научная конференция «Методы и средства обработки информации» (Москва, 2003, 2004), XLVI, XLV11 научные конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» (Долгопрудный, МФТИ, 2003, 2004), Международная научно-техническая конференция «Искусственный интеллект Интеллектуальные и многопроцессорные системы» (Кацивели, 2004), Девятая национальная конференция по искусственному интеллекту с международным участием (Тверь, 2004), Казанский городской семинар «Методы моделирования» (Казань, 2004)
Основные результаты диссертации опубликованы в 23 работах, в том числе 2 статьи в рецензируемых журналах из списка изданий, рекомендованных ВАК, 2 статьи в зарубежных научных периодических изданиях, 17 статей в трудах научных конференций (в том числе 4 - в трудах международных конференций), 1 препринт, 1 статья в сборнике Структура и объем диссертации
Диссертация изложена на 110 страницах, состоит из введения, четырех глав, заключения и списка использованных источников, насчитывающего 100 наименований
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность диссертационной работы, сформулированы цель и задачи исследования, охарактеризована научная
новизна полученных результатов и их практическая значимость, указаны методы исследования, указаны положения, выносимые на защиту
В первой главе дается обзор направления исследований «Адаптивное поведение» Модели, рассматриваемые в рамках этого направления, служат для изучения механизмов формирования и развития процессов, обеспечивающих адаптивные свойства живых организмов
Приведена характеристика современных исследований по теории искусственных нейронных сетей, методам эволюционного моделирования, теории обучения с подкреплением, проанализированы схемы нейросетевых адаптивных критиков, охарактеризованы биологически инспирированные модели поисковой оптимизации Описан проект «Мозг анимата», приведена схема иерархической системы управления
Во второй главе приводятся результаты исследования агентов, системы управления которых построены на основе нейросетевых адаптивных критиков
В общей схеме обучения с подкреплением1 рассматривается агент, взаимодействующий с внешней средой (см рис 1) В каждый момент времени t в текущей ситуации S(t) агент выполняет действие а(1), затем получает подкрепление r(t) и попадает в следующую ситуацию S(t+1 ) Подкрепление r{t) может быть как положительным (награда), так и отрицательным (наказание)
S(t)__
Агент
r(M)
r(t)
и -M- Среда
Рис 1 Схема обучения с подкреплением
Цель агента - максимизировать суммарную награду, которую он сможет получить в течение длительного периода времени Подразумевается, что агент может формировать -свою внутреннюю «субъективную» оценку
X
суммарной награды 1/(1) ~ (I + к), ожидаемой после момента времени I,
к= О
и в процессе обучения постоянно совершенствует это умение Здесь у -
1 Sutton R BarloA Rcinfoicement Learning An Introduction // Cambridge MIT Press - 1998 См также http //www cs ualberta caA-sutton/book/ebook/tiie-book html
коэффициент забывания (дисконтный фактор), 0<у< 1, который учитывает, что чем дальше агент «заглядывает» в будущее, тем меньше у него уверенность в оценке награды («рубль сегодня стоит больше, чем рубль завтра») На основании этой оценки агент формирует стратегию поведения
Важной особенностью метода обучения с подкреплением является то, что он реализует обучение без учителя, на основе только наград и наказаний г(1), получаемых из внешней среды
Для случая, когда число возможных ситуаций и действий конечно, существует простой метод обучения SARSA, каждый шаг которого соответствует цепочке S(t) ► а(/) —*► r(t) —*► S(H-t) —;► a(t+\) Этот метод заключается в итеративном формировании величин ожидаемой суммарной награды Q(S(t), a{t)), которую агент получит, если в ситуации S(t) совершит действие a(i) Математическое ожидание суммарной награды равно
Q(S(t),a«)) = Е {r(D + yr(t + 1) + (/ + 2) + )= = E(r(0 + 7£(S(/ + 1),a(/ + 1))) (1)
Вводится величина
S(t)=i(0 + yQ(S{t+\), a{t+\))-Q(S{t\a{t)), (2)
которая называется ошибкой временной разности Она представляет собой разность между оценкой суммарной величины награды Q(S{t), a{t)), которую агент формирует в момент времени 1 и оценкой той же величины в момент времени /+1 Обучение агента производится путем минимизации ошибки временной разности ö(t)
AQ(S((), a(l)) = aS(l) = a(r(l) + yQ(S(t+1 ), a(t+1 )) - Q(S(t), a(t))), (3)
где а - коэффициент скорости обучения агента
В каждый такт времени t для текущей ситуации S(f) происходит выбор действия в соответствии с «е-жадным правилом»
- с вероятностью 1 - s выбирается действие агента, соответствующее максимальному значению Q(S(t), a,) a(t) = ак, к = argmax, Q(S(t), а,),
- с вероятностью s случайным образом выбирается одно из возможных действий агента, 0 < е « 1
Выбрав и совершив действие а(1), агент получает от среды подкрепление r(l) и в соответствии с формулой (3) производится переоценка величин Q(S, а)
В
Нейросетевые адаптивные критики можно рассматривать как ветвь теории обучения с подкреплением для случая, когда число ситуаций, задаваемых средой, и/или число действий, которые может совершить агент, бесконечно В этом случае нейронные сети выступают в роли аппроксимирующих функций, а их обучение сводится к изменению весов синапсов нейронных сетей
Исследовался алгоритм работы одной из возможных схем адаптивных критиков - V-критика, проведен анализ происходящих в нем процессов обучения; проведено исследование эволюционирующей популяции агентов на основе V-критиков
V-критик (рис 2) функционирует следующим образом для текущей ситуации S(0 и каждого из возможных действий а, Модель формирует прогноз будущей ситуации S,pr(/+1), в которую попадет агент, если совершит это действие Критик вычисляет качество каждой из ситуаций K(Sjpr(/+l)) Далее с помощью е-жадного правила выбирается действие a(t) = а* , к = argmax, K(S,pr(0)
S(/) Oj
S (0
Модель
S,pr(/+1)
Критик
8(f)
V(S(t))
ns,prW)
s-жадное правило
a(l)
Рис 2 Схема системы управления агента на основе V-критика
В работе проведен ряд вычислительных экспериментов с моделью агента, решающего задачу поиска стратегии поведения в изменяющейся внешней среде на примере агента-брокера В этом случае внешняя среда задается временным рядом Х(1) - курсом акций
Состояние агента, система управления которого построена на основе V-критика (рис 2), характеризуется одним параметром ¡/(0 - долей суммарного капитала, вложенной в акции Динамика суммарного капитала агента С(<) определяется следующим образом
С(() = С(М){1 + и{1)М{1)/Х{1-\)}[1 - - "С-1 )|], (4)
где J - коэффициент затрат на конвертирование акций и наличных денег, ДДО = Х(1) - Х(1-1) Для удобства в качестве ресурса агента рассматривается
логарифм его суммарного капитала R(t) = ln C(i) Подкрепление в этом случае имеет вид
r(t) = ln C{t) - ln C(/-l)
(5)
В данном случае вектор ситуации имеет вид 8(?) = {ДД/), и(0Ь возможными действиями агента а{1) являются а\ - перевести весь капитал в наличные деньги и(г+1) = О, аг - перевести весь капитал в акции и(Ж) = 1
Блоки Модель и Критик реализованы в виде нейронных сетей с одним скрытым слоем
В данном случае Модель осуществляет прогноз изменения курса акций в момент Ж по значениям изменений курса в предыдущие моменты времени Работа нейронной сети Модели (рис 3) описывается формулами
Xм = {Д *(/-Л/+1 ), , ДЖ/)}, ум, = th(E^„ Л), ) = уи, (6)
м м «
где х - вектор входных значении, у - вектор выходных значении нейронов
скрытого слоя, и Л - веса синапсов нейронной сети и ДА',рг(Ж) -
прогноз изменения курса временного ряда на момент времени Ж,
формируемый на выходе нейронной сети
Модель обучается методом обратного распространения ошибки, те производится минимизация функционала ошибки
Рис 3 Нейронная сеть Модели
Е = 0,5 (ДЛ^Ж) - ДА"(Ж))'
,2
(7)
в соответствии с формулами
= »Л(0 - «М (ДЛ-^Ж) - ДДЖ))/1,, И^„(/+1 ) = - ам (ДЛ""(/+1 ) - ДД/+1 )) Vм, ( 1 - (уМ/)2)
,м
(В)
где ам - параметр скорости обучения Модели
При обучении Модели происходит уточнение прогнозов будущих ситуаций
Работа нейронной сети Критика (рис 4) описывается формулами
Xе = S(/) = {ДЛ(/), «(/)}, ус, = th(I^„ хс,), V(X(l), и(/)) = I**, //, (9)
где хс - вектор входных значений, ус - вектор выходных значений нейронов скрытого слоя, И^,, и - синапсы нейронной сети и V(t) = V(X(t\ u(i)) -значение на выходе сети, которое трактуется как значение качества данной ситуации
Кришк обучается путем минимизации ошибки временной разности ö(t) = r(t) + у V(t) - V{t-\) (10)
в соответствии с формулами
^,(/+1) = ^,(0 + ас<5(0/„
И£„0+1) = 0 + «с ö(t) ^ (1 - (yc,f) хс„ (11)
где ас - параметр скорости обучения Критика
При обучении Критика происходит итеративное уточнение значения качества ситуаций K(S(/)) в соответствии с поступающими подкреплениями
Рассматривались два варианта модельного временного ряда X(t) синусоида.
ДО = 0,5 (1 + sin(27W/20)) (12)
и стохастический временной ряд, задаваемый формулами2
1 Prokhoio\ 1) Pu\korm\ G hehlkamp / Dynamical Neural Networks for Control//In J Kolen and S Kremer
(eds ) A Field Guide to Dynamical Recurrent Networks IEEE Press - 2001 - PP 23-78
ДО = ехр(;;(/у 1200), p{t) - p(t-1) + ДМ) ^ М{0, АО = I) + (13)
где Дг) и р(1) - две нормально распределенных величины с нулевым средним И единичной дисперсией, ¿и = 0,3, к2 = 0,9.
Было проведено сравнение эффективности V-критика и метода 5АК5А (на синусоиде), которое показало, что, используя возможность прогнозирование будущей ситуации, V-критик обеспечивает нахождение более эффективной политики по сравнению с 5А(?5Л. На рис. 5 приведено изменение подкрепления <■(/) в течение одного периода синусоиды. V-критик, прогнозируя начало падения курса, переводит акции в деньги и за счет этого получает большее суммарное подкрепление, чем метод Б АКЙА.
осп отложено время /, по вертикшшной - подкрепление lit)
Была исследована эволюционирующая популяции агентов, система управления которых построена на основе V-критика.
Схема эволюции состоит в следующем. Популяция состоит из Л'А агентов. Каждый агент имеет ресурс /{(I), который изменяется в соответствии с подкреплениями агента: $(/+!) - Л'(/) + r(i), где >■(/) определяется формулами (4) и (5), при этом полагается, что затраты на конвертирования денег и акций ./= 0. Эволюция происходит в течение ряда поколений =- 1,2,..., где Щ -номер поколения). Продолжительность каждого поколения равна Т тактов времени. В начале каждого поколения начальный ресурс каждого агента равен нулю, т.е., R(7\n^ - I) + I) = 0.
Начальные веса синапсов обоих нейронных сетей (Модели и Критика) формируют геном агента G = {\Vv10, Геном G задается р. момент
рождения агента и не меняется в течение его жизни. В противоположность этому текущие веса синапсов нейронных сетей \VM и \V(- подстраиваются в чеченце жизни агента посредством обучения, как описано выше.
В конце каждого поколения определяется агент, имеющий максимальный ресурс Лтах(«8) (лучший агент поколения и8) В начале следующего (и„+1)-го поколения формируется Л'д новых агентов, причем для каждого из этих агентов
где G^Hg) - геном лучшего агента предыдущего и8-го поколения и rand, -7V(0, Р2mut), т е, нормально распределенная случайная величина с нулевым средним и стандартным отклонением .Pmut (интенсивность мутаций)
Таким образом, геном G (начальные веса синапсов, получаемые при рождении) изменяется только посредством эволюции, в то время как текущие веса синапсов W дополнительно к этому подстраиваются посредством обучения При этом в момент рождения агента W = Wo = G
При проведении вычислительных экспериментов рассматривалось два временных ряда X(t), задаваемых выражениями (12), (13)
Были проанализированы три случая оптимизации систем управления агентов
1) случай L - только обучение рассматривается отдельный агент, который обучается путем минимизации ошибки временной разности,
2) случай Е - эволюционная настройка рассматривается эволюционирующая популяция агентов, обучение которых не проводится,
3) случай LE - комбинация обучения и эволюционной настройки
Было проведено сравнение ресурса, приобретаемого агентами для этих трех способов оптимизации Для случаев Е и LE рассматривалась эволюционирующая популяция с длительностью поколения Т =200 и наблюдалась величина максимального значения ресурса в популяции /?max(«g) в конце каждого поколения В случае L рассматривался только один агент, ресурс которого для удобства сравнения со случаями Е и LE обнулялся каждые Т = 200 тактов времени R(T(ng -1) + 1) = 0, а индекс ns увеличивался на единицу
На рис б показаны зависимости Лтах(«8) при моделировании для синусоидального ряда (12) Чтобы исключить уменьшение значения Rm3x(ns) из-за действия е-жадного правила для случаев LE и L, полагалось е = 0 после ng = 100 для случая LE и после wg = 2000 для случая L Размер популяции
G,(«g+1) = Gbest, (пг) + rand, Wo(ng+l) = G(«g+1),
lh
(19)
(20)
WA=10
n s(случай L)
п ^ (случаи LC and Е)
Рис 6 Зависимость Моделирование проведено для синусоиды,
кривые усреднены по 1000 экспериментам, NA = 10, Т= 200
Рис 6 показывает, что одновременное использование обучения и эволюционной настройки (случай LE) и эволюционная настройка отдельно (случай Е) дают одно и то же значение конечного ресурса йтах(500) = 6,5 Однако эволюционная настройка и обучение совместно обеспечивают нахождение больших значений Rmax быстрее, чем эволюционная настройка без обучения - существует взаимовыгодное взаимодействие между обучением и эволюцией
Из (4) следует (учитывая, что J= 0), что существует оптимальная стратегия поведения агента вкладывать весь капитал в акции (u(t+1) = 1) при ожидании роста курса (Д Y(/+1) > 0), вкладывать весь капитал в деньги («(/+1) = 0) при ожидании падения курса (AA*V+1) < 0)
Анализ экспериментов показывает, что в случаях LE и Е такая оптимальная стратегия находится Это соответствует асимптотическому значению ресурса /?та<(500) = 6,5
В случае L асимптотическое значение ресурса (Ятах(2500) = 5,4) существенно меньше Анализ экспериментов для этого случая показывает, что одно обучение обеспечивает нахождение только следующей «субоптимальной» стратегии поведения агент держит капитал в акциях при росте и при слабом падении курса и переводит капитал в деньги при сильном падении курса
Таким образом, результаты, представленные на рис 6, показывают, что хотя обучение в настоящей модели и несовершенно, оно способствует более быстрому нахождению оптимальной стратегии поведения по сравнению со случаем только эволюционной оптимизации
При достаточной большой длительности поколения (7'~ 1000) в случае ЬЕ наблюдалось явное влияние обучения на эволюционный процесс происходила генетическая ассимиляция приобретенных навыков В первых поколениях эволюционного процесса существенный рост ресурса агентов наблюдался не с самого начала поколения, а спустя 200-300 тактов, т е агенты явно обучались в течение своей жизни находить более или менее приемлемую стратегию поведения, и только после смены ряда поколений рост ресурса происходил с самого начала поколения (рис 7) Это можно интерпретировать как проявление известного эффекта Болдуина- исходно приобретаемый навык в течение ряда поколений становился наследуемым
г
Рис 7 Зависимость ресурса лучшего в поколении агента от времени
Известно, что при поисковом поведении у ряда животных происходит инерционное переключение между тактиками поведения Например, при исследовании поведения самцов тутового шелкопряда в струе феромона самки, было показано, что поиск источника запаха включает в себя две чередующиеся «инерционные» тактики Инерционность в переключении между тактиками поведения, позволяет адаптироваться животным к наиболее общим закономерностям во внешней среде Подобное инерционное поведение между тактиками было обнаружено в проведенных компьютерных экспериментах, когда оптимизация нейронных сетей производилась путем эволюционной настройки без обучения при достаточно большой численности популяции Таким образом, фактически происходила оптимизация методом случайного поиска в достаточно большой области возможных решений
-0 2 4— SOO
750 Г
-4 1 7 1000
Рис 8 Стратегия поведения лучшего агента в популяции Действия агента характеризуются величиной a(t) (сплошная линия) Временной ряд X{t) показан пунктирной линией
На рис 8 представлен фрагмент стратегии поведения агента, найденной на ранней стадии эволюции в большой популяции Стратегия переключения между и = 0 и и = 1 представляет собой реакцию только на общие изменения в окружающей среде (агент игнорирует мелкие флуктуации в изменении курса акций) Кроме того, переключение явно обладает свойством инерционности
В третьей главе решается задача построения классифицирующей системы распознавания типов инсультов на основе нейросетевых и эволюционных методов
В настоящее время инсульт является одной из центральных проблем российской медицины Выделяют три типа инсульта ишемический (ИИ), геморрагический (ГИ) и субарахноидальнсе кровоизлияние (САК), причем врачебные действия в каждом случае должны быть различными На практике доля врачебных ошибок при определении типа инсульта составляет даже у опытных врачей 20-45%
Рассматривается 298 клинических случаев инсульта (наблюдений), из них 211 наблюдений ишемического инсульта (первый тип), 73 наблюдения геморрагического инсульта (второй тип), 14 наблюдений субарахноидального кровоизлияния (третий тип)
Изначально каждое наблюдение задавалось значениями 239 признаков, из которых были отобраны 30 наиболее существенных
В качестве классифицирующей системы была выбрана следующая трехслойная нейронная сеть 30 входов, 12 нейронов в первом скрытом слое, 14 нейронов во втором скрытом слое, 3 нейрона в выходном слое
Актииационная функция для всех нейронов - гиперболический тангенс. Каждому типу инсульта соответствует свой выходной нейрон.
Классифицирующая система формировалась иейроэволюционным методом. При этом учитывались следующие особенности задачи диагностики тлпов инсультов: во-первых, имеющийся набор наблюдений принципиально ограничен (всего 298 наблюдений), во-иторых, различные типы инсультов представлены в наборе наблюдений неравномерно (211 наблюдений первого типа, 73 - второго и 14 - третьего), С учетом этих особенностей был применен следующий метод формирования обучающих и тестовых выборок. Из имеющегося набора 298 наблюдений были сформированы 10 пар «обучающая выборка - тестовая выборка», но 268 наблюдений в обучающей, по 30 - в тестовой.
Общая схема формирования классифицирующей системы состоит в следующем. Имеется популяция агентов, каждый из которых характеризуется своей нейронной сстыо указанной выше структуры. Е течение каждого поколения каждый агент проходит этап обучения и этап тестирования па каждой из построенных пар «обучающая выборка - тестовая выборка». Этап обучения состоит а том, что нейронная сеть агента обучается на соответствующей обучающей выборке методом обратного распространения ошибки, а на этапе тестирования проверяется на соответствующей тестовой выборке, в результате чего подсчнтывается ошибка классификации для всех пар. Эта ошибка равна доле наблюдений из тестовой выборки, тип которых нейронная сеть определила неправильно.
Таким образом, качество каждого агента в течение поколения характеризуется суммарной ошибкой классификации. В копне каждого поколения происходит отбор лучшего агента, т. с. агента с минимальной ошибкой классификации, который порождает следующее поколение агентов.
Рис. 9. Зависимость суммарной ошибки классификации от номера поколения. Верхняя кривая - средняя по популяции, нижняя - для лучшего агента
На рис 9 представлена зависимость суммарной ошибки классификации от номера поколения для лучшего агента и средняя по популяции Видно, что к 20-му поколению ошибка уменьшается до 3% При этом ошибка лучшего агента составляет 1 %
Важно понимать, какие именно из трех типов инсультов плохо распознаются системой В табл 1 содержатся суммарные ошибки неверного распознавания различных типов инсультов на обучающих и тестовых выборках Представленные данные показывают, что, несмотря на малое число наблюдений, третий тип инсультов выделяется успешно. В то же время наблюдения по первому и второму типу недостаточно разделены Следует отметить, что в медицинской практике основной врачебной ошибкой является как раз принятие некоторых случаев первого типа инсульта за второй или наоборот
Табл 1 Суммарные ошибки неверного распознавания различных типов
инсультов
Распознанный/ реальный тип 1 поколение 10 поколение 20 поколение
ИИ/ГИ 7,19% 1,39% 1,06 %
ИИ/САК 0,38 % 0,04 % 0,002 %
ГИ/ИИ 10,41 % 1,95% 1,33 %
ГИ/САК 4,08 % 0,21 % 0,24 %
САК/ИИ 4,27 % 0,05 % 0,05 %
САК/ГИ 13,18% 0,24 % 0,33 %
Для более детального анализа процесса распознавания была разработана специальная компьютерная программа для визуализации данных на основе метода топологически корректного картирования по Кохонену Результаты вычислительных экспериментов, показали, что при картировании на плоскость первоначальные 30-мерные вектора не разделяются В то же время, 3-мерные вектора, получаемые на выходе классифицирующей системы, были успешно разделены Этот результат демонстрирует принципиальную возможность достижения нулевой ошибки распознавания Поэтому были исследованы различные режимы построения классифицирующей системы, которые могли бы привести к уменьшению ошибки
После анализа результатов вычислительных экспериментов в схему формирования классифицирующей системы были внесены следующие модификации 1) ошибка классификации на тестовых выборках считалась только по двум первым классам и 2) каждые 5 поколений коэффициент обучения нейронной сети агента уменьшался в два раза В результате этого
был найдей агент, нейроййай сеть которого обеспечивает нулевую ошибку распознавания типа инсульта. На рис. 10 показана зависимость ошибки классификации лучшего по популяции агента от номера поколения в модифицированной схеме формирования классифицирующей системы.
поколения
В четвертой главе построена и исследована модель поискового поведения аннмата, решающего задачу поиска оптимума многоэкстрсмалыюН функции двух переменных/(л\у).
Одним из актуальных направлений исследований в рамках анимат-подхода является имитация поискового поведения животных. Для многих организмов характерно инерционное переключение между тактиками. Например, при исследовании механизмов ориентации самцов тутового шелкопряда в струе феромона самки, было показано, что поиск Источника запаха включает в себя две чередующиеся «инерционные» тактики: а) устойчивое движение в выбранном направлении, б) устойчивое повторение поворотов, приводящее к выбору нового направления движения.
Инерционность в переключении между тактиками поведения, позволяющая использовать наиболее общие закономерности в изменениях ситуаций, должна быть полезна и для искусственных автономных адаптивных систем.
Для анализа адаптивного поиска глобального максимума функции АХ<У) с инерционным переключением между тактиками была разработана модель поискового поведения, которая явно включает в себя такой механизм переключения: в каждый момент времени анимат выбирает одну из двух тактик: я, - двигаться в выбранном направлении либо вг — изменить направление движения случайным образом. Переход от одной тактики к другой моделируется с помощью определенного автомата (аналогичного автомату с линейной тактикой М.Л. Цетлииа).
Анимат получает положительное/отрицательное подкрепление, если в результате его движения значение максимизируемой функции увеличивается/уменьшается
Схема рассматриваемого автомата показана на рис 10 Переходы при положительном подкреплении показаны сплошными стрелками, при отрицательном - пунктирными ] - номер состояния автомата, у = -и, . , -2, -1, 1,2, ,п, где п - глубина памяти автомата
Положительные состояния автомата (/ > 0) соответствуют первой тактике поведения - движению в выбранном направлении, отрицательные состояния (/ < 0) соответствуют второй тактике - случайным поворотам на месте
73-2-1 I 2 3
Рис 10 Схема используемого автомата, ] - номер состояния автомата, п = 3
Если выбранное направление движения анимата в течение некоторого времени правильное, т е ЛД*^) > 0, и автомат поощряется, то происходит переход из 1-го состояния во 2-ое и так далее, до я-го После того, как движение в данном направлении приводит к неудаче, (\](хъу) < 0, автомат совершает обратный процесс из л-го состояния в (и-1)-ое и тд, причем все это время продолжается движение в ранее выбранном направлении После достижения (-1)-го состояния анимат совершает случайные повороты Если поворот неудачный, то номер состояния продолжает уменьшаться В итоге, анимат сделает некоторое число поворотов, прежде чем найдет нужное направление в (-1)-ом состоянии и вновь перейдет к движению в новом выбранном направлении
Вычислительные эксперименты с моделью показали, что движение анимата распадается на кратковременные перемещения в определенном направлении и долгие блуждания в окрестностях локальных максимумов оптимизируемой функции Лх,у) Рис 11 иллюстрирует, что перемещение анимата состоит из долгих блужданий в окрестностях локальных максимумов (с координатами (0,55,0,45) и (0,88,0,45)) оптимизируемой функции Лх,у) и кратковременных перемещений между максимумами Введенное в модель свойство инерционности позволяет анимату выходить из локальных экстремумов и проводить поиск в значительной области пространства.
Рис. 11. Пример поискового поведения анимага. Исходное положение аницата—точка с координатами (0.5,0,5),
В целом движение анимата в разработанной модели качественно соответствует поисковому поведению животных, обладая свойством чередования двух тактик - периодов движения в выбранном направлении и серий случайных поворотов.
В заключении изложены основные результаты диссертации.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ
1. Предложен^ v. исследованы новые модели систем управления автономных агентов на основе нейросетевых адаптивных критикой» Проведен анализ процессов обучения в этих моделях. Показано, что подобные системы управления способны обеспечить адаптивное поведение автономных агентов, ii поведении таких агентов обнаружены нетривиальные свойства, аналогичные свойствам поведения живых организмов, такие как инерционность при смене стратегам поведения, игнорирование мелких деталей и т.п.
2. Исследована математическая модель многоагентной системы, в которой адаптация агентов происходит путем индивидуального обучения и эволюционной оптимизации. Показано, что совместное применение обучения и эволюции более эффективно в поиске оптимальной стратегии поведения, чем эволюция или обучение по отдельности. Обнаружено, что при таком взаимодействии обучения и эволюции имеет место генетическая ассимиляция приобретенных признаков, i .e. эффект Болдуина.
3. Разработан комплекс программ, реализующий методику построения классифицирующей системы на основании исследованных методов путем одновременного применения обучения и эволюционной настройки.
4. Построена классифицирующая система распознавания типов инсультов для случая Малого объема обучающей выборки и неравномерного распределения представителей различных типов в ней.
Список работ, опубликованных автором по теме диссертации:
1 Redsko VG, Mosalov OP, Prokhorov DV A Model of Evolution and Learning // Neural Networks - 2005 - Vol 18, N 5-6 - P. 738-745.
2 Мосалов О П, Прохоров Д В, Редько В Г Самообучающиеся агенты на основе нейросетевых адаптивных критиков // Искусственный интеллект -2004-Т 3-С 550-560
3 Mosalov OP, Prokhorov DV, Red ko VG Influence of neural network structure on cooperation of learning and evolution // Optical Memory and Neural Networks - 2006 - Vol 15.N4-P 180-184
4 Mosalov OP, Rebtova О Yu, Red'ко VG Neuroevolutionary methods of stroke diagnosis // Optical memory and Neural networks - 2007 - Vol 16, N 2 -P 81-90
5 Red'ko VG, Mosalov OP, Prokhorov DV Investigation of Evolving Populations of Adaptive Agents // Artificial Neural Networks Biological Inspirations - ICANN 2005, 15th International Conference, Warsaw, Poland, September 11-15, Proceedings, Part I - 2005 - P 337-342
6 Red'ko VG, Mosalov OP, Ptokhoiov DV A model of Baldwin effect in populations of self-learning agents // International Joint Conference on Neural Networks, IJCNN 2005, Proceedings, Montreal, Canada-2005 - P 1355-1360
7 Red'ko VG, Anokhm KV, Burisev MS, Manolov A I, Mosalov OP, Nepomnyashchikh VA , Piokhotov D V Project «Animat Brain» Designing the Animat Control System on the Basis of fhe Functional Systems Theory // The Ninth International Conference on the Simulation of Adaptive Behavior (SAB'06), CNR, Roma, Italy, Third Workshop on Anticipatory Behavior m Adaptive Learning Systems (ABiALS 2006), Proceedings - 2006, RR 0037164265
8 Мосалов О П, Прохоров Д В, Редько В Г Самообучающиеся агенты на основе нейросетевых адаптивных критиков // Материалы международной научно-технической конференции «Искусственный интеллект Интеллектуальные и многопроцессорные системы» - Таганрог Изд-во ТРТУ - 2004 -Т I -С 413-417
9 Мосалов О П, Бурцев М С, Мишин Н А, Редько В Г Модель многоагентной Интернет-системы, предназначенной для предсказания временных рядов // V Всероссийская научно-техническая конференция «Нейроинформатика-2003» Сборник научных трудов - М МИФИ - 2003 -Т 1 -С 177-183
10 Мосалов ОП, Редько В Г, Непомнящих В А Модель поискового поведения анимата // Препринт Института прикладной математики им М В Келдыша РАН- 2003 -N 19- 13 с
11 Мосалов ОП, Редько В Г, Бурцев МС, Митин НА Модель эволюционирующей многоагентной Интернет-системы // Интегрированные модели и мягкие вычисления в искусственном интеллекте Сборник трудов
II-го Международного научно-практического семинара - М Физматлит -2003-С 217-221
12. Мосалов О П, Непомнящих В А, Редько В Г Модель поискового поведения, основанная на биологических аналогиях // Интегрированные модели и мягкие вычисления в искусственном интеллекте Сборник трудов 11-го Международного научно-практического семинара - М Физматлит -2003-С 222-227
13 Мосалов ОП, Редько В Г Модель многоагентной Интернет-системы // Сб трудов Международной научно-технической конференции «Интеллектуальные системы, IEEE AIS'03» - М Физматлит - 2003 - Т 1 -С 434-436
14 Редько В Г, Мосалов ОП, Мишин НА, Бурцев МС Многоагентные Интернет-системы - исследование процессов обучения и самоорганизации // Сб трудов Первой Всероссийской научной конференции «Методы и средства обработки информации» - М МГУ - 2003 - С 280-285
15 Редько В Г, Сохова 3 Б, Мосалов О П, Нагоев 3 В Естественная модель искусственной жизни // Труды XLVI научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» Часть I Радиотехника и кибернетика - Москва - Долгопрудный МФТИ - 2003 - Т 1 -С 31-33
16 Мосалов О П, Прохоров Д В, Редько В Г Модели принятия решений на основе нейросетевых адаптивных критиков // Девятая национальная конференция по искусственному интеллекту с международным участием Труды конференции - М Физматлит - 2004 - Т 3 - С 1156-1163
17 Мосалов ОП, Редько В Г, Прохоров Д В Модель агента-брокера на основе нейросетевых адаптивных критиков // Сб. трудов Международной научно-технической конференции «Интеллектуальные системы, IEEE AIS'03»-М Физматлит - 2004 - Т 1, С 395-399
18 Попов ЕЕ, Редько В Г, Мосалов ОП, Непомнящих В 4 Модель поискового поведения анимата на основе простой схемы переключения тактик поисковой активности // Труды XLVII научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук», Часть 1, Радиотехника и кибернетика - М МФТИ - 2004 - С 77-78
19 Мосалов ОП Модель эволюции системы агентов-брокеров // VI Всероссийская научно-техническая конференция «Нейроинформатика-2004» -М. МИФИ-2004-Т 2-С 138-144.
20 Редько В Г, Мосалов ОП Простые системы управления на основе нейросетевых адаптивных критиков // Эволюционное моделирование (под ред В А Райхлина) Труды Казанского городского семинара «Методы моделирования», Вып 2 - Казань Издательство «Фен» («Наука») - 2004 -С 92-111
21 Мосалов ОП, Прохоров ДВ, Редько В Г Модель взаимодействия обучения и эволюции в многоагентных системах // Методы средства обработки информации Труды Второй Всероссийской научной конференции -М МГУ - 2005 - С 107-112
22 Мосалов О П, Редько В Г Модель эволюционной ассимиляции приобретенных навыков в нейросетевых системах управления адаптивных агентов // VII Всероссийская научно-техническая конференция «Нейроинформатика-2005» - М МИФИ - 2005 - С 210-217
23 Мосалов О П, Прохоров Д В, Редько В Г Сравнение эволюции и обучения как методов адаптации агентов // VIII Всероссийская научно-техническая конференция «Нейроинформатика-2006» - М МИФИ - 2006 -С 201-208
В работах, выполненных в соавторе! ве, личный вклад автора состоит в следующем предложены и исследованы модели систем управления автономных агентов на основе нейросетевых адаптивных критиков, исследована модель многоагентной системы, в которой адаптация агентов происходит путем как обучения, так и эволюции, разработана и реализована методика построения классифицирующей системы на основе взаимодействия обучения и эволюции
Мосалов Олег Петрович
Модели адаптивного поведения на базе эволюционных и нейросетевых методов
Автореферат
Подписано в печать 12 04 2007 Формат 60x84 1/16 Печать офсетная Уел печ л 1,0 Уч-изд л 1,0 Тираж 80 экз Заказ № ф-245
Государственное образовательное учреждение высшего профессионального образования
Московский физико-технический институт (государственный университет) Отдел автоматизированных издательских систем «ФИЗТЕХ-ПОЛИГРАФ» 141700, Московскаяобл , г Долгопрудный, Институтский пер,9
Оглавление автор диссертации — кандидата физико-математических наук Мосалов, Олег Петрович
Введение.
Глава 1. Модели адаптивного поведения.
1.1. Обзор направления исследований «Адаптивное поведение».
1.2. Метод обучения с подкреплением. Метод SARSA.
1.3. Искусственные нейронные сети. Метод обратного распространения ошибки.
1.4. Основные нейросетевые парадигмы.
1.5. Эволюционное моделирование.
1.6. Нейроэволюционный подход.
1.7. Модели адаптивных автоматов M.JI. Цетлина.
1.8. Проект «Животное» М.М. Бонгарда.
1.9. Модели на основе теории функциональных систем.
Глава 2. Исследование моделей нейросетевых адаптивных критиков.
2.1. Нейросетевые адаптивные критики.
2.2. Процессы обучения в адаптивных критиках.
2.2.1. Агент на основе Q-критика.
2.2.2. Агент на основе V-критика.
2.2.3. Сравнение процессов обучения для метода SARSA и V-критика.
2.3. Взаимодействие между обучением и эволюцией.
2.3.1. Сравнение различных режимов настройки нейронных сетей.
2.3.2. Эффект Болдуина.
2.3.3. Специфика работы блока Модель в схеме V-критика.
2.4. Сопоставление с поведением живых организмов.
2.5. Выводы по главе 2.
Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Мосалов, Олег Петрович
Актуальность работы
Работа посвящена исследованиям нейросегевых схем управления автономных адаптивных агентов.
Работы по моделям адаптивного поведения были начаты в 1950-1970-х годах, в нашей стране их вели M.JI. Цетлин, М.М. Бонгард, Д.А. Поспелов и другие авторы. В настоящее время за рубежом такие исследования активно ведутся в рамках направления «Адаптивное поведение». Основной подход этого направления - исследование архитектур, принципов и механизмов функционирования искусственных «организмов», которые могут приспосабливаться к переменной внешней среде. Эти организмы называются аниматами (от англ. animal + robot = animat) или агентами.
Направление «Адаптивное поведение» рассматривается как бионический подход к исследованиям искусственного интеллекта. В нем особое внимание уделяется методам самообучения, обеспечивающим автономное существование аниматов. При этом широко используются современные компьютерные методы вычислительного интеллекта (computational intelligence): искусственные нейронные сети, эволюционное моделирование, метод обучения с подкреплением.
В настоящее время активные работы в рамках направления «Адаптивное поведение» ведутся такими зарубежными исследователями, как Ж.-А. Мейер, Р. Пфейфер, С. Нолфи, Р. Брукс, Дж. Эдельман. В нашей стране моделирование адаптивного поведения ведут только немногие группы исследователей под руководством В.А. Непомнящих, А.А. Жданова, А.И. Самарина, JI.A. Станкевича.
Одной из перспективных работ в рамках направления исследований «Адаптивное поведение» является проект «Мозг анимата», который ориентирован на формирование иерархической системы управления анимата, отдельными элементами которой могут выступать нейросетевые блоки, в частности нейросетевые адаптивные критики.
Нейросетевые адаптивные критики являются одним методов теории обучения с подкреплением. Основанные на них системы управления являются достаточно интеллектуальными и способны обеспечивать автономное адаптивное поведение. Их использование возможно как для управления отдельными искусственными организмами, так и в качестве элементов более сложных систем. Известно применение нейросетевых адаптивных критиков при решении ряда задач, однако этот метод все еще недостаточно хорошо изучен и требует дополнительных исследований.
В последнее время активно исследуются нейроэволюционные .методы -рассмотрение популяций взаимодействующих между собой и средой агентов на основе нейронных сетей. При этом используются такие биологически инспирированные принципы, как наследственность, изменчивость и естественный отбор.
Методы теории обучения с подкреплением, в том числе нейросетевые адаптивные критики, и нейроэволюционные методы решают одну и ту же задачу - оптимизацию нейронных сетей - различными способами: первые в течение жизни отдельного агента, вторые в процессе эволюции популяции.
Одновременное применение этих двух подходов может заметно увели чип, адаптивные способности автономных агентов, функционирующих в переменных, плохо определенных средах. В этой связи необходимо детально исследовать процессы самообучения в системах управления автономных агентов, проанализировать эволюционные процессы в популяциях таких агентов и одновременное их воздействие на адаптивные свойства. Такой анализ необходимо провести на практически важных примерах.
Настоящая работа посвящена решению этих задач. Разрабатываемые и исследованные в диссертации модели могут быть использованы как для описания и понимания механизмов адаптации в живых организмах, так и при разработках искусственных автономных систем.
На основании изложенного тема диссертации является актуальной. Цель и задачи работы
Целью диссертационной работы является исследование процессов формирования систем управления автономных агентов, способных обеспечить адаптивное поведение в сложной, изменяющейся со временем внешней среде. Для достижения поставленной цели было необходимо решить следующие задачи:
1. Исследование математических моделей систем управления на базе нейросетевых адаптивных критиков и детальное изучение происходящих в них процессов обучения. Анализ адаптивных свойств поведения автономных агентов, которое обеспечивается такими системами управления.
2. Построение и исследование математической модели многоагентной системы автономных адаптивных агентов. Анализ процессов оптимизации систем управления агентов посредством обучения или эволюционной настройки, а также их одновременного использования. Изучение особенностей взаимодействия индивидуального обучения и эволюционной настройки.
3. Разработка методик построения классифицирующих систем на основе исследованных методов путем одновременного применения обучения и эволюционной настройки. Разработка комплекса программ для реализации этих методик.
4. Анализ возможностей применения нейроэволюционных методов на примере задачи классификации типов инсультов.
Научная новизна
1. Выяснено, что на основе нейросетевых адаптивных критиков могут быть построены системы управления, обеспечивающие свойства поведения агентов, аналогичные тем, которые наблюдаются у животных, например, инерционность при смене тактик поведения и игнорирование мелких деталей.
2. Разработана и исследована математическая модель многоагентной системы, в которой адаптация агентов происходит путем обучения и эволюционной настройки. Показано, что совместное применение обучения и эволюционной настройки обеспечивает более эффективную оптимизацию систем управления автономных агентов, нежели обучение или эволюционная настройка в отдельности.
3. Продемонстрировано, что при совместном использовании обучения и эволюционной настройки происходит процесс генетической ассимиляции приобретенных навыков, так называемый эффект Болдуина.
4. Предложена и исследована нейроэволюционная методика построения классифицирующей нейросетевой системы для случая, когда размер обучающей выборки мал и различные классы представлены в ней неравномерно. Показано, что с помощью этой методики может быть построена система классификации типов инсультов, обеспечивающая нулевую ошибку распознавания.
Практическая ценность
1. Разработаны алгоритмы построения нейросетевых систем управления автономных агентов на основании взаимодействия эволюционной настройки и индивидуального обучения.
2. Построена нейросетевая классифицирующая система для распознавания типов инсультов.
Методы исследования:
В работе использовались методы математического моделирования, теории искусственных нейронных сетей, эволюционного моделирования, теории обучения с подкреплением.
На защиту выносятся:
1. Результаты исследований процессов обучения в моделях систем управления агентов на основе нейросетевых адаптивных критиков. Результаты исследования адаптивных свойств автономных агентов, сопоставление этих свойств с простыми адаптивными свойствами живых организмов.
2. Математическая модель многоагентной системы, в которой адаптация агентов происходит путем эволюционной оптимизации и индивидуального обучения. Сопоставительный анализ эффективности трех вариантов настройки систем управления агентов посредством а) обучения, б) эволюционной настройки, в) одновременного использования обучения и эволюционной настройки.
3. Комплекс программ, реализующий методику построения нейроэволюционной классифицирующей системы путем одновременного применения обучения и эволюционной настройки.
4. Классифицирующая система распознавания типов инсульта для случая, когда обучающая выборка имеет малый объем и представители различных классов представлены в ней неравномерно.
Апробация работы и научные публикации
Основные результаты диссертационной работы были доложены и обсуждены на следующих научных конференциях: Artificial Neural Networks: Biological Inspirations - ICANN 2005 (Варшава, 2005), International Joint Conference on Neural Networks - IJCNN 2005 (Монреаль, 2005), The Ninth International Conference on the Simulation of Adaptive Behavior (Рим, 2006), V-VIII Всероссийские научно-технические конференции
Нейроинформатика» (Москва, МИФИ, 2003, 2004, 2005, 2006), II-й Международный научно-практический семинар «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2003), Международная научно-техническая конференция «Интеллектуальные системы, IEEE AIS'03» (Геленджик, 2003), Всероссийская научная конференция «Методы и средства обработки информации» (Москва, 2003, 2004), XLVI, XLVII научные конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» (Долгопрудный, МФТИ, 2003, 2004), Международная научно-техническая конференция «Искусственный интеллект. Интеллектуальные и многопроцессорные системы» (Кацивели, 2004), Девятая национальная конференция по искусственному интеллекту с международным участием (Тверь, 2004), Казанский городской семинар «Методы моделирования» (Казань, 2004).
Основные результаты диссертации опубликованы в 23 работах, в том числе 2 статьи в рецензируемых журналах из списка изданий, рекомендованных ВАК, 2 статьи в зарубежных научных периодических изданиях, 17 статей в трудах научных конференций (в том числе 4 - в трудах международных конференций), 1 препринт, 1 статья в сборнике:
1. Red'ko V.G., Mosalov О.Р., Prokhorov D.V. A Model of Evolution and Learning // Neural Networks - 2005 - Vol. 18, N 5-6 - P. 738-745.
2. Мосалов О.П., Прохоров Д.В., Редько В.Г. Самообучающиеся агенты на основе нейросетевых адаптивных критиков // Искусственный интеллект -2004-Т. 3-С. 550-560.
3. Mosalov О.P., Prokhorov D.V., Red'ko V.G. Influence of neural network structure on cooperation of learning and evolution // Optical Memory and Neural Networks - 2006 - Vol. 15, N 4 - P. 180-184.
4. Mosalov O.P., Rebrova O.Yu., Red'ko V.G. Neuroevolutionary methods of stroke diagnosis // Optical memory and Neural networks - 2007 - Vol. 16, N 2 P. 81-90.
5. Red'ko V.G., Mosalov O.P., Prokhorov D.V. Investigation of Evolving Populations of Adaptive Agents // Artificial Neural Networks: Biological Inspirations - ICANN 2005, 15th International Conference, Warsaw, Poland, September 11-15, Proceedings, Part I - 2005 - P. 337-342.
6. Red'ko V.G., Mosalov O.P., Prokhorov D.V. A model of Baldwin effect in populations of self-learning agents // International Joint Conference on Neural Networks, IJCNN 2005, Proceedings, Montreal, Canada - 2005 - P. 1355-1360.
7. Red'ko V.G., Anokhin K.V., Burtsev M.S., Manolov A.I., Mosalov O.P., Nepomnyashchikh V.A., Prokhorov D.V. Project «Animat Brain»: Designing the Animat Control System on the Basis of the Functional Systems Theory // The
Ninth International Conference on the Simulation of Adaptive Behavior (SAB'06), CNR, Roma, Italy, Third Workshop on Anticipatory Behavior in Adaptive Learning Systems (ABiALS 2006), Proceedings - 2006, RR 0037164265.
8. Мосалов О.П., Прохоров Д.В., Редько В.Г. Самообучающиеся агенты на основе нейросетевых адаптивных критиков // Материалы международной научно-технической конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы». - Таганрог: Изд-во ТРТУ -2004-Т. 1 - С. 413-417.
9. Мосалов О.П., Бурцев М.С., Митин Н.А., Редько В.Г. Модель многоагентной Интернет-системы, предназначенной для предсказания временных рядов // V Всероссийская научно-техническая конференция «Нейроинформатика-2003». Сборник научных трудов. - М.: МИФИ - 2003 -Т. 1-С. 177-183.
10. Мосалов О.П., Редько В.Г., Непомнящих В.А. Модель поискового поведения анимата // Препринт Института прикладной математики им. М.В. Келдыша РАН - 2003 - N 19 - 13 с.
11. Мосалов О.П., Редько В.Г., Бурцев М.С., Митин И.А. Модель эволюционирующей многоагентной Интернет-системы // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник трудов Н-го Международного научно-практического семинара - М.: Физматлит 2003-С. 217-221.
12. Мосалов О.П., Непомнящих В.А., Редько В.Г. Модель поискового поведения, основанная на биологических аналогиях // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник трудов Н-го Международного научно-практического семинара - М.: Физматлит -2003 - С. 222-227.
13. Мосалов О.П., Редько В.Г. Модель многоагентной Интернет-системы // Сб. трудов Международной научно-технической конференции «Интеллектуальные системы, IEEE AIS'03» - М.: Физматлит - 2003 - Т. 1 -С. 434-436.
14. Редько В.Г., Мосалов О.П., Митин Н.А., Бурцев М.С. Многоагентные Интернет-системы - исследование процессов обучения и самоорганизации // Сб. трудов Первой Всероссийской научной конференции «Методы и средства обработки информации» - М.: МГУ - 2003 - С. 280-285.
15. Редько В.Г., Сохова З.Б., Мосалов О.П., Нагоев З.В. Естественная модель искусственной жизни // Труды XLVI научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук». Часть I. Радиотехника и кибернетика - Москва - Долгопрудный: МФТИ - 2003 Т. 1 -С. 31-33.
16. Мосалов О.П., Прохоров Д.В., Редько В.Г. Модели принятия решений на основе нейросетевых адаптивных критиков // Девятая национальная конференция по искусственному интеллекту с международным участием. Труды конференции - М.: Физматлит - 2004 - Т. 3 - С. 1156-1163.
17. Мосалов О.П., Редъко В.Г., Прохоров Д.В. Модель агента-брокера на основе нейросетевых адаптивных критиков // Сб. трудов Международной научно-технической конференции «Интеллектуальные системы, ШИН AIS'03»-М.: Физматлит-2004-Т. 1 - С. 395-399.
18. Попов Е.Е., Редъко В.Г., Мосалов О.П., Непомнящих В.А. Модель поискового поведения анимата на основе простой схемы переключения тактик поисковой активности // Труды XLVII научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук», Часть I, Радиотехника и кибернетика - М.: МФТИ - 2004 - С. 77-78.
19. Мосалов О.П. Модель эволюции системы агентов-брокеров // VI Всероссийская научно-техническая конференция «Нейроинформатика-2004» -М.: МИФИ-2004-Т. 2-С. 138-144.
20. Редъко В.Г., Мосалов О.П. Простые системы управления на основе нейросетевых адаптивных критиков // Эволюционное моделирование (иод ред. В.А. Райхлина). Труды Казанского городского семинара «Методы моделирования», Вып. 2 - Казань: Издательство «Фен» («Наука») - 2004 -С. 92-111.
21. Мосалов О.П., Прохоров Д.В., Редъко В.Г. Модель взаимодействия обучения и эволюции в многоагентных системах // Методы средства обработки информации. Труды Второй Всероссийской научной конференции - М.: МГУ - 2005 - С. 107-112.
22. Мосалов О.П., Редъко В.Г. Модель эволюционной ассимиляции приобретенных навыков в нейросетевых системах управления адаптивных агентов // VII Всероссийская научно-техническая конференция «Нейроинформатика-2005» - М.: МИФИ - 2005 - С. 210-217.
23. Мосалов О.П., Прохоров Д.В., Редъко В.Г. Сравнение эволюции и обучения как методов адаптации агентов // VIII Всероссийская научно-техническая конференция «Нейроинформатика-2006» - М.: МИФИ - 2006 -С. 201-208.
Структура и объем диссертации
Диссертация изложена на 110 страницах, состоит из введения, четырех глав, заключения и списка использованных источников, насчитывающего 100 наименований.
Заключение диссертация на тему "Модели адаптивного поведения на базе эволюционных и нейросетевых методов"
3.4. Выводы по главе 3
1. На основе одновременного применения обучения и эволюционной настройки предложена общая методика построения нейросетевой классифицирующей системы для случая, когда обучающая выборка имеет малый объем и классы представлены в ней неравномерно.
2. Построена нейросетевая классифицирующая система, обеспечивающая нулевую ошибку классификации.
3. Проведено исследование особенностей работы построенной классифицирующей системы.
Глава 4. Модели поискового поведения на основе спонтанной активности
В этой главе рассматриваются модели аниматов (агентов), которые могут имитировать поисковое поведение животных. Такой тип поведения характерен для организмов, умеющих перемещаться в пространстве.
4.1. О поисковом поведении
Несмотря на свою простоту, поисковое поведение заслуживает анализа по следующим причинам: поисковое поведение низших организмов является прообразом всех других форм поведения, в том числе и интеллектуального поведения высших животных.
В работе [97] исследовались механизмы ориентации самцов тутового шелкопряда в струе феромона самки. Самец воспринимает запах с помощью рецепторов, расположенных на симметричных антеннах. И, казалось бы, что самцу нужно двигаться прямо по градиенту феромона. Но как показало компьютерное моделирование, такая стратегия не соответствует реальному поведению бабочек. Ориентация самцов включает в себя не только повороты в сторону наибольшего раздражения, но и спонтанные, независимые от раздражения зигзаги при движении в струе запаха, а также петли, описываемые самцами, вышедшими за пределы струи. Можно сказать, что поиск источника запаха включает в себя две чередующиеся «инерционные» тактики: а) устойчивое движение в выбранном направлении, 2) устойчивое повторение поворотов, приводящее к выбору нового направления движения.
Интуитивно понятно, что чередование этих тактик действительно может быть выгодно. Движение насекомых против ветра или по градиенту в ответ на запах феромона или пищи, в принципе, позволяет найти источник запаха. Однако запах в турбулентном потоке воздуха распределен не равномерно, а отдельными «облаками». Насекомое может перестать воспринимать запах, но все же будет некоторое время продолжать движение против ветра, как бы предполагая, что вслед за первым облаком появится и второе. Если новое-облако не встречается, то можно предположить, что насекомое отклонилось от правильного направления, и оно меняет тактику: движется зигзагами поперек ветра. Это помогает вновь найти струю запаха, если насекомое действительно потеряло направление. Разумеется, насекомому не известно заранее, в каком случае оно просто вышло из облака, но движется в правильном направлении, а в каком случае направление потеряно. Однако чередование указанных тактик позволяет в большинстве случаев достигать цели.
Модель чередования указанных двух тактик поиска (устойчивого движения в избранном направлении и выбора/поиска нового направления), была предложена и исследована в работе [97]. Эта модель предлагает систему управления, в которой переключение между тенденциями движения анимата прямо и поворотами направо и налево обеспечивается с помощью нелинейного стохастического процесса (а именно, с помощью логистического отображения). Эта модель качественно соответствует поведению с чередованием указанных двух тактик, однако, используемое в ней логистическое отображение не позволяет в явном виде представить механизм переключения между двумя поисковыми тактиками. В связи с эт им в настоящей работе предлагается модель поискового поведения, которая явно включает в себя такой механизм переключения: в каждый момент времени анимат выбирает одно из двух решений: а\ - двигаться в выбранном направлении, либо а2 - изменить направление движения случайным образом. Переход от одного типа решения к другому моделируется с помощью определенного автомата (аналогичного автомату с линейной тактикой МЛ. Цетлина [22]). Роль автомата в нашей модели - обеспечение инерционност и переключения между указанными типами решений, характерной для поискового поведения животных и, по-видимому, существенной для адаптивного поиска. Для определенности мы считаем, что анимат ищет максимум функции двух переменных, например, максимум распределения пищи.
4.2. Модель анимата, осуществляющего поисковое поведение
Ниже рассматривается модель анимата, поведение которого имеет поисковый характер, на примере анимата, ищущего глобальный максимум многоэкстремальной функции двух переменных.
Общая схема модели
1. В пространстве (х,у) существует определенное стационарное распределение J{x,y).
2. Анимат может двигаться в двумерном пространстве (х,у). Задача анимата -поиск максимума функции J{x,y).
3. Анимат функционирует в дискретном времени, t = 0,1,2,.
4. Анимат может оценивать изменение текущего значения функции f{x,y) по сравнению с предыдущим тактом времени
Процесс функционирования анимата. В каждый такт времени t анимат совершает движение, при котором его координаты изменяются следующим образом: x(t+\) = x(t) + &x(t+\), т =М -At-1) =AAt\y(t))
4.1) y(t+\)=y(t) + Ay(t+l).
4.2)
На вход системы управления агента поступают значения АД/), Av(/), Av(/), на выходе формируются значения Дх(/+1), Ау(/+1).
Система управления содержит автомат (подобный автоматам с линейной тактикой МЛ. Цетлина [22]), который обеспечивает инерционность в принятии решения аниматом. Автомат имеет 2п состояний, номера состояний равныj = -п, .,-2,-1, 1,2, ., п.
Если j> О, то анимат принимает решение а\\ двигаться в выбранном направлении, при этом анимат смещается на величину RQ:
Ах(/+1) = R0 cospo,
Ay(t+l) = R0sm(p0, (4.3) где щ = arctg(Ay(/)/A;c(/)) - угол, характеризующий направление движения в текущий такт времени t.
Если j < 0, то анимат принимает решение аг\ изменить направления движения случайным образом, при этом анимат смещается на величину r(l, а направление его движения случайно варьируется:
Ах(/+1) = г0 cos^>,
Ау(/+1) = го sin^ , (4.4) где (р = (ро + w, w - нормально распределенная случайная величина N(0, w()). Параметр w0 ~ ж/4.
Схема системы управления анимата. Для рассматриваемой модели была использована модифицированная по сравнению с [22] схема автомата, чтобы обеспечить его адаптивную работу с учетом специфики режима случайного поиска (при выборе действия а2). Схема автомата представлена на рис. 4.1. Переходы между состояниями при поощрении и наказании показаны сплошными и штриховыми стрелками соответственно. ~ о о о о о о j -3-2-1 1 2 3
Рис. 4.1. Схема модифицированного автомата с линейной тактикой. / -номер состояния автомата, п- 3.
Правая область данного автомата совпадает с таковой в обычном ав гома ге [22]. А в левой области переходы между состояниями «поменяли знак»: для обычного автомата при поощрении/наказании переходы происходят влево/вправо, а для нашего модифицированного автомата - вправо/влево, соответственно.
Качественно поведение анимата, в систему управления которого входит рассматриваемый автомат, изложено ниже. Если выбранное направление движения анимата в течение некоторого времени правильное, т.е. ДД/) > 0 и автомат поощряется, то автомат переходит из 1-го состояния во 2-ое и так далее, до и-го. После того, как движение в данном направлении приводит к неудаче, Af[t) < 0, автомат совершает обратный процесс: из п-го состояния в (rc-l)-oe и т.д., причем все это время продолжается движение в ранее выбранном направлении. В результате этого небольшие локальные ухудшения не могут сразу же сбить анимата с «верного пути». После достижения (-1)-го состояния анимат начинает совершать случайные повороты. Если поворот неудачный, то номер состояния продолжает уменьшаться. В итоге, анимат делает несколько поворотов, прежде чем найдет нужное направление в (-1)-ом состоянии и вновь перейдет к движению в новом выбранном направлении.
Отметим, что на рис. 4.1 представлен детерминированный автомат. Также был рассмотрен и аналогичный вероятностный автомат. Для вероятностного автомата, характеризуемого вероятностью р, переходы осуществляются с вероятностью р так же, как для детерминированного автомата, и противоположные переходы с вероятностью 1-р (\>р> 0,5). При р~ \ автомат детерминированный, при р-0,5 переходы между соседними состояниями автомата происходят полностью стохастично.
Для детального анализа поискового поведения анимата в рамках изложенной модели была создана компьютерная программа на языке Java и была выполнена серия компьютерных экспериментов.
4.3. Результаты моделирования
При моделировании оптимизируемая функция fix, у) задавалась в единичном квадрате 0<х,у< 1. При этом в некотором количестве опорных точек значения функции задавались случайно (в интервале 0 <fix, у) < 1), а для произвольных значений х и у значения функции fix,у) определялись путем непрерывной интерполяции по опорным точкам.
При расчетах из разумных соображений был выбран опорный вариан т, для которого параметры составляли: Rq = 0,001, г0 = 0,001, w0 = л/4 , п = Ъ,р = 1.
Расчет проводился как для опорного варианта, так и для наборов параметров, в которых ряд заданных параметра отличался от значений опорного варианта. Тем самым проверялось влияние того или иного параметра на характер поискового поведения анимата.
Пример поведения анимата представлен на рис. 4.2. Этот пример иллюстрирует, что перемещение анимата состоит из долгих блужданий в окрестностях локальных максимумов оптимизируемой функции fix,у) (в окрестностях точек с координатами (0,55,0,45) и (0,88,0,45)) и кратковременных перемещений между максимумами. г •— i ййи ч
0.4 0.5 0.6 07 0.8 0.9 1 X
Рис. 4.2. Пример поискового поведения анимата. Исходное положение анимата - точка с координатами (0,5, 0,5).
4.4. Результаты моделирования
1. Построена модель анимата, система управления которого содержит конечный автомат. Этот анимат демонстрирует поведение, которое качественно соответствует поисковому поведению животных, и обладает свойством чередования двух тактик - периодов движения в выбранном направлении и серий случайных поворотов.
2. Поведение анимата обладает свойствами инерционности и игнорирования мелких деталей, что позволяет при оптимизации многоэкстремальной функции находить глобальный экстремум.
Заключение
В диссертационной работе получены следующие основные результаты:
1. Предложены и исследованы новые модели систем управления автономных агентов на основе нейросетевых адаптивных критиков. Проведен анализ процессов обучения в этих моделях. Показано, что подобные системы управления способны обеспечить адаптивное поведение автономных аген тов. В поведении таких агентов обнаружены нетривиальные свойства, аналогичные свойствам поведения живых организмов, такие как инерционность при смене стратегии поведения, игнорирование мелких деталей и т.п.
2. Исследована математическая модель многоагентной системы, в которой адаптация агентов происходит путем индивидуального обучения и эволюционной оптимизации. Показано, что совместное применение обучения и эволюции более эффективно в поиске оптимальной стратегии поведения, чем эволюция или обучение по отдельности. Обнаружено, что при таком взаимодействии обучения и эволюции имеет место генетическая ассимиляция приобретенных признаков, т.е. эффект Болдуина.
3. Разработан комплекс программ, реализующий методику построения классифицирующей системы на основании исследованных методов путем одновременного применения обучения и эволюционной нас тройки.
4. Построена классифицирующая система распознавания типов инсультов для случая малого объема обучающей выборки и неравномерного распределения представителей различных типов в ней.
Библиография Мосалов, Олег Петрович, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Meyer J.A., Wilson S.W. (Eds) From animals to animats // Proceedings of the First International Conference on Simulation of Adaptive Behavior The MIT Press: Cambridge, Massachusetts, London, England, 1990.
2. Donnart J.Y., Meyer J.A. Learning reactive and planning rules in a motivationally autonomous animat // IEEE Transactions on Systems, Man, and Cybernetics, Part В Cybernetics, 1996-V. 26, N. 3, P.381-395.
3. Сайт AnimatLab: http://animatlab.lip6.fr/index.en.html
4. Сайт AI Laboratory of Zurich University: http://www.iri.unizh.ch/groups/ailah/
5. Pfeifer R., Scheier C. Understanding Intelligence MIT Press, 1999.
6. Сайт Laboratory of Artificial Life and Robotics: http://gral.ip.rm.cnr.it/
7. Nolfi S., Floreano D. Evolutionary Robotics: The Biology, Intelligence, and Technology of Self-Organizing Machines. Cambridge, MA: MIT Press/Bradford Books, 2000 384 p.
8. Сайт MIT Computer Science and Artificial Intelligence Laboratory: http://www.csail.mit.edu/index.php
9. Brooks R.A. Cambrian Intelligence: The Early History of the New AI. MIT Press, 1999.
10. Сайт Neuroscience Institute: http://www.nsi.edu/
11. Krichmar J.L., Edelman G.M. Machine psychology: autonomous behavior, perceptual categorization and conditioning in a brain-based device // Cerebral Cortex 2002 - V. 12 - P. 818-830.
12. Krichmar J.L., Edelman G.M. Brain-based devices: intelligent systems based on principles of the nervous system // In IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Las Vegas, NV 2003 - P. 940-945.
13. Krichmar J.L., Seth A.K., Nitz D.A., Fleischer J.G., Edelman G.M. Spatial navigation and causal analysis in a brain-based device modeling cortical-hippocampal interactions // Neuroinformatics 2005 - V.3, N 3 - P. 197-221.
14. Непомнящих В.А. Поиск общих принципов адаптивного поведения живых организмов и аниматов // Новости искусственного интеллек та 2002 -N. 2-С. 48-53.
15. Непомнящих В.А. Как животные решают плохо формализуемые задачи поиска // Синергетика и психология: Тексты. Выпуск 3: Когнитивные процессы / Ред. Аршинов В.И., Трофимова И.Н., Шендяпин В.М. М.: Когито-Центр-2004-С. 197-209.
16. Nepomnyashchikh V.A., Podgornyj К.A. Emergence of adaptive searching rules from the dynamics of a simple nonlinear system // Adaptive Behavior 2003 - V.11,N4-P. 245-265.
17. Жданов А.А. Метод автономного адаптивного управления // Изв. РАН. Теория и системы управления 1999 -N 5 - С. 127-134.
18. Жданов А.А. О методе автономного адаптивного управления // VI Всероссийская научно-техническая конференция «Нейроинформатика-2004». Лекции по нейроинформатике. Часть 2 М.: МИФИ - 2004 - С. 15-56.
19. Станкевич J1.A. Нейрологические средства систем управления интеллектуальных роботов // VI Всероссийская научно-техническаяконференция «Нейроинформатика-2004». Лекции по нейроинформатике. Часть 2-М.: МИФИ 2004 - С. 57-110.
20. Цетлин M.JI. Исследования по теории автоматов и моделирование биологических систем. М.: Наука, 1969 - 316 с.
21. Варшавский В.И., Поспелов Д.А. Оркестр играет без дирижера М.: Наука, 1984.
22. Бонгард М.М., Лосев И.С., Смирнов М.С. Проект модели организации поведения «Животное» // Моделирование обучения и поведения - М.: Наука, 1975-С. 152-171.
23. Гаазе-Рапопорт М.Г., Поспелов Д.А. От амебы до робота: модели поведения -М.: Наука, 1987.
24. Поспелов Д.А., Пушкин В.Н. Мышление и автоматы М.: Изд-во Советское радио, 1972.
25. Holland J.H. Adaptation in Natural and Artificial Systems. Ann Arbor, MI: The University of Michigan Press, 1975 (1st edn). Boston, MA: MIT Press., 1992 (2nd edn).
26. Курейчик B.M. Генетические алгоритмы и их применение Таганрог, ТРТУ, 2002.
27. Емельянов В.В., Курейчик В.М., Курейчик В.В. Теория и практика эволюционного моделирования-М.: Физматлит, 2003.
28. Редько В.Г. Эволюционная кибернетика-М.: Наука, 2001 156 с.
29. Holland J.H., Holyoak K.J., Nisbett R.E., Thagard P. Induction: Processes of Inference, Learning, and Discovery Cambridge, MA: MIT Press, 1986.
30. Sutton R., Barto A. Reinforcement Learning: An Introduction Cambridge: MIT Press, 1998.
31. Learning and Approximate Dynamic Programming: Scaling Up to the Real World (Edited by Jennie Si, Andrew Barto, Warren Powell, and Donald Wunsch), IEEE Press and John Wiley & Sons, 2004.
32. Werbos P.J. Approximate dynamic programming for real-time control and neural modeling // In: Handbook of Intelligent Control, White and Sofgc, Eds., Van Nostrand Reinhold 1992 - P. 493-525.
33. Мак-Каллок У.С., Питтс У. Логическое исчисление идей, относящихся к нервной активности // Автоматы, под ред. Шеннона К.Э. и Маккарги Дж. М. -ИЛ, 1956-С. 362-384.
34. Розенблат Ф. Принципы нейродинамики. Перцептроны и теория механизмов мозга Мир, 1965.
35. Brindley G.S., Lewin W.S. The sensations produced by electrical stimulation of the visual cortex // J Physiol 1968 - N 196(2) - P. 479-493.
36. Marr D. Simple Memory: A Theory for Archicortex // Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences -V. 262,N841 1971 -P. 23-81.
37. Kohonen T. Self-organized formation of topologically correct feature maps // Biol. Cybern 1982 - V. 43, N 1 - P. 56-69.
38. Kohonen T. Self-Organising and Associative Memory. Berlin, Springer Verlag, 1995.
39. Palm G. On associative memory // Biol. Cybern. 1980 - N 36 - P. 19-31.
40. Palm G., Sommer F.T. Associative data storage and retrieval in neural networks // E. Domany, J.L. van Hemmen, K.S. (Eds.), Models of Neural Networks III, Springer, New York 1995 - P. 79-118.
41. Willshaw D.J., Buneman O.P., Longuet-Higgins H.C. Non-holographic associative memory // Nature 1969 - N 222 - P. 960-962.
42. Dunin-Barkowski W.L. Principles of Neural Networks. I. Memory as the process of information transmission // Biofizika 1975 - V. 20, N 6 - P. 1091.
43. Dunin-Barkowski W.L. Multi-neuron structures: theory and experiments // Uspekhi Fizicheskikh Nauk (Soviet Physics Progress) 1986 - V. 150, N 2 P. 321-323.
44. Dunin-Barkowski W.L. Neural Networks for Associative Memory // «Modeling of Excitable Structures» Pushchino, Moscow Region - 1975 - P. 90141.
45. Hopfield J.J. Neural networks and physical systems with emergent collective computational abilities // Proc. Natl. Acad. Sci. USA 1982 - V. 79, N 8 -P. 2554-2558.
46. Hopfield J.J. Neurons with gradual response have collective computational properties like those of two-state neurons // Proc. Natl. Acad. Sci. USA 1984 -V. 81, N 10-P. 3088-3092.
47. Amari S. Mathematical foundations of neurocomputing // Proceedings of the IEEE 1990 - V. 78, N 9 - P. 1443-1462.
48. Amari S. Dualistic geometry of manifold of higher-order neurons // Neural networks 1991 -V. 4-P. 443-451.
49. Фролов A.A., Муравьев И.П. Нейронные модели ассоциативной памяти М.: Наука, 1987- 160 с.
50. Фролов А.А., Муравьев И.П. Информационные характеристики нейронных сетей М.: Наука, 1988 - 160 с.
51. Rumelhart D.E., Hinton G.E., Williams R.G. Learning representation by back-propagating error // Nature 1986 - V. 323, N 6088 - P. 533-536.
52. Уоссермен Ф. Нейрокомпьютерная техника. Теория и практика М.: Мир, 1972-238 с.
53. Фомин С.В., Беркенблит М.Б. Математические проблемы в биологии -М.: Наука, 1973-200 с.
54. Минский М., Пейперт С. Персептроны Мир, 1971.
55. Carpenter G.A., Grossberg S. A massively parallel architecture for selforganizing neural pattern recognition machine // Comput. Vision, Graphics, Image Process 1987 - V. 37, N 1 - P. 54-115.
56. Grossberg S. Neural Networks and Natural Intelligence // MIT Press, Cambridge, MA, 1988.
57. Anderson J.R., Bower G.H. Human associative memory // Washington, DC: Winston & Sons, 1973 524 p.
58. Hopfield J.J., Feinstein D.I., Palmer R.G. Unlearning has a stabilizing effect in collective memories. Nature 1983 - N 304 - P. 158.
59. Fukushima K. Neocognitron: A hierarchical neural network capable for visual pattern recognition // Neural networks 1988 - V. 1, N 2 - P. 119-130.
60. Hopfield J.J., Tank D.W. Computing with neural circuits: A model // Science -1986 V. 233, N 464 - P. 625-633.
61. Hebb D.O. The organization of behavior. A neuropsychological theory N.Y.: Wiley & Sons, 1949-355 P.
62. Тьюринг А. Может ли машина мыслить? М.:ГИФМЛ, 1960.
63. Koza J. Genetic Programming II: Automatic Discovery of Reusable Subprograms The MIT Press, 1994.
64. Whitley D. An Overview of Evolutionary Algorithms // Journal of Information and Soft-ware Technology 2001 - N 43 - P. 817-831.
65. Evolutionary Computation 1: Basic Algorithms and Operators / Back Т., Fogel D.B., Michalewicz Z. (Eds.). Bristol and Philadelphia: Institute of Physics Publishing, 2000.
66. De Jong K. An analysis of the behavior of a class of genetic adaptive systems. Unpublished PhD thesis. University of Michigan, Ann Arbor, 1975.
67. Goldberg D.E. Genetic Algorithms in Search, Optimization, and Machine Learning Addison-Wesley, 1989.
68. Mitchell M. An Introduction to Genetic Algorithms MIT Press, Cambridge, MA, 1996.
69. Рапопорт A.H. Автоматные модели поисковой оптимизации и управления Киров: ВятГТУ, 1999.
70. Лосев И.С., Максимов В.В. О задаче обобщения начальных ситуаций // Моделирование обучения и поведения -М.: Наука, 1975.
71. Бонгард М.М., Лосев И.С., Максимов В.В., Смирнов М.С. Формальный язык описания ситуаций, использующий понятие связи // Моделирование обучения и поведения М.: Наука, 1975.
72. Анохин П.К. Принципиальные вопросы общей теории функциональных систем // Принципы системной организации функций М.: Наука, 1973.
73. Анохин П.К. Системные механизмы высшей нервной деятельности М.: Наука, 1979-453 с.
74. Анохин П.К. Очерки по физиологии функциональных систем М.: Медицина, 1975.
75. Anokhin Р.К. Biology and Neurophysiology of the Conditioned Reflex and Its Role in Adaptive Behavior Pergamon, Oxford, 1974.
76. Моделирование функциональных систем (под ред. Судакова К.В. и Викторова В.А.) М.: РАМН, РСМАН, 2000 - 254 с.
77. Widrow В., Gupta N., Maitra S. Punish/reward: learning with a critic in adaptive threshold systems // IEEE Transactions on Systems, Man and Cybernetics 1973-V. 3,N 5 - P. 455-465.
78. Barto A.G., Sutton R.S., Anderson C.W. Neuronlike elements that can solve difficult learning control problems // IEEE Transactions on Systems, Man, and Cybernetics N 13 - P. 835-846.
79. Werbos P.J. Advanced forecasting methods for global crisis warning and models of intelligence // General Systems Yearbook 1977 - N 22 - P. 25-38.
80. Редько В.Г., Прохоров Д.В. Нейросетевые адаптивные критики // Научная сессия МИФИ-2004. VI Всероссийская научно-техническая конференция «Нейроинформатика-2004». Сборник научных трудов. Часть 2 М.: МИФИ -2004-С. 77-84.
81. Prokhorov D.V., Wunsch D.C. Adaptive critic designs // IEEE Trans. Neural Networks 1997 - V. 8, N 5 - P. 997-1007.
82. Prokhorov D.V. Backpropagation through time and derivative adaptive critics: a common framework for comparison (Edt. by Si J., Barto A., Powell W., Wunsch D.) IEEE Press and John Wiley & Sons, 2004.
83. Prokhorov D.V., Puskorius G., Feldkamp L. Dynamical Neural Networks for Control // In: J. Kolen and S. Kremer (Eds.) A Field Guide to Dynamic Recurrent Networks IEEE Press, 2001.
84. Moody J., Wu L., Liao Y., Saffel M. Performance function and reinforcement learning for trading systems and portfolios // Journal of Forecasting 1998 - V. 17 -P. 441-470.
85. Baldwin J.M. A new factor in evolution // American Naturalist 1896 - V. 30 -P. 441-451.
86. Turney P., Whitley D., Anderson R. (Eds.). Evolution, Learning, and Instinct: 100 Years of the Baldwin Effect // Special Issue of Evolutionary Compulation on the Baldwin Effect 1996 - V.4, N 3.
87. Верещагин H.B., Варакин Ю.Я. Эпидемиология инсульта в России: результаты и эпидемиологические аспекты проблемы // Журнал неврологии и психиатрии им. С.С. Корсакова. Приложение «Инсульт» 2001 - N 1 -С. 34-40.
88. Реброва О.Ю. Применение методов интеллектуального анализа данных для решения задачи медицинской диагностики // Новости искусственного интеллекта 2004 - N 3 - С. 76-80.
89. Kuwana Y., Shimoyama I., Sayama Y., Miura H. Synthesis of Pheromone-Oriented Emergent Behavior of a Silkworm Moth // Proceedings of the 1996 IEEE/RSJ International Conference on Intelligent Robots and Systems 1996 P. 1722-1729.
90. Red'ko V.G., Mosalov O.P., Prokhorov D.V. A Model of Evolution and Learning // Neural Networks 2005 - V. 18, N 5-6 - P. 738-745.
91. Mosalov O.P., Prokhorov D.V., Red'ko V.G. Influence of neural network structure on cooperation of learning and evolution // Optical Memory and Neural Networks 2006 - V. 15, N 4 - P. 180-184.
92. Mosalov O.P., Rebrova O.Yu., Red'ko V.G. Neuroevolutionary methods of stroke diagnosis // Optical memory and Neural networks 2007 - V. 16, N 2 -P. 81-90.
-
Похожие работы
- Формальная модель процессов работы и метод адаптации нейросетевых средств мониторинга безопасности
- Методы проектирования систем защиты информации в нейросетевых вычислительных средах
- Применение нейрокомпьютеров для представления и визуализации статических и динамических трехмерных данных
- Нейросетевые модели систем автоматического регулирования промышленных объектов
- Нейросетевое управление рентабельностью предприятия
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность