автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Разработка алгоритмов обучения задачам зрительно-двигательной интеграции на основе моделей вероятностных нейронных ансамблей

кандидата технических наук
Головань, Александр Викторович
город
Ростов-на-Дону
год
1996
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Разработка алгоритмов обучения задачам зрительно-двигательной интеграции на основе моделей вероятностных нейронных ансамблей»

Автореферат диссертации по теме "Разработка алгоритмов обучения задачам зрительно-двигательной интеграции на основе моделей вероятностных нейронных ансамблей"

На правах рукописи

^ ГОЛОВАНЬ АЛЕКСАНДР ВИКТОРОВИЧ

РАЗРАБОТКА АЛГОРИТМОВ ОБУЧЕНИЯ ЗАДАЧАМ ЗР1ГГЕЛЬ|10-ДВИГАТЕЛЬН0Й ИНТЕГРАЦИИ НА ОСНОВЕ, МОДЕЛЕЙ ВЕРОЯТНОСТНЫХ НЕЙРОННЬЬС АНСАМБЛЕЙ

0S.13.16 - применение вычислительной техник», математического моделирования и матемалетесюсс методов в научных исследованиях

Автореферат диссертации на соискание ученой степени кандидата технических наук

Ростов-на-Дону 1996

Работа выполнена о НИИ нейрокибернеппсп нмАБ.Когана при Ростовском Государственном ушшерстсте.

Парные руководитель:

доиор физико-матемапр/ескнх наук Душш-Барковский ВЛ.

кангщпат биологических наук Подладчнкова Л.II.

Офмпиздывге оппонент:

дакгор технических наук Чернухкн Ю.Б. доктор фшшсо-математнчесюк наук

кандидат техшгческнх паут; Покроаский А.Н.

Ы едущая организация:

11нсппуг Прикладной Физики РАН (г.НнжннЛ Новгород).

Защита состоится ^^ апреля 199.6 г. р О- часов н:

заседании диссертационного совета К 063.52.12. по физика -математическим н техническим наукам о Ростовском госуниверснтете по адресу: 344090, г.Рогтоа-на-Дону, пр.Сгачки, 200/1, корпус 2, Вычислительный цс1пр РГУ.

С диссертацией можно ознакомиться п научной библиотеке РГУ по адресу: ул.Пушкинская, 148.

Автореферат разослан

¿3, яи&ря 159Сг

Ученый секретарь диссертационного ссзста, кандидат технических наук

ДЖЕНИБАЛАЕВ Х.Д.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы.

При построении систем обработки информации и управления различными техническими комплексами существует ряд проблем, для которых еще не найдено достаточно эффективное решение. В частности, для управляющих систем известен класс задач, когда входные воздействия и характеристики управляемых объектов априорно полностью не определены. Для того, чтобы в условиях начальной неопределенности выполнять необходимые функции, эти системы должны обучаться адаптивному поведению в процессе восприятия и переработки информации. Решению такого рода проблем с помощью, в основном, нетрадиционных вычислительных средств и методов посвящена объявленная в Японии ка 1993 - 1998 гг. перспективная многоцелевая исследовательская программа "Вычисления в реальном мире" (Real World Computing, RWC), пришедшая на смену широко известной программе "Пятое поколение ЭВМ".

Одним из подходов к решению проблемы адаптивного управления в условиях неполноты входной информации и информации об управляемом объекте является использование нсйросетевых парадигм, в первую очередь, нейросетевых алгоритмов обучения. Большинство известных алгоритмов и разработок d этом направлении решает частные задачи проблемы адаптивного поведения в неопределенной среде и оперирует с ограниченным диапазоном входной информации и управляющих сигналов. Данная работа стоит в ряду подобных разработок и направлена на решение рассматриваемой проблемы и разработку математической модели универсальной системы такого рода.

Цель и задачи исследования.

Целью данной работы была разработка и исследование математической модели и алгоритмов работы нейросетевой системы, обладающей адаптивным поведением в неопределенной среде и устойчивостью к повреждающим воздействиям. В процессе выполнения работы решались следующие задачи :

1. Разработка архитектуры системы и алгоритмов обучения С подкреплением от внешней среды, классификации и генерализации входных паттернов и кодирования выходных реакций системы.

2. Разработка алгоритмов устойчивого адаптивного поведения системы при выходе из строя части се элементов.

3. Программная реализация модели и оптимизация ее параметров.

4. Исследование в компьютерных экспериментах поведения модели при решении задачи обхода препятствии в процессе имитации движения робота.

Наущая'новизна результатов исследования.

1. В базисе нейронных сетей разработан оригинальный алгоритм быстрого несупервизорного (без учителя) обучения системы адаптивному поведению d априорно неопределенной среде, основанный на изменения весов связей элементов и на отрицательном подкреплении от внешней среды.

2. Предложены алгоритмы классификации входных паттернов и ансамблевого кодирования выходных реакций системы, которые обеспечивают надежность функционирования системы при выходе из строя части элементов.

3. В процессе компьютерного моделирования, при имитации решения задачи обхода препятствий подвижным роботом, определен набор параметров системы, обеспечивающий получение оптимальной скорости обучения.

Практическая значимость работ.',

1. Разработанные алгоритмы и программы могут быть использованы для построения технических систем навигации с разнообразными наборами входных и выходных воздействий. Разработанная система может быть реализована в виде автономного устройства.

2. Разработанная система я алгоритмы будут использованы при реализации проекта российско-французского сотрудничества "Зрение роботов-2" (1995 - 1S99) между НИИ нейрокнберпетнкн РГУ и лабораторией LACOS Гаврского университета (Франция) для управления подвижным 'роботам.

3. Результаты исследований были использованы при выполнении хозяйственного договора N 2580 с Московским институтом радиотехники, электроники и автоматики, проводившегося в рамках межотраслевой комплексной программы "Контакт".

4. Разработанная система может быть использована для имитационного моделирования структурно-функциональной организации различных областей мозга.

Апробация работы.

Результаты исследований докладывались: на Всесоюзном симпозиуме "Зрение организмов и роботов" в 1985 г. (г.Вилыпос); на 6 к 7 региональных конференциях молодых ученых Северного Кавказа в 1986 и 1989 • гг., на региональном семинаре "11сйроподобные вычислительные структуры и проблемы робототехники" в 19S5 и

1587гг.; на Всесоюзной конференции "Бионика, биомедкибернетика -85" в 1986 г. (г.Ленинград); па IX Всесоюзной конференции но нейрокибернстшсе в 1989 г. (г.Ростов-ка-Дону);па Международном совещании .. "Нейрокомпьютеры н внимание" и 1989 г.; на Международном симпозиуме по нсйроннформатнкс и иейрокомньтотерам в;.' 1995 г. (г.РостоЕ-на-ДсЕ{у); на семинаре "Математические методы в экономике и экологии" 3 НИИ механики и прикладной математики РГУ (г.Ростов-ш-Дону) в 1995 г.

ТТуС.'л;гкппн» '

По теме диссертации опубликовано 10 работ.

Структура лисеертпшш ' :''•■;'

Работа состоит из введения, четырех глав,' загслхочетй,.'вывбдов; СПИС1К1 литературы и изложена на .Л?.?.;- страшщах; ! содержит рисунков; список лйтсротурм включает нада.ге1гований.

• СОДЕРЖАНИЕ

-Ео езгдгкии дана общая характеристика работяг и сфорл1улированы задачи .исследования.

■ Первая глаоа посвящена обзору лгггературы ¡по исйледуеКтой проблеме.

Глава состоит из четырех разделов.

В первом разделе главы рассмотрены подходы к созданию систем обработки информации и управления на ссиовг традиционных вычислительных средств и методов и формулируются нерешенные проблемы. Среди такого рода проблем, ЕБэделяется класс задач, а которых входная информация и управляющие воздействия априорно полностью не определены.

Второй раздел главы пссвящен анализу современного состояния проблемы создания информационно-управляющих систем на основе нейронных сетей. Из обзора литературы следует, что ожидаемые перспективы применения вычислительных средств, основанных, на нейросетевых парадигмах, являются достаточно значимыми для признания актуальности разработки нейросетевых алгоритмов и систем для решения задач обработки информации И управления в условиях неопределенности входной информации и управляющих воздействии.

В третьем разделе главы описывается постановка . задачи исследования. Обосновывается, что оптимальным для решения проблемы адаптивного поведения в неопределенной среде является использование алгоритмов обучения, основанных на подкреплении

"правильного" поведет«: системы. Показало; что известные модели, базирующиеся па алгоритмах иесупервнзорного обучения с подкреплением от внешней среды, имеют ряд ограничении, к частности, требуют большой обучающей выборки и удовлетворительно работают и узком диапазоне параметров входной информации и управляющих воздействий.

Задача данной работа состояла в разработке математической модели системы, обеспсчнЕагощей выполнение следующих условий:

1. После некоторого конечного числа предъявлений одного и того же входного-сигналаX система должна перестроиться таким образом, чтобы при последующем предъявлении этого входного сигнала проявлять стабильно "правильную" реакцию, т.е. система должна обучаться правильному реагированию на предъявляемые входные сигналы.

2. Обучение системы в процессе предъявления новых входных сигналов пе должно нарушать ее способность правильно реагировать на входные сигналы, которым система обучалась ранее.

3. Система должна правильно реагировать во всех N разрешимых входных ситуациях, обучившисьтолько на некотором числе ситуаций L « N путем "обобщения", выделяя ''значимые" для каждой ситуации компоненту -входных сигналов.

4. Часть блоков системы должна быть реализована па нейроподобных элементах (НПЭ). Блоки, построенные на НПЭ, должны демонстрировать падежное функционирование, т.е. "обученное" состояние системы должно сохраняться при "выходе из строя" некоторого числа ее элементов. -При "выходе нз строя" значительного числа НПЭ система должна "дообучаться".

В четвертом разделе главы рассматриваются основные постулаты к нейробиологнческне механизмы, Положенные в основу разработанной модели. .

Во второй главе описаны модель и . основные алгоритмы функционирования разработанной системы, обладающей адаптивным поведением в априорно-неопределенной среде. ,

Глава состоит нз четырех разделов.

В первом разделе рассматривается общая архитектура системы С, которая взаимодействует с окружающей средой Е, и имеет п сенсорных входов, воспринимающих в каждый момент времени t сигналы среды х, ( t ) ( i = 1.2,..., n; t е N ) (рис. I). В соответствии со своей структурой система С на каждый входной вектор X ( t) ( X, (t)...., X „ (t) ) отвечает выходной реакцией R ( t ) = R, ( j = 1,2.....k ; из конечного набора реакций.

Система С должна обучаться "правильному позедешпо" в среде Е. Оценка правильности реакции системы о момент времени I характеризуется величиной- сигнала; '"отрицательного подкрепления" \у (0(У/ (0 а 0), поступающего па подкрепляющий вход (рис. 1). Первоначально поведение системы- С не адекватно организации среды Е, и в ответ на все или большинство входных сигналов X, (I) система С проявляет "неправильные" реакции и "наказывается" сгпящательньш пожрегшспизМ V (1) ^ 0 .

Функция, определяющая подкрепление ЛУ зависит от входного вектора х (I) и от реакции системы я г (О ( X, I?), где

II е { К,,..., }, причем среди компонент Х,(1){1- 1,2.....п)

любого входного вектора х О),'/есть. часть компонент, значения которых однозначно связаны с. видом функции \У - "значимые компоненты", и остильная %слтг к6мп011с11т, значешщ которых и вид функции \У взаимно цезавнетш 7 ."незначимые компоненты". Причем, одаха й/^^.^Ьмпопе!^':>:-фйигг'беть' "значима" в одной входной агсуафш ;••

Рис. I. Блок-схема системы С, взаимодсНстоующей со средой Е_ БК - блок классификации входных ситуаций; БО - блок обучения; ВБ - блок выходных реакций системы; Е - среда.

Система С ' воспринимает п- компонентный входной сигнал, при этом возможно 2° различных входных пееторои Х(1). Среди входных ситуаций могут быть такие, когда псе компоненты входного сигнала "незначимы". Такие ситуации будем называть неразрешимыми: мы будем далее считать, что иа вход системы могут поступать только разрешимые ситуации. Число N разрешимых ситуаций всегда меньше

всех возможных сшуацнй и образует разрешимую область в пространстве 'входных признаков.

Система С , в; каждый, такт-'времени t должна перестра:гоаться щ заиисшюсти от входною вектора Х( t) и сигнала подкрепления \Y(t) тдким образом, ' 'ггобы после , некоторого периода обучения t ^ п ответ на любую разреишмую ситуацию на'входе (на любой та N рхортых векторов) /проявлять такую реакцию R(t),-- чтобы подкрепление": W(t)=0 при всех t 2: t ^ .

Для того, чтобы система С ' имела возможность обучиться, необходимо, чтобы среда изменялась так, чтобы на вход .'системы подавались различные входные векторы X в течение периода • ta . Разработанный алгоритм работы системы, должен, позволить 'qh правильно реагировать. во всех N ситуациях, после обучения па некотором количестве , L « N . предъявляемых ситуаций.

Правило, по которому на, входе системы в момент t+1 изменяется, ситуация, должно обеспечить повторяемость каждой из L ситуаций.» течение ) достаточную, чтобы обучение в этих ситуациях

произошло. В частности^ указанным условиям удовлетворяет следующее правило: входная аяуация, предъявляемая системе, остается iieimteitHofi, если система! проявляет "неправильную" реакцию и W (О ^ 0 ; ;Ьслк же в момент, t сисггема проявит "правильную" реакцию R(t) такую, что W (t) = 0 , то в момент t+1 на вход системы предъявляется новый сигнал, т.е. Xf t +1) * Х ( t).

В блоке классификации (БК) (рис. 1)' осуществляется разделение множества входных векторов на число подмножеств, равное числу реакций, проявленных в течение периода обучения t^- . При этом учитывается информация о входном векторе X(t) , о сигнале подкрепления от внешней среды W(t) и информация о типе проявленной системой реакции R(l), поступающая в этот блок в каждый момент t < t^ ., БК имеет выходы St ( г = 1, 2,. . ., I S, = { 0 , 1 }; t > к) , где к - число реакций, причем в данный момент t- тольхо один выход БК может быть равным единице, а остальные выходы БК равны нулю.

В блоке обучения (БО) (рис. 1), предстазляющем собой сеть НПЭ,

в каждый такт t происходит преобразование сишала s,(г = 3,2.....()

в активность сете НПЭ: у „;...; ур,;...; ушю;

(у „, е { 0 , i}; P.q = 1,.2,..., га) . Блок выходных реакций (ВБ) осуществляет перекодирование состояний сети БО в выходные

реакции системы R(t) и построен как сеть нейроподобпых элементен, имеющих фиксированные веса связен. Напротив, веса снпаптическлх входов НПЭ GO подстраиваются по стохастическому алгоритму, учитывающему действие входных сигналов S(t) и сигнала подкрепления W(t). Разработанная структура сети и алгоритм!,i спиаптнческой модификации обеспечивают сходимость к "обученному" состоянию, в котором п каждой ситуации S(t) проявляется такая реакция R что подкрепление \V=0 при всех t ¿ t . В случае нарутсиия "обученного" состояния при "выходе из строя" части элементов тот же алгоритм обеспечивает "дообучение" системы.

Второй раздел главы посвящен описанию структуры сети НПЭ БО. Сеть представляет собой нейронный экран, состоящий из НПЭ. Схематическое изображение НПЭ приведено на рис. 2. Элемент имеет С синаптнчсскнх входов, один подкрепляющий вход, по' которому поступает сигнал W(t) , входы от соседних ИПЭ и один выход.

Рис. 2. Нейроподсбный элемент GO.

Основное уравнение, опнсывающее активность НПЭ с

координатами (р, q) па нейронном экране ( р, q g {l, 2.....:n} ) ,

соответствует модифицированной мелглк Мак-Каллока и Питгса при рассмотрении работы нейрона п "медленном времени" 1 .

Мак-Каллок У.С., Питтс У. Логическое исчисление идеи, относящихся к нервной активности. М, ИЛ., 1956.

У„(0 - SB (2ьм, (OS,(t) -TM(t) -в,} , (Г)

г-I

гДе у РЧ < t) - выход (p,q)-го НПЭ в момент t, (yp,(t) е {о ; 1}) , если у pq (t) = 1 - элемент возбужден, если у M(t) - 0 - элемент невозбужден. S, (t) - входной сигнал по г-му входу в момент t,

(S, е {0,1}; г =1.2.....О;

ар,,(t) - синаптнчеекнн вес г-го входа (p,q)-ro НПЭ в момент t,

^ гша - ^ '

(t) <; a

max > (2)

причем a„,,(t) г 0 и кратны некоторой величине Да >0 ; Тм (t) характеризует тормозное взаимодействие меаду

элементами сети: т„,( О =b[yK,(t) (0 +у,.„ (t) +yp„rt (t) ] ; (3)

0, - порог нейрона, ©„ >0 ;

Sв (и)-

U

если u £ 0 ; сели и < 0 .

(4)

Уравнение сниаптнческон модификации НПЭ имеет иод: a„,r(t+l) =a„,f (t) +Да 8,( 0^,(0 :

(5)

(О -

1 - 2

1 -

Ур, (О - <0 у„, О) - (О (0 - «Ур, (О

CCJBS

ссля

, < 8 РЧ I (О < ai ,, (О -а

а»,Г (О " »nil

под trio

(6)

В выражении (6) <5р, (t) - случайная величина, <SP, (t) е {0; 1} . Вероятность того, ч1о в данный момент t s < i) =1 .равна

^(¿"p, 0) =0 = 1

вероятность (t) = о)

" 1 +а W(t)

а вероятность того, что в данный момент t (t) =-0 , равна

« W(t)

1 W(t>

(7)

где а >0 .

При \V(t)=0 (<îp, (t)=l) состояние входов НПЭ не меняется, и происходит "запоминание" а!гпшнруемых входов в спнаптпчесюсх весах. Чем больше W(t), тем в соответствии с (7) и (8) больше вероятность того, что <ît, (t) =0 п НПЭ с большей вероятностью "стремится" к изменению своего состояния.

В третьем разделе главы описываются алгоритмы обучения и генерализации входных паттернов.

Если входные сигналы x,'(i) поступают прямо на входы БО, то система С будет способна за счет перестройки весов ар,г обучаться правильно реагировать на входной вектор

х' =( x((t), х; (t).....Х^(0) , т.е. выходить па такую реакцию Rj ,

при которой W (Rj) =0 . Обучение будет иметь место в том случае, если среда в течение некоторого периода t не меняется. Если же после этого среда изменится и система С будет обучаться реагированию на другой вектор х" * х' , ее способность правильно отвечать на предыдущий пектор х' в общем случае не сохранится. Следовательно, условия 2 и 3 поставленной задачи не будут выполнены. Для обеспечения выполнения этих условий на вход системы поставлен БК (рис. 1), в котором постепенно в процессе обучения осуществляется разделение разрешимой области пространства входных признаков на число областей, равное числу реакций системы.

БК воспринимает в каждый момент t n-мерный входной сигнал

X, ( t ) ( i = I, 2.....n ) , а также информацию о реакциях, проявленных

системой R(t), и величине подкрепления W(t). БК имеет с выходов (S, е { 0 ; 1 } ; г = 1, 2,... , 0 ; f > к , где к-чнело реакций), причем в данный момент t только один из выходов может быть активен, а остальные выходные сигналы равны нулю.

Каждый выход БК S, имеет свой "регистр памяти". Первый

пришедший во времени вектор х'( t ) =( X,'(i).....х^(t)>

записывается в первый регистр памяти и активирует первый выход БК ( S, ( П = 1 S111 ) = о , если г * 1 ). Кроме того, если система ответила "правильной" реакцией R ( I ) = Ri, при которой w С1 ) = 0 , то индекс j записывается в дополнительную ячейку памяти первого выхода. При поступлении нового вектора Х(2) в следующий момент в БК производится сравнение этого вектора с содержимым первого регистра памяти, вектором х( I ) • Если Х(2 ) »Х( I ) , активируется первый

выход БК, при несовпадении лекторов вектор Х(2) записывается ii следующий, т.е. стером, регистр памяти, при этом sa(2)=î и St(2) = 0 , если г* 2. Кроме того, если v/(2)=0 и реакция R (2) = R (I) -R, , то производится сравнение первого и второго регистров. Содержимое первого регистра изменяется, а память второго регистра очищается. При поступлении г> момент t на вход системы вектора X ( t) пронзводтгя его сравнение со всеми занятыми регистрами. При совпадении его с памятью какого-либо из занятых регистров активируется только выход, соответствующий этому регистру. При несовпадении с памятью всех заполненных регистров, этот вектор записывается в наметь последнего свободного регистра и активирует соответствующий ему выход. Если же проявленная реакция R (t) == к, такова, что W ( t ) « W ( Л, ) = О и существует такой выход БК (ш-тын), в дополнительной ячейке которого записан индекс j реакции, то производится сравнение последнего регистра с пг -тым.

Первый пришедший вектор X ( 1 ) не будет изменяться, пока система не обучится проявлять в ответ па этот вектор такую реакцию Rj, при которой W (Rj) =0 . После этого входной вектор х изменится и поступит в соответствии с вышеописанным алгоритмом на второй выход.БК и т.д. Через некоторый интервал времени в первых к дополнительных ячейках памяти выходов БК будуг записаны индексы всех к реакций системы. Это означает, что любой следующий входной вектор, не совпадающий по своим компонентам с векторами, записанными в ранее занятых к регистрах, будет записан в к+1 регистр. После обучения система будет Проявлять в ответ на этот вектор одну из к реакций. В соответствии с алгоритмом БК, изменится вектор, хранящийся п одном из к регистров, а к+1 регистр очистится и будет свободен для записи следующего вектора.

Так как выходные сигналы БК S,(г «= 1.2.....г) взаимно

исключают друг друга, обучение по этим выходам связано с перестройкой различных наборов синаптических весов БО. При этом каждому S, соответствует свое множество весов {аг,,}; p,q=!,2,...,m. Следовательно, обучение реагированию на любой входной вектор не будет ухудшать реакции системы на вектора, которым она обучалась ранее, что обеспечивает выполнение условия 2 поставленной задачи.

В четвертом разделе главы рассматривается ансамблевое кодирование выходных реакций в ВБ.

Основная задача, решаемая ВБ, состоит в том, чтобы разбить 2°°' состояний нейронного экрана БО. на к классов, соответствующих к реакциям системы В зависимости от характера распределения

йозбуждення элементов на нейронном экране БО различались пять типов нейронных ансамблей, изображенных на рис. За. Ансамбль первого типа - это изолированный возбужденный элемент. Ансамбль второго типа - это два соседних возбужденных элемента и т.д.

Соседние элемента в нейронном экране БО связаны пзакмотормозпьшп связями. Б силу этого изолированный возбужденный элемент (ансамбль 1-го типа) не испытывает действия торможения, центральные элементы ансамблей 2-го, 3-го, 4-го и 5-го типа испытывают торможение величина которого пропорционально увеличивается от 2-го к 5-му типу. Следовательно, для образования более крупных ансамблей необходимо более сильное возбуждение -большие величины весов возбуждающих синаптпческпх входов.

1

2

Ш

Р

4

#

В Ч ^ЕР

ЕЬ ей

Г0 С§'

О - возбужденный элемент нейронного экрана

Рис. 3. Возможные гиды нейронных ансамблей па нейронном экране: 1) ансамбль 1-го типа,' 2) ансамбль 2-го типа, 3) ансамбль 3-го типа, 4) ансамбль 4-го типа, 5) ансамбль 5-го типа.

Назовем нейронной мозаикой неаддитивиую суперпозицию всех ансамблей нейронного экрана. Неаддитивность понимается в том смысле, что ансамбли могут пересекаться, т.е. один и тот же возбужденный нейрон может принадлежать более, чем одному ансамбль) В разработанной системе тип ее реакции определялся мозэикоп нейронной активности, т.е. пространственным распределением активности на нейронном экране БО.

В завнашости от того, какой тип ансамблей преобладает в нейронной мозаике экрана БО в момент I , было определено пять типов мозаик, каждая из которых характеризовалась величиной

где Nj ( t) - число ансамблей j-ro типа на нейронном экране;

Nj° - нормирующий коэффициент для ансамблей j-ro типа.

При выходе из строя некоторого, числа элементов нейронного экрана БО тип реакции системы С не будет изменяться до тех пор, пока неравномерное по j уменьшение величин N, (t) в (9) не приведет к изменению типа мозаики. После этого система будет дообучаться" за счет изменения весов возбуждающих саязей таким образом, чтобы восстановить на оставшихся элементах прежний тип мозаики и снова проявлять "правильную" реакцию.

Структура ВБ организована таким образом, чтобы установить (заимно-однозначное соответствие между множествами { м,} и { R,}, .е., если на нейронном экране БО в момент t имеет место мозаика

, то система проявляет реакцию R ( t ) = Rj ( j = 1.....5 ).

Для того, чтобы преобразовать вид мозаики нейронной активности <Ю в тип реакции системы С , в блоке выходных реакций имеются <1ПЭ со специально организованными рецептивными полями (РП). 'П НПЭ блока выходных реакций было определено как группа из 1ятн соседних элементов нейронного экрана БО, синаптически вязанных со входами этого НПЭ. В зависимости от характера синаптических связей различались пять типов РП, изображенных на ,;с. 4а, где светлым клеткам соответствуют элементы экрана БО, тющие возбуждающие синапсы на данном НПЭ блока Выходных >еакций, а темным клеткам - элементы экрана, дающие тормозные -инапсы на данном НПЭ.

Третья глава посвящена разработке и исследованию критериев ■цепки качества и надежности работы системы при повреждении части е элементов. Получена оценка верхней и нижней границ длины »бучающей выборки для данной системы.

M,(t) (j =1.2.....5) :

M j <t)

ш / — —

К

0

115

— 1 1

У

П - возбуждающие элементы РП. Ы - тормохчщие элементы РП.

Рис. 4. а)Тнпы РП НПЭ в ПП: I) РП 1-го типа, 2) РП 2-го типа, 3) РП 3-го типа, 4) РП 1-го тина, 5) РП 5-го типа, б) Участок "дороги" с положат..:*; системы С п точке 0 и типы реакции системы при дшпкенин по "дороге". Темная полоса изображает препятствие.

В четвертой главе рассматривается программная реализация разработанной системы, имитирующая избегание препятствий подвижным роботом, и результаты вычислительных экспериментов.

В качестве примера функционирования системы рассматривалось упрощенное формальное представление "движения" по "дороге с препятствиями".

"Дорога с препятствиями" играла роль среды Е. На "дороге" задавалась координатная сетка с единичным шагом. Участок "дороги'" с положением системы в точке "О" показан на рис. 46. Находясь в этом положении, система воспринимает информацию об участке дороги с координатами х=1 и у с [4,3, 2, I, О, -1, -2, -3, -4 } в системе координат, привязанной к положению системы. Если в точке с Координатами (1,у) расположено "препятствие", то это соответствует значению входного сигнала х, = I , если "препятствии" отсутствует, то г, = 0. Входной вектор системы X , характеризующий входную ситуацию, содержал девять компонент. Последовательность сигналов

X, во входном векторе х необязательно должна была соответствовать 'топике" пространства, а могла быть задана произвольно, но с сохранением взаимно-однозначного соответствия меэду воспринимаемыми точками и компонентами вектора. Па примере, приведенном на рис. 46, в случае соответствия последовательности компонент топике пространства, входной вектор определен как X =(1,0,1,1,0,0,1,1,1).

В каждый такт времени система С может проявить одну из пяти реакций. Реакции R, соответствует переход системы из точки с координамн (0,0) в точку с коордннами (1,2), реакции а г - в точку с координамн (1,1), реакции rs - в точку с коордннами (1,0), реакции r4 - в точку с координамн (1,-1), реакции r, - в точку с координамн (1,-2).

Сигнал отрицательного подкрепления характеризует "столкновение с препятствием". W (R,) = 0 если, проявив реакцию Rj, система попадает в незанятую "препятствием" область. Когда точка с координатами по ходу движения системы зашгга препятствием, то W(Rj) увеличивается пропорционально расстоянию до ближайшей области, в KOTopoii препятствие отсугствует. Для приведенного на рис. 46 примера: \V(R,)=2; w (R,) = I; W (R,) = o ; w ( r4 ) =o ; W(R5)=!.

Правило ДВИЖСН1И по "дороге^ следующее: если, проявив реакцию, система "сталкивается с препятствием", она возвращается в исходную позицию, что обеспечивает неизменность среды в случае отрицательного подкрепления; если она попадает в незанятую "препятствием" область, то остается в ней и воспринимает новый вектор, соответствующий следующей ситуации на "дороге". Алгоритмы системы, описанные и предыдущих разделах, реализованы при следующих значениях параметров:; размерность входного вектора н~-9; число реакций к=5; число выходов БК f. - 6 ; минимальное значение синаптического Ееса l^ -o ; максимальное а=»5; параметр Да =1 ; порог НПЭ ©0 «и; размгр нейронного экрана ш х m -10 х- ю элементов; параметр! а 1 ; нормирующие коэффициенты: N? N°=2S; Nj=i2; N®>7;

Расположение "препятствий" на "дороге" задавалось произвольно генератором псевдослучайных.чнсел.

Моделирование поведения систеЯ!Ы осушесгвлялось при помощи разработанной программы RIGA-1. Программа была реализована на языхе Си для IBM PC AT. Программа предусматривала возможность "удаления" или "выхода из строп" произвольного участка нейронного экрана БО в заданный момент времени.

Па рис. 5. приведены результаты имитационных экспериментов на ЭВМ.

Л г 3 Э3243П138г44АЭ13311Э4334322222244 4*«5 4

Тж 1 1 1Э I 14 1 1 1 О 34 П 118 1 1Я4 33Э44Э 1 JO О 1 ГГЭ 1 1 1 1 7 1 1301 11 1

UJ .i ti 3 □ □ 11

ri г; i

о £}~

' r^ П г

_»«al miíhmmmJ b

□ J i ^ □ p

3|>í, i j PWB

_LotJ

П П ?"'

зиша m ш шшап о а

OS-

J ьп > • и

„jn шло

□ □□ -

-i t"-'

rs"

ШШШ зеезезез na o ra □

жтттл es

ШЖ1 . □ ЕИ2И П

□ I-I у а с r J m

П' í'-.-i pri ra

Д T-1I --j -1-1* _ ti ,|> fi f >J Л In«

ГЯ_¡"1

1

Рис. 5. a) Результаты моделирования движения системы полдороге", б) Примеры мозаик нейроссти БО.

О

Траектория движения системы по "дороге с препятствиями" показана на рис.5а, последовательные положения системы обозначены точками. Движение идет слева направо. На рис. 55 приведены примеры мозаик активности нейронной сети БО для тех тактов времени, когда система прояаляла правильные реакции (отсутствие "столкновения"). Светлые квадраты на рис. 56 обозначают возбужденные (уровень выхода выше порога) элементы сети. Более темными квадратами показаны невозбуждеиные (уровень выхода ниже порога) элементы, а черным цветом отмечены вышедшие из строя элементы нейросети. На рис. 56 1 - изображена активность элементов нейронного экрана в случае реакции я =Р., (видно преобладание ансамблей 3-го типа), 2 - а случае реакции к =11,, на 3 - в случае реакцнг к = ¡14. Можно заметить, что система обучалась, "сталкиваюсь с препятствиями", до положения • х =26 отмечено стрелкой. Обучившись, она начала "правильно" реагировать за один такт I, т.е. лишаться, обходя "препятствия". Причем, каждой ситуации стала соответствовать определенная мозаик:» нейронного экрана БО, а

u

каждой мозаике БО, соответственно, определенный тип поведения системы во внешней среде .

В положении х=30 , отмеченом стрелкой, была выведена "из строя" часть элементов экрана БО. -В данном положении система вновь перестала "видеть" препятствия. Затем, после некоторого периода "дообучения", система вновь движется без "сголкповсшШ", формируя необходимую мозаику в оставшейся части экрана БО.

N

900 S03 700 GOD 503 400 300 200 1Ш>

а)

Кап : 50; SO 70 «0

. 50'

- «<

»

-

• ' 10

б)

1 < 3

1 3 3 4 3 в 7 « 9 10

■О 30 30 40 М 60 70

Рис 6. а) Зависимость от количества компонент входного вектора :

1 - числа разрешимых входных векторов;

2 - числа различных входных векторов, необходимых

для полного обучения системы, б) Зависимость среднего числа столкновений К „ от величины обучающей выборки Ч ¿5 по результатам имитационного моделирования:

1 - в случае идеальной обучающей выборки;

2 - в случае нормальной работы системы;

3 - в случае "выхода из строя" части элементов системы.

Некоторые количественные результаты проведенных имитационные экспериментов представлены на ряс.. 6. Рис 6а отражает: 1 -количество N допустимых входных векторов в случае изменения кол'.гчества компонент входного вектора ог 4 до 10; 2 - количество L различных входных ситуаций необходимых для полного •обучения системы, чтобы она могла правильно реагировать во всех* N допустимых ситуациях. В случае идеальной обучающей выборки, как показано на рис. 66, число столкновении системы с препятствиями

уменьшается до нуля после предъявления более 35 различных входных векторов, что соответствует полученной оценке для депяршерного входного вектора. График 2 на рис. 66 характеризует среднее количество столкновений системы с препятствиями после предъявления за период обучения t ^ различных входных векторов с помощью датчика псевдослучайных чисел. Поскольку в данном случае, в отличие от идеальной выборки, неизвестен набор входных векторов, то несмотря на увеличение дл!шы обучающей выборки, количество столкновений системы с препятствиям», соответствующее в данном случае перестройкам МП?* БО , к среднем не уменьшается до нуля. В случае "выхода из строя" части элементов системы после предъявления обучающей пыборки график 3 на рНс. 66 с ростом t „Q среднее число столкновений системы возрастало незначительно.

Результаты имитационных экспериментов па ЭВМ при помощи описанной программы показали работоспособность заложенных в систему алгоритмов.

В заыючепии обсуждаются основные свойства разработанной системы, обладающей адаптивным поведением в неопределенной среде и устойчивостью к повреждающим воздействиям, и ее преимущества по сравнению, с известными аналогами. Делается вывод, что применение предложенных и исследованых алгоритмов наиболее эффективно в тех случаях, когда число входных сигналов системы велико при их низкой априорной информативности.

РЕЗУЛЬТАТЫ, ПРЕДСТАВЛЕННЫЕ К ЗАЩИТЕ.

1. Предложена математическая модель ненросетсвой системы, обладающей адаптивным поведением в неопределенной среде и устойчивостью к повреждающим воздействиям.

2. Разработаны и исследованы алгоритмы быстрого обучения (с подкреплением от внешней среды), классификации и генерализации входных паттернов и ансамблевого кодирования выходных реакций системы.

3. Разработан комплекс программ, описывающих модель, и проведены численные исследования поведения модели п задаче, имитирующей обход препятствий подвижным роботом.

4. Обосновывается возможность применения разработанной модели в системах управления и в качестве исследоиагельской программы /uní имитационного моделирования структурно-функциональной организации реальных нейронных сетей.

Результаты диссертации олдОликолазш в следующих работах:

1. А.В.Головань, И.А.Рыбак Моделирование обучающейся нейронной структуры, взаимодействующей со средой. Сб. "Методология системных исследований", Москва, 1985, 72-73.

2.: В.Н.Ефимов, И. А. Рыбак, А.ВХоловань, Н.А.Шсвцова Математическое моделирование нейронной организации стрнпркой коры. Тезисы докладов всесоюзного симпозиума "Зрение организмов н роботов", Вильнюс, 19S5, т.26, 48.

3. А.В.Головань, В.Г.Маркаров, И.А.Рыбак Математическое моделирование выделения признаков в процессе анализа изображения. Сб."Механизмы интеграции биологических систем. Проблема адаптации", Ростов-на-Дону, 1986, 146-147.

4. А.В.Головань, И.А.Рыбак, В.В.Ефимоа . Нейронная структура с обучением по подкреплению. Сб."Бкоиика и биомсдкибернстика -85", Материалы всесоюзной конференции, Бионика, Ленинград,'1986, 31-33.

5. А.Б.Кога:г, И.А.Рыбак, А.В.Гсловапь, И.А.Шевцова, В.К.Ефимов Моделирование обучающейся системы с формированием поведения на основе мозаика иейоонного экрана. Дсп. в ВИНИТИ, б!04, 3-86, 2S.06.1SS6, 1-35.

6. А.В.Головань, К.А.Шевцова, ИАРыбак Моделирование iiz ЗВМ обучающейся нейронной структуры с поведением, определяемым пространственной организацией активности элементов. Сб."Сравнительнак физиология высшей нервной деятельности человека и животных", I, Москва, 1988, 20-21.

1. И.А.Рыбак, Н.А.Шевцова, А.В.Головань Компьютерное моделирование нейронной организации локальных структур зрительной коры мозга. Сб. "Проблемы нейрокибернетики". Ростов-на-Дону, 1989, 368.

8. AV.Golovan, T.M.Bogatyryova, LA.Rybak, A.B.Kogan A neural network system learning by negative reinforcement. In Proc. Int. Workshop "Neurocomputers and Attention", Moscow, Sept. 1S-22, 1989. Pushchino, 110-111.

9. Т.М.Богатырева, АВ.Головань, И.А.Ры5ак Нейронная структура со стохастическим алгоритмом обучения. В сб. "Моделиране и симулане на човешката памет. МНЕМО'89 Резкзмста". Стара Загора (НРБ), 1989, 45-46.

10. Golovari A. Ensemble coding in neural network system learning by-negative reinforcement. Proc. Sccond Int. Symp. on Neuroinfonnatics and Neurocomputcrs, Russia, Rostov-on-Don, 1995, 210-216.