автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Обучение спайковых нейронных сетей на основе минимизации их энтропийных характеристик в задачах анализа, запоминания и адаптивной обработки пространственно-временной информации
Автореферат диссертации по теме "Обучение спайковых нейронных сетей на основе минимизации их энтропийных характеристик в задачах анализа, запоминания и адаптивной обработки пространственно-временной информации"
На правах рукописи УДК 004.032.26, 004.852
Синявский Олег Юрьевич
ОБУЧЕНИЕ СПАЙКОВЫХ НЕЙРОННЫХ СЕТЕЙ НА ОСНОВЕ МИНИМИЗАЦИИ ИХ ЭНТРОПИЙНЫХ ХАРАКТЕРИСТИК В ЗАДАЧАХ АНАЛИЗА, ЗАПОМИНАНИЯ И АДАПТИВНОЙ ОБРАБОТКИ ПРОСТРАНСТВЕННО-ВРЕМЕННОЙ ИНФОРМАЦИИ
Специальность: 05.13.17 "Теоретические основы информатики"
диссертации на соискание учёной степени кандидата технических наук
АВТОРЕФЕРАТ
4843953
МОСКВА
1 4 ДПР 2011
2011 г.
4843953
Работа выполнена в Московском Энергетическом Институте (ТУ) на кафедре теоретической механики и мехатроники.
Научный руководитель: доктор физико-математических наук,
профессор Александр Исаакович Кобрин Официальные оппоненты: доктор физико-математических наук
Владимир Георгиевич Редько НИИСИ РАН
доктор технических наук
профессор Людмила Георгиевна Комарцова,
КФ МГТУ им. Н. Э. Баумана
Ведущая организация:
ИПМ им. М.В. Келдыша РАН
Защита состоится "22" апреля 2011 г. в 16.00 часов на заседании диссертационного совета Д212.157.01 при Московском Энергетическом Институте по адресу: Москва, Красноказарменная ул., д. 17, ауд. Г-306.
С диссертацией можно ознакомиться в библиотеке Московского энергетического института (Технического университета).
Отзывы в двух экземплярах, заверенные печатью, просьба направлять по адресу: 111250, Москва, Красноказарменная ул., д.14, Ученый совет МЭИ
(ТУ).
Автореферат разослан "21" марта 2011 г.
Учёный секретарь диссертационного совета Д212.157.01
кандидат технических наук
доцент
М.В. Фомина
I. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Искусственный нейрон - устройство для переработки многомерной информации, использующее бионические принципы. Биологические нейроны для обмена сигналами используют пиковые импульсы напряжения - спайки. В искусственных нейронных сетях для передачи информации между элементами используются различные типы сигналов, которые с разной степенью детализации описывают потоки спайков. Наиболее широко распространено использование числового сигнала, описывающего частоту появления спайков (частотные нейронные сети), например, в сетях сигмоидальных нейронов с обратным распространением ошибки. Другим типом искусственных нейронных сетей являются спайковые нейронные сети. Нейроны в таких сетях общаются между собой с помощью точечных идентичных событий, называемых спайками по аналогии с биологическими нейронами. Все спайки одинаковы по амплитуде. Информация, получаемая нейроном из спайка, содержится в его времени прихода, а также номере входного канала.
Использование снайковых нейронных сетей в практических приложениях приобретает все большую популярность в связи со следующими их преимуществами:
1) Использование времен спайков как основной информационной составляющей сигнала позволяет естественным образом обрабатывать временную потоковую информацию в таких задачах, как прогнозирование, распознавание быстро Чдвизкущихся объектов, управление. Изменение состояния спайкового нейрона описывается дифференциальными уравнениями. Это позволяет использовать кратковременную память отдельных нейронов без введения дополнительных структур (временных задержек, рекурсивных связей) для обработки временной составляющей в таких задачах.
2) Дальнейшее развитие вычислительной техники связывают с ростом параллелизма вычислений. Для передачи спайка между- узлами высокопараллелыюй вычислительной машины (нейрокомпьютера) требуется передать всего 1 бит (в отличие от частотных нейронов, где требуется передавать непрерывные величины). Для функционирования спайковых нейронов не требуется синхронизация элементов вычислительной машины. Данные особенности значительно увеличивают эффективность и уменьшают сложность нейрокомпьютеров.
3) В работах [Rieke F., 1997, Maas W., 1997]1'2 показано, что спайковые нейроны способны решать задачи частотных и бинарных нейросетей, включая задачи интерполяции непрерывных функций, кластеризации. Однослойные спайковые нейронные сети способны решать некоторые задачи нелинейной классификации (типа "исключающего ИЛИ"). Обучение спайковых нейронов может происходить одновременно с их функционированием.
4) Большая близость спайковых моделей к биологическим нейронам позволяет напрямую использовать бионические принципы при решении практических задач и, наоборот, применять спайковые нейроны как инструмент развития знания о мозге.
Однако в настоящее время использование спайковых нейронных сетей ограничено в связи с недостаточно развитым математическим аппаратом их обучения. В основном используются разнообразные эвристические правила обучения спайковых нейронов, не гарантирующие решения поставленных задач. Построение методов обучения спайковых нейронов, унификация описания различных видов обучения нейронов в рамках единого математического аппарата - актуальная теоретическая задача. Ее решение позволит разработать новые и усовершенствовать существующие методы и средства анализа обработки информации и управления сложными системами, повышения эффективности, надежности и качества их работы. Построение самообучающихся спайковых нейронных сетей, способных детектировать и запоминать пространственно-временную информацию, управлять различными нестационарными объектами, в том числе, при возникновении неисправностей в активаторах и сенсорах Объекта - актуальная практическая задача. Эта задача отвечает потребностям ряда связанных с информационными технологиями отраслей: робототехники, космической техники, разработки систем безопасности.
Объектом исследования являются модели отдельных спайковых нейронов и спайковых нейронных сетей. Предмет исследования составляют процессы обучения спайковых нейронов и спайковых нейронных сетей в рамках адаптивной обработки многомерной пространственно-временной информации.
Цель работы заключается в создании методов обучения спайковых нейронных сетей, использующихся для адаптивной обработки и запоминания
1 F. Rieke, et. al. Spikes: Exploring the Neural Code.: Computational Neurosciences series. MIT Press, 1997.
2 Maas, W. Networks of spiking neurons: the third generation of neural network models. Transactions of the Society for Computer Simulation International 1997 r., T. 14,4.
многомерной потоковой пространственно-временной информации и предназначенных для решения задач распознавания и управления различными объектами, в том числе, в меняющейся внешней среде.
Методы исследования. При выполнении диссертации использоваиы понятия и методы теории информации, теории вероятностей, линейной алгебры, теории марковских процессов принятия решений, информатики, теории искусственного интеллекта, а также аппарат градиентной минимизации.
Достоверность научных результатов подтверждена теоретическими выкладками, подробно изложенными в диссертации, данными компьютерного моделирования, а также сравнением полученных результатов с результатами, приведенными в научной литературе.
Научная новизна работы.
1. На базе известной модели спайкового нейрона Spike Response Model (SRM) со стохастическим порогом создана оригинальная модель нейрона - SMRM, позволяющая гибко реагировать на пространственную и временную структуру входного спайкового потока. Построенная модель отличается специальным набором функций отклика на единичный спайк ("альфа-функции"), реализующих настраиваемый по амплитуде и задержке отклик нейрона на входные спайки на каждом синапсе нейрона.
2. Для спайкового нейрона впервые формализован процесс обучения с учителем как процесс снижения частной условной информационной энтропии, при условии, что требуемый учителем паттерн представлен в виде набора обучающих спайков. Практически значимая задача обучения с учителем по обнаружению определенного пространственно-временного спайкового паттерна впервые решена с помощью всего одного нейрона SMRM и метода снижения частной информационной энтропии. Впервые получены графики снижения частной энтропии.
3. Разработана оригинальная система временной автоассоциативной памяти, состоящая из сети взаимодействующих спайковых нейронов. Эта система использует полученные правила обучения с учителем и способна запомнить несколько спайковых паттернов и в дальнейшем восстановить их, развернув во времени, при предъявлении только начального участка паттерна.
4. Построен оригинальный метод самообучения спайкового нейрона, позволяющий успешно решать в реальном времени задачу увеличения устойчивости процесса генерации наиболее вероятного выходного паттерна путем снижения полной собственной энтропии нейрона. Впервые проведены опыты по самообучению с моделью нейрона SMRM, получены графики
снижения полной энтропии в процессе обучения. Показано, что после обучения процесс генерации наиболее вероятного выходного паттерна достигает большой степени устойчивости, а менее вероятные выходные паттерны перестают генерироваться практически полностью.
5. Впервые показано, что существующий метод обучения с подкреплением спайковых нейронов, основанный на прямой градиентной максимизации получаемого подкрепления, может быть реализован в рамках теоретико-информационного подхода к обучению. Впервые показано, что двухслойная спайковая нейронная сеть способна реализовывать поставленную задачу управления при недостатке пространственной информации, активно используя временную структуру сенсорных спайковых паттернов и внутреннюю активность сети. Произведены эксперименты с меняющейся внешней для сети средой, а также оригинальный эксперимент с подменой управляемого объекта. Показано, что одна и та же спайковая нейронная сеть способна управлять различными объектами, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта и внезапных изменениях во внешней среде объекта.
Основные положения, выносимые на защиту
1. Созданная модель спайкового нейрона SMRM со стохастическим порогом и несколькими функциями отклика нейрона на входные спайки способна более гибко реагировать на пространственную и временную структуру входного спайкового потока, чем известная модель спайкового нейрона Spike Response Model.
2. Для обобщенного спайкового нейрона формализован процесс обучения с учителем как процесс снижения частной условной информационной энтропии, при условии, что требуемый учителем паттерн представлен в виде набора обучающих спайков.
3. Разработана система временной автоассоциативной памяти, состоящая из сети взаимодействующих спайковых нейронов и использующая полученные правила обучения с учителем. Эта система способна запомнить несколько спайковых паттернов и в дальнейшем восстановить их, развернув во времени, при предъявлении только начального участка паттерна.
4. Построен метод самообучения, увеличивающий устойчивость процесса генерации наиболее вероятного выходного паттерна спайкового нейрона. Метод основан на анализе распределения вероятностей на пространстве выходных паттернов нейрона и учете свойства иерархической аддитивности полной энтропии нейрона.
5. Получены правила обучения спайкового нейрона БМЯМ с подкреплением. Правила основаны на методе прямой градиентной максимизации получаемого подкрепления.
6. Показано, что одна и та же спайковая нейронная сеть, использующая полученные правила обучения с подкреплением, способна управлять объектами различного типа, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта и внезапных изменениях во внешней среде объекта.
Практическая ценность работы. Результаты, полученные в диссертационной работе, способствуют дальнейшему развитию теоретических основ информатики, в частности, теории процессов обучения в искусственных динамических нейронных сетях, приближенных к реальным нейронным сетям живых организмов. Правила обучения нейронов - обработчиков спайковых-паттернов, а также сетей временной автоассоциативной памяти, позволяют построить системы распознавания и запоминания потоковой многомерной информации (например, для систем видеонаблюдения и робототехники). Спайковые нейронные сети, использующие алгоритмы обучения с подкреплением, позволяют управлять различными динамическими объектами, в том числе, при изменяющейся внешней среде и поломках в сенсорах и активаторах объекта.
Реализация результатов. Основные результаты диссертации были использованы при выполнении работы по гранту Российского фонда фундаментальных исследований № 08-01-00498-а.
Результаты работы используются в учебном процессе на кафедре теоретической механики и мехатроники МЭИ (ТУ) в лекциях и практических занятиях по курсам: «Микропроцессорные устройства управления роботов и их программное обеспечение», «Информационные устройства в робототехнике», «Робототехнические системы и комплексы». Разработанный автором программный пакет с удобным графическим интерфейсом для работы с адаптивными спайковыми нейронными сетями используется при построении информационных систем для создаваемых на кафедре мобильных роботов.
Разработанные в диссертации модели обучения параллельных вычислительных структур для обработки потоковой информации были внедрены в ООО «Лаборатория Трехмерного Зрения» в системах по распознаванию автомобильных номеров.
Соответствующие акты о внедрении прилагаются к диссертации.
Апробация работы. Основные результаты диссертационной работы докладывались: на 11-ой национальной конференции по искусственному интеллекту с международным участием (КИИ-2008) (Дубна, 2008); на 2-ой
российской мультиконференции по проблемам управления: 5-ой научной конференции "Управление и информационные технологии" (Санкт-Петербург, 2008); на У-ой международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2009); на XI и XII всероссийских научно-технических конференциях "Нейроинформатика" (Москва, 2009, 2010); на Тайваньско-Российском двухстороннем симпозиуме по проблемам современной механики 2010, МГУ им. М.В.Ломоносова (Москва, 2010); на 12-ом заседании Московского семинара под рук. академика А.Л. Микаэляна "Нейроинформатика и когнитивные исследования" (Москва, 2010); на 21-ом заседании семинара отдела программирования и объединенного семинара по робототсхническим системам ИПМ им.М.В. Келдыша РАН, МГУ им. М.В.Ломоносова, МГТУ им.Н.Э. Баумана, ИНОТиИ РГГУ (Москва, 2010); на семинаре «Динамика относительного движения» МГУ им. М.В.Ломоносова (Москва, 2010).
Публикации. По теме диссертации опубликовано 10 печатных работ (в том числе, в 2 журналах, рекомендованных ВАК).
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и трех приложений и содержит 149 страниц машинописного текста, включая 55 иллюстраций и список литературы из 115-х наименований.
II. СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертационной работы, сформулированы основные цели исследования, кратко изложено распределение материала по главам. Представлен аналитический обзор, посвященный краткому сравнению подходов к моделированию нейронов и типов кодирования сигнала в аналоговых и спайковых нейронных сетях, а также изложению основных существующих способов обучения спайковых нейронов. Делается вывод, что после создания математически обоснованных методов обучения спайковые нейронные сети найдут широкое применение в технических устройствах, в некоторых случаях превосходя по функциональности существующие аналоговые сети.
В первой главе введено и описано многомерное пространство отрезков спайковых последовательностей (паттернов). Единичный у-тый спайк в /'-том входном канале описывается только временем своего появления ^. Спайковый паттерн хт на интервале времени Т описывается набором времен появления всех его спайков хт = :/' = \-.n-j = \..т,}, где т- количество
спайков в / -том входном канале. Введена специальная метрика, позволяющая удобно оценивать степень близости многомерных спайковых паттернов. Расстояние между двумя спайковыми паттернами хт,ут с п каналами на интервале Т вычисляется по формуле:
где /¡^ - время у-го спайка в / -ом канале паттерна хт, - аналогично для
С применением терминов, используемых для описания функционирования биологических нейронов, введена обобщенная стохастическая модель спайкового нейрона как устройства, обрабатывающего п входных потоков спайков x{t) и генерирующего в ответ один выходной поток спайков >•(/). Обозначим q(t) набор переменных, характеризующих внутреннее состояние нейрона (например, в случае биологического нейрона, напряжение на его мембране). Обобщенная модель нейрона описывается некоторыми законами изменения его состояния во времени q(t) в зависимости от входных и выходных потоков спайков, а также мгновенной плотностью вероятности спайка в момент времени t, которая является функцией состояния нейрона: X{t) = X{q{t)). Строится вероятностное пространство выходных паттернов ут нейрона на интервале Т при условии наличия входного паттерна хт и начального состояния нейрона При этом элементарным исходом является выходной паттерн Ут={1°"'} - реализация точечного случайного процесса на конечном временном интервале Т, где tfut - времена появления спайков. Плотность условной вероятности ^-{ут^Т'Чо) генерации спайкового паттерна ут на интервале Т имеет следующий вид:
где - времена генерации выходных спайков, а влияют на изменение состояния нейрона и, следовательно, на эволюцию А(1).
Различные виды обучения обобщенной модели спайкового нейрона предлагается производить с помощью оптимизации целевых характеристик его функционирования, которые основаны на условном распределении вероятностей генерации выходных спайковых паттернов в зависимости от
и »
i -w l'4Ex'r 1'яеут
Рт{Ут\*г>Яо}= П *(?('/""))•«
т
входных паттернов и состояния нейрона. В качестве целевых характеристик предлагается использовать объекты теории информации, в частности, условную частную информационную энтропию, а также полную условную энтропию на пространстве выходных паттернов нейрона. Введенное многомерное пространство спайковых паттернов и обобщенная модель спайкового нейрона позволяют использовать методы теории вероятностей и теории информации для постановки и решения задач обучения широкого класса моделей спайковых нейронов.
Вводится новая реализация обобщенной модели нейрона: модель спайкового нейрона "Spike Multi Responses Model" (SMRM) как расширение известной модели Spike Response Model. Внутреннее состояние нейрона q(t) определяется следующим образом. Вводится основная числовая характеристика нейрона u(t), играющая роль "напряжения на мембране" нейрона. Мгновенная плотность вероятности Z(u(t)) генерации спайка нелинейно зависит от степени приближения напряжения на мембране и(1) к пороговой величине (к "стохастическому порог}'")! например, по экспоненциальному закону: X{u{t)) = е(и(')-П)1 к ^ где _ числовые
параметры. Напряжение u{t) меняется в результате прихода входных спайков (импульсных воздействий на нейрон как на динамическую систему). Влияние единичного входного спайка реализуется с помощью функций отклика (так
f ^ max
называемых "альфа-функций"): a,-(t) =-е j #(/), где /fax - время
J . ГПЭХ J
v
максимума альфа-функции, H(t) - функция Хэвисайда. Примеры графиков альфа-функций с различными параметрами tjах показаны в верхней части Рис. 1. При получении одного входного спайка на /-том входном канале в момент времени t'k запускается процесс вычисления отклика нейрона на данный спайк. Отклик на входной спайк называется "постсинаптическим потенциалом" PSPj(t) и является взвешенной суммой из т альфа-функций:
т
PSPM) = ^jajO-i), i
где w;j - вес j -той альфа-функции на / -том входном канале. Один нейрон с п
входными каналами имеет тхп весов. В большинстве экспериментов в данной работе т выбрано равным трем. Напряжение на мембране u(t)
нейрона равно сумме всех постсинаптических потенциалов от всех спайков 4
на всех п входных каналах нейрона:
«(')=! I pspM)-
С помощью альфа-функций отклика реализуется кратковременная память нейрона о входных спайках. В известной модели нейрона БИМО используется только одна альфа-функция отклика. В предлагаемой оригинальной модели 8МКМ используется взвешенный набор альфа-функций отклика на один входной спайк, что позволяет настраивать время и силу влияния входных спайков на значение напряжения на мембране. На Рис. 1 снизу изображены примеры течения постсинаптического потенциала от одного входного спайка для разных значений трех весов альфа-функций (значения весов показаны в центре графиков РЗР^)).
1
pspuj:
- \
5 - \ м{| = [1.00:0.00; 0.00]
- V
.(П -_ 1.80]
(5 - VУ1 1 1 1 1 1—1... 1_.1
(I 1(1 21) 30 40 50 60 70 N0 90 г
Рис. 1. Регулирование пространственно-временного профиля напряжения на мембране нейрона с помощью набора взвешенных альфа-функций.
Различный временной профиль постсинаптических потенциалов отражается на временном профиле напряжения на мембране «(/), что позволяет нейрону гибко реагировать не только на пространственную, но и на временную структуру входного спайкового потока.
Во второй главе для обобщенной модели спайкового нейрона поставлена и решена задача обучения с учителем. Нейрону требуется обучиться самостоятельно генерировать на интервале Т выходной паттерн у£ на основе наблюдения входного многомерного паттерна хт. Процесс
обучения основан на понижении частной информационной энтропии нейрона, что эквивалентно повышению условной вероятности генерации требуемого паттерна yf:
hT{yi|*г>?о) = -Н?т(Ут |*г.?о)) ~> min> где q0 - начальное состояние нейрона на интервале Т. Обучение ведется с помощью метода градиентного спуска.
Утверждение 1. При обучении с учителем нейрона SMRM изменение весов, увеличивающее вероятность генерации выходного паттерна yf на интервале Г, требуемого учителем, вычисляется по формуле:
где tf - времена выходных спайков в требуемом учителем выходном паттерне yf, fj - времена входных спайков во входном паттерне х'т на i -ом входном канале нейрона, индексы г,к перечисляют пхт весов нейрона, а у -коэффициент обучения.
Показано, что если процесс генерации спайков можно представить в виде марковского случайного процесса, то свойство временной аддитивности частной информационной энтропии позволяет обучать нейрон генерировать длинные выходные паттерны при помощи последовательного обучения на более коротких интервалах.
Проведено обучение с учителем нейрона SMRM в тестовой задаче соблюдения задержки между входным и выходным спайком, построены графики снижения энтропии. Проведено обучение нейрона в задаче обнаружения пространственно-временного спайкового паттерна (Рис. 2). Задача нейрона - ответить выходным спайком на эталонный входной паттерн. В верхней части Рис. 2 показаны пять входных каналов нейрона, вертикальными линиями отмечены времена входных спайков. Эталонный паттерн обведен пунктирной линией. Приведены результирующие значения весов альфа-функций для каждого из 5-ти входных каналов. В нижней части Рис. 2 показаны два выходных спайка обученного нейрона после эталонного входного паттерна (успешное обнаружение нужного паттерна, игнорирование других паттернов), приведен график изменения напряжения на мембране нейрона.
?т
' I ; I
; I
ииДн.^-..
"изс;
-И
I [«г/ = па-.-о (|.|о си]
«¡-к М:ч ж;' =■ [-ius.il о1. -
м]
и*.
Рис. 2. Результат обучения нейрона в задаче обнаружения эталонного паттерна в зашумленном 5-ти мерном потоке импульсных сигналов.
Сконструирована сеть временной автоассоциативной памяти, состоящая из взаимодействующих нейронов 8МКМ, способных запомнить несколько пространственно-временных спайковых паттернов и в дальнейшем, разворачивая во времени, восстанавливать их на основе малого количества начальных спайков этих паттернов. Запоминание временных паттернов производится с помощью полученных правил обучения спайкового нейрона с учителем. Для оценки работы памяти использовалась введенная в первой главе метрика на пространстве спайковых паттернов. Построены графики снижения расстояния между запомненным и исходным паттерном для некоторых тестовых задач запоминания. Работа памяти протестирована в задаче запоминания процесса рисования двух тестовых картинок на экране 8x15 пикселей (Рис. 3). Сеть обучилась предсказывать (восстанавливать во времени) движение виртуального карандаша художника на основе первого штриха, состоящего . всего из двух-трех начальных пикселей (1111р:/Мш\у,уоц1иЬе.сот/^'а1сЬ?у^АКНхКтЬЕхг8). Показано, что при специальном выборе параметров обучения нейронная сеть служит аналогом кратковременной памяти (http://,www.voutube.com/vvaích?v=NaTEKBЗfL5w). Она запоминает процесс рисования всего с одного раза, однако емкость памяти падает, и сеть не способна хранить более одной картинки, если в них перекрываются пиксели.
Процесс рисования оригинальных картинок
иьл-
III
Восстановление процесса рисования по начальным штрихам
II
II
II Й
..^ИМШИИ^*
Первая линж^эисунка
I 11— и 11 I
■шинмт
Сеть
автоассоциативной памяти
отсутствующий пиксель
Рис. 3. Запоминание развивающегося во времени процесса рисования тестовых картинок. Стрелками показано движение виртуального карандаша во
времени.
Произведен выбор оптимальных параметров альфа-функций нейрона вМЯМ для задачи детектирования паттерна, способствующий высокой средней скорости обучения обнаружению паттернов с различной временной структурой.
В третьей главе поставлена и решена задача самообучения нейрона с целью увеличения устойчивости процесса генерации выходных паттернов (уменьшения неопределенности). В качестве меры неопределенности взята полная информационная энтропия нейрона на всем.-пространстве выходных паттернов:
нт = Е р{Ут\хт,%}КУт\хт>Яъ)-*т[т1
Построен оригинальный метод самообучения, позволяющий приближенно решать в реальном времени поставленную задачу увеличения устойчивости в предположении малой выходной частоты нейрона. Пусть ?? и
/г некоторые моменты в дискретном времени моделирования, лежащие внутри интервала времени [О,Г]. Вводится «упрощенное» пространство событий на интервале состоящее из паттерна без спайков у^ ( ^ а также из всех
выходных паттернов у^ , ](/), в которых первый спайк происходит в момент г, и произвольного количества спайков после момента /. Пусть Щ ^ -
полная условная энтропия такого множества. Используя свойство иерархической аддитивности энтропии, показано, что при условии больших
интервалов между выходными спайками полная энтропия Г] на интервале [О, Г] приближенно равна:
где ti - моменты генерации выходных спайков, - константа, зависящая от времени кратковременной памяти нейрона (от продолжительности действия функций отклика). Изменение весов ведется с помощью метода градиентного спуска.
Утверждение 2. При самообучении нейрона с целью увеличения устойчивости генерации выходных паттернов из упрощенного пространства событий изменение весов вычисляется по формуле:
. К,,», 1 ^йл]» „,-о , п и-а чч ок(уг, , Л/))
-г I •щ^т-а-щ^т,
.. . оЫу)
где И{у) - частная энтропия, а —— - элементы градиента частной энтропии,
метод вычисления которого описан во второй главе, "
вероятность выходного паттерна ш'ага моделирования, у -
коэффициент обучения.
Были проведены опыты с моделью нейрона БМГШ, построены графики снижения полной энтропии в процессе обучения, показано, что после обучения процесс генерации наиболее вероятного выходного паттерна достигает большой степени устойчивости, а менее вероятные выходные паттерны перестают генерироваться практически полностью. Разработан оригинальный комплексный подход для ускорения обучения спайкового нейрона с учителем, сочетающий описанные выше методы обучения с учителем и самообучения. Рассматривается пример применения комплексного подхода для ускорения обучения модели спайкового нейрона на тестовой задаче соблюдения задержки между входным и выходным спайком.
В четвертой главе спроектирована и описана структура спайковой нейронной сети для управления интеллектуальным агентом, использующая принцип сенсорной обратной связи в виде потока спайков положительного и отрицательного подкрепления, исходящих от внешней среды. Правила обучения, основанные на снижении информационной энтропии, обобщены для случая обучения с подкреплением.
Утверждение 3. При обучении с подкреплением предложенной модели нейрона ЭММУ! изменения весов, максимизирующие среднюю получаемую системой награду, вычисляются по формулам:
dwa dt
= К I S{t-tr)-^8{t-tp))zikit)
reward
pain
ГеУт
mo)
tjGXT
5 и
где 5(0 - дельта-функции, гг,/р - времена прихода положительного и отрицательного подкрепления, %(/) - функция сенсорной истории, т, - время забывания сенсорной истории, у - коэффициент обучения.
Функция сенсорной истории накапливает градиент энтропии в направлении максимизации вероятности генерации недавно сгенерированных спайков у при условии появления входного потока спайков При этом происходит забывание старой части паттерна у, и наибольшее влияние имеют недавно сгенерированные участки паттерна у. При приходе модулирующего сигнала веса изменяются пропорционально значению функции сенсорной истории. При положительном подкреплении происходит уменьшение частной энтропии недавно сгенерированного выходного паттерна, а при отрицательном подкреплении - увеличение его частной энтропии.
Методы обучения с подкреплением для спайковых нейронных сетей протестированы в нескольких модельных задачах управления (Рис. 4).
Активаторы
Активатрр
Наград
Модудирующи выходы среды
III щй
Среда А
Управляющие сигналы
Сенсоры скоростей робота ^Детекторы
стен Сенсоры "направления на мяч Сенсоры угла Модулирующие робота выходы среды ^рвОЭ н
Сенсорные сигналы и >1 подкрепления
Сеть из 16-ти правляющи нейронов
щ
управляющих-»rnl^JÈZb rx.Smt , ' m aM. w^Mai^^qi
Рис. 4. Вид тестовых сред и объектов, управляемых спайковой нейронной сетью
Реализовано управление интеллектуальным агентом в дискретной среде. Задача агента - поиск ресурсов в среде с помощью использования
сигналов от визуальных сенсоров. Исследованы различные конфигурации управляющих сетей. Показано, что двухслойная спайковая нейронная сеть способна реализовывать поставленную задачу управления при недостатке пространственной информации, активно используя временную структуру сенсорных паттернов (Ьйр://\у\ууу.'youtube.com/wateh ?у=аЕоУупг70Ук). Произведены эксперименты с меняющейся внешней средой: при внезапной поломке активаторов агента сеть вскоре нашла новую стратегию управления, также приводящую к получению награды. Были проведены эксперименты с обучением управлению моделью колесного робота-футболиста. При моделировании игры роботов-фугболистов использовался аппарат неголономной механики и теория удара. Робот-футболист должен был совершить удар по мячу, используя сенсоры направлений на мяч, датчики скоростей колес игрока и детекторы стен игрового поля. Спайковая нейронная сеть, использовавшаяся для управления агентом в дискретной среде, успешно обучилась решать данную задачу управления нелинейной динамической системой (ЬОр://шУ'№.уоиШЬе.сотАуа1с11?у=.1хШВ6п4КЬ\у).
Построены графики получаемого системой подкрепления при возникновении поломок, изменений внешней среды и смены управляемого объекта (Рис. 5). Для построения графиков на Рис. 5 использовалась однослойная управляющая сеть размером 16 нейронов. Вначале данная сеть обучилась управлять агентом в дискретной среде. Стрелками А и В показано время возникновения различных поломок в активаторах агента. В момент события С входы и выходы сети переключаются на управление роботом-футболистом. После возникновения таких событий сеть успешно переучивалась управлять измененным объектом, а количество пол}'чаемой награды возрастало после некоторого периода переобучения.
Рис. 5. Графики получения управляемой системой «награды» и «боли» (слева) и суммарного подкрепления (справа).
В заключении представлены основные результаты, полученные в диссертационной работе.
В приложении 1 описывается архитектура созданного программного обеспечения для конструирования и анализа спайковых нейронных сетей. Приложение 2 посвящено описанию реализации моделирования футбола колесных роботов с использованием аппарата неголономной механики, а также теории упругих и неупругих соударений. Приложение 3 содержит акты о внедрении результатов работы.
111. ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Произведено обобщение различных частных моделей спайковых нейронов, что позволило поставить основные задачи обучения (обучение с учителем, самообучение и обучение с подкреплением) в терминах минимизации энтропийных характеристик работы нейрона.
2.Построена оригинальная модель спайкового нейрона SMRM со специальным набором альфа-функций на каждом входном синапсе и стохастическим порогом, способная гибко реагировать на пространственную и временную структуру входного спайкового потока.
3. Показано, что с помощью полученных правил обучения спайкового нейрона с учителем, основанных на минимизации частной информационной энтропии в пространстве всех выходных паттернов, спайковый нейрон способен решать задачу обнаружения пространственно-временного спайкового паттерна.
4. Разработана сеть временной автоассоциативной памяти, состоящая из взаимодействующих спайковых нейронов SMRM и использующая полученные правила обучения нейронов с учителем. Эта сеть способна запомнить несколько спайковых паттернов и в дальнейшем восстанавливать их, разворачивая во времени, на основе начальных спайков.
5. С помощью полученного оригинального метода самообучения, основанного на минимизации полной информационной энтропии, спайковый нейрон способен увеличивать устойчивость процесса генерации наиболее вероятного выходного паттерна. Разработан оригинальный подход для ускорения обучения спайкового нейрона с учителем, использующий полученный метод самообучения.
6. Получены правила обучения с подкреплением для спайкового нейрона SMRM, основанные на методе прямой градиентной максимизации получаемого подкрепления.
7. Показано, что одна и та же спайковая нейронная сеть, использующая полученные правила обучения с подкреплением, способна управлять объектами различного типа, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта и внезапных изменениях во внешней среде объекта.
8. Создана учебно-научная программа с развитым интуитивно понятным графическим интерфейсом и макроязыком, предназначенная для конструирования и анализа спайковых нейронных сетей.
Список публикаций по теме диссертации
1. Sinyavskiy O.Y., Kobrin A.I. Generalized stochastic spiking neuron model and extended Spike Response Model in spatial-temporal impulse pattern detection task // Optical Memory & Neural Networks (Information Optics). - Allerton press, 2010. - Vol. 19. - No 4. - P. 300-309.
2. Синявским О.Ю., Кобрин А.И. Обучение сиайкового нейрона с учителем в задаче детектирования пространственно-временного импульсного паттерна // Нейрокомпьютеры: разработка и применение. - М. Радиотехника, 2010. -№8. - С. 69-76.
3. Sinyavskiy O.Y. Autoassociative spatial-temporal pattern memory based on stochastic spiking neurons //Annals of DAAAM International Symposium. -2010. - P. 121-122
4. Sinyavskiy O.Y., Kobrin A.I. Construction of adaptive robot control system and robot sensor information processing using spiking neural networks //Proceedings Taiwan-Russian Bilateral Symposium on Problems in Advanced Mechanics. - Moscow State University, 2010. - P. 218-227.
5. Синявский О.Ю., Кобрин А.И. Использование метода обучения с подкреплением в спайковых нейронных сетях в системе управления роботом // Труды 7-ой научно-технической конференции «Мехатроника, Автоматизация, Управление» (МЛУ-2010). - Спб. 2010. - С. 361-364.
6. Синявский О.Ю., Кобрин А.И. Понижение неопределенности времен генерации спайков с помощью минимизации полной условной энтропии нейрона // XII Всероссийская Научно-Техническая Конференция "Нейроинформатика-2010". Сборник Научных Трудов. - М., 2010. - С. 276-285.
7. Синявский О.Ю., Кобрин А.И. Использование информационных характеристик потока импульсных сигналов для обучения спайковых нейронных
сетей // Интегрированные модели и мягкие вычисления в искусственном интеллекте (2009 г.) Сборник научных трудов. - 2009. - Т.2. - С. 678-687.
8. Синявский О.Ю., Кобрин А.И. Обучение спайковых нейронных сетей работе с нестационарными импульсными последовательностями //XI Всероссийская Научно-Техническая Конференция "Нейроинформатика-2009". Сборник Научных Трудов. - МИФИ, М., 2009. - С. 139-149.
9. Синявский О.Ю., Кобрин А.И. Обучение динамических нейронных сетей работе с нестационарными импульсными последовательностями // Российская ассоциация искусственного интеллекта КИИ-2008 Одиннадцатая национальная конференция по искусственному интеллекту с международным участием. Труды конференции. - М., "Ленанд", 2008. - Т. 1. - С. 251-259.
10. Синявский О.Ю. Принципы построения универсальной программы для работы с искусственными нейронными сетями //Труды международной конференции "Современные проблемы математики, механики и информатики". -ТулГУ, 2005.-С. 121-127.
Подписано в печать С> // Зак. Щ Тир. П.л. Ш Полиграфический центр МЭИ (ТУ) Красноказарменная ул., д. 13
Оглавление автор диссертации — кандидата технических наук Синявский, Олег Юрьевич
Введение.
Глава 1. Обобщенная модель спайкового нейрона.
1.1. Описание спайковых последовательностей.
1.2. Метрика на пространстве паттернов.
1.3. Обобщенная модель спайкового нейрона.
1.4. Постановка задач обучения нейрона с помощью теории информации.
1.4.1. Обучение обобщенного спайкового нейрона с учителем.
1.4.2. Самообучение обобщенного спайкового нейрона.
1.4.3. Обучение с подкреплением обобщенного спайкового нейрона.
1.5. Модель спайкового нейрона "Spike Multi Responses Model".
Глава 2. Обучение спайкового нейрона с учителем.
2.1. Метод обучения с учителем с помощью снижения частной энтропии нейрона в дискретном времени.
2.2. Реализация методов обучения спайкового нейрона с учителем.
2.3. Задача соблюдения задержки между входным и выходным спайком.
2.4. Задача распознавания входных паттернов.
2.5. Временная автоассоциативная память.
2.5.1. Графические обозначения для описания структуры спайковых нейронных сетей.
2.5.2. Обучение временной автоассоциативной памяти.
2.6. Метод обучения с учителем с помощью снижения частной энтропии нейрона в непрерывном времени.
2.7. Зависимость изменения веса от разницы времен между спайками.
2.8. Сходимость алгоритма обучения с учителем.
2.9. Выбор параметров альфа-функций.
2.10. Оценка вычислительного ресурса при моделировании спайковых нейронов.
Глава 3. Самообучение спайкового нейрона.
3.1. Задача самообучения нейрона на основе снижения полной энтропии выхода нейрона.
3.2. Пример самообучения спайкового нейрона.
3.3. Комплексный метод обучения нейрона.
Глава 4. Обучение спайкового нейрона с подкреплением.
4.1. Спайковая нейронная сеть как система управления.
4.2. Модель нейрона управляющей спайковой сети.
4.3. Модулированное снижение информационной энтропии.
4.4. Описание тестового виртуального агента, управляемого спайковой нейронной сетью 112 4.4.1. Описание процесса обучения виртуального агента.
4.4.2. Различные конфигурации управляющих сетей.
4.4.3. Управление агентом в виртуальной среде большой размерности.
4.5. Описание тестовой модели робота-футболиста, управляемого спайковой нейронной сетью.
4.6. Адаптивное управление разнородными объектами при возникновении изменений во внешней среде.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Синявский, Олег Юрьевич
Реальный биологический нейрон - сложнейшая биохимическая система [1], оперирующая с непрерывно поступающим многомерным потоком импульсов напряжения -спайков. Последовательности спайков поступают на синапсы нейрона, при этом сам нейрон также генерирует на выходе последовательность спайков, которые распространяются по его выходному отростку - аксону. Если целью моделирования нейрона является изучение его реальной нейрофизиологии, то в модели приходится учитывать множество деталей работы нейрона (в том числе, динамику мембраны нейрона, как возбудимой динамической системы, пространственное устройство отростков нейрона и др.). Однако в рамках кибернетики и компьютерных наук, ориентированных на практические приложения, остро стоит вопрос о том, какие черты биологических нейронов позволяют решать нейронным сетям практически важные задачи (такие как задачи распознавания образов и задачи адаптивного управления), а какими свойствами реального биологического нейрона при моделировании можно пренебречь с целью построения быстрых и эффективных искусственных нейронных сетей. Также в настоящее время ведется множество дискуссий о так называемом вопросе «нейронного кода» [2]: какая характеристика потока спайков действительно несет полезную информацию, а что является лишь вспомогательным механизмом, служащим, например, для увеличения помехоустойчивости каналов связи между нейронами.
Исторически первыми кибернетическими моделями нейронов были упрощенные спайковые нейроны Мак-Каллока - Питса [3], называемые бинарными нейронами. Моделирование сети бинарных нейронов ведется в дискретном времени. На каждом шаге моделирования нейрон выдает бинарный сигнал: «1» - выходной спайк, «О» - нет спайка. Сумма бинарных сигналов от входных нейронов суммируется с некоторыми весами, и если взвешенная сумма преодолеет порог, то нейрон выдает выходной спайк. Одним из первых практическую реализацию алгоритма обучения сети бинарных нейронов предложил Ф. Розенблатт ("персептрон") [4].
Дальнейшее развитие алгоритмов обучения нейронов и идеи устройства нейрона как нелинейного интегратора входных сигналов привело к созданию частотных моделей нейронов. Существуют экспериментальные подтверждения точки зрения, что в некоторых задачах, выполняемых реальными нейронами, значение имеет только частота спайков нейрона [5,6,2] (например, при первичной ассоциативной обработке сенсорных сигналов). Популярные частотные модели нейронов, базирующиеся на этой гипотезе, представляют нейрон как элемент, суммирующий частоты входных сигналов. Значение частоты нейрона представляется в виде числа, лежащего на каком-либо ограниченном интервале. Далее нейрон обрабатывает сумму сигналов (обычно с помощью нелинейной активационной функции) и выдает значение 4 своей выходной частоты, которое подается на входы других нейронов сети. Основным постулатом при обучении бинарных и частотных нейросетей считается идея Д. Хэбба [7]: если два события А и В происходят одновременно, то связь между ними следует усилить, что приведет к созданию смысловой ассоциаций между событиями. Использование данного постулата позволило Дж. Хопфилду создать нейронные сети автоассоциативной памяти [8]. Однако наибольший рывок в теории обучения частотных нейросетей произошел после появления строгих математически обоснованных методов обучения частотных нейронов [9] (например, метода обратного распространения ошибки [10], основанного на минимизации целевой функции сети). Это позволило эффективно применять данные модели в разнообразных практических приложениях [11-13].
Моделирование бинарных и частотных нейронов обычно ведется в дискретном времени, при этом выход модели нейрона не зависит от истории сенсорных входов, а зависит только от текущих параметров модели (например, весов синапсов). Один такт обучения с помощью классической процедуры обратного распространения ошибки также выполняется только на основе сигналов на текущем такте времени. Эта важная особенность предполагает, что для успешного обучения и функционирования данные типы нейронов должны обладать необходимой информацией в каждый момент времени, и в оригинале они предназначены для обработки только пространственной информации. Однако в практических приложениях часто необходимо работать с информацией, имеющей явно выраженную временную составляющую, например, в задачах прогнозирования, распознавания движущихся объектов, адаптивного управления. Данные требования привели к созданию моделей частотных нейронных сетей, использующих различные способы перевода временной информации в пространственную, и в то же время способных обучаться с помощью проверенных методов градиентной минимизации весовых функций. Примером таких сетей является сеть с задержками [14], а также рекурсивные частотные сети, использующие процедуру обратного распространения ошибки во времени [15]. Кроме того, существуют успешные модифицированные модели частотных нейронов, использующие информацию о своем недавнем состоянии и описываемые в виде дифференциальных уравнений. Они также позволяют использовать временную структуру сигнала [16].
Параллельно с развитием частотного подхода в нейрофизиологии накапливались свидетельства, что, по крайней мере, некоторые нейронные структуры живых организмов для кодирования сигнала используют точное время прихода спайков [17,18]. В работах [19,20] показано, что скорость распознавания визуальных образов при обработке в многослойной зрительной системе животных не может быть обоснована в рамках частотных моделей -нейроны просто не успеют накопить нужное количество спайков от предыдущих слоев для 5 получения значения входной частоты спайков и надежной обработки визуального стимула. В работе [21] показано, что даже один спайк нейрона может повлиять на дальнейшую работу сети. В работе [22] показано, что в некоторых структурах мозга происходит перекодирование информации из частотного во временной код. Огромный вклад в обоснование важности точных времен прихода спайков дало открытие в конце 90-х годов явления Spike Timing Dependent Plasticity [23] (STDP) - изменения весов синапса в зависимости от точного времени прихода входного спайка и времени генерации выходного спайка. Явление STDP является обобщением правила Хэбба: если событие А произошло раньше события В, то связь между А и В нужно усилить. Если же А произошло позже В, то связь между А и В нужно ослабить. При этом происходит создание причинно-следственных смысловых ассоциаций с учетом порядка возникновения событий во времени (в отличие от классического правила Хэбба, симметричного к временным взаимоотношениям между событиями). Обычно [1] вариабельностью амплитуды спайков и изменениями их временной продолжительности можно пренебречь и рассматривать поток спайков как последовательность идентичных событий, единственной характеристикой которых служит только время их появления в канале связи. Данные факты позволяют предположить, что обработка последовательностей спайков является одной из основных нейронных операций, выполняющихся в реальных нейронах живых организмов, а реальный нейрон способен выполнять полезные задачи по анализу многомерного входного потока импульсных сигналов. В работах [24, 2] было показано, что плотность кодирования информации (величина, которая характеризует соотношение количества информации в оригинальном сигнале и объема информации в паттерне в единицу времени) с помощью значений времен поступления спайков выше, чем при кодировании только с помощью частоты генерируемых нейроном импульсов.
Спайковый нейрон — это модель нейрона, оперирующая с непрерывно поступающим многомерным потоком спайков как с потоком точечных событий. Простейшей моделью спайкового нейрона является так называемая модель Integrate-and-Fire [25], описываемая дифференциальным уравнением первого порядка. Если напряжение в некоторый момент времени пересекает установленный порог u(tk) = Th , то говорится, что нейрон сгенерировал спайк в момент времени , а значение напряжения сбрасывается до некоторой величины, называемой рефрактерным значением напряжения: и <— игф . Дифференциальное уравнение для напряжения на мембране нейрона имеет вид: где и - напряжение на мембране нейрона, С - временная константа, - веса входных синапсов нейрона, /у - времена входных спайков на г -том входном канале, I?"1 -времена выходных спайков нейрона, Тк,игф- порог и рефракторное значение напряжения. Первое слагаемое в правой части уравнения стремится вернуть напряжение на мембране к нулевому значению. Второе слагаемое моделирует ударные воздействия на напряжение на мембране, инициируемые входными спайками. Каждый входной спайк в момент скачком изменяет напряжение на мембране на величину . Для того чтобы значение напряжения после выходного спайка стало равно и,.ф, нужно скачком изменить напряжение на величину игф — и . Значение игф обычно выбирается отрицательным, чтобы затруднить генерацию большого числа повторных спайков (явление «рефрактерности»).
Существует множество модификаций модели Ме§га1е-апс1-:Пге. Например, квадратичная модель ((^Ш) [26], описываемая уравнением: игся1)(и - ис) + +1\{и,.ф - и)д(1 - /£"'), ] к где иге5(, ис - некоторые константы, а остальные обозначения аналогичны применявшимся в уравнении (1).
В общем случае, каждый входной спайк приводит к отклику нейрона как динамической системы на импульсное входное воздействие. Эти отклики называются постсинаптическими потенциалами и меняют потенциал мембраны нейрона во времени. Обозначим набор переменных состояния нейрона, тогда факт генерации выходного спайка в общем случае определяется выполнением некоторого условия 8{у(^У) = 1гие . После генерации выходного спайка состояние нейрона у(1) меняется, что также может быть описано как отклик нейрона на импульсное воздействие (явление «рефрактерности»). Примером более сложной модели спайкового нейрона является так называемая модель Е. М. Ижикевича [27], способная наиболее реалистично моделировать динамику биологического нейрона. Эволюция состояния описывается двумя дифференциальными уравнениями: = 0.04у2 + 5у +140 - и + /({/}}) + £(с -
Ж к ш к где - параметры состояния, /({/у}) - внешний входной ток от входных времен спайков {Гу} , - времена выходных спайков нейрона, а,Ь,с,с1 - некоторые константы. Условие генерации выходного спайка: V > ЗОмВ. Числовые константы подобраны так, чтобы как можно проще моделировать динамику различных типов биологических нейронов с помощью настройки
Как и бинарные модели нейронов, спайковый нейрон интегрирует несколько входных сигналов с некоторыми весами и способен генерировать выходные спайки на единственном выходном канале, идущие на входные синапсы других нейронов. Однако, в отличие от бинарных и частотных моделей, в спайковом нейроне ведется интегрирование не только пространственной, но и временной информации: входной спайк, пришедший в момент времени ^, может заставить нейрон сгенерировать выходной спайк в момент времени ^ + А/. Таким образом, сама модель спайкового нейрона уже явно учитывает временные соотношения между входными сигналами и не требует создания дополнительных приспособлений для преобразования временной информации в пространственную. Явное использование временных характеристик для представления информации позволяет предположить, что спайковые нейронные сети естественным образом подходят для решения задач с явной временной составляющей. Например, они могут быть использованы для распознавания объектов в нестационарных потоках информации, предсказания, адаптивного управления нестационарными системами (например, виртуальными агентами или роботами). Одним из ярких примеров применения спайковых нейронных сетей в важной практической задаче распознавания лиц служат продукты компании 8р1ке№1 Показано, что использование временного кодирования многократно уменьшает требования к объему памяти и вычислительных ресурсов, требуемых для распознавания лиц многослойными сетями.
Заметим, что гипотеза о кодировании с помощью времен спайков не отвергает наличие частотного кодирования в различных отделах мозга (наряду с возможностью других видов кодирования, например, с помощью фазы импульсации нейрона относительно базовых осцилляций в мозге [29, 30]), а исследования в области обработки спайков дополняют исследования в области частотных нейронов. Более того, в работе [31] обосновано утверждение, что различные способы осреднения активности спайковых нейронов приводят к частотным и бинарным моделям нейронов.
Преимущества спайковых нейронов.
Использование спайковых нейронных сетей в практических приложениях приобретает все большую актуальность в связи со следующими их преимуществами. 1. Возможность обработки временной составляющей сигналов одним нейроном
Использование времен спайков как основной информационной составляющей сигнала позволяет естественным образом обрабатывать временную потоковую информацию в таких задачах, как прогнозирование, распознавание быстро движущихся объектов, управление [32,33]. В "классических" частотных нейронных сетях обычно применяются модели (бинарный нейрон, сигмоидальный нейрон), состояние которых зависит только от текущих значений входов - пространственной составляющей входной информации Рис. 1 (слева). л:
-.
К гЧ"* г(0 = /(У>д-,(0)
Выход - непрерывная величина на основе входов на текущем шаге а
А / ч ч \ . ч 1 л v ;
V. : У'. а ск
ДО = Л ДОН У О)
Состояние у (О определяется историей входов
Есдп5(у(0) ~ ггие. то выходной спайк в момент г
Рис. 1. Пространственно временная обработка информации «классическим» частотным нейроном (слева) и спайковым нейроном (справа).
Для обработки временной составляющей информации применяются дополнительные структурные механизмы (рекурсивные связи, линии задержек), которые переводят временную составляющую в пространственную. Напротив, изменение состояния спайкового нейрона описывается дифференциальными уравнениями. Спайковый нейрон реагирует на историю сенсорных входов. Это позволяет использовать кратковременную память отдельных нейронов без введения дополнительных структур обработки временной составляющей. Следовательно, такие задачи могут быть решены более простыми нейронными сетями с меньшим количеством связей.
2. Преимущества реализации на высокопараллельных вычислительных машинах
Дальнейшее развитие вычислительной техники связывают с ростом степени параллелизма вычислений. В частности, перспективным является создание нейрокомпьютеров [34, 35] -высокопараллельных вычислительных машин, использующих бионические принципы нейросетей живых организмов. Однако с ростом количества вычислительных узлов количество связей между ними экспоненциально возрастает. При использовании моделей частотных нейронов, общающихся с помощью числовых сигналов (например, сигмоидальных нейронов), пропускная способность связи между элементами должна быть достаточной, чтобы с приемлемой точностью передать значение входного сигнала. При этом распространение сигналов происходит на каждом шаге вычислений. При функционировании моделей многослойных частотных сетей требуется пошаговая синхронизация элементов для корректного распространения сигнала и ошибки по слоям сети. Напротив, для передачи спайка между узлами высокопараллельной вычислительной машины (нейрокомпьютера) требуется передать всего 1 бит информации, что не налагает на связи ограничений типа минимальной емкости (Рис. 2). у(0 = /(1>л(0)
Д5Ч0) + У «Д'->;')) г >
Рис. 2. Качественное сравнение реализации нейрокомпьютера на частотных (слева) и спайковых (справа) искусственных нейронах.
Спайки возникают сравнительно редко, и не требуется передавать сигналы каждый шаг вычислений. Для спайковых нейронов не требуется синхронизация. Данные особенности значительно уменьшают сложность архитектуры и размеры нейрокомпьютеров, понижают энергопотребление, необходимое на распространение сигналов [36]. Это позволит использовать нейрокомпьютеры на основе спайковых нейронов в компактных устройствах, в том числе, в микро- и нанотехнике.
3. Повышенные вычислительные возможности спайковых нейронов
Хотя спайковые нейроны напоминают по форме сигнала (есть спайк/нет спайка) бинарные модели нейронов Мак-Каллока — Питса, спайковые нейроны способны обрабатывать непрерывные величины наравне с частотными моделями. При этом непрерывная величина кодируются длиной интервалов между спайками. В работах [2, 24] показано, что спайковые нейроны способны решать задачи частотных и бинарных нейросетей, включая задачи интерполяции непрерывных функций.
Для решения задачи нелинейной классификации (типа "исключающего ИЛИ") требуется более одного слоя бинарных или частотных нейронов. В работе [37] показано, что спайковые нейронные сети только из одного слоя способны решать некоторые задачи нелинейной классификации, тем самым уменьшая количество элементов и связей, требующихся для решения таких задач.
Обучение спайковых нейронов может происходить одновременно с их функционированием (по аналогии с биологическими нейронами). Следовательно, процесс использования спайковых сетей в практических приложениях менее трудоемок — нет нужды разбивать процесс на стадии обучения и непосредственно функционирования.
4. Близость спайковых моделей к реальным нейронам живых организмов
Большая близость спайковых моделей к биологическим нейронам позволяет напрямую использовать бионические принципы при решении практических задач. И наоборот, становится возможным сверять полученные при исследованиях спайковых искусственных нейронов результатов с явлениями, наблюдающимися в биосистеме, реализующей ту же функцию. Знания, полученные из исследований спайковых моделей, помогают развивать знания о мозге человека.
Однако в настоящее время использование спайковых нейронных сетей ограничено в связи с недостаточно развитым математическим аппаратом их обучения. В основном используются разнообразные эвристические правила обучения спайковых нейронов, не гарантирующие решения поставленных задач. Построение методов обучения спайковых нейронов, унификация описания различных видов обучения нейронов в рамках единого математического аппарата — актуальная теоретическая задача. Ее решение позволит разработать новые и усовершенствовать существующие методы и средства анализа обработки информации и управления сложными системами, повышения эффективности, надежности и качества их работы. Построение самообучающихся спайковых нейронных сетей, способных детектировать и запоминать пространственно-временную информацию, управлять различными нестационарными объектами, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта — актуальная практическая задача. Эта задача отвечает потребностям ряда связанных с информационными технологиями отраслей: робототехники, космической техники, разработки систем безопасности.
Существующие методы обучения спайковых нейронов Сильные отличия моделей спайковых нейронов от частотных моделей, связанные с учетом эволюции внутреннего состояния нейрона во времени и сенсорной истории сигналов при их обработке, осложняют распространение на них проверенных, математически обоснованных методов обучения частотных и бинарных нейронов (например, метода обратного распространения ошибки). Большинство правил обучения основываются на экспериментально полученных нейрофизиологических явлениях (различные вариации STDP) и не имеют строгой математической трактовки (хотя являются достаточно эффективными в приложениях) [38-40]. В некоторых работах спайковые нейронные сети используются только как нестационарные системы управления или распознавания без механизмов обучения [41, 42]. Также популярным является использование генетических алгоритмов [43 - 45], доказавших свою эффективность на других моделях нейронных сетей [46, 47].
Ряд исследователей выражает мнение, что при наличии надежных и эффективных механизмов обучения спайковых нейронных сетей, они найдут широкое применение в практических приложениях [37, 24]. Основным путем получения надежных и математически обоснованных правил обучения в частотных нейронных сетях является постановка практических задач в терминах оптимизации значений некоторых целевых функций от входов и выходов сети. Однако ярко выраженная разрывность процесса работы спайкового нейрона в моменты возникновения спайков затрудняет построение непрерывных оценочных функций активности нейрона, на минимизации которых можно построить надежные методы их обучения. Существуют правила обучения SpikeProp [48], построенные на минимизации разницы времен между выходным и требуемым спайком Integrate-and-Fire нейрона:
-tf )2 —> min . Однако такая целевая функция терпит разрывы при непрерывном к изменении весов. Например, при плавном повышении весов неактивного нейрона он начинает генерировать выходные спайки при превышении порога значением напряжения на мембране, а значение целевой функции скачкообразно меняется. Для решения этой проблемы для данного правила обучения предложены различные эвристики.
Введение шума [31] в процесс генерации спайков позволяет исследовать зависимость вероятности генерации набора спайков как непрерывной функции весов нейрона. Это свойство используется для построения целевых функций. Шум (стохастическая составляющая) часто вводится в модель нейрона в виде так называемого стохастического порога. При детерминированном механизме генерации спайков считается, что спайк всегда возникает при выполнении каких-либо условий (например, при пересечении напряжением на мембране нейрона некоторой пороговой величины). При стохастическом пороге существует ненулевая вероятность генерации спайка, если данное условие не выполнено. Причем значение вероятности непрерывно меняется от параметров состояния нейронов. Например, вероятность спайка может возрастать по нелинейному закону при приближении напряжения мембраны нейрона к пороговой величине. Введение шума в спайковые модели оправдано, так как в
12 реальном нейроне существует большое количество источников шумовых воздействий, например, тепловой шум, вероятностная передача входных спайков на синапсах и др.
В работе [49] было предложено использовать логарифм вероятности генерации требуемого выходного спайка в качестве оценочной функции для минимизации в задаче обучения с учителем нейрона Spike Response Model [31]. Показано, что правила изменения весов, полученные минимизацией этой оценочной функции с помощью метода градиентного спуска, напоминают явление STDP. Далее в работе [50] было предложено использовать минимизацию полной энтропии нейрона для получения оптимальной формы STDP, однако предложенный точный алгоритм минимизации был слишком трудоемок для реализации в моделях спайковых сетей. В работе [51] предложена процедура самообучения с помощью максимизации передаваемой нейроном информации в процессе сжатия многомерного входного спайкового паттерна в одномерную последовательность спайков. Во всех описанных методах использовалась процедура градиентной минимизации целевых функций работы нейрона. Предложенные методы демонстрируют, что использование информационных характеристик спайкового нейрона в качестве целевых функций для минимизации позволяет математически строго формулировать разнообразные задачи его обучения. В данной работе развивается подход к обучению спайкового нейрона на основе изменения энтропийных характеристик его работы. В частности, делается попытка формализовать три вида обучения для спайкового нейрона (обучение с учителем, самообучение, обучение с подкреплением) с общей точки зрения предлагаемого энтропийного подхода. Вопрос о том, какие черты реальных нейронов действительно важны для практических приложений, все еще остается открытым. В связи с этим формализация процессов обучения в диссертации практически всегда ведется с точки зрения "обобщенной" модели нейрона, то есть без учета внутреннего устройства интегратора входов и механизма генерации спайков. При этом преследуется цель использовать полученные методы обучения не только для простейших моделей спайковых нейронов, но и для биологически правдоподобных моделей различной сложности.
Цель диссертационной работы заключается в создании методов обучения спайковых нейронных сетей, использующихся для адаптивной обработки и запоминания многомерной потоковой пространственно-временной информации и предназначенных для решения задач распознавания и управления различными объектами, в том числе, в меняющейся внешней среде.
Научная новизна работы:
1. На базе известной модели спайкового нейрона Spike Response Model (SRM) со стохастическим порогом создана оригинальная модель нейрона - SMRM, позволяющая гибко реагировать на пространственную и временную структуру входного спайкового потока. Построенная модель отличается специальным набором функций отклика на единичный спайк ("альфа-функции"), реализующих настраиваемый по амплитуде и задержке отклик нейрона на входные спайки на каждом синапсе нейрона.
2. Для спайкового нейрона впервые формализован процесс обучения с учителем как процесс снижения частной условной информационной энтропии, при условии, что требуемый учителем паттерн представлен в виде набора обучающих спайков. Практически значимая задача обучения с учителем по обнаружению определенного пространственно-временного спайкового паттерна впервые решена с помощью всего одного нейрона БМИМ и метода снижения частной информационной энтропии. Впервые получены графики снижения частной энтропии.
3. Разработана оригинальная система временной автоассоциативной памяти, состоящая из сети взаимодействующих спайковых нейронов. Эта система использует полученные правила обучения с учителем и способна запомнить несколько спайковых паттернов и в дальнейшем восстановить их, развернув во времени, при предъявлении только начального участка паттерна.
4. Построен оригинальный метод самообучения спайкового нейрона, позволяющий успешно решать в реальном времени задачу увеличения устойчивости процесса генерации наиболее вероятного выходного паттерна путем снижения полной собственной энтропии нейрона. Впервые проведены опыты по самообучению с моделью нейрона БМИМ, получены графики снижения полной энтропии в процессе обучения. Показано, что после обучения процесс генерации наиболее вероятного выходного паттерна достигает большой степени устойчивости, а менее вероятные выходные паттерны перестают генерироваться практически полностью.
5. Впервые показано, что существующий метод обучения с подкреплением спайковых нейронов, основанный на прямой градиентной максимизации получаемого подкрепления, может быть реализован в рамках теоретико-информационного подхода к обучению. Впервые показано, что двухслойная спайковая нейронная сеть способна реализовывать поставленную задачу управления при недостатке пространственной информации, активно используя временную структуру сенсорных спайковых паттернов и внутреннюю активность сети. Произведены эксперименты с меняющейся внешней для сети средой, а также оригинальный эксперимент с подменой управляемого объекта. Показано, что одна и та же спайковая нейронная сеть способна управлять различными объектами, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта и внезапных изменениях во внешней среде объекта.
Основные положения, выносимые на защиту:
1. Созданная модель спайкового нейрона SMRM со стохастическим порогом и несколькими функциями отклика нейрона на входные спайки способна более гибко реагировать на пространственную и временную структуру входного спайкового потока, чем известная модель спайкового нейрона Spike Response Model.
2. Для обобщенного спайкового нейрона формализован процесс обучения с учителем как процесс снижения частной условной информационной энтропии, при условии, что требуемый учителем паттерн представлен в виде набора обучающих спайков.
3. Разработана система временной автоассоциативной памяти, состоящая из сети взаимодействующих спайковых нейронов и использующая полученные правила обучения с учителем. Эта система способна запомнить несколько спайковых паттернов и в дальнейшем восстановить их, развернув во времени, при предъявлении только начального участка паттерна.
4. Построен метод самообучения, увеличивающий устойчивость процесса генерации наиболее вероятного выходного паттерна спайкового нейрона. Метод основан на анализе распределения вероятностей на пространстве выходных паттернов нейрона и учете свойства иерархической аддитивности полной энтропии нейрона.
5. Получены правила обучения спайкового нейрона SMRM с подкреплением. Правила основаны на методе прямой градиентной максимизации получаемого подкрепления.
6. Показано, что одна и та же спайковая нейронная сеть, использующая полученные правила обучения с подкреплением, способна управлять объектами различного типа, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта и внезапных изменениях во внешней среде объекта.
Апробация работы. Основные результаты диссертационной работы докладывались: на 11-ой национальной конференции по искусственному интеллекту с международным участием (КИИ-2008) (Дубна, 2008); на 2-ой российской мультиконференции по проблемам управления: 5-ой научной конференции "Управление и информационные технологии" (Санкт-Петербург, 2008); на V-ой международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2009); на XI и XII всероссийских научно-технических конференциях "Нейроинформатика" (Москва, 2009, 2010); на Тайваньско-Российском двухстороннем симпозиуме по проблемам современной механики 2010, МГУ им. М.В.Ломоносова (Москва, 2010); на 12-ом заседании Московского семинара под рук. академика А.Л. Микаэляна "Нейроинформатика и когнитивные исследования" (Москва, 2010); на 21-ом заседании семинара отдела программирования и объединенного семинара по робототехническим системам ИПМ им.М.В. Келдыша РАН, МГУ им. М.В.Ломоносова, МГТУ им.Н.Э. Баумана, ИНОТиИ РГГУ (Москва, 2010); на семинаре «Динамика относительного движения» МГУ им. М.В.Ломоносова (Москва, 2010); на семинаре ЦОНТ НИИСИ РАН (Москва, 2011).
Структура и объём диссертации. Диссертация состоит из введения, четырех глав, двух приложений и заключения 149 страниц машинописного текста, включая 55 иллюстраций и список литературы из 115-х наименований.
Заключение диссертация на тему "Обучение спайковых нейронных сетей на основе минимизации их энтропийных характеристик в задачах анализа, запоминания и адаптивной обработки пространственно-временной информации"
Заключение
Для достижения поставленных целей были проанализированы существующие модели спайковых нейронов и правила их обучения. В результате выделения основных черт существующих моделей была введена обобщенная стохастическая модель нейрона, оперирующая с многомерными спайковыми паттернами. Предложено ставить задачи обучения в терминах теории информации. В частности, на основе общего подхода минимизации различных энтропийных характеристик функционирования спайкового нейрона были разработаны правила изменения весов в задаче обучения с учителем, самообучения и обучения с подкреплением.
Работоспособность полученных правил обучения была проверена на ряде тестовых задач с использованием разработанной модели спайкового нейрона Spike Multi Responses Model (SMRM) со специальным . набором альфа-функций на каждом входном синапсе и стохастическим порогом. Данная модель позволяет гибко реагировать на пространственную и временную структуру входного спайкового потока. Эксперименты проводились с использованием разработанного диссертантом программного обеспечения.
Процесс обучения с учителем формализован как задача минимизации частной информационной энтропии нейрона. Полученные правила обучения протестированы в задаче детектирования пространственно-временного спайкового паттерна. После обучения нейрон способен детектировать конкретный паттерн в зашумленном импульсном потоке, реагируя не только на количество спайков в паттерне, но и на их взаимное расположение во времени. Построены графики снижения частной энтропии, произведен выбор оптимальных параметров альфа-функций нейрона SMRM для задачи детектирования паттерна. Выбор полученных параметров способствует высокой средней скорости обучения детектирования паттернов с различной временной структурой.
В рамках цели данной работы на основе полученных правил обучения нейрона были разработаны динамические спайковые нейронные сети автоассоциативной памяти, служащие для обработки и запоминания многомерной потоковой информации. Работа автоассоциативной памяти протестирована в нескольких тестовых задачах запоминания, в частности в задаче запоминания процесса рисования двух тестовых картинок на экране 8x15 пикселей. В результате сеть обучилась предсказывать (восстанавливать) движение виртуального карандаша художника на основе первого штриха из всего двух-трех пикселей.
Процесс самообучения нейрона с целью увеличения устойчивости процесса генерации наиболее вероятного выходного паттерна (или снижения неопределенности генерации
126 выходного паттерна) поставлен в виде задачи минимизации полной информационной энтропии нейрона на всем пространстве выходных паттернов. Получен оригинальный алгоритм самообучения, позволяющий успешно решать поставленную задачу только на основе информации о собственных входах и выходах нейрона в процессе работы в реальном времени. Проведены опыты с моделью нейрона БМЯМ, построены графики снижения полной энтропии в процессе обучения. Показано, что после обучения процесс генерации наиболее вероятного выходного паттерна достигает большой степени устойчивости, а менее вероятные выходные паттерны перестают генерироваться практически полностью. Разработан оригинальный комплексный подход для ускорения обучения спайкового нейрона с учителем, использующий полученный алгоритм самообучения. Рассмотрен пример использования комплексного подхода для модели спайкового нейрона в тестовой задаче соблюдения задержки между входным и выходным спайком.
Процесс обучения с подкреплением для спайкового нейрона формализован в виде модулированного подкреплением изменения весов по направлению свертки плотности градиента информационной энтропии с экспоненциальным фильтром, реализующим забывание сенсорной истории. При положительном подкреплении происходит уменьшение частной энтропии недавно сгенерированного выходного паттерна (максимизация его вероятности), а при отрицательном подкреплении - увеличение его частной энтропии.
В рамках цели данной работы на основе полученных правил обучения нейрона были разработаны универсальные сети для управления динамическими объектами. Управляющие спайковые нейронные сети протестированы в нескольких модельных задачах управления. С помощью одной и той же сети реализовано управление интеллектуальным агентом в дискретной среде и управление моделью робота-футболиста. Исследованы различные конфигурации управляющих сетей. В частности, впервые показано, что при недостатке пространственной информации двухслойная спайковая нейронная сеть способна реализовывать поставленную задачу управления, активно используя временную структуру сенсорных спайковых паттернов. Показано, что одна и та же спайковая нейронная сеть, использующая полученные правила обучения с подкреплением, способна управлять объектами различного типа, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта и внезапных изменениях во внешней среде объекта.
Библиография Синявский, Олег Юрьевич, диссертация по теме Теоретические основы информатики
1. Мартин Р., Николлс Дж., Валлас Б., Фукс П. От нейрона к мозгу. М.: УРСС, 2003 - 676 с.
2. Rieke F., Warland D., Ruyter R. van Steveninck, Bialek W. Spikes: Exploring the Neural Code // Computational Neurosciences series —MIT Press, 1997 —416 p.
3. McCuIIoch W. S., Pitts W. A logical calculus of ideas immanent in nervous activity // Bulletin of Mathematical Biophysics 1943. - Vol. 5 - P. 115-133.
4. Rosenblatt F. The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain // Psychological Review.- 1958. Vol. 65 - No 6 - P. 386-408.
5. Adrian E. D. The impulses produced by sensory nerve endings // J. Physiology Lond. 1926. -Vol.61 - P. 49-72.
6. Kandel E. C.; Schwartz J. H. Principles of Neural Science New York : Elsevier, 3rd edition, 1991 - 1182 p.
7. Hebb D.O. The Organization of Behavior New York : John Wiley & Sons - 1949. - 378 p.
8. Hopfield J. J. Neural networks and physical systems with emergent collective computational abilitie // Proceedings of the National Academy of Sciences of the USA, 1982 Vol. 79 - No 8 - P. 2554-2558.
9. Осовский С. Нейронные сети для обработки информации М. : Финансы и статистика, 2002. - 344 с.
10. Rumelhart D.E., Hinton G.E., Williams R.J. Learning Internal Representations by Error Propagation // Parallel Distributed Processing. Parallel Distributed Processing Cambridge, MA, MIT Press, 1986. - Vol. 1. - P. 318-362.
11. Chauvin Y.; Rumelhart D.E. Backpropagation: Theory, Architectures, and Applications New Jersey Hove, UK: Hillsdale, 1995. - 576 p.
12. Neaupane K.; Achet S. Some applications of a backpropagation neural network in geo-engineering // Environmental Geology 2003. - Vol. 45 - No 4 - P. 567-575.
13. Astion M.L., Wilding P. The application of backpropagation neural networks to problems in pathology and laboratory medicine // Arch. Pathol. Lab. Med. -1992. Vol. 116, 10, P. 995-1001.
14. Бэстенс Д.-Э., ван ден Берг В.-М., Вуд Д. Нейронные сети и финансовые рынки: принятие решений в торговых операциях. М.: ТВП, 1997. - 235 с.
15. Mozer М. С., Hillsdale N.J. A focused backpropagation algorithm for temporal pattern recognition. // Backpropagation, Lawrence Erlbaum Associates -1995. P. 137-169.
16. O'Reilly R. C., Munakata Y. Computational Explorations in Cognitive Neuroscience: Understanding the Mind by Simulating the Brain Cambridge, MA: MIT Press, 2000 - 512 p.
17. Carr C. E., Konishi M. A circuit for detection of interaural time differences in the brain stem of the barn owl // J. Neuroscience 1990. - Vol. 70 - No 10 - P. 3227-3246.
18. Bell C.C., Han V., Sugawara Y-, Grant K. Synaptic plasticity in a cerebellum-like structure depends on temporal order// Nature -1997. Vol. 387 - P. 278 - 281.
19. Thorpe S., Fize D., Marlot C. Speed of processing in the human visual system//Nature 1996. -Vol. 381 - No 6582. - P. 520 - 522.
20. Tovee M. J., Rolls E. T. Information encoding in short firing rate epochs by single neurons in the primate temporal visual cortex// Visual Cognition. 1995. - Vol. 2. — No 1. - P. 35 - 58.
21. Johansson R.S., Birznieks I. First spikes in ensembles of human tactile afferents code complex spatial fingertip events // Nature Neuroscience. — 2004. Vol. 7. - P. 170 - 177.
22. Mehta M. R., Lee A. K.,Wilson M. A. Role of experience and oscillations in transforming a rate code into a temporal code // Nature. 2002. - Vol. 417. - P. 741-746.
23. Bi G.Q., Poo M.M. Synaptic modifications in cultured hippocampal neurons: dependence on spike timing, synaptic strength, and postsynaptic cell type // Journal of Neuroscience. — 1998. Vol. 18. — No 24.-P. 10464-10472.
24. Stein R. B. Some models of neuronal variability// Biophys. J. 1967. - Vol. 7. No 1. - P. 37-68.
25. Feng J. Is the integrate-and-fire model good enough a review // Neural Networks. — 2001. - Vol. 14.-No 6.-P. 955-975.
26. Izhikevich E. M. Dynamical Systems in Neuroscience: The Geometry of Excitability and Bursting The MIT Press, 2007 - 457 p.
27. SpikeNet Technology Electronic resource. 2006. — Mode access: http://www.spikenet-technology.com.
28. Hopfield J. J. Pattern recognition computation using action potential timing for stimulus representation // Nature -1995. Vol. 376. - P. 33 - 36.
29. O'Keefe J. Hippocampus, theta, and spatial memory // Curr. Opin. Neurobiol 1993. - Vol. 3. - P. 917-924.
30. Gerstner W., Kistler W.M. Spiking Neuron Models: Single Neurons, Populations, Plasticity -Cambridge University Press, 2002 480 p.
31. Melamed O., Gerstner W., Maass W., Tsodyks M., Markram H. Coding and learning of behavioral sequences // Trends in Neurosciences 2004. - Vol. 27. - No 1. - P. 11-14.
32. Saggie К., Keinan A., Ruppin E. Solving a delayed response task with spiking and McCulloch-Pitts agents // Advances in Artificial Life: 7th European Conference, ECAL 2003 Dortmund, Germany. 2003. - P. 199-208.
33. Комарцова Л.Г., Максимов A.B. Нейрокомпьютеры: Учеб. пособие для вузов. М. : Изд-во МГТУ им. Н.Э.Ба^ана, 2004 - 399 с.
34. Галушкин А.И. Нейрокомпьютеры и их применение. Книга 3. Нейрокомпьютеры. М.: ИПРЖР, 2000. - 528 с.
35. Paquot Y., Duport F. Dambre J., Schrauwen В., Haelterman M., Massar S. Artificial intelligence at light speed : toward optoelectronic reservoir computing // Belgian Physical Society Magazine.-2001. Vol. 3. - P. 15-22.
36. Thorpe S., Delorme A., Rullen R. Spike-based strategies for rapid processing //Neural Networks. -2001,-Vol. 14. P.715-725.
37. Ponulak F. ReSuMe New supervised learning method for Spiking Neural Networks Electronic resource. - Poznan University of Technology, Institute of Control and Information Engineering , 2005. - Mode access: http://dl.cie.put.poznan.pl/~fp/.
38. Legenstein R., Markram H., Maass W. Input prediction and autonomous movement analysis in recurrent circuits of spiking neurons // Rev Neurosci. 2003. - Vol. 14. - No 1-2. - P.5-19.
39. Paolo E. Di. Spike-Timing Dependent Plasticity for Evolved Robots // Adaptive Behavior. 2002. -Vol. 10.-No3.-P.73-95.
40. Damper R. I., French R. L. В., Scutt T. W. ARB IB: an Autonomous Robot Based on Inspirations from Biology // Robotics and Autonomous Systems -1998. Vol. 31.- No. 4. - P.247-274.
41. Wiles J., Ball D., Heath S., Nolan C., Stratton P. Spike-time robotics: a rapid response circuit for a robot that seeks temporally varying stimuli // Australian Journal of Intelligent Information Processing Systems. 2010. - P.1-10.
42. Floreano D., Zufferey J.-C., Mattiussi C. Evolving Spiking Neurons from Wheels to Wings // Dynamic Systems Approach for Embodiment and Sociality. 2003. - Vol. 6. - P. 65-70.
43. Nolfi S., Floreano D. Synthesis of Autonomous Robots Through Evolution // Trends in Cognitive Sciences. -2002. Vol. 6. - No 1. - P.31-37.
44. Florian R. V. Spiking Neural Controllers for Pushing Objects Around // Proceedings of the Ninth International Conference on the Simulation of Adaptive Behavior (SAB'06) 2006. - Vol. 4095 - P. 570-581.
45. Castillo P.A., Rivas V., Merelo J.J., Gonzalez J., Prieto A., Romero G. G-Prop-II: Global Optimization of Multilayer Perceptrons using GAs // CEC 99. Proceedings of the 1999 Congress on Evolutionary Computation 1999. - P. 149-163.
46. Bohte S.M., Kok J.N., Poutre J.A.L. SpikeProp: backpropagation for networks of spiking neurons // Proceedings of ESANN. 2000. - P. 419-424.
47. Pfister J.P., Toyoizumi Т., Barber D., Gerstner W. Optimal Spike-Timing Dependent Plasticity for Precise Action Potential Firing in Supervised Learning // Neural computation 2006. - Vol. 18. -No6-P.1318- 1348.
48. Bohte S.M., Mozer M.C. A computational theory of spike-timing dependent plasticity: achieving robust neural responses via conditional entropy minimization // SEN-E0505. 2005. - P.1-25.
49. Toyoizumi Т., Pfister J.-P., Aihara K., Gerstner W. Optimality Model of Unsupervised Spike-Timing Dependent Plasticity: Synaptic Memory and Weight Distribution // Neural Computation. -2007.-Vol. 19.-No 3.-P. 639-671.
50. Markowitz D.A., Collman F., Brody C.D., Hopfield J.J., Tank D.W. Rate-specific synchrony: using noisy oscillations to detect equally active neurons // Proc. Natl. Acad. Sci. 2008. - Vol.105. -No 24. - P.8422-8427.
51. Кингман Дж. Пуассоновские процессы. — M.: МЦНМО, 2007. 136 с.
52. Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998.-432 p.
53. Webster R. A. Neurotransmitters, Drugs and Brain Function. John Wiley and Sons, 2002. - 534 P
54. Deutch A.Y., Bean A. J. Colocalization in Dopamine Neurons // Psychopharmacology: The Fourth Generation of Progress. New York, Raven Press, 1995. - P. 205-214
55. Holmes P. V., Crawely J. Q. N. Coexisting Neurotransmitters in Central Noradrenergic Neurons. // Psychopharmacology: The Fourth Generation of Progress. New York, Raven Press; 1995. - P. 347353
56. Porr В., Worgotter F. Isotropic sequence order learning // Neural Computation. 2003. - Vol. 15. -No. 4.-P. 831-864.
57. Wermter S., Christo P. Temporal Sequence Detection with Spiking Neurons: Towards Recognizing Robot Language Instructions II Connection Science. 2006. - Vol. 18. - No 1. - P.1 -22.
58. Perkel D. H., Feldman M. W. Neurotransmitter release statistics: Moment estimates for inhomogeneous Bernoulli trials. Berlin//J. Math. Biol. 1979.-Vol. 7.-No I.-P. 31-40.
59. Dunin-Barkovskii V. L., Osovets N. B. Neural network with formed dynamics of activity // Radiophysics and Quantum Electronics. 1994. - Vol. 37. - No 9. - P. 687-693.
60. Szatmary В., Izhikevich E. M. Spike-Timing Theory of Working Memory // PLoS Comput. Biol. -2010-Vol. 6-No 8.
61. Wills S. A. Computation with Spiking Neurons Electronic resource. PhD Disertation. -2004. -Access mode: http://ecs.victoria.ac.nz/twiki/pub/Courses/COMP4212010Tl/Readings/SebWilIsPhD-chapter3.pdf.
62. Hopfield J. J., Brody C. D. Sequence reproduction, single trial learning, and mimicry based on a mammalian-like distributed code for time. Electronic resource. — 2010. — Access mode: http://arxiv.org/abs/0910.2660.
63. Baudry M., Davis J. L., Thompson R. F. Advances in Synaptic Plasticity N.Y.: MIT Press, 1999.-335 p.
64. Bi G., M. Poo. Synaptic modification of correlated activity: Hebb's postulate revisited // Ann. Rev. Neuroscience 2001. - Vol. 24. - P.139-166.
65. Стратонович P.JI. Теория информации M.: Сов. Радио, 1975 - 424 с.
66. Antonelo Е. A., Schrauwen В., Stroobandt D. Mobile Robot Control in the Road Sign Problem using Reservoir Computing Networks // IEEE Int. Conf. on Robotics and Automation (ICRA) 2008. -P. 911-916.
67. Queiroz M. S., Braga A., Bcrredo R. C. Reinforcement Learning of a Simple Control Task Using the Spike Response Model //Neurocomputing. 2006. - Vol. 70. - No. 1-3. - P. 14-20.
68. Lee K., Kwon D.-S. Synaptic plasticity model of a spiking neural network for reinforcement learning //Neurocomputing.-2008.-Vol. 17.-No 13-15. P. 3037-3043.
69. Florian R. V. A reinforcement learning algorithm for spiking neural networks // S YNASC '05 Proceedings of the Seventh International Symposium on Symbolic and Numeric Algorithms for Scientific Computing. -2005. P. 299-306.
70. Burgsteiner H. Training networks of biological realistic spiking neurons for real-time robot control // Proceedings of the 9th International Conference on Engineering Applications of Neural Networks, Lile, France. 2005. - P. 129-136.
71. AInajjar F., Murase K. A Simple Aplysia-Like Spiking Neural Network to Generate Adaptive Behavior in Autonomous Robots // Adaptive Behavior. 2008. - Vol. 16. - No 5. - P. 306-324.
72. Joshi P., Maass W. Movement Generation with Circuits of Spiking Neurons // Neural Computation. 2005. - Vol. 17. - No 8. - P. 1715-1738.
73. Carrillo R., Ros E., Boucheny C., Coenen O. J.-M.D. A real-time spiking cerebellum model for learning robot control // Biosystems. 2008. - Vol. 94. - No 1-2. - P. 18-27.
74. Boucheny C., Carrillo R., Ros E., Coenen O. J.-M.D. Real-Time Spiking Neural Network: An Adaptive Cerebellar Model // Computational Intelligence and Bioinspired Systems: Lecture Notes in Computer Science.-2005. Vol. 3512. - P. 136-144.
75. Maass W., Natschlager Т., Markram H. Real-time computing without stable states: a new framework for neural computation based on perturbations // Neural Computations. 2002. - Vol. 14. -No 11.-P. 2531-2560.
76. Baxter J., Weaver L., Bartlett P. L. Direct gradient-based reinforcement learning: II. Gradient ascent algorithms and experiments // Technical report, Australian National University, Research School of Information Sciences and Engineering. 1999.
77. Bellman R. A Markovian Decision Process // Journal of Mathematics and Mechanics. 1957. -Vol. 6.
78. Farries M. A., Fairhall A. L. Reinforcement Learning With Modulated Spike Timing-Dependent Synaptic Plasticity //Neurophysiol. 2007. - Vol. 98. - No 6. - P. 3648-3665.
79. Baras D., Meir R. Reinforcement Learning, Spike Time Dependent Plasticity and the BCM Rule // Neural Computation. 2007. - Vol. 19. - No 8. - P. 2245-2279.
80. Levine M.W., Shefner, J.M. Fundamentals of sensation and perception. Pacific Grove, CA: Brooks/Cole, 1991. -512 p.
81. Rejeb L., Guessoum Z., M'Hallah R. An Adaptive Approach for the Exploration-Exploitation Dilemma for Learning Agents // Multi-Agent Systems and Applications IV. 2005. - Vol. 3690. - P. 316-325.
82. Bartlett P. L., Baxter, J. A biologically plausible and locally optimal learning algorithm for spiking neurons Electronic resource. 2000. Access Mode: http://arp.anu.edu.au/fltp/papers/jon/brains.pdf.gz.
83. Legenstein R., Pecevski D., Maass W. A Learning Theory for Reward-Modulated Spike-Timing-Dependent Plasticity with Application to Biofeedback // PLoS Comput Biol. 2008. - Vol. 4. - No 10. - el000180. doi: 10.1371 /journal.pcbi. 1000180
84. Izhikevich E. M. Solving the Distal Reward Problem through Linkage of STDP and Dopamine Signaling // Cerebral Cortex. 2007. - Vol. 17. - P. 2443 - 2452.
85. Fremaux N., Sprekeler H., Gerstner W. Functional Requirements for Reward-Modulated Spike-Timing-Dependent Plasticity // The Journal of Neuroscience. -2010. Vol. 30. - No. 40. - P. 133261333.
86. Редысо В.Г. Эволюция, нейронные сети, интеллект: Модели и концепции эволюционной кибернетики М.: УРСС, 2005 - 224 с.
87. Pakhomov V., Yelkin Е. Introducing an Another One Mirosot Robot Soccer System // Proceeding of FIRA Robot World Congress 2006. Dortmund University, 2006. - P. 137-145.
88. Sinyavskiy O.Y., Kobrin A.I. Research opportunities of management by movement models of the mobile robot football player with the help of neural net algorithms // Proceeding of FIRA Robot World Congress 2006. Dortmund University, 2006. - P. 231-240.
89. Matlab 7.11 overview. Electronic resource. Access Mode: http://www.mathworks.com/help/pdfdoc/matlab/getstart.pdf.
90. Maple 14 overview. Electronic resource. Access Mode: http://www.inaplesoft.com/view.aspx?SF=53244/0/Maple 14UserManua.pdf.
91. Mathcad 15.0 overview. Electronic resource. . Access Mode: http://www.ptc.com/WCMS/files/121836/en/6011Mathcad15DS.pdf.
92. CSIM : A Neural Circuit SIMulator. Electronic resource. . Access Mode: http://www.lsm.tugraz.at/download/csim-l.l-usermanual.pdf.
93. Hines M.L., Carnevale N.T. The NEURON simulation environment // The Handbook of Brain Theory and Neural Networks, 2nd ed., edited by M.A. Arbib. Cambridge, MA: MIT Press, 2003. - P. 769-773.
94. Bower J. M., Beeman D., Hucka M. The GENESIS Simulation System // The Handbook of Brain Theory and Neural Networks, 2nd ed., edited by M.A. Arbib. Cambridge, MA: MIT Press, 2003. - P. 475-478
95. Gewaltig M.O., Diesmann M. NEST // Scholarpedia. 2007. - Vol. 2. - No. 4.
96. Goodman D.F.M., Brette R. The Brian simulator // Frontiers in Neuroscience. 2009. - Vol. 3. -No 2.-P. 192- 197.
97. Мартыненко Ю.Г. Динамика мобильных роботов // Соровский Образовательный Журнал. 2000. - Т. 6. - № 5. - С. 110-116.
98. Синявский О.Ю. Моделирование футбола роботов лиги MIROSOT // Материалы научного фестиваля "Мобильные роботы 2008". МГУПИ, 2008. - С. 145-156.
99. Baraff D. An Introduction to Physically Based Modeling: Rigid Body Simulation II— Nonpenetration Constraints // Technical report Robotics Inst., Carnegie Mellon Univ., 1997.
100. Barraf D. Fast contact force computation for Nonpenetrating Rigid Body // Computer Graphics Proceedings, Annual Conference Series. -1994. P. 23-34.
101. Список публикаций по теме диссертации:
102. Neural Networks (Information Optics). AUerton press, 2010. - Vol. 19. - No 4. - P. 300309
103. Синявский О.Ю., Кобрин А.И. Обучение спайкового нейрона с учителем в задаче детектирования пространственно-временного импульсного паттерна // Нейрокомпьютеры: разработка и применение. М. Радиотехника, 2010. - №8. - С. 6976.
104. Sinyavskiy O.Y. Autoassociative spatial-temporal pattern memory based on stochastic spiking neurons//Annals of DAAAM International Symposium. -2010. P. 121-122
105. Синявский О.Ю., Кобрин А.И. Обучение спайковых нейронных сетей работе с нестационарными импульсными последовательностями // XI Всероссийская Научно-Техническая Конференция "Нейроинформатика-2009". Сборник Научных Трудов. МИФИ, М., 2009.-С. 139-149.
106. Синявский О.Ю. Принципы построения универсальной программы для работы с искусственными нейронными сетями //Труды международной конференции "Современные проблемы математики, механики и информатики". -ТулГУ, 2005.-С. 121-127
-
Похожие работы
- Математические модели и методы оптимизации функциональной надежности искусственных нейронных сетей
- Исследование и управление режимами самоорганизации в сетях обобщенных нейронных автоматов
- Моделирование и исследование роли периодических процессов в механизмах памяти
- Исследование структуры колебаний в слабонеоднородных сетях нейронов, описываемых дифференциальными уравнениями с запаздыванием
- Применение искусственных нейронных сетей для решения задач управления динамическими объектами
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность