автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Принципы нейроноподобной реализации систем Автономного Адаптивного Управления

кандидата физико-математических наук
Крыжановский, Михаил Владимирович
город
Москва
год
2004
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Принципы нейроноподобной реализации систем Автономного Адаптивного Управления»

Автореферат диссертации по теме "Принципы нейроноподобной реализации систем Автономного Адаптивного Управления"

Институт системного программирования Российской Академии Наук

На правах рукописи

Крыжановский Михаил Владимирович

Принципы нейроноподобной реализации систем Автономного Адаптивного Управления

Специальность 05,13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

Москва-2004

Работа выполнена в Институте Оптико-нейронных технологий Российской Академии Наук

Научный руководитель:

доктор физико-математических наук, Жданов Александр Аркадьевич

Официальные оппоненты:

доктор физико-математических наук Ососков Геннадий Алексеевич

кандидат физико-математических наук Гайсарян Сергей Суренович

Ведущая организация:

МГТУ им. Н.Э.Баумана, г. Москва

Защита диссертации состоится «_»_

_2004 года в_

часов на заседании

диссертационного совета Д 002.087.01 в Институте Системного Программирования Российской Академии Наук по адресу: 109004, Москва, ул. Большая Коммунистическая, д.25.

С диссертацией можно ознакомиться в библиотеке Института Системного Программирования РАН.

Автореферат разослан «_»_

2004 г.

Ученый секретарь Диссертационного совета

СП. Прохоров

Общая характеристика работы Актуальность темы

Создание автономных автоматически управляемых искусственных систем в настоящее время становится реальностью. Спектр таких устройств и сфера их применения все время расширяются - от автономного робота, работающего в недоступной человеку среде, до компьютерных программ, существующих и работающих в среде Интернета. Круг задач, в которых должны использоваться такие системы, постоянно растет и требует соответствующего развития теории управления. Характерными чертами условий, в которых применяются такие системы, являются начальная неопределенность и нестационарность свойств объекта управления, либо среды. В этой связи, основным требованием к системам управления становится их адаптивность, т.е. способность приспосабливаться к текущим условиям, в том числе - автоматически.

Традиционно системы управления для автоматических устройств конструировались на основе математических моделей объектов управления. Однако, во многих практических случаях невозможно выполнить строгое описание объекта управления и среды, в которой он функционирует, и обеспечить высокое качество управления. Обеспечение адаптивности в таких системах требует обычно предварительного знания параметров математической модели, которые могут изменяться, и организацию автоматической коррекции этих параметров. В то же время известно, что системы управления живыми организмами в Природе обеспечивают высокую обучаемость и приспосабливаемость к изменяющимся условиям. Предполагается, что естественные нервные системы функционируют не на основе математических моделей, но за счет того, что эмпирически находят и запоминают отображения между множествами входных и выходных сигналов, множествами качественных оценок и т.д. Примечательно, что задача восприятия сигналов, их обработки в биологических системах решена развитием нервной системы, которая обеспечивает управление многоклеточным организмом, независимо от их форм и сред существования. Принципы работы нервной системы и механизмы объединения нейронов, как для животных, стоящих на разных ступенях эволюции, так и для разных уровней отделов нервной системы весьма сходны.

Таким образом, построение и исследование моделей поведения сложных систем и управления ими на основе имитации механизмов, заложенных Природой в живых организмах, является одной из важных задач. К работам в этой области относится метод автономного адаптивного управления (ААУ), развиваемый в отделе имитационных систем Института Системного Программирования РАН.

Как показывает опыт практического применения, методология ААУ позволяет успешно создавать адаптивные системы управления для приложений, в которых создание математических моделей объекта управления затруднено или невозможно. Используя входящие в состав системы ААУ подсистемы (блоки датчиков и исполнительных органов, систему формирования и распознавания образов, базу знаний, систему моделирования эмоций, блок принятия решений), система ААУ накапливает эмпирически найденные знания о свойствах объекта управления и находит способ управления последним. Подсистемы организованы в структуру, общую для всех систем ААУ. Подсистемы могут быть реализованы на основе различных подходов, в том числе и на основе сетей нейроноподобных элементов (далее нейроны). В настоящее время проблемы, связанные с нейросетевым вариантом реализации систем ААУ, являются актуальными для дальнейшего развития метода. В частности, при проектировании прикладных систем ААУ на основе нейронных сетей возникают задачи подбора параметров нейроноподобных элементов, проектирования

топологий их сетей и задача синтеза полученных

Одной из основных проблем, связанных с методологией ААУ, является отсутствие принципов автоматического построения основных нейросетевых блоков систем управления. Поэтому, настоящая диссертационная работа посвящена решению этой актуальной задачи.

Цель работы

Целью диссертационной работы является разработка методов синтеза основных блоков и систем ААУ на основе нейросетевых и бионических принципов.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. разработать систему ААУ в целом и ее отдельных функциональных подсистем на основе нейроноподобных элементов и реализовать систему управления на практическом примере, в качестве которого была выбрана программная модель автономного мобильного робота;

2. разработать и исследовать алгоритмы и методы автоматического синтеза отдельных нейросетевых блоков системы управления;

3. показать эффективность предложенных подходов и алгоритмов; реализовать систему управления на примере автономного мобильного робота;

4. выяснить области применимости предложенных методов синтеза отдельных блоков и найти альтернативные решения.

Методыисследований

Для решения поставленных задач в работе использованы методы вычислительной математики, теории вероятностей и математической статистики, а также методы прикладного программирования.

Научнаяновизна

Научная новизна диссертационной работы состоит в том, что для нового вида систем, каковыми являются системы автономного адаптивного управления:

1. впервые предложены и применены конструктивные бионические принципы нейроноподобной реализации систем:

- разработаны принципы построения основных подсистем управляющей системы на «элементной базе» нейроноподобных элементов (моделей нейронов и синапсов) с учетом эффектов цифровых схем и предъявляемых к ним требований;

- для мобильного автономного робота впервые реализована самообучающаяся система управления, построенная на базе нейроноподобных элементов на основе методологии ААУ;

- предложен способ описания подсистемы формирования и распознавания образов системы ААУ и на его основе разработана новая процедура динамического синтеза сети подсистемы формирования и распознавания образов;

- на примере мобильного робота показана высокая эффективность процедуры формирования сети, когда в реальном масштабе времени происходит синтез системы управления и ее обучение;

2. впервые предложены и применены принципы реализации подсистем ААУ, основанные на древовидных структурах:

- разработан теоретически и исследован экспериментально принцип организации памяти на деревьях с применением стекового алгоритма быстрого поиска;

- применен принцип синтеза подсистемы формирования и распознавания образов, основанный на алгоритмах быстрого поиска по деревьям. На примере мобильного робота показана его работоспособность;

- принцип организации памяти на древовидных структурах применен к задаче ориентирования на местности для управления автономным объектом;

3. впервые предложен и применен принцип реализации подсистем ААУ, основанный на параметрической нейросети:

- впервые разработан теоретически и исследован экспериментально новый подход к построению памяти, основанный на обработке частотно модулированных сигналов;

- предложен новый подход к построению ассоциативной базы знаний, основанный на параметрической нейросети.

Практическаяценность

Практическая ценность результатов работы состоит в том, что разработанная методика может существенно облегчить процесс создания прикладных систем на основе метода ААУ.

Апробация работы и публикации

По материалам диссертации опубликовано 16 работ (см. список публикаций), из них 4 - в российских и зарубежных журналах, 12 - в трудах конференций.

Основные положения работы докладывались на следующих конференциях:

• Международной конференции "Интеллектуальные и многопроцессорные системы", Геледжик,2001;

• XXV IV Всероссийской научно-технической конференции НЕЙРОИНФОРМАТИКА-2002, Москва Д002.

• VIII Всероссийской научно-технической конференции "Нейрокомпьютеры и их применение" НКП-2002, Москва.

• Международной конференции "Интеллектуальные и многопроцессорные системы" Ш8'2002,Украина, Кацивели,2002.

• V Всероссийской научно-технической конференции "НЕЙРОИНФОРМАТИКА-2003", Москва ,2003.

• II международной конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте», Коломна,2003.

• VI Всероссийской научно-технической конференции "НЕЙРОИНФОРМАТИКА-2004", Москва ,2004.

• Международной конференции "Интеллектуальные и многопроцессорные системы" 1М8'2004,Украина, Кацивели,2004.

Структура и объем диссертации

Работа состоит из введения, пяти глав, заключения, приложения и списка литературы. Общий объем диссертации составляет 129 страниц. Список литературы содержит свыше 90 наименований.

Краткое содержание работы

Во введении представлен обзор работ по современным подходам к построению адаптивных систем управления, изложены основные бионические принципы работы нервной системы, анализируются архитектуры систем искусственного интеллекта, изложены основные

положения методологии автономного адаптивного управления (ААУ), а также описаны проблемные области методологии ААУ.

Исходной посылкой для создания методологии ААУ является отличие принципов работы мозга от принципов работы компьютерных систем, а именно:

• особенность биологических систем заключается в том, что они сами выделяют из среды значимые для себя сигналы, запоминают их и формируют адекватное поведение.

• отсутствие у современных машин аппарата эмоций, которое есть у любого животного.

• основным назначением мозга является управление телом организма с целью обеспечить выживание этого тела, а вместе с ним и самого мозга.

На основе этих фактов, а также общих для всех нервных систем свойств: дискретности строения и принципа действия, неопределенности начальных знаний, а также необходимости осуществления управления и обучения в одном процессе, был предложен принцип действия и построение управляющей системы (рис.1).

Рис. 1. Схема системы автономного адаптивного управления (ААУ).

Системы ААУ относятся к классу нейроноподобных систем управления и состоят из нескольких функциональных подсистем: блока датчиков, системы формирования и распознавания образов, базы знаний и системы ее формирования, системы качественного оценивания, системы принятия решения и блока исполнительных органов. Все подсистемы могут быть реализованы на основе сетей специальных нейроноподобных элементов.

Одной из основных проблем в рамках методологии ААУ является отсутствие формализованной методики синтеза систем управления для прикладных задач. При синтезе прикладных систем ААУ используются эвристические соображения, анализ априорной информации и метод проб и ошибок. Синтез системы ААУ представляет собой задачу большой размерности. На сегодня задачи такого уровня сложности решают, например, с помощью методов эволюционной оптимизации. Другой подход, которого придерживаемся и мы, основан на имитации работы нервной системы биологических организмов и ее развития в процессе функционирования.

В 1-й главе рассмотрены основные нейросетевые блоки системы автономного адаптивного управления, реализованные для модели автономного мобильного робота. Глава состоит из четырех разделов.

Для построения блоков системы управления используются нейроноподобные элементы (далее нейроны), которые образуют сети, формирующие блоки. Эти сети, в свою очередь, связаны между собой. Описание и принцип работы нейронов приводится в 1-м разделе.

В 2-м разделе приводится описание подсистемы формирования и распознавания образов (ФРО): ее строение, состав и принцип работы.

Назначением сети ФРО является решение задач автоматической классификации (автоматическое построение алфавита классов) и распознавания образов в нейросетевой структуре с учетом идеологии метода ААУ. Система ФРО представляет собой сеть нейронов. Блок датчиков рассматривается как интерфейсная система, осуществляющая отображение наблюдаемых датчиками явлений в пространственно - временную последовательность бинарных сигналов - импульсов, поступающих на нейроны рецепторного слоя ФРО, являющиеся входными для системы управления. Если комбинация сигналов, соответствующая данному нейрону сети, присутствует в потоке сигналов от нейронов рецепторного поля, и является не случайной, то соответствующий нейрон обучается (происходит «формирование» образа). Впоследствии он будет реагировать своим исходящим пакетом импульсов - на появление данной комбинации сигналов, осуществляя, тем самым, распознавание образа, прообразом которого служит соответствующая комбинация сигналов(паттерн).

В нейросетевых реализациях систем ААУ используются сети, построенные на принципах, совершенно отличных от традиционных многослойных исскуственных нейронных сетей (ИНС), построенных на формальных нейронах. Нейрон в методе ААУ должен выявлять неслучайные пространственно-временные конфигурации сигналов, и если они выявлены, то такие неслучайные конфигурации называются «образами» в сетях ААУ. Каждый нейрон отвечает за определенный «образ». Это касается всех нейронов сети, а не только нейронов выходного слоя, в отличие от ИНС. Прообразом каждого сформированного образа является некоторая неслучайная совокупность событий, в том числе - временных, представленных бинарными сигналами от датчиков и других нейронов, при этом всегда при желании можно дать содержательную интерпретацию (семантику) каждого сигнала в сети, т.е. — каждого образа. Такова вкратце трактовка, содержательная часть, описания работы ФРО. Особенность сети ФРО заключается:

- в нерегулярном построении слоев нейронов. Так один нейрон может быть соединен с несколькими нейронами из разных предыдущих слоев, включая нейроны рецепторного слоя;

- наличием обратных связей, линий торможения. Возбужденный нейрон снимает возбуждение у нейрона, его возбудившего. Тем самым, процесс распознавания образов приобретает характер волны возбуждений и торможений, распространяющейся по сети, и этот переходный процесс заканчивается распознаванием образов наибольших порядков (см. стр.14).

- в том, что нейроны обучаются самостоятельно.

Однако за такую имитацию сетей нервной системы приходится расплачиваться тем, что появляется проблема определения топологии такой нерегулярной сети. Поэтому была разработана конструкция ФРО (рис.2), которая была реализована в системе управления мобильным роботом и которая, в дальнейшем, была взята за основу при автоматическом построении ФРО.

Нерегулярное построение слоев нейронов ФРО приводит к временным задержкам в распространении сигналов по сети и несинхронном поступлении на нейроны последующих слоев. По аналогии с нейронами биологических объектов, возбужденный нейрон ФРО обладает

способностью генерировать пакет импульсов длительностью. Это позволяет нейрону обрабатывать сигналы, идущие из разных слоев.

Конструктивно, подсистема ФРО состоит из 5-ти блоков: массива рецептивных полей (Л/-Л^) > массива входных нейронов (/;-'<) , буферного слоя нейронов (О/-0/в) , блока синхроимпульсов (СИ, нейроны Ъ/'Ъ,„) и нейронов скрытых слоев (1-10). Сигналы от датчиков поступают на нейроны рецептивного массива (рецепторы), которые обладают свойством рефрактерности. Это означает что, после подачи сигнала и возбуждения рецептора, когда на его выходе появляется сигнал, этот нейрон перестает реагировать на поступающие сигналы в течение некоторого времени - периода рефрактерности Тг. Импульсы от нейронов рецепторов поступают на нейроны входного слоя. Одновременно с этим, сигналы с рецепторного поля поступают на вход блока синхроимпульсов - нейрон Свойства СИ нейронов идентичны нейронам рецепторного поля. Нейроны входного слоя и нейроны скрытых слоев сети генерируют импульсы, которые распространяются по сети ФРО и одновременно поступают на нейроны буферного слоя. Для нейронов рецепторного слоя и нейронов СИ длительность пакета импульсов равна 1, а для остальных нейронов - Тг.

В процессе работы сети, нейроны возбуждаются, выдают импульсы и тормозятся -прекращают генерировать импульсы. Образы могут быть сформированы только от нейронов, которые генерируют полный пакет импульсов. Поэтому, свойством нейронов буферного слоя является способность возбуждаться и накапливать поступающие импульсы в течение времени Тг. Для нейрона буферного слоя порог равен Тг. В связи с этим, сигналы от нейронов которые сначала возбудились, а потом были заторможены, по истечении тактов, не будут регистрируемы на выходе ФРО. Тем самым, на другие подсистемы ААУ будут подаваться сигналы с "амплитудой" больше или равной Тг

Рис.2. Конструкция подсистемы формирования и распознавания образов, реализованная в системе управления мобильным роботом.

Во 3-м разделе приводится описание разработанной и реализованной базы знаний (БЗ), которая определяет поведение управляющей системы ААУ. Задача построения БЗ сводится к накоплению информации о среде, позволяющей выбирать действия, опираясь на предысторию, текущее состояние объекта и на прогноз следствий альтернативных действий. Наиболее органичным подходом является сохранение в БЗ троек вида «образ условия - образ действия -

образ следствия». Для построения базы знаний мы пользуемся разработанными моделями нейронов. Основное назначение нейронов в БЗ состоит в следующем:

1. Нейрон должен самостоятельно обнаружить, коррелируют ли наблюдаемые им входные бинарные сигналы. Обнаружив, что определенные сигналы коррелируют, данный нейрон становится «обученным» и способным генерировать импульсы.

2. Впоследствии такой «обученный» нейрон должен сигнализировать о появлении данной комбинации коррелирующих сигналов на его входе (восстановить образ и распознавать его). Подавая на входы нейрона БЗ информацию о некоторых причинно-следственных событиях, можно обучить нейрон сформировать образ такого события. Такими событиями является причинно-следственная тройка: " условие -> действие -> следствие ". Когда порог такого нейрона снизится, на его выходе появится сигнал, и нейрон сможет распознавать этот образ при наличии «помех», например, превентивно распознавать следствие, наблюдая только причину. Это свойство ассоциативности нейрона используется для принятия решений и управления. Пусть образ текущего состояния (0,<м'= 1) и образ совершенного действия 1)

составляют «причину», а образ результирующего состояния составляет «следствие».

Составив из таких нейронов 3-мерную матрицу, можно получить подсистему, соответствующую «базе знаний» (БЗ) управляющей системы (Рис.2). В этой БЗ каждый нейрон соответствует одной проверяемой гипотезе - одному сочетанию указанных причин и следствий. В процессе работы УС будут обучены те нейроны БЗ, которые соответствовали действительно существующим причинно-следственным событиям в данной прикладной системе. Каждый обученный нейрон соответствует элементарному «знанию», эмпирически найденному управляющей системой.

При реализации базы знаний были учтены следующие обстоятельства:

• нейрон может обучиться, а при снижении корреляционной связи, ниже определенного предела, перейти в исходное состояние. Это, в свою очередь, означает, что при поступлении сигналов на его вход он не будет генерировать импульсы.

• длина генерируемого нейроном пакета импульсов (величина сигнала) пропорциональна величине его корреляционной связи.

• обучение нейрона происходит только при наличии возбуждающего сигнала.

Initial state patterns

Actions

Рис.3. База знаний системы ААУ в виде трехмерной матрицы нейронов.

Если на вход базы знаний поступает бинарный вектор - образ текущей ситуации вектор О, компоненты которого О/, Ог... Оп и пусть система совершает некоторое действие А], тогда, ненормированный вес образа - прогноз в следующий момент времени будет:

=£0; 'Уук,

где Удо - выход нейрона с координатами {i,j, к), а вероятность его появления рк будет

Рк'-Щ/'Е*'*

В 4-м разделе описывается принцип работы аппарата принятия решений на основе методологии автономного адаптивного управления. Основными свойствами управляющих систем ААУ является следующее:

Поведение УС мотивируется, определяется, направляется и оценивается аппаратом эмоций, целевые функции которого содержат в себе явно или не явно цели выживания и накопления знаний. Для этого, аппарат принятия решений строится управляющей системой на том основании, что для текущего состояния системы «среда-организм», управляющая система просматривает в своей памяти все известные ей возможные действия и находит среди них такое, которое обещает перевести систему в состояние, имеющее наибольшую из возможных «оценку состояния».УС обладает внутренней активностью, направленной на расширение знаний, повышающих вероятность выживания.

И поэтому, стратегия принятия решений учитывает обе эти цели: выживание и накопление знаний. Первая требует более детерминированного выбора, вторая - более случайного. Обе этих компоненты (детерминированная и случайная) присутствуют в процедуре принятия решений и, тем самым, обеспечивают режим «обучение и управление в одном процессе». Обоснованием такому выбору служит то, что:

а) существует класс оптимизационных задач, которые достаточно просто решаются методами имитации "поискового" поведения животных и, в то же время, их трудно решать обычными методами. Примеры таких задач приводятся в литературе. Поведение такой системы складывается из детерминированного движения, определяемого знаниями УС, и участка с хаотическим "поисковым" движением.

б) существует недостаток знаний относительно среды, в которой работает объект управления и, поэтому, система должна иметь возможность адаптации.

Мы реализовали такой режим, поставив вероятность выбора случайной компоненты решения в зависимость от следующих факторов:

а) общего количества знаний, уже накопленных в БЗ (знает ли уже УС хоть что-нибудь);

б) наличия в БЗ знаний для текущей ситуации (знает ли УС что-нибудь именно для этой

ситуации);

в) содержания знаний БЗ для текущей ситуации (знает ли УС способы перехода из текущей

ситуации в состояния с высокой оценкой или не знает таких способов).

г) если в течение некоторого времени система не может выйти из состояний с низкой оценкой их веса.

Таким образом, принятие решения осуществляется с учетом обеих целей. Управление, как и обучение, осуществляется на каждом такте. В текущей ситуации в базе знаний

определяются множества действий D и Ацщ , которым система обучена и не обучена, соответственно. При детерминированном способе принятия решения, на множестве В с помощью базы знаний определяется прогноз - действие, переводящее объект в наилучшее состояние. При недетерминированном способе - случайным образом и с равной вероятностью на множестве выбирается действие для реализации управления.

Вероятность Рщля> выбора режима недетерминированного управления выбирается пропорциональной отношению числа элементов множества Л«« к полному числу действий А:

Р«ы«=ЩА„,,У М(Л);

Однако если объект длительное время находится в состояниях с низкими оценками, тогда для управления действие выбирается случайным образом на всем множестве А.

2-ая глава посвящена синтезу системы управления и анализу ее функционирования на примере управления автономным мобильным роботом (далее роботом).

Для этого в первом и втором разделах представлено описание программной модели робота, его структура, место системы управления в такой структуре (рис.6) и программная система имитационного моделирования, в среде которой проводились эксперименты. Робот

представляет собой тележку с приводом и рулем, обеспечивающими движение по криволинейной траектории. Робот имеет круглый в плане корпус. По команде управляющей системы, выдаваемой один раз в заданную единицу времени, робот может совершить передвижение по одной из 6-ти траекторий: БЬ, ББ, БЯ, БЬ, ВВ, БЯ, которые имеют заданную длину (Рис.4), соответствующую скорости передвижения.

Робот снабжен визуальными и тактильными датчиками. Три «визуальных» бинарных датчика Ь1, Ь2 и Ьз обеспечивают регистрацию препятствий в трех соответствующих «секторах обзора». При обнаружении препятствия управляющая система могла только «понимать», что препятствие находится не далее, чем на расстоянии Б от корпуса робота. Три «тактильных» бинарных датчика Т1, Т2 и Тз должны реагировать на соприкосновения с корпусом робота спереди и один тактильный датчик Т4 должен реагировать на соприкосновения сзади. Робот помещается в недетерминированную среду - на полигон, на котором случайным способом расставлены стандартные препятствия (Рис.5).

I п

..........Л А га

Л

Рис. 4. Сенсоры робота и передвижения, обеспечиваемые приводом.

Рис 5. Мобильный робот и пример полигона.

Рис.6. Схема функционирования робота в случае программной имитации среды и автомобиля. Интерфейс связи с оператором не указан.

В третьем разделе описан алгоритм функционирования системы управления. Алгоритм реализует заданную целевую функцию/ которая зависит от ситуации в момент времени /, так чтобы достигался минимум функционала /:

здесь N(1) -число столкновений в единицу времени при движении мобильного робота, а Г -время жизни. В качестве целевой функции / реализован ее процедурный вариант, смысл которой заключается в следующем: двигаться прямолинейно, при отсутствии препятствий, и по возможности объезжать препятствия, двигаясь вперед.

В четвертом разделе приводятся и обсуждаются результаты экспериментов. Приведенные на рисунках 7-10, графики показывают, что:

- по мере накопления знаний, поведение робота становится все более целесообразным и робот начинает отворачивать от препятствий, не допуская столкновений с ними;

- заполнение базы знаний эмпирически найденными правилами поведения изменяется со временем функционирования;

- частота столкновений уменьшается по мере заполнения БЗ; при достижении некоторого критического объема БЗ частота столкновений уменьшается скачком. Видимо, это отражает достижение некоторого «эффективного» объема знаний или получение некоторых «эффективных» знаний, которые важны для жизни в данной среде;

- со временем улучшение управления приводит к увеличению оценки состояния объекта управления. На рис. 10 нулевое состояние соответствует наивысшей оценке. Всплеск функции в начальный период жизни обусловлен малым объемом накопленных знаний и большей свободой выбора случайных действий.

Время жизни » сотнях тактоа

Рис. 7. Рост общего числа столкновений робота в течение его жизни.

Рис. 8. Зависимость заполненности базы знаний от времени жизни робота.

Рис. 9. Зависимость частоты столкновений от степени заполненности базы знаний.

О 40 ВО 120 160 200

Время х102

Рис. 10. Зависимость оценки состояния системы от времени.

В 3-й главе описывается: постановка задачи и алгоритм динамического синтеза нейросетевой подсистемы формирования и распознавания образов; методика экспериментов и результаты исследования (раздел 1).

В первой части рассматривается постановка задачи: Создание конструкции и алгоритма подсистемы ФРО, автоматически обеспечивающих направленный рост структуры нейросети за счет добавления в нее тех нейронов, которые с наибольшей вероятностью будут отражать фактически существующие в данной системе пространственно-временные закономерности (образы).

За основу алгоритма взят фундаментальный принцип Таутса и Кемпбела, согласно которому могут формироваться синаптические связи между нейронами (Принцип совпадений). Пусть имеется конфигурация нейронов А,В и С, участвующих в модификации связей между нейронами: {А => С} и {В => С}. Согласно этому принципу, веса связей У/ш и Wjc возрастают при одновременной подаче сигналов от А и В на нейрон С. При рассогласованной подаче сигналов веса связей уменьшаются.

Для реализации этого принципа предлагается оснастить нейросеть ФРО специальной программной надстройкой («матрицей событий»), осуществляющей накопление статистических данных о степени коррелированности срабатываний уже существующих нейронов. По результатам работы этой надстройки осуществляется порождение новых нейронов и добавление их в структуру нейросети путем их присоединения именно к тем нейронам, которые работают коррелированно. Это обеспечивает появление в сети ФРО новых нейронов, которые будут отражать наиболее вероятные образы.

Соответственно этой идее, введена нейронная матрица событий Е, в которой ведется учет парных совпадений. Под значением понимается "обученность" нейрона с координатами (i,k). Если в некоторый момент времени, для нейрона (i,k), происходит событие, состоящее в том, что значение становится больше L , то нейрон полагается обученным, событие регистрируется и возникает кандидат "на рождение" нового нейрона ФРО от нейронов с номерами i и к. Значение величины L - выбирается достаточно большим, для обеспечения статистической надежности заключения о неслучайном характере совпадений.

Анализ матрицы событий ведется по окончании прохождения волны возбуждений и торможений, когда сформирован вектор образов на выходе ФРО. Из сформировавшегося в

какой то момент времени множества кандидатов (если оно не пусто) будет отобран только один. И только победивший претендент будет сформирован в сети (Принцип конкуренции за ограниченное количество ресурсов организма). Остальные кандидаты уничтожаются, и соответствующие элементы матрицы Е приводятся в исходное состояние.

Определение 1. Карта нейрона А - бинарный вектор ситуации на входе ФРО, имеющий минимально необходимое число единиц, для возбуждения нейрона А сети ФРО. Карту нейрона образуют нейроны рецепторного поля, участвующие в его образовании.

Определение 2. Порядок образа О, - сумма единиц карты нейрона, соответствующего данному образу.

Условия построения подсистемы ФРО следующие: регистрация и анализ совпадений ведется на основе сигналов выходящих из ФРО; период рефрактерности нейронной сети значительно больше единицы.

Правила формирования нейронной сети ФРО:

- нейрон-кандидат, имеющий карту одинаковую с существующим во ФРО нейроном, не может быть создан и вставлен в сеть;

- пусть в составе сигналов на выходе сети ФРО имеем два образа В и Ь, для которых порядок образа В выше Ь. Если карты Ь и В образов имеют общие компоненты, то Ь образ на выходе должен быть дезактивирован.

Основные вопросы, которые были поставлены:

1) может ли сеть нейронов подсистемы ФРО сформироваться динамически?;

2) какое количество нейронов необходимо для динамического формирования?

Ответ на эти вопросы содержится во втором разделе. Для этого была поставлена серия экспериментов, которые проводились при следующих условиях: Размерность бинарного входа равнялась 8.Число подаваемых паттернов N. на вход ФРО менялось от 16 до 160, с шагом равным 8. Количество шагов обучения нейронов матрицы Е варьировался от 4 до 128. Размер серии экспериментов на одну точку N. составил 1000.

Проведенные эксперименты дали утвердительный ответ на 1-й вопрос. Для этого после каждого эксперимента производилась проверка, смысл которой, в том, чтобы каждый паттерн, подаваемый на вход ФРО, формировал на выходе только один уникальный образ.

Ответ на 2-й вопрос дают графики, представленные на рисунках 11,12,13. На рис.11 приведена зависимость усредненного по серии количества нейронов, образующихся во время непрерывной подачи изображений на вход ФРО. На рисунке видно, что при увеличении количества паттернов N. удельное число нейронов, требуемых для их регистрации, стремится к единице, т.е. один паттерн соответствует одному нейрону .Максимальное удельное число нейронов, приходящихся на один паттерн, не превышает 3. От эксперимента к эксперименту число рождаемых нейронов меняется. На рис.12 приводятся кривые распределения вероятности по числу сформированных образов, снятые для различного количества шагов обучения при фиксированном количестве изображений, равном 16. Наблюдается некоторое незначительное снижение числа нейронов и сдвиг максимума. Набор таких кривых при разных количествах паттернов и фиксированном числе шагов обучения использовался для определения их ширины. На рис.13 приведена зависимость стандарта распределения числа нейронов в единицах N..

Видно, что относительная ширина кривой стремится к нулю, при увеличении числа паттернов. Стандарт распределения - удвоенная полуширина.

2,5

1,5

5 0,5

чи ело про] растают их яейр шов ...........

/

1 1

яшимаг ЬНО В031 южное' тело не фонов 1 |

20 40 60 80 100 120 140 160 180 число записанных паттернов

Рис. 11. Зависимость приведенного размера подсистемы ФРО от числа сформированных образов.

Рис.12. Зависимость вероятности формирования сети от ее размеров. Приведен пример формирования сети при распознавании 16 паттернов.

ООО И 'I М М м -Ц-1

О 20 40 60 80 100 120 140

число образов N

Рис.13. Зависимость отображает поведение ширины кривой распределения числа нейронов от числа сформированных образов.

По результатам экспериментальных исследований алгоритма сделан вывод о том, что предложенная методика работоспособна и приводит к синтезу подсистем ФРО малой размерности. Число образуемых нейронов ФРО пропорционально числу паттернов. На основе этого алгоритма была построена подсистема формирования и распознавания образов, которая была реализована в системе управления автономным мобильным роботом. Условия и методика проведения экспериментов прототипа не отличались от условий и методики, применявшихся ранее. Результаты экспериментов показали, что система управления, построенная по методологии ААУ, в которой формируются автоматически база знаний и подсистема ФРО в процессе функционирования, решает задачу адаптивного управления автономным мобильным роботом. Для сравнения на рис.14 приведены кривые "разгона", снятые для робота. Верхняя кривая отражает поведение управляющей системы, в которой одновременно формируется ФРО и база знаний заполняется правилами. После окончания процесса обучения системы управления одного робота, сформированную структуру связей в подсистеме формирования и распознавания образов использовали для управления другим роботом. Нижняя кривая описывает поведение второго робота в процессе функционирования. Параметры нейронов базы знаний и ФРО всюду одинаковы. Видно, что количество соударений в этих экспериментах одного порядка величины. Укажем, что их соотношение не превышает 5.

400 Ч 350 I 300

Iм0

9 200 § 150

I 100

50 0

Рис. 14. Сравнение двух систем управления.

Время жизни (такты)

Особенности реализации алгоритма динамического формирования сети ФРО рассматриваются во 2-м разделе. В 3-м разделе выясняются недостатки элементов системы управления, в частности базы знаний.

В 4-й главе, с целью расширить область применимости методологии ААУ, представлены результаты исследований построения блока формирования и распознавания образов с помощью древовидных структур. Представление информации с помощью дерева имеет применение и в задаче ориентирования на местности, мобильного робота. Особенности этой последней задачи: большая размерность входного вектора («1000); особые требования по быстродействию.

В первом разделе, дается определение бинарного бесконфликтного дерева, описываются его свойства, алгоритм построения древовидной структуры и алгоритм поиска искаженного эталона.

В основе алгоритма восстановления неискаженного эталона, при предъявлении искаженного бинарного вектора на бесконфликтном дереве, лежит поиск минимума функции модифицированным методом переменных направлений, один шаг которого заключается в переходе от одного узла дерева к другому и получении штрафа на каждом шаге. Выбор направления - следующего узла осуществляется стековым алгоритмом.

В этом же разделе описывается методика эксперимента, приводятся полученные результаты эффективности поиска по дереву, и определяется область применения. Были получены характеристики зависимости ошибки распознавания Р от процента зашумления р подаваемых на распознавание векторов длины L и количества векторов, записанных в дерево т. Полученные результаты иллюстрируются графиками. Приведем некоторые из них.

Рис. 15. Зависимость ошибки от шума. Глубина дерева и длина поискового вектора постоянны и равны. М - число векторов записанных в дерево.

Рис. 16. Зависимость числа операций при поиске от количества записанных в дерево векторов для различных уровней шума. Глубина дерева и длина вектора постоянны. Пунктирной линией на графике показана зависимость при уровне шума близком 0,5.

Рис. 17. Зависимость ошибки от глубины дерева при различных уровнях шума.

Из анализа экспериментальных данных была найдена ошибка распознавания Р, значение которой можно выразить формулой:

. 1-е" -- РУ

1+е- ' 2Ц1-2р?

, 4 - к>е2 т

Наибольший интерес для практического использования представляет та область переменных (область допустимости), в которой ошибка распознавания /"«1,что достигается если г«1.

На рис. 18 приведены кривые, построенные для различных уровней искажений (р*005,О10,015,020). Сплошная линия разграничивает области применения алгоритма поиска: для точек, расположенных ниже кривой (малые значения Х/£о) число операций недопустимо велико, т.е. нарастает экспоненциально с ростом числа векторов т, а ошибка распознавания больше 0,01; в области выше кривой алгоритм успешно работает и его быстродействие приближается к теоретическому пределу, а ошибка распознавания меньше 0,01. Для разграничения областей допустимости и недопустимости вместо кривых удобнее использовать их асимптоты - пунктирные линии на рис.18.

Например, при р<0,05 областью допустимости являются значения ИЦ1> 6, то есть для успешной работы алгоритма поиска следует использовать дерево с глубиной

Под областью допустимости, мы подразумеваем область значений параметров, при которых вероятность ошибки Р пренебрежимо мала, а число операций Ыт растет линейно с ростом глубины дерева I, то есть:

где - число операций в отсутствии шумов, экспериментально установленная

величина мало отличается от единицы:

а величина к в этом выражении имеет вид /к = 100'[1 + 0.1(Х + 1„)111£0 ]

Обобщая анализ области допустимости, следует рекомендовать следующие параметры, при которых алгоритм поиска работает успешно: относительно малый уровень ш у рй 0.2! и достаточно большая глубина дерева

г ■ • « к с

1-0

Рис. 18 Область допустимых значений ¿/Х0при различных уровнях шума.

Во втором разделе выводится теоретическая оценка эффективности алгоритма. Пусть имеется построенное дерево, длина каждой ветви которого равна Ь, количество таких ветвей равно т. Тогда вероятность правильного распознавания предъявленного искаженного эталона, будет зависеть от длины ветвей - Ь, их количества т, и величины мультипликативного шума р. Стековый алгоритм работает с мерой близости М, заданной в простейшем виде как функция от меры Хемминга:

М=М(1х) 0)

где х- текущая часть подаваемого на вход кодового слова, а / - текущая длина ветви кодового дерева, построенного на т эталонных векторах х1[е{х1}"', каждый длиной Ь, и

Пусть на вход дерева подается искаженный вектор вектор:

х, = = (^1*01 *м)' (2)

где в - оператор мультипликативного шума, заданный распределением:

1, 1 ~Р

в =

•1. Р

(3)

Тогда вероятность правильного распознавания Р равна вероятности того, что мера близости для концевой вершины, соответствующей распознанному эталону больше меры близости в любой другой вершине, т.е. при одновременном выполнении условий:

М(ЬХ„) > М(ЬХк), £ = 1,2,„.,т-1

(4)

В случае, когда дерево построено на рандомизированном наборе эталонов , компоненты

которых заданы распределением

(6)

С использованием техники Чебышева - Чернова, для вероятности правильного распознавания была получена формула

—®

где - интеграл вероятностей

и введены следующие выражения

Г =

Р

а =

Гр

1-2 р

л/1-р ' ' о- -у/1 + 4;>(1-р)

(7)

(8)

(9)

В пределе »(20) для вероятности ошибки распозна ваниРи з (7) методом перевала получим выражение:

м ,, (1-2/?)2

Р =

4ш(1-2р)

ехр

-\1

1 + 4р(1-/?)

(10)

позволяющее оценивать надежность алгоритма распознавания и границы его применимости. Во избежание недоразумений напомним, что это выражение получено в пределе Ц\ — 2рУ»\, в другом пределе £(1 —2р)2->0 будет Р—>1,, Из формулы (10) следует выражение для оценки минимально необходимой глубины дерева , обеспечивающей (при заданном уровне шума р и числе эталонных векторов т) ошибку распознавания не больше заранее заданной величины Рд . Требуемое обменное соотношение имеет вид:

В заключение второго раздела приводится пример применения описанных алгоритмов в качестве подсистемы ФРО при ориентировании на местности мобильного робота.

Применение модифицированного стекового алгоритма в качестве подсистемы ФРО позволяет работать с достаточно сильно зашумленными входными векторами, что особенно актуально в средах с высокой степенью неопределенности. Привлекательным данный алгоритм делает то, что число операций, необходимых для поиска в стеке, пропорционально логарифму от числа элементов стека, и то, что процедура построения поискового дерева с задаваемой мерой близости обеспечивает автоматическую классификацию входных векторов - каждая концевая вершина построенного дерева соответствует некоторому классу близких (в хемминговом пространстве) событий. Тем самым, появляется возможность выявлять и анализировать причинно-следственные связи между различными действиями робота и последующими событиями.

Применение модифицированного стекового алгоритма в качестве блока подсистемы ФРО при ориентировании на местности мобильного робота актуально в силу особенности задачи: высокая размерность входного вектора - порядка 102; количество паттернов - порядка 104; требования к быстродействию алгоритма, для которого число операций пропорционально размерности входного вектора.

В 5-й главе рассматривается принцип организации и свойства памяти Базы Знаний на основе параметрической нейросети.

В первом разделе приводятся основные сведения по организации сети Хопфилда. Рассмотрена идея передачи информации в нервной системе на основе частотно фазовых модулированных сигналов и построение сети Хопфилдовского типа. За основу такой нейросети принят динамический нейрон, способный к параметрическому смешению и генерации частот.

Во втором разделе описывается принцип функционирования параметрической нейросети и особенности функционирования нейрона. Сеть предназначена для хранения и распознавания некоторого множества ^мерных векторов {х1т)}, компоненты которых представляют собой квазимонохроматические импульсы длительностью т:

+ /¥„,) , ,/ерГ , те^М (13)

где - фаза, обусловленная транспортными задержками в межсвязях или синаптическими задержками, а - одна из и собственных частот параметрического нейронного осциллятора, каковым является рассматриваемый нами динамический нейрон:

га», б{о>1.<1>2.....ю«} (14)

Полагаем, что синаптические межсвязи также являются динамическими и организованы по правилу Хебба:

=!><'">*<">• (15)

Работа нейрона осуществляется в следующей последовательности: входные сигналы суммируются; суммарный сигнал пропускается через п параллельно соединенных частотных фильтров; выходные сигналы с фильтров сравниваются по амплитуде; сигнал с максимальной амплитудой инициирует генерацию выходного импульса, частота и фаза которого совпадают с частотой и фазой инициирующего сигнала.

Собственные частоты нейрона подчиняются условию: (о,-о^ е(£0„} только при ^ или/=£. Поступающие на вход /-го нейрона сигналы от других нейронов суммируются с статистическими весами образуя суммарный входной сигнал,

(15)

который подается на и частотных фильтров нейрона. Амплитуда отфильтрованного сигнала на выходе к-го фильтра этого >го нейрона {к е 1,л) описывается выражением:

^ = |лЕГ,(/-т)ехр(-|'а>110 Л1х

(16)

Здесь же определяется распознающая способность сети. Анализ распознающей способности параметрической нейросети проводится на примере рандомизированного множества хранимых в памяти векторов полагая, что частоты - статистически

независимые случайные величины, с вероятностью 1/л принимающие одно из значений {о>1,Ш2,...,(1)„}. Используя технику Чебышева-Чернова, для вычисления верхней границы вероятности ошибки распознавания Р, было получено соотношение:

Р = + +(1-2 +(1-^"]"

где z - некоторый параметр. Для случая М»1 ,Ы>> 1 получим:

№>2

P<Ntx р

4 ЧМ

(1-2/0*

(17)

(18)

Основной результат: с ростом п помехозащищенность рассматриваемой ассоциативной памяти резко возрастает. Одновременно резко возрастает и объем нейросетевой памяти, которая в п2 раз больше аналогичной величины в стандартной сети Хопфилда. Более того, в отличие от сети Хопфилда, число образов М, которые способна хранить в себе такая нейросеть, может во много раз превышать число нейронов N и равно:

41пЛГ

(19)

Основные результаты работы

1. Впервые разработана и реализована нейроноподобная система управления на основе бионических принципов методологии ААУ на примере практического приложения -системы управления для автономного мобильного робота;

2. Разработана и реализована процедура динамического синтеза основных блоков системы ААУ: формирования и распознавания образов; базы знаний. Схемы решения блоков не зависят от специфики задачи. Решение задачи рассмотрено на примере приложения -системы управления автономным мобильным роботом;

3. Разработаны и исследованы принципы организации памяти на древовидных структурах. Реализован стековый алгоритм построения бинарного бесконфликтного дерева и восстановления искаженной информации.

4. Алгоритмы поиска по дереву не зависят от специфики задачи и были применены:

- для синтеза ФРО в системе ААУ при управлении мобильным роботом;

- в задаче ориентирования на местности при управлении автономным объектом.

5. Разработаны и исследованы бионические принципы организации памяти параметрической нейросети. Показано, что предложенный тип ассоциативной памяти существенно превосходит известные нейросетевые модели по объему памяти и обладает способностью распознавать образы при больших искажениях (80%) и наличии корреляции. Показано как параметрическая нейросеть будет практически использоваться при построении базы знаний в системах Автономного Адаптивного Управления.

Публикации

1. B.V.Kryzhanovsky, M.V.Kryzhanovsky and A.Fonarev . "ADAPTATION OF HOPFEELD ASSOCIATIVE MEMORY PARAMETERS IN STATISTIC TRAINING". Optical Memory&Neural Network, Vol. 10, №2, pp.91-98 (2001).

2. ААЖданов, М.В.Крыжановский, Н.Б.Преображенский. "О ВОЗМОЖНОСТИ СОЗДАНИЯ СИСТЕМ АВТОНОМНОГО ИИ" Труды международной конференции "Интеллектуальные и многопроцессорные системы" IMS'2001, том.1, стр. 245-248, Геледжик-2001.

3. B.V.Kryzhanovsky, M.V.Kryzhanovsky, AX.Mikaelian and A.Fonarev. "Parametric dynamic neural network recognition power". Optical Memory&Neural Network, Vol. 10, №4, pp.211-219 (2001).

4. Б.В.Крыжановский, М.В.Крыжановский. Распознавание в параметрической нейросети. Труды IV Всероссийской научно-технической конференции НЕЙРОИНФОРМАТИКА-2002, т.2, с.52-60, Москва (МИФИ).

5. Б.В.Крыжановский, М.В.Крыжановский, А.Л.Микаэлян. "Динамическая нейросеть на параметрических осцилляторах с кубической нелинейностью". Труды VIII Всероссийской научно-технической конференции "Нейрокомпьютеры и их применение" НКП-2002. с.985-994. Москва, 21-22 марта 2002.

6. А.А.Жданов, М.В.Крыжановский, Н.Б.Преображенский. "Бионическая интеллектуальная адаптивная система управления мобильным роботом". "Труды международной конференции "Интеллектуальные и многопроцессорные системы" IMS'2002. т.2, с. 115-118, Кацивели (2002).

7. А.А.Жданов, М.В.Крыжановский, Н.Б.Преображенский. "Бионическая интеллектуальная адаптивная система управления мобильным роботом". Искуственный интеллект, т.4, №6, с.341-350,2002.

8. А.А.Жданов, М.В.Крыжановский "Нейронная адаптивная система управления". Сборник трудов V Всероссийской научно-технической конференции "НЕЙРОИНФОРМАТИКА-2003",т.1,с.163-168.

9. А.А.Жданов, М.В.Крыжановский, Б.М.Магомедов "Система управления мобильным роботом на основе биологических принципов". Сборник трудов 11-й международной конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте», с. 197-202, Коломна-2003.

10. Крыжановский М.В., Магомедов Б.М. Организация нейросетевой базы знаний в интеллектуальных управляющих системах. Сборник трудов VI Всероссийской научно-технической конференции "НЕЙРОИНФОРМАТИКА-2004", т. 1, с.163-168.

11. А.А. Жданов, М.В. Крыжановский, Н.Б. Преображенский. "Бионическая интеллектуальная автономная адаптивная система управления мобильного робота". Мехатроника, №.1, 2004, с.21-30.

12. А.А. Жданов, М.В. Крыжановский, Н.Б. Преображенский. "Бионическая интеллектуальная автономная адаптивная система управления мобильного робота". Мехатроника, №2, 2004, с. 17-22.

13. М.В.Крыжановский, Б.М.Магомедов. "Свойства подсистемы формирования и распознавания образов мобильного робота на базе бинарного бесконфликтного дерева". Международная конференция «Интеллектуальные системы» IEEE AIS'04. Геленджик-2004.

14. М.В Крыжановский, Б.ММагомедов. "Оценка подсистемы формирования и распознавания образов мобильного робота на базе бинарного бесконфликтного дерева".9-я национальная конференция по искусственному интеллекту КИИ-2004 (с международным участием). Тверь-2004.т.З.

15. М.В.Крыжановский, Б.М.Магомедов. "Модифицированный стековый алгоритм как модель подсистемы формирования и распознавания образов мобильного робота". "Труды международной конференции "Интеллектуальные и многопроцессорные системы" IMS'2004. т.2, с.110-113, Кацивели (2004).

16. М.В.Крыжановский, Б.М.Магомедов. "Модифицированный стековый алгоритм как модель подсистемы формирования и распознавания образов мобильного робота". Искусственный интеллект, т.З, с.320-328,2004.

Напечатано с готового оригинал-макета

Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. Подписано к печати 15.10.2004 г. Формат 60x90 1/16. Уел печл. 1,75. Тираж 120 экз. Заказ 417. Тел. 939-3890,939-3891,928-1042. Тел./факс 939-3891. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 627 к.

№21456

РНБ Русский фонд

2005-4 22745

Оглавление автор диссертации — кандидата физико-математических наук Крыжановский, Михаил Владимирович

ВВЕДЕНИЕ.

§1. Проблема создания систем автономного управления.

§2'. Поведение, обучение и архитектура автономных систем ИИ.

§3. Метод автономного адаптивного управления.

§4. Цели и задачи диссертационной работы.

ГЛАВА 1. РАЗРАБОТКА ЭЛЕМЕНТОВ СИСТЕМЫ УПРАВЛЕНИЯ НА НЕЙРОПОДОБНЫХ ЭЛЕМЕНТАХ.

§1. Описание элементной базы систем ААУ (модели нейронов, синапсов и сетей).

§2. Описание состава, строения и работы системы формирования и распознавания образов.

§3. Описание состава, строения и принципа работы базы знаний.

§4. Описание и реализация аппарата принятия решений и системы «эмоций».

ГЛАВА 2. ПОСТРОЕНИЕ И МОДЕЛИРОВАНИЕ СИСТЕМЫ УПРАВЛЕНИЯ ДЛЯ АВТОНОМНОГО МОБИЛЬНОГО РОБОТА.

§1. Модель мобильного робота "Опоте#8".^.

§2. Система моделирования и исследования поведения робота "(Зпоте#8".

§3. Алгоритм функционирования системы управления.

§4. Результаты компьютерного моделирования эволюции робота.

ГЛАВА 3. АЛГОРИТМ ДИНАМИЧЕСКОГО ФОРМИРОВАНИЯ НЕЙРОННОЙ СЕТИ ДЛЯ АППАРАТА ФОРМИРОВАНИЯ И РАСПОЗНАВАНИЯ ОБРАЗОВ СИСТЕМ АВТОНОМНОГО АДАПТИВНОГО УПРАВЛЕНИЯ.

§1. Процедура динамического формирования нейронной сети для аппарата Формирования и Распознавания Образов систем Автономного Адаптивного Управления.

§2. Реализация алгоритма в системе управления.

§3. Недостатки элементов системы управления.

ГЛАВА 4. ДРЕВОВИДНЫЕ СТРУКТУРЫ.

§1. Принцип организации и свойства памяти подсистемы формирования и распознавания образов на базе бинарного бесконфликтного дерева.

§2. Теоретическая оценка эффективности алгоритма и пример реализации в системе управления.

ГЛАВА 5. ПАРАМЕТРИЧЕСКИЕ НЕЙРОННЫЕ АССОЦИАТИВНЫЕ СЕТИ.

§ 1. Сети Хопфилда. Основные понятия.

§2. Принцип организации и свойства памяти Базы Знаний на основе параметрической нейросети.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Крыжановский, Михаил Владимирович

§1. Проблема создания систем автономного управления

Создание автономно управляемых автоматически искусственных систем в настоящее время становится реальностью. Спектр их применения все время увеличивается от автономного робота, работающего в недоступной человеку среде до компьютерных программ, существующих и работающих в среде Интернета. Круг задач, в которых должны использоваться такие системы постоянно расширяется и требует развития теории управления.

Традиционно системы управления для автоматических устройств конструировались на основе описания математических моделей объектов управления [1,2]. При этом уравнения, описывающие состояние управляемых объектов, и внешние воздействия предполагались известными. Такая полная определенность позволяла использовать аналитический аппарат математики для решения проблем теории управления. Особенно это относится к линейным задачам, где применение принципа суперпозиции существенно облегчало решение задач. Но и в области нелинейных задач, несмотря на отсутствие общих методов, были получены результаты, касающиеся как анализа, так и синтеза автоматических систем. Однако область применимости этих подходов оставалась ограниченной, особенно в условиях, когда внешние воздействия, как задающие, так и возмущающие, непрерывно изменяются во времени и не могут быть однозначно определенны, что характерно для реальных ситуаций [3]. Зачастую, это относится и к коэффициентам дифференциальных уравнений. Поэтому возникла необходимость в привлечении подходов, учитывающих вероятностный характер внешних воздействий. В основе таких подходов лежит знание статистических характеристик случайных функций (которые должны быть предварительно определены), при этом также используются аналитические методы [4].

Характерная особенность основных методов и результатов состоит в их применимости к автоматическим системам с полной информацией, т.е. когда известны уравнения объекта и внешние воздействия, либо их статистические характеристики. С другой стороны, учет нелинейных свойств объектов управления, их взаимодействия в сложных системах резко усложняет математические модели объектов и процессов, и во многих случаях делает их построение практически невозможным. Это обстоятельство стимулировало развитие новых разделов математики, таких как теория алгоритмов, нечеткая логика, теория автоматов, экспертные системы. Возникли идеи и принципы систем искусственного интеллекта.

Отметим работу C.B. Яблонского [5], в которой были введены основные понятия кибернетики и в которой, из представления о дискретности элементов, выводятся основные объекты УС. Определяются такие понятия как память, элементы, схемы, состояние памяти, информация, УС и др. Анализируя [5] можно видеть, что исходное положение о дискретности УС плодотворно и позволило дать подробные определения многим составляющим управляющих систем, что служит богатым инструментом для описания и функционирования УС. На основании этих положений развивался подход к построению управляющих систем на основе работы со «знаниями». Примерами таких систем являются системы нечеткой логики, экспертные системы, генетические алгоритмы. В этих системах, объект управления представлен некоторой информацией о нем, о множествах его возможных состояний, его переходов и т.д. Его функциональные свойства описываются в виде семантических связей различимых состояний, отношениями, определенными на множествах этих состояний, вероятностями переходов между ними, методами ситуационного управления. Однако такой подход к построению автономных управляющих систем не дал ожидаемых результатов (см. §2).

В современных требующих автоматизации сложных системах, работающих в самых разнообразных условиях, часто не только заранее неизвестны уравнения управляемых объектов и внешние воздействия, но по различным причинам их и нельзя определить. Иначе говоря, мы сталкиваемся с большей или меньшей начальной неопределенностью. Возможность управления объектами при неполной априорной информации основана на применении методов адаптации и самообучения в автоматических системах, которые уменьшают первоначальную неопределенность на основе использования информации, получаемой в течение процесса управления.

В качестве примера приведем работу M.JI. Цетлина [6], в которой он предложил и исследовал модели автоматов, способных адаптивно приспосабливаться к окружающей среде. Им введены такие понятия как: стационарность среды, глубина памяти автомата, критерий оптимальности поведения и др. Доказано, что при увеличении глубины памяти поведение автомата приближается к оптимальному. Показано, что при оптимальном движении автомата в нестационарных средах, глубина памяти изменяется в соответствии с изменением стационарности.

Работы M.JI. Цетлина инициировали целое научное направление, получившее название "коллективное поведение автоматов". Управления объектом здесь достигается посредством самоорганизации элементов системы управления. Так в работах В.И. Варшавского и Д.А. Поспелова [7,8] по поведению коллектива автоматов стратегия поведения каждого автомата определялась выигрышем всех, а выигрыш коллектива определялся как сумма выигрышей каждого автомата. При дальнейшем развитии этих идей в работах Ю.И. Неймарка [12] автоматы уже могли решать сложные задачи управления каким-либо объектом, когда системный критерий (например, поддержание равновесия виртуального велосипедиста) декомпозировался в критерии выигрыша каждого элемента.

Среди важных работ отметим также гомеостат Эшби [9], где критерием оптимального состояния каждого элемента являлось поддержание движка реостата в определенном положении. Критерий функционирования гомеостата как системы, или системный критерий, заключался в достижении оптимального состояния всех элементов. Из результатов работы следовало, что достижение оптимума одного элемента происходит за счет подстроек параметров других, т.е. происходит некоторое взаимосодействие элементов.

Другой трудностью, с которой сталкиваются при создании автономных, управляемых автоматически, искусственных объектов, являются свойства среды. Часто естественной характерной чертой таких сред является отсутствие детерминированности и/или нестационарность, т.е. когда свойства среды могут со временем изменяться. Поясним сказанное. Детерминированной называется среда, в которой каждое действие автономного объекта влечет за собой единственный определенный результат [10]. Статичная среда - такая среда, источником изменений в которой может быть только сам объект. В тоже время динамическая среда - такая, в которой оперируют другие процессы, приводящие к ее изменениям независимо от управления [12].

В связи с возникающими трудностями, особый интерес представляют способы построения автономных адаптивных систем управления на основе подходов, которые реализуются природой в живых организмах. Действительно, системы управления живыми организмами в природе обеспечивают высокую обучаемость и приспосабливаемость к изменяющимся условиям среды обитания и высокую автономность жизнедеятельности. Примечательно, что задача восприятия сигналов, их обработки в биологических системах решена развитием нервной системы, которая обеспечивает управление многоклеточным организмом, независимо от ее формы и среды обитания. Поэтому постоянно возникают попытки построения моделей нервной системы и ее элементов. Это приводит к появлению концептуальных теорий, примерами которых являются теория функциональных систем П.К.Анохина [13], теории эволюционного развития, теории нервных систем, концептуальные модели нейронов, так и прикладных систем, объединенных термином «системы искусственного интеллекта» (ИИ).

Одним из направлений ИИ является имитационное (бионическое) направление, цель которого выяснить основные принципы адаптации живых организмов и, на их основе, строить прикладные, автономные системы управления. К этому направлению можно отнести работы по модульным нейронным сетям [14], нейронные сети на основе «спайковых нейронов» [15], системы с подкрепляющим обучением [16], системы «искусственной жизни» [17], аниматы [18] и некоторые другие.

§2. Поведение, обучение и архитектура автономных систем ИИ

Для биологических организмов поведение трактуется как форма адаптации к внешней среде [19,20] и включает в себя следующие типы:

• стереотипные (таксисы, рефлексы, инстинкты);

• приобретенные и модифицируемые (инстинкты, научение, рассудочная деятельность, озарение).

Таксисы присущи одноклеточным существам, стоящим на самой нижней ступеньке «лестницы» животного мира. Пример таксиса - движение парамеции (инфузории туфельки) к пище или движение от сильного раздражителя, например, слишком яркого света.

Если таксисы представляют собой простейшие формы адаптации - поведение автоматического характера для любых биологических объектов, то рефлексы - это уже форма поведения, связанная с наличием у живых организмов нервной системы. Рефлексы представляют собой цепочку событий внутри организма, когда сигналы передаются с помощью нервной системы и вызывают реакцию организма. Наряду с ними существуют более сложные виды стереотипного поведения (инстинктивного), присущие данному виду. Такие типы адаптивности формируются эволюционно и являются врожденными, генетически наследуемыми. По мере подъема по лестнице эволюции врожденное поведение заменяется и дополняется приобретенным. Научение возникает у животных, когда нервная система получает возможность накапливать информацию, способную изменять их поведение. Такой тип поведения реализуется либо через подражание, либо путем проб и ошибок. Обезьяны и человек обладают способностью организовывать поведение путем рассудочной деятельности, не прибегая зачастую к пробным действиям, как это имеет место при простом научении. Поведение, называется инсайтом, если действие, производится по аналогии-ассоциации, путем внутреннего связывания разнородных элементов мышления.

Рассматриваемые нами автоматические искусственные системы являются управляемыми. Это предполагает наличие у процесса управления цели управления [1]. В зависимости от текущей ситуации, а также, от цели, выбирается и реализуется то или иное действие системы. Такая реакция может выбираться некоторым способом либо из репертуара заранее приготовленных действий, либо формироваться динамически. Последовательность действий, в конечном счете, реализует поведение автономной системы. В зависимости от того, какие механизмы вовлечены в то, чтобы поставить в соответствие паре (ситуация, цель) отвечающую ей реакцию системы, по аналогии с биологическими организмами, можно выделить несколько типов (уровней) поведения этих систем [10,11]:

- « Механическое» поведение;

- стереотипное поведение; 1

- стереотипное поведение, формируемое в процессе обучения;

- «логическое» поведение;

- поведение, направляемое опытом.

Механическое" поведение - реакции системы на воздействия среды, реализуемые без привлечения управления, исключительно за счет физических факторов. Аналогом такого типа поведения является поведение инфузории туфельки при ее движении к пище или от источника раздражения, в частности, от источника слишком яркого света.

Стереотипное поведение осуществляется на основе средств, встроенных в систему управления. Закон регулирования фиксирован и задан при проектировании. В биосистемах такое поведение реализуется только для организмов с нервной системой на уровне безусловных рефлексов.

Стереотипное обучение, формируемое в процессе обучения, по характеру реагирования сходно с предыдущим. Имеется множество программ (реакций), текущему значению пары (ситуация, цель) ставится в соответствие одна из реакций данного множества действий. На этом уровне отображение формируется в процессе работы системы управления путем обучения. Однако здесь систему необходимо предварительно научить новым действиям. В живой природе этому соответствует модификация врожденного поведения.

Логическое» поведение, направляемое знаниями и рассуждениями, это уровень осмысленных действий, когда поведение системы направляется по правилам и инструкциям, заложенным в базы знаний, однако доступный набор действий должен готовиться заранее. В данном случае при определении реакции на текущую ситуацию используется не просто отображение, а некоторая цепочка рассуждений, т.е. последовательность отображений, формируемых динамически. В живых системах данному типу поведения соответствует рассудочная деятельность в определенной ее части.

Поведение, направляемое опытом, напоминает предыдущий уровень. Здесь также важную роль играет обучение. Принципиальные различия между этими двумя уровнями заключаются в следующем. Вместо цепочки рассуждений методом проб и ошибок строится менее формализованная цепь контекстно-зависимых ассоциативных переходов [24-27]. Еще более существенно, что как программы-реакции, так и правила для них формируются динамически[24,29]. Это в свою очередь означает, что снимается ограничение, связанное с предварительным обучением. Работая, система накапливает опыт поведения применительно к различным ситуациям и целям.

Первой попыткой применения биологических принципов к построению адаптивных автономно управляемых систем был нетривиальный проект «Животное», предложенный М.М. Бонгардом [2R23], и характеризующий поведение искусственных организмов. В нем заложены основные черты модели интеллектуального адаптивного управления:

• потребности, доминанта (мотивация);

• иерархия целей, решение задач и подзадач;

• база знаний в виде памяти фактов (обобщенных фактов);

• факт: {S(t), A(t)} -> {S(t +1), r(t +1), с}, где S - ситуация, А - действие, г - подкрепление (правильность решения задачи), с - ценность факта;

• предсказание будущей ситуации (аналог акцептора действия П.К. Анохина [13]);

• предварительный прогноз ситуации перед принятием решения;

• выделение поля внимания;

• обобщение фактов (предложена и построена символьная алгебра схем обобщения);

В эти же годы, усилиями Д.А. Поспелова и В.Н. Пушкина [50], были получены результаты экспериментальных исследований интуиции, дающие возможность понять природу принципиальных слабостей теории автоматов при моделировании человеческого мышления. Сформулированная ими концепция позволяет наметить путь создания больших систем управления.

Однако, несмотря на фундаментальность полученных результатов, все же эти работы не получили своего дальнейшего развития. "Виной" этому стали:

• открытия, достижения и результаты в области нейронных сетей (НС), с помощью которых инженеры получили более универсальный и легкий в применении математический аппарат;

• недостатки традиционного подхода к построению систем искусственного интеллекта на основе реализации «логического поведения».

Отметим здесь же недостатки подхода к построению автономных систем ИИ, реализующих только «логическое» поведение. Такой подход полагает, что интеллектуальное поведение может быть реализовано в системе, если в нее заложить символьное представление среды, ее желательное поведение в ней и синтаксис манипулирования этими представлениями [10,39]. Однако этот подход не реализуем сейчас по нескольким причинам.

Во-первых, блок восприятия, отражает среду во внутреннее представление, и в случае с логическими системами, это представление является символьным - обычно это набор формул на языке представления системы. Но для многих сред не ясно, как провести это отражение. Во-вторых, задача однозначного представления свойства динамических сред реального мира очень сложна. К примеру, представление и осмысление временной информации о том, как ситуация изменяется со временем — очень сложная задача. ВI третьих, отметим, что в логическом подходе принятие решений рассматривается как дедукция. Это означает, что в основе «логического» поведения лежит стратегия принятия решений, закодированная как логическая теория, и процесс выбора действий сводится к проблеме доказательства. Но подход, основанный на логике, имеет много недостатков, одним из которых является обязательная вычислительная сложность доказательства теорем, что, в свою очередь, не позволяет практически реализовать «логическое» поведение систем ИИ, находясь в сильно зависящей от времени среде.

Выявленные недостатки в «логическом» подходе обусловили в дальнейшем отказ от символьного представления и от принятия решений, опирающегося на синтаксические манипуляции с таким представлением. Кроме того, возникла идея о том что:

• интеллектуальное поведение, судя по всему, тесно связано со средой, в которой находится агент. Интеллектуальное поведение не существует само по себе, а является результатом взаимодействия объекта со своей средой;

• интеллектуальное поведение объекта складывается из «простых» различных поведений. Здесь под «простым» поведением понимается набор действий, который реализует определенную заданную целевую функцию.

На основе новых представлений начали складываться подходы к решению задач многокритериального (многоцелевого) управления [35,36] и изучение реализации последней в живых организмах.

На практике реализация поведения управляющих систем осуществляется с помощью выбора соответствующей архитектуры [26,29,30] . Несмотря на большое видовое разнообразие архитектур, мы будем рассматривать только простые типы систем. Более сложные, иерархические системы строятся на основе «узлов», которые являются системами простого типа [30,36]. Основным свойством этих систем является то, что они реализуют «поведение, направляемое опытом» (см. §2). Перечислим их:

1. объекты, где знания о поведении системы с известной целевой функцией заложены в коэффициенты синаптических связей между нейронами сети;

2. системы с самоорганизацией элементов, в частности, нейронов сети;

3. гибридные системы с выделенной в отдельную подсистему базой знаний — правилами поведения.

Для систем первого типа, на основе нейронных сетей, обучение ведется либо на основе метода Back Propagation [15], либо на основе метода Reinforcement Learning [16]. В виду той важности, которую приобретает последний, кратко опишем его.

Метод обучения с подкреплением. При обучении на основе подкрепления запоминается соответствие между ситуациями и действиями, которые анимат должен выполнить в той или иной ситуации [31,32] .Обучение анимата (рис.1) ведется на основе "поощрения за правильно выполненное действие и наказания за ошибочное".

S, Анимат

-► г»

Г(+1 1 и— Среда <

- s,+i

Рис.1. Схема обучения с подкреплением. где I = 1,2,.; Я, - текущая ситуация; а, - действие анимата; г, - подкрепление (положительное или отрицательное), полученное в текущий момент времени

1 т

Цель анимата — максимизировать суммарную награду £(Г) = — ^/",+*+,, получаемую за

Т ¿ы длительный период времени Т.

Оценка ожидаемой награды: Я, = ^{укг1+к+1) где у - дисконтный фактор, 0 < у < 1. к-0

В процессе обучения анимат формирует полшику. Политика определяет выбор (детерминированный или вероятностный) действия в зависимости от ситуации. Итеративно формируются оценки Q{st,at) суммарной величины награды, которую хотел бы получить анимат, если в ситуации л, он выполнит действие а,. Г1+1 Гц-2 аг аг+1

Рис.2. Схема переходов для формирования политики.

Исходные Q(snа,) -произвольны.

Выбор действия осуществляется по правилам:

• в момент t с вероятностью \-е выбирается действие с максимальным значением

Q(s,,а,): о — argmaxa{Q(s,, а,)};

• с вероятностью е выбираются произвольное действие, 0 < е «1.

Переоценка величины Q(s, ,а,): АQ(s,,'<я,) = a[rl+l + yQ(sti.,,а,+1) - Q(s,,а,)], где а - параметр скорости обучения.

Системы с самоорганизацией элементов.

Резко отличными свойствами обладают системы с самоорганизацией элементов, а именно ансамбля нейронов. Для реализации свойства самоорганизации [34,35] нейроны ансамбля должны иметь два типа входов. Весовые коэффициенты одних входов подстраиваются. Подстройка коэффициентов происходит только при отклонении от оптимального положения некоторого интегрального инерционного параметра нейрона - порога. Другие входы имеют фиксированные весовые коэффициенты. По этим входам приходит критериальное воздействие из блока целевых функций и отклоняет пороги нейронов от оптимума. Кроме того, случайные возмущения, приходящие на нейронную сеть, значительно усиливаются при отклонении целевых функций от оптимума. Это свойство усиливать поисковую активность при актуализированной мотивации характерно и для живых систем. В экспериментах показано, что при наличии мотивации и отсутствии пусковых стимулов характер активности нейронов становится более стохастическим [10]. Таким образом, получается, что при отклонении системного критерия от оптимума, на все нейроны поступают критериальные воздействия и увеличиваются случайные возмущения. Нейрон не может минимизировать это воздействие за счет уменьшения его весового коэффициента, а вынужден под влиянием случайных поисковых возмущений менять весовые коэффициенты информационных входов и межнейронных связей. В итоге, оптимизация состояния всех нейронов наступает тогда, когда за счет изменения межнейронных связей будет найдена такая реакция или совокупность реакций сети на ранее незначимые стимулы, при которой системный критерий минимизируется [34].

Гибридные системы. Простейшим типом баз знаний для таких систем являются классифицирующие системы Холланда [37,38,39]. Классифицирующая система есть система индуктивного вывода, которая использует набор логических правил. Каждое правило имеет вид: если условие, тогда действие и сопровождается кортежем, в состав которого входит вес правила и адреса правил - родителей, его породивших. В процессе обучения базы знаний меняются приоритеты в использовании правил, т.е. меняются коэффициенты. характеризующие вес правил. При успехе поощряются не только сами правила, но и те правила, которые были предшественниками этих правил.

Ассоциативный метод обучения применяется для нейронных баз знаний, построенных на основе сетей Хопфилда [58], для параметрических векторных сетей [59,60] и в системах, использующих метод автономного адаптивного управления [10], который будет описан отдельно.

На рис.3, представлена функциональная схема некоторой гибридной системы [30,31], ее элементы и взаимосвязи:

• word modeling - модуль моделирования среды, который выполняет четыре функции: 1) использует сенсорный ввод, чтобы создать, модифицировать и обслуживать базу знаний (knowledge database); 2) отвечает на запросы от блока генерации поведения (behavior generation), относительно состояния среды; 3) моделирует результаты будущих планов, которые оцениваются в модуле, чтобы выбрать лучший план; 4) генерирует сенсорные ожидания, основанные на знаниях, находящихся в базе знаний. Ожидания используются сенсорным модулем (sensory processing), чтобы конфигурировать фильтры для корреляции, соответствия модели среды и рекурсивной оценки, и для кластеризации.

• sensory processing модуль принимает входные данные от датчиков; оценивает шкалу и фильтрует данные; вычисляет наблюдаемые свойства и атрибуты; сравнивает наблюдения с ожиданиями, полученными от внутренних моделей среды. Корреляции между наблюдениями и сгенерированными ожиданиями Используются, чтобы обнаружить события и распознать ситуации или объекты. В то же время, различия между ними отсылаются в модуль итя, для коррекции модели внешней среды.

• knowledge database блок базы знаний, содержащий «правила поведения» полностью и аналогичный базе знаний классифицирующих систем Холланда.

• value judgment модуль оценки награды, выгоды действий и планов. Оценка важности целей, ситуаций. Оценка надежности награды. Особенностью узла является динамически подстраиваемый фильтр событий в модуле sensory processing и его корреляционные свойства. сощщгаЕВ voiild

ВЕЕШЛОН вШВДАТИНЧ

5 ХАТЕ омшцпшв

АС ПОЮ <ЛЩСОМ.$>

Рис.3. Соотношения между элементами гибридной системы.

§3. Метод автономного адаптивного управления

Из обзора приведенного выше и приложения следует, что успехи нейросетевого подхода в задачах искусственного интеллекта связаны, в первую очередь, с применением результатов исследования работы нервной системы биологических организмов, как на нейрофизиологическом уровне, так и на поведенческом. Усложнение управляемых объектов и систем управления, невозможность сформулировать целевые функции' [7,8] (как это традиционно принято [1]), отсутствие априорной информации относительно условий их работы, вызвали к жизни новые подходы к построению адаптивных систем управления и принципов их функционирования. Все это в совокупности привело к созданию разнообразных программных архитектур [24,26,29] и, что более важно, к методологии построения управляющих систем на принципах, имитирующих работу нервных систем [13,24,48,49] биологических организмов. К изложению одного из таких принципов [40,41], названного методом автономного адаптивного управления (ААУ), мы и приступаем.

Компьютерным системам не под силу многие задачи, которые может решать не только человек, но и животное. Это связано с тем, что принципы работы биологического мозга и созданных человеком машин, выполняющих интеллектуальную работу, по-видимому, совершенно различны:

• как отмечалось ранее, одна из особенностей биологических систем [8,19] заключается в том, что они сами выделяют из среды значимые для себя сигналы, запоминают их и сами формируют адекватное поведение;

• у современных машин отсутствует аппарат эмоций, который есть у любого животного;

• различны принципы обработки информации и принятия решений. Мозг, как информационная машина, работает с однотипными нервными импульсами, посредством которых происходит отображение объектов и явлений окружающего мира в нервную ткань организма (см. Приложение). В то же время, ЭВМ работает на основе команд (инструкций) закладываемых человеком;

• основным назначением мозга является управление телом организма с эгоистической целью обеспечить выживание этого тела, а вместе с ним и самого мозга, так как мозг не существует отдельно от тела

На основе этих фактов, а также общих для всех нервных систем свойств: дискретности строения и принципа действия, высокой неопределенности начальных знаний, а также необходимости осуществления управления и обучения в одном процессе, в методе ААУ был предложен принцип действия и построения управляющей системы. Принципиально важным при этом было введение понятия "ощущения" и его реализации в системе в виде аппарата эмоций (см. также [41]), который является универсальным «источник активности» и «системообразующим фактором» в биологических организмах [85].

Для такого построения введены исходные условия, характерные для нервных систем:

1. "Условие автономности" под которым понимается только то, что управляющая система (УС) является подсистемой объекта управления (ОУ), и осуществляет управление на основе знаний, добываемых самостоятельно, взаимодействуя со свойм окружением посредством блока датчиков (БД) и исполняющего органа (ИО).

2. "Условие дискретности", структуры УС (конечное множество нейронов, связей, датчиков, исполнителей) и принципа ее функционирования (дискретность нервных импульсов, образов — как элементов информации, моментов времени).

3. "Условие максимальной начальной приспособленности" отражает наличие приспособленности ОУ и УС к усредненным условиям жизни ОУ в данной среде в результате действия механизмов типа естественного отбора

4. "Условие минимума исходных знаний" отражает наличие информационных пространств, которые должны быть заполнены знаниями, найденными УС в процессе функционирования в реальной системе. Это условие соответствует наличию неопределенности свойств системы, максимальной для УС в момент начала ее функционирования.

Целевыми функциями УС должны быть а) выживание ОУ и б) накопление знаний. Эти две целевые функции взаимосвязаны в том отношении, что достижение одной из них повышает вероятность достижения другой.

Из сказанного вынужденно следует представление о системе (рис.1), в которой можно видеть ОУ, погруженным в среду, УС погруженной в ОУ, а также все возможные маршруты распространения воздействий в системе, (помеченные буквами стрелки на рисунке). Пусть каждый из этих макрообъектов оказывает воздействия на систему через свой выход, каждый из макрообъектов пусть воспринимает воздействия системы через свой вход. Кроме того, в системе важно наличие источников случайных воздействий (белые кружки на рисунке -"истоки") и мест поглощения воздействий (черные кружки на рисунке - "стоки").

Рис. 4. Автономная управляющая система (УС) вложена в объект управления (ОУ) с заранее неизвестными свойствами. Стрелки показывают все возможные пути распространения воздействий и информации от «истоков» (белые кружки) до «стоков» (черные кружки). УС должна найти, запомнить и использовать способы управления в этой квазидетерминированной системе.

Очевидно, что для достижения своих целевых функций УС должна найти те из воздействий Л, которые образуют цикл "управляемого взаимодействия "к й / —> а И . , зафиксировать информационное отображение цикла УВ в своей памяти - базе знаний (БЗ), оценить полезность тех или иных элементов знаний и использовать эти знания для выживания, одновременно прилагая усилия для получения и накопления новых знаний. Здесь а это информационный процесс в УС, И - процесс преобразования информационных команд в физические воздействия, с1 это различные процессы в окружающей среде, / -процесс преобразования части входных воздействий в информационные входные сигналы для УС. Наличие в системе истоков и стоков вносит в управляемое взаимодействие многочисленные случайные компоненты и приводит к потерям информации. Накапливая знания, УС стремится к уменьшению неопределенности в своем отображении управляемого взаимодействия.

Подобное макроописание позволяет понять задачу, которую должна решать УС. В общем виде можно видеть следующую ее постановку. На заданное множество входных полюсов УС V], . V,, ., у„ (например, это п бинарных выходов БД) поступает входной поток информации. Пусть, например, это будет эквидистантная во времен^ последовательность двоичных векторов Уа@0, Ус(^.где t - текущий момент времени. Согласно рис. 4, семантически каждый вектор Ус(^ может содержать информацию, пришедшую ко входу УС по маршрутам Ъ и/или р. Здесь г это информация, поступившая с датчиков, Ъ - информация, отражающая действия, совершенные УС, р это незакономерные помехи от истоков в ОУ (информация от / и Ь также содержит случайные компоненты). Информация, поступающая по маршрутам г, Ь и р, может отображаться на определенные подмножества компонент вектора

Первая задача, которую должна решать УС, состоит в нахождении неслучайных регулярных пространственно-временных комбинаций компонент в потоке входных векторов

УаОг), Уь$2) ■>•.■> Усрь). У Ж). Произвольные примеры трех таких образов показаны на рис.2.

Если УС обнаруживает наличие такой регулярности, то УС должна: а) запомнить информацию о ней как самостоятельный объект - образ, б) уметь распознавать прообраз этого образа во входной информации (регулярность, которая привела к формированию образа) при его последующих появлениях, в) при накоплении достаточной статистической надежности - уметь распознавать образ протяженного во времени прообраза раньше, чем закончится его наблюдение на входных полюсах, а также распознавать при наличии помех, г) оценить соответствие этого образа целевой функции выживания ОУ.

Ш) - У/О

0101000011ООЩЙЩ10000101010000110110101001 V ] 101010010011100щ||р00110010100100111ЮООООЮ V,

Ю01ОИЬ10Ш10100ЮЦ шоп сИююпою! ою. 101|Ио|Шхюоооо^^Ш11ЯЩ1ИИ010101010 V, 0000000110(3011111111000ПШ^11110000010100100 . 1 о! 001 09060000011 оо^ЦНщ ооо V, прообразы сформированных образов Рис. 5. Временная последовательность входных бинарных векторов, которые наблюдает управляющая система. В ней необходимо найти, запомнить и распознавать повторяющиеся пространственно-временные конфигурации - «образы».

Для решения последней задачи в УС введена подсистема, которая эквивалентна аппарату эмоций в живом организме. Это многофункциональная подсистема, основная задача которой - соотносить отвлеченные информационные сигналы, например, сигналы о распознавании образов, отображающих текущие состояния ОУ, с объективной полезностью или опасностью их прообразов для выживания ОУ. Безусловно, такая оценка для важнейших состояний ОУ (температура среды, количество поглощенной пищи и т.п.) может быть найдена опытным путем в эволюционной предыстории предков ОУ, а для искусственных ОУ - выведена из априорной информации. Оценки для образов, которые связаны с конкретными условиями существования данного ОУ, могут быть найдены УС опытным путем посредством корреляционного анализа фактов распознавания этих образов и значений некоторой текущей интегральной оценки состояния ОУ, которую обозначим В свою очередь, текущее значение оценки & зависит от оценок всех распознанных в текущий момент образов, например, как среднее арифметическое от таких оценок. Здесь обратим внимание на две важных функции аппарата эмоций. Это закрепленное в УС стремление к получению все более высоких оценок что является причиной постоянной активности УС, направленной на достижение обеих указанных целевых функций. момент принятия распознанные решения оппяяы г текущий момент

Рис. 6. Если в текущий момент прогнозируется несколько альтернативных пространственно-временных образов, и управляющая система может выбрать один из вариантов, то появляется возможность для управления.

Пусть УС сформировала некоторый образ, запомнила его в памяти сформированных образов в виде объекта, который обозначим О*, и в некоторый момент t распознает его, что обозначим как О* =1 (если сформированный образ О* не распознан в момент и то полагаем С/к =0). Пусть, например, прообразом данного образа является некоторый пространственно -временной процесс длительностью Т тактов, но УС распознала образ уже через 7" тактов после его начала и Т'< Т. Если семантически прообраз данного образа в векторах Уа(\г**),

УьОь+О,---, Ус0ь+г).Уырь+т) представлял собой отображение информации, пришедшей на вход УС по маршруту / (см. рис.1), то это сравнительно простой случай, интересный в основном тем, что УС имеет прогноз, в частности, изменения оценки-своего состояния 5* к моменту, когда завершится наблюдение всего прообраза. Одновременно может быть ^распознано некоторое множество образов. Однако ситуация становится более интересной, если в прообразе распознанного образа имел место хотя бы один вектор У(0, отражающий информацию, пришедшую к УС по маршруту Ь, т.е. в прообраз входило некоторое действие, совершенное УС (например, это сигнал от рецепторов о том, что была сокращена такая-то мышца в результате соответствующей команды). Обозначим такое действие символом К/. Тогда прообраз можно разбить на три последовательных во времени составляющих: 0 информация о ситуации а, и) информация о действии /, ш) информация о ситуации Ь. Поскольку, по определению, прообраз сформированного образа — явление не случайное, то данную тройку можно интерпретировать как импликацию "условие действие —> следствие". Очевидно, что в данной ситуации могло быть распознано два или более образов (рис. 3), имеющих одинаковое условие (ситуацию а), разные действия (действие т) и, возможно, разные следствия (ситуацию с).

Итак, если в некоторый момент а) УС одновременно распознает несколько временных образов, при этом б) распознавание наступило раньше окончания наблюдения прообразов, в) в составе прообразов ожидаются альтернативные действия, ведущие к альтернативным последствиям, г) распознанные образы имеют свои оценки, то появляется возможность принятия решения на основании сравнения ожидаемых приращений интегральной оценки качества состояния & для альтернативных действий [87]. Если будущий результат действия, предвидимый УС в текущий момент, влечет распознавание образов, которые могут быть распознаны по результатам планируемого действия, т.е. причинно-следственная цепочка образов и действий продолжается на несколько шагов в будущее, а УС при этом обладает языковыми средствами для манипулирования с этими образами и действиями из своей базы знаний, то появляются основания говорить об интеллекте.

Поскольку происходит формирование новых образов, то возможна ситуация, когда альтернативные действия, приносящие ранее одинаковый конечный результат -распознавание одинаковых образов, начнут различаться в отношении новых сформированных образов, т.е. - более тонких последствий выбираемого действия. Учет этих различий делает действия УС со временем все более точными, а их последствия — все более предсказуемыми. Это одна из возможностей саморазвития УС.

Рассмотренная интеллектуальная управляющая система обладает следующими основными свойствами:

• Поведение УС мотивируется, определяется, направляется и оценивается аппаратом эмоций, целевая функция которого содержит в себе явно или не явно цели выживания и накопления знаний.

• УС обладает внутренней активностью, направленной на расширение знаний, повышающих вероятность выживания.

• УС обладает свойствами адаптивности и саморазвития. Именно, формируются и оцениваются новые образы, формируются и уточняются новые действия, увеличивается глубина прогнозирования последствий альтернативных вариантов действий и др.

• Знания УС сильно зависят от ее индивидуального опыта, в том числе от случайных событий, т.е. УС обладает своей индивидуальностью.

ОПИСАНИЕ УПРАВЛЯЮЩЕЙ СИСТЕМЫ

Среда I!

Среда V?

Среда $

ОУ к - 'Блок . . ^^^^ Щ. датчиков .

Исполияи-щнй орган

УС

Формирование, оценивание м : распознавание образов

Формирование базы знаний

Выбор действия

Оценивание состояния ОУ

Определение времени принятия решения

Рис. 7. Схема системы автономного адаптивного управления (ААУ).

Система ААУ (рис.4) включает в себя следующие блоки: блок формирования и распознавания образов (ФРО), базу знаний, блок оценки состояния - аппарат эмоций (АЭ) и блок выбора действия - аппарат принятия решений (АПР).

Управляющая система (УС) взаимодействует со средой с помощью блока датчиков и исполнительных органов.

В УС ААУ взаимосогласованно решаются несколько задач, соответствующих перечисленным блокам (обычно управляющие системы строятся на основе решения одной из таких задач, например - задачи распознавания). Перечислим эти задачи.

Задача автоматической классификации и структурирования бинарной информации, поступающей с входных датчиков, решается блоком формирования и распознавания образов ФРО [86,87]. Автоматически найденные в многомерном временном признаковом пространстве кластеры называются «образами» и запоминаются в «памяти образов». За счет этого, существенно сокращается объем входной информации, (например для мобильного робота, число возможных ситуаций порядка 100, объем же значимых, достаточных для управления состояний ~ 10). Этот блок отвечает также за распознавание уже известных системе образов в потоке информации, поступающей с блока датчиков. Тем самым, в блоке ФРО одновременно решаются две задачи: задача автоматической классификации (формирование образов) и задача распознавания.

Среди найденных образов выделяется специальный вид составных пространственно-временных образов, которые отражают неслучайные причинно-следственные цепочки следующего вида: «образ исходной ситуации» -> «образ совершенного действия» «образ следствия». В качестве образа следствия совершенного действия может выступать образ конечной ситуации или ее оценка. Такие специальные цепочки являются элементарными знаниями управляющей системы. Эмпирически найденные знания запоминаются в базе знаний - (БЗ).

В методе ААУ предложено рассматривать аппарат эмоций (блок АЭ) организма, как основной системообразующий фактор, который определяет строение и функционирование нервной системы и является одновременно: источником внутренней активности, целевой функцией управления, средством качественного оценивания общего текущего состояния и отдельных элементов знаний - образов и действий, внутренними часами системы, а также каналом передачи оценок качества информация при общении [88]. Основные функции аппарата эмоций в живом организме состоят в следующем: а) Аппарат эмоций является источником внутренней активности нервной системы. В живом организме должен иметь место некий источник «энергии» внутренней активности. Это должна быть универсальная «движущая сила», заставляющая активно действовать любой организм, независимо от его сложности, возраста и интеллекта. Жестко «зашьем» в управляющую систему целевую функцию максимизировать эмоциональную оценку текущего состояния системы Средством достижения этой цели должно быть только инициирование актуаторов, которыми располагает организм. Эти актуаторы должны воздействовать не непосредственно на аппарат эмоций но на окружающую среду, обеспечивая возможные способы взаимодействия данного организма со средой. И только вызвав в среде появление таких объектов, воздействующих на сенсоры системы, которые будут распознаны этой же системой как образы, вместе с их атрибутами - определенными эмоциональными оценками, нервная система сможет повлиять на эмоциональную оценку текущего состояния. Тем,, самым, природа заставила организм, стремящийся лишь к получению приятных ощущений и к избежанию неприятных, взаимодействовать со средой, что приводит к накоплению новых знаний о свойствах системы «среда-организм» и повышает шансы организма на выживание. Если отключить аппарат эмоций, то организм перестанет что-либо делать, поскольку у него полностью пропадет мотивация к активности, и он погибнет в полном безразличии.

Задача установления правильного отношения эмоциональных оценок образов и объективной полезности для организма соответствующих им реальных явлений решается в природе естественным отбором. Успешнее выживают организмы, у которых образы получают более адекватные оценки, а при неправильных оценках, организм стремится к вредным воздействиям и погибает.

Описанный механизм побуждения к активности через аппарат эмоций является универсальным и в целом не зависит от конкретного содержания образов. Однако описанное нами стремление к получению положительных эмоциональных оценок и к избежанию отрицательных оценок является более общим.

Ь) Аппарат эмоций обеспечивает выработку эмоциональных оценок образов. Пусть сформирован некоторый новый образ 0}. Эмоциональную оценку Pzj для этого образа нервная система может формировать в процессе одновременного наблюдения за эмоциональной оценкой текущего состояния системы S(f) в моменты, когда данный образ Oj(t)=\ распознан или в некоторых окрестностях этих моментов времени. Если каждый раз при распознавании данного образа оценка S(t) падает, это является основанием для приписывания этому образу низкой оценки, и, соответственно, наоборот. Конкретно, оценка Pzj образа Oj может быть равна среднему арифметическому от оценок S(t) в моменты, когда данный образ распознан, т.е. когда Ö/t)=l. Практически, сразу после формирования образа его оценка нейтральна, но с накоплением статистики она может измениться.

Оценка каждого вновь сформированного образа в свою очередь начинает участвовать в выработке эмоциональной оценки текущего состояния системы S(t), поэтому наше состояние начинает определяться и вкладом новых сформированных нами образов. Этот итерационный процесс формирования оценок образов начинается с оценок образов, изначально сформированных в организме, т.е. Переданных ему по наследству от предков данного вида, и приспособленных к усредненным условиям существования организмов ^данного вида. Поскольку идея определения оценок качества образов также основана на корреляционном анализе сигналов от распознанных образов и сигналов оценки ¿> текущего состояния ОУ, то эту задачу также можно решать с помощью сети из указанных нейронов с) Аппарат эмоций играет большую роль в принятии управляющих решений. Алгоритм принятия решений, основанный на эмоциональных оценках, описан в [44]. Его идея состоит в следующем. В каждый текущий момент подсистема распознавания образов сообщает нервной системе, какие образы распознаны ею в текущий момент. Тем самым в базе знаний управляющей системы отделяются те ее области, которые адекватны данной ситуации, т.е. выделяется множество действий, которые вообще можно совершить в данной ситуации, согласно знаниям, накопленным нервной системой. В этих отделенных областях базы знаний нервной системой отыскиваются действия, которые обещают привести систему «среда-организм» в состояния, имеющие максимальные из возможных в данной ситуации эмоциональные оценки, либо в состояния, когда прекратят распознаваться образы с максимально плохими оценками. Найдя такое действие, нервная система дает команду исполнителям совершить его. Этот способ принятия решений одновременно активен и реактивен. Например, при отсутствии всякого внешнего стимула животное может встать и отправиться на поиски чего-то приятного, воспоминание о чем хранится у него в памяти, а в текущей ситуации он не видит для этого препятствий. Если же на животное подействовал некий раздражающий фактор, оно начнет совершать действия, направленные на его прекращение

При управлении используется множество уже накопленных знаний. А именно, при принятии решений, в той части БЗ, на которую указывает распознанный в текущий момент образ, отыскивается такое действие, которое, согласно имеющимся знаниям переведет объект управления в состояние с максимальной «эмоциональной» оценкой. Эта задача решается блоком «Принятия решений» (АПР).

Заметим, что в естественных системах аппарат ФРО строится на основе нейронов. Поэтому очевидно, что собственно нейрон и должен решать задачу обнаружения регулярностей в потоке тех относительно немногочисленных входных сигналов, которые поступают на него, формируя элементарные образы [42,43]. А нейроны, лежащие в более глубоких слоях, осуществляют поиск «образов над образами», т.е., более сложных закономерностей. Получаем обычную многоуровневую иерархическую структуру, составленную из однотипных элементов. Из этих же элементов-нейронов должна строиться база знаний, при этом нейроны должны отыскивать пространственно-временные корреляции между событиями, происходящими в разные моменты времени.

В заключение отметим, что математически строгое обоснование метода автономного адаптивного управления приведено в [40].

§4. Цели и задачи диссертационной работы

Традиционно систему управления для автоматических устройств конструировались на основе математических моделей объектов управления. Однако, во многих практических случаях невозможно выполнить строгое описание объекта управления и среды, в которой он функционирует, и обеспечить высокое качество управления. Обеспечение адаптивности в таких системах требует обычно предварительного знания параметров математической модели, которые могут изменяться, и организацию автоматической коррекции этих параметров. В то же время известно, что системы управления живыми организмами в природе обеспечивают высокую обучаемость и приспосабливаемость к изменяющимся условиям. Поэтому, построение и исследование моделей поведения сложных систем и управления ими на основе имитации механизмов, заложенных природой в живых организмах, является одной из важных задач. К работам в этой области относится метод автономного адаптивного управления (ААУ), развиваемый в отделе имитационных систем Института Системного Программирования РАН [40-^-42,86^-88].

Как показывает опыт практического применения [44,45,46], методология ААУ позволяет успешно создавать адаптивные системы управления для приложений, в которых создание математических моделей объекта управления затруднено или невозможно.

В настоящее время проблемы, связанные с нейросетевым вариантом реализации систем ААУ, являются актуальными для дальнейшего развития метода. В частности, при проектировании прикладных систем ААУ на основе нейронных сетей возникают задачи подбора параметров нейроноподобных элементов, проектирования топологий их сетей и задача синтеза полученных конструкций.

Одной из основных проблем, связанных с методологией ААУ, является отсутствие принципов автоматического построения основных нейросетевых блоков систем управления. Поэтому, настоящая диссертационная работа посвящена решению этой актуальной задачи.

Цель работы

Целью диссертационной работы является разработка методов синтеза основных блоков и систем ААУ на основе нейросетевых и бионических принципов. Для достижения поставленной цели необходимо было решить следующие задачи: разработать систему ААУ в целом и ее отдельные функциональные подсистемы на основе нейроноподобных элементов и реализовать систему управления на практическом примере, в качестве которого была выбрана программная модель автономного мобильного робота; разработать и исследовать алгоритмы и методы автоматического синтеза отдельных нейросетевых блоков системы управления; показать эффективность предложенных подходов и алгоритмов; реализовать систему управления на примере автономного мобильного робота; выяснить области применимости предложенных методов синтеза отдельных блоков и найта альтернативные решения.

Методы исследований

Для решения поставленных задач в работе использованы методы вычислительной математики, теории вероятностей и математической статистики, а также методы прикладного программирования.

Результаты, Научная новизна

Научная новизна диссертационной работы состоит в том, что для нового вида систем, каковыми являются системы автономного адаптивного управления:

1. впервые предложены и применены конструктивные бионические принципы нейроноподобной реализации систем:

• разработаны принципы построения основных подсистем управляющей системы на «элементной базе» нейроноподобных элементов (моделей нейронов и синапсов) с учетом эффектов цифровых схем и предъявляемых к ним требований;

• на примере программной модели автономного мобильного робота впервые реализована самообучающаяся система управления, построенная на базе нейроноподобных элементов на основе методологии ААУ;

• предложен способ описания подсистемы формирования и распознавания образов системы ААУ и на его основе разработана новая процедура динамического синтеза сети подсистемы формирования и распознавания образов;

• на примере мобильного робота показана высокая эффективность процедуры формирования сети, когда в реальном масштабе времени происходит синтез системы управления и ее обучение;

2. впервые предложены и применены принципы реализации подсистем ААУ, основанные на древовидных структурах:

• разработан теоретически и исследован экспериментально принцип организации памяти на деревьях с применением стекового алгоритма быстрого поиска;

• применен принцип синтеза подсистемы формирования и распознавания образов, основанный на алгоритмах быстрого поиска по деревьям. На примере мобильного робота показана его работоспособность;

• принцип организации памяти на древовидных структурах применен к задаче ориентирования на местности для управления автономным объектом;

3. впервые предложен и применен принцип реализации подсистем ААУ, основанный на параметрической нейросети:

• впервые разработан теоретически и исследован экспериментально новый подход к построению памяти, основанный на обработке частотно модулированных сигналов;

• предложен новый подход к построению ассоциативной базы знаний, основанный на параметрической нейросети.

Практическая ценность

Практическая ценность результатов работы состоит в том, что разработанная методика может существенно облегчить процесс создания прикладных систем на основе метода ААУ.

Апробация работы и публикации

По материалам диссертации опубликовано 17 работ, из них 4 - в российских и зарубежных журналах, 13 — в трудах конференций.

Основные положения работы докладывались на следующих конференциях:

Международной конференции "Интеллектуальные и многопроцессорные системы", Геледжик,2001;

XXV IV Всероссийской научно-технической конференции НЕЙРОИНФОРМАТИКА-2002, Москва ,2002.

VIII Всероссийской научно-технической конференции "Нейрокомпьютеры и их применение" НКП-2002, Москва.

Международной конференции "Интеллектуальные и многопроцессорные системы" IMS'2002,Украина, КацивелиД002.

V Всероссийской научно-технической конференции "НЕЙРОИНФОРМАТИКА-2003", Москва ,2003. П международной конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте», КоломнаДООЗ. VI Всероссийской научно-технической конференции "НЕЙРОИНФОРМАТИКА-2004", Москва ,2004.

Основные положения работы публиковались в журналах и трудах конференций:

1. B.V.Kryzhanovsky, M.V.Kryzhanovsky and A.Fonarev. "Adaptation Hopfield Associative memory parametrs in statistic training". Optical Memory&Neural Network, Vol. 10, №2, pp.91-98 (2001).

2. А.А.Жданов, М.В.Крыжановский, Н.Б.Преображенский. "О ВОЗМОЖНОСТИ СОЗДАНИЯ СИСТЕМ АВТОНОМНОГО ИИ" Труды международной конференции "Интеллектуальные и многопроцессорные системы" IMS'2001, том. 1, стр. 245-248, Геледжик-2001.

3. B.V.Kryzhanovsky, M.V.Kryzhanovsky, A.L.Mikaelian and A.Fonarev. 'Tarametric dynamic neural network recognition power". Optical Memory&Neural Network, Vol. 10, №4, pp.211-219 (2001).

4. Б.В.Крыжановский, М.В.Крыжановский. Распознавание в параметрической нейросети. Труды IV Всероссийской научно-технической конференции НЕЙРОИНФОРМАТИКА-2002, т.2, с.52-60, Москва (МИФИ).

5. Б.В.Крыжановский, М.В.Крыжановский, АЛ.Микаэлян. "Динамическая нейросеть на параметрических осцилляторах с кубической нелинейностью". Труды VIE Всероссийской научно-технической конференции "Нейрокомпьютеры и их применение" НКП-2002. с.985-994. Москва, 21-22 марта 2002.

6. А.А.Жданов, М.В.Крыжановский, Н.Б.Преображенский. "Бионическая интеллектуальйая адаптивная система управления мобильным роботом". " Труды международной конференции "Интеллектуальные и многопроцессорные системы" IMS'2002. т.2, с.115-118,1Сацивели (2002).

7. А.АЛСданов, М.В.Крыжановский, Н.Б.Преображенский. "Бионическая интеллектуальная • адаптивная система управления мобильным роботом". Искуственный интеллект, т.4, №6, с.341-350,2002.

8. Жданов A.A., Крыжановский М.В. "Нейронная адаптивная система управления". Сборник трудов V Всероссийской научно-технической конференции "НЕЙРОИНФОРМАТИКА-2003", т.1, с.163-168.

9. Жданов A.A., Крыжановский М.В., Магомедов Б.М. "Система управления мобильным роботом на основе биологических принципов". Сборник трудов И-й международной конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте», с. 197-202, Коломна-2003.

10. Крыжановский М.В., Магомедов Б.М. Организация нейросетевой базы знаний в интеллектуальных управляющих системах. Сборник трудов VI Всероссийской научно-технической конференции "НЕЙРОИНФОРМАТИКА-2004", т.1, с.163-168.

П.Жданов A.A., Крыжановский М.В., Преображенский Н.Б. "Бионическая интеллектуальная автономная адаптивная система управления мобильного робота". Мехатроника, №.1,2004, с.21-30.

12. Жданов A.A., Крыжановский М.В., Преображенский Н.Б. "Бионическая интеллектуальная автономная адаптивная система управления мобильного робота". Мехатроника, №2,2004, с. 17-22.

13. Крыжановский М.В., Магомедов Б.М. Свойства подсистемы формирования и распознавания образов мобильного робота на базе бинарного бесконфликтного дерева. Международная конференция «Интеллектуальные системы» ШЕЕ AIS'04. Геленджик-2004.

14. Крыжановский М.В., Магомедов Б.М. Оценка подсистемы формирования и распознавания образов мобильного робота на базе бинарного бесконфликтного дерева.9-я национальная конференция по искусственному интеллекту КИИ-2004 (с международным участием). Тверь-2004, тЗ.

15. М.В.Крыжановский, Б.М.Магомедов. "Модифицированный стековый алгоритм как модель подсистемы формирования и распознавания образов мобильного робота". "Труды международной конференции "Интеллектуальные и многопроцессорные системы" IMS'2004. т.2, с. 110-113, Кацивели (2004).

16. М.В.Крыжановский, Б.М.Магомедов. "Модифицированный стековый алгоритм как модель подсистемы формирования и распознавания образов мобильного робота". Искусственный интеллект, т.З, с.320-328,2004.

Структура и объем диссертации

Работа состоит из введения, пяти глав, заключения, приложения и списка литературы. Общий объем диссертации составляет 129 страниц. Список литературы содержит свыше 90 наименований.

Заключение диссертация на тему "Принципы нейроноподобной реализации систем Автономного Адаптивного Управления"

Заключение

Основной результат диссертационной работы состоит в том, что для нового вида систем, каковыми являются системы автономного адаптивного управления:

1. впервые предложены и применены конструктивные бионические принципы нейроноподобной реализации систем:

• разработаны принципы построения основных подсистем управляющей системы на «элементной базе» нейроноподобных элементов (моделей нейронов и синапсов) с учетом эффектов цифровых схем и предъявляемых к ним требований;

• для мобильного автономного робота впервые реализована самообучающаяся система управления, построенная на базе нейроноподобных элементов на основе методологии ААУ;

• предложен способ описания подсистемы формирования и распознавания образов системы ААУ и на его. основе разработана новая процедура динамического синтеза сети подсистемы формирования и распознавания образов;

• на примере мобильного робота показана высокая эффективность процедуры формирования сети, когда в реальном масштабе времени происходит синтез системы управления и ее обучение;

2. впервые предложены и применены принципы реализации подсистем ААУ, основанные на древовидных структурах:

• разработан теоретически и исследован экспериментально принцип организации памяти на деревьях с применением стекового алгоритма быстрого поиска;

• применен принцип синтеза подсистемы формирования и распознавания образов, основанный на алгоритмах быстрого поиска по деревьям. На примере мобильного робота показана его работоспособность;

• принцип организации памяти на древовидных структурах применен к задаче ориентирования на местности для управления автономным объектом;

3. впервые предложен и применен принцип реализации подсистем ААУ, основанный на параметрической нейросети:

• впервые разработан теоретически и исследован экспериментально новый подход к построению памяти, основанный на обработке частотно модулированных сигналов;

• предложен новый подход к построению ассоциативной базы знаний, основанный на параметрической нейросети.

Библиография Крыжановский, Михаил Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Цыпкин Я.З. Адаптация и обучение в автоматических системах // М.: Наука, 1968.

2. Афанасьев В.Н., Колмоновский В.Б., Носов В.Р. Математическая теория конструирования систем управления.// М.: «Высшая школа», 1998.

3. Цыпкин Я.З. Обучающиеся автоматические системы. //Автоматика и телемеханика, №12,1970.

4. Буш Р., Мостеллер Ф. Стохастические модели обучения.// Физматгиз, 1962.

5. Яблонский С.В. Основные понятия кибернетики.// М.: Проблемы кибернетики, вып. 2, 1959.

6. Цетлин М.Л. Исследования по теории автоматов и моделированию биологических систем. // М.:Наука, 1969.

7. Варшавский В.И., Поспелов Д.А. Оркестр играет без дирижера. // М.: Наука, 1984.

8. Гаазе-Рапопорт М.Г., Поспелов Д.А. От амебы до робота: модели поведения. // М.: Наука, 1987.

9. Эшби У. Р. Конструкция мозга. // М.: ИЛ, 1962,398с.

10. S .J. Russel and P. Norvig. Artifical Intelligence: A Modern Approach. Prentice-Hall, 1995.

11. S. Russel and D. Subrumanian. Provably bounded-optimal agents. Journal of AI Research, 2:575-609,1995.

12. Неймарк Ю.И. Поисковые и оптимизационные возможности коллективов, автоматов, сб.: Самоорганизация и адаптивные информационно-управляющие системы. Москва. 1979.21-24.

13. Анохин nJC. Принципиальные вопросы общей теории функциональных систем // Принципы системной организации функций. // М.: Наука, 1973.

14. Bale Т. A., Modular Connectionist Architectures and the Learning of Quantification Skill, 1998.

15. Головко В.А. Нейронные сети: обучение, организация и применение. Общая ред. А.И. Галушкина. Кн.4 // М.: ИПРЖР, 2001. 256 е.: ил. (Нейрокомпьютеры и их применение)

16. Sutton R.,Barto A.Reinforcement learning: An introduction. MIT Press,1998.

17. Artificial Life An Overview Christopher G. Langton (Ed.) MIT Press, 1995

18. From Animal to Animate. Proceedings of the First International Conference on Simulation of Adaptive Behavior / Eds J.-A. Meyer, S,W, Wilson. Cambridge at al: MIT Press, 1990

19. Вилли К., Детье В. Биология: Биологические процессы и законы.// М.:Мир,1988.

20. Годфруа Ж. .Что такое психология.// М.:Мир,1992.

21. Боыгард М.М., Лосев И.С., Смирнов М.С. Проект модели организации поведения — Животное // Моделирование обучения и поведения. // М.: Наука, 1975.

22. Лосев И.С., Максимов В.В. О задаче обобщения начальных ситуаций.// Моделирование обучения и поведения. // М.: Наука, 1975.

23. Бонгард М.М., Лосев И.С., Максимов В.В., Смирнов М.С. Формальный язык описания ситуаций, использующий понятие связи. // Моделирование обучения и поведения. // М.: Наука, 1975.

24. Albus, James S.,M Brains, Behavior and Robotics," BYTE Books, McGraw-Hill, Nov., 1981.

25. Albus, J.S., "The Engineering of Mind", Proceedings of the Fourth International Conference on Simulation of Adaptive Behavior: From Animals to Animats 4, Cape Code, MA, September 1996. YES.TRANSL.

26. Albus, J.S., "A Reference Model Architecture for Intelligent Hybrid Control Systems," Proceedings of the 1996 Triennial World Congtess, International Federation of Automatic Control (IF AC), San Francisco, С A, July 1996.

27. Albus, J.S., Lacaze, A., Meystel, A. "Algorithm of Nested Clustering for Unsupervised Learning," Proceedings of the 10th International Symposium on Intelligent Control, Monterey, Ca., August 1995. YES.

28. Albus, J.S., "RCS: A Reference Model Architecture for Intelligent Machine Systems," Proceedings of the Workshop on Intelligent Autonomous Control Systems, Tel Aviv, Israel, November 1992.

29. Редько В.Г. Эволюционная кибернетика. M.: Наука,2001.

30. Ефимов В.Н., Самарин А.И., Финкелыптейн Б.А., Гринченко С.Н. Моделирование нейронов с самонастройкой их параметров. // Бионика (Киев: "Наукова думка") №10, 1976.

31. Самарин А.И. Модель адаптивного поведения робота, реализованная с использованием идей самоорганизации нейронных структур. // VI Всероссийская научно-техническая конференция " Нейроинформатика-2004".Сборник научных трудов. Часть 2. М.: МИФИ,2004.

32. Holland J.H., Adaptation in Natural and Artificial Systems, Univ. of Michigan Press, Ann Arbor, MI: 1975.

33. Holland J., Holyoak K., Nisbett R.,Tahard P. Induction : Processes of Inference, Learning and Discovery. Cambridge, MA: MIT Press,1986.

34. M.R. Genereth and N. Nilson. Logical Foundations of Artifical Intelligence. Morgan Kauffman Publishers: San Mateo, CA, 1987.

35. Жданов A.A. Принцип автономного адаптивного управления. Диссертация на соискание ученой степени доктора физико-математических наук. Москва, 1993.

36. Жданов А.А. Метод автономного адаптивного управления.// Известия Академии Наук. Теория и системы управления, 1999, №5, стр. 127-134.

37. Zhdanov А.А., A.V. Ryadovikov. Neuron Models in the Autonomous Adaptive Control Method//Optical Memory and Neural Network, Allerton Press, Inc., Vol. 9, No 2, 2000, pp. 115-132.

38. Жданов A.A., Одинцов K.B. Возможности представления измерительной информации с помощью формальных нейронов. // Сб. научн. тр. Искусственный интеллект в технических системах. Вып. № 20. М.: Гос. ИФТП. 1999, с. 111-146.

39. Жданов А. А., Норкин Н. А., Гуриев М. А. Некоторые практические приложения метода автономного адаптивного управления // Сб. научн. тр. Искусственный интеллект в технических системах. Вып. 19.- М.: Гос.ИФТП. 1998.

40. Жданов А. А., Арсеньев С.В. О некоторых приложениях принципа автономного адаптивного управления // Сб. научн. тр. Всероссийской научн.-техн. конференции "Нейроинформатика-99", ч. 3. М.: МИФИ. 1999.

41. Емельянов-Ярославский Л.Б. О логической структуре некоторого самоорганизующегося автомата. // В сб.: Проблемы адаптивного управления, Ростов-на-Дону, 1974,120-156.

42. Емельянов-Ярославский Л.Б. Интеллектуальная квазибиологическая система. Индуктивный автомат.// М.: Наука, 1990.

43. Коган А.Б. Функциональная организация нейронных механизмов мозга. //Л.: «Медицина», 1979.

44. Поспелов Д.А., Пушкин В.Н. Мышление и автоматы.// М.: Изд-во Советское радио, 1972.

45. Нейрокомпютеры и их применение. Книга 5. Под ред. Галушкина А.И. //М.: Изд. "Радиотехника ", 2001.

46. Hebb D.O. Organization of behavior. New-York: Wiley, 1949.

47. Колмогоров A.H. Представление непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного и сложения. //ДАН СССР, т. 114, №5.

48. Розенблат Ф. Принципы нейродинамики: Перцептрон и теория механизмов мозга:// -М. Мир, 1965.

49. Хехт-Нильсен Р. Нейрокомпыотинг: история, состояние, перспективы //Открытые системы. 1998, №4.

50. Kohonen Т.,Self-Organised formation of topologically correct feature maps.Biol.Cybernetics,1982,№43,p.59-69.

51. Kohonen T.,Self-Organising and Associative Memory. Berlin, Springer Verlag,1995.

52. Hopfield J. Neural Networks and physical systems with emergent collective computationalabilities. Proceedings of the National Academy of Science.vol 79,pp 2554-58.

53. Крыжановский Б.В., Микаэлян А.Л. О распознающей способности нейросети на нейронах с параметрическим преобразованием частот. //Доклады АН, сер. мат. физика, т. 383, №3, с.318-321, 2002

54. Крыжановский Б.В., Микаэлян А.Л. Ассоциативная память, способная распознавать сильно скоррелировашще образы.// Доклады АН, информатика, т.390, №1, с.27-31,2003

55. Hoppensteadt F.C., Izhikevich Е.М. //IEEE Tras. on Neural Nets. 2000. V.l 1, N3, P.734-738.

56. Экклс Дж. Физиология нервной клетки. //М : 1959.

57. Ходжкин А. Нервный импульс. //М.: Мир,1965.

58. Хьюбелл Д. Глаз, мозг, зрение. //М.: Мир, 1990.

59. Гольдман-Ракич П. Оперативная память и разум. В мире науки. // М.: 1992, №11-12, стр. 63-70.

60. Николлс Дж.,Мартин А.,и др. От нейрона к мозгу. // М.: 2003.

61. Truman J.,Torn R. and Robinov S. 1992. J.Neurobiol. 23: 1295-1311.

62. Oppenheim R. 1991. Annu.Rev.Neurosci .14: 453-501.

63. O'Leary D. 1992. Curr.Opin.Neurobiol. 2: 70-77.

64. Nakamura H. and O'Leary D. 1989. J.Neurosci .9: 3776-3795.

65. O'Leary D. and TerashimaT. 1988.Neuron 1:901-910.

66. Redfern P.1970.J.Phisiol.209:701-709.

67. Braun M.,Jansen J and Van Essen R.1976.J.Phisiol.261:387-422.

68. Betz W.,Caldwell J. and Ribchester R.1980.J.Phisiol.303:265-269.

69. O'Brien R.,Ostberg A. and Verbova G.1978.J.Phisiol.282:571-582.

70. Tompson w. 1983.Nature 302:614-616.

71. Рапопорт A.H. Автоматные модели поисковой оптимизации и управления. Дисс. на соиск. уч.степени доктора физ-мат. наук.// ВЦ РАН.М:2001.

72. Покровский А.Н.Процессы управления в нервных клетках. //Л.: Изд-во ЛГУ, 1987.

73. Покровский А.Н.Модельный элемент с нелинейностью, с двумя состояниями торможениями и возбуждения.// ДАН, т.395,№3,2004.

74. Дунин-Барковский В.Л. Структурно-информационный подход к анализу нейронных систем. Дисс. на соиск.уч.степени доктора физ-мат наук. // Пущино,1990.

75. Кормен Т. и др., Алгоритмы: построение и анализ.// М.: МЦМНО, 2000

76. Кнут Д., Искусство программирования для ЭВМ. Сортировка и поиск, т.З.// М.: Мир, 1978.

77. Crick F, Mitchinson G. The function of dream sleap. Nature, 304, 111.1983.

78. Hopfield J.J., Feinstein D.I., Palmer R.G. Unlearning has a stabilizing effect in collective memories. Nature, 304,158.1983.

79. Романов С.П.Электронный аналог нейрона, как элемент управляющих нейронныхструктур. //Сборник научных трудов VI Всероссийской научно-технической конференции "Нейроинформатика-2000 М.М.:МИФИ, 2000.

80. Zhdanov A.A. Application of Pattern Recognition Procedure to the Acquisition and Use of

81. Data in Control.// Pattern Recognition and Image Analisis vol.2, N2,1992. (ISSN: 10546618).

82. Zhdanov A.A. A principle of Pattern Formation and Recognition.// Pattern Recognition and1.age Analisis vol.2, N3,1992. (ISSN: 1054-6618).

83. Zhdanov A.A., A.N. Vinokurov, Emotions Simulation in Methodology of Autonomous

84. Adaptive Control. 1999 -14th IEEE International Symposium on Intelligent Control /Intelligent Systems and Semiotics ISIC/ISAS'99. Special session Emotions and Intelligent Systems. September 15-17,1999, Cambridge, Massachusetts, USA. Paper 99-0021-6.

85. Рапопорт А.Н. Автоматные модели поисковой оптимизации и управления.// Киров: ИздвоВят-гу, 1999.

86. Непомнящих В.А. Как животные решают плохо формализуемые задачи поиска.// Журналобщей биологии.2000.т.61 ,№3.

87. Крыжановский М.В., Магомедов Б.М. Свойства подсистемы формирования ираспознавания образов мобильного робота на базе бинарного бесконфликтного дерева.

88. Международная конференция «Интеллектуальные системы» IEEE AIS'04. Геленджик-•2004 (в печати).

89. N.Chernov, "A mesure of assimptotic efficiency for tests of hupothesis based on the sum of theobservations", Ann.Math.Statistics,vol.23,pp.493-507.(l 952).

90. R.J.McEllise, E.C.Posner et al. "The capacity of Hopfield associative memory", IEEE Trans.1.f. Theory, 33, pp. 461-482 (1987).

91. A.Kuh and B.W.Dickson. "Information capacity of Associative Menory",IEEE Trans. Inf.

92. Theory, vol. 35, pp.59-68 (1989).

93. ААУ автономное адаптивное управление.1. БД блок датчиков1. БЗ база знаний1. ИО ирполнительные органы1. ОУ объект управления1. УС управляющая система

94. ФРО формирование и распознавание образов

95. ИИ — искусственный интеллект

96. ИНС — искусственная нейронная сеть1. Паттерн входной вектор