автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Динамическая ассоциативная память в нейронной сети с топологией окружности

кандидата физико-математических наук
Семенов, Сергей Анатольевич
город
Москва
год
1995
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Динамическая ассоциативная память в нейронной сети с топологией окружности»

Автореферат диссертации по теме "Динамическая ассоциативная память в нейронной сети с топологией окружности"

ГОСУДЛ РОТВЕНН ЫЙ И НОТЙТУТ ФИ 3 И КО-ТЕХ Н И Ч ЕСК ИХ. ПРО В Л ЕМ

На правах рукописи

ДИНАМИЧЕСКАЯ АССОЦИАТИВНАЯ ПАМЯТЬ В НЕЙРОННОЙ СЕТИ С ТОПОЛОГИЕЙ ОКРУЖНОСТИ

05.13.16 - применение вычислительной техники, математического мол шрования и математических методов в научных исследованиях

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

МОСКВА - 1995

Диссертация выполнена в Государственном институте физико-технически проблем

Научный руководитель: доктор физико-математических наук

ФИСУН о.и.

Официальные оппоненты:

доктор физико-математических наук ДУНИН-БАРКОВСКИЙ В.Л.

кандидат физико-математических наук ЕЖОВ А.А.

Ведущая организация:

Физический факультет Московского государственного университета

Защита состоится октября 1995 г. в 11 часов на заседании Диссертационного Совета при Государственном институте физико-технических проблем по адресу: 119034, г. Москва, ул. Пречистенка, д. 13/7.

С диссертацией можно ознакомиться в научной библиотеке Государственного института физико-технических проблем.

Автореферат разослан сентября 1995 г.

Ученый секретарь ,

Диссертационного Совета С^ —ЕЫТ Придорогин

Общая характеристика работы

Актуальность темы. Диссертация посвящена изучению процессов обработки информации в искусственных нейронных сетях. В последние годы они успешно применяются в системах распознавания текстов, речи, видеоизображений, предсказания финансового рынка, системах автоматического управления технологическими процессами, экспертных системах. При этом нейронные сети решают задачи классификации образов, оптимизации маршрутов, разбиения графов, предсказания временных последовательностей и другие. Среди нейросетевых моделей важное место занимают аттракторные нейронные сети (АНС). Известно, что АНС робастно функционируют, в качестве ассоциативной памяти, как, например, хорошо изученная модель Хопфилда. Принципиальные проблемы возникают в случае, когда обрабатываемая информация обладает пространственной организацией, как, в частности, в упорядоченных массивах данных - последовательности или таблице символов. В рамках традиционных моделей АНС не удается адекватно формулировать и решать задачи распознавания пространственно организованной информации. Так, не находит решения проблема распознавания информационного массива как целого путем непрерывной (квази)локальной обработки поступающей информации. Развитие теории АНС на случай пространственной организации информации является новой и актуальной задачей.

Недавно А.Ю. Плаховым, О.И. Фисуном и автором диссертации была предложена концепция топологических моделей нейронных сетей, позволившая решить вышеуказанную проблему распознавания. Общая концепция была применена к случаю одномерной информации - последовательности бит, в результате построена модель нейронной сети с топологией окружности (НСТО). В этой модели ключевую роль в процессе воспроиз-

ведения информации играют динамические режимы.

Цель работы - выяснить возможности и ограничения динамической ассоциативной памяти в модели нейронной сети с топологией окружности. Одновременно, на примере рассмотрения специальной одномерной модели предложить общий подход к исследованию топологических моделей нейронных сетей.

В диссертации решаются следующие проблемы теории:

1. Обобщение аналитических методов теории А НС на случай пространственной упорядоченности массива информации и нейронов сети.

2. Анализ динамических режимов распознавания информации и фазовых переходов в модели НСТО.

3. Адаптация алгоритмов обучения АНС для пространственно упорядоченной информации.

Результаты работы представляют собой последовательное развитие теории АНС и связаны с изучением функции динамической ассоциативной памяти в АНС нового типа - топологических нейронных сетях.

Общая методика исследований. В работе систематически используются методы и подходы теории динамических систем, статистической механики и численного моделирования. Научная новизна:

1. Сформулирована концепция топологических моделей нейронных сетей для распознавания пространственно упорядоченной информации.

2. Детально исследована динамика одномерной топологической нейронной сети с пространственной организацией информационного массива в виде спирали. Обнаружены два устойчивых динамических режима, соответствующие альтернативным типам распознавания информации - мозаичному и квазилокальному.

3. Численно изучены способность НСТО к распознаванию информации при наличии статического и температурного шума, а также устойчивость режима бегущей волны воспроизведения информации в зависимости от пространственной асимметрии связности.

4. Определены условия распознавания нестационарного внешнего поля. Найдена критическая амплитуда внешнего поля как функция загрузки памяти, радиуса связности и скорости бегущей волны внешнего поля.

5. Определены ограничения на параметры модели для распознавания слабого пространственно локализованного сигнала, для чего вычислен радиус обрезания спектра Фурье как функция температуры и параметров связности.

6. Определены низколежащие метастабильные состояния системы, и найдены условия переходов между ними.

7. Предложен алгоритм-предписание типа проектор-правила для запоминания в НСТО заданной последовательности из векторов состояния, составленных из упорядоченного информационного массива.

8. Предложен итерационный алгоритм типа перцептрон для обучения НСТО. Найдены условия его сходимости для случая равномерной трансляционно-инвариантной связности с произвольной пространственной структурой. В модельных экспериментах определены скорость сходимости алгоритма, а также качество обучения в зависимости от загрузки памяти и структуры связности.

Теоретическая и практическая значимость. Результаты и предложенные подходы к изучению топологических моделей нейронных сетей могут служить теоретической основой создания эффективных нейросете-вых устройств для обработки пространственно упорядоченной информации.

Апробация работы. Основные результаты работы, представленные в диссертации, докладывались на семинаре "Нейронные схемы и теория нейронных сетей" (руководитель семинара В.Л. Дунин-Барковский) в Институте проблем передачи информации РАН, на 1-й Международной конференции по анализу изображений и распознаванию образов (1Т1АР11), г. Львов, 1990 и на семинаре-совещании "Алгоритмы обработки информации в нейроподобных системах", г. Нижний Новгород, 1993.

По теме диссертации опубликовано четырнадцать работ.

Структура и объем работы. Диссертация состоит из введения, 5 глав, заключения, приложения, 23 рисунков и списка литературы из 112 наименований. Общий объем работы -132 страницымашинописного текста.

Содержание диссертации

Во введении в виде краткой аннотации изложено то новое, что вносится в теорию аттракторных нейронных сетей, а также основные положения, выносимые на защиту. Здесь же дается обоснование темы диссертации.

Глава 1. В первой главе вводится необходимая терминология, принятая в теории аттракторных нейронных сетей, и приводятся основные результаты, полученные к настоящему времени. Основная часть результатов теории АНС получена в рамках парадигмы Хопфилда, ключевым компонентом которой является релаксация системы в минимум некоторого функционала энергии при распознавании прототипов. Значимыми параметрами распознавания являются перекрытие т текущего состояния с прототипами, загрузка памяти а, определяемая как отношение числа прототипов р к числу нейронов ./V, и температура Т, задающая уровень стохастического шума в системе. Для полносвязной модели Хопфилда характерен фазовый переход к распознаванию, при котором перекрытие изменяется скачком от ш = 0 до т « 1; максимальная емкость памяти равна а1г{{Т = 0) = 0.138.

Отмечается, что известные обобщения модели Хопфилда функционируют на основе единых коллективных механизмов.

Подробно обсуждаются биологически мотивированные нейронные сети типа Хопфилда на основе осцилляторов предельного цикла. Рассматриваются вопросы синхронизации осцилляторов и процедуры обучения. Детально обсуждаются модели осцилляторных нейронных сетей, предложенные автором диссертации, которые точно решаются в пределе сильной разреженности связей. Отмечается, что для всех разреженных моделей АНС характерны непрерывный фазовый переход к распознаванию и близкие значения максимальной емкости памяти. Для полносвязных осцилляторных сетей последняя на порядок ниже, чем в модели Хопфилда.

Обсуждаются проблемы оптимизации АНС и распознавания последовательности прототипов. Представлены аргументы в пользу расширения понятия динамической ассоциативной памяти, чтобы включить ситуации, когда информация пространственно упорядочена (например, последовательность или таблица символов) и может быть воспроизведена по фрагментам в различных динамических режимах. В этих случаях пространственная координата несет дополнительную информацию, и для адекватного контроля процесса распознавания следует использовать локальное перекрытие с информационным массивом. Процедура обучения должна обеспечивать доступность всех частей информационного массива на этапе распознавания, что приводит к необходимости обучения сети информации как единому целому без разбиения ее на прототипы.

Глава 2. В этой главе формулируется и детально обсуждается концепция топологических моделей нейронных сетей, а также строится модель НС'ТО для обработки одномерного информационного массива. Ключевая идея авторов концепции состоит в способе согласования пространствен-

но упорядоченной информации, предъявляемой сети для запоминания, со структурой нейронной сети. Авторы предложили: 1) расположить информационный массив на виртуальной информационной поверхности (ИП), выбор которой определяется задачей распознавания; 2) определить граф связей между элементами массива и далее межнейронные (синаптические) связи согласно правилу проектирования ИП на пространство нейронной сети; 3) провести обучение сформированной связности для выполнения системой функции ассоциативной памяти.

Следуя общей конструкции, была построена модель нейронной сети для распознавания одномерного массива бит. Информация для запоминания -случайная последовательность бит £(1),... £(/) = ±1 с равной ве-

роятностью 1/2. Спины Изинга (нейроны), 5, = ±1, г = распо-

ложены равномерно на единичной окружности, а информационные элементы £(/) - на спирали из р витков, при этом информационные элементы + ¿1 = 0,... ,р— 1, проектируются на нейрон i. При фиксированном Iх набор {£(« + i = 1,..., УУ} представляет собой информационную

копию. В результате, с использованием предписания типа Хебба, синапти-ческая матрица Jij определяется как

Веса ры > 0 задают пространственную структуру связности и непосредственно определяют свойства воспроизведения информации.

Воспроизведение запомненной информации осуществляется в результате стандартной стохастической параллельной или последовательной динамики.

Глава 3 В этой главе на основе решения макроскопического уравнения эволюции, а также с помощью численного моделирования изучается

динамическое поведение системы в зависимости от структуры связности, температуры, внешнего поля и начальных условий. В континуальном пределе для (а) сильной разреженности связей и (б) конечного числа информационных копий выведены уравнения эволюции в терминах функции перекрытия тДи). В предельных случаях полученные уравнения переходят в известные уравнения моделей Хопфилда и Ноеста-Кулена.

Если характерный масштаб изменения функции связности р сравним с размером сети '2х, вид функции связности определяет тип динамического поведения системы. Пусть р(г) дается ступенчатой функцией с радиусом связности (I = (г + /)/2 < 7Г и параметрами дальнодействия а и Ь. В пределе о —» г, 6 —' /, с{ ~ 2тг имеем систему с дальнодействием, а при а, 6 —«• О приходим к равномерной связности на отрезке ] — /, г[.

Пусть параметры дальнодействия много меньше размера сети. Если длина начально воспроизведенного фрагмента Ь не превышает размера сети, но значительно больше параметров дальнодействия, то за время, обратно пропорциональное радиусу связности, начальный фрагмент заполняет все пространство сети. Если же параметр дальнодействия превышает длину начального фрагмента, происходит процесс "размножения" фрагментов с характерным временем, обратно пропорциональным области связности (г + 1— (а + 6))/2. Если Ь превышает размер сети, то система стабилизируется в ближайшем нечетном однородном смешанном состоянии. Время стабилизации обратно пропорционально радиусу связности. Если изначально система находится в композитном состоянии, то в результате конкуренции выживают фрагменты, длина которых превышает радиус связности. Критический размер зародыша чистого состояния, вкрапленного в однородное смешанное состояние из в копий в смеси, выше которого система эволюционирует в чистое состояние, убывает как я-1/2.

Если параметр дальнодействия сравним с размером сети и превышает длину начального фрагмента, также имеет место "размножение" фрагментов. Так, в случае дальнодействия, если длина начального фрагмента не превышает области связности, процесс размножения захватывает ~ [2тг/(г — а)] 1 смежных информационных копий.

При наличии асимметрии связности в системе реализуется устойчивый режим бегущей волны, скорость которой V пропорциональна асимметрии связности. Если параметр дальнодействия отличен от нуля, и функция связности симметрична (с точностью до сдвига начала координат), то в системе возникают колебания. При наличии асимметрии связности в системе возникает динамический режим, сочетающий бегущую волну и колебание.

Величина перекрытия, ширина фронта и скорость бегущей волны, полученные в модельных экспериментах (а, Ь = 0), находятся в согласии с решением уравнения эволюции, причем наибольшее сходство наблюдается лля полностью асимметричной связности, I ф 0, г = 0. Изучен вопрос об устойчивости режима бегущей волны. Эксперименты показывают, что устойчивость волны определяется в основном загрузкой памяти и уровнем стохастического шума и слабо зависит от асимметрии связности. Для обеспечения устойчивости режима во всем диапазоне докритических загрузок и температур необходима асимметрия связности, близкая к предельной.

Изучена способность нейронной сети распознавать информацию в присутствии шумов. Получена экспериментальная фазовая диаграмма (п,Т), которая качественно совпадает с диаграммой модели Хопфилда. Обнаруженный скачкообразный фазовый переход к распознаванию информации слабо зависит от асимметрии связности.

Исследовано поведение системы во внешнем нестационарном поле. Для

случая отсутствия шумов в системе получено выражение для критической амплитуды внешнего поля в зависимости от радиуса связности и скорости бегущей волны внешнего поля. График амплитуды как функции отношения скорости к радиусу имеет вид кривой с насыщением. Критическая амплитуда внешнего поля слабо зависит от а за исключением области малых скоростей волны.

Изучена способность системы распознавать слабый пространственно локализованный сигнал, с этой целью вычислен радиус обрезания спектра Фурье. Найдено, что общий вид спектра определяется комбинированным параметром равным отношению асимметрии к радиусу связности, и не зависит от деталей структуры связности.

Глава 4 В четвертой главе с использованием подхода статистической механики определены ограничения на параметры модели для устойчивого функционирования ассоциативной памяти. Для конечного числа информационных копий получено уравнение среднего поля, определяющее термодинамические состояния системы и совпадающее со стационарным уравнением эволюции. Эти состояния составляют спектр системы и характеризуют возможности ассоциативной памти.

Для достаточно общего класса функций связности р(г) в случае нулевой температуры в явном виде можно вычислить энергию Е низколежа-ших состояний спектра. Вид спектра определяется соотношением размера сети, радиуса связности <1 и параметра дальнодействия а и не зависит от деталей структуры связности. Основное состояние зависит от величины параметра дальнодействия. При а < 2я-/3 основным состоянием является чистое состояние, соответствующее воспроизведению фрагмента длиной '2л. С ростом а основным становится композитное состояние, причем максимальное число фрагментов равно Ьтаг = —а). Каждая граница

фрагмента композитного состояния дает дополнительный вклад в Ев виде "поверхностной" энергии. Выше по энергии лежат однородные смешанные состояния, связывающие нечетное число в смежных информационных копий. Энергия этих состояний слагается из энергии смешанного состояния модели Хопфилда и "поверхностной" энергии. Еще выше по энергии лежат смешанные состояния, связывающие нечетное число удаленных друг от друга копий.

По пересечению термов энергии предсказаны неравновесные фазовые переходы и выяснены условия их реализации. К неравновесным фазовым переходам, сопровождающимся скачкообразным изменением функции перекрытия, относятся переходы: (а) между однородными состояниями с различными в; (б) из однородного смешанного в чистое композитное состояние; (в) из чистого композитного в однородное смешанное состояние.

Фазовый переход (а) имеет ту же природу, что и в стандартной модели Хопфилда, и происходит выше критической температуры Т,(с1,а). Переход (б) реализуется при низких температурах выше критических линий на фазовых диаграммах (Т, а) и (Т, (1). Анализ показывает, что этот переход имеет место, если параметр дальнодействия а превышает одну четвертую размера сети. Если а становится больше одной третьей размера сети, то все однородные состояния теряют устойчивость и система релаксирует в ближайшее неоднородное (или композитное) состояние. При высоких температурах реализуются переходы в неоднородные состояния непрерывного спектра. Переход (в) реализуется, если максимальное расстояние между начальными Ь фрагментами не превышает радиуса связности <1 и в. > (¿с, где с1с определяется по пересечению термов.

Глава 5 В пятой главе решается проблема обучения топологических нейронных сетей, при этом известные алгоритмы обучения А НС адапти-

руются к случаю пространственной упорядоченности информации. Рассматривается алгоритм-предписание для топологических нейронных сетей на основе псевдообратного правила точного запоминания прототипов. В частности, если обученная НСТО помещена в начальный момент времени в состояние = (£(1 + ^ЛГ),...,£(N + Ь'ЛГ)), то в дальнейшем в результате параллельной динамики будет воспроизводиться последовательность информационных копий, заданная с помощью перестановки на множестве индексов {/' = 1,..., р}-

Предлагается итерационный алгоритм типа перцептрон, и при условии существования решения доказывается его сходимость для синаптической матрицы НСТО достаточно общего вида.

Для увеличения скорости сходимости в модельных экспериментах предложена модификация алгоритма, в которой приращение вектора /,• пропорционально его норме. При сравнении кольцевой модели Хопфилда и НСТО найдено, что в области эффективного функционирования перцептронных алгоритмов среднее время сходимости зависит только от загрузки памяти а и не зависит от модели. В частности, скорость алгоритма не зависит от пространственной структуры связности. Качество запоминания информации оценивалось по интегральному параметру, инвариантному относительно разбиения информационного массива на копии - спин-флип стабильности. Установлено, что в рассматриваемой области (а < 0.4) качество запоминания информации не зависит от модели и определяется только загрузкой памяти.

На защиту выносятся следующие основные результаты:

1. Сформулирована концепция топологических моделей нейронных сетей для распознавания пространственно упорядоченной информации.

2. Получены макроскопические уравнения эволюции нейронной сети с топологией окружности с обучением хеббовского типа: (а) в приближении сильной разреженности связей и (б) для конечного числа информационных копий. Аналитически и численно найдены два устойчивых динамических режима, которые отражают альтернативные типы распознавания информации - мозаичное и квазилокальное и соответствуют предельным случаям пространственной структуры связности - дальнодействию и равномерной связности.

3. Численно показано, что способность НСТО к распознаванию информации при наличии шумов соответствует модели Хопфилда, при этом имеет место слабая зависимость ее от пространственной структуры связности. Обнаружено, что для устойчивости режима бегущей волны во всем диапазоне докритических загрузок и температур необходима асимметрия связности, близкая к предельной.

4. Определены условия распознавания нестационарного внешнего поля в виде бегущей волны. Найдена критическая амплитуда внешнего поля как функция радиуса связности и скорости бегущей волны. Обнаружено, что критическая амплитуда поля слабо зависит от загрузки памяти.

5. С целью изучения способности системы распознавать слабый пространственно локализованный сигнал вычислен радиус обрезания спектра Фурье системы как функция параметров связности и температуры. Вид спектра не зависит от деталей структуры связности и определяется комбинированным параметром С, равным отношению асимметрии к радиусу связности. В результате, для распространения сигнала на все пространство сети в

значительном диапазоне температур необходимо использовать связность с максимальным радиусом при условии (,' ~ 1, а для распознавания мозаичного типа следует выбирать связность с ( < 1.

6. На основе решения уравнения среднего поля для конечного числа информационных копий определены низколежашие метастабильные состояния системы и найдены условия переходов между ними. При нулевой температуре получена аналитическая зависимость энергии состояний спектра от параметров связности. Найдено, что структура энергетических термов определяется соотношением радиуса связности, параметра дальнодействия и размера сети и не зависит от деталей структуры связности.

7. Предложен алгоритм-предписание типа проектор-правила для запоминания топологической нейронной сетью заданной последовательности из р < N ЛГ-векторов, составленных из упорядоченного информационного массива.

8. Предложен итерационный алгоритм типа перцептрон, и доказана теорема сходимости для случая равномерной трансляционно-инвариантной связности с произвольной пространственной структурой. Обнаружено, что скорость сходимости алгоритма и качество обучения нейронной сети с топологией окружности зависят только от загрузки памяти и не зависят от способа разрежения синаптических связей (упорядоченное или случайное).

Список работ, опубликованных по теме диссертации

1. Topological models of neural networks. / Plakhov A.Yu., Semenov S.A., Fisun 0.1. // Proceedings of the 1st International Conference on ITIAPR, Lviv, 1990. V. 2. - P. 207 -211.

2. Топологические модели ассоциативной памяти в нейронных сетях. / Плахов А.Ю., Семенов С.А. // Сб. науч. тр. Динамические процессы в сложноорганизованных системах. - М.: ИФТП, 1991. - С. 29 - 43.

3. A circular neural network supporting information waves. / Plakhov A.Yu., Semenov S.A. // Europhysics Letters. 1992. V. 18. - P. 201 - 206.

4. Модель ассоциативной памяти в нейронной сети с топологией окружности. / Семенов С.А., Шувалова И.Б. // Математическое моделирование. 1993. Т. 5. - С. 32 - 47.

5. Обработка информации в нейронной сети с топологией окружности. / Семенов С.А., Шувалова И.Б. // Сб. науч. тр. Методы анализа и оптимизации сложных систем. - М.: ИФТП, 1993. - С. 19 - 38.

6. Динамика нейронной сети с топологией окружности. / Семенов С.А. // Известия высших учебных заведений - Радиофизика. 1994. Т. 37. N. 9. -С. 1116- 1130.

7. Ассоциативная память в XY-модели при Т=0. / Семенов С.А. // Сб. науч. тр. Релаксационные процессы и явления в активных средах. -М.: ИФТП, 1990. - С. 55 - 63.

8. Short-term memory in a sparse clock neural network. / Semenov S.A., Plakhov A.Yu. // J. Phys. I (France). 1993. V. 3. - P. 767 - 776.

9. Информационные характеристики осцилляторных нейронных сетей. / Плахов А.Ю., Семенов С.А., Фисун О.И. // Тез. докл. 4-й Всесоюзной конф. "'Математические методы распознавания образов'. Рига, 1989. Т. 2. - С. 117- 119.

10. Модели памяти в сети связанных осцилляторов. / Плахов А.Ю., Семенов С.А., Фисун О.И. // Сб. науч. тр. Прикладные аспекты анализа распределенных систем. - М.: ИФТП, 1990. - С. 11 - 21.

11. The modified unlearning procedure for enhancing storage capacity in Hopfield network. / Plakhov A.Yu., Semenov S.A. // Proc. RNNS/IEEE Symposium on Neuroinformatics and Neurocomputers, Rostov-on-Don, 1992. V. 1. - P. 242 - 251.

12. Модифицированная процедура разобучения для достижения точного запоминания в нейронных сетях. / Плахов АЛО., Семенов С.А. // Сб. науч. тр. Процессы и структуры в открытых системах. - М.: ИФТП, 1992. - С. 50 - 56.

13. An unlearning-type procedure for the self-correction of Hebbian connectivity. / Plakhov A.Yu., Semenov S.A. // Neural Network World. 1993. V. 4. - P. 405 - 412.

14. Neural networks: Iterative unlearning algorithm converging to the projector rule matrix. / Plakhov A.Yu., Semenov S.A. //J. Phys. I (France). 1994. V. 4. - P. 253 - 260.