автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Модель сознательного внимания и биоподобного анализа изображений на базе ансамбля АРТ-нейросетей

кандидата физико-математических наук
Мищенко, Алесь Викторович
город
Санкт-Петербург
год
2009
специальность ВАК РФ
05.13.18
Автореферат по информатике, вычислительной технике и управлению на тему «Модель сознательного внимания и биоподобного анализа изображений на базе ансамбля АРТ-нейросетей»

Автореферат диссертации по теме "Модель сознательного внимания и биоподобного анализа изображений на базе ансамбля АРТ-нейросетей"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

МИЩЕНКО Алесь Викторович

МОДЕЛЬ СОЗНАТЕЛЬНОГО ВНИМАНИЯ И БИОПОДОБНОГО АНАЛИЗА ИЗОБРАЖЕНИЙ НА БАЗЕ АНСАМБЛЯ АРТ-НЕЙРОСЕТЕЙ

05.13.18 — Математическое моделирование, численные методы и комплексы программ.

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

1 о ЛЕН 2003

Санкт-Петербург 2009

003487512

Работа выполнена на кафедре компьютерного моделирования и многопроцессорных систем факультета прикладной математики - процессов управления Санкт-Петербургского государственного университета.

Научный руководитель:

доктор физико-математических наук, профессор Андрианов Сергей Николаевич

Официальные оппоненты: доктор физико-математических наук,

профессор Флегонтов Александр Владимирович

кандидат физико-математических наук, доцент Коровкин Максим Васильевич

Ведущая организация:

Санкт-Петербургский институт информатики и автоматизации РАН.

Защита состоится «23» декабря 2009 г. в 15 часов на заседании совета Д.212.232.50 по защите докторских и кандидатских диссертаций при Санкт-Петербургском государственном университете по адресу: Санкт-Петербург, 199034, В.О., Университетская наб. 7/9, Менделеевский центр.

С диссертацией можно ознакомиться в библиотеке им.М.Горького Санкт-Петербургского государственного университета по адресу: 199034, Санкт-Петербург, Университетская наб., дом 7/9. Автореферат размещен на сайте www.spbu.ru.

Автореферат разослан <¿2» ноября 2009 г.

Ученый секретарь диссертационного совета доктор физ.-мат наук,

профессор Г. И. Курбатова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность

Обработка и анализ изображений являются одной из наиболее востребованных областей применения математического моделирования и численных методов. В последнее время особую актуальность приобрело нейросетевое моделирование обработки визуальной информации в системах биологического зрения. Адаптивная резонансная теория (APT) является одним из последних крупных достижений в области создания нейросетевых моделей, действующих по принципу подобия биологическим когнитивным процессам.

Входное бинарное изображение (X)

Рис. 1. АРТ-ссть, состоящая из одного полносвязного классификатора (слоев CP, СС и весов W-t), а также модуляторов сброса-принятия (МСП), сравнения (МС) и распознавания (MP).

Усиливающие связи показаны стрелками, тормозящие - «булавами».

Все чаще от алгоритмов обработки массивов изображений требуют человекоподобных навыков, таких как анализ структуры и возможность ассоциирования образов друг с другом. Добавление таких навыков в APT актуально и как её развитие, и как развитие машинного зрения.

Практически все разработки APT моделируют многие важные аспекты восприятия. В области моделирования внимания следует отметить модель СААРТ, способную «замечать» в изображениях-кандидатах только искомый объект и «не реагировать» на остальное. Однако в реальных биологических системах реализуется не только внимание, ответственное за подавление фона. В частности, существуют также механизмы внимания, направляемого в соответствии с моделями реальности, например, в соответствии со структурой знакомых объектов. Такое внимание можно назвать созиательньш. Оно соответствует нашим попыткам «увидеть» знакомую структуру в воспринимаемом изображении и является примером влияния высокоуровневого анализа изображений на низкоуровневое восприятие. Моделирование, в рамках APT, подобных процессов актуально как с точки зрения теории нейросетей, так и с точки зрения вычислительной нейрофизиологии.

Сформулируем некоторые задачи, актуальные для моделирования в рамках APT: В заданном потоке входных изображений {0J,'!,"0 и при заданном пороге их различимости р0 (уровне внимания), целевая нейросеть (СВАК-нейросеть, рис. 2) должна быть способна самостоятельно производить следующие действия:

1. Классификация объектов (изображений) в соответствии с запомненными ранее классами ({0,}£"' Ь» {К,}'^").

2. Коррекция классов по мере поступления в них новых объектов, а так же создание новых классов для объектов, малопохожих на ранее увиденные

3. Создание структурных и ассоциативных связей между запомненными классами (как типа «часть-целое», так и типа «две половины одного целого»

4. Моделирование интроспективного «обдумывания» (возбуждения зрительной памяти для структурирования запомненных объектов

5. Направление внимания (выборочное «подчеркивание» частей изображения в соответствии с усвоенными структурными связями (А): р0 (-» р,(А); М'Ат™!-* {О,

Низкоуровневое зрение .-Л-^

Образная обциботка

Аналитическая обработка

_ _А

Л С

критерии

опознания, модули управления, переключатели состояний

<------------------

Фасеточные карты }

фасеточное представление образа

структурные и ассоциативные связи

анализ структурных

V_ _) \_ _) 4-V-' V- -)

у у

Нейроансамбль Нейроансамбль

Свертка по Первичное узнавание ассоциативного сознательного

рецептивным (аморфное , внимания внимания )

полям сетчатки восприятие) х—к-"-х--^

г Опознание и уассоциирование

Рис. 2. Модель сознательного внимания и ассоциативной классификации (СВАК) и соответствующие ей стадии обработки визуальной информации.

Назовём моделью сознательного внимания и ассоциативной классификации нейросеть, удовлетворяющую условиям 1-5. Приведённые уравнения Гроссберга и их численная реализация в пределе быстрого обучения обеспечивают моделирование процессов 1-2. Полученная в диссертации зависимость силы

ассоциации от числа повторений A(tN)=A0 Z " в комбинации с забыванием

Эббингауза-Стронга A{t) =A-B\ogz(t), применённая для синаптических связей, разработанных в диссертации нейроаисамблей ассоциативного и сознательного внимания, обеспечивает моделирование 3-5. Множество переменных, представляющее визуальную информацию, строится с помощью с разработанного биоподобного фасеточного метода.

Цель и задачи исследования

Целью работы является математическое моделирование механизмов внимания в процессах распознавания, классификации и анализа структуры изображений, разработка численных алгоритмов для целевой модели, а также создание комплекса нейросетевых программ, реализующих эти алгоритмы.

Назовем целевую нейросеть нейросетью сознательного внимания и ассоциативной классификации (СВАК-нейросетью).

Поставленная цель определяет следующие основные задачи.

Задача 1. Исследование предмета моделирования (процессов и стадий визуальной обработки, психологических моделей внимания в системах биологического зрения), и структурирование процесса обработки визуальной информации - как временное (на стадии), так и архитектурное (на подсети). Задача 2. Формализация, выбор структурных элементов и математическое моделирование на их основе подсетей, соответствующих задаче 1. Задача 3. Разработка логической структуры целевой модели (нейросети СВАК), в том числе: архитектуры и функциональности (численных алгоритмов) всех подсетей задачи 2; биоподобного представления визуальной информации; методов соединения структурных элементов в нейроансамбли, возбуждающиеся при ассоциативном и сознательном внимании. Задача 4. Реализация нейросети СВАК в виде комплекса программ на основе разработанных численных алгоритмов. Тестирование его способности к автоматическому структурированию объектов, а также выполнения условий устойчивости работы комплекса программ.

Задача 5. Разработка методов проверки адекватности математической модели СВАК на основе сравнения с психологическими когнитивными экспериментами.

Задача 6. Применение СВАК и ее частей для различных практических задач обработки изображений (поиск и сегментация объекта по эталону, создание тримапа для матирования, вычисление свойств материала по изображению микроструктуры).

Научная новизна

• Разработан биоподобный метод фасеточного представления визуальной информации, упрощенно моделирующий сетчатку, и впервые применён для решения некоторых задач обработки изображений.

• Создана математическая модель процессов сознательного внимания и ассоциативной классификации, реализованная в виде нового типа нейросетевой архитектуры на базе APT. Доказаны новые АРТ-теоремы о функционировании данной архитектуры.

• Предложены алгоритмы работы нейроансамблей ассоциативного и сознательного внимания, т.е. новый метод соединения структурных элементов APT в единую нейросеть, впервые моделирующую как ассоциативное и сознательное внимание, так и процесс интроспективной структуризации запомненных объектов.

• Создан программный комплекс, реализующий математическую модель сознательного внимания и ассоциативной классификации для её применения в решении некоторых задач обработки изображений (создание автоматического тримапа, поиск и сегментация объекта по его эталонному изображению, вычисление свойств материала по изображению его микроструктуры1).

Практическая значимость полученных результатов. Практические приложения разработанного метода были запатентованы и использованы в коммерческих и научно-исследовательских проектах.

Основные результаты приложения «поиск и сегментация объекта по его эталонному изображению» были выполнены во время работы в научно-исследовательском центре фирмы Самсунг, запатентованы и применены в рамках разрабатываемой фирмой Самсунг системы интернет-торговли.

Основные результаты приложения «вычисление свойств материала по изображению его микроструктуры» были выполнены в научно-исследовательском центре фирмы Корнинг. Соответствующие результаты были оформлены в виде материалов для служебного пользования и применены в рамках проекта фирмы Корнинг по созданию высоко-технологичных пористых материалов.

Разработанная математическая модель СВАК, а также результаты сравнения работы комплекса программ СВАК с психологическими экспериментами распознавания, классификации и анализа структуры изображений были использованы в дипломных исследованиях факультета психологии РГПУ им. А.И.Герцена.

Основные положения диссертации, выносимые на защиту

1. Биоподобный метод представления визуальной информации, отражающий особенности работы сетчатки и психологических механизмов внимания.

2. Математическая модель процессов сознательного внимания и ассоциативной классификации, её теоретическое обоснование и нейросетевая архитектура (нейроансамбли ассоциативного и сознательного внимания).

3. Численный алгоритм для предложенной в диссертации математической модели и соответствующий комплекс программ.

4. Методы адаптации математической модели сознательного внимания и ассоциативной классификации для её применения в различных задачах обработки изображений (поиск и выделение объекта по эталонному изображению; автоматическое создание тримапа для задач матирования; оценка проницаемости пористого объекта по изображению его микроструктуры).

1 Для последнего приложения разработан также новый численный метод оценки проницаемости пористого материала по анализу изображений его срезов.

6

Апробация и опубликованность результатов. Основные положения и результаты диссертационной работы докладывались и обсуждались на: Международной конференции компьютерной графики и машинного зрения Графикон, Россия, Н.Новгород (2001); Международной конференции Искусственного интеллекта ИАИ, Украина, Кацивели (2002, 2004); International Conference EpsMsO, Aphens, Greece, (2005); Modeling and Simulation IAESTED conference, Beijing, China, (2007), а так же на научных семинарах: Visual processing lab seminar в научном центре фирмы Самсунг (Samsung Advanced Institute of Technology), Giheung-gu, S.Korea, (2001); Modeling&Simulation meetings в научных центрах фирмы Корнинг: Corning-SP, USA и Corning-CSC, Санкт-Петербург (2004, 2007); Семинаре машинного зрения и компьютерной графики МГУ, Москва (2006, 2008); Computational neurophysiology seminar, Los-Alamos National Lab, Los-Alamos, NM, USA (2008); Семинаре секции «Кибернетика» Дома Ученых СПб (2009); Семинаре кафедры компьютерного моделирования и многопроцессорных систем факультета прикладной математики - процессов управления СПбГУ (2009).

Все новые результаты, представленные в диссертационной работе получены автором самостоятельно. Реализация программного комплекса на некоторых типах ЭВМ была проведена совместно со специалистами в области аппаратного и программного обеспечения ЭВМ. В публикациях с соавторами вклад соискателя определяется рамками излагаемых в диссертации результатов. Руководители проектов принимали участие в постановке задач, оценке промежуточных и конечных результатов.

Благодарности. Выражаю благодарность старшему научному сотруднику Джи-Юнгу Киму и руководителю проекта Чанг-Ионгу Киму (Samsung Advanced Institute of Technology), а также старшему научному сотруднику Олушу Боратаву и руководителю проекта Филиппу Барту (Corning Incorporated) за поддержку данных исследований, предоставление необходимых материалов, постановку ряда задач и плодотворное сотрудничество.

Публикации. По материалам диссертации опубликовано 12 печатных работ, список которых приведен в конце автореферата. Из них 1 статья опубликована в издании, рекомендованном ВАК2.

Структура и объём диссертации. Диссертационная работа состоит из введения, четырёх глав, заключения, библиографического списка и девяти приложений. Работа изложена на 220 страницах машинописного текста, включая 75 страниц приложений. Библиографический список содержит 249 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

В первой главе описываются область и методы исследования,

формулируется задача построения ИНС на основе APT в соответствии с

психологическими моделями узнавания, опознания и внимания, а также описывается общее строение модели СВАК (рис. 2).

2 Также, 3 статьи были опубликованы в изданиях, рекомендованных ВАК Украины.

7

Первый параграф и Приложения к нему представляют собой введение в искусственные нейронные сети (ИНС), их свойства и применимость к различным задачам (особое внимание уделено APT и ансамблевым нейросетям, наиболее подходящим для биоподобной обработки информации). Рассмотрены характерные для АРТ-сегей комплексы нейронов - полносвязные классификаторы (ПК) - рис.1. Приведены определения нейросети (ИНС), обучения ИНС, АРТ-нейросети, АРТ-нейроансамбля.

Второй параграф посвящен временному (разделение на стадии) и архитектурному (разделение на подсети) структурированию процесса обработки визуальной информации мозгом. Образная обработка визуальной информации разделяется на первичную классификацию ({О,})!*01—> {/С,}^") и ассоциирование (Л = {(£(,#,}',Выводится зависимость силы ассоциативной связи от числа повторений: A(tN)=Aa Z~", которая комбинируется с забыванием

Эббингауза-Стронга A(t) = A-B\ogz(t). Аналитическая (структурная) обработка изображения формализуется в виде древовидных структур

{К, =parent({Kj}Jjli")Y,li'. Также выделяются 2 подсети, отвечающие соответственно за низкоуровневое (сетчатка - см. левая часть рис. 2) и высокоуровневое (зрительные отделы коры головного мозга) зрение.

В третьем параграфе производится математическая формализация проблемы моделирования внимания3 и распознавания, в том числе постановка задачи моделирования и архитектура нейросетевой модели. Формулируется математический аппарат нейросетевой метрической кластеризации изображений

Результатом первой главы является выполнение задач 1 и 2 исследования, а также формулирование задач моделирования ассоциативного и сознательного внимания; сознательной (интроспективной) структуризации запомненных объектов. В заключении первой главы описывается разделение нейросети СВАК на подсети (рис. 2), наполнение и функциональность которых обсуждаться в Главе 2.

Во второй главе описываются структура и функциональность подсетей СВАК-сети.

В первом параграфе описывается метод фасеточной обработки изображений {О/Уы" > основанный на разделении изображения 0(х,у) на прямоугольные фрагменты (фасетки ФИ([х/Ых\ [v/A'vl), где Nx-Ny - число фасеток, а [.] - целая часть числа) с последующим вычислением свойств {^{¡¡¡^ этих «подизображений» с помощью определяемых спецификой приложения операторов {^ЛЕГ- Даны определения е-устойчивости и Б-разделимости нейрокластеризации4. Дано

3 В соответствии с психологической моделью Трейсмана-Джулеша, составляется карта свойств объекта 0(х,у)\-> {Г,)'","', где /г - текстура, цвет, ориентация, и т.п. Высокоуровневые свойства (форма, и т.п), для упрощения, не рассматриваются.

4 УО', О" е справедливо: если ¡¡(0'\0")>е, то О',О" попадут в разные кластеры из {К,

определение е0 -соответствия фасеточных свойств пикселей5, при котором

справедлива Теорема «Об эквивалентности», доказательство которой приведено в диссертации. Согласно этой Теореме, существует фасеточная нейросеть, эквивалентная исходной пиксельной. Причём, е-устойчивость пиксельной нейросети влечёт г, -устойчивость фасеточной нейросети, а е-разделимость пиксельной нейрокластеризации влечёт е2 -разделимость фасеточной нейрокластеризации, где е, =£1(£,£0).

Фактически, фасетка представляет собой вычислительный аналог рецептивного поля, по которому нейроны сетчатки собирают информацию, необходимую для решения конкретной задачи. При моделировании эта информация может быть одним свойством или набором свойств. Она также может варьироваться в зависимости от решаемой задачи и выбирается априорно. Для задачи поиска и сегментации объекта по эталону это - цветовые и текстурные статистики фасеток. При размере рецептивного поля, кратном размеру фасетки, используется, например, модифицированное разложение Фурье:

1=4 I {'^С^-О^^пМУе-'2^1" ,

здесь А'хЛ' - размер фасетки; к,1 и п,т - индексы свойства и пикселя в фасетке, коэффициенты вклада фасеток рецептивного поля). Для теста обработки букв русского алфавита — бинарное свойство пикселя «буква/фон». Для приближенного вычисления проницаемости пористого материала по изображениям его срезов -специфические свойства фасеток, соответствующие физическим величинам. Для сравнения производительностей СВАК-сети и СААРТ-сети - отклик детектора границ Д{С(лг,^,ст)} = Д{ехр(- (дгг +д»2)/2сг2)/2яет2}, в соответствии с доступными примерами.

Фактически, подсеть фасетизации производит свертку фрагментов изображения с ядром или ядрами, соответствующими различным свойствам фасеток. Результат таких сверток - набор «изображений» различных свойств, называемых фасеточными изображениями (ФИ).

5 ЗД};:^ такие что:УОСд^е {О,}';?''-О^у) =^71РгВ,(х,у)+£0, е0 > О

Во втором параграфе описывается АК-подсеть, реализующая задачу опознания фасеточных изображений (ФИ). Сеть сконструирована на основе ансамбля ПК (каждый из которых обрабатывает свое свойство фасеток) и способна корректировать кластеры объектов по мере поступления в них новых объектов, а так же создавать новые кластеры для объектов, малопохожих на ранее увиденные.

Каждый ПК (полносвязный классификатор) - это полный двудольный граф связей между нейронами слоев сравнения и распознавания (СС и СР, см. рис. 1). Каждый нейрон слоя распознавания (СР) соответствует изображению одного свойства одной фасетки. Каждый столбец матрицы весов ТУ у между СС и СР (каждый индекс у) хранит одно ФИ. Оно хранится в весах синапсов, веерно соединяющих нейрон / в СР со всеми фасетками изображения в СС. Для функционирования нейронов хк в СС и СР в зависимости от импульсов возбуждения J*k и торможения ^ используются уравнения Гроссберга для ПК6: е^хк = -хк + (1-С, хк)-Гк-(С2 +С3 -х, ; Г/~= £уС;>и/(ху) Н%;

^-=£[(1 - - Ц^(£кои,{хк)~ 1)]; при оиГ(х,) = 1;

I ^оош^оош при да,(дГу) = 0;

дополненные импульсами возбуждения J¡ и торможения Jk по всем ассоциативным связям = А = {(К1,К1}';^К. Здесь 0<с<1, С>0 - константы

активизации; £»0, ¿>1 - константы обучения нейронов. Эта модель в асимптотическом приближении «быстрого» обучения сводится к алгебраической коррекции весов: = ¿/(¿ +(X) -1), =1 для синапсов, связанных с

запомненным образом X (оШ{х1) = 1), = 0 для прочих (ои!(х^ = 0). Здесь

И^ (X) - суммарный «вес» изображения X: {Х)=%^1ком(хк). В слое

распознавания (СР) тот нейрон у имеет максимальную реакцию, веса синапсов которого максимально соответствуют исходному ФИ:

МАХ(1¥11 • ФИ1) = МАХ ^ Ц^ ■ ФИ1. Благодаря взаимному торможению внутри СР,

только этот нейрон возвращает «вспомненные» свойства обратно в СС в виде «веерного» выхода матрицы весов ¡У^. В случае, если входное ФИ не достаточно соответствует вспомненному образу, МСП сбрасывает его активацию и соревнование выигрывает другой нейрон. Этот процесс повторяется до тех пор, пока не встретится подходящий вспомненный образ, либо пока все образы (нейроны) в СР не окажутся перебраны. В последнем случае, в СР активируется первый попавшийся нейрон, соответствующий специальному «пустому» изображению и входное ФИ формирует в нем новый запомненный образ.

В параграфе также приведена полученная формула для максимальной разницы сил ассоциаций ААшх = А0/(\-1) с учётом затухания Эббингауза-Стронга и ^„^ = .¿0(1-1/(1-2)) в случае «идеальной» памяти. Выводятся условия

6 Здесь представлен вариант уравнений для нейросети, обрабатывающей бинарные изображения.

10

«различности» входных изображений: VJ.Ke {0,}'^": S(JC\K) < S(J) - С Мшх, обсуждаются условия малости начальных значений весов: Щ (J — 0) < L/{L -1 + dim( СС )) . Здесь dim(CC) - количество нейронов СС, С-вес ассоциации относительно воспоминания, S(X) = LW^ +

IFj. (Л-)- количество ненулевых пикселей изображения X. При условиях

различности изображений и малости начальных весов доказана Теорема «О воспоминаниях и ассоциациях», утверждающая, что при повторном показе образа X, активизация запомненного образа X на всех этапах превосходит как активизацию прочих, ассоциированных с ним образов, так и активизацию пустых ячеек памяти.

Во втором параграфе также описана архитектура и функциональность нейроансамблей ассоциативного (непроизвольного) внимания (HAB), соответствующих ассоциативным комбинациям свойств , по которым в

психологических моделях может направляться внимание. HAB объединяют несколько полносвязных классификаторов (ПК) в AK-подсети и моделируют непроизвольное внимание с помощью подчеркивания опознаваемых объектов по принципу ассоциации с уже опознанными объектами. В итоге, в процессе распознавания, выигрывает не один нейрон (как в случае стандартной APT, изображенной на рис. 1), а ансамбль нейронов (HAB), выигравших в каждом ФИ. Чем чаще появляются вместе два объекта, тем сильнее (в результате обучения) укрепляется НАВ-связь между ними. Подобная связь проиллюстрирована на рис. 4, где связь между сплошным ромбом и пунктирным полумесяцем соответствует увиденному в прошлом изображению «ромб с полумесяцем» - поэтому, увидев ромб, сеть будет с повышенным вниманием выискивать рядом с ним и полумесяц. Если же впредь сеть будет видеть их лишь отдельно, ассоциативная НАВ-связь между ними будет ослабевать.

Далее в параграфе приведена нейросетевая архитектура связывающая процесс кластеризации {/■f, }'°|Vk всех фасеточных изображений {ФЯ,} с помощью HAB ({(.F,,Fj}','fjZf) и доказана Теорема «О стабильности сети», утверждающая, что воспоминание J, активированное входным изображением X, остаётся активным, то есть, J = axg{MAX^ W:j ■ ФИ1} верно на всех этапах работы

сети для всех ФИ составляющих X). Теорема «О воспоминаниях и ассоциациях» и Теорема «О стабильности сети», обеспечивают устойчивость численной реализации модели. Сами численные алгоритмы приведены в диссертации в виде блок-схем.

Следствием Теоремы «О стабильности сети» является возможность деактивации воспоминания только со стороны модуля сброса-принятия МСП, что означает, во-первых, устойчивость СВАК-нейросети, и, во-вторых, возможность полного контроля над сетью с помощью правил, заложенных в МСП (прежде всего с помощью формулы расстояния d{ {ФИ',}; {Ф//",} ) между изображениями).

В третьем параграфе описана подсеть сознательного внимания и анализа структуры изображений (СВ-подсеть), реализующая структурирование воспринимаемого изображения и влияние запомненных структур на восприятие входного изображения. В этом же параграфе обсуждаются иерархические связи ; типа часть-целое в нейроансамблях сознательного (структурного) внимания (НСВ). Для моделирования влияния усвоенных структур на процесс восприятия, каждый ПК расщепляется на два: на рис. 5 это - верхний ПК, отвечающий за обработку целых объектов (ПКц) и нижний ПК, обрабатывающий части объектов (ПКч). Отличаются они тем, что модуль сброса-принятия для ПКц (МСПц) имеет более низкий порог распознавания чем МСПч. Зато, нейроны СРц активируются только в случае «подпитки» со стороны нейронов СРч.

В результате, если нейрон из СРч соответствует изображению, которое является частью увиденного ранее изображения, в нейрон соответствующий этому более большому изображению (в СРц), идет сигнал (на рис. 5 - дуговая пунктирная стрелка направленная вверх) - начинается «выискивание» целого по увиденной части. В итоге выигрывает не единичный нейрон (как в стандартной APT), а комплекс НСВ, который, как и НАВ, строится по статистическому принципу.

Рис. 5. Работа подсети опознания изображений с учетом структуры изображений. Сплошной нейрон соответствует изображению части, штрихованные нейроны соответствуют изображению целого в ПКц и ПКч. Пунктирные стрелки - структурным связям.

Таким образом, влияние структуры изображений на работу подсети опознания изображений заключается в том, что теперь между проверкой достаточности соответствия воспоминания и поиском других воспоминаний присутствует еще одна фаза - фаза выискивания целого по уже найденной его

фасеточное изображение для частей

Исходное

пиксельное

изображение

Модуль сброса-принятия для целого

сброса-принятия для частей

части (фаза роста опознанных регионов). Эта фаза автоматически повторяется столько раз, сколько уровней иерархии появилось в результате интроспективного структурирования.

В третьем параграфе также доказано Утверждение, что произвольная логическая функция представима в виде комбинации нейроансамблей HAB и НСВ. Далее в параграфе описывается процесс построения иерархических НСВ-связей между ПКц и ПКч. Можно показать, что разделение работы сети на фазу восприятия входных изображений и фазу интроспективной обработки запомненных изображений7 сохраняет стабильность.

При интроспективной обработке, изображения из образной памяти (СРц, СРч слева на рис. 6) подаются (прямые пунктирные стрелки) в сознательную память (ПКа справа на рис. 6) и обрабатываются точно также как обрабатывались бы внешние входные изображения8. Отклики нейронов, отвечающих запомненным ранее частям целого, активизируют обучение иерархических связей между ПКч и ПКц (дуговые пунктирные стрелки). При этом более сильные отклики (более толстая стрелка на рис. 6) обеспечивает более сильную активацию и, с течением времени, формируют более сильные иерархические связи.

Рис. 6 . Обучение нейроансамбля сознательного (структурного) внимания (НСВ). СР-нейроны, соответствующие целому объекту, обозначены клеточной штриховкой, а соответствующие частям объекта - горизонтальной и вертикальной штриховками.

Результатом второй главы является выполнение задачи 3 исследования, в том числе следующие разработки: теоретическое обоснование и нейросетевая реализация метода фасеточного представления визуальной информации; архитектура, алгоритмы работы и обучения нейроансамблей моделирования внимания HAB и НСВ в процессах восприятия и интроспективной структуризации запомненных объектов, а также теоретическое обоснование этих алгоритмов.

В третьей главе рассматривается численная реализация сети СВАК и разработка соответствующего программного комплекса, а также приводятся формулы погрешности и числа операций СВАК через погрешность и число операций одного ПК, который представляет собой набор взвешенных сумматоров (ВС) и нелинейных преобразователей (НП), погрешность и число операций которых известны. В результате, для классификации Ыиз образов, запоминания и анализа М классов, число требуемых среднем операций равно

7 Нечто подобное существует и в мозге, где обработка сенсорной информации и интроспективное «обдумывание» производятся не одновременно.

8 Нечто подобное существует и в мозге при интроспективном, сознательном «обдумывании».

13

Nu3-(MAX{2-Lav-NriK; M-Nm</4} + Ыпк) + M-(Nu3/4fr)-NnK, при M12 » Lmax и М» 4, число операций упрощается до

NnK-Nu3-M-(l +fr)/(4-fr). Здесь Lav и Lmax - соответственно средний и максимальный уровень вложенности объектов, fr - частота анализа структуры, Ыпк - количество операций для выполнения ПК одной операции классификации, зависящее от числа процессоров и степени распараллеливания операции классификации. Для разных архитектур ЭВМ приведены формулы для числа операций СВАК и необходимой точности входных данных, обеспечивающей требуемую точность результата.

Далее в данной главе рассматриваются варианты реализации СВАК-сети. Основное внимание уделяется реализации ПК и всей СВАК-сети в целом на параллельных архитектурах, основанных на интегральных схемах программируемой логики (ПЛИС). Рассматриваются типы ПЛИС, выбираются чип и конфигурация, обсуждается количество требуемых процессоров. Приводится быстродействие итоговой системы на некоторых задачах.

В заключении главы приводятся результаты тестирования и сравнения вычислительной сложности СВАК-нейросети с другими параллельными алгоритмами обработки изображений и кластеризации. В среднем, число операций СВАК-нейросети 0(Ииз-М) линейно по двум основным параметрам: количеству данных Ыиз и количеству кластеров М, а также зависит от «степени распараллеливания» Nnk>l, которая зависит от числа процессоров. Вычислительная сложность СВАК-нейросети сравнима с сложностью традиционных алгоритмов кластеризации, которая также линейна по количеству входных данных и количеству кластеров.

Здесь же приводятся результаты тестирования комплекса программ СВАК для проверки его способности запоминать новые образы и относить знакомые образы к существующим кластерам, а также выявлять структуру образов. Тестирование проводится на примере обучения нейросети СВАК буквам русского алфавита. Обсуждается приложение этих тестов к задаче проверки безопасности шрифтов. На этом же примере проводится тестирование комплекса программ СВАК на свойства, характерные для АРТ-сетей (прямой доступ к уже изученным образам, устойчивость поиска, устойчивость запоминания, конечность процесса запоминания), а также обсуждаются свойства СВАК-сети выявленные в процессе тестирования. Результатом третьей главы является выполнение задачи 4 исследования - реализации СВАК-нейросети в виде комплекса программ.

Четвертая глава посвящена сравнению СВАК с другой моделью внимания (СААРТ) и психологическими экспериментами, а также приложениям СВАК-сети к задачам обработки изображений.

В первом параграфе сравниваются, качественно и количественно, нейросеть СВАК и нейросеть селективного внимания СААРТ. Сравнение производится на двух задачах: задаче выделения «чистого» контура объекта из зашумленного фона (рис. 7.) и задаче восстановления искаженного контура объекта до его запомненной, недеформированной формы (рис. 8.). Как видно из рис. 7, в процессе подавления шума, сеть СААРТ частично подавляет и исходный контур, ведя к его искажению, в то время как сеть СВАК практически идеально восстанавливает его.

Как видно из рис. 8, в процессе восстановления искаженного объекта, СВАК-сеть, наоборот, уступает сети СААРТ в точности восстановления.

- : • ■.

г^, г-"'^ Г--^ : -

Рис. 7. Сравнение сетей СААРТ и СВАК на задаче шумоподавления. Слева направо: исходный запомненный сетью эталонный контур; Зашумленный контур; «Очистка» с помощью СААРТ; «Очистка» с помощью СВАК; разница эталонного и очищенного СВАК-сстью контуров.

Г^ — ----

сИ^з сГЬз

Рис. 8. Сравнение работы СВАК-сети и СААРТ-сети на задаче восстановления искаженного объекта. Слева направо: неискаженный контур; Два искажения: результат восстановления с помощью СААРТ; Результат восстановления с помощью СВАК.

В диссертации обсуждаются результаты 24-х экспериментов по сравнению сетей СВАК и СААРТ, общий итог которых состоит в том, что сеть СВАК превосходит сеть СААРТ в среднем в 1.45 раз (сравнение проводилось по доле ошибочных пикселей). Визуальное же сравнение и наблюдение за работой сетей убеждают, что обе сети работают устойчиво в обеих задачах и дают удовлетворительные результаты.

В первом параграфе также проведено сопоставление СВАК-нейросети и двух доступных типов психологических экспериментов (ПЭ): (ПЭ1) оценка времени процессов первичного узнавания и более детального опознания и (ПЭ2) оценка влияния внимания на различные когнитивные задачи.

При сравнении СВАК-сети и ПЭ было замечено:

(1). Как в СВАК-сети, так и в ПЭ1 узнавание объектов требует меньшего времени, чем опознание, независимо от типа объектов.

(2). Как в СВАК-нейросети, так и в ПЭ2 внимание существенно влияет на вероятность правильного ответа и, кроме того, высокоуровневое внимание в целом медленнее, чем низкоуровневое.

Во втором параграфе обсуждаются применения СВАК-сети и метода фасеточного зрения для 3-х задач обработки изображений (поиск объекта по эталону, создание тримапа для матирования и вычисление свойств материала по изображению микроструктуры). В первом пункте ставится задача поиска объекта в массиве изображений-кандидатов по запомненному эталону9.

При этом, для оптимизации взаиморасположения кандидата и эталона был разработан вспомогательный алгоритм нахождения оптимального взаиморасположения в грубом, фасеточном, разрешении.

Кандидат Эталон

ШШ, I

т

Результат

Рис. 9. Результаты поиска и выделения эталонного объекта из изображения-кандидата с помощью СВАК-нейросети, Использовалась база изображений фирмы Самсунг.

Рис. 10. Результаты автоматического создания тримапа (внизу) и сравнение его с «аккуратным» (в середине) и «грубым» (вверху) тримапом, созданным вручную.

Исходными данными для задачи матирования является задание тримапа, то есть, разделение изображения на 3 области: 100% объект, 100% фон и смешанная область (0<а<1). Тримап, в большинстве случаев, вычисляется вручную и существует мало эффективных способов автоматического вычисления тримапа. В частности, отсутствует удовлетворительный способ автоматического вычисления тримапа по какой-либо другой фотографии объекта. Задача автоматического тримапа в изображении-кандидате по запомненному изображению-эталону решается сходно задаче пункта 1. Однако, после определения внутренних, внешних и граничных фасеток, происходит не оконтуривание объекта в граничных фасетках, а сглаживание (см. рис. 10).

В третьем пункте ставится задача вычисления величины проницаемости пористого материала по изображению микроструктуры. Эта величина, по сути, является, средней скоростью потока газа или жидкости через пористый материал при приложенной к нему единичной разнице давлений10.

10 Закон Дарси: и = к УР1г/, где УР разница давлений, ц- вязкость, к - проницаемость.

16

Матирование

Во втором пункте ставится задача создания тримапа для матирования. Матированием называется отделение объекта переднего плана от фона на изображении: (Я,С,В) = а(КоЬ],СоЪ),ВоЬ]) + (1-а) (Я/оп,С/оп,В/оп), где а -коэффициент смешивания (0<а<1).

«Грубый тримап», сделанный вручную

«Аккуратный тримап» сделанный вручную

Матирование

«Автоматический тримап»

Г1

ние . I II Матирование ^

Разделение на внешние и внутренние фасетки

Хорошая проницаемость является важнейшим требованием, предъявляемым к фильтрам всех типов, поскольку она определяет скорость фильтрации. В данной прикладной задаче используется лишь одна подсеть СВАК, реализующая фасетизацию и вычисление свойств фасеток. Для достаточно широкого класса пор локальная скорость зависит, главным образом, от расстояния до ближайшей границы поры. Это свойство используется для оценки локальной скорости по изображениям срезов материала. В результате, свойства фасеток выбираются пропорциональными потоку газа через них. После вычисления этих свойств по изображениям срезов и их корректировки, в соответствии с законами сохранения, можно получить достаточно хорошее приближение для величины проницаемости.

В таблицах 1 и 2 приведены результаты сравнения фасеточного метода оценки проницаемости с методом усреднения среды (основным методом для вычисления проницаемости).

Таблица 1. Средняя ошибка фасеточного метода в сравнении с методом усреднения среды.

Пористый материал Метод вычисления проницаемости 50x50x50 100x100x100 200x200x200

• •• • •• • •• Фасеточный метод 10% 8% 6%

Метод усреднения среды 23% 7% 4%

■ ■■ ■ ■■ ■ ■■ Фасеточный метод (удачное/неудачное) расположение фасеток 5% / 9% 5% / 8% 4% / 5%

Метод усреднения среды 17% 5% 3%

ш Фасеточный метод 50% 33% 17%

Метод усреднения среды 31% 10% 5%

Таблица 1 иллюстрирует ошибку (в процентах) при вычислении проницаемости в порах в виде цилиндров, прямоугольных блоков и в порах между плотноупакованными шарами. Все эти проницаемости можно вычислить с помощью формул, поэтому возможна оценка аккуратности различных численных методов вычисления проницаемости. Таблица 2 иллюстрирует среднюю скорость при вычислении проницаемости в изображении с разрешением 100x100x100 пикселей.

Таблица 2. Скорость фасеточного метода в сравнении с методом усреднения среды.

Фасеточный метод Метод усреднения среды

~8минут ~2 часа

Как видно из вышеприведённых таблиц, метод оценки проницаемости, основанный на разработанном в данной работе фасеточном зрении, быстрее существующих методов, хоть и уступает им в точности. Этот метод применялся для быстрой оценки проницаемости, что позволяет инженеру исследовать качество пористых материалов и создавать новые микроструктуры материалов с увеличенными значениями проницаемости.

Результатом четвертой главы является выполнение задач 5 и 6 диссертационного исследования. В частности, решаются следующие подзадачи: проверка эффективности СВАК в сравнении с родственной нейросетью СААРТ;

17

проверка адекватности модели СВАК на основе сравнения с психологическими когнитивными экспериментами; применение СВАК к различным задачам обработки изображений (создание автоматического тримапа, поиск и сегментация объекта по его эталонному изображению, вычисление свойств материала по изображению его микроструктуры).

В Заключении сформулированы основные результаты и перспективы развития диссертационного исследования, а также основные положения, выносимые на защиту.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, рекомендуемых ВАК России

1. Мищенко А.В. Об оптимальности дискретных стратегий для поиска на графах // Вестн. МГУ. Сер. 15.1998. Вып. 4. С. 36-40.

Публикации в других изданиях

2. Mishchenko A.V. From-edges-to-regions approach and multilayered image processing // Труды международной конференции «GraphiCon-99», M., Изд-во «Диалог-МГУ», 1999. С. 144-150.

3. Mishchenko A.V. Uniform resolution light fields // Труды международной конференции «GraphiCon-99», M., Изд-во «Диалог-МГУ», 1999. С. 74-81.

4. Мищенко А.В. Трехслойный анализ изображения и его применение для поиска и распознавания предметов по их эталонному изображению // Искусственный интеллект. 2002. № 4. С. 492-494.

5. Мищенко А.В. Искусственное сознание на основе нового алгоритма самообучения и адаптации // Искусственный интеллект. 2004. № 4. С. 212-219.

6. Мищенко А.В. Накапливание знаний в процессе сознательной деятельности: переход количества в качество // Искусственный интеллект. 2005. № 4. С. 497-506.

7. Mishchenko A.V. Improving the load distribution performance by tunning and adaptation for a partivular LAN // Труды международной конференции «DCW-99», Германия, Росток, 21-23 июня, 1999. С. 95-102.

8. Mishchenko A.V. Facet-based Image Processing and Representation // Труды международной конференции «GraphiCon-2001», Н.Новгород, 10-17 сентября, 2001. С. 59-62.

9. Mishchenko A.V. Modeling and Optimization of viscous flow in channels with irregularities // Труды международной конференции «EpsMsO-2005», Греция, Афины, 6-9 июля, 2005. Vol.3. С. 98-103.

10. Ruzzene М., Mishchenko A.V., Waves propagation in network structures with imperfections // Corning REDLINES journal - Coining, 2007 - 12 p.

11. Mishchenko A.V., Ruzzene M., Smith J. Modeling of Ultrasonic end Acoustic waves Propagation through 2D lattice structures // Труды конференции «Modeling and Simulation», КНР, Пекин, 8-10 октября, 2007. С. 186-191.

Патенты

Mishchenko A.V., Ji-Yeun Kim, Chang-Yong Kim. Method for extraction of query object from databaseimages // Патент корейского патентного бюро 10-0408521-0000 от 2003.11.24.

Подписано к печати 06.11.09. Формат 60 х 84 % . Бумага офсетная. Гарнитура Тайме. Печать цифровая. Печ. л. 1,0. Тираж 100 экз. Заказ 4550. Отпечатано в Отделе оперативной полиграфии химического факультета СПбГУ. 198504, Санкт-Петербург, Старый Петергоф, Университетский пр., 26. Тел.: (812) 428-4043,428-6919.