автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей
Автореферат диссертации по теме "Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей"
!!!!!! II ш ища пин |||
003457230
На правах рукопис, 1
СХ [А*"
АКСЁНОВ Сергей Владимирович
МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ РАСПОЗНАВАНИЯ МНОГОЭЛЕМЕНТНЫХ ЗРИТЕЛЬНЫХ СЦЕН С ИСПОЛЬЗОВАНИЕМ ИЕРАРХИЧЕСКИХ НЕЙРОННЫХ СЕТЕЙ
Специальность: 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Томск-2008
Работа выполнена в государственном образовательном учреждении высшего профессионального образования Томский политехнический университет
Научный руководитель:
Официальные оппоненты:
Ведущая организация:
НОВОСЕЛЬЦЕВ Виталий Борисович,
доктор физико-математических наук, доцент
МАТРОСОВ А Анжела Юрьевна,
доктор технических наук, профессор КОРИКОВ Анатолий Михайлович, доктор технических наук, профессор
Алтайский государственный университет, г.Барнаул
/ /у
Защита состоится «29» декабря 2008 г. в -7 у часов на заседании совета по защите докторских и кандидатских диссертаций Д212.269.06 при Томском политехническом университете по адресу: 634034, Томск, ул.Советская, 84, Институт «Кибернетический центр» ПТУ.
С диссертацией можно ознакомиться в научной библиотеке Томского политехнического университета по адресу: 634050, г.Томск, ул.Белинского, 55.
Автореферат разослан ноября 2008г.
Ученый секретарь совета по защите докторских и кандидатских диссертаций к.т.н., доцент
М.А.Сонькин
I.ОБЩАЯ ХАРАКТЕРИСТИКА ДИССЕРТАЦИИ Актуальность темы
Существующие в настоящее время системы распознавания на базе искусственных нейронных сетей (ИНС) обладают значительным количеством недостатков. При разработке комплексов, решающих проблему ишернретации изображений, особый упор делается на узнавание определенных групп образов. Таких примеров, достаточно много. Однако, поиск в доступных источниках информации о системах, способных к саморазвитию (к «расширению кругозора»), приводит к крайне скудным результатам. Это объясняется высокой сложностью проектирования и реализации проектов такого класса. Ведь на самом деле реальный процесс распознавания, протекающий в самой совершенной системе анализа - человеческом мозге, не состоит только в том, чтобы проверить сходство анализируемого объекта с запомненным эталоном. Это достаточно сложное взаимодействие между различными подсистемами мозга. Ошибочно также считать, что сигналы от сетчатки до терминальных корковых центров, принимающих решение, распространяются прямолинейно. Распознавание - что шерашвный процесс, в котором до принятия окончательного решения не только входной образ сравниваются с эталоном, но и генерируются пшогезы по классификации объекта. Столкновение соответствующих потоков нейронных импульсов приводит к дальнейшему уточнению характеристик образа, до тех пор, пока не произойдет согласования между двумя потоками.
Достаточно часто в процессе классификации случается так, что каш мозг не содержит точного представления эталона, однако это не мешает ему правильно наГпи результат. Другим немаловажным аспектом является выделение существенных фрагментов сцены для их интерпретации, т.е. должна производиться селекция образов, расположенных на оцепе. В противном случае, анализируется вся сцена, со всеми вытекающими последствиями полного перебора пространства решений. Существующие реализации таких комплексов в качестве входных данных требуют практически полностью очищенные от шумов сцены, а при даже незначительных зашумлениях дают неверные результаты.
Таким образом, актуальность исследований обосновывается необходимостью разработки математического аппарата новых программных архитектур, алгоритмов функционирования и обучения ИНС для обеспечения более надежных результатов распознавания сложных объектов, находящихся на произвольном фоне. При этом основные усилия направлены на разработку интеллектуальной составляющей иерархической ИНС, позволяющей программному комплексу анализировать только существенные компоненты входного вектора.
Теоретико-методологической основой диссертационной работы явились исследования в области компьютерного зрения, нашедшие отражение в трудах Хьюбела Д., Визела Т., Фукушимы К., Гроссберга С., ЛеКуна Й., Ризенхубера М., Поггио Т., Карпентер Г.А., Ли Ж., Цоцос Д.К., Итги Л., Бейнке С.
Целыо является разработка математической модели иерархической ИНС и программной реализации для решения задач распознавания образов, сгруппированных в произвольную сцену.
В связи с этим в диссертационной работе решаются следующие задачи: !. Разработка математического описания архитектуры иерархической И НС, позволяющей представить образ объекта из сцены на разных уровнях обобщенности.
2. Проектирование алгоритма настройки подсистемы распознавания иерархической ИНС.
3. Разработка механизма совместного функционирования подсистем внимания и распознавания.
4. Программная реализация разработанных алгоритмов настройки и функционирования иерархической ИНС.
Методы исследования
В работе использован инструментарий теории алгоритмов, методы объектно-ориентированного проектирования и программирования, теории нелинейной оптимизации, теории распознавания образов, теории функционирования биологических нейронных систем. Научная новизна
■ Разработана математическая модель системы распознавания связанных фрагментов образов на основе взаимодействия подсистем внимания и распознавания.
• Предложен оригинальный алгоритм настройки иерархической ИНС с использованием механизмов обучения с учителем и без учителя.
■ Разработан алгоритм функционирования иерархической ИНС, фокусирующийся на значимых характеристиках образа.
■ Предложен алгоритм выделения контрастных связанных фрагментов сцен на базе процессов сегментации и восходящего внимания.
■ Реализован программный комплекс, выполняющий поиск существенных фрагментов сцены с их последующим анализом.
Практическая ценность работы заключается в следующем:
■ Предложенные математические модели и алгоритмы обработки визуальной информации для анализа сцен позволяют •эффективно решать задачи распознавания зашумленных образов, расположенных на сложном фоне. Предложен более эффективный по сравнению с существующими моделями иерархических нейронных сетей способ определения класса объекта, расположенного на сцене. Разработанные алгоритмы и их программная реализация внедрены в Научно-исследовательском институте оптики и атмосферы СО РАН.
• Разработанная автором подсистема внимания позволяет оптимизировать вычислительные ресурсы, направив их исключительно на анализ существенных фрагментов сцены.
■ Предложенный в работе механизм взаимодействия подсистем внимания и распознавания может использоваться отдельно от всего комплекса сторонними
разработчиками в собственных исследованиях обрабогкн визуализированных сцеп.
■ Отдельные модули разработанного программного комплекса имеют самостоятельное значение и могут использоваться а автономном режиме, что делает данным комплекс (подход) универсальным инструментом построения архитектур и обучения нейронных сетей для решения различных прикладных задач нейрокомпыотпнга, таких как классификация, кластеризация, аппроксимация и управление. Апробации работ
Результаты работы докладывались на: I1J Всероссийской научно-практической конференции «Научная сессия ТУСУР-2004». - Томск, 2004; VI Всероссийской конференции «Молодежь и современные информационные технологии». -Томск, 2006; V Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых. «Молодежь и современные информационные технологии». - Томск, 2007: XLV Международной научной студенческой конференции "Студент и научно-техннческий прогресс". - Новосибирск, 2007; XIII Международной научно-практической конференции студентов и молодых ученых «Современные техника и технологии». - Томск, 2007; VI Всероссийской научно-практической конференции «Инновационные недра Кузбасса. IT-технологии». - Кемерово, 2007; VI Всероссийской конференции «Молодежь и современные информационные технологии». - Томск, 2008; Всероссийской конференции «Информационные технологии в авиационной и космической технике - 2008». - Москва, 2008; XLVI Международной научной студенческой конференции «Студент и научно-технический прогресс». -Новосибирск, 2008; XIII Всероссийской научно-технической конференции «Новые информационные технологии в научных исследованиях и образовании». - Рязань, 2008; 111 Международной научно-технической конференции «Инфокоммуникационные технологии в пауке, производстве и образовании». - Кисловодск, 2008; XV Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов», - Москва, 2008; Всероссийская научно-практическая конференция Информационные технологии в профессиональной деятельности и научной работе - Йошкар-Ола, 2008; XIV Международной научно-практической конференции студентов и молодых ученых «Современные техника и технологии». - Томск, 2008. Основные положения, выноснмыс на защиту
1. Математическая модель иерархической ИНС для анализа сложных изображений, учитывающая взаимодействие процессов фиксации внимания н собственно распознавания.
2. Алгоритмы обучения и функционирования иерархической ИНС предложенной структуры.
3. Алгоритм выделения значимых фрагментов сцены подсистемой внимания.
4. Программная реализация интерпретации сцен на базе взаимодействия подсистем внимания и распознавания.
Публикации
Основные положения диссертационной работы изложены с 14 работах, в том числе 1 монография. Монография награждена дипломом Всероссийского конкурса Фонда развития отечественного образования «За лучшую научную книгу 2006 года». Личный вклад автора в каждой работе составляет 50%—100%.
Лмчный вклад автора Основные результаты диссертационной работы получены автором лично. Программный комплекс «НТч1ЫМе181ег 1.0» для проектирования архитектур, настройки и использования иерархических нейронных сетей разработан автором лично.
Внедрение результатов Результаты работы используются в учебном процессе па кафедре Оптимизации систем управления ТПУ, па кафедре Программирования ТГУ, внедрены в Институте оптики атмосферы СО РАН (г.Томск).
Структура и объем диссертации Диссертация состоит из введения, четырех глав, заключения, списка литературы (100 источников). Материал и ¡ложен на 154 страницах, содержит 10 таблиц, 57 рисунков.
2. СОДЕРЖАНИЕ ДИССЕРТАЦИИ Во введении обосновывается актуальность темы диссертационной работы, определяются предмет и цели исследования, формулируются задачи исследования, а также указываются возможные варианты использования полученных результатов.
В первой главе систематизированы распространенные подходы и методы нейрокомпыотерных вычислений, применяемые для обработки изображений. Представлен достаточно полный, на наш взгляд, аналитический обзор современных направлений исследований в области нейросетевого зрения. Современная теория нейросетевых вычислений предлагает большое число моделей и алгоритмов НС, в той или иной степени позволяющих распознать образ на сцене. Однако большинство моделей имели значительные ограничения к представлению образа. Другими словами, такие системы могли выполнить распознавание только при условии минимальных шумов, отсутствии трансформации анализируемого объекта, расположенного на «белой» сцене. Кроме этого, образ 1ребовал определенного масштабирования. В конечном счете, подобные о!раничения привели к сужению области распространения таких систем. Как показано в материалах главы, для создания систем, обладающих большими возможностями, потребовалось ввести определенную специализацию частей ИНС, задать соответствующую архитектуру, увеличить количество типов нейронов и еинаптических связей, используемых внутри модели. Ввиду такого усложнения большинство исследователей сосредоточили свои усилия в относительно узких областях теории распознавания, таких как анализ рецептивных нолей или конкурентное взаимодействие нейронов. Однако исследования, ставившие своей целыо конструирование универсальной
системы распознавания объектов, в результате создали огромные и в значительной степени избыточные архитектуры ИНС. Процесс анализа образа происходил большей частью перебором множества комбинаций соседних нейронов. Таким образом, к главным недостаткам существующих подходов можно отнести отсутствие интеллектуализации (направленного и осмысленного поиска) моделей. Другой недостаток неассоциативный характер хранения образов, что самым негативным образом сказывается на распознавании.
Исходя из анализа доступных источников, сделано заключение, что предпринимаемые попытки осознать процесс распознавания являются скорее количественным, чем качественным путем решения.
Во второй главе рассматривается предлагаемая математическая модель подсистемы распознавания для выделения существенных фрагментов сцен. Составляющая ядро модели иерархическая ИНС, уровни которой представлены на рис.1, состоит из нескольких слоев, каждый из которых включает группу двумерных плоскостей нейронов. Нейроны, образующие плоскости в слоях, будем называть клетками характеристик (или свойств).
Рсисппишыи слой
Слои простых локшп.ных орисш аш 11 \
Слон сложных локальных ориентации
Уровень вндонаст раиваемых клеток
Уро ве 11 ъ к л ас соассоци ашвных клеток
• • (и • •
Рис. I. Уровни иерархической ИНС
Предлагаемое представление дает возможность анализа фрагмента на нескольких уровнях абстракции. С повышением уровня происходит увеличение числа плоскостей с одновременным уменьшением пространственного
разрешения. Предложенная организация нейронов в двумерные плоскости в первых трех уровнях, изображенных на рис. 1., и МАХ-слоях (дополнительный подуровень в слоях простых и сложных локальных ориентации), мотивируется тем, что близкорасположенные фрагменты коррелируют в большей степени, нежели более удаленные друг от друга области. Информация о базовых функциях, реализуемых на каждом уровне, приведена в табл. I.
Клетки простых локальных ориентации, или 8-клетки, (фрагментов прямых линий) обладают рецептивным полем переменного размера, что позволяет выполнить нормирование образа для последующих уровней ИНС и обеспечить в определенной степени инвариантность к масштабированию образов. Расположение нейронов с рецептивным полем переменного размера внутри слоев простых и сложных характеристик позволяет решить две задачи: во-первых, производится оценка входного вектора нейронами, обладающими различными рецептивными полями, и, во-вторых, плоскости одного слоя включаются в латеральное соревнование. Последнее позволяет более точно определить клетки ИНС с синаптическими соединениями, настроенными на соответствующие компоненты, попавшие в рецептивное поле.
ТаблЛ. Функции уровней иерархической ИНС
_ Наименование уровня Рецептивный уровень
Функции^
Слой простых локальных ориентаций
МАХ-слой
Слой сложных характеристик
Дссоциатив_1 гая среда Уровень видонастра-иваемых клегок
Уровень восприятия классов
Получение фрагмента сцены полутонового представления _
хранение его
Выделение простых локальных ориентации посредством рецептивных полей на базе дифференциального фильтра Гаусса или фильтра
Габора_____________________
Нахождение максимального выхода нейронов, расположенных на одной позиции в разных плоскостях, с одинаковой ориентированностью, но
обладающих разной толшиной__________________
Выделение сложных характеристик образа с помощью комбинации простых характеристик
предыдущего этапа___________ _______ _
^правление генерацией гипотез о природе образа __ Представление образов, основанное на их
визуал ьныххарактернстиках___ __________
Представление классов образов
В 5-клетках с переменным рецептивным полем ИНС, производится выделение значимых компонент для полутонового представления входного изображения, расположенного в рецептивном слое. К значимым компонентам образа, обрабатываемым клетками, относятся части линий, определенных ориентации: 0,7г/4,тг/2,Зд/4. Каждая ориентированная значимая компонента представлена
в нескольких вариантах. Другими словами, клетки анализируют не только ориентацию, но и толщину линии полутонового представления в рецептивном слое. Это делается для уменьшения зависимости качества распознавания от колебаний границ между фоном и анализируемым обраюм (границ между участками образа). Извлечение локальных характеристик этими плоскостями осуществляется посредством одного из двух фильтров: дифференциального фильтра Гаусса или фильтра Габора.
Размеры рецептивного поля для Я-клеток рассчшываются согласно выражению:
/1 = IV = тах(Н2 йш Ни №2 с1ш IV,), где И,XV - соответственно ширина н длина рецептивного поля, размеры
плоскости, содержащей й-клетку, а Н2,1У2 - размеры обрабатываемого фрагмента на рецептивном уровне. Значения синаптических весов устанавливаются после получения параметров к и (с.
Для уменьшения избыточности данных, являющейся следствием использования групп плоскостей с равным параметром ориентации, но с отличающимся значением ширины локальной характеристики используется подход связывания выходных сигналов такой группы. Такое группирование производится в МАХ-плоскостях, совпадающих по размерам с ассоциированными Я-плоскостями. Каждый нейрон МАХ-плоскости, расположенный на позиции V, получает сигналы состояния всех нейронов, входящих в одну группу и расположенных на этой же позиции г', и находит среди них максимальный отклик. Значение максимального выхода афферента и становится выходом МАХ-нейрона V:
и(МАХ,у, О = тахке„Д1/(5>,/0), где ( - номер плоскости в МАХ-слое, ¡7(5, V, к) - выход Я-клетки, попавшей в область связи нейрона V, Ас - Я-плоскости, расположенные на одном уровне обладающие клетками с равным значением ориентации.
Уровень сложных характеристик, или С-слой, обладает подуровнем сложных свойств, являющихся комбинацией простых характеристик, выделенных на раннем этапе и сгруппированных в МАХ-плоскостях. Для свертки простых характеристик применяется метод Фукушнмы, основанный на совместном использовании возбуждающих и тормозящих сигналов. Выход клетки сложных характеристик:
1 + а{с, и, О • и (МАХ, У + Ц.п)
U(C,v,0 =rvxip
l+jr^fj-biC.O-UiV.v)
-- 1
где Av - область связи соответствующей С-клетки, rv - параметр селективности (степень близости входного сигнала и сигнала, которому были научены синапсы клетки), <р(...) -порогово-линейная функция,
U{V,0 = Jz'n'Jr Z„eAv d(V, О ■ U2(MAX, v + ц, л) , здесь KMAX - количество плоскостей в МАХ слое.
После определения нейрона-победителя в каждой области гиперколонариого торможения производится настройка его весов: А= ц • с/(У,д) • и(МАХ,у + ц,п),
ль (с, о = ц ■ и(у.у),
где q - коэффициент скорости обучения.
Предпоследний уровень модели - уровень видонастртюаемых нейронов (ВИН) служит для запоминания визуального представления целых объектов. Компоненты вектора весов каждой видонастранваемой клетки служат для указания вклада сложных характеристик для каждого запомненного класса. Решение задачи поиска визуальною представления сводится к нахождению таких ВИН, для которых расстояние компонент весового вектора до выходов С,-слоя минимально.
Активность фрагмента С-слоя позволяет предположить, что существует вероятность принадлежности входного фрагмента к одному из запомненных образов. Существуют три стратегии поиска образа: восходящая, в которой процессом управляют выходы С-слоя, нисходящая, контроль осуществляется ВНН, и комбинированная, сочетающая предыдущие. Перед запуском процедуры поиска фиксируется значения йтах - минимально возможного отклонения сегмента от представления образа, при котором отвергается гипотеза о принадлежности сегмента к указанному виду. Я - первоначальные окрестности С-клеток, инициирующих поиск, г - шаг увеличения окрестности, итт(С) минимальная активность сложной клетки, при которой последняя запускает поиск, м^,, - минимальное значение веса синапса ВНН, инициирующего процедуру восходящего поиска. Необходимо отметить, что начальные шаги всех стратегий поиска совпадают и выглядят следующим образом:
1Паг.1 Активация сети (здесь предполагается, что настройка сложных клеток уже произведена) расчет активностей плоскостей сложных характеристик. Шаг.2 Выбор сложных клеток, активность которых превышает Ут1п(С,
€ ¿ауег((Г), 1){С, у,() > У,т„(С, V, () . Нахождение областей р„ включающих все выбранные сложные клетки и их начальные окрестности /?. Шаг.З Для анализируемых ВНН, или У'Ш, - на первой итерации это все связанные ВНН - найти расстояние компонент вектора весов от выходов, ассоциированных с ними выбранных сложных клеток р:
УУТи:УГие%с!^^рем(Я-ы(р,0-Ыр,0-1КС,р,0))2 , где Ч' -
область, анализируемых ВНН, ш(р,() - значение синаптического веса ВНН, связанного с клеткой р в плоскости 0 < 8 < 1 - константа масштабирования Шаг.4 Исключить из клетки с расстоянием с/, превышающем 0тах:
Ч' = уути ]:й]<0тпх 1
Шаг.? Если Ч' = 0, то выдать сообщение об отсутствии такого образа в памяти, иначе шаг .6
Illar.6 Если обработаны сигналы от всех сложных клсгок M = 11,Р;, то шаг. 7, иначе шаг.8.
Шпг.7 Выдать информацию о ВИН, входящих в Ч\ в порядке возрастания расстояния tij
Следующий шаг зависит от направления анализа. Для восходящего анализа: Шаг.8 Увеличить размеры регионов анализа (активные сложные клетки и их окрестности) на величину г. Если регионы пересекаются, то объединит!, их. На этом этапе происходит увеличение М. Перейти на шаг 3. Для нисходящего анализа:
Шаг.8 Выбрать, еще не анализировавшиеся синапсы клетки с w(p,() > Wmin исключить из M области оценки восходящим методом и включить регионы ассоциированные с w(p,() с новыми начальными окрестностями R (при самом первом запуске), если таковые синапсы отсутствуют увеличить R на г. Перейти на шаг.З.
Комбинированная стратегия одновременно использует шаг.8 для восходящего и нисходящего поиска.
Предложенный механизм ассоциативного поиска позволяет ускорить поиск решения как за счет корреляции близких максимально информативных фрагментов образа, так и за счет исследования наличия у образа существенных признаков.
Слон классоассоциаптвных нейронов (КН) служит для представления классов в И НС. В процессе работы сети происходит усиление связей между ВИН и КН, если «учитель» указывает на существование класса образа. Усиление этой связи также происходит в дальнейшем, если система повторно распознает образ или ей принудительно укажут на этот фрагмент. Правило обучения:
u(Ç.;) = (1 - <0 ■ u(Ç.7) + Р ■ u(ç,j) ■ t/-' (VIEW.j)
где u(ç,y) - значение -того еинаптического коэффициента КН ç, соединенного с ВИН j с максимальным выходным значением, а - скорость забывания, /? -скорость обучения синапса, U(VIEW,j) - выход ВИН. Алгоритм обучения ИНС приведен на рис. 2.
Процесс распространения сигнала внутри иерархической ИНС можно представить следующими этапами:
1. Обнулить активности всех клеток сети.
2. Активировать клетки рецептивной плоскости выбранным сегментом, получить значения полутона как выходного сигнала для всех возбужденных клеток плоскости.
3. Рассчитать размеры рецептивных полей для нейронов уровня простых и подуровня простых локальных ориентации слоя сложных характеристик.
4. Установить значения синаптических весов для S-нейронов.
5. Рассчитать активность S-клеток.
6. Группировать результаты всех S-клеток операцией МАХ.
7. Произвести латеральное торможение в МАХ-подуровне уровня простых характеристик.
8. Рассчитать активность О-клеток.
9. Произвести латеральное торможение МАХ- (для подуровня сложных характеристик)и С- плоскостей.
10. Запуск ассоциативного поиска среди ВИН. Определить множество результатов - образов, наиболее похожих на входной сегмент.
11. Возбуждение классоассоциативных клеток.
Рис. 2 Алгоритм обучения иерархической ИНС
В третьей главе дано описание системы анализа двумерных сцен па базе взаимодействия подсистем внимания и распознавания. Подсистема внимания включает в себя блок сегментации и блок восходящего внимания. Алгоритм восходящего внимания позволяет локализовать области сцены со значительным контрастом интенсивности, цветовых компонент и локальных ориентации соседних областей сцены, полученных в нескольких масштабах (это делается посредством построения восьмиуровневой Гауссовой пирамиды. Для расчета также оцениваются предпочтительные ориентации в 6 {0°,45°,90°, 135°} разной ширины.
Результаты оценки каждого из трех каналов обработки проецируются на плоскости контраста. Контраст определяется как разность между активностью центра (клетки, или пикселя, на нижнем уровне пирамиды) и её окружением (клетки на верхнем уровне пирамиды):
Kc,s) = \l(c)QI(s)\, Шс.5) = I (Rie) - C(c)) e (ß(s) - G(s)) i, WC'.*) = Wc) - У(с)) © (B(s) - У cm 0(c,s) = |0(c)© 0(s)|, где 3(c,s), XÇ(c,s), Sy(c,s) 11 C(c,s) значения котрасга соответственна интенсивности, красной и зелёной компонент, синей и жёлтой компонент, локальных ориентации между уровнями с и s Гауссовой пирамиды, с 6 (2,3,4), s = c + ¿, Se (2,3}, /(п), R(n), G (ti), В (ri), Y(n), 0(n) - значения компоненты карты (уровня) соответственно для интенсивности, красного, зелёного, синего, жёлтого оттенков и локальных ориентации, 0 - разность центра п окружения. Активности карт контраста, соответствующих одной и той же переменной анализа, группируются для получения карт видимости соответственно для интенсивности, цветов и ориентации: Ô =®U,®cs+Jc+ÁN(0(c,s))}, e + N(vy(c,s))},
где N(...) - нормализация, © - сложение активностей карт разных масштабов.
После нахождения активностей всех плоскостей видимости выходы последних комбинируются в одном двумерном массиве клеток, называемом картой особенностей:
S — f(N(]), N[C), N(0)), где / - функция, аргументы которой указывают на вклад каждого канала и настраиваются с учителем па основе обучающей выборки. Расположение наиболее активных клеток карты особенностей, найденное согласно процедуре VVTA, позволяет локализовать наиболее информативные области. Другими словами, положение наиболее активной клетки указывает на фрагмент сцены, который попадет в высшие области (центральное представление) для последующей обработки в первую очередь. Далее, выделяются области сцены, ассоциированные со вторым по активности нейроном карты особенностей и т. д. Таким образом, фокус внимания будет переходить от наиболее контрастных сегментов сцены к более однородным.
Практически для локализации регионов внимания выбирается значение минимальной величины значимой особенности Smln и в области внимания Ак:V e Ак, V G S^SCv) > Smm. Порядок попадания в фокус внимания определяется либо максимальным значением активности каждого региона 3v. Vz v,z £ Ak,v,z e S,z Ф i7,S(i7) > S(z), либо средним значением
активности для всей области Savq = S(v¡) , Vf, 6 Ак, п - мощность Ак.
Для реализации блока сегментации был взят за основу метод Монте-Карло на базе сети Маркова, со стимуляцией восходящими процессами анализа данных. При использовании алгоритма восходящего анализа сегментацию можно обозначить вектором скрытых переменных W , которые описывают состояние для генерации сцены /: W = (К, {(R,, /,-, 0¡); i = 1,2,..., К}), где 0, представляет собой стохастический процесс, /, - модель региона
13
(анализируемые семейства представлены на рис.3), К количество связанных сегментов. Каждый регион сцены /r обязан быть когерентным, в том смысле, что lR есть реализация вероятностной модели р(1/!,&). Согласно процедуре обработки в статистической среде Байеса можно произвести вывод вектора W из / на пространстве всех решений £2:
w ~p{w\i) <xp(i\w)p(w), wen
Однородная Чашу мление Текстура
Рис.3. Семейства образов сцены
Опеннванне
Процедура анализа заключается в следующем: сначала осуществляется предварительная оценка сцены известными методами исследования градиента интенсивности и кластеризации оттенков цветов. Параметры этого решения будут являться одним из состояний цепи Маркова. Затем путем случайных вариаций производится поиск более оптимальных решений. Расчет степени генерации сцены при известной сегментации р(/|ИО зависит от того насколько каждый сегмент соответствует одной из моделей, связанных сегментов естественных сцен:
к
р(ЛИО = ]"[?(/«,;
1=/
При функционировании процедуры стохастического поиска предполагается получение множественного решения, присущего неоднозначности понятия сегментации сцен. Пример такой серии приведен на рис.4.
ШЦРSitii■ ■ '.Л",'..
'....... ' " Л " i.;.'. . '
/V/ и I '>. ми. /.'. '•/.' щт п. ?.<'/
Рис.4 Пример серии решения для одной сцены
Для решения задачи выделения контрастных сегментов был разработан алгоритм интеграции блоков внимания для получения решения в виде множества наиболее значимых сегментов, (которые также могут пересекаться!). Алгоритм интеграции предполагает первоначальное получение регионов
Ак: V 6 Ак, V е 5",5(17) > ^„¡п и серии /V сегментаций обозначенной Т: ЕТ,Р(\У\1) > Р(\М\1)тЫ. где РОЧОтт показатель, названный минимальной степенью адекватности. Далее определяется степень наложения регионов И/,- и областей Ак. Для всех областей /?,у сегментаций пересекающихся с Ак находится:
: 1
Регионы фокчха внимания пример „,., , . ,
1 ,„,,,,. _ '. ' Регионы сегментации с Р(КлА.)>0, ?
сегментации с Ри\И > - 0.615
Рис.5 Результат интеграции восходящего внимания и сегментации
Дальнейшие расчеты требуют задания значения Рт[п минимальной вероятности интереса. Все регионы со значением Р(й(/|/1д.) превышающим Ртш являются «интересными» для последующей обработки, а все оставшиеся отбрасываются. На заключительной стадии происходит возбуждение иерархической ИНС прошедшими отбор фрагментами с вероятностями
На рис.5 в левой части приведен пример одной из вероятных сегментаций (регионы разделены непрерывающимися кривыми) и регионов внимания, границы последних прерывистые. В правой части того же рисунка - отмечены регионы, активирующие иерархическую ИНС и полученные в результате работы описанного алгоритма.
Четвертая глава посвящена практической реализации и тестированию системы. На рис.6 показана главная форма разработанного приложения с открытыми дочерними окнами «Структура ИНС», «Визуализация значимых контрастных регионов» и «Результаты распознавания». Программа выполняет следующие функции:
■ Предоставление возможности построения структуры ИНС с использованием конструктора или с помощью мастеров.
■ Формирование и настройка выборки для обучения подсистем внимания и распознавания.
■ Визуализация процессов активации подсистем ИНС.
■ Обучение модели алгоритмами, заданными пользователем.
■ Интерпретация результатов возбуждения ИНС.
----------------------------WZ" ® ~ 31
, V:-. ...............3a............................... .■'■."■ ...j
1&ЯЙЛ 6)VT : 1.4." " ''finp-.l Kr.lfif.flf "11' !->ЧГр;. .Ч*1' "У ЗкНЛ Пл»!(Ч1Ц1
V* V V-i А "Г ' J ' * V-
Рис.6 Вид программного комплекса
Возможности разработанной математической модели и программного комплекса проверялись путем тестирования результатов работы модели с результатами моделей Ризенхубера, Вальтера и ЛеКуна. Для сравнения особенностей каждой модели для решения задач интерпретации изображений приведены в таблице 2.
Табл.2 Характеристики моделей ИНС
Модель Обучение Включение новых образов Внимание 11ластичность весов (изменчивость знаний ИНС)
Иерархическа я ИНС Сочетание алгоритмов обучения е учителем и без учителя Требует только включения ВИН для каждого нового образа, обучение в процессе функционирования И11С Восходящее внимание Как один из базовых принципов
Вальтера (расширение UMAX Ризенхубера) Отсутствует (веса предустановлены) Требует только включения настроенного ЯВ1--нейрона для каждого нового образа Восходя щее внимание 11ево зможно
Расширенная LeNET ЛеКуна Классические алгоритмы оптимизации Требует полного переобучения сети Отсутствует 11оеле обучения. ресурсоемко
Тестирование осуществлялось для двух типов задач. Первый вариант «классический» предполагает, что на вход модели поступают фрагменты сцены, содержащие нормированный и отцентрированный образ человеческого лица, т.е. влияние фона и посторонних образов минимально, объект представлен в нужном масштабе (Такая задача свойственна системам персональной идентификации). Для того чтобы показать надежность модели требовалось оценить отклики сетей при двух видах повреждения входного вектора: при зашумлении изображения случайными пикселями и при нарушении прямоугольного фрагмента сцены. Результаты по первому тесту приведены в таблице 3.
Табл.3. Процент числа корректных ответов первого теста на выборке из
Модель Ьсч "и>% 25% Нарушенный Нарушенным
шумок случайных случайных фра! мент фрат мен г
шу мои шумок 10% 25%
площади площади
Иерархическая " 81,6 " " 79,7 75,8 78,1 74,8
ИИС____
Модель КЗ,4 х! .3 74,2 67.1 45.3
Ршелхубера
Расширенная 78,5 70,1 61,5 6«0 52,7
модель
ЛеКуна
Видно, что возможное ги предлагаемой модели по сравнению с другими оцениваемыми для не зашумленпого изображения отличаются незначительно, однако если оценивать надежность распознавания для поврежденной сцены, заметно главное достоинство предлагаемой сети - концентрации на существенных фрагментах образа.
Второй тест оценивает возможности моделей при анализе естественных сцен, т.е. задача усложняется за счет необходимой локализации образов. Задача решалась для изображений, содержащих 3, 5 и 7 человеческих лиц. В таблице 4 даны результаты по каждой серии изображений.
Результат предлагаемой модели обусловлен взаимодействием блоков внимания и распознавания. Проведенные эксперименты позволяют говорить о перспективности разработанного подхода и о возможности ею использования в системах анализа визуальных данных. При возможных запросах со стороны потребителей разработанный программный код при дополнительной доработке может выступать как ядро системы интеллектуальной визуальной обработки промышленных данных.
'Габл.4 Результаты правильности локализации и распознавания лиц моделей на втором тесте (выборка 150 изображений), %
Модель
Иерархическая И11С Модель Вальтера
Модель Вальтера с
дополнительным
анализом цвеювмх оггенков кожи
3 фрагмеша лиц
~75.Т 56,7
78,6
5 фра| ментов лиц
75.2
49.3
76,4
7 фрагмешов
ЛИЦ
72.Х ~ " ~~ 37.6
72,1
3. ЗАКЛЮЧЕНИЕ
Исследования, проведенные в диссертационной работе, были направлены на решение актуальной задачи распознавания образов, расположенных на произвольной сцене. Математическая модель интеграции процессов внимания и распознавания представляется основой для создания промышленных и исследовательских систем интерпретации двумерных сцен.
1. На основании экспериментов и процедуры создания системы, проведенных в диссертации, показано, что предлагаемый подход не только обеспечивает работу со сценами любой сложности, но и обладает возможностями адаптации и расширения в соответствии с запросами пользователя.
2. Разработанная модель обладаег более эффективным алгоритмом интерпретации образов, расположенных на сценах, чем существующие современные модели, основанные на встречном распространении сигналов. Это является следствием, фокусировки ресурсов на значимых регионах сцены и ассоциативного характера поиска в пространстве запомненных образов.
3. Алгоритм интеграции процессов восходящего внимания и сегментации, позволяет, во-первых, сократить размерность обрабатываемых подсистемой распознавания регионов сцены за счет учета контраста визуальных параметров и, во-вторых, подчеркнуть возможность получения серии интерпретаций образов для одних и тех же областей.
4. Разработанный программный комплекс позволяет решить задачу интерпретации образов на визуальных сцепах. Помимо исследованной практической задачи комплекс обладает достаточным инструментом для создания ИНС любой структуры и набором классических алгоритмов настройки, как с учителем, так и без.
5. Предложенная математическая модель, алгоритмы обучения и функционирования, а также программный комплекс использованы в учебном процессе на кафедре Оптимизации систем управления ТГ1У, на кафедре Программирования ТГУ, внедрены в Институте оптики атмосферы СО РАН (г.Томск).
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Аксёнов C.B., Новосельцев В.Б. Организация и использование нейронных сетей. Томск. Изд-во HTJI, 2006 - 128 стр.
2. Аксёнов C.B., Новосельцев В.Б. Повышение качества распознавания сцен нейронной сетью неокогнитрон // Известия Томского политехнического университета. - 2006. Т.309, №7.- С.87-91.
3. Аксёнов C.B. Механизмы выделения контрастных фрагментов сцены системой восходящего внимания // Известия Томского политехнического университета. - 2008. Т.312, №5. - С.97-101.
4. Аксёнов C.B., Танцов Д.К. Система видеоконтроля транспортируемых бревен // «Научная сессия ТУСУР-2004»: труды Всероссийской научно-технической Конференции / ТУСУР, - Томск, 2004. Т.1. - С. 25-28.
5. Аксёнов C.B. Модификации алгоритма обучения персептрона методом обратного распространения // «Научная сессия ТУСУР-2004»: труды Всероссийской научно-технической конференции / ТУСУР, — Томск, 2004. Т.2. - С.42-44.
6. Аксёнов C.B. Использование нейронной сети ART-2 при классификации пациентов с осложнениями инфаркта миокарда // «Молодежь и современные информационные технологии - 2006»: труды Ш Всероссийской научно-технической конференции / ТПУ, - Томск, 2006. -С.174-175,
7. Аксёнов C.B., Новосельцев В.Б. Построение самоорганизующейся иерархической нейронной системы накопления признаков // «Молодежь и современные информационные технологии - 2007»: труды V Всероссийской научно-технической конференции / ТПУ, - Томск, 2007. С.217-219.
8. Аксёнов C.B. Самоорганизующаяся модель иерархической нейронной сети для распознавания сцен // «Инновационные недра Кузбасса. IT-технологии»: труды VI Всероссийской научно-технической конференции / КГТУ, - Кемерово, 2007. С.132-133.
9. Аксёнов C.B. Взаимодействие систем внимания и распознавания для интерпретации сцен // «Современные техника и технологии 2007» : труды XIII Международной научно-практической конференции студентов и молодых ученых / ТПУ, - Томск, 2007. Т.2, С.268-270.
Ю.Аксёнов C.B. Самоорганизующееся построение иерархической нейронной сети для анализа сцен // «Студент и научно-технический прогресс»: труды XLV Международной научно-технической конференции. / НГТУ, - Новосибирск, 2007. Т.4. - С. 156-157.
П.Аксёнов C.B. Взаимодействие систем распознавания и внимания для интерпретации сцен // «Молодежь и современные информационные технологии - 2008»: труды VI Всероссийской научно-технической конференции / ТПУ, - Томск, 2008. - С.319-321.
12.Аксёнов C.B. Алгоритм рекуррентного взаимодействия в системе анализа зрительной информации на базе иерархических нейронных сетей //
>
«Инфокоммуникационные технологии в науке, производстве и образовании»: труды II Международной научно-технической конференции / СевКавГТУ, - Кисловодск, 2008. Т.2. - С.56-57.
13.Аксёнов С.В. Иерархическая нейронная система для анализа объектов, расположенных на произвольном фоне // // «Студент и научно-технический прогресс»: труды ХЬУ1 • Международной научно-технической конференции / НГТУ, - Новосибирск, 2008. Т.4. - С. 112113.
14.Аксёнов С.В. Методы иерархического анализа многообразных сцен // «Информационные технологии в профессиональной деятельности и научной работе»: труды Всероссийской научно-технической конференции/ МарГТУ, - Йошкар-Ола, 2008. Т.2. - С.9-12.
Подписано к печати 25.11.2008. Тираж 100 экз. Кол-во стр. 20. Заказ № 125 Бумага офсетная. Формат А-5. Печать RISO. Отпечатано в типографии ООО «РауШмбх» Лицензия Серия ПД № 12-0092 от 03.05.2001г. 634034, г. Томск, ул. Усова 7, ком. 046 тел. (3822) 56-44-54
Оглавление автор диссертации — кандидата технических наук Аксёнов, Сергей Владимирович
Введение.
Глава 1. Нейронные сети для анализа двумерных образов.
1.1. Иерархические нейронные сети встречного распространения.
1.1.1 .Неокогнитрон и его модификации.
1.1.2.Свертывающие нейронные сети.
1.1.3.Иерархическая нейронная сеть с нелинейной операцией максимум
1.2. Порождающие статистические модели.
1.2.1. Машина Гельмгольца.
1.2.2.Иерархическое смешение мнений экспертов.
1.2.3.Иерархические фильтры Калмана.
1.3. Рекуррентные модели.
1.3.1.Модели с латеральным взаимодействием.
1.3.2.Модели с вертикальными обратными связями.
1.3.3.Модели с вертикальными и латеральными обратными связями.
1.4. Выводы.
Глава 2 Архитектура и алгоритмы функционирования иерархической ИНС
2.1. Структура иерархической ИНС.
2.1.1.Рецептивный уровень.
2.1.2.Уровень клеток локальных ориентаций с переменным рецептивным полем (простых локальных ориентаций).
2.1.3.Уровень максимальной активности S-нейронов.
2.1.4.Слои свертки.
2.1.5.Общая среда и видонастраиваемые клетки.
2.1.6.Уровень восприятия классов.
2.2. Функционирование системы.
2.2.1.Алгоритмы обучения сети и модификации данных.
2.2.2. Алгоритмы ассоциативного поиска.
2.3. Выводы.
Глава 3 Особенности работы с многоэлементными сценами.
3.1. Модель восходящего внимания.
3.2. Интеграция процессов фокусирования внимания и связывания фрагментов сцены.
3.3. Выводы.
Глава 4 Реализация и тестирование системы.
4.1. Проектирование и программная реализация.
4.2. Построение экземпляра модели.
4.2.1.Топология сети.
4.2.2.Настройка подсистемы внимания.
4.3. Тестирование модели.
4.4. Выводы.
Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Аксёнов, Сергей Владимирович
Ежесекундно на сетчатку глаза человека попадает огромный поток фотонов. Этот поток несет гигантский массив зрительной информации. Однако наш вычислительный инструмент - головной мозг, успевает справляться со всей информации за очень короткое время. Современные системы распознавания пока обладают куда более скромными результатами решения проблемы анализа и интерпретации реальных сцен. К несомненному преимуществу мозга можно отнести наличие очень большого количества сверхинтегрированных обрабатывающих элементов - нейронов. Все нейроны мозга соединены между собой посредством синапсов, осуществляющих передачу данных посредством электрохимических сигналов. Однако помимо синаптической передачи информации имеет место и неспецифическое взаимодействие между нейронами, посредством которого нейрон срабатывает в результате определенной активности ассоциированных с ним, но не обладающих общим для них синапсом группы нервных клеток (это т.н. активация по химическому адресу). Данный факт указывает на взаимовлияние друг на друга не соединенных между собой нервных клеток и ещё более усложняет анализ работы всей системы.
Из упомянутого выше следует, что исследование процессов, протекающих в головном мозге при обработке сигналов из внешнего мира, ещё очень далеко до своего логического завершения. По этой причине при построении моделей искусственных нейронных сетей (ИНС) исследователи используют сильно упрощенные модели, как нейронов, так и их соединений. Решение проблемы распознавания образов на базе аппарата ИНС кажется вполне естественным. Уже реализованные на практике архитектуры ИНС успешно справляются с широким спектром задач, начиная от прогнозирования финансовых рынков и заканчивая системами анализа состояния космических кораблей. Однако в случае анализа реальных 4 зрительных сцен разработчики архитектур и алгоритмов ИНС столкнулись с большими трудностями, связанными со спецификой этой задачи.
Формально ИНС можно определить как систему, обладающую входами и выходами, состоящую из большого числа элементарных вычислителей, соединенных односторонними каналами передачи сигнала. В процессе своей работы ИНС преобразует поданный сигнал от входов в свои выходы. Главным достоинством, полученным от биологического прототипа, ИНС является то, что они не программируются извне, а настраиваются посредством процедуры обучения. Как отмечалось выше, теоретические основы ИНС базируются на гипотетических принципах функционирования головного мозга, а методы теории способны в очень ограниченных масштабах воссоздавать процессы обработки информации, свойственные их биологическому эталону.
Около 90% всей информации, поступающей человеку, составляет зрительная информация. По этой причине именно интерпретация зрительной информации на основе ИНС имеет особый интерес в научной среде. Каким же образом мозг производит фильтрацию нежелательной информации и обрабатывает действительно только значимые для него объекты?
Следуя каноническим требованиям, прежде всего, определим актуальность исследования, его цели и задачи, а также сформулируем выносимые на рассмотрение полученные результаты.
Актуальность исследования
Существующие в настоящее время системы распознавания на базе ИНС (а именно они считаются наиболее перспективными) обладают значительным количеством недостатков. При разработке комплексов, решающих проблему интерпретации образов, особый упор делается на узнавание определенных групп образов (так, при фокусировке цифровых камер для достижения большей четкости локализуются фрагменты сцены, в которых расположены лица людей, а при сканировании текста анализируются исключительно образы, ассоциированные с тем или иным символом). Таких примеров, достаточно много. Однако пытаясь найти в литературе информацию о системах, способных к саморазвитию, расширению «кругозора», в результате получаешь крайне скудные ответы. Это объясняется крайней сложностью проектирования и реализации проектов такого класса. Ведь на самом деле процесс распознавания не состоит только в том, чтобы проверить сходство анализируемого объекта с запомненным эталоном. Это достаточно сложное взаимодействие между функционально различными подсистемами мозга.
Ошибочно также считать, что сигналы от сетчатки до терминальных корковых центров, принимающих решение, распространяются прямолинейно. Распознавание - это итеративный процесс, в котором до принятия окончательного решения не только входной образ сравниваются с эталоном, но и высшие мозговые центры генерируют гипотезы классификации объекта. Столкновение этих потоков нейронных импульсов приводит к дальнейшему уточнению характеристик образа, до тех пор, пока не произойдет согласование между этими двумя потоками.
Достаточно часто в процессе классификации случается, что мозг не содержит точного представления эталона, однако это не мешает ему правильно найти результат. Например, в мозге запомнено представление нескольких подклассов: «универсал», «седан», принадлежащих классу «автомобиль», и в поле зрения попадает объект, не имеющийся в базе, подкласса «хэтчбек». Мозг на основании того, что объект обладает определенным рядом характеристик (колеса, окна, двери и т.д.) принимает верное решение.
Другим немаловажным аспектом этой проблемы, является выделение существенных фрагментов сцены для их интерпретации. Другими словами, должна производиться селекция образов, расположенных на сцене. В противном случае, анализируется вся сцена, со всеми вытекающими последствиями полного перебора пространства решений. Примеры таких комплексов в качестве входных данных требуют практически полностью очищенные от шумов сцены, а при даже незначительных зашумлениях дают неверные результаты.
Таким образом, актуальность исследований обосновывается необходимостью разработки математического аппарата новых архитектур, алгоритмов функционирования и обучения ИНС для обеспечения более надежных результатов распознавания сложных объектов, находящихся на произвольном фоне. При этом основные усилия направлены на разработку интеллектуальной архитектуры иерархической ИНС, позволяющей анализировать только существенные компоненты входного вектора.
Теоретико-методологической основой диссертационной работы явились исследования в области компьютерного зрения, нашедшие отражение в трудах Хьюбела Д., Визеля Т., Фукушимы К., Гроссберга С., ЛеКуна Й., Райзенхубера М., Поггио Т., Карпентер Г.А., Ли Ж., Цоцос Д.К., Итти Л., Бейнке С.
Целью является разработка математической модели и программной реализации архитектуры и алгоритмов функционирования иерархических ИНС для решения задач распознавания образов, сгруппированных в произвольную сцену.
В связи с этим в диссертационной работе решаются следующие задачи:
1. Разработка математического описания архитектуры иерархической ИНС, позволяющей представить образ объекта из сцены на разных уровнях обобщенности.
2. Проектирование алгоритма настройки подсистемы распознавания иерархической ИНС.
3. Разработка механизма совместного функционирования подсистем внимания и распознавания.
4. Программная реализация разработанных алгоритмов настройки и функционирования иерархической ИНС.
В связи с этим в диссертационной работе решаются следующие задачи:
1. Разработка математического описания архитектуры иерархической ИНС, позволяющей представить образ объекта из сцены на разных уровнях обобщенности.
2. Проектирование алгоритма настройки подсистемы распознавания иерархической ИНС.
3. Разработка механизма совместного функционирования подсистем внимания и распознавания.
4. Программная реализация разработанных алгоритмов настройки и функционирования иерархической ИНС.
Методы исследования
В работе использован инструментарий теории алгоритмов, методы объектно-ориентированного проектирования и программирования, теории нелинейной оптимизации, теории распознавания образов, теории функционирования биологических нейронных систем.
Научная новизна
1. Разработана математическая модель системы распознавания связанных фрагментов образов на основе взаимодействия подсистем внимания и распознавания.
2. Предложен оригинальный алгоритм настройки иерархической ИНС с использованием механизмов обучения с учителем и без учителя.
3. Разработан алгоритм функционирования иерархической ИНС, фокусирующийся на значимых характеристик образа.
4. Предложен алгоритм выделения контрастных связанных фрагментов сцен на базе процессов сегментации и восходящего внимания.
5. Реализован программный комплекс, выполняющий поиск существенных фрагментов сцены с их последующим анализом.
Практическая ценность работы заключается в следующем:
1. Предложенные математические модели и алгоритмы обработки визуальной информации для анализа сцен позволяют эффективно решать задачи распознавания зашумленных образов, расположенных на сложном фоне. Предложен более эффективный по сравнению с существующими моделями иерархических нейронных сетей способ определения класса объекта, расположенного на сцене. Разработанные алгоритмы и их программная реализация внедрены в Научно-исследовательском институте оптики и атмосферы СО РАН.
2. Разработанная автором подсистема внимания позволяет оптимизировать вычислительные ресурсы, направив их исключительно на анализ существенных фрагментов сцены.
3. Предложенный в работе механизм взаимодействия подсистем внимания и распознавания может использоваться отдельно от всего комплекса сторонними разработчиками в собственных исследованиях обработки визуализированных сцен.
4. Отдельные модули разработанного программного комплекса имеют самостоятельное значение и могут использоваться в автономном режиме, что делает данный комплекс (подход) универсальным инструментом построения архитектур и обучения нейронных сетей для решения различных прикладных задач нейрокомпьютинга, таких как классификация, кластеризация, аппроксимация и управление.
Апробация работы
Результаты работы докладывались на: III Всероссийской научно-практической конференции «Научная сессия ТУСУР—2004». - Томск, 2004; VI Всероссийской конференции «Молодежь и современные информационные технологии». - Томск, 2006; V Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых. «Молодежь и современные информационные технологии». - Томск, 2007; XLV Международной научной студенческой конференции "Студент и научно-технический прогресс". — Новосибирск, 2007; XIII Международной научно-практической конференции студентов и молодых ученых «Современные техника и технологии». - Томск, 2007; VI Всероссийской научно-практической конференции «Инновационные недра Кузбасса. IT-технологии». - Кемерово, 2007; VI Всероссийской конференции «Молодежь и современные информационные технологии». - Томск, 2008; Всероссийской конференции «Информационные технологии в авиационной и космической технике - 2008». - Москва, 2008; XLVI Международной научной студенческой конференции «Студент и научно-технический прогресс». — Новосибирск, 2008; XIII Всероссийской научно-технической конференции «Новые информационные технологии в научных исследованиях и образовании». - Рязань, 2008; III Международной научно-технической конференции «Инфокоммуникационные технологии в науке, производстве и образовании». - Кисловодск, 2008; XV Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов», - Москва, 2008; Всероссийская научно-практическая конференция Информационные технологии в профессиональной деятельности и научной работе — Йошкар-Ола, 2008; XIV Международной научно-практической конференции студентов и молодых ученых «Современные техника и технологии». - Томск, 2008.
Основные положения, выносимые на защиту
1. Математическая модель иерархической ИНС для анализа сложных изображений, учитывающая взаимодействие процессов фиксации внимания и собственно распознавания.
2. Алгоритмы обучения и функционирования иерархической ИНС предложенной структуры.
3. Алгоритм выделения значимых фрагментов сцены подсистемой внимания.
4. Программная реализация интерпретации сцен на базе взаимодействия подсистем внимания и распознавания.
Публикации
По теме диссертационного исследования опубликовано 14 печатных работ, в том числе одна монография (в соавторстве) и две статьи в реферируемых изданиях, одобренных ВАК. Монография награждена дипломом лауреата Всероссийского конкурса Фонда развития отечественного образования «За лучшую научную книгу 2006 года».
Личный вклад автора
В опубликованных работах лично автором обоснованы причины разработки комплекса взаимодействия иерархической НС с подсистемой внимания, пояснены используемые структуры и алгоритмы функционирования разработанного комплекса, а также приведены результаты работы реализованных методов и алгоритмов на различных выборках в том числе дано сравнение с результатами группы нейросетевых моделей, решающих аналогичные задачи.
Объём и структура диссертации
Диссертация включает введение, четыре главы, заключение и список литературы, общий объём составляет 154 страницы, включая рисунки.
Заключение диссертация на тему "Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей"
4.4. Выводы
Программный комплекс представляет собой законченное приложение для построения архитектур ИНС и их последующего обучения в соответствии с замыслом и критериями настройщика. Программа не накладывает ограничений на создающиеся с её помощью модели ИНС, что повышает возможности по её внедрению в системы интеллектуальной обработки данных предметных областей, для которых построение строгой математической модели невозможно.
Проведенные эксперименты разработанной модели с уже существующими аналогами показали её конкурентоспособность, как при анализе одиночных образов, так и при обработке многоэлементных сцен. Существенными аргументами в пользу применения модели выступают:
1) Возможность добавления знаний о новых классах и образах и обновления существующей информации, за счет процедуры настройки, действующей локально, без переобучения всей ИНС.
2) Ассоциативная процедура поиска образа, позволяющая в определенной степени справиться с проблемой наложения образов.
3) Сочетание алгоритмов восходящего внимания и сегментации для выделения существенных фрагментов сцен.
Заключение
Исследования, проведенные в диссертационной работе, были направлены на решение актуальной задачи распознавания образов, расположенных на произвольной сцене. Математическая модель интеграции процессов внимания и распознавания представляется основой для создания промышленных и исследовательских систем интерпретации двумерных сцен.
1. На основании экспериментов и процедуры создания системы, проведенных в диссертации, показано, что предлагаемый подход не только обеспечивает работу со сценами любой сложности, но и обладает возможностями адаптации и расширения в соответствии с запросами пользователя.
2. Разработанная модель обладает более эффективным алгоритмом интерпретации образов, расположенных на сценах, чем существующие современные модели, основанные на встречном распространении сигналов. Это является следствием, фокусировки ресурсов на значимых регионах сцены и ассоциативного характера поиска в пространстве запомненных образов.
3. Алгоритм интеграции процессов восходящего внимания и сегментации, позволяет, во-первых, сократить размерность обрабатываемых подсистемой распознавания регионов сцены за счет учета контраста визуальных параметров и, во-вторых, подчеркнуть возможность получения серии интерпретаций образов для одних и тех же областей.
4. Разработанный программный комплекс позволяет решить задачу интерпретации образов на визуальных сценах. Помимо исследованной практической задачи комплекс обладает достаточным инструментом для создания ИНС любой структуры и набором классических алгоритмов настройки, как с учителем, так и без.
Предложенная математическая модель, алгоритмы обучения и функционирования, а также программный комплекс использованы в учебном процессе на кафедре Оптимизации систем управления ТПУ, на кафедре
142
Программирования ТГУ, внедрены в Институте оптики атмосферы СО РАН (г.Томск).
Библиография Аксёнов, Сергей Владимирович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Alvarez L., Gousseau Y., Morel J.M. The Size of Objects in Natural Images. // Preprint of Centre de Mathematics and Applications, Paris. -2000.
2. Barnard E., Casasent D. Shift Invariance and the Neocognitron. // Neural Networks. 1990. - №3. - P.403-410.
3. Behnke S. Hierarchical Neural Networks for Image Interpretation. Berlin: Springer-Verlag, 2003. - P.234.
4. Behnke S. Meter value recognition using locally connected hierarchical networks.// Proceedings of 11th European Symposium on Artificial Neural Networks ESANN2003. Brudges, Belgium. - 2003. - P.535-540.
5. Behnke S. Face localization and tracking in the neural abstraction pyramid.// Neural Computing and Applications. -2005. №14(2). - P.97-103.
6. Bruce C., Desimone R., Gross C. Visual properties of neurons in a polysensory area in the superior temporal sulcus of the macaque. // Journal of Neurophysiology. 1981. - №46. - P.369-384.
7. Burt P.J. Fast filter transform for image processing. // Computer Vision, Graphics and Image Processing. №16. - 1981. - P.20-51.
8. Calderon A., Roa S., Victorino J. Handwritten digit recognition using convolutional neural network and Gabor filters. // Proceedings of International Congress on Computional Intelligence, Tokyo. 2003. - P.165-178.
9. Connor C., Preddie D., Gallant J., van Essen D. Spatial attention effects in macaque area V4. // Journal of Neuroscience.- 1997. №17. -P. 3201-3214.
10. Cover T. Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition. // IEEE Transactions Electronic Computers. 1965. - №14. - P. 326-334.
11. Dayan P., Abbott L.F. Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems. London, MIT Press, 2001.
12. Dayan P., Hinton G.E., Neal R.M., Zemel R.M. The Helmholtz machine. // Neural Computation. №7. - 1995. - P.889-904.
13. Diamantaras К., Kung S. Principal component neural networks, theory and application. N.Y. : Wiley, 1996.
14. Douglas R. J., Martin K. A. Neocortex. // Synaptic Organization of the Brain, Oxford University Press. 1990. - P. 389-438.
15. Duda O.R., Hart P.E. Pattern recognition and scene analysis. N.Y.: John Wiley & Sons. -1973.
16. Dusan O. Heirarhicni model prepoznave objectov HMAX. // Diplomska naloga, Ljubljana. 2005.
17. Fahlman S.E. Faster learning variations on backpropagation: en empirical study. // Proceedings 1988 connectionist models summer school. Los Altos, USA: Morgan Kaufmann. - 1988. - P.38-51.
18. Freund Y., Hausser D. Unsupervised learning of distributions of binary vectors using 2-layer network. // Advances in Neural Information Processing Systems, Morgan Kaufmann Publishers. 1992. - №4. -P.912-919.
19. Frey B.J., Dayan P., Hinton G.E. A simple algorithm that discovers effective perceptual codes. // Computational and biological mechanisms of visual coding. N.Y.: Cambridge University Press, 1997.
20. Frey B.J., MacKey D.J.C. A revolution: belief propagation in graph with cycles. // Advances in neural information processing systems. MA. Cambridge. MIT Press. -1998. №10. - P.479-485.
21. Fukushima K. Cognitron: A Self-organizing Neural Network. // Biological Cybernetics. 1975. - №20. - P.121-136.
22. Fukushima K. Neocognitron: A Self-Organizing Neural Network model for a Mechanism of Pattern Recognition Unaffected Shift in Position. // Biological Cybernatics. 1980. - №4. - P.193-202.
23. Gill P., Murray W. Practical Optimization. N.Y.: Academic Press, 1991. -P.146.
24. Grossberg S. How does the cerebral cortex work? Learning, attention and grouping by the laminar circuits of visual cortex. // Spatial Vision. -1999. -№12. P.163-186.
25. Hahnloser R.H.R., Sarpeshkar R., Mahowald M.A., Douglas R.J., Seung H.S. Digital selection and analogue amplification coexist in a cortexinspired silicon circuit. // Nature, 2000. Vol. 405 - Pp. 947-951.
26. Hahnloser R.H.R. On the piecewise Analysis of Networks of linear threshold Neurons. // Neural Networks, 1998. №11. - P.691-697.
27. Haralick R., Shapiro L. Computer and Robot Vision, Vol.1 Addison-Wesley Publishing Company., 1992, pp. 346-351.
28. Hasibi В., Stork D.G., Wolff GJ. Optimal brain surgeon and general network pruning. // IEEE International Conference on Neural Networks. San Francisco. -1992. №1. - P.293-299.
29. Haykin S. Neural networks, a comprehensive foundation. N.Y.: Macmillan College Publishing Company, 1994. - 1069 c.
30. НеЬЬ D. Organization of behavior. N. Y.: Science Edition. - 1961.
31. Hildebrandt Т.Н. Optimal Training of Threshold Linear Correlation Classifiers. // IEEE Transactions on Neural Networks. 1991. - №2. - P.577-588.
32. Hinton G.E., Dayan P., Frey B.J., Neal R.M. The wake-sleep algorithm for unsupervised neural networks. // Science. -1995. -№268. -P.1158-1161.
33. Hinton G.E., Sejnowski T.J. Learning and relearning in boltzmann machines. // Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Foundations. MIT Press. 1986. - №1. - P.324-342.
34. Hinton G. Training products of experts by minimizing contrastive divergence. // Neural Computation. 2002. - №14(8). - P.1771-1800.
35. Hopfield J.J., Brody C.D. What is a moment? 'Cortical' sensory integration over a brief interval. Proceedings of the National Academy of Sciences, USA, 97(25): 13919-13924, 2000.
36. Hubel, D., Wiesel T. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. // Journal of Physiology. 1962. - №160. - P.106-154.
37. Hubel, D., Wiesel T. Receptive fields and functional architecture in twononstriate visual areas (18 and 19) of the cat. // Journal of Neurophysiology. -1965. №28. - P.229-289.
38. Jianhong S. On the foundations of vision modeling I.Weber's law and Weberized TV (total variation) restoration. // Physica D: Nonlinear Phenomena. 2003. - №175(3/4). - P.241-251.
39. Johnson K., Daniell. C, Burman J. Feature Extraction and the Neocognitron. // Proceedings of the IEEE International Conference on Neural Networks (San-Diego). 1988. - P.117-126.
40. Jones J.P., Palmer L.A. An evaluation of two-dimensional spatial structure of simple receptive fields in cat striate cortex. // Journal of Neurophysiology. -1987.-№58(6).-P.1187-1211.
41. Kalman R.E. A new approach to linear filtering and prediction problems. // Transactions of the ASME-Journal of Basic Engineering. №82(Series D). -1960. - P.35-45.
42. Kohonen T. The self-organizing features map. // IEEE Transactions. 1990. -№78. - P.1464-1479.
43. Lee A.B., Mumford D.B., Huang J.G. Occlusion Models for Natural Image. // International Journal of Computer Vision. 2001. - №44. - P.35-39.
44. Lee D.D., Seung H.S. Learning the parts of objects by non-negative matrix factorization. // Nature. -1999. №401. -P.788-791.
45. Lee D.D., Seung H.S. Learning the parts of objects by non-negative matrix factorization. // Nature. -1999. №401. -P.788-791.
46. LeCun Y., Denker J.S., Solla S.A. Optimal brain damage. // Advances in neural information processing systems. 1990. - №2. - P.598-605.
47. LeCun Y., Boser В., Denker J.S., Henderson D., Howard R.E., Hubbard W.E., Jackel L.D. Handwritten digit recognition with backpropagation network. //Advances in Neural Information Processing Systems 2, Morgan Kaufmann. -1990. P.122-134.
48. LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition. // Proceedings of the IEEE. -1998. №86(11). -P.2278-2324.
49. LeCun Y. The MNIST database of handwritten digits. // AT&T. 1994. http://www,research, att.com/~yann/cxdb/mnist.
50. Li S.Z., Hou X.W., Zhang H.J. Learning spatially localized, part-based representation. IEEE Conference on Computer vision and pattern recognition, 2001.
51. Li Z. Contextual influence in VI as a basis for pop out and asymmetry in visual search. // Proceeding National Academy of Science. 1999. -№96. — P.10530-10535.
52. Li Z. Computational design and nonlinear dynamics of a recurrent network model of the primary visual cortex.// Neural Computation. -2001. №13(8). — P.1749-1780.
53. Li Z. A saliency map in the primary visual cortex. // Trends in Cognitive Sciences. -2002. №6(1). - P.9-16.
54. Lippman R.P. An introduction to computing with neural nets. // IEEE Transactions on Acoustics, Speech, Signal Processing, 1987. -№35. - P.2-44.
55. Logothesis N. Object vision and visual awareness. // Current Opinion in Neurobiology. 1998. - №8. - P.236-544.
56. Lovell D.R., Downs Т., Tsoi A.C. A Note on a Closed-Form Training Algorithm for the Neocognitron. // IEEE Transactions on Neural Networks. -1993. №2. - P.367-368.
57. Lovell D.R., Downs Т., Tsoi A.C. Is the Neocognitron Capable of State-of-the-art Digit Recognition? // IEEE Transactions on Neural Networks. 1995. - №1. - P.94-97.
58. Lovell D.R., Downs Т., Tsoi A.C. An Evaluation of the Neocognitron. // IEEE Transactions on Neural Networks. -1997. №8. - P.100-105.
59. Lovell D.R. The Neocognitron as a System for Handwritten Character Recognitron: Limitations and Improvements. // PhD thesis, University of Queensland, Brisrorn 1994. - P.80-95.
60. Malacara D. Color vision: theory and applications. N.Y.: SPIE Press, 2002. -P.215.
61. Mayraz G., Hinton G.E. Recognizing hand-written digits using hierarchical products of experts. // Advances in Neural Information Processing Systems. -№13. 2001. - P.953-959.
62. Moran J., Desimone R. Selective attention gates visual processing in the extrastriate cortex. // Science. №229. - 1985. - P.782-784.
63. Mumford D.B., Gidas B. Stochastic Models for Generic Images. // Quarterly of Applied Mathematics., 2001. -№LIX(1). -P.85-111.
64. Neumann H., Sepp W. Recurrent V1-V2 interaction in early visual boundary processing.// Biological Cybernetics. -1999. -№81(5/6). P.425-444.67.0kada M., Fukushima K. Neocognitron Learned by Backpropagation. //
65. Proceedings of the International Conference on Neural Network, Iizuka, Japan. -1990. P.667-670.68.0sowski S. Sieci neuronowe w ujeciu algorytmicznym. // Warszawa: WNT. -1996.-P.113.
66. Palm G. On associative memory. // Biological Cybernetics. 1980. - №36(1)-P.19-31.
67. Parveen S., Green P. Speech recognition with missing data techniques using recurrent neural networks. // Advances in Neural Information Processing Systems. №14 - MA: Cambridge. MIT Press. - 2002. - P.1189-1195.
68. Pearl J. Probabilistic reasoning in intelligent systems: networks of plausible inference. Morgan Kaufmann. San Mateo. CA, 1988. - P.210.
69. Perona P., Malik J. Scale-space and edge detection using anisotropic diffusion. // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990. -№12(7). P.629-639.
70. Rao R.P.N. An optimal estimation approach to visual perception and learning. // Vision Research. 1999. - №39(11).- P.1963-1989.
71. Rao R.P.N., Ballard D.H. Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-fields effects. // Nature Neuroscience. 1999. - №2(1).- P.79-87.
72. Riedmiller M., Braun H. RPROP a fast adaptive learning algorithm. // Technical Report, Karlsruhe: University Karlsruhe. - 1992.
73. Riesenhuber M., Poggio T. Hierarchical models of object recognition in cortex. // Nature Neuroscience. 1999. - №2(11).- P. 1019-1025.
74. Riesenhuber M., Poggio T. Computational Models of Object Recognition in Cortex: A Review, AIM-1695, Massachusetts Institute of Technology, 2000.
75. Rockland, K. S., Lund, J. S. Intrinsic Laminar Lattice Connections in Primate Visual Cortex.// Journal of Computational Neuroscience. —1983. №216. -P.303-318.
76. Rosenfeld A., Hummel R.A., Zucker S.W. Scene labeling by relaxation operations. / IEEE Transactions on Systems, Man and Cybernetics. 1976. -№6. - P.420-433.
77. Rousselet G., Thorpe S.J., Fabre-Thorpe M. How parallel in visual processing in the ventral pathway? // Trends Cognitive Science. 2004. - №8. - P.363-370.
78. Rumelhart D.E., Hinton G.E., Williams R.J. Learning internal representations by error propagation. // Parallel distributed processing: Explorations in the Microslructures of Cognition. Cambridge: MIT Press. - 1986. - №1. - P.85-96.
79. Satoh S., Kuroiwa J., Aso H., Miyake S. Recognition of Hand-written Patterns by Rotation-invariant Neocognitron. // 5th Intern. Conf. on Neural Information Processing., Tokyo. 1998. - №1. - P.295-299.
80. Satoh S., Kuroiwa J., Aso H., Miyake S. Pattern Recognition System with Top-Down Process of Mental Rotation. // 5lh Intern. Conf. on Neural Network., Alicante. 1999. -№1. - P.816-825.
81. Seung S.H. Learning continuous attractors in recurrent networks.// Advances in Neural Information Processing Systems. 1998. - №10. - P. 654-660.
82. Siegelmann H.T., Sonntag E.D. On the computational power of neural nets. // Journal of Computer and System Sciences. №50(1) - 1995. - P.132-150.
83. Smith K. Paliniswami M., Krishnamoorty M. Neural techniques forcombinatorial optimization with applications. // IEEE Transactions on Neural Networks. №9(6) - 1998. - P.1301-1318.
84. Smolensky P. Information processing in dynamical systems: Foundations of harmony theory. // Parallel distributed processing: Exploration in Microstructure of Cognition. Foundations. MIT Press. 1986. - №1. -P.194-281.
85. Tu Z., Zhu S.-C. Image segmentation by data-driven Markov chain Monte Carlo// IEEE Trans, on pattern analysis and machine intelligence. 2002. -№24(5) - P.96-112.
86. Vieth A.C., Holmes G.A. A modified quickprop algorithm. // Neural Computation. 1991. - №3. - P.310-311.
87. Walther D., Itti L., Riesenhuber M.,Poggio Т., Koch C. Attention Selection for Object Recognition -a Gentle Way. // Proceedings of the Second International Workshop on Biologically Motivated Computer Vision. 2002. - P.472-479.
88. Walther D. Interactions of Visual Attention and Object Recognition: Computational Modeling, Algorithms and Psychophysics.// PhD thesis, California Institute of Technology, Pasadena 2006.
89. Wang G., Tanifuji M., Tanaka K. Functional architecture in monkey inferotemporal cortex revealed by in vivo optical imaging. // Neuroscience Research. 1998. - №32. - P.33-46.
90. Zhu S.-C., Wu Y.N., Mumford D. Filters, Random Fields and Maximum Entropy: Towards a Unified Theory for Texture Modeling. // International Journal of Computer Vision, -vol.27., no.2., pp.107-126., 1998.
91. Аксёнов C.B., Новосельцев В.Б. Организация и использование нейронных сетей. Томск. Изд-во HTJI, 2006 128 стр.
92. Аксёнов С.В., Новосельцев В.Б. Повышение качества распознавания сцен нейронной сетью неокогнитрон // Известия Томского политехнического университета. 2006. Т.309, №7.- С.87-91.
93. Аксёнов С.В. Взаимодействие систем распознавания и внимания для интерпретации сцен // «Молодежь и современные информационные технологии 2008»: труды VI Всероссийской научно-технической конференции / ТПУ, - Томск, 2008. - С.319-321.
94. Аксёнов С.В. Методы иерархического анализа многообразных сцен // «Информационные технологии в профессиональной деятельности и научной работе»: труды Всероссийской научно-технической конференции/ МарГТУ, Йошкар-Ола, 2008. Т.2. - С.9-12.
95. Аксёнов С.В. Иерархическая нейронная система для анализа объектов, расположенных на произвольном фоне // // «Студент и научно-технический прогресс»: труды XLVI Международной научно-технической конференции / НГТУ, Новосибирск, 2008. Т.4. - С.112-113.
96. Аксёнов С.В. Механизмы выделения контрастных фрагментов сцены системой восходящего внимания // Известия Томского политехнического университета. 2008. Т.312, №5. - С.97-101.с/152 1t
-
Похожие работы
- Алгоритмы обработки и анализа изображений иерархической временной сетью
- Разработка и исследование ПО для распознавания и анализа объектов на изображении с помощью нейронной сети
- Пирамидальное распознавание изображений на основе бинарных структур
- Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах
- Параллельные цифровые нейрокомпьютеры и их применение в задачах распознавания зрительных образов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность