Разработка бионических алгоритмов инвариантного распознавания полутоновых изображений

Гусакова, Валентина Ивановна

Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Разработка бионических алгоритмов инвариантного распознавания полутоновых изображений

кандидата технических наук: Гусакова, Валентина Ивановна
город: Ростов-на-Дону
год: 1996
специальность ВАК РФ: 05.13.16

Автореферат по информатике, вычислительной технике и управлению на тему «Разработка бионических алгоритмов инвариантного распознавания полутоновых изображений»

Автореферат диссертации по теме "Разработка бионических алгоритмов инвариантного распознавания полутоновых изображений"

Г Б ОД

? ОЕВ 1398

На правах рукописи

ГУСАКОВА ВАЛЕНТИНА ИВАНОВНА

РАЗРАБОТКА БИОНИЧЕСКИХ АЛГОРИТМОВ ИНВАРИАНТНОГО РАСПОЗНАВАНИЯ ПОЛУТОНОВЫХ ИЗОБРАЖЕНИЙ

05.13.16 - применение вычислительной техники, математического моделирования и математических методов в научных исследованиях

Автореферат диссертаций на соискание ученой ¿тепсни кандидата технических наук

Ростов-на-Дону 1996

Работа выполнена в НИИ нейрокибернетики им.А.Б.Когана при Ростовском Государственном университете.

Научные руководители:

доктор физико-математических наук

кандидат биологических наук

Дунин-Барковский В.Л. Подладчтпсова Л.Н.

Официальные оппоненты:

доктор технических наук Чернухин Ю.В.

кандидат физико-математических наук Яхно В.Г.

Ведущая организация:

Институт оптико-нейронных технологий РАН (г.Москва)

Защита состоится 1956г. в И часов на

заседании диссертационного 'совета К 063.52.12 по физико-математическим и техническим наукам в Ростовском госуниверситете по адресу: 344090, г.Ростов-на-Дону, пр.Стачки, 200/1, корпус 2, Вычислительный центр РГУ.

С диссертацией можно ознакомиться в научной библиотеке РГУ по адресу: ул.Пушкинская, 148.

Автореферат разослан "У сС 1996 г.

Ученый секретарь диссертационного совета, кандидат технических наук

ДЖЕНИБАЛАЕВ Х.Д.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. Одной из центральных проблем в области создания искусственных систем обработки и анализа визуальной информации, которые не нашли эффективного решения в рамках традиционных подходов технического зрения, является проблема инвариантности распознавания изображений по отношению к основным геометрическим преобразованиям ( изменению масштаба, сдвигу, повороту), условиям освещения, уровню сигнал-шум и т.д.

В настоящее время разработки и исследования в этой области развиваются в двух направлениях. Первое состоит в совершенствовании традиционных процедур н алгоритмов технического зрения для увеличения скорости и эффективности вычислении. Второе направление основано на разработке новых нейробионическнх методов и алгоритмов.

В рамках последнего направления выделяется бурно растущая область исследований и разработок, связанных с концепцией активного зрения [D.H.Ballard, 1986; P.J.Burt, 1988; R.Bajscy, 1988; С.Bandera, P.Scolt, 1991], которая рассматривается как один из самых перспективных подходов для сжатого представления зрительной информации, ее быстрой обработки и инвариантного распознавания изображений. В настоящее время исследования в этой области, в основном, решают теоретические проблемы, и известны лишь отдельные разработки, посвященные решению частных задач

инвариантного распознавания изображений К2. Концепция активного зрения основана на ряде нейрофизиологических и психофизических данных и идей. Однако, имеющиеся на современном уровне знаний количественные данные и представления о вычислительных алгоритмах, реализуемых в зротельном восприятии естественных систем, неполны и недостаточно формализованы для того, чтобы они могли быть детально воспроизведены в системах искусственного зрения. D этом плане искусственные бионические системы могут являться одним из инструментов для исследования структурно-функциональной организации и механизмов зрительного восприятия путем разработки реалистических моделей, проведения

1. R.A.Messner, H.H.Szu. An image processing architecture for real time generation of scale and rotation invariant patterns. // Computer Vision, , Graphics, and Image Processing. - 1985. - 31. -pp. 50-60.

2. M.Fnkumi, S.Omatu, F.Takeda, T.Kosaka. Rotation-invariant neural pattern recognition system with application to coin recognition. // IEEE Transaction on Neural Networks. - 1992. - v.3. - n.2. -pp. 272-278.

имитационных экспериментов, формулировки предсказаний и последующей их верификации в нейрофизиологических и психофизических экспериментах.

Цель и задачи исследования. Целью работы являлись разработка и исследование бионических алгоритмов и математической модели системы для инвариантного представления и распознавания полутоновых изображений на основе данных нейрофизиологии и психофизиологии.

В процессе исследования решались следующие задачи: 1 .Разработка концептуальной модели и архитектуры системы.

2. Разработка алгоритмов нижнего и верхнего уровней обработки визуальной информации для ее инвариантного представлеши и распознавания.

3.Создание программной версии модели.

4.Проведение имитационных экспериментов на модели при обработке полутоновых изображений для оптимизации параметров модели и формулировки предсказаний о возможных механизмах выбора точек фиксации взгляда в реальной зрительной системе.

Научная новизна результатов исследования. Разработана и исследована математическая модель системы обработки зрительной информации, обеспечивающая распознавание полутоновых изображений инвариантно по отношению к основным геометрическим преобразованиям и уровню зашумления. С основе функционирования системы лежит формирование инвариантного описания фрагментов и изображения в целом, наличие специфических траекторий "осмотра" объектов, ориентационная фильтрация фрагментов изображений и уменьшение уровня разрешения от центра "окна обработки" к его периферии. Предложена оригинальная архитектура "окна обработки", которая реализует сложное преобразование фрагментов исходного изображения в каждой трчке фиксации "окна обработки" и обеспечивает сжатое и инвариантное представление информации. По результатам имитационного моделирования сделан ряд предсказании о возможных механизмах зрительного восприятия и выбора точек фиксации взгляда при осмотре зрительных объектов и реальной зрительной системе.

Практическая значимость. Разработанные алгоритмы и программы, обеспечивая сжатое, специфичное представление изображений и инвариантное описание объектов и сцен, могут быть использованы в системах технического зрения * и в робототехнике. В частости, предложенное "окно обработки" может быть аппарат о реализовано в качестве визуального сенсора нового типа.

Результаты работы использованы при реализации проекта российско-французского сотрудничества "Теоретическое и

экспериментальное изучение контекстного зрения с приложением к проблеме управления роботом" между НИИ нейрокибернетики РГУ и лабораторией LACOS Гаврского университета (Франция), при выполнении темы 7037 (1991г.) по программе "Супсрмакронейрокомпыотер" и при чтении факультативного курса по нейронпформагике студентам механико-математического факультета РГУ.

Разработанная система может быть использована в качестве программно-аппаратного стенда для проведения психофизических экспериментов, направленных на изучение механизмов зрительного восприятия человека.

Апробация работы. Результаты работы докладывались: на Международном симпозиуме "NEUR.ONET9Q" в 1990 г. (г.Прага, Чехословакия); на XlV-oii Европейской конференции по зрительному восприятию в 1991 г. (г.Внльшос); на Международной конференции "Применение искусственных нейронных сетей" в 1991 г. (г.Орландо, Флорида, США); на Х-ой Всесоюзной конференции по нейрокибернетнке d 1992 г. (г.Ростов-на-Дону); на Международной конференции по нейронным сетям в ¡992 г. (г.Балтимор, США); на 1-ом н 2-ом Международных симпозиумах по нейроинформатике и нейрокомпьютерам в 1992 г., 1995г. ( г.Ростов-на-Дону ); на Международной конференции по оптической обработке информации d 1993 г. (г.Санкт-Петербург); на семинаре " Алгоритмы обработки информации в нейроподобннх системах" в 1993 г. ( г. Нижний Новгород); на заседании Ростовского отделения Физиологического общества в 1994 г. (г.Ростов-на-Дону); на семинаре "Математические методы в экономике и экологии " в 1995 г. (НИИ механики и прикладной математики РГУ, г. Ростов-на-Дону). Публикации. По теме диссертации опубликовано 15 работ, из них 13 в международной печати.

Структура и объем диссертации. Работа состоит из введения, четырех глав, заключения, списка литературы и изложена на /0-? страницах; содержит У 5" рисунков; список литературы включает 405 наименований.

СОДЕРЖАНИЕ

Во введении дана общая характеристика работы, изложено краткое содержание работы по глазам и сформулированы основные результаты, представленные к защите.

Первая глава посвящена обзору литературы по исследуемой проблеме.

Глава состоит из трех разделов.

В первом разделе главы рассмотрены классические подходы к решению проблемы инвариантного распознавания образов. Отмечена ограниченность их применения для решения задач распознавания в реальном мире.

Второй раздел главы посвящен описанию концепции активного зрения. В нем приводятся факты и сведения о биологических механизмах, лежащих в основе концепции активного зрения. Дается сводка разработанных о последнее время моделей и систем распознавания образов, использующих' принципы активного зрения.

В системе зрительного восприятия человека и высших животных можно выделить два рода взаимосвязанных процессов: параллельную обработку зрительной информации, осуществляемую автоматически нейронными структурами нижних уровней зрительной системы, и последовательную обработку, связанную с механизмами распознавания образов и управляемую механизмами внимания. В первом процессе основную роль играют процессы первичной фильтрации информации т.е. детекторные свойства нейронов зрительной системы, их избирательное реагирование на те или иные признаки зрительных объектов. Внешним проявлением второго процесса является сканирование зрительного пространства по определенному алгоритму, связанному с осматривающими движениями глаз и последовательной фиксацией взгляда на отдельных фрагментах изображения. Необходимость сканирования в значительной степени определяется уменьшением разрешающей способности восприятия от центра к периферии поля зрения. Относительно механизмов выбора точек фиксации взгляда и алгоритмов сканирования зрительного пространства в настоящее время известно очень мало, но установлено, что в процессе осмотра объектов центральная часть сетчатки фиксируется на наиболее информативных фрагментах зрительного пространства, которые

должны быть обработаны с высоким разрешением ''\

Для второго процесса характерна целенаправленная фильтрация признаков, находящихся в определенных пространственных и семантических отношениях с признаками, выделенными на предыдущих этапах анализа, что позволяет проверять гипотезы, формирующиеся в процессе распознавания.

ГАЛ.Ярбус. Роль движения глаз в процессе зрения. М.: Наука,- 1965. -166 С.

2.Н.В.Завалишин, И.Б.Мучник, Модели зрительного восприятия и алгоритмы анализа изображений. М.; Наука. - 1974. -334 С.

На основании психофизических экспериментов по изучению траекторий движения глаз при запоминании и распознавании

зрительных объектов человеком Д.Нотон и Л.Старк 1 выдвинули гипотезу о "кольце признаков" объекта. Согласно этой гипотезе, человек при осмотре объекта как бы "ощупывает" его взглядом, определяя траекторию осмотра. В каждой точке фиксации взгляда формируется набор признаков, образованный взаимосвязанными элементами кодирования признаков, обрабатываемого фрагмента изображения и движений глаз. При этом формируются следы памяти, составляющие "кольцо признаков", в котором хранятся как сенсорные признаки обтэекга, так и информация о глазодвигательной активности. При распознавании объекта траектория глазных движений как бы повторяет траекторию, имевшую место при его запоминании. Д.Нотон и Л.Старк получили ряд экспериментальных подтверждений своей гипотезы. Реализация этой идеи при разработке систем искусственного зрения может обеспечить значительное сжатие информации, 'поскольку предполагает обработку и кодирование не всего изображения, а только последовательного набора его характерных фрагментов и кодирование пространственных отношений между этими фрагментами.

В третьем разделе главы рассматривается постановка задач исследования, обосновывается целесообразность применения бионического подхода для решения задач искусственного зрения и его использование как метода при исследовании нейробиологических систем.

Основной задачей . раТюты Была формализация изложенных представлений о функционировании системы зрительного восприятия в виде математической модели и создание программного макета системы для исследования ее возможностей при решении некоторых проблем искусственного зрения.

В данном разделе определяются направления, которые должны быть разработаны при реализации модели, а именно:

1.Алгоритмы первичной обработки фрагмента изображения, имитирующие уменьшение уровня разрешения восприятия от центра к периферии поля зрения.

2.Алгоритмы выделения и кодирования первичных признаков зрительных объектов (яркость, ориентация линейных сегментов и т.д.).

3.Алгоритмы инвариантного представления фрагмента изображения

l.D.Noton, N.Stark. Scanpaths in eye movements during pattern recognition. // Science. - 1971. - vol. 171. - pp. 72-75.

з каждой точке фиксации взгляда и пространственных отношений между фрагментами изображения, обработанными в последовательных точках фиксации.

4. Алгоритмы взаимосвязей между нижними и верхними уровнями обработки зрительной информации па стадиях поиска характерных фрагментов, запоминания и.распознавания объекта.

Во второй главе описаны алгоритмы и модель "окна обработки", обеспечивающие обработку информации на нескольких уровнях разрешения, ориентационную фильтрацию фрагмента изображения и сжатое и инвариантное описание каждого фрагмента. Приводятся алгоритмы формирования траекторий "осмотра" изображений (супервизорный и автоматический режим), обеспечивающие сжатое и инвариантное представление изображения в целом н его распознавание.

Глава состоит из четырех разделов.

В первом разделе главы описывается способ предварительной обработки изображения, который удобно использовать для реализации концепции активного зрения. В соответствии с концепцией активного зрения центр "окна обработки" фиксируется в определенных точках изображения, которые формируют траекторию "осмотра" изображения, и для каждой точки фиксации проводится обработка не всего изображения, а только его фрагмента, ограниченного "окном обработки". Были определены следующие требования для предварительной обработки изображения:

1.Алгоритмы предварительной обработки фрагмента изображения в каждой точке "окна обработки" должны имитировать уменьшение разрешающей способности с увеличением расстояния от его центра (области с наибольшей разрешающей способностью) к периферии по

закону, близкому к экспоненциальному 1.

2.Выбор очередной точки фиксации "окна обработки" ( очередного центра обработки) должен осуществляться на основе информации, Полученной в результате обработки в предыдущей точке.

Исходное изображение / = {Л' ч, /,у = 1,2,...128} представлено массивом 128x128 значений яркости. Для обеспечения возможности обработки изображения и выделения сегментов контрастных границ на разных уровнях разрешения исходное изображение подвергалось

!.Н.ф.Подвипш, Ф.Н.Макаров, ТО.Е.Шслешш. Элементы структурно-функциональной организации зригельно-

главодвигательной системы. Л.: Наука, - 1986 - 252 С.

последовательной фильтрации с помощью преобразования Гаусса, в результате строились трансформированные изображения, каждое из которых соответствовало определенному уровню разрешения:

где G£;}) = alp{-yгl(2^-т^p-i)г+(2r-l^q-jУt]); у - коэффициент преобразования Гаусса; х,} - координаты точки изображения; / -уровень разрешения (1 = 1,2,...т); е {-2,-1,0,1,2}, при этом исходное изображение рассматривалось как препарат изображения наибольшего разрешения. В каждой п-ой точке фиксации "окна обработки" формировался препарат фрагмента изображения

I '00 = { Хд(п) }• Координаты центра "окна обработки" ( /0(л),у „(и) )

и уровень разрешения /0(и), задаваемый в центральной области обрабатываемого фрагмента, рассматривались как начальные параметры.

Препарат фрагиепта / '(") = { X ¡¡(п) } в каждой п-ой точке фиксации "окна обработки" формировался из исходного изображения 1 = {X следующим образом:

л Ij ~ л 1/ г

у (2) _ у <7 О .Л' <" * Л 1 - Z,I ^ pqlj Л <] '

РЧ

у С) _ V /7 (1-1) . у <М)

лм -L "л! л 0

(1)

А-;-1"' , если pv(n) <; Я0(/„) I X'/»*1 , если Л0(/0) < р,(п) S /?,(/,) } , если Л,(/,) < PlJ(n) <, Д2(/0) ,

I. ("HI

(2)

где pv(n) = f( i-i0(n) )2 +U-JM-) г>

Ло(/0) = 3.2''-< ; Л1(/0) = 3-2'-:; Д2(-' о)=3-2''+1 .

Во втором разделе главы рассматриваются ^алгоритмы, обеспечивающие обработку информации на нескольких уровнях разрешения, ориентационную фильтрацию, сжатое и инвариантное описание фрагмента изображения в каждой точке фиксации "окна обработки".

Суть разработанных алгоритмов заключаете^ в следующем: для каждой точки фиксации "окна обработки" выделяется ориентированный сегмент контрастной границы в центральной области обрабатываемого фрагмента; этот сегмент рассматривается как базовый; выделяются контекстные ориентированные сегменты контрастных границ на разных расстояниях от центра "окна обработки", причем выделение этих сегментов осуществляется на уровнях разрешения, соответствующих расстоянию от центра; кодируются пространственные отношения между контекстными и базовым сегментом.

На рис. 1. показано взаимное расположение центра области, в окрестности которого выделяется базовый сегмент (базовая область), и точек - центров областей, в окрестностях которых выделяются контекстные сегменты. Эти точки выбирались на пересечении 16-ти лучей, выходящих из точки фиксации "окна обработки" с угловым шагом 22,5° , и трех концентрических окружностей с центром в той же точке, радиусы которых определяются по формуле (3). Всего, таким образом, рассматривалось 3x16=48 контекстных областей, в которых выделялись контекстные сегменты контрастных границ.

Пусть у/в - ориентация вектора градиента, , соответствующего

базовому сегменту в абсолютной системе координат ХОУ; у/к -ориентация вектора градиента, соответствующего контекстному сегменту в той же системе координат; <рк угловое положение этого сегмента также в системе координат ХОУ; 7 - уровень разрешения, на котором выделяется контекстный сегмент. Инвариантное описание фрагмента избражения для каждой точки фиксации "окна обработки" можно получить с помощью набора параметров ф,ц/,Х , которые определяют относительное положение и ориентацию каждого контекстного сегмента и вычисляются по следующим формулам: <р=то& ,в( фк-у0+ 20) ; у=то<1 16( (/0 + 16) : Л = /-/0 , где <р,уг е {0,1,...15}, А е {0,1,2} .

Рис. 1. Структура "окна обработки". То есть, фрагмент изображения в каждой точке фиксации "окна обработки" может быть инвариантно представлен с помощью 49-мерного вектора, координатами которого являются ориентация базового сегмента и относительные ориентации 48 контекст! ¡ых сегментов.

Однако, для инвариантного представления изображения в целом инвариантное представление ' его фрагментов в каждой точке фиксации "окна обработки" является необходимым, но не достаточным условием. Требуется обеспечить также выбор следующих точек фиксации "окна обработки" и инвариантное кодирование пространственных отношений между последовательно обрабатываемыми фрагментами изображения.

Очередную точку фиксации "окна обработки" наиболее естественно и удобно выбирать из точек, соответствующих положениям центроз контекстных областей, что значительно упрощает процедуру кодирования пространственных отношений между последовательно обрабатываемыми фрагментами. Для инвариантного представления пространственных отношений между соседними фрагментами изображения необходимо обеспечить кодирование параметров базового сегмента для следующей точки

фиксации в системе координат Х'ОУ (рис.1), связанной с базовым сегментом, выделенным при предыдущей фиксации "окна обработки". При этом параметры (п+1) точки фиксации связаны с параметрами 11-ой точки следующим образом:

где ф'к- относительное угловое положение центра к-ой контекстной области, выбранной в качестве следующей точки фиксации "окна

обработки"; Я'к- изменение уровня разрешения при переходе от базового сегмента к выбранному контекстному. При переходе к следующей точке фиксации возможно изменение уровня разрешения, на котором будет выполняться обработка фрагмента изображения, расположенного в центральной области "окна обработки". При этом изменение уровня разрешения при переходе к новой точке фиксации определяется следующим образом:

Таким образом, <р, IлЩ , Л инвариантно кодируют переход в следующую точку траектории "осмотра".

Третий раздел главы посвящен описанию алгоритмов формирования траекторий "осмотра" изображений, которые представлены последовательностью точек фиксации "окна обработки". Он состоит из двух подразделов.

В первом подразделе описывается формирование траектории "осмотра" изображения в супервизорном режиме, при котором следующую точку траектории выбирает оператор. Однако, для возможности аппаратной реализации разработанной системы и расширения класса обрабатываемых объектов необходима разработка алгоритмов автоматического формирования траектории "осмотра" объектов и формализация критериев выбора последовательных точек фиксации "окна обработки", которые и рассматриваются во втором подразделе данной главы. При этом мы исходили из ряда условий и допущений. Как уже отмечалось, каждая следующая точка фиксации "окна обработки" (точка траектории) с координатами (х,у) выбиралась из 48 контекстных областей предыдущей точки фиксации. Из контекстных областей выбиралась наиболее яркая, при этом желательно, чтобы выделенные линейные сегменты контрастных границ имели бы максимальный уровень контраста, а обрабатываемый фрагмент изображения 'при фиксации "окна

(5)

(6)

обработки" d центре данной области содержал бы максимальное количество линейных сегментов контрастных границ. Эта область должна располагаться на более низком уровне разрешения, и сегменты в ней должны иметь ориентацию, максимально отличающуюся oi ориентации базового сегмента. Выбираемая в качестве центра для следующей фиксации "окна обработки" точка не должна совпадать с уже имеющимися точками- траектории и располагаться близко от границы изображения.

15 качестве показателя яркости в точке изображения была

взята усредненная яркость 1т(л,у) элементов . изображения в окрестности этой точки.

Im(xj') = 1J- 2Д* „>-,), (7)

N И*,,)',) еО,М

где 1(х ,,у,) - яркость элемента изображения в точке (х fly,) ;

Q - окрестность точки (х,у) : ■

N , - количество точек, попавших в эту окрестность. Уровень контраста линейных сегментов контрастных границ, выделенных в окрестности точки (.vj<) оценивался соотношением:

Em(x,y)=-L ££<*„:у,), (8)

Я 1 (г,у,) eQ.dj')

где B(xt,yt) - величина контраста линейного сегмента, проходящего через трчку

В качестве показателя количества линейных сегментов контрастных границ, содержащихся во фрагменте изображения при фиксации "окна обработки" в точке выбрана Ог(х,у), которая определялась следующим образом:

Or(x,y)= Vß(, „,,), (9)

где Q (дг,>>) - обрабатываемый фрагмент изображения при фиксации

"окна обработки" в точке (х,у) , а 0(.х,,у,) = \, если был выделен ориентированный линейный сегмент контрастных границ в контекстной области с центром и 1'очке (х lty ¡) и 0(x.,yt) =0 в противном случае

Ф(х ,у) - ориентация линейного сегмента контрастных границ,

выделенного в области с координатами центра (х,у) .

Различие ориентаций сегментов в базовой и контекстных областях

определим показателем Б(х,у):

= (Ю)

Опишем рекуррентный процесс формирования

последовательности точек фиксации "окна обработки" (траектории)

при "осмотре" изображения (* ь,уь),(х °,у к,У *)•

Пусть *) - текущая точка траектории. (В качестве начальной точки можно взять центр изображения или точку, указанную оператором). Для того, чтобы задать приоритет точек (х,у), которые

ранее не. принадлежали окрестности €1г{х 1,ук) точек (хк,ук) траектории, введем функцию

1т(х,>>) , если к-0;

Р(.х,у,к) = ■ Р(х,у,к а , если (х,у) е П 2(х*,/) , ¿>0 ; (И) Р(х,у,к-\)+р , £слп (х,у) ё С12(хк,ук) , к>О,

где а,р - константы, определяемые экспериментально. Тогда в качестве следующей точки траектории возьмем точку, дающую максимум функции

Р(х,у) = 4- Ет(х,у) 4- Ог(х,у) 4 х,у) + Р{х,у ,к)+ Ь, (12)

где точки (х,у) являются центрами контекстных областей для точки

(хк,у к), Ь- уровень разрешения.

На рис.2а приведена траектория "осмотра" изображения, построенная оператором, а на рис.2б - траектория "осмотра", полученная в процессе обработки изображения с помощью автоматического алгоритма.

Четвертый раздел главы посвящен описанию разработанного алгоритма распознавания полутоновых изображений, в основе которого лежит сопоставление результатов обработки .информации в каждой точке, фиксации "окна обработки", полученных на этапах запоминания и распознавания зрительных объектов.

Алгоритм распознавания является модификацией алгоритма наименьшей дисперсии, в котором в качестве целевой функции берется Евклидово расстояние между текущим и эталонным векторами в каждой точке фиксации "окна обработки". В качестве эталонных векторов рассматриваются 49-мерные вектора ориентаций

<• t f . ' n A1* t

frj«-. ii

Ч-

if- м.„ л

V УМ v/ , h

л 's

& V

n <

4 i

X *

N ,'.•?

Рнс.2. Траектории "осмотра" тестового изображения, формируемые в супервнзорном режиме (а) и с помощью автоматического алгоритма (б).

(ориентации базового и 48 контекстных сегментов), для каждой точки траектории, записанные в процессе "осмотра" изображения (в процессе запоминании) и хранящиеся в блоке памяти системы, а в качестве текущего вектора - вектор, описывающий фрагмент изображения, обрабатываемый на этапе распознавания. Модификация алгоритма заключается в том, что были введены коэффициенты р учитывающие различный вклад в целевую функцию информации, полученной на разных уровнях разрешения.

В разработанном алгоритме вычисляется оценка близости текущего вектора с каждым из эталонных векторов. Если полученная оценка Выше некоторого значения, то выдвигается гипотеза о движении по одной из эталонных траекторий, и в соответствии с информацией об этой траектории, хранящейся и памяти системы, выбирается следующая точка фиксации "окна обработки". Решение о распознавании принимается на основании интегральной оценки близости некоторого количества текущих векторов с эталонными векторами, соответствующими последовательным точкам выбранной траектории. Число точек для определения интегральной оценки определялось экспериментально.

В третьей главе рассматривается архитектура разработанной системы для инвариантного представления и распознавания полутоновых изображений и кратко описываются се блоки (рис. 3). В настоящее время все блоки этой системы программно реализованы на IBM PC А Г на языке Си. Возможны несколько вариантов аппаратной реализации разработанных алгоритмов, которые позволят

Рис.3. Блок-схема системы зрительного восприятия.

существенно ускорить обработку информации. В частности, это может быть применение специализированных плат, выполняющих ориентационную фильтрацию фрагментов изображения и распараллеливающих процедуры, выполняемые в базовой и контекстных областях. Наиболее интересным блоком для аппаратной реализации, в том числе оптической, является предложенная архитектура "окна обработки". Один ,из вариантов такой реализации

предложен Р.Хехт-Нильсоном

В четвертой главе приводятся результаты исследования разработанной модели, с помощью имитационных экспериментов. Задачи такого исследования состояли в следующем:

- оптимизация разработанных алгоритмов;

- тестирование системы при обработке реальных изображений различной степени сложности, таких как простые геометрические фигуры, сцены, составленные из таких фигур, и лица;

- получение некоторых количественных оценок разработанной

I. R.Heclit-Nielsen and Y.T.Zliow. A low cost foveal vision system. // Report on Govenneiit Conference on Neural Networks, Ohio, USA,- 1992.

Л -1

Рис.4. Примеры преобразований тестового изображения.

системы;

- формулировка предсказаний о возможных механизмах выбора последовательных точек фиксаций в процессе осмотра зрительных объектов в реальной зрительной системе.

Глава состоит из двух разделов.

В первом разделе представлены результаты обработки фрагментов изображения в отдельных точках фиксации "окна обработки". Показано, что при обработке фрагментов реальных изображений обеспечивается сжатое и специфичное объекту представление зрительной информации и инвариантное распознавание фрагментов изображения по отношению к сдвигу, повороту и изменению масштаба.

Во втором разделе приведены результаты обработки изображений в целом в процессе последовательной фиксации "окна обработки" и формирование траектории "осмотра" зрительных объектов в супервизорном режиме и с помощью автоматического алгоритма. В результате имитационных экспериментов определен диапазон параметров, в котором разработанная модель удовлетворительно функционирует. Показано, что количество последовательных фиксаций, необходимое для инвариантного распознавания различных изображении, зависит от степени их сложности. Так, для распознавании простых фигур достаточно одной фиксации, в то время как для сложных полутоновых изображений количество последовательных фиксаций варьируется и составляет 10-!5 на стадии запоминания и '3-5 на стадии распознавания. Разработанные алгоритмы тестировались для изображений, которые подвергались различным геометрическим преобразованиям (рис.4). На рис.4а тестовое изображене повернуто на 270°; на рис 46 - сдвинуто по

горизонтали и по вертикали; на рис.4в - тестовое изображение сдвинуто и повернуто на 90°. Показано,что при выбранных параметрах разработанная модель обеспечивает инвариантность одновременно к изменению масштаба (в пределам заданной дискретности), сдвигу, повороту (па угол, кратный 22,5°) н зашумлению (до 20%).

РЕЗУЛЬТАТЫ, ПРЕДСТАВЛЕННЫЕ К ЗАЩИТЕ.

1.Разработаны и исследованы алгоритмы н модель "окна обработки", которые обеспечивают обработку информации на нескольких уровнях разрешения, сжатое и инвариантное описание фрагментов изображения.

2.Разработаны и исследованы алгоритмы автоматического и супервизорного формирования траекторий осмотра изображений на этапе запоминания, которые обеспечивают специфичное и сжатое описание объектов и сцен и их распознавание инвариантно к основным геометрическим преобразованиям и уровню зашумления.

3.По результатам имитационного моделирования сделан ряд предсказаний о возможных свойствах реальной зрительной системы, которые согласуются с данными, полученными в направленных экспериментах.

Основные результаты диссертации опубликовали з следующих риботах:

1.LA.Rybak, A.V.Golovan, V.I.Gusakova. An approach to invariant object recognition on grey-level images by exploiting neural network models // In Proc. SPIE Conf. Applications of Artificial Neural Networks II. -1591. Orlando. Florida.- Part 2,- pp.472-482.

2.V.l.Gusakova, l.A.Rybak, A.V.Golovan. The invariant transformation of visual images based on the principles of active visual perception and on the neural network paradigms. // Perception. -1991. -20, -1, - p.1Q5. 3.I.A.Rybak, A.V.Golovan, V.I.Gusakova, N.A.Shcvtsova. Modeling of a neural network system for active visual perception and image recognition. // In Proc. Int. Conf. Neural Networks and their Applications "NEURON IMES". -1991, Nimes, France. - pp.519-525.

4.I.A.Rybak, A.V.Golovan, V.I.Gusakova, N.A.Shcvtsova, L.N.Podladchikova. A neural network system for active visual perception and recognition. // Neural Network World. - 1992. 1,4,- pp.245- 250. 5.l.A.Rybak, L.N.Podladchikova, NA.Shevtsova, A.V.Golovan, V.I.Gusakova. Neural network modeling for the study of neuron

mechanisms of visual perception. // Proc. Symp. on Neuroinformatics and Neurocomputers, Rostov-on-Don. - 1992. - pp.323-333. 6.И.А.Рыбак, А.В.Головань, В.И.Гусакова, Н.А.Шевцова, Л.Н.Подладчикова. Модель визуального нейрокомпьютера. // Сб. "Проблемы нейрокибернетики", Ростов-на-Дону. - 1992, - с.251-252. 7.I.A.Rybak, L.N.PodIadc!iikova, A.V.Golovan, V.I.Gusakova. Invariant object recognition based on separated representation of "what" and "where" object features. // World Congress on Neural Networks, Portland. - 1993, -vol.1..- pp.42-45.

8.I.A.Rybak, AV.GoIovan, V.I.Gusakova, L.N.Podladchilcova, N.A.Shevtsova: /Дn: Modelling of biological vision and application to artifical robot vision, le Havre University.'- 1993. - vol.1. - pp.14-26. 9.V.I.Gusakova, IARybak, L.N.Podladchikova, A.V.Golovan, •N.A.Shevtsova. Formation of representation for invariant image recognition; using specific trajectories of viewing. // In Proc. Int. Coftf. on Optical Information Processing, St.-Pet., Proc. SPIE. - 1993."-vol.2051. -pp.495500.

Ю.В.И.Гусакова, И.А.Рыбак, Л.Н.Подладчикова, АВ.Головань, НАШевцова: Инвариантное представление и распознавание объектов с помощью окна "внимания" и специфической траектории осмотра. // Нижний Новгород, Радиофизика. - 1994. 37(9). - с.1173-1182. ll.I.Rybak, A.Golovan, V.Gusalcova. A behavioral model of visual perception and recognition. //Conf. on Human Vision,Visual Processing and Display , SPIE/IS&T, Sym. on Electronic Imaging, San Jose. 1993. -pp.548-560.

12.I.A.Rybak, V.I.Gusakova, A.V.GoIovan, N.A.Shevtsova, V.M.Sandler. Modeling of visual perception and recognition as behavioral processes. // In Proc. of 5th UNB Artificial Intelligence Symposium , Canada, Editor Lev Goldfatb.- 1993. - pp.99-102.

13.Shevtsova N.A., Gusakova V.I., Podladchikova L.N., Rybak I.A., Golovan A.V. Modelling imagé viewing trajectories formation. // In Proc. Int. Conf. on Visual Perception. - 1994. - vol. 23S. - p.71. 14.Rybak I., Gusakova V., Golovan A., Shevtsova N.,Podladchikova L. Modelling of a neural network system for active visual perception and recognition. // In Proc. of 12th International Conference on Pattern Recognition (ICPR'94). vol 2. Pattern Recognition and Neural Networks, IEEE Сотр. Soc. Press. Los Alamos. - 1994. - pp.371-373. 15.Shevtsova N.A., Klepatch A.A., FFaure A., Podladchikova L.N., Golovan A.V., Gusakova V.I., Rybak I.A. Functional role of the input transform in the foveal neural network. // In Proc. the 2-nd Symp. on Neuroinformatics and Neurocomputers, Rostov-on-Don. - 1995. -pp.181-

Похожие работы

Информатика, вычислительная техника и управление
05.13.00