автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Многоканальная нейросетевая модель системы компьютерного зрения для задач текстурной сегментации

кандидата технических наук
Цымбал, Дмитрий Александрович
город
Великий Новгород
год
2005
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Многоканальная нейросетевая модель системы компьютерного зрения для задач текстурной сегментации»

Автореферат диссертации по теме "Многоканальная нейросетевая модель системы компьютерного зрения для задач текстурной сегментации"

На правах рукописи

Цымбал Дмитрий Александрович

МНОГОКАНАЛЬНАЯ НЕЙРОСЕТЕВАЯ МОДЕЛЬ СИСТЕМЫ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ ЗАДАЧ ТЕКСТУРНОЙ СЕГМЕНТАЦИИ

Специальность 05 13 18 - «Математическое моделирование, численные методы и комплексы программ»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

200Ь~4

На правах рукописи

Цымбал Дмитрий Александрович

МПОГОКАНАЛЬНАЯ НЕЙРОСЕТЕВАЯ МОДЕЛЬ СИСТЕМЫ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ ЗАДАЧ ТЕКСТУРНОЙ СЕГМЕНТАЦИИ

Специальность 05 13 18 - «Математическое моделирование, численные методы и комплексы программ»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

22Ш?Л

Диссертация выполнена в Новгородском государственном университете имени Ярослава Мудрого

Научный руководитель:

доктор технических наук, профессор Емельянов Геннадий Мартинович

Официальные оппоненты:

доктор технических наук, профессор Геппенер Владимир Владимирович кандидат технических наук, доцент Самаров Валерий Иванович

Ведущая организация: Научно-исследовательский институт прикладной математики и кибернетики при Нижегородском государственном университете им Н И Лобачевского

Защита состоится «г! » декабря 2005 г в_часов на заседании диссертационного совета

Д 212 168 04 при Новгородском государственном университете имени Ярослава Мудрого (173003, Россия, г. Великий Новгород, ул Б Санкт-Петербургская, 41)

С диссертацией можно ознакомиться в библиотеке университета

Автореферат разослан « ноября 2005 г.

Ученый секретарь диссертационнорэ^, Доктор физико-математических наук,

совета Д 212.168.04 / профессор Эминов С.И

РОС. НАЦИОНАЛЬНАЯ I библиотека |

Общая характеристика работы Актуальность работы

Компьютерное зрение - это пограничная область знаний. И как всякая пограничная область она интересна для изучения и непредсказуема; здесь часто нет авторитетов, на которых можно сослаться - многие полезные идеи не имеют под собой теоретической основы, а некоторые теории бесполезны на практике; изученные области весьма различаются, и часто кажется, что всякая связь между ними отсутствует.

Зрение же вообще снабжает нас поразительно большим объемом информации о том, что окружает, и дает возможность свободно взаимодействовать с внешним миром, причем все это без непосредственного физического контакта. Благодаря ему мы узнаем расположение объектов, идентифицируем их, соотносим их друг с другом и потому ощущаем значительное неудобство, если лишены этого чувства. Неудивительно, что с появлением электронных вычислительных машин человек пытается научить компьютер «видеть».

«Компьютерное зрение» - это вид деятельности, в котором для извлечения данных применяются статистические методы и используются модели, построенные с помощью геометрии, физики и теории обучения.

Компьютерное зрение применяется довольно широко как в относительно старых областях (например, управление мобильными роботами, промышленные средства наблюдения, военные приложения), так и в сравнительно новых (взаимодействие человек/компьютер, поиск изображений в цифровых библиотеках, анализ медицинских изображений и реалистичная передача смоделированных сцен в компьютерной графике).

Компьютерное зрение сейчас находится в особой точке своего развития. Эта тема стала популярной еще в 1960-х, но только недавно появилась возможность создания полезных компьютерных программ, использующих идеи компьютерного зрения, поскольку компьютеры и программы обработки изображений стали доступны большому количеству пользователей.

Несмотря на многолетние исследования и значительные достижения в этой области, проблема построения полноценной системы компьютерного зрения, способной надежно и в нужном темпе работать в реальном пространстве (пусть при некоторых адаптированных условиях), остается пока нерешенной, и на ней сконцентрированы в настоящее время усилия ряда коллективов и отдельных исследователей в разных странах.

Эта проблема чрезвычайно сложна и многопланова. Она включает в себя технические, алгоритмические, математические, физические и психологические аспекты, а также большое количество отдельных задач и подходов к их решению в рамках каждого их этих аспектов.

Обособленной и очень важной задачей при моделировании систем компьютерного зрения является работа с текстурами.

Текстура - это широко распространенное явление, которое легко распознать, но которому сложно дать определение. Как правило, относится эффект к текстуре

или нет, - зависит от масштаба, при котором он рассматривается. Листок, занимающий почти все изображение - это объект, но листва дерева - это текстура. С текстурой, как правило, связываются три основные задачи.

1) Сегментация текстуры - это задача, которая состоит в разбиении изображения на участки с постоянной текстурой. Сегментация текстуры включает в себя как представление текстуры, так и вычисление базиса, в котором будут определяться границы сегментов.

2) Синтез текстуры служит для создания больших текстурных изображений из маленьких элементов изображений. Это делается с помощью пробных изображений, по которым строятся вероятностные модели текстуры, а затем эти вероятностные модели применяются для создания изображений с текстурой.

3) Определение формы по текстуре состоит в восстановлении ориентации поверхности или ее формы по текстуре изображения. Это можно сделать, допустив, что текстура «выглядит одинаково» в различных точках поверхности, т.е. изменение структуры от одной точки к другой может быть ключом к поверхности.

В данной диссертационной работе концентрируется внимание на задаче текстурной сегментации, решаемой с помощью системы компьютерного зрения.

Процесс текстурной сегментации можно разделить на несколько этапов:

• этап формирования из исходного изображения набора особенностей (характерных признаков), образующих многомерное пространство признаков изображения, каждый вектор которого характеризует особенности определенной текстуры

• этап классификации, на котором каждая точка изображения соотносится с определенным классом, на основе оценки вектора признаков, соответствующего этой точке в пространстве признаков

• этап сегментации исходного изображения, основанный на информации полученной после классификации

Цель и задачи работы

Настоящая диссертационная работа посвящена разработке модели компьютерного зрения для задач текстурной сегментации.

Для достижения поставленной цели в работе решаются следующие основные задачи:

1. Разработка методов моделирования компьютерного зрения в задачах текстурной сегментации

2. Сравнительный анализ и разработка алгоритмов автоматической настройки фильтрационных каналов используемых в методах пространственно-частотной фильтрации

3. Разработка методики обучения нейросетевого классификатора

4. Разработка программного обеспечения компьютерного зрения в задачах текстурной сегментации

5. Проведение вычислительного эксперимента работы компьютерного зрения для сегментации текстурированных изображений

Методы исследования

При проведении исследований в работе использовались основные положения теории распознавания образов, методы компьютерной графики, теория нейронных сетей, методы теории обработки сигналов, методы математической статистики и теории вероятности.

Научная новизна

1. Предложен новый комплексный подход к решению задачи классификации текстур изображений, требующей многоэтапной обработки информации, который упрощает процедуры обработки данных и повышает их эффективность путем совместного использования методов пространственно-частотной фильтрации и нейронных сетей

2. Разработана многоканальная модель компьютерного зрения для текстурной сегментации, основанная на физиологических особенностях человеческого зрения

3. Впервые предложен алгоритм обучения нейросетевого классификатора с использованием метода цветовых гистограмм

4. В результате вычислительного эксперимента показано, что разработанный алгоритм текстурной сегментации обладает большей точностью распознавания, чем описанные в литературе аналоги

Практическая значимость и внедрение

Разработан и доведен до реализации метод решения задач компьютерного

зрения. Реализованные алгоритмы удовлетворяют требованиям и ограничениям, которые были сформулированы при постановке задачи.

Был разработан обучающий программный комплекс, который позволяет провести исследование каждого шага в работе предложенной модели.

Обучающий программный комплекс внедрен в учебный процесс НовГУ для специализации «Системы искусственного интеллекта».

Кроме того, по материалам диссертационной работы издано методическое пособие для студентов старших курсов специальностей «Программное обеспечение вычислительной техники» и «Интеллектуальные системы принятия решений».

Результаты проведенных исследований использовались в работе по гранту РФФИ № 99-01-00792.

Достоверность и эффективность

Достоверность полученных результатов подтверждается сериями вычислительных экспериментов с изображениями текстур из альбома Бродаца и натуральными цветными изображениями.

Эффективность подтверждается более качественной (процент ошибки сегментации меньше на 5-12 %) сегментацией, чем с использованием Байесо-вых алгоритмов сегментации.

Апробация работы и публикации

Основные положения и результаты диссертационной работы докладывались и обсуждались на Всероссийских научных конференциях «Математические методы распознавания образов (ММРО) -9», ММРО - 10, ММРО - 11 (Москва), международных конференциях «Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-5-2000) (Самара), «Распознавание - 2001» (Курск), «Математическое и программное обеспечение интеллектуальных систем» (МР718-2004) (Днепропетровск), научных семинарах НовГУ и опубликованы в 8 работах, список которых приводится в конце автореферата.

Структура и объем диссертации

Диссертационная работа состоит из введения, пяти глав, заключения и списка литературы, включающего 81 наименование. Основная часть работы изложена на 121 странице, содержит 61 рисунок и 1 таблицу.

Содержание работы

Во введении обоснована актуальность темы диссертации, определены научная новизна и практическая ценность работы, сформулированы цель и основные задачи исследований, приведено краткое описание структуры диссертации.

В первой главе рассматриваются общие положения в моделировании систем компьютерного зрения. Приводятся результаты исследований механизмов и теоретических концепций восприятия текстуры человеком. Рассматриваются психофизиологические законы и особенности восприятия изображений человеком.

Подход «многоканальная фильтрация» является следствием теории многоканальной фильтрации для обработки зрительной информации на начальных этапах восприятия в системах человеческого зрения.

Показано, что при многоканальной фильтрации для анализа текстуры можно использовать простые статистики значений интенсивностей в отфильтрованных изображениях в качестве признака текстуры. Такая простота есть прямой результат декомпозиции исходного изображения на несколько отфильтрованных изображений с ограниченной спектральной информацией.

Предложена модель многоканальной системы текстурной сегментации, основанная на человеческом восприятии:

Рисунок 1. Многоканальная система текстурной сегментации.

В разделе 1.1 показана целесообразность использования фильтров Габора и цветовой системы Н8В (цвет, насыщенность, яркость).

В разделе 1.2 проводится анализ методов настройки фильтров Габора с помощью фиксированного набора частот и с помощью специально отобранных параметров фильтров.

В разделе 1.3 описана работа одноканальной модели компьютерного зрения.

На входе имеется исходное изображение, состоящее из регионов с различными текстурами, которое сначала фильтруется префильтром Габора. Пре-фильтр представляет собой полосовой фильтр Габора с некоторой полосой пропускания и центральной частотой. Затем префильтрованное изображение подвергается нелинейной обработке, в результате чего находится модуль ком-плексозначного выхода префильтра. На последнем этапе применяется Гауссо-вый постфильтр для понижения колебаний в огибающей префильтрованного изображения.

Рисунок 2. Структурная схема одноканальной системы.

В разделе 1.4 предложена архитектура многоканальной системы компьютерного зрения

Рисунок 3. Структурная схема блока многоканальной фильтрации.

В разделе 1.5 приводятся оценки вычислительной сложности при настройке фильтров Габора.

Во второй главе рассматривается метод настройки одноканального фильтра Габора для сегментации множественного числа текстур. Подход, который используется для отбора оптимальных параметров фильтра, основывается на вычислении ожидаемой ошибки сегментации.

Рассматривается модель текстуры, пропущенной через фильтр Габора, и связанная с ней спектральная модель для исходной (не фильтрованной) текстуры. Используя эти модели и два различных масштаба огибающей фильтра Габора, находится отношение между энергетическим спектром текстуры и параметрами, которые задают Райсову функцию распределения вероятностей на выходе префильтра.

На основе предсказанных Райсовых статистик на выходе префильтра предсказываются выходные статистики постфильтра и для каждого предварительного фильтра рассчитываются оптимальные пороги сегментации и соответствующая ошибка сегментации на выходе постфильтра. Настройка фильтра состоит в отборе соответствующих параметров фильтра, при которых была достигнута минимальная предсказанная ошибка.

В разделе 2.2 описывается модель Райса, так как выходные статистики фильтра Габора могут быть смоделированы с помощью распределения Райса.

Текстура на выходе префильтра Габора со случайными искажениями может быть смоделирована как

= = [(А соф)+ Х(х))+ у(А зт(0)+ у{х))У'М

(1)

где А о есть амплитуда доминантной синусоидальной компоненты отфильтрованной неискаженной текстуры. Частота синусоиды есть и. Х(х) и У(х) представляют собой независимые, с нулевым средним значением, низкочастотные Гауссовые процессы благодаря искажениям в рассматриваемой текстуре.

Изображение, пропущенное через фильтр Габора можно представить как модель в виде комплексной экспоненты и полосового шума. Расширяя полученный результат до двумерного случая, получим следующую модель: 8

1ш(х,у)~ *,(х,у)+ п,{х,у) = + п,(х,у)

где я,(х,у) вышеупомянутая синусоидальная компонента, п,(х,у) обозначает шумовую составляющую, а нижний индекс г обозначает, что это отфильтрованное изображение для текстуры

Значение комплексного сигнала ц,(х) имело распределение Райса р[т) в случае, когда п,(х,у) представляет собой узкополосный Гауссовый шум:

/ ч 2т (т2 + Д2 V {2тА,

(3)

где те т(х,у), А, есть амплитуда комплексной экспоненты для текстуры а Ы, является общей мощностью полосового шума, и /„(•) есть модифицированная функция Бесселя первого рода нулевого порядка. Это распределение полностью задается значениями А, и Л?,.

В разделе 2.3 производится оценивание параметров распределение Райса. В разделе 2.4 рассматриваются методы пост-обработки изображения, пороговой классификации и оценивание ошибки сегментации. Сначала, исходя из выходной статистики префильтра, оценивается выходная статистка постфильтра. Затем вычисляются оптимальные пороги сегментации и оцениваются соответствующие ошибки сегментации, используя выходную статистику постфильтра. Оптимальные значения параметров префильтра и постфильтра подбираются так, чтобы получилась минимальная ошибка.

Под процессом пост-обработки будет пониматься пространственное сглаживание независимых выходных значений постфильтра т(х,у). Матожида-ние цр() и дисперсию .<;/(.) можно приближённо представить как:

цДи.у,^)* ц^и^а*,),

где

2

( + Л' )\2 N У N \2/У )]*

(4)

где (и, V, сг- параметры предварительного префильтра

В разделе 2.5 оценивается эффективность вычислений при настройке фильтра Габора.

В разделе 2.6 обобщены результаты исследований по настройке одноканально-го фильтра Габора. Получены аналитические зависимости между параметрами распределения Райса, что позволило избавиться от трудоемких расчетов мато-жидания и дисперсии.

В третьей главе предложена методика построения многоканальной фильтрационной системы, основанная на расширении одноканального тракта фильтров Габора.

В разделе 3.1 описываются проблемы при построении многоканальных систем, обосновано использование многомерного распределения Гаусса для создания вектора выходной статистики многоканальной системы. Многомерное распределение Гаусса даёт эффективную и результативную оценку ошибок при использовании расстояния Бхатгачария в разработке фильтров. В разделе 3.2 описывается многомерная Гауссовская статистическая модель для выходных данных постфильтров. Устанавливается аналитическая связь между образцами текстур, параметрами фильтров и ошибкой сегментации. В разделе 3.3 описывается применение расстояния Бхатгачария для оценки информативности признаков, подчиняющихся распределению Гаусса. Кроме того, существует связь между расстоянием Бхатгачария и верхней границей ошибки классификации для двух классов, или, в рассматриваемом случае, двух текстур. Более того, методика нахождения границы ошибки между двумя классами может быть распространена на произвольное число классов. Таким образом, расстояние Бхатгачария устанавливает связь между многомерной Гауссовой статистикой выходных данных каналов и ожидаемой ошибкой сегментации для нескольких текстур.

В разделе 3.4 описывается решение для оценки локализации границ между текстурами, которое заключается в том, что общая оценка ошибки складывается из ошибки классификации и ошибки локализации углов.

В разделе 3.5 описывается использование смешанного распределения при корректной локализации различных текстур.

В разделе 3.6 разрабатываются математические методы, которые устанавливают математическую связь между образцами текстур, параметрами фильтров и ошибкой сегментации в многоканальной системе.

В разделе 3.7 приводится алгоритм настройки многоканальной системы, который заключается в том, чтобы вычислить ожидаемую ошибку сегментации для всех комбинаций фильтров - кандидатов и выбрать среди них комбинацию с наименьшей ошибкой.

Основной проблемой при настройке фильтров является наличие огромного числа фильтров, поскольку рассчитать ошибку для всех возможных комбинаций фильтров очень сложно с точки зрения объёма вычислений. Поэтому используется метод прямого отбора для выбора фильтров. Данный метод также является «условно оптимальным», однако он приемлем с точки зрения вычислительной сложности, а экспериментальные данные подтверждают эффективность сегментации выбранными с помощью этого метода фильтрами.

Итоговый алгоритм настройки многоканальной системы выглядит так: Пусть имеется на входе /^текстур ^(х,у) ¡=1,...Л'.:

1. Выбирается небольшой набор префильтров-кандидатов <тг. Типичными наборами являются^ = {2,4,8,16} или= {3,6,12}.

Для каждого значения ug из набора Eg определяется набор предварительных центральных частот (u,v)e Yr Это позволяет уменьшить набор частот для широких полос пропускания у небольших ag. Все частоты находятся в окружности ближайшей дискретной частоты.

Для каждой полосы пропускания префильтра (agy), их центральные частоты определяются как:

<05.с»0ДЦ±2,

О 5,с = 0,1,2, >

Где Уу - набор предварительных центральных частот префильтров, зависящих от коэффициента масштабирования огибающей <твт. Параметр постфильтра орп также подбирается в зависимости от параметра овг, поскольку было бы логично изменять ширину полосы пропускания постфильтра пропорционально полосе соответствующего префильтра.

3. Выбираются несколько предварительных коэффициентов масштабирования Хе А, которые устанавливают связь между префильтром ар и постфильтром

В соответствии с apvy =

, где A.v s А = { | к = 1,2,...пр } где пр

количество возможных полос пропускания, или Л={1.5,2}.

Обычно это бывают Л—{1.5}

4. Составляется множество Уфильтров - кандидатов.

'l

L

JLre A I)

5. Вычисляется автокорреляции R,(u,v) для каждой текстуры t, из выборки N.

6. Вычисляется P/u.v.crg) для каждого t, и <JgeEg.

7. Устанавливаются параметры Раиса A2(u,v,aa) (3.26) и N2(u,v,<Ta) для всех Л/xjV дискретных пространственных частот (u,v), соответствующих изображению N*N, и каждому префильтру - кандидату crge£g.

8. С помощью параметров Райса вычисляется матожидание figl(u,v, ag0) и дисперсию sg,2(u,v, (Tga) выхода префильтра, для всех дискретных центральных частот и для каждого префильтра &ge£g.

9. Вычисляется матожидание /.ipl(u,v, agJ и sp2(u,v,<jga,ap) выхода постфильтра, имеющего Гауссовое распределение, при всех дискретных центральных частотах соответствующего префильтра, для всех префильтров crge£g, и постфильтров ЛеЛ. Эти матожидания и дисперсии используются соответственно как компоненты вектора матожиданий //, и ковариационной матрицы С,

10.На данном шаге алгоритма следует переход от методов настройки одиночных фильтров к векторным. Первый фильтр настраивается путём выбора лучшего фильтра &i из множества У. Полная ошибка е используется как критерий отбора.

11.Последовательно составляется комбинация фильтров.

12. Шаг 11 повторяется до тех пор, пока не достигнуто желаемое число каналов фильтрации к, или пока оценка общей ошибки сегментации е, не опустится ниже пороговой величины. Экспериментально установлено, что порог ошибки, является оптимальным.

В четвертой главе рассматриваются самоорганизующиеся карты Кохонена в качестве классификаторов, методы их настройки и обучения. Предложен алгоритм обучения нейронного классификатора на основе карпы Кохонена с использованием методов компьютерной графики. Разработан алгоритм текстурной сегментации с использованием раскрашенного нейронного классификатора.

В разделе 4.1 рассматриваются топология самоорганизующихся карт Кохонена, алгоритмы их обучения.

В разделе 4.2 приводятся рекомендации по выбору параметров обучения карты Кохонена.

В разделе 4.3 рассматриваются разработанные алгоритмы текстурной сегментации с применением карт Кохонена.

Карта Кохонена обладает рядом исключительных свойств, позволяющих применить ее в системе компьютерного зрения, в первую очередь для классификации данных. Первое свойство карты Кохонена состоит в том, что каждый вектор из многомерного входного пространства проецируется в определенную точку карты, имеющей намного меньшую размерность (обычно это одно- или двухмерные карты). Следовательно, карта Кохонена позволяет спроецировать многомерное пространство в пространство много меньшей размерности. Второе свойство заключаются в том, что вектора, схожие в исходном пространстве, находятся рядом и на карте. А значит, самоорганизующаяся карта Кохонена производит классификацию входных векторов. Карта представляет собой пространство невысокой размерности, что позволяет легко визуализировать результат. Более того, когда размещение нейронов закончено карта может быть отображена. Это свойство карты позволяет произвести не только классификацию входных данных из пространства признаков, но и в рассматриваемом случае выполнить сегментацию исходного текстурного изображения.

После окончания процесса обучения карта Кохонена становится способной классифицировать входные данные. Значения векторов весов карты после обучения замораживаются. При подаче на вход обученной карты вектора данных побеждает только один нейрон, вектор весов которого ближе всех находится к входному вектору, в смысле выбранной метрики. Значение выхода нейрона-победителя устанавливается равным 1, для остальных нейронов значение выходов будут равны 0. На основе данного факта, можно провести классификацию, используя следующий алгоритм.

Алгоритм обучения карты Кохонена с помощью раскрашивания методом цветовых гистограмм

Обучаюише Label Map

Лаяние

Рисунок 4. Процесс «раскрашивания» обученной карты Кохонена.

Алгоритм классификации данных, используя самоорганизующуюся карту Кохонена, заключается в следующем:

1. Одно из достоинств карты Кохонена является возможность визуализации результатов обработки данных. Классификация данных основывается на разделении поверхности карты на области, соответствующих определенной группе данных, т.е. производится раскрашивание поверхности карты, где каждому классу данных соответствует свой определенный цвет. Чтобы можно было осуществить разметку карты, для каждого нейрона организуются счетчики классов, по числу известных классов исходного изображения.

2. Затем, изображения признаков, полученные в результате процесса выделения набора признаков текстур из исходного обучающего изображения, осуществляемой с помощью многоканальной фильтрации, рассмотренной ранее, используются для раскрашивания поверхности карты (рис. 4).

3. При предъявлении на вход карты вектора признаков, определяющего конкретную точку исходного изображения, происходит активация только одного нейрона - нейрона-победителя. Так как, в этом случае используется изображение, применявшееся для обучения, нам априорно известно какому классу (или какой текстуре) соответствует данный вектор. Следовательно, данный нейрон-победитель, представляющий проекцию этого вектора признаков из многомерного пространства признаков в пространство карты, является представителем данного класса данных в пространстве карты Кохонена.

4. В силу того, что количество нейронов намного меньше количества векторов признаков, схожие вектора будут вызывать активацию одного и того же нейрона. Наличие корреляции между текстурами приводит к тому, что при предъявлении векторов, соответствующих разным классам (текстурам), может произойти активация одного и того же нейрона, т.е. этот нейрон-победитель будет

13

представлять в пространстве карты как данные одного класса, так и данные другого класса. Поэтому, для каждого нейрона организуются счетчики класса. 5. Далее на вход карты подается последовательно, один за другим, весь обучающий набор векторов признаков. Каждый раз, когда соответствующий нейрон становится победителем в конкурентной борьбе за предъявленный вектор, значение его счетчика соответствующего этому вектору класса увеличивается на единицу. После предъявления всего набора векторов, каждый нейрон карты получает метку класса (цвет), соответствующую классу с наивысшим значением счетчика этого нейрона (рис. 5).

■ • число мМ леираяв мри «ргЛммщм Ьлнпых I текстуры Ш - число побед кейрояв при пр<*ъя*м»мш 4«««кг 2 текстуры Ж - исм яаЫ н*жрояв трш яр**мыли Дают их 3 текстуры

Рисунок 5. Назначение меток класса для каждого нейрона, и формирование областей на поверхности карты, соответствующих классам данных

В результате, поверхность карты будет иметь определенную топологическую раскраску, другими словами, пространство, занимаемое определенным классом исходных данных, проецируется в определенную область пространства карты.

Возможность визуализации процесса классификации данных картой Ко-хонена, позволяет очень просто произвести оценку эффективности разделения данных и качество карты. Если раскрашенная поверхность карты состоит из отдельных равномерных областей определенного цвета, то это говорит о хорошей классификации данных. Если же карта имеет вид сильно перемешанных цветовых областей небольшого размера, следовательно, такая карта при классификации не сможет эффективно разделить данные.

Можно также рассмотреть и значение надежности нейрона при классификации данных, представляющее собой отношение значения счетчика соответствующего класса к общему числу побед данного нейрона.

Было показано, что карта Кохонена обладает свойством обобщения входных данных и возможностью отображения. Если теперь на вход карты подать какой-нибудь вектор, то цвет нейрона-победителя укажет класс, к которому принадлежит этот вектор. Следовательно, на основе результатов классификации исходных данных и сопоставлении каждой текстуре определенного класса, может быть произведена сегментация изображения.

Алгоритм текстурной сегментации с помощью раскрашенной карты Кохонена 14

Как было отмечено, если на вход карты Кохонена подается вектор из пространства признаков исходного текстурного изображения, то по цвету нейрона-победителя можно определить к какому классу (или текстуре) принадлежит данный вектор. Так как этот вектор в пространстве признаков, однозначно определяется конкретной точкой исходного изображения, следовательно, эта точка будет принадлежать к классу, указанному картой Кохонена, т.е. производится процесс отображения На основании этого можно произвести сегментацию исходного текстурного изображения по следующей схеме (рис. 6).

тобрамеение

Рисунок 6. Процесс сегментации текстурного изображения, используя карту

Кохонена

1. Исходное текстурное изображение обрабатывается многоканальным фильтром Габора. На выходе каждого канала формируется изображение характерных признаков. Эти изображения признаков образуют многомерное пространство признаков. Соответственно, каждая точка исходного текстурного изображения представляется в пространстве вектором признаков.

2. Совокупность всех точек текстурного изображения определяет набор векторов признаков. Этот набор подается на вход карты Кохонена, вектор за вектором.

3. Каждый поданный вектор вызывает активацию определенного нейрона. Этот нейрон-победитель имеет определенный цвет на поверхности классифицированной карты Кохонена, определяющий класс (или текстуру), к которому принадлежит данный вектор.

4. Так как поданный вектор однозначно определяет точку исходного изображения, то, следовательно, эта точка, принадлежит к тому же классу (или текстуре), что и вектор признаков.

5. Когда определен класс (или текстура), к которому принадлежит точка исходного изображения, этой точке назначается цвет, соответствующий этому классу.

6. В результате такой обработки всего набора векторов признаков получается сегментированной изображение, в котором каждый сегмент определенного цвета соответствует определенной текстуре в исходном изображении с учетом ошибки классификации.

В разделе 4.4 обобщены результаты проведенных исследований с картой Кохо-нена.

При обработке изображения фильтром Габора, фазовая характеристика изображения не используется. Следовательно, информация о положении тек- *

стур в исходном изображении относительно друг друга при обработке не используется, и не играет особой роли в конечном результате. Получается, что формируемое пространство признаков не зависит от фазы изображения (т.е. от расположения текстур в исходном изображении).

Одно из главных свойств нейронных сетей, в том числе и карты Кохоне-на, состоит в способности к обобщению. Т. е. хорошо натренированная карта Кохонена будет правильно классифицировать и те данные, которые не были предъявлены ей в процессе обучения. Единственное условие состоит в том, что эти данные должны принадлежать тому же множеству, что и обучающие

Следовательно, разработанная система компьютерного зрения, состоящая из многоканального фильтра Габора и самоорганизующейся карты Кохонена, сможет произвести сегментацию текстурного изображения, состоящего из тех же текстур, что и обучающее изображение, но с другим любым взаимным расположением и размером этих текстур.

В пятой главе моделируется работа системы компьютерного зрения для задач текстурной сегментации и показана эффективность системы, использующей объединение методов пространственно-частотной фильтрации и нейронных сетей.

В разделе 5.1 указывается, что моделирование проводилось с помощью разработанного автором программного обеспечения в среде Delphi и MathLab.

В качестве исходных текстур были взяты текстуры из альбома текстур Бродаца. Текстуры из этого альбома, используемые в данной работе, имели размер 256x256 пикселей и число градаций серого цвета 8 разрядов.

В качестве натуральных изображений были использованы любительские цветные фотографии, сделанные цифровой камерой.

В разделе 5.2 показана работа одноканального фильтра.

20 40 60 во М0120

20 40 00 ВО 100120

20 40 во 00 100120

20 40 Ш ВО 11» 130

30 40 вО SO 100130

Рисунок 7. Результаты для оптимальной центральной частоты (и,У) = (0.1328, 0.2734)

(а) исходное изображение из текстур 021, Э16 и 077; (Ь) выход пре-фильтра т(х,у), аг = 2; (с) выход постфильтра тр(х,у), ар = 4; (с1) предсказанная ошибка сегментации; (е) сегментация после префильтра; (5) сегментация после постфильтра

pdf(a)

pdf(b)

Рисунок 8. Гистограммы отфильтрованных изображений на рис. 7: (а) гистограмма предсказанная (пунктир) и полученная (сплошная) т(х,у) (Ь) гистограмма предсказанная (пунктир) и полученная (сплошная) тр(х,у)

Рисунок 9. Ошибка сегментации на выходе постфильтра тр(х,у), Егт = 8.4595 %

17

В разделе 5.3 приводится сравнительная работа Байесовского и нейросетевого классификатора.

20 40 60 80 100 120 20 40 60 30 100 120

Рисунок 10. Исходное изображение из текстур D16, D77 и D34 и соответствующий выход префильтра тр(х,у)

х a so ао к» ш х л ее ва wo ix

Рисунок 13. Результат сегмента- Рисунок 14. Результат сегментации изображения на рис. 10 с помощью ции изображения на рис. 10 с Байесова классификатора, ошибка помощью нейросетевого класси-10,2%. фикатора, ошибка 8,7%.

В разделе 5.4 приводится пример работы классификатора с учетом цветовой плоскости Н для сегментации натурального изображения.

цр.

Рисунок 15. Исходное натуральное изображение.

Для повышения быстродействия разработанной системы компьютерного зрения декомпозируем исходное изображение на ряд прямоугольных изображений, но меньших по размеру. Рассмотрим один из полученных прямоугольников в качестве образца для обучения нейронной сети.

Рисунок 16. Подготовленный пример для обучения классификатора.

Подготовим разметку образца и выделим из образца цветовую плоскость в системе НБВ:

Рисунок 17. Разметка подготовленного примера.

Рисунок 18. Цветовая плоскость Н подготовленного примера.

Для подготовленного примера выделим две текстуры из исходного изображения:

(а) (Ь)

Рисунок 19. Выделенные текстуры: (а) «гора» (Ь) «небо».

100 200 300

(я)

«Ч

100 200 300 (Ь)

100 200 300 (С)

100 200 300

(е)

100 200 300 «

Рисунок 20. Результат для найденных оптимальных центральных частот (а) исходное изображение с текстурами «гора» и «небо»; (Ь) выход префильтра т(х,у), (с) выход постфильтра тр(х,у), (ф предсказанная ошибка сегментации; (е) сегментация после префильтра; (0 сегментация после постфильтра, ошибка = 33.5%

60 100 150 200 260 300 Э50 400 450 500

Рисунок 21. Результат сегментации изображения на рис. 16 с помощью нейросетевого классификатора и учета цветовой плоскости, ошибка 7,4%.

В разделе 5.5 показан Пример работы разработанных алгоритмов при задаче поиска и выделении заданного объекта на изображениях.

Рисунок 22. Результат работы системы компьютерного зрения при поиске текстуры: (а) исходное изображение (Ь) выделение найденной текстуры «тра-

В разделе 5.6 обобщены результаты проведенных вычислительных экспериментов и сделаны соответствующие выводы.

Всего было проведено несколько сотен экспериментов с различными изображениями и при различных комбинациях составных частей системы компьютерного зрения. Выводы, подтверждающие теоретические выкладки можно сформулировать следующим образом:

1. Разработанная система компьютерного зрения способна решать задачи текстурной сегментации для натуральных (окружающего мира) изображений, что подтверждается многочисленными экспериментами с текстурами из альбома Бродаца и с самими натуральными изображениями.

2. Многоканальный блок фильтрации позволяет делать более точную сегментацию, в отличие от одноканального фильтра.

3. Нейросетевой классификатор на базе карт Кохонена дает выигрыш в точности сегментации в среднем на 5-12% по сравнению с Байесовским.

4. Применение цветовой плоскости Н при сегментации определенного вида изображений (цветные, натуральные) может повысить точность распознавания в несколько раз.

5. Выбранная архитектура системы компьютерного зрения показала свою эффективность при решении различных задач по сегментации. В частности, возможно использовать одни и те же механизмы для задач текстурной сегментации, семантической сегментации и поиска необходимого объекта на изображении.

В заключении обобщаются основные результаты проведенных автором исследований и разработок, сформулированы основные выводы по работе в целом, намечены пути дальнейшего исследования в направлении совершенствования разработанной системы компьютерного зрения с использованием математического аппарата искусственных нейронных сетей для сегментации и классификации натуральных изображений, для чего провести работы, касающиеся:

ва».

1. Автоматического определения количества классов на входном изображении

2. Обучения нейронных сетей для классификации натуральных изображений в случае плавающей размерности входного вектора данных

3. Связи обученной нейросети с семантическим анализатором текста для семантической сегментации

4. Формирования обучающих выборок из реального мира для самообучения нейронных сетей.

Основные результаты диссертационной работы

1. Предложена модель многоканальной системы компьютерного зрения для текстурной сегментации, основанная на физиологических особенностях человеческого зрения

2. Разработан алгоритм автоматической настройки фильтрационных каналов оЬстемы компьютерного зрения

3. Разработан алгоритм обучения нейросетевого классификатора на базе самоорганизующихся карт Кохонена с использованием метода цветовых гистограмм

4. Разработан алгоритм текстурной сегментации натуральных изображений с применением цветовой плоскости

5. Создано программное обеспечение, реализующее модель компьютерного зрения в задачах текстурной сегментации и распознавании образов

6. Показана эффективность применения алгоритмов разработанной модели при решении задач сегментации текстурированных изображений и распознавания образов при объединении двух подходов: пространственно -частотной фильтрации и нейронных сетей

Список опубликованных работ по теме диссертации

1. Цымбал Д.А., Емельянов Г.М. Использование фильтров Габора и самоорганизующейся карты признаков Кохонена для текстурной сегментации // Доклады IX Всероссийской конференции Математические методы распознавания образов (ММРО-9). Москва, 1999г. Стр. 240-242.

2. Цымбал Д.А., Емельянов Г.М., Разумов Д.В. Алгоритм текстурной сегментации с помощью раскрашенной карты Кохонена и фильтров Габора // Доклады XI Всероссийской конференции Математические методы распознавания образов (ММРО-11). Москва, 2003. Стр. 476-481.

3. Цымбал Д.А., Емельянов Г.М., Сергеев А.Н. Вейвлет-преобразования для подготовки банков фильтров в моделях многоканальных систем для текстурной сегментации // Доклады X Всероссийской конференции Математические методы распознавания образов (ММРО-Ю), Москва 2001

4. Цымбал Д.А., Емельянов Г.М., Чеботарев Д.В., Сергеев А.Н. Алгоритм многоканальной текстурной сегментации (фильтры Габора) // 5-я международная конференция «Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-5-2000). Труды конференции. Том 2. Представление, анализ, обработка и понимание изображений. Самара 2000. стр. 403406.

5. Цымбал Д.А., Сергеев А.Н. Применение банков фильтров в моделях многоканальных систем для текстурной сегментации // Сборник материалов 5-ой международной конференции РАСПОЗНАВАНИЕ-2001, Часть 1. Курск 2001. стр. 52-53.

6. Цымбал Д.А., Фирсов А.Д. Моделирование зрительной системы человека при решении задач текстурной сегментации. Методическое пособие. Днепропетровск: 1МА-пресс, 2005. - 24с.

7. Цымбал Д.А., Фирсов А.Д. Текстурная сегментация при помощи фильтров Габора // Друга м1жнародна науково-практична конференщя Математичне та програмне забезпечення ¡нтелектуальних систем. Тези доповщей. Днтропетровьск: ДНУ, 2004. Стр.139.

8. Tsymbal D.A., Emelyanov G.M., Chebotarev D.V., and Sergeev A.N. An Algorithm of the Multichannel Texture Segmentation (Gabor Filters) // Pattern Recognition and Image Analysis, Vol. 11, No. 1, 2001, pp. 256-257

Зак №370 Услпл 1,5 Подписано в печать 11.11.05 Формат 60x84/16 Тираж 100 экз. Отпечатано ЗАО «Новгородский Технопарк» Лиц. ПЛД № 56-39. 173003, Великий Новгород, ул Б.С -Петербургская, 41 Тел (816 2) 62 78 83

р 2 4 9 7 8

РНБ Русский фонд

20ЩИ4 29924

Оглавление автор диссертации — кандидата технических наук Цымбал, Дмитрий Александрович

ВВЕДЕНИЕ.

ГЛАВА 1. Модель системы компьютерного зрения для задач текстурной сегментации.

1.1 Общие положения.

1.1.1 Фильтры в зрительной системе человека.

1.1.2 Цветовая модель.

1.1.3 Фильтры Габора.

1.2 Анализ существующих методов настойки фильтров Габора.

1.2.1 Фиксированный набор фильтров Габора.

1.2.2 Альтернативные методы настройки фильтров Габора.

1.3 Одноканальная модель.

1.4 Многоканальная схема.

1.5 Оценка вычислительной сложности настройки фильтров ГабораЗ

1.6 Выводы по главе 1.

ГЛАВА 2. Алгоритм настройки одноканального фильтра.

2.1 Постановка задачи.

2.2 Модель Райса.

2.3 Оценивание параметров распределения Райса.

2.4 Пост-обработка.

2.5 Эффективность вычислений.

2.6 Выводы по главе 2.

ГЛАВА 3. Многоканальный принцип построения.

3.1 Общие положения.

3.2 Многомерная Гауссовская статическая модель.

3.3 Расстояние Бхаттачария и граница ошибки.

3.4 Оценка ошибки локализации.

3.5 Смешанное распределение.

3.6 Многоканальные методы.

3.7 Алгоритм многоканальной настройки.

3.8 Выводы по главе 3.

ГЛАВА 4. Алгоритм текстурной сегментации с помощью нейросетевого классификатора.

4.1 Общие положения.

4.1.1 Самоорганизующиеся карты Кохонена.

4.1.2 Алгоритмы обучения карты Кохонена.

4.1.3 Алгоритм Кохонена.

4.2 Выбор параметров обучения карты Кохонена.

4.3 Использование карты Кохонена в системе компьютерного зрения для текстурной сегментации изображений.

4.3.1 Алгоритм обучения карты Кохонена с помощью раскрашивания методом цветовых гистограмм.

4.3.2 Алгоритм текстурной сегментации с помощью раскрашенной карты Кохонена.

4.4 Выводы по главе 4.

ГЛАВА 5. Моделирование системы компьютерного зрения для задач текстурной сегментации.

5.1 Общие положения.

5.2 Работа одноканального фильтра.

5.3 Работа различных классификаторов.

5.4 Пример работы классификатора с учетом Н-плоскости.

5.5 Пример использования разработанной системы компьютерного зрения при поиске текстуры на натуральном изображении.

5.6 Выводы по главе 5.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Цымбал, Дмитрий Александрович

Компьютерное зрение - это пограничная область знаний. И как всякая пограничная область она интересна для изучения и непредсказуема; здесь часто нет авторитетов, на которых можно сослаться - многие полезные идеи не имеют под собой теоретической основы, а некоторые теории бесполезны на практике; изученные области весьма различаются, и часто кажется, что всякая связь между ними отсутствует.

Зрение же вообще снабжает нас поразительно большим объемом информации о том, что окружает, и дает возможность свободно взаимодействовать с внешним миром, причем все это без непосредственного физического контакта. Благодаря ему мы узнаем расположение объектов, идентифицируем их, соотносим их друг с другом и потому ощущаем значительное неудобство, если лишены этого чувства. Неудивительно, что с появлением электронных вычислительных машин человек пытается научить компьютер «видеть». [14]

Компьютерное зрение» - это вид деятельности, в котором для извлечения данных применяются статистические методы и используются модели, построенные с помощью геометрии, физики и теории обучения.

Компьютерное зрение применяется довольно широко как в относительно старых областях (например, управление мобильными роботами, промышленные средства наблюдения, военные приложения), так и в сравнительно новых (взаимодействие человек/компьютер, поиск изображений в цифровых библиотеках, анализ медицинских изображений и реалистичная передача смоделированных сцен в компьютерной графике). [12] Компьютерное зрение сейчас находится в особой точке своего развития. Эта тема стала популярной еще в 1960-х, но только недавно появилась возможность создания полезных компьютерных программ, использующих идеи компьютерного зрения, поскольку компьютеры и программы обработки изображений стали доступны большому количеству пользователей.

Несмотря на многолетние исследования и значительные достижения в этой области, проблема построения полноценной системы компьютерного зрения, способной надежно и в нужном темпе работать в реальном пространстве (пусть при некоторых адаптированных условиях), остается пока нерешенной, и на ней сконцентрированы в настоящее время усилия ряда коллективов и отдельных исследователей в разных странах.

Эта проблема чрезвычайно сложна и многопланова. Она включает в себя технические, алгоритмические, математические, физические и даже психологические аспекты, а также большое количество отдельных задач и подходов к их решению в рамках каждого их этих аспектов.

Обособленной и очень важной задачей при моделировании систем компьютерного зрения является работа с текстурами.

Текстура окружает нас повсюду. Текстура присутствует в изображениях, в реальных и искусственных сценах наблюдения. За последние несколько десятилетий было предложено очень большое количество методов для анализа текстуры. Но бесчисленное разнообразие естественных и искусственных текстур делает невозможным дать универсальное определение текстуры.

Текстура - это широко распространенное явление, которое легко распознать, но которому сложно дать определение. Как правило, относится эффект к текстуре или нет, - зависит от масштаба, при котором он рассматривается. Листок, занимающий почти все изображение - это объект, но листва дерева - это текстура. Источников текстуры множество. Во-первых, изображения, состоящие из большого количества мелких предметов, лучше всего считать текстурой. В качестве примеров можно назвать траву, листву деревьев, гравий, шерсть, щетину. Во-вторых, многие поверхности покрыты правильными узорами, которые выглядят как большое количество мелких предметов. Примеры: пятна на шкуре животных, как у гепарда или леопарда; полосы как у тигра или у зебры, узоры на коре деревьев, древесине и коже. [12].

С текстурой, как правило, связываются три основные задачи.

Сегментация текстуры - это задача, которая состоит в разбиении изображения на участки с постоянной текстурой. Сегментация текстуры включает в себя как представление текстуры, так и вычисление базиса, в котором будут определяться границы сегментов.

Синтез текстуры служит для создания больших текстурных изображений из маленьких элементов изображений. Это делается с помощью пробных изображений, по которым строятся вероятностные модели текстуры, а затем эти вероятностные модели применяются для создания изображений с текстурой.

Определение формы по текстуре состоит в восстановлении ориентации поверхности или ее формы по текстуре изображения. Это можно сделать, допустив, что текстура «выглядит одинаково» в различных точках поверхности, т.е. изменение структуры от одной точки к другой может быть ключом к поверхности.

В данной диссертационной работе концентрируется внимание на задаче текстурной сегментации, решаемой с помощью системы компьютерного зрения.

Текстурная сегментация — это процесс разделения исходного изображения на однородные равномерные области, соответствующие определенным текстурам в изображении. [11] Объединение пикселей исходного изображения в отдельные однородные регионы осуществляется на основе некоторых специфических свойств пикселей, принадлежащих одной и той же текстуре.

Процесс текстурной сегментации можно разделить на несколько этапов:

• этап формирования из исходного изображения набора особенностей (характерных признаков), образующих многомерное пространство признаков изображения, каждый вектор которого характеризует особенности определенной текстуры;

• этап классификации, на котором каждая точка изображения соотносится с определенным классом, на основе оценки вектора признаков, соответствующего этой точке в пространстве признаков;

• этап сегментации исходного изображения, основанный на информации полученной после классификации.

На сегодняшний день разработано множество различных методов получения набора признаков из исходного изображения для дальнейшей классификации, основанных на различных характеристиках текстур. Все они могут быть разделены на четыре типа.

1. Статистические методы - методы, использующие корреляционные и ковариационные характеристики текстур.

2. Геометрические методы — двумерные соты Вороного и методы, использующие структурные характеристики текстуры.

3. Методы, использующие фрактальные параметры и случайные поля.

4. Методы, основанные на цифровой обработке сигналов — пространственно-частотная фильтрация и вейвлет-преобразования.

В данной работе для формирования пространства характерных признаков применен метод пространственно-частотной фильтрации. Рассмотрим принцип текстурного анализа изображения на основе фильтрации [5, 8]. входное изображение вектора признаков

Рисунок 1. Текстурный анализ изображения на основе фильтрации.

Сначала исходное изображение подвергается фильтрации (рис. 1). Для простоты, предположим, что фильтр высокочастотный (рис. 2), сигнал на рисунке (Ь) получен строчной разверткой изображения (а) образованного двумя текстурами. В результате получается сигнал (с), видно, что для левой текстуры отклик фильтра имеет малое значение энергии, а для правого большое. Однако если попытаться классифицировать каждый пиксель изображения, основываясь на реакции фильтра, то получится большая ошибка классификации, вследствие того, что некоторые значения энергии для отфильтрованной правой текстуры совпадают с левой.

Поэтому применяется локальное энергетическое преобразование, состоящее из нелинейной операции (<1), преобразующей отрицательные и положительные амплитуды в положительные (операция модуля или возведение в квадрат), и сглаживания (е).

В результате получается признаковое изображение (1), которое теперь с успехом может быть классифицировано.

В общем случае текстурный анализ строится по многоканальной схеме, чтобы уменьшить ошибку классификации, так как количество текстур в исходном изображении обычно больше двух.

Выходом нелинейного энергетического преобразования является набор признаковых изображений, по одному изображению на фильтр. Для классификации векторов, образующих пространство признаков, т. е. выделения групп или классов схожих векторов на основании выбранных особенностей, применяются различные подходы. Наибольшее распространение получили пороговые методы, методы, основанные на определении границ или областей, различные кластерные алгоритмы (например, метод /^-усреднений), подходы, основанные на оценке вероятностных характеристик, и различные классификаторы на основе нейронных сетей.

Применение нейронных сетей для решения задач классификации позволяет избежать сложных и громоздких расчетов при оперировании большими объемами многомерных данных. При решении задачи классификации с помощью нейронной сети необходимо выбрать подходящий тип сети и провести ее обучение с использованием набора обучающих данных. Одно из основных свойств нейронной сети заключается в ее способности к обобщению данных. Правильно и хорошо обученная сеть способна генерировать решения, сходящиеся к решениям, получаемым на основе других подходов [4, 10, 57].

Среди нейронных сетей существует целый класс самоорганизующихся нейронных сетей. Основу самоорганизации таких сетей составляет подмеченная закономерность, что глобальное упорядочение сети становится возможным в результате самоорганизующихся операций, независимо друг от друга проводящихся в различных локальных сегментах сети. В соответствии с поданными входными сигналами осуществляется активация нейронов, которые вследствие изменения значений их весов адаптируются к поступающим обучающим выборкам. В процессе обучения наблюдается тенденция к росту значений весов, из-за которой создается своеобразная положительная обратная связь: более мощные возбуждающие импульсы -более высокие значения весов - большая активность нейронов. При этом происходит естественное расслоение нейронов на различные группы.

В классе самоорганизующихся сетей выделяются сети особого типа, которые называются картами Кохонена или самоорганизующимися картами признаков [57, 58]. Карта Кохонена обладает рядом исключительных свойств, позволяющих применить ее для классификации данных. Первое свойство карты Кохонена состоит в том, что каждый вектор из многомерного входного пространства проецируется в определенную точку карты, имеющей намного меньшую размерность (обычно это одно- или двухмерные карты). Следовательно, карта Кохонена позволяет спроецировать многомерное пространство в пространство много меньшей размерности. Второе свойство заключаются в том, что вектора, схожие в исходном пространстве, находятся рядом и на карте. А значит, самоорганизующаяся карта Кохонена производит классификацию входных векторов. Карта представляет собой пространство невысокой размерности, что позволяет легко визуализировать результат. Более того, когда размещение нейронов закончено карта может быть отображена. Это свойство карты позволяет произвести не только классификацию входных данных из пространства признаков, но и в рассматриваемом случае выполнить сегментацию исходного текстурного изображения.

Цель работы

Разработка модели компьютерного зрения для задач текстурной сегментации, ее апробация и численное подтверждение ее эффективности.

Основные задачи, решаемые в диссертации:

1. Разработка методов моделирования компьютерного зрения в задачах текстурной сегментации (главы 1-3)

2. Сравнительный анализ и разработка алгоритмов автоматической настройки фильтрационных каналов (главы 2 и 3)

3. Разработка методики обучения нейросетевого классификатора (глава 4)

4. Разработка программного обеспечения для модели компьютерного зрения в задачах текстурной сегментации (глава 5)

5. Проведение вычислительного эксперимента на разработанной модели компьютерного зрения для сегментации текстурированных изображений (глава 5)

Методы исследования

При проведении исследований в работе использовались основные положения теории распознавания образов, методы компьютерной графики, методы теории нейронных сетей, методы теории обработки сигналов, методы математической статистики и теории вероятности.

Научная новизна

1. Предложен новый комплексный подход к решению задачи классификации текстур изображений, требующей многоэтапной обработки информации, который упрощает процедуры обработки данных и повышает их эффективность

2. Разработана многоканальная модель компьютерного зрения для текстурной сегментации, основанная на физиологических особенностях человеческого зрения

3. Впервые предложен алгоритм обучения нейросетевого классификатора с использованием метода цветовых гистограмм

4. В результате вычислительного эксперимента показано, что разработанный алгоритм текстурной сегментации обладает большей точностью распознавания, чем описанные в литературе аналоги

Практическая значимость

Разработаны и доведены до реализации методы решения нескольких актуальных задач компьютерного зрения. Реализованные алгоритмы удовлетворяют требованиям и ограничениям, которые были сформулированы при постановке задачи.

Был разработан обучающий программный комплекс, где можно провести исследование каждого шага в работе предложенной модели. Обучающий программный комплекс внедрен в учебный процесс НовГУ для специализации «Системы искусственного интеллекта».

Результаты проведенных исследований использовались в работе по гранту РФФИ № 99-01-00792.

Апробация работы и публикации

Основные положения и результаты диссертационной работы докладывались и обсуждались на Всероссийских научных конференциях «Математические методы распознавания образов (ММРО) -9», ММРО - 10, ММРО - 11 (Москва), международных конференциях «Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-5-2000) (Самара), «Распознавание - 2001» (Курск), «Математическое и программное обеспечение интеллектуальных систем» (МР218-2004) (Днепропетровск), научных семинарах НовГУ и опубликованы в работах [15-19,21,73].

По материалам диссертационной работы издано методическое пособие [20] для студентов старших курсов специальностей «Программное обеспечение вычислительной техники» и «Интеллектуальные системы принятия решений».

Структура диссертации

Диссертационная работа состоит из введения, пяти глав, заключения и списка литературы.

Заключение диссертация на тему "Многоканальная нейросетевая модель системы компьютерного зрения для задач текстурной сегментации"

Основные результаты работы можно сформулировать следующим образом:

1. Предложена модель многоканальной системы компьютерного зрения для текстурной сегментации, основанная на физиологических особенностях человеческого зрения

2. Разработан алгоритм автоматической настройки фильтрационных каналов системы компьютерного зрения

3. Разработан алгоритм обучения нейросетевого классификатора на базе самоорганизующихся карт Кохонена с использованием метода цветовых гистограмм

4. Разработан алгоритм текстурной сегментации натуральных изображений с применением цветовой плоскости

5. Разработано программное обеспечение, реализующее модель компьютерного зрения в задачах текстурной сегментации и распознавании образов

6. Показана эффективность применения алгоритмов разработанной модели при решении задач сегментации текстурированных изображений и распознавания образов при объединении двух подходов: пространственно — частотной фильтрации и нейронных сетей

Тем самым решены все поставленные задачи и цель настоящей работы достигнута.

Дальнейшие исследования по тематике диссертационной работы целесообразно провести в направлении совершенствования разработанной системы компьютерного зрения с использованием математического аппарата искусственных нейронных сетей для сегментации и классификации натуральных изображений, для чего провести работы, касающиеся:

1. Автоматического определения количества классов на входном изображении

2. Обучения нейронных сетей для классификации натуральных изображений в случае плавающей размерности входного вектора данных

3. Связи обученной нейросети с семантическим анализатором текста для семантической сегментации

4. Формирования обучающих выборок из реального мира для самообучения нейронных сетей.

ЗАКЛЮЧЕНИЕ

Библиография Цымбал, Дмитрий Александрович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Васильев В.Н, Гуров И.П. Компьютерная обработка сигналов в приложении к интерферометрическим системам — СПб.: БХВ — Санкт-Петербург, 1998. 240 с.

2. Галушкин А.И. Нейрокомпьютеры. Кн. 3 : Учеб. Пособие для вузов М.: ИПРЖР, 2000. - 528 с. (Нейрокомпьютеры и их применение)

3. Галушкин А.И. Теория нейронных сетей. Кн. 1 : Учеб. Пособие для вузов М.: ИПРЖР, 2000. - 416 с. (Нейрокомпьютеры и их применение)

4. Горбань А.Н., Россиев Д.А., Нейронные сети на персональном компьютере. Новосибирск: Наука. Сибирская издательская фирма РАН, 1996.-276 с.

5. Добеши И. Десять лекций по вейвлетам. — Ижевск: НИЦ Регулярная и хаотическая динамика, 2001, 464 с.

6. Дуда Р., Харт П. Распознавание образов и анализ сцен М.: Мир, 1976

7. Дьяконов В.П. Вейвлеты. От теории к практике. М.: СОЛОН-Р, -2002. 448 с.

8. Методы компьютерной обработки изображений / Под ред. Сойфера В.А. М.: Физматлит, 2001. - 784 с.

9. Нуссбаумер Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток: Пер. с англ. М.: Радио и связь, 1985. - 248 с.

10. Осовский С. Нейронные сети для обработки информации М.: Финансы и статистика, 2002. 344 с.

11. Прэтт У.К. Цифровая обработка изображений М.: Мир, 1982, 2т.

12. Форсайт Д., Понс Ж. Компьютерное зрение. Современный подход. : Пер. с англ. М.: Издательский дом «Вильяме», 2004 - 928 с.

13. Фукунага К. Введение в статистическую теорию распознавания образов: Пер. с англ. — М.: Наука. Главная редакция физико-математической литературы, 1979. 368 с.

14. Хорн Б.К.П. Зрение роботов: Пер. с англ. М.: Мир, 1989. - 487 с.

15. Цымбал Д.А., Емельянов Г.М., Разумов Д.В. Алгоритм текстурной сегментации с помощью раскрашенной карты Кохонена и фильтров Габора // Доклады XI Всероссийской конференции Математические методы распознавания образов (ММРО-11). Москва, 2003. Стр. 476-481.

16. Цымбал Д.А., Сергеев А.Н. Применение банков фильтров в моделях многоканальных систем для текстурной сегментации // Сборник материалов 5-ой международной конференции РАСПОЗНАВАНИЕ-2001, Часть 1. Курск 2001. стр. 52-53.

17. Цымбал Д.А., Фирсов А.Д. Моделирование зрительной системы человека при решении задач текстурной сегментации. Методическое пособие. Днепропетровск: 1МА-пресс, 2005. 24с.

18. Цымбал Д.А., Фирсов А.Д. Текстурная сегментация при помощи фильтров Габора // Друга м1жнародна науково-практична конференщя Математичне та програмне забезпечення штелектуальних систем. Тези доповщей. Дншропетровьск: ДНУ, 2004. Стр.139.

19. Anderson М. P., Brown D. G., and Loew М. Н., Evaluation of medical image compression by Gabor elementary functions // Proc. SPIE: Image Capture, Formatting, and Display, vol. 1444, p. 407, 1991.

20. Anderson M. P., Brown D. G., and Schneider A. C., Neural network image compression using Gabor primitives // in SPIE: Medical Imaging VI: Image Processing, vol. 1652, pp. 334 39, 1992.

21. Bovik A.C., Clark M., Geisler W.S., Multichannel texture analysis using localized spatial filters // IEEE trans. Pattern Anal. Machine Intell., 12, pp 55-73, 1990

22. Bovik A.C., Gopal N., Emmoth Т., and Restrepo A., Localized measurements of emergent image frequencies by Gabor wavelets // IEEE Trans. Inform. Theory, vol. 38, no. 2, pp. 691 711, Mar. 1992.

23. Brodatz P. Textures: A photographic album for artists and designers -NY: Dover, 1966.

24. Campbell F.W., Robson J.C. Application of Fourier analysis to the visibility of gratings, J.Physiol(London), vol. 197, pp. 551-566, 1968.

25. Chang T. and Kuo С. C. J., A wavelet transform approach to texture analysis // in IEEE ICASSP, vol. IV, pp. 661 664, 1992.

26. Chang T. and Kuo С. C. J., Texture analysis and classification with tree-structured wavelet transform // IEEE Trans. Image Proc., vol. 2, no. 4, pp. 429 441, Oct. 1993.

27. Chang T. and Kuo С. C. J., Tree-structured wavelet transform fortextured image segmentation I I in Proc. SPIE, vol. 1770, pp. 394 405, 1992.

28. Clark M. and Bovik A. C., Experiments in segmenting texton patterns using localized spatial filters // Pattern Recognition, vol. 22, no. 6, pp. 707-717, 1989.

29. Daugman J. G., High confidence visual recognition of persons by a test of statistical independence // IEEE Trans. Pattern Anal. Machine Intell., vol. 15, no. 11, pp. 1148 1160, Nov. 1993.

30. Daugman J.G. Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters, J. Opt. Soc. Amer. A, vol. 2, no.7, pp. 1160-1169, July 1985.

31. Dunn D. F., Designing Gabor Filters for Texture Segmentation. PhD thesis, Penn State, Aug. 1992.

32. Dunn D., Higgins W., and Wakeley J., 2-D analysis of Gabor-filter output signatures for texture segmentation // in Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, vol. Ill, pp. 65 68, 1992.

33. Dunn D., Higgins W., and Wakeley J., Determining Gabor-filter parameters for texture segmentation // in Proc. SPIE: Intell. Robots and Computer Vision, vol. 1826, pp. 51 63, 1992.

34. Dunn D., Higgins W., and Wakeley J., Texture segmentation using 2-D Gabor elementary functions // IEEE Trans. Pattern Anal, and Machine Intell., vol. 16, no. 2, pp. 130 149, Feb. 1994.

35. Dunn D., Higgins W., Maida A., and Wakely J., Texture boundary classification using Gabor elementary functions // in SPIE Proc. Visual Commun. Image Processing '91, vol. 1606, pp. 541 552, 1991.

36. Dunn D., Higgins W., Optimal Gabor filters for texture segmentation // IEEE Trans. Image Proc., vol. 4, no. 7, July 1995.

37. Dunn D., Higgins W., Optimal Gabor-filter design for texture segmentation // in Proc. IEEE Int. Conf. Acoust., Speech, Signal

38. Processing, vol. V, pp. 37 40, 1993.

39. Ebrahimi T. and Kunt M., Image compression by Gabor expansion // Optical Engineering, vol. 30, no. 7, pp. 873 80, July 1991.

40. Farrokhnia F. and Jain A.K. A multi-channel filtering approach to texture segmentation // Proc. IEEE Computer Vision an Pattern Recognition Conf. Maui, Hawaii, pp. 364-370, June 1991.

41. Faugeras O. D. and Pratt W. K., Decorrelation methods of texture feature extraction // IEEE Trans. Pattern Anal, and Machine Intell., vol. 2, no. 4, pp. 323 332, July 1980.

42. Fukunaga K., Introduction to Statistical Pattern Recognition. Academic Press, 1990.

43. Gabor D. Theory of Communications // Journal of the Institute of Electrical Engineers, 1946, Vol. 93, No. 22, P. 429-457.

44. Gonzalez R. C. and Woods R. E., Digital Image Processing. New York, NY: Addison-Wesley, 1992.

45. Jain A. K. and Bhattacharjee S., Text segmentation using Gabor filters for automatic document processing // Machine Vision and Applications, vol. 5, pp. 169 184, 1992.

46. Jain A., Vailaya A. Shape-based retrieval: a case study with trademark image databases // Pattern Recognition 31 (9), pp 1369-1390, 1998

47. Jain Anil K., et. al. Object detection using Gabor filters // Pattern Recognition. Vol. 30, No. 2, pp. 295-309, 1997.

48. Jain Anil K., Chen Yao Address Block Location Using Color and Texture Analysis CVGIP: Image Understanding, Vol. 60, No. 2, pp. 179-190, 1994.

49. Jain Anil K., Farrokhnia Farshid Unsupervised texture segmentation using Gabor filters Pattern Recognition. Vol. 24, No. 12, pp. 11671186, 1991

50. Jain Anil K., Karu Kalle Learning Texture Dicrimination Masks -IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.18, No. 2, pp. 195-204, 1996.

51. Julesz B. Textons, the fundamental element in preattentive vision and perception of textures, Nature, vol. 290, pp. 91-97, 1981.

52. Julesz B., Gilbert E. N., Shepp L. A., and Frisch H. L. Inability of humans to discriminate between visual textures that agree in second-order statistics revisited // Perception, vol. 2, pp. 391 405, 1973.

53. Kailath T., The divergence and Bhattacharyya distance measures in signal selection // IEEE Trans. Comm. Theory, vol. 15, no. 1, pp. 52 -60, Feb. 1967

54. Kakarala R. and Hero A. O., On achievable accuracy in edge localization // IEEE Trans. Pattern Anal, and Machine Intell., vol. 14, no. 7, pp. 777-81, July 1992.

55. Kohonen T. Self-organizing maps. Berlin: Springer Verglad, 1995

56. Kohonen T. The self organizing map // Proc. Of IEEE, 1990. Vol. 78. -Pp. 1464-1479

57. Kohonen T., Kangas J., Laakson J. SOMPAK, the self-organizing map program package. Technical report. Espoo, Finland, Helsinki: University of Technology, 1992

58. Leung M.-T., Engler W. E., and Frank P., Fingerprint image processing using neural network // in IEEE Reg 10 Conf. on Computer and Comm. Systems, Hong Kong, pp. 582 586, Sept. 1990.

59. Malik J. and Perona P., A computational model of texture segmentation // in IEEE Computer Soc. Conf. on Computer Vision and Pattern Rec., Rosemont, IL, pp. 326 332, 1989.

60. Malik J. and Perona P., Preattentive texture discrimination with early vision mechanisms // J. Opt. Soc. Amer. A, vol. 7, no. 5, pp. 923 932, May 1990.

61. Namuduri K. R., Mehrotra R., and Ranganathan N., Efficient computation of Gabor filter based multiresolution responses // Pattern Recognition, vol. 27, no. 7, pp. 925 937, 1994.

62. Orwell James, et. al. Towards Self-Organized Feature Maps from Gabor Filters Responses, 1997.

63. Porat M. and Zeevi Y., The generalized Gabor scheme of image representation in biological and machine vision // IEEE Trans. Pattern Anal. Machine Intell., vol. 10, no. 4, pp. 452 468, July 1988.

64. Press William H., et. al. Numerical recipes in C : the art of scientific computing Cambridge University Press, 1992. - 994 p.

65. Randen T., Husoy J.H. Novel approaches to multi-channel filtering for image texture segmentation // SPIE Visual Comm. Image. Proc. 1994, vol. 2094, pp. 626-636, 1994.

66. Randen Trygve, Husoy John H. Multichannel filtering for image texture segmentation Optical Engineering, Vol. 33, No. 8, pp. 26172625, 1994.

67. Rice S., Mathematical analysis of random noise // Bell System Tech. Journal, vol. 23, pp. 282 333, July 1944.

68. Rice S., Mathematical analysis of random noise // Bell System Tech. Journal, vol. 24, pp. 96 157, Jan. 1945.

69. Tagare H. D. and deFigueiredo R. J. P., On the localization performance measure and optimal edge detection // IEEE Trans. Pattern Anal, and Machine Intell., vol. 12, no. 12, pp. 1186 90, Dec. 1990.

70. Tan T. N. and Constantinides A. G., Texture analysis based on a human visual model // in IEEE ICASSP, vol. 4, pp. 2137 40, 1990.

71. Tsymbal D.A., Emelyanov G.M., Chebotarev D.V., and Sergeev A.N. An Algorithm of the Multichannel Texture Segmentation (Gabor Filters) // Pattern Recognition and Image Analysis, Vol. 11, No. 1, 2001, pp. 256-257

72. Weldon T. P., Higgins W. E., and Dunn D. F. Efficient Gabor filter design for texture segmentation // submitted to Pattern Recognition, 1994.

73. Weldon T. P., Higgins W. E., and Dunn D. F., Efficient Gabor filter design using Rician output statistics 11 1994 IEEE Int. Symp. Circuits, Systems, London, England, 30 May 2 June, vol. 3, pp. 25 - 28, 1994.

74. Weldon T.P. Multiresolution design of multiple Gabor filters for texture segmentation. Thesis in Electrical Engineering, Pennsylvania State University, 1995

75. Weldon T.P., Higgins W.E. Integrated approach to texture segmentation using multiple Gabor filters in Proc. IEEE Int. Conf. On Image Processing, Vol. Ill, (Lausanne, Switzerland), pp. 955-958, Sept. 1996.

76. Weldon T.P., Higgins W.E. Multiscale Rician approach to Gabor filter design for texture segmentation The Pennsylvania State University, to appear in Proc. ICIP 94, 1994.

77. Wilson R., Image Segmentation and Uncertainty. Wiley, 1988.