автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Инвариантный анализ двумерных сигналов

кандидата технических наук
Фам Чунг Зунг
город
Москва
год
2004
специальность ВАК РФ
05.12.04
цена
450 рублей
Диссертация по радиотехнике и связи на тему «Инвариантный анализ двумерных сигналов»

Автореферат диссертации по теме "Инвариантный анализ двумерных сигналов"

На правах рукописи

Фам Чунг Зунг ИНВАРИАНТНЫЙ АНАЛИЗ ДВУМЕРНЫХ СИГНАЛОВ

Специальность 05.12.04 - «Радиотехника, в том числе системы и устройства радионавигации, радиолокации и телевидения»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва - 2004

Работа выполнена на кафедре радиолокации и радионавигации Московского авиационного института (государственного технического университета).

Научный руководитель: доктор технических наук,

профессор Сосулин Ю.Г.

Официальные оппоненты: доктор технических наук

Чапурский В. В. кандидат технических наук, профессор Назаров О.П.

Ведущая организация: ОАО «НИИ приборостроения им. В.В.

Тихомирова»

Защита диссертации состоится «........»................2004г. в.......часов на

заседании диссертационного Совета Д 212.125.03 в Московском авиационном институте (государственном техническом университете).

С диссертацией можно ознакомиться в библиотеке МАИ.

Отзыв, заверенный печатью, просим направлять по адресу: 125993, ГСП - 3, А - 80, Москва, Волоколамское шоссе, д.4. Ученый Совет МАИ.

Автореферат разослан .................2004 г.

Ученый секретарь * л диссертационного Совета, доцент, к.т.н. ......М.И. Сычев.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Рассматриваемый в диссертационной работе двумерный сигнал -совокупность значений функции двух дискретных пространственных переменных (координат) на ограниченной прямоугольной области. Под анализом двумерных сигналов понимается отнесение наблюдаемого двумерного сигнала к одному из заранее описанных теми или иными средствами классов сигналов. Вопросы исследования задач анализа таких сигналов продолжают оставаться, безусловно, актуальными. Системы анализа двумерных сигналов используются в разнообразных областях, например, таких как обработка документов, медицина, автоматизация производства, локация, телевидение. В области анализа двумерных сигналов важное место занимает проблема обеспечения инвариантности анализа по отношению к сдвигу, масштабу и повороту двумерных сигналов. Это обширное направление, привлекает к себе интерес многих исследователей. Опубликовано большое число работ российских и зарубежных исследователей по созданию систем инвариантного анализа двумерных сигналов. Это работы А.И. Галушкина, Н.С. Томашевич, Д.С. Томашевич, А. Хотанзада, X. Розенбаха, Д. Касасента, Б. Уидроу, М. Фукуми и др. Существует три основных подхода к обеспечению инвариантности анализа сигналов. Первый из них связан с использованием большого набора обучающих образов, который достаточно полно отображает анализируемые сигналы во всех возможных ситуациях. Второй связан с предварительным преобразованием сигналов и формированием инвариантных признаков, используемых затем при анализе двумерных сигналов. И третий подход связан с созданием системы, в которой инвариантность признаков обеспечивается особой структурой системы анализа.

Из опубликованных работ следует, что большинство задач анализа двумерных сигналов требует высокой производительности и интеллектуализации вычислительных средств. Обычный компьютер (который действует в порядке очередности — компьютер Фон Неймана) это требование, как правило, не может обеспечить в условиях реального

распределенных и параллельных вычислительных средств - один из наиболее перспективных подходов. Важнейшие особенности таких средств, свидетельствующие о их широких возможностях и огромном потенциале, состоят в параллельной обработке информации всеми звеньями, в способности к обучению и обобщению накопленных знаний, в возможности их реализации с применением технологии сверхбольшой степени интеграции и в устойчивости к неисправностям, возникающим на некоторых звеньях. Исследование опубликованных работ также показало, что в области инвариантного анализа двумерных сигналов ряд проблем ещё не изучен или недостаточно изучен.

Цель и задачи работы

Целью диссертационной работы являются исследование показателей качества и эффективности процедур инвариантного анализа двумерных сигналов, функционирующих на основе различных принципов. Для достижения этой цели в работе решаются следующие задачи:

1) исследуется эффективность процедуры анализа «прямых» двумерных сигналов без формирования специальных признаков, обеспечивающих инвариантность к повороту двумерных сигналов;

2) исследуется эффективность процедуры анализа с использованием моментов Зернике и псевдо-Зернике;

3) изучается система анализа двумерных сигналов с использованием комбинации инвариантных «пластин» и трёхслойного персептрона (КИПТСП);

4) исследуется влияние уровня шума, количества обучающих образов, структуры и параметров трёхслойного персептрона (ТСП) на качество инвариантного анализа;

5) изучаются вопросы повышения эффективности анализа двумерных сигналов с помощью КИПТСП;

6) исследуется эффективность процедуры анализа двумерных сигналов обучающимся векторным квантователем (ОВК).

Методы исследования

В диссертационной работе использовались методы теории многослойного персептрона и обучающегося векторного квантователя, теории обработки двумерных сигналов и моделирования на ЭВМ.

Научная новизнаработы

1. Численное исследование эффективности различных процедур анализа, инвариантного к сдвигу, масштабу и повороту двумерных сигналов.

2. Рассмотрено влияние шума, количества обучающих образов, структуры и параметров ТСП на эффективность систем инвариантного анализа.

3. Разработан способ значительного повышения эффективности анализа, двумерных сигналов при использовании КИПТСП.

Практическаязначимостьрезультатовработы

1. Предложен эффективный вариант построения систем инвариантного анализа двумерных сигналов с помощью КИПТСП.

2. На основе сравнения характеристик систем анализа, построенных различными методами, даны рекомендации по применению каждой системы.

Апробациярезультатовработы

Результаты диссертации докладывались на 6-ой Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии» (21 — 26 октября 2002, Великий Новгород, Россия); 5-ой Международной конференции «Цифровая обработка сигналов и ее применение» (12 - 14 марта 2003, Москва, Россия); Международной конференции «Авиация и космонавтика - 2003» (3-9 ноября 2003, Москва, Россия); 11-ой Всероссийской-конференции «Математические методы распознавания образов» (23 - 29 ноября 2003, Пущино Московской области, Россия) и 6-ой Международной конференции «Цифровая обработка сигналов и ее применение» (31 марта- 2 апреля 2004, Москва, Россия).

Публикации

Основные результаты диссертации опубликованы в 9 работах: 3 статьи в академических журналах «Радиотехника и Электроника» и «Pattern Recognition and

Image Analysis», 1 статья в журнале «Нейрокомпьютеры: разработка и применение» и 5 работ в трудах Всероссийских и Международных конференций.

Основные положения, выносимые на защиту

1. Инвариантный анализ «прямых» двумерных сигналов не требует предварительного выделения инвариантных признаков и поэтому время анализа очень мало, однако необходимый интервал дискретизации угла поворота эталонных сигналов малый (<15°) и поэтому число обучающих образов и время обучения велики, а структура ТСП сложная.

2. Анализ, при котором моменты Зернике и псевдо-Зернике используются как инвариантные признаки, требует малого числа обучающих образов (~ 2 - 4 эталонных двумерных сигналов каждого объекта), поэтому время обучения ТСП существенно уменьшаются (в 10-20 раз в зависимости от метода обучения), структура ТСП значительно упрощается, однако требуются значительные затраты времени на вычисление моментов.

3. Инвариантный анализ двумерных сигналов с помощью КИПТСП обеспечивает малое время обучения и анализа, относительно небольшое число обучающих образов (~ 5 эталонных двумерных сигналов каждого объекта), однако структура ТСП сложная, а способность работы в условиях шума невысокая.

4. Эффективность системы анализа при использовании КИПТСП значительно повышается с помощью преобразования двумерного сигналов и выбора весов элементов инвариантной пластины.

Объём и структураработы

Диссертационная работа состоит из введения, пяти глав, заключения и списка литературы. Работа содержит 102 страниц. Список литературы содержит 67 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, дан обзор состояния вопроса, сформулированы цель и основные задачи исследования, описаны состав и структура работы, отмечены ее научная, новизна и практическая значимость, приведены

сведения об апробации и публикациях, представлены основные положения, выносимые на защиту.

Первая глава диссертации посвящена анализу «прямых» двумерных сигналов с использованием ТСП. Прямой двумерный сигнал - двумерный сигнал, прошедший предварительную обработку для повышения его качества и обеспечения инвариантности к сдвигу и масштабу, но без выделения признаков, обеспечивающих инвариантность к повороту двумерного сигнала. Рассмотрено влияние уровня шума на качество анализа, а также исследована эффективность анализа двумерных сигналов при обучении ТСП с расширенными обучающими выборками. В данной главе и в последующих вычислительные эксперименты проведены на компьютере Intel CeIeron-733 c ОЗУ 128 Мбайт.

В качестве исходных данных использовались двумерные сигналы без шума, соответствующие пяти различным объектам, а также двумерные сигналы при разных отношениях сигнал-шум. Зашумленные двумерные сигналы созданы из двумерных сигналов без шума. Для проведения экспериментальных исследований системы анализа в режиме обучения и в рабочем (тестирующем) режиме были созданы обучающая и тестирующая выборки. Первоначально обучающая выборка состояла из 185 эталонных незашумленных двумерных сигналов пяти объектов; каждый из них занимал дискретные угловые положения с поворотом на 5°. Тестирующая выборка состояла из 185 двумерных сигналов без шума и 570 двумерных сигналов с разными отношениями сигнал-шум. Угловое положение, местоположение и размер двумерных сигналов объектов выбирались произвольно.

Структура предварительной обработки сигналов приведена на рис. 1.1. Приняты следующие обозначения: 1(х,у) - исходный двумерный сигнал; БНРДС -блок нормализации размера двумерного сигнала 65x65; БФ — блок фильтрации; БК — блок квантования; БМС — блок масштабирования и сдвига двумерного сигнала.

Кх,у)

БНРДС

БФ

БК

А*.у)

БМС

g(x.y)

Рис. 1.1. Предварительная обработка двумерного сигнала.

Чтобы обеспечить инвариантность к масштабу и сдвигу нужно преобразовать дискретный двумерный сигнал

где - координаты центра вычисляемые по формулам

тм - геометрический момент;

м-\м-\

х=0у=0

(1.1)

(1.2)

(1.3)

М х Л/ - размер двумерного сигнала;. а = (р/т00)1П; р - число отсчетов на нормализованном двумерном сигнале анализируемого объекта.

Анализ двумерных сигналов выполнялся трехслойным персептроном (ТСП). Число элементов входного слоя равно числу компонентов вектора двумерного сигнала, т.е. 4225, а число элементов выходного (третьего) слоя равно количеству анализируемых классов объектов, т.е. 5. Число элементов скрытого (второго) слоя выбрано 50. Активационной функцией для элементов скрытого и выходного слои является сигмоидная: ТСП обучался с использованием

алгоритма обратного распространения ошибки (ОРО) и некоторых алгоритмов быстрого обучения: модифицированных алгоритмов ОРО (ОРО с адаптивным шагом, ОРО с импульсным коэффициентом) и алгоритмов, построенных комлексно-сопряженным методом (Флетчера-Ривса, Полака-Рибиера, Поэлла-Била, масштабируемого сопряженного градиента). Для выявления эффективности рассматриваемого подхода проведем также анализ вышеуказанных двумерных сигналов с помощью часто используемых непараметрических правил, а именно ближайшего соседа (БС) и минимума среднего расстояния (МСР). В табл. 1.1 представлены результаты вычислительных экспериментов. Как видим, при ТСП с использованием алгоритмов быстрого обучения время обучения уменьшается значительно: в 3 ... 4 раз при модифицированных алгоритмах обратного распространения и в 12 ... 15 раз при алгоритмах, построенных комплексно-

сопряженным методом. Применение различных алгоритмов обучения практически не влияет на точность анализа. Вероятность правильного анализа (ВПА) классическими методами (МСР и БС) значительно меньше, чем при ТСП. Время обработки системы, которое включает в себя время предварительной обработки и время анализа, для алгоритмов МСР и БС весьма большое, однако заранее обучать их не нужно. Таким образом, ТСП дает существенно лучшие результаты, чем традиционные непараметрические правила.

Таблица 1.1. Результаты анализа прямых двумерных сигналов.

Алгоритм Время обучения, мин Время обработк и, мин Отношение сигнал-шум, дБ

без шума 50 40 30 20 10 5

Вероятность правильного анализа, %

Обратное распространение ошибки (ОРО) - 62.40 0.02 100 "100 100 98.4 91.1 84.0" 74.9

ОРО с адаптивным шагом 22.12 0.02 100 100 100 97.6 88.4 83.2 72.8

ОРО с импульсным коэффициентом 16.30 0.02 100 100 100 98.9 89.2 82.5 71.7

Флетчер-Ривс 5.12 0.02 100 100 100 97.8 90.3 84.3 75.2

Полак-Рибиер 5.25 0.02 100 100 100 98.6 88.7 84.6 75.1

Повелл-Беал 4.45 0.02 100 100 100 97.6 89.1 85.3 74.6

Масштабируемый сопряженный градиент 4.30 0.02 100 100 100 98.2 88.6 84.7 75.3

Минимум среднего расстояния - 74.52 63.8 57.5 46.6 27.5 19.7 11.1 10.2

Ближайший сосед - 231.45 100 68.3 52.2 34.4 21.3 12.6 11.7

Экспериментальные результаты также свидетельствуют о значительном влиянии уровня шума на ошибки анализа, которые с уменьшением отношения сигнал-шум довольно быстро растут. Для повышения качества анализа ТСП при условии шума применен метод расширения обучающих выборок. В этих выборках кроме двумерных сигналов без шума используем и двумерные сигналы всех объектов с разными отношениями сигнал-шум. Вычислительные результаты показали, что обучение ТСП с расширенными обучающими выборками существенно улучшает качество его работы. Однако время обучения ТСП увеличивается в 1.5-3 раза. При этом время обработки системы не изменяется.

Во второй главе исследована система анализа двумерных сигналов, в которой моменты Зернике и псевдо-Зернике используются как признаки анализа, инвариантные к повороту. Инвариантность к сдвигу и масштабу двумерных сигналов обеспечивается преобразованием двумерного сигнала согласно (1.1) — (1.3). Влияние таких важных факторов, как уровень шума, дискретизация угла поворота эталонных двумерных сигналов в обучающей выборке, число элементов в скрытом слое ТСП, на качество анализа также исследовано. Проведен сравнение эффективности анализа при использовании разных признаков анализа - моментов Зернике, псевдо-Зернике и прямых двумерных сигналов. Структурная схема предварительной обработки двумерных сигналов аналогична схеме рис. 1.1. Но после БМС добавлен блок вычисления моментов Зернике или псевдо-Зернике. Затем эти значения моментов поступают на ТСП.

Комплексные моменты Зернике порядка пет повторениями для дискретного двумерного сигнала заданного внутри круга определяются

следующим образом:

1

(2.1)

»ех р(тв), (22)

где п - положительное целое число или нуль; т - положительное или отрицательное целое число, удовлетворяющее условиям - длина вектора от

начала координат к точке - угол между вектором и осью в направлении

по часовой стрелке; - радиальные полиномы:

1)/2 , п1г/.. II

(23)

Моменты Зернике в (2.1) становятся моментами псевдо-Зернике, если радиальные полиномы вычисляются по формуле:

где п — О, 1, 2,..., и т принимает положительные и отрицательные целые значения, удовлетворяющие только одному условию |/я|<л. Значения \А„„,\ инвариантны к повороту.

Максимальный порядок моментов Зернике, равный 12, выбран на основе моделирования с учётом задаваемой точности анализа двумерных сигналов в условиях шума. Это определило число элементов (47) на входе ТСП. Число элементов скрытого слоя выбрано 5.

Результаты экспериментов приведены в табл. 2.1; показатели анализа по моментам Зернике показаны в светлых областях, а по моментам псевдо-Зернике - в темных.

Таблица 2.1. Результаты анализа по моментам Зернике и псевдо-Зернике.

Алгоритм Время Время' Отношение сигнал-шум, дБ

обучения, обработ без 50 40 30 20 10 5

мин ки, мин шума

Вероятность правильного анализа, %

Обратное 8.02 3.02 100 100 97.4 94.0 81.5 78.7 68.6

распространение ошибки (ОРО) ™"ÍÓ0~" i "ш? "982" '95**6? 85.*2 "80.8" "703"

ОРО с адаптивным 2.48 3.02 100 100 97.0 93.6 82.4 77.9 67.5

шагом Т 032"" Т5.02г ' ГГбо? "i 00" "98Л 94.9- Tí?' 71.1."

ОРО с импульсным коэффициентом 1.06' 3.02 ГШ"* 100 ПооГ 100 "ioo" 97.8 "98"*8Т 92.7 "914" 84.4 "86.Ór 76.8 "82.0 69.0 "70.5"

Флетчер-Ривс 0.38 3.02 100 100 97.7 93.5 82.1 78.4 69.2

! 0 20' ГШ™ , шо 100« 99.4 95J2" 85.9 82.Í 71.4

Полак-Рибиер 0.30 3.02 100 100 97.5 92.8 82.0 77.8 69.2

' 0.15 ГШГ • 100' 100" 99"! 94.6 86.Í 81.9 71.5

Повелл-Беал 0.35 3.02 100 100 97.5 93.8 82.0 77.9 69.8

? 0.16Т 5.Ó2 ; too* 100; 98.0- 953 86.1 81.2 72.0

Масштабируемый 0.28 3.02 100 100 97.7 92.7 81.8 77.9 68.8

сопряженный градиент ""0.12"' "ТоГ" ""Ж" "YócT "99.0" "96T "84.3" "80.9" "72.5"

Минимум среднего - 3.32 61.8 53.5 43.4 26.5 17.9 12.8 11.6

расстояния - *" 5.0Í5 71.5 57.6 '48.2 27.9 > 19.0 142 Í2.3

Ближайший сосед - 5.24 98.8 65.8 50.3 33.9 19.5 13.6 11.9

994 67.5 51.2 '34.2* 19.9' 13.9 Г 1*2.1"

По сравнению с анализом прямых двумерных сигналов при анализе по моментам Зернике и псевдо-Зернике время обучения ТСП меньше. Однако общее

время обработки (включает в себя время предварительной обработки, время вычисления моментов и время анализа) увеличилось. Но в случае анализа с помощью традиционных методов (БС и МСР) время обработки уменьшилось (см. таб. 1.1). ВПА в случае анализа по моментам Зернике и псевдо-Зернике приблизительно равна ВПА при анализе прямых двумерных сигналов. Кроме того, структура ТСП значительно упростилась. Результаты эксперимента также показали, что качество анализа с помощью ТСП значительно выше, чем при анализе с традиционными правилами. Анализ по моментам псевдо-Зернике дает результат немного лучше, чем по моментам Зернике. Однако время вычисления моментов псевдо-Зернике больше (примерно 5 мин для одного двумерного сигнала) по сравнению с вычислением моментов Зернике (примерно 3 мин). Это привело к соответствующему увеличению времени обработки.

Результаты исследования влияния дискретизации угла поворота двумерных сигналов и числа элементов в скрытом слое на эффективность анализа показали, что дискретизация угла поворота эталонных двумерных сигналов сильно влияет на эффективность анализа «прямых» двумерных сигналов и незначительно влияет на эффективность анализа моментов Зернике и псевдо-Зернике. Изменение числа элементов скрытого слоя ТСП в определенном диапазоне немного влияет на время обучения и не влияет на точность анализа. Кроме того, экспериментальные исследования показали, что если число элементов скрытого слоя меньше 50 (при анализе прямых двумерных сигналов) или 5 (при анализе по моментам), то ТСП может не обеспечить сходимость к желаемой среднеквадратической ошибке.

Третья глава посвящена анализу двумерных сигналов с использованием комбинации инвариантных пластин и трёхслойного персептрона (КИПТСП). Этот подход связан с созданием инвариантной «пластины», в которой инвариантность признаков обеспечивается особой структурой инвариантной пластины.

Структура системы анализа показана на рис. 3.1. В подсистеме предварительной обработки кроме известных блоков (см. рис. 1.1) дополнительно поставлен блок формирования вектора «кругового» двумерного сигнала (БФВКДС). КИПТСП состоит из набора инвариантных пластин (НИП), обеспечивающей инвариантность к повороту двумерного сигнала, и ТСП.

«Круговой» двумерный сигнал получается наложением круговой решетки на двумерный сигнал и суммированием отсчётов, попавших в клетки решетки. Круговая решетка образованар кольцами, разделенными секторами на клетки, как показано на рис. 3.2.

Рис. 3.2. Структура круговой решетки.

а) индексация клеток в начальном положении двумерного сигнала;

б) индексация клеток при повороте двумерного сигнала на угол <р*.

/Г 1

/ Ун1 2*Х \

/2 / ■"-ч/М-Л

/ Л+2 Лч 1

V \ д

а)

УС1

/ ><2* ¿И)/ \

/ 1 / V ""V \*"2\

1 г*1/4* Л[-2\ \

/

б)

Центр решетки должен совпадать с центром двумерного сигнала, а её радиус равен расстоянию от центра до наиболее удалённой части двумерного сигнала. Число клеток одного кольца к равняется числу секторов и выбирается в зависимости от заданного угла поворота двумерного сигнала <р*, при котором КИПТСП должна обеспечивать инвариантный анализ:

* = збо/?>* (з.1)

Вектор «кругового» двумерного сигнала — это вектор, составленный из значений клеток «кругового» двумерного сигнала. Индексация элементов вектора соответствует индексации клеток решетки (рис. 3.2).

Набор инвариантных к повороту пластин

НИП

Рис. 3.3. Структура НИП

включает в себя инвариантные пластины (ИП) (см. рис. 3.3). Инвариантные

пластины работают независимо друг от друга. Структура пластин одинакова и

показана на рис. 3.4; и»1,1, и/2,1.....- векторы весов элементов преобразования

первой пластины; f - сигмоидная функция активации элементов преобразования. Количество элементов преобразования каждой пластины выбирается равным к + 1.

Вектор весов первого элемента

/

1 ,

мЛ1 ™ > I

и \ / I * ^ £

я М /

* ^ £

Рис.3 4 Структура инвариантной пластины

,1,1

состоит из р подгрупп по к г01 компонентов в каждой. Значения компонентов выбираются

случайным образом, например, с помощью датчика равномерно распределённых на отрезке [0, 1] чисел. Циклическим

перемещением компонентов каждой подгруппы вектора на одно место,

находим те'"1, ¡=2,..,к. Выходной сигнал первой пластины вычисляется по формуле:

(3.2)

Благодаря преобразованию двумерного сигнала в БФВКДС и выбору весов элементов преобразования выходной сигнал пластины не изменяется при повороте двумерного сигнала на угол инвариантности <р*. Этот сигнал поступает на ТСП.

Четыре НИП (НИШ,..., НИП4) созданы для обеспечения инвариантности анализа к повороту двумерных сигналов на углы: 30°, 20°, 10°, 5°. Из (3.1) следует, что круговая решетка должна разделяться на 12,18,36, 72 секторов, при этом число элементов преобразования в каждой из пластин построенных НИП соответственно равно: 13 в НИШ,..., 73 в НИП4. Экспериментальные результаты представлены на рис. 3.5. На этом рисунке и на последующих (рис. 3.6 - 3.8) обозначено: кривая 1 соответствует использованию НИШ, кривая 2 - НИП2, кривая 3 — НИПЗ, и кривая 4 — НИШ. Как видим, ВПА повышается с увеличением числа обучающих двумерных сигналов. Когда это число больше 5, ВПА достигает относительно высоких значений (от 85-98%) и далее растет медленно. Результаты исследования влияния числа колец на эффективность анализа представлены на рис. 3.6. С ростом числа

колец круговой решетки ВПА быстро увеличивается, но при значении больше 6 растет слабо. При малом угле инвариантности (<р* = 50 - НИП4) высокая ВПА (до 97%) обеспечивается даже при трёх кольцах.

Рис. 3.5. Зависимость ВПА от числа Рис. 3 6. Зависимость ВПА от числа

обучающих двумерных сигналов. колец круговой решетки.

Заметим, что при заданном числе колец изменение ширины одного из них приводит к изменению ширины, по крайней мере, ещё одного кольца. Экспериментальные результаты показали, что при изменении ширины второго, третьего и четвертого кольца ВПА меняется примерно на 1-4%.

Рис. 3.7. Зависимость ВПА Рис. 3.8. Влияние шума на качество

от числа пластин НИП. анализа.

Результаты исследования влияния числа пластин отражены на рис. 3.7. С увеличением числа пластин ВПА повышается. Влияние шума на качество анализа показано на рис. 3.8. При ц < 10 дБ значение ВПА менее 30%. При увеличении отношения сигнал-шум ВПА быстро растет, однако после 20 дБ этот рост замедляется. Работоспособность системы в условиях шума повышается с обучением системы с расширенными обучающими выборками. Время обучения, которое включает в себя время преобразования двумерных сигналов в БФКДС и в НИП и

время обучения ТСП, составило примерно 30 с. Время обработки, которое включает в себя время предварительной обработки и время обработки КИПТПС, - не более 4 с, причем его изменение во всех рассмотренных примерах практически незаметно.

По сравнению с анализом ТПС прямых двумерных сигналов при анализе с КИПТПС необходимое число обучающих образов меньше в 5 раз. Время обучения также существенно уменьшается - в 10 раз. Время обработки больше примерно на 12 с. Однако способность работы КИПТПС в условиях шума снижена.

По сравнению с анализом ТПС по моментам Зернике и псевдо-Зернике время обработки с использованием КИПТПС значительно уменьшается: в 40-70 раз, что является важным преимуществом исследованного здесь метода. Время обучения в этих методах примерно одинаково. Однако структура системы анализа сложнее число элементов обработки больше (на число элементов НИП), способность работы в условиях шума меньше и необходимое число двумерных сигналов в обучающей выборке больше (в 2 раза).

В четвертой главе исследована способность повышения эффективности инвариантного анализа с использованием КИПТПС. При этом инвариантность к повороту двумерных "сигналов обеспечивается' новым методом формирования вектора «кругового» двумерного сигнала и создания весовых коэффициентов элементов преобразования НИП. Структурные схемы КИПТПС аналогичны схемам, рассмотренным в главе 3 (см. рис. 3.1, 3.3, 3.4). В БФВКДС использована другая круговая решетка, показанная на рис. 4.1. Вначале круг радиусом Л разбивается кольцами и секторами на клетки (жирные линии на рис. 4.1). Число первоначальных клеток одного кольца совпадает с числом секторов. Затем каждая из этих клеток дополнительно разбивается (тонкие линии на рис. 4.1) на более мелкие клетки, число которых зависит от номера кольца Таким образом, число клеток

/-го кольца равно кцкг Клетки одного кольца имеют одинаковый размер. Количество элементов преобразования каждой пластины НИП выбирается равным ко + 1. Вектор весов первого элементов ус1'1 состоит из р подгрупп по к^ компонентов в каждой. Значения компонентов выбираются случайным образом. Циклическим

перемещением компонентов каждой подгруппы вектора И1'*1'1 на Щ мест, находим

Рис. 4.1. Структура круговой решётки:

а) индексация клеток в начальном положении двумерного сигнала;

б) индексация клеток при повороте двумерного сигнала на угол <р*.

Сравнительный анализ качества систем анализа, созданных с помощью предложенного метода и известного (см. гл. 3), проведен в различных ситуациях. Некоторые результаты представлены на рис. 4.2 — 4.4. На этих рисунках кривая 1 соответствует результатам, полученным при построении НИП предложенным методом, а кривая 2 - при построении НИП тем же методом, что и в главе 3.

Рис. 4.2. Зависимость В ПА от числа Рис. 4.3. Зависимость ВПА от числа

обучающих двумерных сигналов. пластин НИП.

Экспериментальные результаты показали, что новый метод имеет значительное преимущество по сравнению с известным методом. ВПА

увеличивается (до 9%), в то же время число элементов НИП не изменяется. Изменение времени обучения и времени обработки практически незаметно.

В пятой главе проведено исследование эффективности анализа с использованием обучающегося векторного квантователя (ОВК). ОВК обучен по правилу Кохонена. Результаты экспериментов показали, что эффективность анализа при использовании ОВК ниже, чем при ТСП. В последнем разделе главы рассмотрены некоторые конкретные области лрименения систем анализа двумерных сигналов. Результаты диссертационных исследований могут быть полезны при решении задач инвариантного анализа двумерных сигналов.

В заключении сформулированы основные результаты диссертационной работы.

Исследованы различные процедуры инвариантного анализа двумерных сигналов "с использованием прямых двумерных сигналов, моментов Зернике, псевдо-Зернике и КИПТПС. Построены системы анализа на основе ТПС, ОВК, КИПТСП, а также на основе часто используемых непараметрических правил: БС и МСР. Исследовано влияние числа обучающих образов, структуры и параметров системы, алгоритмов обучения и уровня шума на эффективность анализа. Предложен эффективный метод создания системы инвариантного анализа двумерных сигналов с использованием КИПТПС. Рассмотрены области применения полученных результатов.

Вычислительные результаты показали следующее: 1. Анализ двумерных сигналов на основе ТСП имеет подавляющее преимущество по сравнению с анализом с помощью традиционных правил. Он позволил значительно повысить вероятность правильного анализа, способность работы при действии шума и уменьшить время анализа.

10 15 30 35 30 35 «О « 50 Ч

Рис. 4 4. Зависимость ВПА от отношения сигнал-шум.

2. Обучение ТСП с зашумленными двумерными сигналами весьма существенно повышает вероятность правильного анализа (до 20%). Это достигается за счет расширения обучающей выборки.

3. При анализе прямых двумерных сигналов структура ТСП сложная, интервал дискретизации угла поворота эталонных двумерных сигналов малый (<15°) и поэтому необходимое число обучающих образов и время обучения большие (>12 эталонных двумерных сигналов каждого объекта и более 4.30 мин для указанного выше компьютера даже при обучении ТСП с алгоритмами быстрого обучения), но зато время обработки мало (~ 2 с).

4. При анализе моментов Зернике и псевдо-Зернике структура ТСП значительно упрощается (47-5-5 ло сравнению с 4225-50-5 при анализе прямого двумерного сигнала), число обучающих образов мало (~ 2-4 эталонных двумерных сигнала каждого объекта), время обучения ТСП существенно уменьшаются (в 10-20 раз в зависимости от алгоритма обучения). Однако требуются значительные затраты времени на вычисление моментов (примерно 3 мин для одного сигнала при вычислении моментов Зернике и 5 мин для моментов псевдо-Зернике).

5. Использование одного из быстрых алгоритмов обучения позволило значительно уменьшить время обучения ТСП (в 3-15 раз при анализе прямых двумерных сигналов и в 3-25 раз при анализе с использованием моментов Зернике и псевдо-Зернике) по сравнению со стандартным алгоритмом обратного распространения ошибки.

6. Система инвариантного анализа на основе КИПТСП не требует большего числа обучающих образов (~ 5 эталонных двумерных сигналов каждого объекта), время обучения примерно 30 с, время обработки примерно 4 с, способность работы в условиях шума невысокая.

7. Система инвариантного анализа на основе КИПТСП, построенная в соответствии с предложенным методом, имеет значительное преимущество по сравнению с системой, построенной по известному методу. Вероятность правильного анализа увеличивается (до 9% в рассмотренных примерах), в то же

i-7618

время число элементов преобразования НИП не изменяется. Изменение времени обучения и времени обработки практически незаметно.

8. Эффективность анализа при использовании ТСП выше, чем при обучающемся векторном квантователе (ОВК). В рассмотренных задачах вероятность правильного анализа при использовании ТСП выше, чем при ОВК на 2-12%, а время обучения меньше в 1.5-4 раза. Способность к обобщению у ТСП также выше, чем у ОВК. Поэтому для анализа двумерных сигналов применение ТСП является более целесообразным.

СПИСОК ПУБЛИКАЦИЙ

1. Сосулин Ю.Г., Фам Чунг Зунг. // Радиотехника и электроника. 2003, т. 48, №8, с. 969-978.

2. Сосулин Ю.Г., Фам Чунг Зунг. // Труды 6-ой Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии». Великий Новгород. Россия. 2002, с. 529-533.

3. Sosulin Yu.G., Dung P.T. // Pattern Recognition and Image Analysis. 2003, Vol. 13, No. 2, pp. 363-366.

4. Сосулин Ю.Г., Фам Чунг Зунг. // Труды 5-ой Международной конференции «Цифровая обработка сигналов и ее применение». Москва. Россия. 2003, с. 619-622.

5. Сосулин Ю.Г., Фам Чунг Зунг. // Нейрокомпьютеры: разработка и применение. 2003, № 8-9, с. 29-37.

6. Сосулин Ю.Г., Фам Чунг Зунг. // Труды 11-ой Всероссийской конференции «Математические методы распознавания образов». Москва. Россия. 2003, с. '443-447.

7. Сосулин Ю.Г., Фам Чунг Зунг. // Радиотехника и электроника. 2004, т. 49, №5.

8. Фам Чунг Зунг. // Труды Международной конференции «Авиация и космонавтика - 2003». Москва. Россия. 2003, с. 227-228.

9. Сосулин Ю.Г., Фам Чунг Зунг. // Труды 6-ой Международной конференции «Цифровая обработка сигналов и ее применение». Москва. Россия. 2004, с. 238-240.

Оглавление автор диссертации — кандидата технических наук Фам Чунг Зунг

ВВЕДЕНИЕ.

ГЛАВА 1. РАСПОЗНАВАНИЕ ПРЯМЫХ ИЗОБРАЖЕНИЙ.

1.1. Предварительная обработка изображений.

1.2. Подготовка данных для экспериментов.

1.3. Классификаторы.

1.4. Результаты экспериментов.

Выводы по главе 1.

ГЛАВА 2. РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ

МОМЕНТОВ ЗЕРНИКЕ И ПСЕВДО-ЗЕРНИКЕ.

2.1. Предварительная обработка изображений.

2.2. Моменты Зернике.

2.3. Моменты псевдо-Зернике.

2.4. Постановка и результаты экспериментов.

2.5. Влияние дискретизации угла поворота изображений и числа нейронов в скрытом слое на эффективность распознавания.

Выводы по главе 2.

ГЛАВА 3. РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИЙ

КОМБИНИРОВАННОЙ НЕЙРОННОЙ СЕТЬЮ.

3.1. Структура системы распознавания; предварительная обработка.

3.2. Комбинированная нейронная сеть.

3.3. Постановка и результаты экспериментов.

3.4. Сравнение с распознаваниями «прямых» изображений, моментов Зернике и псевдо-Зернике.

Выводы по главе 3.

ГЛАВА 4. НОВЫЙ МЕТОД ИНВАРИАНТНОГО РАСПОЗНАВАНИЯ ДВУМЕРНЫХ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ КОМБИНИРОВАННОЙ НЕЙРОННОЙ СЕТИ.

4.1. Метод нейросетевого формирования инвариантных к повороту признаков для распознавания изображений.

4.1.2. Формирование вектора «кругового» изображения.

4.1.2. Построение инвариантной нейронной сети.

4.2. Постановка и экспериментальные результаты.

Выводы по главе 4.

ГЛАВА 5. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЭФФЕКТИВНОСТИ

КЛАССИФИКАЦИИ С ИСПОЛЬЗОВАНИЕМ ОБУЧАЮЩЕГОСЯ ВЕКТОРНОГО КВАНТОВАТЕЛЯ.

5.1. Обучающийся векторный квантователь.

5.2. Постановка и экспериментальные результаты.

5.3. Области применения систем нейросетевого распознавания изображений.

Выводы по главе 5.

Введение 2004 год, диссертация по радиотехнике и связи, Фам Чунг Зунг

Актуальность темы

Рассматриваемый в диссертационной работе двумерный сигнал - совокупность значений функции двух дискретных пространственных переменных (координат) на ограниченной прямоугольной области. Под анализом двумерных сигналов понимается отнесение наблюдаемого двумерного сигнала к одному из заранее описанных теми или иными средствами классов сигналов. Следует отметить, что термины «двумерный сигнал» и «анализ» в значительной степени адекватны терминам «изображение» и «распознавание», которые и будут использоваться в дальнейшем. Вопросы исследования задач распознавания изображений объектов и построения эффективных автоматических систем распознавания продолжают оставаться, безусловно, актуальными. Распознавание изображений является важным направлением в обработке изображений. Системы распознавания изображений используются в разнообразных областях, например, таких как робототехника, локация (оптическая, радио-, акустическая, подповерхностная), обработка документов, автоматизация производства. Процесс распознавания изображений обычно можно разделить на четыре основных этапа. Первый - это получение изображения и его преобразование в массив чисел, с которым сможет работать компьютер. Второй — предварительная обработка, включающая удаление шума, повышение качества изображения и, если необходимо, сегментирование изображения на значащие области для их отдельного анализа. Третий — выделение признаков, в результате которого изображение представляется набором числовых признаков для устранения избыточности данных и уменьшения их размерности. Признаки должны удовлетворять следующим требованиям: признаки в одном классе должны иметь близкие числовые значения, а признаки разных классов должны иметь достаточно различающиеся числовые значения. Четвертым этапом является классификация. На этом этапе название класса связывается с неизвестным изображением с помощью изучения его выделенных признаков и сравнения их с представлениями класса, которым классификатор научился на стадии обучения. Первый этап выполняется различными устройствами приема изображения. Задачи остальных этапов обычно решают на вычисленных устройствах. Сюда же относится и нейронные сети, которые могут использоваться для решения задач каждого отдельного этапа или всех этапов.

Обзор применения нейронных сетей в системах распознавания изображений представлен в [1, 2]. Большинство задач распознавания изображений требует высокой производительности, которую невозможно реализовать без нейрокомпьютеров. В нейрокомпьютерах, являющихся вычислительными системами параллельного действия, используются искусственные нейронные сети, т.е. совокупности большого числа определенным образом связанных между собой нейронных элементов. Важнейшая особенность нейронной сети, свидетельствующая о её широких возможностях и огромном потенциале, состоит в параллельной обработке информации всеми звеньями. При громадном количестве межнейронных связей это позволяет значительно ускорить процесс обработки информации. Другое не менее важное свойство - способность к обучению и обобщению накопленных знаний. Натренированная на ограниченном множестве данных сеть способна обобщать полученную информацию и показывать хорошие результаты на данных, не использовавшихся в процессе обучения. Характерная особенность сети состоит также в возможности ее реализации с применением технологии сверхбольшой степени интеграции. Кроме того, при большом числе межнейронных соединений сеть приобретает устойчивость к неисправностям, возникающим на некоторых звеньях. Функции поврежденных связей берут на себя исправные звенья, в результате чего деятельность сети не претерпевает существенных возмущений. Теоретические основы нейронных сетей изложены в [3 - 11].

В области распознавания изображений важное место занимает проблема обеспечения инвариантности распознавания по отношению к .сдвигу, масштабу и повороту изображений. Иначе говоря, система должна распознавать объект независимо от его ориентации, размера и местоположения в поле обзора. Это обширное направление привлекает к себе интерес многих исследователей. Опубликовано большое количество работ по созданию систем * инвариантного распознавания изображений. Существует три основных подхода к построению систем инвариантного, в том числе нейросетевого, распознавания [12]. Первый из них связан с использованием большого набора обучающих образов, который достаточно полно отображает распознаваемые изображения во всех возможных ситуациях. Второй связан с предварительным преобразованием изображений и формированием инвариантных признаков, используемых затем при классификации изображений. И третий подход связан с созданием нейросетевой системы распознавания, в которой инвариантность признаков обеспечивается особой структурой нейронной сети.

Исследования в [12, 13] показали, что при первом подходе для обеспечения инвариантного распознавания число обучающих образов должно быть большим. Число обучающих образов увеличивается с увеличением желаемых инвариантных параметров. При распознавании изображений, одновременно инвариантного к трем преобразованиям (сдвигу, масштабу и повороту), число обучающих образов будет слишком большим. При этом структура нейросетевого классификатора становится сложной, причём во многих случаях формирование таких обучающих образов невозможно. Тем не менее, этот подход — простой и наглядный и подходит для ряда практических задач. На практике этот подход может найти применение вместе с другими подходами, например, с использованием заранее предварительной обработки для обеспечения инвариантности к сдвигу и масштабу изображений; при этом в обучающей выборке потребуются только образы, которые достаточно полно отображают распознаваемые изображения при всех возможных углах поворота. Поэтому число обучающих образов значительно снижается. Следовательно, при создании системы распознавания изображений этот метод является одним из альтернативных подходов и его нужно исследовать.

При втором подходе инвариантные признаки создаются с помощью математических , преобразований. Некоторые преобразования, например, преобразование Фурье применялось [14] для обеспечения инвариантности к сдвигу и повороту. Линейное интерполирование и преобразование Хотеллинга использованы для обеспечения инвариантности к сдвигу и масштабу в [15]. Ортогональное преобразование для получения признаков распознавания, инвариантных к аффинному преобразованию, рассмотрено в [16]. Метод моментов использовался в [17 - 28]. Заметим, что метод моментов для формирования инвариантных признаков распознавания используется наиболее часто. Теоретические основы метода моментов подробно изложены в работах [17, 18, 26 - 28]. Исследования в [17] также показали что, моменты Зернике и псевдо-Зернике более эффективны по сравнению с другими моментами в плане чувствительности к зашумлению изображения, объему полезной информации и способности воспроизведения изображения. В [19, 20] показано, что воспроизведение и классификация английских символов посредством моментов Зернике дают лучшие результаты, чем с помощью геометрических моментов. Заметим, однако, что при этом исследовании шум с разными уровнями добавлялся к нормализированным изображениям, инвариантным к сдвигу и изменению масштаба, а не к исходным изображениям. Поэтому полученные результаты не вполне выявляют влияние шума на весь процесс распознавания. В работе [21] создан автоматический классификатор геометрических моментных признаков с использованием параметрических и непараметрических алгоритмов классификации. Качество распознавания невысокое, время обработки большое, при этом влияние мешающих факторов (шум, дискретизация угла поворота изображений.) на качество классификации не учитывалось. Далее, в [22] предложен классификатор моментов Зернике на основе самоорганизующейся нейронной сети

Кохонена; точность классификации оказалась невысокой. В [23] геометрические моменты использовались для интерпретации изображений корабля. Однако ошибка интерпретации большая. В [24] комплексные моменты использованы для нормализации и классификации изображений. Однако нейронная сеть не применялась в этой работе, и количественные результаты не представлены. В [25] набор нормализованных инерционных моментов и топологических характеристик объектов использовался как признак, инвариантный к повороту, сдвигу и масштабу изображений. Классификация выполнялась на основе модификации правила ближайшего соседа. Применение этого подхода относительно сложное: требуется большой объём вычислений.

Создание нейросетевой системы распознавания, в которой инвариантность признаков обеспечивается особой структурой нейронной сети, является новым направлением исследования в области распознавания изображений. Нейронные сети высших порядков, позволяющие реализовать инвариантность к группам преобразований, йсследованы в [18, 29, 30]. На практике применение этого подхода ограничено из-за большой размерности сети; исследование [18] также показало, что нейронные сети высших порядков значительно уступают методу моментов. В [7, 10, 31] представлена модель нейронной сети -неокогнитрона, обеспечивающей инвариантности к сдвигу и малой деформации изображений. Основный недостаток этой модели заключается в том, что число элементов сети увеличивается с увеличением числа распознаваемых объектов. Это вызывает увеличение времени обучения сети.

В настоящее время интерес привлекает распознавание с использованием комбинации двух нейронных сетей -инвариантной сети, формирующей инвариантные признаки, и классификатора; подобная система названа в [18] комбинированной нейронной сетью. Этот подход появился сравнительно недавно и ряд его проблем ещё не изучен, но он считается наиболее перспективным [18]. Некоторые первоначальные исследования комбинированной нейронной сети проведены в [32]. Эта комбинированная нейронная сеть была создана на основе нейронов Adaline. Она обеспечивает инвариантность к сдвигу и повороту на каждые 90° входного образа. Главным недостатком предложенной системы является сложность создания весов нейронов инвариантной сети, особенно при обеспечении инвариантности к повороту и масштабу. В [33., 34] представлена система распознавания круглых объектов (монет), инвариантная к повороту на любой угол. При этом для обеспечения инвариантности к повороту на этапе предварительной обработки нужно выделить изображение круглого объекта из исходного квадратного изображения, определить центр объекта и затем наложить на него круговую решетку, радиус которой равен радиусу объекта. Классификатор выполнялся многослойной нейросетью, созданной на основе модели a-CONE (analog coupled neuron). Главный недостаток этого метода - нцзкая способность правильного отображения мелких деталей изображения. Поэтому эффективность распознавания изображений снижается. Тем не менее, это интересный метод, который также представлен в [18]. В [35] спроектирована система распознавания путём модификации системы, созданной в [32]. Вместо нейросетевого классификатора, обученного с учителем, использовался самоорганизующийся классификатор на основе нейронной сети АРТ1. Тогда система распознавания становится более «пластичной». Она может распознавать новые образы, которые не использовались при обучении. Однако, как и в [32], формирование весов нейронов инвариантной сети является сложным, причём инвариантность к повороту обеспечивается только при повороте изображения на угол в 90°. В [36] при распознавании изображений объектов, имеющих форму эллипсов, использовалась инвариантная нейронная сеть. Однако результаты исследований представлены весьма кратко, так что оценить эффективность разработанной системы затруднительно.

Из проведенного анализа следует, что создание систем нейросетевого распознавания изображений, инвариантных к повороту, сдвигу и масштабу, остаётся важной и актуальной задачей. С учетом вышеизложенного можно сформулировать основные цели и задачи диссертационной работы.

Цель и задачи работы

Целью диссертационной работы являются разработка, анализ показателей качества и повышение эффективности систем инвариантного нейросетевого распознавания двумерных изображений, функционирующих на основе различных принципов. Для достижения этой цели в работе решаются следующие задачи:

1. проводится анализ эффективности процедуры нейросетевого распознавания «прямых» изображений без формирования специальных признаков, обеспечивающих инвариантность к повороту изображений;

2. разрабатывается и анализируется эффективность процедуры нейросетевого распознавания с использованием моментов Зернике и псевдо-Зернике;

3.разрабатывается и анализируется система распознавания изображений комбинированной нейронной сетью;

4. исследуется влияние уровня шума, количества обучающих образов, структуры и параметров нейронных сетей на качество систем распознавания;

5. разрабатывается метод повышения эффективности распознавания изображений комбинированной нейронной сетью;

6. проводится анализ эффективности самообучающейся нейросетевой процедуры распознавания изображений обучающегося векторного квантователя.

Методы исследования

В диссертационной работе' использовались методы теории искусственных нейронных сетей, теории распознавания образов и моделирования на ЭВМ.

Научная новизна работы

Разработана методика построения и анализа эффективности различных систем нейросетевого распознавания, инвариантного к сдвигу, масштабу и повороту двумерных изображений.

2. Исследовано влияние шума, количества обучающих образов, структуры и параметров нейронных сетей на эффективность систем инвариантного распознавания.

3. Разработан новый метод нейросетевого формирования инвариантных к повороту признаков, значительно повышающий эффективность распознавания двумерных изображений.

Практическая значимость результатов работы

1. Разработан эффективный метод построения систем нейросетевого распознавания комбинированной нейронной сетью.

2. На основе сравнительного анализа характеристик систем распознавания, построенных различными методами, даны рекомендации по применению каждой системы.

Апробация результатов работы

Результаты диссертации докладывались на 6-ой Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии» (21 - 26 октября 2002, Великий Новгород, Россия); 5-ой Международной конференции «Цифровая обработка сигналов и ее применение» (12 - 14 марта. 2003, Москва, Россия); Международной конференции «Авиация и космонавтика — 2003» (3-9 ноября 2003, Москва, Россия); 11-ой Всероссийской конференции «Математические методы распознавания образов» (23 - 29 ноября 2003, Пущино Московской области, Россия) и 6-ой Международной конференции «Цифровая обработка сигналов и ее применение» (31марта - 2 апреля 2004, Москва, Россия).

Публикации

Основные результаты диссертации опубликованы в 9 работах: 3 статьи в академических журналах «Радиотехника и Электроника» и «Pattern Recognition and Image Analysis», 1 статья в журнале «Нейрокомпьютеры: разработка и применение» и 5 работ в трудах Всероссийских и Международных конференций.

Основные положения, выносимые на защиту

1. Нейросетевое распознавание «прямых» изображений не требует предварительного выделения инвариантных признаков и поэтому время распознавания очень мало, однако необходимый интервал дискретизации угла поворота эталонных изображений малый (<15°) и поэтому число обучающих образов и время обучения велики, а структура нейросетевого классификатора сложная.

2. Распознавание, при котором моменты Зернике и псевдо-Зернике используются как инвариантные признаки распознавания, требует малого числа обучающих образов 2-4 эталонных изображения каждого объекта), поэтому время обучения сети существенно уменьшаются (в 10-20 раз в зависимости от метода обучения), структура сети значительно упрощается, однако требуются значительные затраты времени на вычисление моментов.

3. Распознавание изображений комбинированной нейронной сетью обеспечивает малое время обучения и распознавания, относительно небольшое число обучающих образов 5 эталонных изображений каждого объекта), однако структура системы распознавания сложная, а способность работы в условиях шума невысокая.

4. Разработанный новый метод нейросетевого формирования инвариантных к повороту признаков значительно повышает эффективность системы распознавания комбинированной нейронной сетью.

Объём и структура работы

Диссертационная работа состоит из введения, пяти глав, заключения и списка литературы. Работа содержит 102 страниц. Список литературы содержит 67 наименований.

Заключение диссертация на тему "Инвариантный анализ двумерных сигналов"

Выводы по главе 5

Разработаны и исследованы системы распознавания изображений с использованием прямых изображений, моментов Зернике и инвариантной нейронной сети, в которых классификатор построен на основе ОВК. Результаты вычислительного эксперимента показали, что эффективность распознавания при использовании ОВК ниже, чем при МСП. Результаты разработки и исследования нейросетевых процедур распознавания двумерных изображений, полученные в диссертационной работе, можно применять для решения задач распознавания цифровых изображений в разных технических системах.

ЗАКЛЮЧЕНИЕ

В диссертационной работе исследованы нейросетевые процедуры инвариантного распознавания двумерных изображений с использованием прямых изображений, моментов Зернике, псевдо-Зернике и комбинированных нейронных сетей. Спроектированы системы распознавания с нейросетевыми классификаторами на основе трехслойного персептрона и обучающегося векторного квантователя, а также на основе классификаторов, реализующих широко распространенные непараметрические правила: ближайшего соседа и минимума среднего расстояния. Исследовано влияние числа обучающих образов, структуры и параметров нейронной сети, алгоритмов обучения и уровня шума на эффективность распознавания. Разработан новый эффективный метод создания системы нейросетевого инвариантного распознавания с использованием комбинированной нейронной сети. Рассмотрены области применения полученных результатов.

Вычислительные результаты показали следующее:

1. Нейросетевая классификация на основе МСП (трёхслойного персептрона) имеет подавляющее преимущество по сравнению с традиционной классификацией. Она позволила значительно повысить вероятность правильной классификации, способность работы при действии шума и уменьшить время классификации.

2. Обучение сети с зашумленными изображениями весьма существенно повышает вероятность правильного распознавания (до 20 %). Это достигается за счет расширения обучающей выборки.

3. При распознавании прямых изображений структура классификатора сложная, интервал дискретизации угла поворота эталонных изображений малый (<15°) и поэтому необходимое число обучающих образов и время обучения большие (>12 эталонных изображений каждого самолета и более 4.30 мин для указанного выше компьютера даже при обучении НСК с алгоритмами быстрого обучения), но зато время распознавания мало (~ 2с). Так как обучение нейронной сети происходит обычно один раз перед режимом распознавания, то для повышения быстродействия системы в этом режиме целесообразно использовать классификатор прямых изображений.

4. При распознавании моментов Зернике и псевдо-Зернике структура сети значительно упрощается (47-5-5 по сравнению с 4225-50-5 при классификации прямого изображения), число обучающих образов мало (~ 2 - 4 эталонных изображения каждого самолета), время обучения сети существенно уменьшаются (в 10-20 раз в зависимости от метода обучения). Однако требуются'значительные затраты времени на вычисление моментов (примерно 3 мин для одного •изображения при вычислении моментов Зернике и 5 мин для моментов псевдо-Зернике).

5. Использование одного из быстрых алгоритмов обучения позволило значительно уменьшить время обучения МСП (в 3 -15 раз при классификации прямых изображений и в 3 - 25 раз при классификации с использованием моментов Зернике и псевдо-Зернике) по сравнению со стандартным алгоритмом обратного распространения ошибки (ОРО).

6. Система инвариантного распознавания изображений комбинированной нейронной сетью не требует большего числа обучающих образов 5 эталонных изображений каждого самолета); время обучения примерно 30 с, время распознавания примерно 4 с, способность работы в условиях шума невысокая.

7. Система инвариантного распознавания изображений комбинированной нейронной сетью, построенная в соответствии с разработанным новым методом, имеет значительное преимущество по сравнению с системой, построенной по известному методу. Благодаря дополнительному разбиению клеток круговой решётки, образованных секторами и кольцами, на более мелкие клетки вероятность правильного распознавания увеличивается (до 9% в рассмотренных примерах), в то же время число нейронов ИНС не изменяется. Изменение времени обучения и времени распознавания практически незаметно.

8. Эффективность распознавания при использовании МСП выше, чем при обучающемся векторном квантователе (ОВК). В рассмотренных задачах вероятность правильного распознавания при использовании МСП выше, чем при ОВК на 2-12%, а время обучения меньше на 1.5 - 4 раз. Способность к обобщению у классификатора МСП также выше, чем у ОВК. Поэтому для классификации изображений применение МСП является более целесообразным. .

Результаты диссертационных исследований можно применять для решения задач распознавания цифровых изображений, полученных в разных технических системах.

Библиография Фам Чунг Зунг, диссертация по теме Радиотехника, в том числе системы и устройства телевидения

1. Roth M.W. Survey of neural network technology for automatic target recognition// IEEE Transactions on neural networks. 1990, Vol. 1, No. 1, pp. 28-43.

2. M. Egmont-Petersen, D. de Ridder, H. Handels. Image processing with neural networks a review// Pattern Recognition. 2002, Vol. 35, No. 10, pp. 2279-2301.

3. Галушкин А.И. Теория нейронных сетей. — М.: Радиотехника, 2003.

4. Головко В.А. Нейрокомпьютерные сети: обучение, организация и применение. — М.: ИПРЖР, 2001.

5. Круглов В.В., Борисов В.В. Искусственные нейронные сети. М.: Горячая линия - Телеком, 2001.

6. Оссовский С. Нейронные сети для обработки информаци и / Пер. с польского И.Д. Рудинского. — М.: Финансы и статистика, 2002.

7. Skapura D.M. Building Neural Networks. N.-Y.: ACM Press, 1996.

8. Hagan M.T., Demuth H.B., Beale M. Neural networks design. Boston: PWS Publishing Company, 1996.

9. Уоссермен Ф. Нейрокомпьютерная техника. M.: Мир, 1992.

10. Lau С. Neural Networks: theoretical foundations an analysis. N.Y.: IEEE Press, 1992.

11. Lippmann R.P. Pattern classification using neural networks//IEEE Communications magazine. 1989, Vol. 27, No. 11, pp. 47-64.

12. Barnard E., Casasent D. Invariance and neural nets// IEEE Transactions on neural networks. 1991, Vol. 2, No. 5, pp. 498-508.

13. Rumelhart D.E., Hinton G.E., Williams R.J. Parallel distributed processing. Cambridge, MA.: MIT Press, 1986.

14. Бурный E.B., Асеф Драфар. Распознавание двумерных контрастных изображений объектов по инвариантным информативным признакам// Нейрокомпьютеры: разработка, применение. 2001, № 1, с. 29-36.

15. Somaie A.A, Badr A., Salar Т. Aircraft image recognition using back-propagation// Proc. Int. Conf. RADAR2001. Beijing, China. 2001, pp. 498-501.

16. Dirilten H., Newman T.G. Pattern matching under affine transformations// IEEE transactions on computers. March 1977, pp. 314-317.

17. Teh C.H., Chin R.T. On image analysis by the methods of moments// IEEE transactions on pattern analysis and machine intelligence. 1988, Vol. 10, No. 4, pp. 496-513.

18. Томашевич H.С., Томашевич Д.С., Галушкин А.И. Методы реализации инвариантности к аффинным преобразованиям при распознавании двумерных изображений// Информационные технологии. Приложение. 2001, № 1.

19. Khotanzad A., Lu J.H. Classification of invariant image representations using a neural networks// IEEE Transactions on acoustic, speech and signal processing. 1990, Vol: 38, No. 6, pp. 1028-1038.

20. Khotanzad A., Hong Y.H. Invariant image recognition by Zernike moments// IEEE Transactions on pattern analysisand machine intelligence. 1990, Vol. 12, No. 5, pp. 489497.

21. Dudani S.A, Breeding K.J., McGhee R.B. Aircraft identification by moment invariants// IEEE Transactions on computers. 1977, Vol. 26, No. 1, pp. 39-45.

22. Rosenbach Kh., Schiller J. Identification of aircraft on the basis of 2-D-radar image// Proc. IEEE Int. Conf. "RADAR95". USA. 1995. pp. 405-409.

23. Smith F.W., Wright G.H. Automatic ship photo interpretation by the method of moments// IEEE Transactions on computer. September 1971, Vol. 20, pp. 1089-1095.

24. Abu-Mostafa Y.S, Psaltis D. Image normalization by complex moments// IEEE transactions on pattern analysis and machine intelligence. 1985, Vol. 7, No. 1, pp. 46-55.

25. L.A Torres-Mendez et all. Translation, rotation and scale-invariant .object recognition// IEEE transactions on systems, man, and cybernetics. 2000, Vol. 30, No. 1, pp. 125-129.

26. Дуда P., Харт П. Распознавание образов и анализ сцен. М.: Мир. 1976.

27. Jain А.К. Fundamentals of digital image processing. — NJ: Prentice Hall. 1989.

28. Grimson W.E.L. Object recognition by computer: the role of geometric constraints. Cambridge: MIT Press. 1990.

29. Perantonis S.J, Lisboa P.J.G. Translation, rotation, and scale invariant pattern recognition by high-order neural networks and moment classifiers// IEEE Transactions on neural networks. 1992, Vol. 3, No. 2, pp. 241-251.

30. Spirkovka L., Reid M.B. Coarse-coded higher-order neural networks for PSRI object recognition// IEEE Transactions on neural networks. 1993. Vol. 4, No. 2, pp. 276-283.

31. Fukushima K. A neural network for visual pattern recognition// IEEE Computer. 1988, Vol. 21, No. 3, pp. 65-75.

32. Widrow В., Winter R.G., Baxter R. A. Layered neural nets for pattern recognition// IEEE Transactions on acoustics, speech and signal processing. July 1988, Vol. 36, No. 7, pp. 1109-1118.

33. Fukumi M., Omatu S., Takeda F., Kosaka T. Rotationinvariant neural pattern recognition system with application to coin recognition// IEEE Transactions on neural networks. March 1992, Vol. 3, No. 2, pp. 272-278.

34. Fukumi M., Omatu S., Takeda F., Kosaka T. Rotationinvariant neural pattern recognition system estimating a rotation angle// IEEE Transactions on neural networks. May 1997, Vol. 8, No. 3, pp. 568-581.

35. Srinivasa N., Jouaneh M. A neural network model for invariant pattern recognition// IEEE Transactions on signal processing. June 1992, Vol. 40, No. 6, pp. 15951598.

36. Томашевич H.C. Нейросетевые алгоритмы выделения признаков и распознавания объектов на 2D изображениях инвариантные к аффинным преобразованиям// Труды 8-ой Всероссийской конференции «Нейрокомпьютеры и их применение». Москва. Россия. 2002, с. 185-187.

37. Сосулин Ю.Г., Фам Чунг Зунг. Нейросетевое распознавание двумерных изображений// Радиотехника и электроника. 2003, т. 48, № 8, с. 969-978.

38. Нейрокомпьютеры в системах обработки изображений. Под ред. Ю.В. Гуляева, А.И. Галушкина. М.: Радиотехника, 2003.

39. Красильников Н.Н. Цифровая обработка изображений.- М.: Вузовская книга, 2001.

40. Прэтт У. Цифровая обработка изображений. М.: Мир, 1982.

41. Otsu N. Д threshold selection method from gray-level histograms// IEEE Transactions on systems, man and cybernetics. 1979, Vol. 9, No. 1, pp. 62-66.

42. Дьяконов В., Круглов В. Математические пакеты расширения MATLAB: Специальный справочник. СПб.: Питер, 2001.

43. Powell M.J.D. Restart procedures for the conjugate gradient method// Mathematical programming. 1977, Vol. 12, pp. 241-254.

44. Moller M.F. A scaled conjugate gradient algorithm for fast supervised learning// Neural networks. 1993, Vol. 6, pp. 525-533.

45. Ту Дж., Гонсалес P. Принципы распознавания образов.- М.: Мир. 1978.

46. Sosulin Yu.G., Dung Р.Т. Neural network image recognition by Zernike and Pseudo-Zernike moments// Pattern Recognition and Image Analysis. 2003, Vol. 13, No. 2, pp. 363-366.

47. Сосулин Ю.Г., Фам Чунг Зунг. Анализ нейросетевого распознавания изображений в условиях шума и неопределенности ракурса// Труды 5-ой Международной конференции «Цифровая обработка сигналов и ее применение». Москва. Россия. 2003, с. 619-622.

48. Сосулин Ю.Г., Фам Чунг Зунг. Инвариантное распознавание изображений комбинированной нейронной сетью// Нейрокомпьютеры: разработка и применение. 2003, № 8-9, с. 29-37.

49. Фам Чунг Зунг. Построение комбинированной нейронной сети для инвариантного к повороту распознавания двумерных изображений// Труды Международной конференции «Авиация и космонавтика 2003». Москва. Россия. 2003, с. 227-228.

50. Сосулин Ю.Г., Фам Чунг Зунг. Метод инвариантного нейросетевого распознавания двумерных изображений//

51. Радиотехника и электроника. 2004, т. 49, № 5.

52. Сосулин Ю.Г., Фам Чунг Зунг. Инвариантное распознавание изображений обучающимся векторным кватователем// Труды 6-ой Международной конференции «Цифровая обработка сигналов и ее применение». Москва. Россия. 2004.

53. Матвеев A.M. Распознавание радиолокационного изображения объектов// Радиотехника. 2002, №9, с. 7175.

54. Цивлин И.П. Автоматическое распознавание радиолокационных изображений в бортовой PJIC// Радиотехника. 2002, №9, с. 43 50.

55. Балухто А.Н. Нейросетевая фильтрация и сегментация цифровых изображений: основные тезисы// Труды 7-ой Всероссийской конференции «Нейрокомпьютеры и их применение». Москва. Россия. 2002. с. 76 85.

56. Лебедев А.Г. Телевизионная система нейросетевого наблюдения наземных объектов: Автореферат дис. . канд. техн. наук/ М.: МАИ. 2001, 23с.

57. Стайнберг Б.Д. Формирование радиолокационного изображения самолета в диапазоне СВЧ// ТИИЭР. Декабрь 1988, т. 76, №12, с. 27 46.

58. Фархат Н.Х. Формирование радиолокационных, изображений методом разнесения в диапазоне СВЧ и автоматизированная идентификация целей, основанная на использовании моделей нейронных сетей// ТИИЭР. Май 1989, т. 77, №5, с. 43 57.

59. Арсенов С.М., Пасмуров А.Я. Алгоритмы обработки сигналов в системах формирования радиолокационныхизображений летательных аппаратов// Зарубежная радиоэлектроника. 1991, №1, с. 71 83.

60. Кононов А.Ф. Применение томографических методов для получения радиолокационных изображений объектов с помощью сверхширокополосных сигналов// Зарубежная радиоэлектроника. 1991, №1, с. 35 49.

61. Ширман Я.Д., Горшков С.А., Лещенко С.П., Братченко Г.Д., Орленко В.М. Методы радиолокационного распознавания и их моделирование// Зарубежная радиоэлектроника. Успехи современной радиоэлектроники. 1996, №11, с. 3 63.

62. Гинзбург В.М. Формирование и обработка изображений в реальном времени: Методы быстрого сканирования. М.: Радио и связь. 1986.

63. Ширман Я.Д., Орленко В.М. Тенденция повышения радиолокационного разрешения// Космическая радиофизика. 1998, выпуск 3.

64. Novae L., et al. Effects of polarization and resolution on SAR ATR// IEEE transactions on aerospace and electronic systems. 1997, No. 3, c. 102 116.

65. Саблин B.H., Чапурский В.В., Шейко А.П. Нейросетевое распознавание спектральных портретов воздушных объектов при наблюдении методом теневого инверсного радиолокационного синтезирования апертуры// Радиотехника и электроника. 2004, т. 49, № 2, с. 1 12.

66. Башкиров Л.Г., Саблин В.Н., Чапурский В.В., Шейко А.П. Радиолокационное распознавание воздушных объектов по радиоакустическим спектральнымпортретам с использованием обучаемых нейронных сетей// Полет. 2002, № 8, с. 23 33.