автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Разработка и исследование систем машинного зрения на основе спектральных и структурно-лингвистических методов

кандидата физико-математических наук
Бахрушина, Галина Ивановна
город
Хабаровск
год
1997
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Разработка и исследование систем машинного зрения на основе спектральных и структурно-лингвистических методов»

Автореферат диссертации по теме "Разработка и исследование систем машинного зрения на основе спектральных и структурно-лингвистических методов"

МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

Хабаровский государственный технический университет

г

ОА

На правах рукописи

)

Бахрушина Галина Ивановна

РАЗРАБОТКА И ИССЛЕДОВАНИЕ СИСТЕМ МАШИННОГО ЗРЕНИЯ НА ОСНОВЕ СПЕКТРАЛЬНЫХ И СТРУКТУРНО-ЛИНГВИСТИЧЕСКИХ

МЕТОДОВ

Специальность 05.13.16 - Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

Хабаровск -1997

Работа выполнена в Хабаровском государственном техническом университете.

Научный руководитель: доктор физико-математических наук,

профессор Зарубин А.Г.

Официальные оппоненты: доктор физико-математических наук,

профессор Быковский В.А.

кандидат технических наук, профессор Цой Р.И.

Ведущая организация: Институт проблем морских технологий

ДВО РАН

Защита состоится "Л1". Ш&МЛ^ 1997 г. в часов на

заседании диссертационного совета К 064.62.01 при Хабаровском государственном техническом университете по адресу: 680035, г. Хабаровск, ул. Тихоокеанская, 136.

С диссертацией можно ознакомиться в библиотеке Хабаровского государственного технического университета.

Автореферат разослан " $ " 1997

Ученый секретарь диссертационный совета

к.ф.-м.н., доцент /¡^ у Чехонин К.А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Создание моделей зрительных систем представляет собой один из важнейших разделов современной кибернетики и прикладной математики. Помимо чисто теоретического интереса, данная задача имеет большое практическое значение. Достаточно назвать, например, одну из актуальных проблем - проблему построения интегральных роботов, решение которой в значительной степени способствовало бы автоматизации различных производственных процессов. Действительно, так же как и человек, интегральный робот должен до 90% информации относительно проблемной среды получать посредством зрительной системы и, как минимум, оперативно решать задачи по распознаванию зашумленных объектов произвольной топологии, имеющих произвольную пространственно-упговую ориентацию и различный масштаб. Кроме того, интегральный робот должен определять значения некоторого набора параметров распознанного объекта, например, его координаты, угловое положение, линейные размеры и т.д. Поэтому проблема оперативной интерпретации визуальной информации посредством систем машинного зрения приобретает особую практическую значимость.

Среди широкого круга задач, необходимость в решении которых возникает при построении распознающих систем, наиболее сложной и наименее формализованной является задача выбора наборов признаков, описывающих распознаваемые объекты. В связи с этим особый интерес представляют исследования, связанные с изучением функционирования нейронных сетей зрительных систем, показавшие, что в них в качестве признаков используются спектральные признаки, формирование которых происходит в результате преобразований, напоминающих преобразования Фурье (следует отметить, что аналогичные преобразования выполняются и в слуховых системах). На основе этих исследований был сделан вывод о том, что инвариантность зрительных систем млекопитающих к пространственно-угловому положению и масштабу распознаваемых объектов в значительной степени обеспечивается, благодаря переходу в частотную область.

Целью работы является построение и исследование систем машинного зрения, предназначенных для оперативного распознавания и интерпретации зашумленных изображений с произвольным пространственно-угловым положением и масштабом на основе спектральных и структурно-лингвистических методов.

Методы исследования. Решение поставленной задачи осуществлено с использованием теории вероятностей, статистической теории принятия решений, спектральной теории сигналов, структурно-лингвистичеких методов и теории многослойных систем распознавания образов.

Научная новизна. В диссертационной работе получены следующие основные научные результаты:

1. Выполненные исследования позволили установить, что при представлении частотной плоскости в полярной системе координат обеспечивается инвариантность амплитудно-частотного спектра только к поворотам объекта на углы, кратные 90° . В связи с этим для повышения надежности распознающей системы предложено анализ изображений начинать с распознавания примитивов в виде отрезков заданной длины с угловой ориентацией, кратной 90°.

2. Предложен оригинальный подход к распознаванию объектов произвольного масштаба, с произвольной пространственно-угловой ориентацией, основанный на спектральном анализе отдельных фрагментов изображения с использованием структурно-лингвистических методов.

3. Для ускорения процедуры выполнения преобразования Фурье предложена новая система кусочно-постоянных базисных функций, для которой справедлива теорема о сдвиге. Исследованы ее свойства, доказаны теоремы о сдвиге и масштабе. Апробация предложенной кусочно-постоянной системы базисных функций подтвердила справедливость доказанных теорем.

4. В результате рассмотрения как общих принципов построения нейронных сетей (НС), так и конкретных вопросов их синтеза, на базе линейных пороговых элементов (ЛПЭ) разработана структура трехслойной НС, реализующей процедуры спектрального, сгруюурно-лингвистического анализа изображения, а также процедуры принятия решений.

Практическая ценность. Разработанные методы, алгоритмы и программы прежде всего могут быть использованы при построении интегральных роботов с целью автоматизации различных производственных процессов. В целом же полученные результаты, носят достаточно общий характер и поэтому могут быть использованы для решения широкого круга задач по анализу и распознаванию изображений (при автоматизации процедур анализа и распознавания аэрокосмических снимков, рентгенограмм, изображений шельфа морского дна и т. д.).

Реализация результатов. С помощью разработанного комплекса программ экспериментально установлено, что по всем показателям наибольшей надежностью характеризуется модель многоуровневой распознающей системы, основанная на спектральном анализе отдельных фрагментов изображения с применением структурно-лингвистических методов.

Апробация работы. Основное содержание диссертации доложено:

- на пятой краевой научно-практической конференции по повышению эффективности применения средств вычислительной техники и автоматизированных систем управления в народном хозяйстве Хабаровского края. Хабаровск, 1984.

- на всесоюзной конференции по машинной графике и цифровой об работке изображений. Владивосток: ИАПУ ДВНЦ АН СССР, 1985.

- на 23-й научно-практической конференции профессорско-прегю давательского состава. Хабаровск: ХПИ. 1988.

- на первом Советско-Китайском симпозиуме по актуальным проблемам научного и технического прогресса Дальневосточного региона на основе прямого Советско-Китайского сотрудничества. Хабаровск, 1991.

- на втором международном симпозиуме по содействию научному и техническому прогрессу на Дальнем Востоке. Харбин, Китай. 1992.

- на третьем международном Российско-Китайском симпозиуме по актуальным проблемам научного и технического прогресса Дальневосточного региона. Харбин, Китай. 1993.

- на четвертом международном симпозиуме по развитию науки и техники на Дальнем Востоке. Харбин, Китай. 1995.

- на расширенном заседании НТС НИИ КТ при ХГТУ, Хабаровск, 1997 г.

Публикации. По теме диссертации опубликовано 22 печатные работы.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и приложений. Работа содержит 232 страницы, в том числе 139 страниц основного машинописного текста, 17 страниц рисунков (39 рисунков), 5 страниц таблиц (10 таблиц), 61 страницу приложений и список литературы на 10 страницах (85 наименований).

СОДЕРЖАНИЕ РАБОТЫ

Во введении кратко излагается содержание задачи распознавания, отмечается актуальность выбранного направления исследований, определяются цель работы и основные положения, выносимые на защиту, приводится структура и содержание работы по главам.

В первой главе рассматривается математическая постановка задачи распознавания, структура распознающих систем и их классификация. Производится обзор классических методов решения задачи распознавания образов на основе байесовой теории принятия решений и структурно-лингвистических методов. Особое внимание уделяется таким вопросам, как выбор наборов признаков, описывающих распознаваемые объекты, и формирование эталонных образов объосгов.

В результате делается вывод о том, что в целом задачу распознавания можно разбить на три самостоятельные задачи:

- задачу выбора наборов признаков, описывающих распознаваемые объекты;

- задачу формирования эталонных образов распознаваемых объектов на основе этих признаков ;

- задачу принятия решения о принадлежности предъявленного объекта к тому или иному классу в соответствии с выбранным критерием (Байеса, Неймана-Пирсона, минимаксным и др.) на основе собранной тем или иным образом априорной информации.

Подчеркивается, что из трех перечисленных задач наименее формализованной является задача выбора наборов признаков, описывающих pao

«

познаваемые объекты, в то время как для решения остальных двух задач настоящее время широко используются методы математической статиста ки, теории информации, статистической теории принятия решений, мате матической лингвистики и других математических дисциплин.

Отмечается, что при решении проблемы формализации процедуры фор мирования наборов признаков одним из наиболее перспективных направ лений следует считать направление, связанное с разработкой и исследова нием методов спектрального анализа изображений распознаваемых объев тов. Идейной основой этого направления является известная теорема I сдайте сигнала, результат доказательства которой применительно к про блеме обработки изображений можно записать в виде:

Г (и, = (1)

где Р(и,\) и Р°(и,у) - спектральные плотности исходного и смещенного изображений; и, V = 0,1,..N -1 - пространственные частоты вдоль координатных осей / и к;

N - порядок квадратной матрицы яркостей, представляющей изображение;

а и Ь - целочисленные константы, определяющие значения смещений изображения вдоль координатных осей / и к.

Очевидно, что

= (2)

Из равенств (I) и (2) следует, что амплитудно-частотный спектр пр] смещениях исходного изображения изменений не претерпевает, в т> время как фазо-часготный спектр получает линейное приращение. Эп означает, чгго если в качестве признаков, характеризующих распозна ваемый объект, использовать составляющие модуля спектрально: плотности, то эти признаки не будут зависеть от произвольных смеще ний данного объекта вдоль координатных осей. В то же время каждом новому пространственному положению объекта будет соответствоват свой набор коэффициентов фазо-часготного спекгра, а следовательно, помощью этого спектра можно решить обратную задачу - определит пространственное положение объекта.

В первой главе рассмотрены также вопросы применения структурно лингвистических методов при анализе изображений, которые относят : одному из перспективных направлений при решении задач распознавали образов. При использовании этих методов в качестве признаков использ} ются так называемые примитивы в виде отдельных деталей распознг

ваемых объектов: горизонтальных, вертикальных и диагональных отрезков линий, пересекающихся отрезков, различных дуг и т.п.

Во второй главе в рамках сформулированных научных направлений исследуются различные подходы к решению задачи распознавания с использованием спектрального анализа как одномерной функции, представляющей исходное изображение, так и двумерной. В частности, проведены исследования по возможности построения алгоритма распознавания на основе одномерного спектрального анализа функции кривизны контура распознаваемого объекта. Рассматривается функция , характеризующая кривизну контура объекта, значение которой в точке ц определяется разностью между углом наклона касательной к оси абсцисс в этой точке и соответствующим углом наклона в некоторой стартовой точке обхода объекта по контуру. Функция преобразуется к периодической с периодом функции

= ц>(0./2п) + Х (I <?[0, 2л]),

где I - длина дуги контура распознаваемого объекта. В результате разложения функции в РЯД Фурье по полному ор-

тогональному тригонометрическому базису и замены переменной 8 = 1Х/2к получаются следующие выражения для определения значений коэффициентов этого разложения:

о о

Для перевода данных выражений в дискретную форму рассматривается объект с контуром в виде полигональной кривой, представлен-

Рис. I. Представление контура объекта в виде замкнутой полигональной кривой

Предполагается, что кривая имеет ] вершин Уо>> >••■,

V] (причем V¡-Уо) и что каждый отрезок полигональной кривой ('/,_!,V,- ) имеет длину Ди,-, изменение угла в вершине У{ составляет величину , а периметр кривой определяется следующим выражением:

¿-1

С учетом ступенчатого характера функции ц/(в) была получена дискретная форма представления коэффициентов ряда Фурье:

ЕМЧЬ. £ £ А^сск^^.

Амплитудно-частотный и фазо-частотный спектры определяются обычным образом:

Лп = V „ « и = ~агс^ьп!ап) ■

В работе приводится доказательство теоремы о том, что если начальные точки обхода двух замкнутых кривых у и Я. являющихся контурами одинаковых объектов и 5, отличаются на величину Ди (в единицах длины дуги), то имеют место следующие соотношения:

Ап=Ап, вп=8„+лДе, и уа =\0+а0-а0+М,

где Ае = -2кАц/Ь,

аа и йа - углы между осью абсцисс и касательными к кривым у и у в начальных точках.

Из данной теоремы следует, что в результате поворота распознаваемого объекта на произвольный угол амплитудный спектр его контура остается прежним, то есть, располагая спектральным описанием распознаваемого объекта в виде набора коэффициентов ряда Фурье Ап, несложно организовать процедуру распознавания аналогичного по форме объекта, независимо от его угловой ориентации.

Очевидно, что чем сильнее искажен контур объекта, тем в большей степени значения коэффициентов ряда Фурье будут отличаться от своих эталонных значений. В частности, если в результате воздействия помех в контуре объекта образуются разрывы, то траектория обхода контура может настолько измениться, что распознающий алгоритм полностью утеряет свою работоспособность.

Поэтому, с одной стороны, для повышения надежности рассматриваемого алгоритма предлагается использовать контурную медианную фильтрацию, которая в некоторой степени позволяет повысить вероятность правильного распознавания зашумленных объектов, с другой стороны, в данной работе проводятся широкие исследования по построению алгоритмов на основе двумерного спектрального анализа исходного изображения.

В частности, рассматриваются три возможных подхода к решению данной задачи с использованием двумерного преобразования Фурье.

Ранее отмечалось, что проблема построения распознающей системы, инвариантной к пространственному положению объекта, может быть успешно решена на основе теоремы о сдвиге. Для решения же проблемы инвариантности распознающей системы к угловому положению объекта исследуется возможность представления частотной плоскости (v, и) в полярных координатах (через радиус-вектор г и полярный угол ф), как показано на рис. 2. В этой случае поворот объекта на 90° не приводит к изменению длины радиуса-вектора г, и поэтому имеет место следующее равенство:

Л>,0°) = F(r, 90°),

которое означает, что спектр изображения распознаваемого объекта остается неизменным при повороте объекта на угол 90°.

С другой стороны, в работе показывается, что поворот объекта на угол, не кратный 90°, приводит к изменению длины радиуса-вектора г, в результате чего имеет место неравенство:

F(r, 0°) г F(r,cp), где <р* к-90° (к-целое).

Следствием этого неравенства может стать понижение надежности алгоритма распознавания.

Для решения проблемы формирования спектра, инвариантного к изменению масштаба распознаваемого объекта, в работах американских исследователей Brousil J.K., Smith D.R. предлагается после выполнения процедуры перехода в полярную систему координат с помощью операции логарифмирования отображать комплексную плоскость г -vf ju в новую комплексную плоскость = 1пг + ;<р, как показано на рис. 2. 90° Ф

90"

v 45°

0"

-90" 0 1

Рис. 2. Отображение комплексной плоскости yj в комплексную плоскость \(/2

2 In л

В результате лого преобразования формируется спектр /•'(Ылср), особенностью которого является то, что изменение масштаба объекта приводит к линейному перемещению матрицы значений ампштудно-частотного спектра вдоль оси 1п г в плоскости *|/2, а поворот объекта - к линейному перемещению вдоль мнимой оси <р. Поэтому по величине смещения данного спектра вдоль осей <р и 1п г можно судить об угловом положении объекта и его размере.

При повторном выполнении над полученной матрицей прямого преобразования Фурье, в соответствии с теоремой о смещении сигнала, можно получить новый спектр, инвариантный относительно сдвигов прежнего спектра. Поэтому новый спектр становится инвариантным относительно пространственно-углового положения объекта и его масштаба.

Однако следует заметить, что необходимость в выполнении многочисленных преобразований, включая повторное двумерное преобразование Фурье, требуег больших затрат машинного времени. Поэтому для повышения быстродействия алгоритма было предложено вообще исключить процедуры перехода в полярную систему координат, логарифмирования и повторного выполнения двумерного преобразования Фурье. Вместо этих преобразований было предложено выполнять преобразование с условным названием "конверт":

Р(и, V) Р(и, V) + /-(V, и), /■(V, и) := О,

где ": = " - знак операции присвоения, и = О, N - 1 ; у = и +1, N.

В результате указанного преобразования формируется спектр, инвариантный к поворотам изображения на углы, кратные 90°, Однако данный спектр не является инвариантным к изменению масштаба изображения.

В модифицированном алгоритме для определения углового положения распознанного объекта использовались значения первой гармоники спектра, полученного непосредственно после первого преобразования Фурье, а для определения масштаба - значения нулевой гармоники.

Экспериментальное исследование рассмотренных алгоритмов показало, что их надежность сильно зависит от углового положения объекта и снижается до минимума при его повороте на угол 45" относительно эталонного изображения.

В результате анализа причин низкой надежности рассмотренных алгоритмов были сделаны следующие выводы.

Так как основная часть энергии спектра распознаваемых изображений, как правило, сосредоточена в его низкочастотной области, го определяющую роль в принятии решения об отнесении объекта к тому или иному классу играют именно низкочасто шые составляющие спектра. Между тем, всю основную информацию об индивидуальных особенностях изображения каждого конкретно-

го объекта, о всех его мельчайших деталях несут высокочастотные составляющие спектра. Поскольку же на долю высокочастотных составляющих приходится незначительная часть энергии, то они не могут оказывать эамегного влияния на процедуру принятия решений. Поэтому с целью решения проблемы надежности была исследована возможность создания распознающей системы, в которой заключения об отнесении объекта к тому или иному классу принимались бы прежде всего на основе его мельчайших индивидуальных особенностей.

Действительно, согласно данным нейрофизиологии процесс обработки видеоинфомации в коре головного мозга представляет собой постепенное преобразование и анализ специфических особенностей исходного изображения. Этот анализ выполняется последовательно в соответствующих зонах коры, причем многочисленные и разнообразные детекторы различных кардинальных зон дифференцируют исходное изображение и выявляют на нем мельчайшие топологические особенности. Другими словами, этими детекторами распознаются такие примитивы, как отрезки линий, пересечения линий, разнообразные углы, дуги и т.п.

Поэтому при моделировании происходящих в зрительной системе процессов обработки информации необходимо прежде всего исходный видеосигнал пропустить через многоуровневую систему фильтров с целью обнаружения тех или иных элементарных признаков, т.е. примитивов. При этом на каждом уровне многоуровневой системы принимаются частые решения относительно тех или иных особенностей предъявленного объекта. Окончательное же решение об отнесении его к тому или иному классу принимается в результате анализа совокупности частных решений.

Моделирование описанного процесса обработки видеоинформации производилось с помощью трехуровневой системы фильтров.

На первом уровне имитировалась работа детекторов по обнаружению примитивов в виде отрезков заданной длины с различным угловым положением. С этой целью выполнялась операция дифференцирования исходного изображения, и затем над каждым фрагментом изображения, попавшим в окно заданного размера, выполнялись прямое двумерное преобразование Фурье и преобразование типа "конверт". По полученному амплитудно-частотному спектру выявлялись примитивы в виде отрезков. По фаэо-частотному спектру определялось пространственное положение примитива в пределах фрагмента, а по значениям первых гармоник амплитудно-частотного спектра - его угловое положение.

На втором уровне синтезировались отрезки произвольной длины из примитивов, выявленных на первом уровне. Для организации процедуры распознавания объектов произвольной топологии, не зависящей от их пространственно-углового положения и размеров, было предложено использовать более сложные примитивы в виде узловых точек объектов с инцидентными им отрезками прямых различной длины, как показано на рис. 3.

Распознавание этих примитивов выполнялось также на втором уровне

путем определения для каждого узла числа связанных с ним отрезков без учета их угловых положений и установления относительных длин этих отрезков. В результате выполнения указанных процедур формировалось описание предъявленного для распознавания объекта в виде упорядоченной по алфавиту цепочки символов из наименований примитивов.

+ ^ |

Рис. 3. Примеры примитивов в виде узловых точек символов с инцидентными им отрезками прямых различной длины

На третьем уровне принималось решение об отнесении предъявленного объекта к тому или иному классу. При этом была исследована возможность применения структурно-лингвистических методов для реализации процедуры синтаксического анализа цепочек, представляющих распознаваемые объекты. Поскольку в данной работе ставилась задача распознавания объектов на зашумленных изображениях, то для выполнения процедуры грамматического анализа было предложено использовать стохастические грамматики.

На этапе практической реализации распознающей системы актуальным становится вопрос рационального выбора системы базисных функций, используемых при выполнении преобразований Фурье, так как выполнение этих преобразований в экспоненциальном базисе приводит к значительным затратам машинного времени. В связи с этим интерес представляет возможность использования систем кусочно-постоянных базисных функций, позволяющая исключить такие вре-мяемкие операции, как вычисление тригонометрических функций и умножение вещественных величин на соответствующие значения функции /(/, к), представляющей анализируемое изображение.

Среди различных систем кусочно-постоянных базисных функций наиболее известной является система функций Уолша. Однако, как было доказано в данной работе, при преобразовании Фурье в базисе Уолша не выполняется теорема о смещении сигнала. В связи с этим возникла необходимость в разработке такой системы кусочно-постоянных базисных функций, для которой эта теорема была бы справедлива.

В работе предлагается новая система кусочно-постоянных базисных функций вида:

[Д..(х)| = {cu(x}±jsu(x)}, х &1-1/2, 1/2), и = 0,1, 2, 3,..., где с„(х) и - кусочно-постоянные функции: с0(х) = 1, зо(х)=0,

си (дг) = sign(cosIй%х), и - 1, 2, 3,...

su (х) - signfsia2йтис), и = 1, 2, 3,... Здесь sign (t) - функция знака.

Интервал определения функций с„(х) и ,гц(х) - [-1/2,1/2). Для функций си(х) он распадается на 2й (и = 0, 1, 2, ,..), а для функций j„(x) - на

2й + 1 (и = 1, 2,...) подынтервалов.

В каждом подынтервале функции с,Дх) и su(x) принимают попеременно значения +1 и -1, а на концах подынтервалов - нулевые значения. Система функций {#«(*)} распадается на подсистему четных функций

{1, сг(х), с2(х), с3(х),...} и подсистему нечетных функций

{si (*), S2(x), 53(х), ...}. В работе исследованы свойства предложенной системы. Показано, что данная система не является нормированной. В результате нормирования произведен переход к системе ЗД =

1, V* е 1-1/2, 1/2), и = 0 ; Ви(х), V*: д: = + . («' = 0. 1.....2"+I -1), и = 1,2, ...;

Ли<*). V* el-|, i), * * -I + i-l- (/ = 0, 1, .... 2B+1 - 1), « = 1, 2, ...

Для системы базисных функций {$„(*)} доказаны теоремы о сдвиге

и масштабе.

Теорема о сдвиге.

Пусть задан одномерный сигнал /(х), и над ним выполнено прямое

преобразование Фурье в базисе (х)|. Тогда при сдвиге сигнала в

пространственной области его амплитудный спектр (модуль комплексного спектра) не изменяется, а фазовый спектр получает дискретное приращение, кратное г/4. Теорема о масштабе

Пусть задан одномерный сигнал /(х), и над ним выполнено прямое преобразование Фурье в базисе {£„(*)}. Тогда "растяжение" ("сжатие") сигнала в пространственной области приводит к "сжатию"

("растяжению") амплитудно-частотного спектра и к изменению его значений.

Доказательство данных теорем в работе обобщено на двумерный случай.

В третьей главе рассматриваются математические основы построения нейронных сетей (НС), моделирующих работу зрительных систем. Исследуются как общие принципы создания нейронных сетей, так и конкретные вопросы их синтеза. На примере возможного варианта модели нейрона в виде линейного порогового элемента (ЛПЭ) отмечается, что разбиение Я-мерного пространства на два подпространства может быть реализовано с помощью линейной гиперплоскости вида:

N

!></,■+и>0= о, /=1

где N - размерность входного сигнала,

/( - г -я составляющая входного сигнала, - I -й весовой коэффициент ЛПЭ, порог.

В то же время подчеркивается, что линейная разделяющая гиперплоскость является оптимальной для случая классификации двух случайных векторов, распределенных по нормальным законам с равными ковариационными матрицами. Если случайные векторы имеют разные ковариационные матрицы, то граница разделения классов может принимать форму гиперсферы, гиперэллипсоида, гиперпараболоида. В этом случае для повышения вероятности правильной классификации случайных векторов, представляющих распознаваемые объекты, могут быть построены более сложные модели нейрона, реализующие нелинейные разделяющие поверхности, описываемые уравнениями вида : N N

£••■1*4-4 /«1-/«,+ • • • + /,=1 ¿,=1

N N N

»1=1 '2=1 '1=1

где г - порядок разделяющей гиперповерхности.

Как показали исследования в области нейрофизиологии, нейронная сеть представляет собой многослойную структуру, каждый слой которой состоит из большого числа нейронов, соединенных между собой многочисленными связями. Поэтому первостепенной задачей при построении НС на базе ЛПЭ является задача объединения ЛПЭ в слои, а слоев, в свою очередь, - в многослойную структуру. Приводится соотношение, связывающее вход и выход у-го ЛПЭ в каждом конкретном слое:

N

У у - sign ft + woj L/=i

где j-номер ЛПЭ в слое (j = i, ..., L), / = (/i,.-.,/iv) - входной сигнал слоя, W = |Wjj^j - матрица весовых коэффициентов слоя, WDj = ql) - вектор пороговых значений,

у j - выходной сигнал j- го ЛПЭ в слое.

В соответствии с рассмотренными принципами построения нейронных сетей была разработана структура трехуровневой НС, реализующей предложенный во второй главе алгоритм распознавания объектов на основе пофрагментаого спектрального анализа изображения и использования структурно-лингвистических методов. В главе приводится ее подробное описание.

Четвертая глава посвящена экспериментальным исследованиям по апробации различных подходов к решению проблемы распознавания объектов на основе рассмотренных в данной работе принципов. Исследования выполнялись с помощью разработанного ПО, включающего 10 программ на языках Си и Фортран. Результаты экспериментальных исследований сведены в таблицы, а по данным таблиц построены графики и объемные гистограммы распределения значений вероятностей правильного распознавания объектов в зависимости от величины соотношения сигнал/помеха, полученные при различных фиксированных комбинациях значений углов поворота, масштаба, а также при использовании различных критериев принятия решений,

В качестве примера на рис. 4 (а), 4 (Ь), 4 (с) представлено по три объемных гистограммы распределения значений вероятности правильного распознавания в зависимости от величины соотношения сигнал/помеха при фиксированных угловых положениях объекта, фиксированном масштабе 1:1 и критерии принятия решений по максимуму коэффициента корреляции.

Левые столбики гистограмм построены по данным, полученным с помощью программы, реализующей алгоритм пофрагментаого спектрального анализа изображения с использованием структурно-лингвистических методов, средние - по данным программы, реализующей алгоритм спектрального анализа целостного изображения с использованием преобразования типа "конверт", правые - по данным программы, реализующей алгоритм спектрального анализа целостного изображения с двукратным использованием преобразования Фурье.

На всех рисунках по горизонтальной оси откладываются значения соотношения сигнал/помеха sfn, по вертикальной - вероятности правильного распознавания Ра (s/rt), где а - угол поворота объекта.

а) Ь) с)

Рис. 4. Объемные гистограммы распределения значений Ра О/п), построенные при а = 0° (а), а - 45° (Ь), а = 90° (с) и критерии принятия решений по максимуму коэффициента корреляции

Анализируются полученные данные статистической обработки за-шумленных изображений. Отмечается, что наиболее высокой надежностью характеризуется система распознавания, построенная на основе спектрального анализа отдельных фрагментов изображения с использованием кусочно-постоянной системы базисных функций, а также синтеза изображения с помощью структурно-лингвистических методов.

Все главы содержат краткие выводы. В приложениях приведены тексты программ, реализующих предложенные алгоритмы.

ЗАКЛЮЧЕНИЕ

1. Анализ современного состояния проблемы распознавания изображений показал, что среди задач, возникающих при построении распознающих систем, наименее формализованной является задача выбора признаков, описывающих распознаваемые объекты.

2. Выполненные исследования позволили установить, что при использовании спектральных признаков появляется принципиальная возможность построения систем, способных распознавать объекты произвольной топологии, с произвольной пространственно-угловой ориентацией и различным масштабом.

3. Показано, что надежность распознающих систем, построенных исключительно на основе методов спектрального анализа изображения целостных объектов, является недостаточно высокой и в значительной

мере зависит от их углового положения и масштаба.

4. Выполненные исследования позволили установить, что при представлении частотой плоскости в полярной системе координат обеспечивается инвариантность амплитудно-частотного спектра только к поворотам объекта на углы, кратные 90° . В связи с этим для повышения надежности распознающей системы предложено анализ изображений начинать с распознавания примитивов в виде отрезков заданной длины с угловой ориентацией, кратной 90°.

5. Предложен оригинальный подход к распознаванию объектов, имеющих произвольную пространственно-угловую ориентацию и масштаб, основанный на спектральном анализе отдельных фрагментов изображения с использованием структурно-лингвистических методов.

6. Для ускорения процедуры выполнения преобразования Фурье предложена новая система кусочно-постоянных базисных функций, для которой приводятся доказательства теорем о сдвиге, масштабе, а также ряда других свойств.

7. В результате рассмотрения как общих принципов построения нейронных сетей (НС), так и конкретных вопросов их синтеза, на базе линейных пороговых элементов разработана структура трехслойной НС, реализующей процедуры спектрального, структурно-лингвистического анализа изображения, а также процедуры принятия решений.

8. Разработан комплекс программ, с помощью которого экспериментально доказана принципиальная возможность построения на основе методов спектрального анализа алгоритмов, обладающих способностью к распознаванию объектов произвольной пространственно-угловой ориентации и произвольного масштаба.

9. Экспериментально установлено, что по всем показателям наибольшей надежностью характеризуется метод, основанный на спектральном анализе отдельных фрагментов изображения с применением структурно-лингвистических методов.

10. Апробация предложенной кусочно-постоянной системы базисных функций подтвердила, что амплитудно-частотный спектр, полученный с помощью данного базиса, является инвариантным к смещениям распознаваемого объекта в горизонтальном и вертикальном направлениях, в то время как фазо-частотный спектр в зависимости от величины этих смещений может получать дискретное приращение, кратное ,т/4.

В целом по тематике обработки и распознавания цифровых изображений опубликовано 22 работы.

Основное содержание диссертации изложено в следующих работах:

1. Бахрушина Г.И., Бахрушин А.II., Курганов В.Д. Алюритм распознавания опорной зоны, инвариантный к ее угловой ориентации. В сб.: Проектирование и применение микропроцессорных систем управления. - М.: МИЭТ, 1984. - с. 27 - 3!.

2. Бахрушина Г.И., Бахрушин А.П., Кулешов А.Я. Исследование

Ifi

различных методов выделения контуров объектов на полутоновых изображениях. - Минск: ИТК АН БССР, 1986. - с.77-82.

3. Бахрушина Г.И., Стрельников В.В. Сравнительный анализ спектральных описаний контура объекта на основе различных базисов. Тезисы докладов 23-й научно-практической конференции профессорско-преподавательского состава. - Хабаровск: ХПИ, 1988. - с. 260.

4. Бахрушин А.П., Бахрушина Г.И. Представление функции, описывающей кривизну контура распознаваемою объекта, в виде полезного сигнала и аддитивной помехи. В кн. Программная и аппаратная реализация алгоритмов в радиоэлектронных и микропроцессорных системах. - Хабаровск: ХПИ, 1990. - с, 68 - 71.

5. Bahrushina G.I., Bahrushia А.Р. Optimum by Neumann-Pirson criterion recognition algorithm of noisy pictures and the analysis of its jamproof. The first Soviet Union - China symposium on the actual problems of scientific and technological progress of the Far Eastern region on the base of Soviet Union - China direct cooperation. - Khabarovsk, 1991. - pp. 16-17.

6. Bahrushin A.P., Bahrushina G.l. Computer simulation of pattern recognition processes in visual systems. 'Hie second international symposium on promotion of scientific and technological progress in the Far East. -Harbin, 1992.-pp. 1-5.

7. Бахрушина Г.И., Бахрушин А.П. Минимаксный критерий распознавания условных картографических знаков на зашумленных изображениях. В кн. Сборник научных трудов НИИ КТ. Выпуск I. - Хабаровск, НИИ КТ при ХГТУ, 1993. - с. 54 - 58.

8. Бахрушина Г.И., Бахрушин А.П., Архипов А.В., Олейников К.В., Соболев С.Е. Контурная медианная фильтрация распознаваемых объектов. В кн. Сборник научных трудов НИИ КТ. Выпуск 1. -Хабаровск, НИИ КТ при ХГТУ, №93. - с. 59 - 60.

9. Bahrushin А.P., Bahrushina G.I. A development of the image recognizing algorithm invariant to its dilation, rotation and spatial location with using Hadamard transform. The fourth international symposium on advances in science and technology in the Far East. - Harbin P. R. China, 1995. -pp. 81-84.

10. Бахрушин А.П., Бахрушина Г,И. Разработка алгоритма распознавания изображений, инвариантного к их масштабу, повороту и пространственному положению, с использованием преобразования Адама-ра. В кн. Сборник научных трудов НИИ КТ. Выпуск 2. - Хабаровск, НИИ КТ при ХГТУ. 1996. - с 66-6S.

11. Бахрушин А.П., Бахрушина Г И. Применение гомоморфных и спектральных преобразований при распознавании изображений. В кн. Сборник научных i рудо в НИИ КТ. Выпуск 2. - Хабаровск, НИИ КТ при ХГТУ. 1996,-с. 69-72.