автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Модель и методы распознавания объектов на изображениях в виде скалярных полей

кандидата технических наук
Чечель, Андрей Олегович
город
Санкт-Петербург
год
2013
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Модель и методы распознавания объектов на изображениях в виде скалярных полей»

Автореферат диссертации по теме "Модель и методы распознавания объектов на изображениях в виде скалярных полей"

На правах рукописи

Чечель Андрей Олегович

Модель и методы распознавания объектов на изображениях в виде скалярных полей

05.13.01 - Системный анализ, управление и обработка информации (связь и информатизация)

Автореферат диссертации на соискание ученой степени кандидата технических наук

Ч1 (ЖТ 20/3

Санкт-Петербург - 2013

005536227

005536227

Работа выполнена в Федеральном государственном образовательном бюджетном учреждении высшего профессионального образования "Санкт-Петербургский государственный университет телекоммуникаций им. проф. М. А. Бонч-Бруевича".

Научный руководитель: кандидат технических наук, доцент,

Болтов Юрий Фёдорович

Официальные оппоненты: Дегтярёв Владимир Михайлович,

доктор технических наук, профессор, Санкт-Петербургский государственный университет телекоммуникаций им. проф. М. А. Бонч-Бруевича, заведующий кафедрой Информатики и компьютерного дизайна

Волошина Наталия Викторовна, кандидат технических наук, Санкт-Петербургский государственный университет аэрокосмического приборостроения, доцент кафедры Технологий защиты информации и техносферной безопасности

Ведущая организация Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина), г. Санкт-Петербург.

Защита состоится 20 ноября 2013 года в 14.00 на заседании диссертационного совета Д 219.004.02 при Федеральном государственном образовательном бюджетном учреждении высшего профессионального образования «Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича», 193232, Санкт-Петербург, пр. Большевиков, д. 22, ауд. 554.

С диссертацией можно ознакомиться в библиотеке Федерального государственного образовательного бюджетного учреждения высшего профессионального образования «Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича» по адресу 191186, Санкт-Петербург, наб. реки Мойки, д. 65.

Автореферат разослан 18 октября 2013 года.

Ученый секретарь диссертационного совета, к.т.н., доцент

В.Х. Харитонов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Диссертационная работа посвящена исследованию процессов распознавания графических объектов. Предлагается использовать концепцию представления графической информации в виде скалярных полей (полевой модели) для построения систем распознавания, использующих анализ структурной составляющей обрабатываемых фрагментов. Такой подход позволяет повысить помехоустойчивость системы распознавания. В диссертационной работе созданы модель и методы идентификации искаженных графических объектов, исследованы способы повышения производительности процесса распознавания. Результаты использованы в разработке программной системы, выполняющей идентификацию объектов, классификацию символьной информации, видеотрекинг объектов.

Актуальность исследования. Системы распознавания графической информации являются важными компонентами вычислительных устройств, применяемых в различных областях гражданской и военной техники. Данной теме посвящено много научных трудов, затрагивающих философские, психологические и нейрофизиологические вопросы. В наши дни актуальность вопроса повышается, исследования получают практическую реализацию: в медицинском оборудовании, портативных устройствах, автоматических системах контроля, в сфере робототехники.

Большое влияние на формирование алгоритмической базы для систем распознавания оказали работы таких ученых, как Ф. Розенблатт, Г. Фримен, К.С. Фу, Р. Гонсалес, Я.А. Фурман. На данный момент предложено множество подходов к реализации систем распознавания графической информации. Среди них можно выделить методы, основанные на теории принятия решений (использование классификаторов, нейронных сетей); алгоритмы, использующие сегментацию и кластеризацию; структурный подход, включающий методы контурного анализа.

Анализ структурной составляющей фрагментов изображения сочетает в себе двоякую характеристику: с одной стороны, задача построения контуров графических объектов может быть решена достаточно эффективно, но вместе с этим, методы контурного анализа являются достаточно сложными в реализации, что обуславливается большим объемом информации,

подвергающейся морфологическому анализу. Данное обстоятельство является одной из главных причин проявленного научного интереса автора диссертационной работы к изучению и исследованию путей реализации системы распознавания, основанной на представлении изображений в виде скалярных полей.

Цель диссертационного исследования - улучшение характеристик идентификации объектов на основе представления изображений в виде скалярных полей.

Для достижения цели исследования в диссертационной работе были поставлены и решены следующие задачи:

- разработка модели графического объекта на основе разложения изображения на «высокочастотную» и «низкочастотную» составляющие;

- разработка статического метода идентификации объектов на изображениях в виде скалярных полей;

- разработка динамического метода локализации объектов для применения в системах обработки видеосигнала;

- программная реализация предложенного подхода, получение экспериментальных оценок, сравнение результатов с известными подходами.

Объектом исследования в данной диссертационной работе являются изображения и содержащиеся на них графические объекты.

Предмет исследования - распознавание объектов на основе классификаторов, модели представления графической информации, методы и алгоритмы сегментации, морфологическая обработка, методы обработки видеоряда, видеотрекинг объектов.

Методы исследования базируются на системном анализе, теории множеств, теории вероятностей, интегральном и дифференциальном вычислении, методах цифровой обработки сигналов, системного программирования, параллельной обработки данных. Кроме того, методологической базой исследования послужили работы Болтова Ю.Ф., Красильникова H.H., Гонсалеса Р., Фу К., Фурмана Я. А., а также концепция графического интерпретатора на основе полевой модели, разработанная на кафедре ЦВТиИ Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича.

Научная новизна исследования диссертационной работы заключается в следующем:

- предложена модель представления графических объектов в виде совокупности сигнатур контуров, отличающаяся высокой скоростью обработки и устойчивостью к наличию искажений;

- разработан статический метод идентификации объектов на изображениях, представленных в виде скалярных полей;

- предложен алгоритм определения смещения начальных точек цепных кодов, позволяющий сократить требуемую вычислительную мощность для процедуры вычисления коэффициента подобия двух контуров;

- разработан динамический метод локализации для систем обработки видеосигнала, позволяющий выполнять видеотрекинг объектов в режиме реального времени.

Практическая значимость работы выражается в следующем:

- разработанные алгоритмы и программное обеспечение могут быть использованы для решения задач идентификации в составе медицинского оборудования, дактилоскопических систем, программно-аппаратных комплексов слежения и регистрации объектов;

- предложен метод идентификации символьной информации в рамках разработанного программного обеспечения для применения в системах оптического распознавания символов;

- выполнена программная реализация системы видеотрекинга объектов, в основе которой лежит структурный анализ, построенный на концепции представления изображений в виде скалярных полей.

Внедрение результатов. Основные результаты получены автором на кафедре ЦВТиИ Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, в научно-исследовательской работе «Обработка графической информации на основе полевой модели для телекоммуникационных приложений. Концепция, математические построения, алгоритмы и программные оболочки» (гос. per. № 01201067398, 2010 г).

Разработанная программа «ChRecognizer» имеет свидетельство о государственной регистрации (№ 2013614251, 25.04.2013 г.).

Разработанные алгоритмы обработки видеосигнала и распознавания графических объектов использованы в системе обработки видеоконференций и докладов ООО «ЭПАМ Систэмз» (акт внедрения от 23.05.2013 г.).

Положения, выносимые на защиту:

- модель графического объекта на основе одномерных функций сигнатур контура;

- статический метод идентификации графических объектов на изображениях, представленных в виде скалярных полей;

- алгоритм определения смещения начальных точек цепных кодов для задачи определения подобия контуров;

- динамический метод локализации графических объектов для задач обработки видеосигнала.

Апробация работы: научные положения и практические результаты диссертационной работы докладывались и обсуждались на четырех всероссийских и международных научно-технических конференциях: 18-й, 19-й и 20-й Международной научно-технической конференции «Современное телевидение» (Москва, 2010-2012); 64-й Международной научно-технической и научно-методической конференции «Актуальные проблемы инфотелекоммуникаций в науке и образовании» (СПб, 2012); а также на: 62-й и 63-й научно-технической конференции профессорско-преподавательского состава научных сотрудников и аспирантов СПбГУТ (СПб, 2010, 2011)

Публикации: материалы, отражающие основное содержание работы, опубликованы в трех статьях в изданиях, рекомендованных ВАК Министерства образования и науки РФ, а также в восьми статьях в других научных журналах и сборниках трудов российских и международных конференций. Разработанная программа «СШеа^шгег» имеет свидетельство о государственной регистрации.

Структура и объем работы. Диссертационная работа состоит из введения, трех разделов, заключения, списка литературы (98 наименований) и двух приложений. Диссертационная работа содержит 145 страниц, включая б таблиц и 48 рисунков.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обозначается актуальность выбранной темы исследования, научная новизна и практическая значимость. Приводятся основные характеристики диссертационной работы с обозначением цели, задач исследования.

В первой главе рассматривается современный уровень развития методов и алгоритмов, использующихся для -задач идентификации и классификации графической информации. Известные методы подразделяются на три основных категории: детерминистские, статистические и структурные. Анализируются методы сегментации изображения (на основе пикселей, контуров, областей), являющиеся важным компонентом систем распознавания графической информации. Т.к. методы, базирующиеся на контурном анализе, чувствительны к качеству изображения, предлагается использовать представление графической информации в виде скалярных полей. Это позволяет повысить помехоустойчивость системы, снизить требуемую вычислительную мощность за счет уменьшения объема анализируемой информации.

Во второй главе предлагается подход к распознаванию графических объектов на основе разделения изображения на «высокочастотную» и «низкочастотную» составляющие. Для построения модели графического объекта в качестве полевых структур рассматриваются распределения градаций цветности плоскостей изображения. Подобное представление даёт возможность выделить из изображения пиксели, в окрестностях которых перепады градаций цветности превышают заданный порог, и интерпретировать их как источники цветности типа диполя, мощность которых пропорциональна значениям перепадов градаций цветности. Дальнейшее применение функции Грина позволяет построить поле особых точек, которое включает в себя все перепады градации цветности больше заданного порога:

где С'(х, Щ) - производная функции Грина по нормали к контуру; /0?о) -функция распределения производных в особых точках; хЦ - вектор, определяющий координаты особых точек; х - вектор, определяющий координаты в плоскости изображения.

Исходное изображение разделяется на две разных по характеру составляющих: поле источников, представляющее геометрическую маску изображения, и остаточное поле, являющееся цветовым фоном. Остаточное поле эквивалентно полю, полученному вычитанием геометрической маски из исходного изображения, оно не содержит перепады |радапи(1 цветности больше заданного порога Разделение изображения позволяет перейти от обработки в плоскости к анализу линейных объектов, представляющих его фрагменты Па Рисунке I Продемонстрирован процесс создания цепного кода.

а) б) ») г)

Рисунок I - Построение цепного кода: а) исходный объект. 6) особые точки: в) объединение особых точек в кромку: г) запись кромки в виде псиною кода

Представление изображений в виде скалярных полей позволяет получить более полный набор цепных кодов, имеющих большую длину. На Рисунке 2 изображена диаграмма, иллюстрирующая соотношение числа цепных кодов и их длин (изображение Lena.bmp, 16 оттенков серого) для трех методов: Field -представление изображений в виде скалярных полей; Simple - классический способ обнаружения контуров, OpenCV - обнаружение контуров с помощью фреймворка Open Source Compuier Vision Library. Из диаграммы видно, что предлагаемый способ позволяет получить большее количество кромок, причем не за счет уменьшения их длины.

Рисунок 2 - Соотношение числа ценных кодов и их длин (для ра «иых методов)

На Рисунке 3 продемонстрированы области, охваченные цепными кодами, полученными дня Рисунка 2, размер которых превышает 10 точек. Белые фрагменты на изображениях свидетельствуют о недостаточном охвате областей и .или о большой фрагментации (длины кромок менее 10 точек).

а) б) в)

Рисунок 3 - Области, охваченные пенными колами длиной более 10 wick a) Field, б) Simple, в) OpenCV

Для задачи идентификации объектов предлагается статический метод, включающий в себя процедуру определения подобия двух цепных кодов В современных подходах используется решение, связанное с обработкой вектор-контуров в комплексно значном пространстве. Вектор-контур задается совокупностью элементарных векторов комплекснозначного вида I) качестве коэффициента подобия принимается модуль нормированного скалярного произведения сравниваемых векторов:

1,1 И ГЦ 11*1 где Г, N - сравниваемые вектор-ко1пуры.

Так как искажения оказывают влияние на структурную составляющую объекта, ухудшается результативность методов на основе локального анализа на уровне единичного звена. В случае искаженных фафичсских объектов необходимо поддерживать отклонения большего порядка, но, тем не менее, производить сравнение геометрических показателей согласно заданным допущениям

Для решения дашюй проблемы предлагается изменить модель фрагмента изображения, перейдя от представления кромки цепным циклическим кодом к представлению одномерной функцией сигнатуры Новое представление отражает геометрическую форму объекта вне зависимости от его маспггаба и угла поворота вокруг собственной оси. Для обеспечения данных характеристик

выбирается модификация сигнатуры «угол-расстояние», в которой вместо отсчетов угла иснатьзуются все пиксели кромки. В качестве значений функций регистрируются моменты инерции каждой отдельной точки контура относительно ценгра массы фигуры (Рисунок 4, а). Точка центра массы используется в качестве опорной, т.к. она сохраняет положение относительно границ фигуры даже при значительных искажениях Ввиду замкнутости контура получаемы функция является непрерывной, периодической. Пример одномерной функции сигнату ры цифры «5» представлен на Рисунке 4, б.

N Л f

___ N I s

%

а) б)

Рисунок 4 - Сигнатура конт>-ра а) пришит построения. 6) функция сигнатуры цифры «}»

Сигнатура «угол-расстояние» не всегда позволяет полно описать контур. Причина заключается в отсутствии информации о направлении (т. е контуэ с тгнбом на 180 градусов и контур без изгиба будут представлены схожими функциями) Лля решения проблемы модель фрагмента дополняется характеристикой, определяющей момент инерции точек контура вокруг заданной оси Ось определяется двумя точками - одной из устойчивых точек выбирается центр массы фигуры, вторая точка выбирается произвольнс и фиксируется для -»талона Для анализируемого обьекта - вторая точка оси выбирается в соответствии со смешением, которое необходимо придт. функции сигнатуры для получения максимального коэффициента подобия Определение осл вращения объекта не требует дополнительных вычислительных ресурсов, т. к. вся необходимая информация вычисляется па первом этапе сравнения сигнатур.

Для установления подобия двух сигнатур необходимо согласовать их начальные точки, которые в общем случае произвольны. В существующих методах сравнения контуров для этой нети используется перебор всех возможных комбинаций для установления максимального коэффициента подобия. В дангой главе предлагается усовершенствованный алгоритм, позволяющий на порядок уменьшить число итераций по тестируемому контуру:

1)Для эталонного объекта начальной точкой выбирается первый элемент

2) Вычисляется взвешенное среднее арифметическое значение дискретных отсчетов функции сигнатуры контура эталонного объекта.

3) Вычисляется взвешенное среднее арифметическое значение дискретных отсчетов функции сиг натуры контура анализируемого объекта для всех возможных стартовых точек.

4) Из результатов, полученных на шаге (3) выбирается N точек, минимально отстающих по значению от величины, вычисленной на шаге (2).

5) Для выбранных элементов производится вычисление подобия кромок с определением максимальною значения

Определение подобия кромок заключается в установлении корреляции одномерных функций сигнатур. Представим исходную и анализируемую функции в качестве дискретных сигналов 5,. и S2 Выразим относительную амплитуду сигнала S, через энергии обоих сигналов

¿1 = Д. гдеЕ =

Для получения относительной амплитуды второго сигнала воспользуемся формулой, описывающей энергию разностного сигнала:

Так как минимальное значение разностного сигнала (случай идентичности) равно нулю, вычислив частную производную но амплитуде, получим:

N

1 ¿«0

Отношение значений амплитуд Л2 и И, определяет меру сходства сигналов:

n

тгш!^-

На основе предложенного статического метода идентификации объектов реализована программа классификации символьной информации. Для оценки разработанного подхода используется база тестовых изображений MN1ST (Mixcd National Institute of Standards and Technology), включающая полутоновые изображения, содержащие рукописные цифры Результаты исследования показали (Рисунок 5), что статический метод илс1гтнфикации объектов превосходит результаты подхода на основе анализа корреляционных функций

вектор-контуров Для дополнительного улучшения результатов возможно предварительное обучение.

« 704 | «ж | дек | 404 С 304 I 204 1 104 04 Анализ 18% 1 мжтур-* и с «торо* О 49% Недоспи •г СМ*«оцп 644 ¿»Г (5 Об УЧ«МИ*М)

Рисунок 5 - Успешность распознавания рукописных символов (база изображений N(N^1;

Во второй главе также приводится исследование влияния шума та генерируемые ценные коды, представляющие отдельные фрагменты изображения. Для уменьшения чувствительности к шуму целесообразно применять сглаживание изображения. Таблица I демонстрирует зависимость количества генерируемых цепных кодов для изображения «Пингвины» эт коэффициента сглахиваиия

Таблица I - Число кромок тестового изображения для различных вариантов ст лаживлнш (с установленным пороговым значением, равным 4)

Цветность, бит Оригинал Сглаженное 0(1) Сглаженное (х2) Сглаженное (хЗ)

1 26» 1167 225 154

2 5832 3124 882 429

3 14129 8881 3375 1761

4 22828 16055 6698 4030

в 16362 10602 4342 3129

6 17297 10906 4802 3774

7 19036 12537 5326 4185

Данные в табтнцс приведены для изображений с различной цветноспю (глубиной цвета). Предварительное сглаживание изображения позволяет уменьшить количество кромок, так как в результате устраняются шумы, внесенные ПЗС матрицей регистрирующего аппаратного устройства Во время генерации цепного кода не происходит его разрыва в локальной области, гле имело место наличие шума Как следствие, дшна генерируемых цепных кодов увеличивается, что свидетельствует об уменьшении случаев разрыва кромок.

Ма Рисунке 6 изображен график зависимости средней длины кромок от коэффициента сглаживания исходного изображения. Для любой глубины цветное™ изображения прослеживается стабильная динамика роста длины кромок при увеличении коэффициента сглаживания Как можно видеть из данных, приведенных в Таблице I, а также из Рисунка 6 - глубина цвета изображения оказывает влияние на количество генерируемых кромок наибольшая эффективность подхода, связанного со сглаживанием изображения, наблюдается для изображений с небольшой цветностью Отмечается, что при использовании модели представления фрагментов изображения в виде скалярных нолей, сглаживание не нарушает процесс распознавания (результаты не искажаются), так как отсекаемая информация не несет структурной составляющей фрагментов.

Рисунок 6 - Иллюстрация зависимости средней .пины кромок 01 параметров сглаживания изображений с рашой глубиной цвета

Для случаев более выраженных искажений предлагается использовать метод объединения кромок Ввиду того, что каждая точка изображения может имегь не более 3-х вхождений в цепной код общее число кромок не может превышать некоторого предельною значения Крупные объекты в большинстве случаев дробятся на несколько фрагментов, тем самым, затрудняется их распознавание. Увеличение анализируемых кромок приводит к уменьшению требуемой вычислительной мощности и ускорению процедуры локализации.

Очевидно, что для задачи объединения цепных кодов величина значения цветности кромок не обязательно должна быть идентичной, так как обнаружение кромок ведется с условием порогового значения По избежание удвоения порогового значения для объединяемых фрагментов устанавливаемая разность величин цветности равняется половине порогового значения Полученные результаты свидетельствуют об уменьшении генерируемых цепных кодов для тестового июбражения в 2-4 раза (в зависимости от параметров изображения). Оба рассмотренных метода могут быть задействованы в рамках одного процесса распознавания

Для оценки качества работы разработанных методов используются полутоновые изображения с наложением белого шума. В качестве критерия качества процесса распознавания принимается количество распознанных объектов в зависимости от величины соотношения сигнал/шум (Рисунок 7).

сигнал/шум, ДБ

•СЛИ«<ОСП^«€ Ш Анд ли! мктор-яонтуро»

Рисунок 7 - ввиснмость числа распознанных объектов от соотношения сигнал/шум

Совокупность разработанных мер снижения вычислительных затрат (уменьшение числа анализируемых цепных кодов, алгоритм поиска смешения начальных точек цепных кодов) позволила применить концепцию представления образов о пиле скалярных полей для талом обработки видеосигнала Для этого создан динамический метол локализации объектов Он предполагает комбинирование информации отдельных кадров с использованием межкадровой информации для построения моделей объектов

динамической сцены. Таким образом, алгоритмы установления подобия кромок, применяемые в статическом методе, применимы для динамического. Снижение вычислительных нагрузок выполняется путем анализа кадров и межкадровой информации в локальной области. В рамках исследовательской работы разработана программа видеотрекинга объектов. Полученные результаты подтверждают возможность применения динамического метода локализации объектов для обработки видеосигнала высокой четкости в режиме реального времени на базе современных персональных компьютеров.

В третьей главе описывается практическая реализация системы распознавания. Рассматриваются основные возможности платформы .NET Framework для реализации созданных подходов, а также архитектурные вопросы, связанные с построением системы распознавания и ее отдельных модулей. Приводятся сравнительные результаты производительности рассмотренных подходов, обосновывается оптимальный выбор.

Анализируются методы доступа к изображению и его пикселям. Результаты анализа свидетельствует о необходимости использования прямого доступа к памяти объекта Bitmap, а также кэширования каналов изображения. Данные меры позволяют увеличить скорость обработки в системе распознавания графических объектов на 1 -2 порядка.

Разработанные методы и алгоритмы использованы для идентификации объектов, структурная информация которых задается при помощи шаблонов. Шаблон представляет собой совокупность линейных объектов, описывающих сегменты изображения. Рассматриваются вопросы сериализации шаблонов.

В заключении приводятся основные результаты, полученные в диссертационной работе.

ЗАКЛЮЧЕНИЕ

Основные результаты, полученные в диссертационной работе, следующие:

- Разработан статический метод идентификации графических объектов, использующий принцип разделения изображения на скалярные поля. Метод позволяет построить систему распознавания графических объектов, устойчивую к наличию шумов и искажений.

- Построена модель графического объекта на основе совокупности сигнатур контуров фрагментов. Модель подразумевает использование

«высокочастотной» составляющей изображения, представляющей его геометрическую маску, для получения цепного кода. Цепной код впоследствии преобразуется в одномерные непрерывные периодические функции сигнатур контура.

- Разработан алгоритм нахождения смещения начальных точек контуров, позволяющий ограничить число итераций по контуру в процедуре установления коэффициента подобия двух кромок.

- Предварительное сглаживание изображения приводит к увеличению средней длины цепных кодов, что свидетельствует об уменьшении влияния шума на качество результатов распознавания. Данная мера также сказывается на уменьшении конечного числа детектируемых кромок.

- Разработан динамический метод локализации объектов, позволяющий выполнять видеотрекинг объектов. Производительность метода позволяет использовать его для обработки видеосигнала высокой четкости в режиме реального времени.

- Проведен анализ методов захвата видеосигнала в ОС Windows средствами платформы Microsoft .NET с использованием библиотек: AviCap32, DirectShow, Media Foundation. Согласно полученным результатам, для нагруженных систем обработки видеоинформации целесообразно использовать платформу DirectShow.

- На основе предложенных методов и моделей разработано программное обеспечение, позволяющее выполнять распознавание графических объектов согласно заданному эталонному шаблону, классификацию символьной информации, видеотрекинг объектов. Экспериментальные данные свидетельствуют о повышении качественных характеристик по сравнению с процессом распознавания объектов, построенным на анализе корреляционных функций вектор-контуров.

В качестве направления для дальнейшего исследования предложено применение разработанных подходов к трехмерным сценам, использование нейронных сетей для обработки функций сигнатур контуров.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Чечель, А. О. Захват и покадровая обработка видеосигнала в среде .Net / А. О. Чечель // RSDN Magazine. - М. : К-Пресс, 2012. - № 2. - С. 59-66 (из перечня ВАК).

2. Болтов, Ю. Ф. Интерпретатор графической информации в полевой модели: построение и возможности. Часть 1 / Ю. Ф. Болтов, А. О. Чечель // Телекоммуникации. - 2012. -№ 8. -С. 6-14 (из перечня ВАК).

3. Болтов, Ю. Ф. Интерпретатор графической информации в полевой модели: построение и возможности. Часть 2 / Ю. Ф. Болтов, А. О. Чечель // Телекоммуникации. - 2012. - № 11. - С. 6-11 (из перечня ВАК).

4. Чечель, А. О. Свидетельство о государственной регистрации программы для ЭВМ № 2013614251 / А. О. Чечель // «CliRecognizer», Российская Федерация, заявка № 2013611942 от 14.03.2013, опубл. 25.04.2013.

5. Чечель, А. О. Распознавание образов на основе представления графической информации в виде полевых структур / А. О. Чечель, В. С. Чистов // Труды учебных заведений связи. - 2009. - № 181. - С. 64-70.

6. Чечель, А. О. Модель идентификации образов в черно-белых изображениях, представленных в виде полевых структур / А. О. Чечель // 62-я научно-техническая конференция профессорско-преподавательского состава научных сотрудников и аспирантов: материалы. - СПб. : ГОУВПО СПбГУТ, 2010.-С, 88-90.

7. Чечель, А. О. Анализ статических сцен с применением концепции полевых структур: математическая модель / А. О. Чечель, В. С. Чистов // Современное телевидение. Труды 18-й Международной научно-технической конференции. - М. : ФГУП "МКБ Электрон", 2010. - С. 206-209.

8. Чечель, А. О. Анализ статических сцен с применением концепции полевых структур: Экспериментальная модель / А. О. Чечель, В. С. Чистов // Современное телевидение. Труды 18-й Международной научно-технической конференции. - М. : ФГУП "МКБ Электрон", 2010. - С. 209-212.

9. Чечель, А. О. Идентификация сложных объектов в цветных изображениях / А. О. Чечель // 63-я научно-техническая конференция профессорско-преподавательского состава научных сотрудников и аспирантов: материалы. - СПб. : ГОУВПО СПбГУТ, 2011. - С. 206-207.

10. Чечель, А. О. Классификация графических объектов посредством представления их в виде полевых структур / А. О. Чечель // Современное телевидение и радиоэлектроника. Труды 19-й Международной научно-технической конференции. - М. : ФГУП "МКБ Электрон", 2011. - С. 165-168.

11. Чечель, А. О. Локализация в видео потоке объектов, представленных полевыми структурами / А. О. Чечель // Международная научно-техническая и научно-методическая конференция «Актуальные проблемы инфотелекоммуникаций в науке и образовании», 20-24 февраля 2012 года : материалы. - СПб. : Издательство СПбГУТ, 2012. - С. 208-209.

12. Чечель, А. О. Трекинг графических объектов, представленных в виде полевых структур / А. О. Чечель // Современное телевидение и радиоэлектроника. Труды 20-й Международной научно-технической конференции. - М.: ФГУП "МКБ Электрон", 2012. - С. 130-133.

Подписано в печать 10.10.2013. Формат 60x84 1/16. _Печ. л. 1,0. Тираж 100 экз._

Отпечатано в СПбГУТ, 191186, Санкт-Петербург, наб. реки Мойки, 61

Текст работы Чечель, Андрей Олегович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ

Федеральное государственное образовательное бюджетное учреждение

высшего профессионального образования "Санкт-Петербургский государственный университет телекоммуникаций

им. проф. М.А. Бонч-Бруевича"

На правах рукописи

Чечель Андрей Олегович

■ 1 I

МОДЕЛЬ И МЕТОДЫ РАСПОЗНАВАНИЯ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ В ВИДЕ СКАЛЯРНЫХ ПОЛЕЙ

05.13.01 - Системный анализ, управление и обработка информации (связь и информатизация)

У™ Диссертация на соискание ученой степени

СО

кандидата технических наук

Ю со

СО -

со Я

^ с : Научный руководитель

О кандидат технических наук, доцент,

СМ °°

^а. ^ Болтов Юрий Федорович

Санкт-Петербург - 2013

Оглавление

Введение...........................................................................................................................4

Актуальность исследования........................................................................................4

Общая характеристика работы....................................................................................6

Структура диссертации и взаимосвязь отдельных глав...........................................9

1. Состояние вопроса по проблематике распознавания изображений.....................12

1.1. Детерминистские методы распознавания.........................................................14

1.1.1. Решающие функции......................................................................................14

1.1.2. Метод потенциальных функций..................................................................17

1.1.3. Функции расстояния.....................................................................................18

1.1.4. Методы выявления кластеров......................................................................20

1.2. Статистические методы распознавания............................................................22

1.2.1. Последовательные процедуры распознавания...........................................26

1.3. Структурные методы распознавания................................................................28

1.3.1. Синтаксическое распознавание...................................................................30

1.4. Сегментация изображения..................................................................................32

1.4.1. Сегментация на основе анализа пикселей..................................................34

1.4.2. Сегментация на основе анализа контуров..................................................37

1.4.3. Сегментация на основе анализа областей...................................................38

1.5. Вывод....................................................................................................................40

2. Распознавание объектов на изображениях в виде скалярных полей...................42

2.1. Представление изображений в виде скалярных полей....................................44

2.2. Выделение контуров фрагментов в полевой модели.......................................48

2.3. Модель графических объектов на изображениях в виде скалярных полей..51

2.4. Статический метод идентификации объектов..................................................55

2.4.1. Идентификация объекта без искажений.....................................................55

2.4.2. Идентификация искаженного объекта........................................................61

2.5. Обработка на ранней стадии: детектирование изломов..................................67

2.6. Алгоритм объединения цепных кодов..............................................................70

2.7. Механизм идентификации в задачах распознавания текста...........................79

2.8. Динамический метод локализации объектов...................................................85

3. Практическая реализация системы распознавания объектов...............................94

3.1. Введение в платформу .NET Framework...........................................................94

3.2. Построение системы распознавания в платформе .NET Framework.............97

3.3. Разработка модулей системы распознавания...................................................99

3.3.1. Модуль ввода и обработки изображений...................................................99

3.3.2. Модуль ввода видеосигнала.......................................................................104

3.3.3. Сериализатор объектов...............................................................................115

3.3.4. Система работы с неуправляемой памятью.............................................119

3.3.5. Многопоточный обработчик подзадач.....................................................121

3.3.6. Детектор кромок..........................................................................................122

3.3.7. Подсистема распознавания........................................................................123

3.3.8. Подсистема видео трекинга объектов.......................................................124

3.3.9. Система построения шаблонов..................................................................126

3.3.10. Пользовательский интерфейс..................................................................126

Заключение...................................................................................................................131

Список литературы......................................................................................................133

Приложение 1. XML схема сериализации данных (алгоритм ChSerializer)..........144

Приложение 2. Области, охваченные цепными кодами..........................................145

Введение

Диссертационная работа посвящена исследованию процессов распознавания графических объектов. Предлагается использовать концепцию представления графической информации в виде скалярных полей (полевой модели) для построения систем распознавания, использующих анализ структурной составляющей обрабатываемых фрагментов. Такой подход позволяет повысить помехоустойчивость системы распознавания. В диссертационной работе созданы модель и методы идентификации искаженных графических объектов, исследованы способы повышения производительности процесса распознавания. Результаты использованы в разработке программной системы, выполняющей идентификацию объектов, классификацию символьной информации, видеотрекинг объектов.

Актуальность исследования

Системы распознавания графической информации являются важными компонентами вычислительных устройств, применяемых в различных областях гражданской и военной техники. Такие системы позволяют многократно упростить решение повседневных задач, связанных с обработкой графической информации. Повышенный спрос на автоматизацию рутинных процессов способствует созданию новых методов, а также совершенствованию существующих подходов. С развитием информационных технологий появилась возможность реализовывать аппаратно-программные комплексы, выполняющие анализ информации на новом качественном уровне. Речь идет о визуальной информации, обработка которой ранее была доступна только живым организмам. В результате образовалось новое направление в сфере цифровой обработки сигналов - цифровая обработка изображений [1].

Задача распознавания объектов представляет собой одно из перспективных направлений цифровой обработки изображений. Проблема распознавания волнует человечество со времен древнегреческих философов, задававшихся вопросом,

почему возможно распознавание тех или иных графических образов, узнавание людей, предметов и т.д. Данной теме посвящено много научных трудов, затрагивающих философские [2], психологические [3] и нейрофизиологические вопросы [4]. В наши дни актуальность вопроса повышается, философские рассуждения и теоретические исследования получают практическую реализацию: в медицинском оборудовании, портативных устройствах, автоматических системах контроля, в сфере робототехники. В научном сообществе не прекращается поток публикаций, предлагающих новые алгоритмы и методы для распознавания образов. Тем не менее, несмотря на проделанный труд, не существует универсального подхода к решению данной проблемы. Предлагаемые решения не могут считаться совершенными, а совокупность недостатков и ограничений каждой конкретной системы диктует условия ее использования. В ряде случаев эти ограничения обуславливаются обратно пропорциональной зависимостью между скоростью обработки и качеством получаемых результатов. Этот факт побуждает проводить новые исследования и создавать системы распознавания графической информации, реализующие весь потенциал аппаратного обеспечения в полной мере.

Большое влияние на формирование алгоритмической базы для систем распознавания оказали работы таких ученых, как Ф. Розенблатт, Г. Фримен, К.С. Фу, Р. Гонсалес, Я.А. Фурман. На данный момент предложен ряд подходов к распознаванию образов [5] [6]. Среди них можно выделить методы, основанные на теории принятий решений (использование классификаторов, нейронных сетей), структурные методы, алгоритмы, использующие сегментацию и кластеризацию, а также методы контурного анализа. Последний подход сочетает в себе двоякую характеристику: с одной стороны, задача построения контуров графических объектов может быть решена достаточно эффективно, но вместе с этим, методы контурного анализа являются достаточно сложными в реализации, что обуславливается большим объемом информации, подвергающейся морфологическому анализу. В моделях, реализующих контурный анализ, контур - это не абстрактная единица информации, а вполне осмысленная, имеющая

логическое значение конструкция, адекватно представляющая графический объект (или его часть) в изображении. Данное обстоятельство является одной из главных причин проявленного научного интереса автора диссертационной работы к изучению и исследованию путей реализации программной системы, основанной на применении анализа структурной составляющей графических объектов в задачах идентификации и распознавания визуальной информации.

Общая характеристика работы

Цель диссертационного исследования - улучшение характеристик идентификации объектов на основе представления изображений в виде скалярных полей.

Для достижения цели исследования в диссертационной работе были поставлены и решены следующие задачи:

- разработка модели графического объекта на основе разложения изображения на «высокочастотную» и «низкочастотную» составляющие;

- разработка статического метода идентификации объектов на изображениях в виде скалярных полей;

- разработка динамического метода локализации объектов для применения в системах обработки видеосигнала;

- программная реализация предложенного подхода, получение экспериментальных оценок, сравнение результатов с известными подходами.

Объектом исследования в данной диссертационной работе являются изображения и содержащиеся на них графические объекты.

Предмет исследования - распознавание объектов на основе классификаторов, модели представления графической информации, методы и алгоритмы сегментации, морфологическая обработка, методы обработки видеоряда, видеотрекинг объектов.

Методы исследования базируются на системном анализе, теории множеств, теории вероятностей, интегральном и дифференциальном вычислении, методах цифровой обработки сигналов, системного программирования, параллельной обработки данных. Кроме того, методологической базой исследования послужили работы Болтова Ю.Ф., Красильникова H.H., Гонсалеса Р., Фу К., Фурмана Я.А., а также концепция графического интерпретатора на основе полевой модели, разработанная на кафедре ЦВТиИ Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича.

Научная новизна исследования диссертационной работы обуславливается следующими факторами:

- предложена модель представления графических объектов в виде совокупности сигнатур контуров, отличающаяся высокой скоростью обработки и устойчивостью к наличию искажений;

- разработан статический метод идентификации объектов на изображениях, представленных в виде скалярных полей;

- предложен алгоритм определения смещения начальных точек цепных кодов, позволяющий сократить требуемую вычислительную мощность для процедуры вычисления коэффициента подобия двух контуров;

- разработан динамический метод локализации для систем обработки видеосигнала, позволяющий выполнять видеотрекинг объектов в режиме реального времени.

Практическая значимость работы выражается в следующем:

- разработанные алгоритмы и программное обеспечение могут быть использованы для решения задач идентификации в составе медицинского оборудования, дактилоскопических систем, программно-аппаратных комплексов слежения и регистрации объектов;

- предложен метод идентификации символьной информации в рамках разработанного программного обеспечения для применения в системах оптического распознавания символов;

- выполнена программная реализация системы видеотрекинга объектов, в основе которой лежит структурный анализ, построенный на концепции представления изображений в виде скалярных полей.

Внедрение результатов. Основные результаты получены автором на кафедре ЦВТиИ Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича, в научно-исследовательской работе «Обработка графической информации на основе полевой модели для телекоммуникационных приложений. Концепция, математические построения, алгоритмы и программные оболочки» (гос. per. № 01201067398, 2010 г).

Разработанная программа «ChRecognizer» имеет свидетельство о государственной регистрации (№ 2013614251, 25.04.2013 г.).

Разработанные алгоритмы обработки видеосигнала и распознавания графических объектов использованы в системе обработки видеоконференций и докладов ООО «ЭПАМ Систэмз» (акт внедрения от 23.05.2013).

Положения, выносимые на защиту:

- модель графического объекта на основе одномерных функций сигнатур

контура;

- статический метод идентификации графических объектов на изображениях, представленных в виде скалярных полей;

- алгоритм определения смещения начальных точек цепных кодов для задачи определения подобия контуров;

- динамический метод локализации графических объектов для задач обработки видеосигнала.

Апробация работы: научные положения и практические результаты диссертационной работы докладывались и обсуждались на четырех

всероссийских и международных научно-технических конференциях: 18-й Международной научно-технической конференции «Современное телевидение» (Москва, 2010); 19-й Международной научно-технической конференции «Современное телевидение и радиоэлектроника» (Москва, 2011); 20-й Международной научно-технической конференции «Современное телевидение и радиоэлектроника» (Москва, 2012); 64-й Международной научно-технической и научно-методической конференции «Актуальные проблемы

инфотелекоммуникаций в науке и образовании» (СПб, 2012); а также на: 62-й научно-технической конференции профессорско-преподавательского состава научных сотрудников и аспирантов СПбГУТ (СПб, 2010); 63-й научно-технической конференции профессорско-преподавательского состава научных сотрудников и аспирантов СПбГУТ (СПб, 2011).

Публикации: материалы, отражающие основное содержание работы, опубликованы в трех статьях в изданиях, рекомендованных ВАК Министерства образования и науки РФ, а также в восьми статьях в других научных журналах и сборниках трудов российских и международных конференций. Разработанная программа «ChRecognizer» имеет свидетельство о государственной регистрации.

Структура диссертации и взаимосвязь отдельных глав

Диссертационная работа состоит из введения, трех разделов, заключения, списка литературы (98 наименований) и двух приложений. Диссертационная работа содержит 145 страниц, включая 6 таблиц и 48 рисунков.

Во введении обозначается актуальность выбранной темы исследования, научная новизна и практическая значимость. Приводятся основные характеристики диссертационной работы с обозначением цели, задач исследования. В качестве подтверждения достоверности полученных результатов приводятся сведения об апробации работы, актах внедрения, публикациях автора.

Первая глава посвящена анализу состояния вопроса в сфере распознавания изображений. В ней рассматривается современный уровень развития методов и

алгоритмов, использующихся для задач идентификации и классификации зрительной информации. Вводится разделение на три основных категории: детерминистские, статистические и структурные методы. Для каждой из категорий рассматриваются использующиеся в ней подходы и алгоритмы для решения задач идентификации графических объектов. Также в первой главе рассматриваются современные методы сегментации изображения, входящие в состав большинства систем распознавания. Описываются подходы, связанные с анализом пикселей, контуров и областей. В конце главы приводится заключение об эффективности рассмотренных алгоритмов и их практическом применении. Отмечается, что методы, базирующиеся на контурном анализе, чувствительны к качеству изображения, наличию шумов и искажений, а также требуют больших вычислительных мощностей. В качестве развития таких методов предлагается использовать разработанный поход к распознаванию графической информации с представлением ее в виде скалярных полей, что позволяет нивелировать ряд недостатков систем, использующих анализ структурной информации.

Вторая глава диссертационной работы посвящена детальному рассмотрению предложенного подхода к распознаванию объектов путем обработки графической информации на основе ее представления в виде скалярных полей. В данной главе описывается логическая структура системы распознавания. Вводится понятие модель графического объекта, описывается механизм разделения изображения на «высокочастотную» и «низкочастотную» составляющую. Подобное разделение позволяет построить геометрическую маску изображения