автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Сопровождение и распознавание объектов на телевизионных изображениях
Автореферат диссертации по теме "Сопровождение и распознавание объектов на телевизионных изображениях"
005061772
ГАНИН АЛЕКСАНДР НИКОЛАЕВИЧ
СОПРОВОЖДЕНИЕ И РАСПОЗНАВАНИЕ ОБЪЕКТОВ НА ТЕЛЕВИЗИОННЫХ ИЗОБРАЖЕНИЯХ
05.12.04 - Радиотехника, в том числе системы и устройства телевидения
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
1 з ті 20)3
Ярославль, 2013
005061772
Работа выполнена на кафедре динамики электронных систем ФГБОУ ВПО «Ярославский государственный университет им. П.Г. Демидова»
Научный руководитель:
Официальные оппоненты:
Ведущая организация:
Зав. кафедрой динамики электронных систем ЯрГУ им. 11.1'. Демидова, доктор технических наук, профессор
Брюханов Юрий Александрович
Доктор технических наук,
технический директор ООО «НПФ «САД-КОМ»
Дворковнч Александр Викторович
Доктор технических наук, доцент Медведева Елена Викторовна
ФГБОУ ВПО «Владимирский государственный университет имени Александра 1 ригорьевича и Николая Григорьевича Столетовых»
Защита диссертации состоится 28.06.2013 на заседании диссертационного совета Д 212.131.01 в ФГБОУ ВПО «Московский государственный технический университет радиотехники, электроники и автоматики» по адресу: 119454, г. Москва, просп. Вернадского, д. 78.
С диссертацией можно ознакомиться в библиотеке МГТУ МИРЭА.
Автореферат разослан «24» мая 2013 г.
Ученый секретарь диссертационного совета Д212.131.01, к.т.н., проф.
А.И. Стариковский
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Миллиарды камер охранного телевидения -неотъемлемая часть современного цивилизованного мира. Изображения сменяют друг друга на мониторах, многочисленные операторы обеспечивают безопасность в аэропортах, на вокзалах и в других общественных местах. Видеонаблюдение сегодня считается едва ли не самым главным техническим инструментом обеспечения безопасности. Важнейшую роль в современных системах охранного телевидения играют алгоритмы цифровой обработки изображений и компьютерного зрения, позволяющие контролировать тысячи видеоканалов в режиме реального времени.
Для построения современных систем охранного телевидения характерны следующие основные проблемы и задачи:
— обнаружение объекта интереса на сложном изменяющемся фоне;
— измерение пространственных параметров и оценка динамических параметров объектов по наборам последовательных кадров;
— сопровождение объектов;
— классификация и распознавание динамических объектов.
Среди объектов для распознавания и классификации наиболее развитой и актуальной задачей является детектирование и классификация человеческих лиц. В настоящее время эта задача находит применение в различных сферах человеческой деятельности (в первую очередь, в системах безопасности). Сферами применения распознавания лиц являются, например, системы охранного телевидения, сравнение фотографий на паспортах или водительских удостоверениях, контроль доступа к безопасным компьютерным сетям и оборудованию в учреждениях, наблюдение за аэропортами и вокзалами для предотвращения террористических актов и др. В большинстве практических ситуаций анализ входного изображения должен осуществляться в режиме реального времени. Современные алгоритмы позволяют детектировать лицо человека на реальных видеоизображениях со сложным фоном с вероятностью, превышающей 90%. Среди них самым известным является алгоритм на основе бустинга, предложенный P. Viola и М. Jones в 2001 г.
Целью задачи сопровождения (трекинга) является установление соответствия между различными объектами или частями в последовательности кадров и нахождение траекторий объектов, а также вычисление их динамических характеристик, таких как скорость и направление движения. Сопровождение объектов в большинстве практических приложений требуется осуществлять также в режиме реального времени.
Одним из важнейших направлений компьютерного зрения является задача автоматизированного распознавания объектов. Успешное решение этой задачи необходимо для разработки и производства систем, способных интеллектуально оценивать внешнюю среду и выполнять в ней те или иные действия. Однако в реальных системах охранного телевидения задачу распознавания объектов приходится решать в условиях наличия искажений, связанных с помехами в радиотехнических устройствах и сжатием двумерного сигнала. Поэтому для эффективного решения поставленной задачи требуется применение специализированных алгоритмов цифровой обработки изображений. Среди них
можно выделить нелинейные алгоритмы фильтрации и восстановления изображений, вейвлет-обработку, системы, построенные на нечеткой логике, генетических алгоритмах, нейронных сетях.
В области разработки алгоритмов цифровой обработки телевизионных изображений внесли вклад как отечественные ученые - Ю.Б. Зубарев, М.И. Кривошеев, B.Ii. Дворкович, A.B. Дворкович, М.К. Чобану, A.C. Крылов, Ю.С. Бехтин, Ю.С. Радченко, A.JI. Приоров, так и зарубежные - R. Gonzalez, R. Woods, A. Bovik, Y. Neuvo, J. Astola, К. Ëgiazaryan, M. Nikolova.
Первые работы по распознаванию динамических объектов были опубликованы еще в конце 1980-х гг. Следует отметить особый вклад советских и российских ученых, занимающихся в данной области, таких как Ю.И. Журавлев, Ю.В. Гуляев, В.А. Сойфер, А.И. Галушкин, В.Н. Вапник, Н.Г. Загоруйко,
A.A. Потапов. В области анализа-синтеза алгоритмов сопровождения объектов и оценки параметров их движения на видеоизображениях выделяются работы Б.А. Алпатова, 11.В. Бабаяна, М.Н. Фаворской, Ю.В. Визильтера, Е.В. Медведевой,
B. Lucas, T. Kanade.
На сегодняшний день достигнуты значительные успехи при построении систем видеоаналитики, систем аутентификации личности по изображениям. Однако существуют нерешенные проблемы при распознавании динамических образов из-за сложности и многообразия поведения объектов реального мира. Существует класс задач, где особую важность приобретает информация о структуре и движении объектов сцены (видеонаблюдение в закрытых помещениях, в местах большого скопления людей, управление движением робототехнических комплексов, наблюдение за движением транспортных средств и т.д.).
Так, например, для задач сопровождения объектов на современном этапе развития представляет интерес обработка следующих практических ситуаций:
— изменение изображения или освещенности сцены;
— наличие шума камеры;
— присутствие объектов, изменяющих свою форму;
— временное исчезновение объектов интереса, возникающее из-за перекрытия их другими объектами;
— наличие нескольких одновременно движущихся объектов с близкими характерными признаками и пересекающимися траекториями.
Для задач распознавания объектов актуальным остается поиск алгоритмов, работающих в режиме реального времени и позволяющих идентифицировать объект в условиях наличия помех на телевизионных изображениях. Поэтому на современном этапе развития науки и техники разработка и анализ алгоритмов сопровождения и распознавания объектов на телевизионных изображениях представляют собой актуальную задачу.
Основной целью работы является разработка, усовершенствование и исследование новых алгоритмов сопровождения и распознавания объектов на видеоизображениях в условиях наличия искажений и помех, обусловленных практическими требованиями для функционирования систем охранного телевидения.
Объектом исследования являются алгоритмы сопровождения и распознавания объектов, применяемые в радиотехнических системах обработки и анализа изображений и современных системах телевидения.
Предметом исследования являются модификация и разработка алгоритмов, с целью повышения эффективности функционирования видеоинформационных систем охранного телевидения.
Задачи диссертационной работы:
- разработка алгоритмов сопровождения объектов на телевизионных изображениях в условиях наличия специфических искажений и помех;
- разработка методики объективного сравнения различных алгоритмов сопровождения объектов по видеоданным;
- разработка комбинированного алгоритма обработки изображения, зашумленного белым гауссовским шумом, сочетающего нелинейную фильтрацию на основе адаптивного дискретного косинусного преобразования и алгоритм распознавания лиц;
- усовершенствование работы алгоритма распознавания объектов на основе локальных бинарных паттернов с использованием дополнительной информации о цвете объекта.
Методы исследования. При решении поставленных задач использовались современные методы цифровой обработки изображений, компьютерного зрения, распознавания образов, математического анализа, теории вероятностей и математической статистики. Для практической реализации алгоритмов применялись современные численные методы и методы объектно-ориентированного программирования на языке С#.
Научная новизна полученных результатов
В рамках данной работы получены следующие новые научные результаты:
- разработаны новые алгоритмы сопровождения объектов на видеоданных, показывающие свою эффективность в условиях наличия искажений и помех;
- разработан комбинированный алгоритм обработки телевизионного изображения, зашумленного аддитивным белым гауссовским шумом, на основе нового алгоритма нелинейной фильтрации и алгоритма распознавания лиц;
- разработана модификация алгоритма распознавания объектов на телевизионных изображениях на основе локальных бинарных паттернов с использованием дополнительной информации о цвете.
Практическая значимость полученных результатов
1. Разработана методика объективного сравнения различных алгоритмов сопровождения объектов по видеоданным.
2. Проведен анализ работы алгоритмов сопровождения объектов на видеоданных при наличии искажающих факторов и предложены модификации, позволившие повысить уровень сопровождения в среднем на 5-10%.
3. Разработаны модификации алгоритма распознавания лиц путем использования информации о цвете и предварительной нелинейной цифровой фильтрации, позволившие увеличить результат верного распознавания на
10-20% в условиях наличия искажений, связанных с помехами в радиотехнических устройствах и сжатием двумерного сигнала.
4. Разработан критерий качества функционирования систем определения числа объектов на видеоданных для решения ряда практических задач в области современных систем охранного телевидения.
Разработанные методы и алгоритмы требуют для их практической реализации относительно небольших вычислительных ресурсов, что позволяет использовать их для обработки телевизионных изображений в системах реального масштаба времени.
Результаты работы внедрены в соответствующие разработки ООО «А-ВИЖН», г. Ярославль, ООО «JIBJI Инжиниринг», Московская обл. Отдельные результаты диссертационной работы внедрены в учебный процесс ЯрГУ им. 11.1'. Демидова в рамках дисциплин «Цифровая обработка изображений», «Компьютерное зрение», а также в научно-исследовательские работы при выполнении исследований в рамках гранта РФФИ №10-08-01186. Получено свидетельство на программный продукт, зарегистрированное в Реестре программ для ЭВМ.
Достоверность полученных научных результатов обусловлена применением адекватного математического аппарата, подтверждается их согласованностью с результатами проведенного компьютерного моделирования и сопоставлением полученных результатов с научными данными, известными из российской и зарубежной литературы.
Апробация работы. Результаты работы докладывались и обсуждались на следующих научно-технических конференциях и семинарах:
- 1st IEEE International Conference on Circuits and Systems for Communications (ICCSC'02), Sankt Petersburg, 2002.
- 4-я, 13-15-я международные конференции «Цифровая обработка сигналов и ее применение», Москва, 2002, 2011-2013.
- 67-я научная сессия, посвященная Дню радио, Москва, 2012.
- 18-я международная научно-техническая конференция «Радиоэлектроника, электротехника и энергетика», Москва, 2012.
- 14-я всероссийская научно-техническая конференция «Нейроинформатика», Москва, 2012.
- 10-я всероссийская научная конференция «Нейрокомпьютеры и их применение», Москва, 2012.
- 2-я всероссийская научная конференция молодых ученых с международным участием, Рыбинск, 2012.
- International MultiConference of Engineers and Computer Scientists (imaging engineering section), Hong Kong, 2013.
Публикации, llo теме диссертации опубликовано 22 научные работы, из них 2 статьи в журналах, рекомендованных ВАК, учебное пособие, 17 докладов на научных конференциях, свидетельство о регистрации программы для ЭВМ.
Структура п объем работы. Диссертация состоит из введения, четырех разделов, заключения, списка использованных источников, содержащего 96
наименований. Она изложена на 149 страницах машинописного текста, содержит 62 рисунка и 5 таблиц.
Основные научные положения и результаты, выносимые на защиту:
1. Алгоритм сопровождения объектов на телевизионных изображениях на основе метода Лукаса-Канаде с использованием медианной фильтрации скоростей ключевых особенностей и детектора препятствий увеличивает уровень сопровождения объектов, при наличии искажений и помех, на 5-10% по сравнению с классическим алгоритмом.
2. Применение предварительного алгоритма фильтрации на базе адаптивного дискретного косинусного преобразования позволяет использовать алгоритм распознавания на основе локальных бинарных паттернов в ситуации присутствия аддитивного белого гауссовского шума.
3. Модификация алгоритма на основе локальных бинарных паттернов с использованием дополнительной информации о цвете повышает уровень распознавания на 10-20% по сравнению с исходным алгоритмом.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность выбранной темы, сформулированы цель и задачи исследования, изложены основные положения, выносимые на защиту, показаны научная новизна и практическая значимость работы.
В первой главе представлена общая схема автоматизированной системы визуального наблюдения, а также ее частный случай - блок-схема системы анализа аудитории, на примере которой проводится подробный анализ основных компонентов систем охранного телевидения.
Система анализа аудитории состоит из следующих основных блоков.
1. Детектирование объектов. Используется для обнаружения интересующих объектов - лиц людей, с целью их последующего анализа. Данная операция имеет важнейшее значение и от используемых здесь алгоритмов зависит работоспособность всей системы в целом.
2. Сопровождение объектов. Отвечает за отслеживание объектов между моментами детектирования. Является важным компонентом системы для непрерывного отслеживания положения и размеров объекта.
3. Распознавание объектов. В рамках данной системы под распознаванием понимается способность системы классифицировать детектированные ранее объекты по двум классам - известный объект (объект, который уже есть в базе системы) и неизвестный объект (объект, который появился впервые и должен быть зарегистрирован в системе).
4. Классификация объектов. В данной системе лица людей делятся на два класса - «мужчины» и «женщины». В дальнейшем планируется также классификация аудитория по возрастным характеристикам.
Проведена систематизация, анализ и практическая реализация известных методов решения задач для каждого из приведенных блоков.
Данная работа посвящена разработке, модификации и анализу алгоритмов, которые применяются для сопровождения и распознавания объектов в условиях
наличия искажений и помех, обусловленных практическими требованиями для функционирования систем охранного телевидения.
Во второй главе разработаны новые алгоритмы сопровождения объектов и методика анализа, позволяющая оценить их эффективность.
Задача сопровождения лица состоит в определении положения прямоугольной области, описанной вокруг него, в каждом кадре видеопоследовательности. Начальное положение рамки определяется автоматически с помощью алгоритмов детектирования. Задачу сопровождения лица можно разбить на несколько подзадач:
- определение положения лица при его перемещении в плоскости экрана;
- масштабирование рамки при перемещении лица в пространстве относительно камеры (приближении или удалении);
- обработка ситуаций частичного или полного перекрытия объекта препятствием.
Базой для разработки алгоритмов сопровождения лиц был выбран классический алгоритм на основе метода Лукаса-Канаде. Он основан на вычислении разреженного оптического потока для ряда ключевых особенностей лица. В этом случае для определения положения и размеров рамки лица строится ограничивающий прямоугольник, проходящий через крайние ключевые точки.
Пусть х - особенность первой функции Г, необходимо найти такую точку х + Н функции б, что разность окрестностей этих точек по мере минимальна. Расстояние между окрестностями записывается в виде:
Используя это приближение, ищется минимум Е путем дифференцирования и приравнивания производной к нулю:
дх
д Г д 8 д Т
где"^"= ^Г-'^--градиент. дх дх\ дх2 дхп
где
- градиент.
Отсюда смещение к можно получить как
й =
^ дх) і дх
Для алгоритма Лукаса-Канаде предложены три варианта построения рамки объекта, целью которых является наиболее точное определение положеній и размеров объекта, а также учет возможного его перекрытия другим объектом или препятствием.
Алгоритм Лукас-Канаде-1. Пусть (х,.,_уД ; = 1, 2,N - координаты ключевых особенностей в текущем кадре видеопоследовательности, а (х\ ,у\), і = 1, 2,..., N - координаты этих особенностей в предыдущем кадре. Вычислим скорость каждой особенности, т.е. расстояние в пикселях, которое она прошла между двумя последовательными кадрами:
^Г=УІ-УІ,і = І, N.
Усреднив полученные значения скоростей, найдем вектор смещения всего объекта:
N N угор _ _(=1_ у «ер _
N N
Прибавив к координатам объекта в предыдущем кадре значения горизонтального и вертикального смещений, получим положение объекта в текущем кадре. Для определения размеров объекта применяется аналогичный подход, но вместо скоростей точек используется отношение расстояний до центра объекта в текущем и предыдущем кадрах.
Алгоритм Лукас-Каиаде-2. Рассмотренный выше вариант определения положения и размеров объекта позволяет успешно решить поставленную задачу в случае отсутствия искажений на изображении и резких значительных изменениях в положении отдельных ключевых особенностей, связанных с ошибками в работе алгоритма сопровождения. Наличие подобных искажений приводит к ложным смещениям (дрожаниям) рамки объекта и изменениям ее размеров.
С целью устранить подобные аномальные сдвиги отдельных ключевых точек к их скоростям у,го? и применяется медианный фильтр с размером маски 3. Медианная фильтрация устраняет отдельные аномальные значения скоростей, что позволяет более точно определить итоговое смещение объекта. Аналогичные действия выполняются и над отношениями к1, что позволяет более точно определить коэффициент масштабирования объекта.
Алгоритм Лукас-Канаде-3. Описанные способы построения рамки лица показывают хорошие результаты, если сопровождаемый объект постоянно находится в поле зрения камеры. В практических приложениях требуется добавить в алгоритм детектор препятствий, который будет приостанавливать сопровождение объекта на время его перекрытия и возобновлять сопровождение, когда объект
вновь появится в поле зрения камеры. Для этого область объекта делится на 9 областей равного размера (рис. 1). Полученные области индексируются, и при первоначальном нахождении ключевых особенностей каждая из них оказывается в определенной области и получает соответствующий индекс.
Когда препятствие начинает перекрывать объект, ключевые особенности, оказавшиеся в перекрытой зоне, «цепляются» за препятствие и начинают двигаться вместе с ним. При этом они покидают свои зоны и становятся некорректными. Если число корректных точек становится меньше некоторого заданного порога, объект считается полностью перекрытым и перестает сопровождаться.
Для анализа эффективности алгоритмов сопровождения лиц была предложена тестовая видеопоследовательность разрешением 640x480 пикселей (рис. 2). Она имеет следующие ключевые особенности:
- в поле зрения камеры на протяжении всей видеопоследовательности находится лицо одного человека (рис. 2а);
человек совершает горизонтальные перемещения, а также перемещается в пространстве, удаляясь и приближаясь к камере (рис. 26);
- несколько раз лицо человека на короткие промежутки времени перекрывается препятствием (теннисной ракеткой) (рис. 2в).
1 2 9 3
4 о— 6
7 8 9
^ Смещение точки в некорректную зону
Рис. 1. Деление на части области объекта
Рис. 2. Примеры кадров из тестовой видеопоследовательности
Предложенный алгоритм Лукас-Канаде-З сравнивался с методом на основе цветовых гистограмм (МЦГ) и классическим алгоритмом Лукаса-Канаде. На рис. 3 показан уровень сопровождения лица для указанных алгоритмов. Под уровнем сопровождения понимается процент кадров из заданного интервала, на которых правильно определено положение сопровождаемого объекта.
Из представленных зависимостей алгоритм на основе МЦ1' на данной видеопоследовательности практически не справляется со своей задачей, постоянно теряя объект. Это связано с тем, что часть фона (задняя стена и потолок) по своему
цвету близки к цвету лица, поэтому рамка объекта очень часто смещается на эти области.
Алгоритм Лукаса-Канаде сопровождал лицо в течение практически всей видеопоследовательности. Потери лица в этом случае связаны с прохождением препятствия (ракетки), вследствие чего часть ключевых точек переходила на препятствие и продолжала дальнейшее движение вместе с ним. Подобный выход ключевых особенностей из области, занимаемой объектом, приводил к существенным деформациям рамки. Алгоритм Лукас-Канаде-3 успешно отслеживал объект на протяжении большей части видеопоследовательности, потеряв объект лишь в конце вследствие дрожания камеры.
Рис. 3. Уровень сопровождения трех алгоритмов для тестовой видеопоследовательности
Значения среднеквадратичной ошибки для уровня сопровождения трех рассматриваемых алгоритмов составили: 76 для алгоритма МЦГ, 42,3 для алгоритма Лукаса-Канаде и 38,4 для алгоритма Лукас-Канаде-3. Подобные соотношения, показывающие превосходство разработанного алгоритма Лукаса-Канаде-3, были получены и для других (более простых) типов тестовых телевизионных последовательностей.
В третьей главе разработан комбинированный алгоритм обработки телевизионного изображения, зашумленного белым гауссовским шумом, на основе нового алгоритма нелинейной фильтрации и модифицированного с использованием информации о цвете объекта алгоритма распознавания лиц.
На рис. 4 представлена схема эксперимента для сравнения трех алгоритмов распознавания - алгоритма на базе метода главных компонент (МГК), алгоритма на базе линейного дискриминантного анализа (ЛДА) и алгоритма на базе локальных бинарных паттернов (ЛБП).
Моделирование показывает, что алгоритмы МПС и ЛДА демонстрируют хорошие результаты только в случае хорошего освещения или, когда в базе
присутствует, по крайней мере, 10 изображений каждого объекта (человека). Такие условия редко достижимы в реальных системах охранного телевидения. Алгоритм на основе ЛБП устраняет этот недостаток.
Основная идея метода заключается в том, чтобы не рассматривать все изображение в качестве вектора высокой размерности, а описать только локальные свойства объекта. Извлеченные признаки будут иметь низкую размерность.
Рис. 4. Схема проведения эксперимента по распознаванию объектов Формальное определение оператора ЛБ11:
р=о
где (хс,ус) - центральный пиксель с интенсивностью гс, гр - интенсивность соседнего пикселя р, где Р - общее число соседних пикселей, 5 - сигма-функция.
Далее строится гистограмма распределения локальных микропаттернов, таких как края, пятна и др. Сравнение гистограмм может проводиться различными способами (пересечение гистограмм, метод максимального правдоподобия и др.). Для распознавания по туловищу использовался алгоритм на основе сравнения цветовых гистограмм. База изображений содержала N классов, каждый из которых содержал М экземпляров объекта. Для тестирования использовался набор из
изображений двух типов. Изображения первого типа (X) - это изображения людей, которые присутствуют в базе. Изображения второго типа (У) - это изображения людей, которых нет в базе. Для проведения первого эксперимента были выбраны следующие параметры: N=10, М=5, Х=6, У=18.
Для тестирования работы алгоритма использовалось две базы изображений, полученных из видеопоследовательностей различного разрешения. На рис. 5а показаны примеры изображений лиц и туловищ из первой базы. Кадры видеопоследовательности, из которых были получены данные изображения, имеют высокое разрешение 1024x684. Полученные из них изображения лиц масштабировались до размера 100x100 пикселей. Изображения туловищ не масштабировались, и их размер составлял в среднем 150x250 пикселей.
Примеры изображений из второй базы показаны на рис. 56. Видеопоследовательность, из которой были получены данные изображения, имела более низкое разрешение 640x480. В связи с этим исходные изображения лиц также имели меньшие размеры и масштабировались до размеров 80x80 пикселей. Как и для предыдущей базы изображения туловищ не масштабировались и имели в среднем для данной базы размеры 120x170.
а) б)
Рис. 5. Примеры тестовых изображений: а) из базы с высоким разрешением; б) из базы с низким разрешением
После проведения процедуры оптимизации порогового значения алгоритм на базе ЛБП верно распознал 23 из 24 тестовых изображений при использовании базы изображений с высоким разрешением. Аналогичные результаты для алгоритмов на базе МГК и Л ДА составили 21 и 20 правильных ответов соответственно. Также в ходе эксперимента была показана низкая робастность данных алгоритмов к внешним шумовым воздействиям.
Для улучшения результатов распознавания объектов в условиях наличия шумов используем разработанный алгоритм фильтрации шума на основе адаптивного дискретного косинусного преобразования (А-ДКП). Рассмотрим задачу двумерной фильтрации в условиях аддитивного белого гауссовского шума (АБГШ):
§(х,у) = /(х,у) + т](х,у), где g - зашумленное изображение, / - исходное изображение, т] - матрица независимых отсчетов нормального распределения с нулевым математическим ожиданием и дисперсией а2.
Для каждого пикселя изображения с координатами (х,у) посредством анизотропной локальной полиномиальной аппроксимации вычисляется соответствующая окрестность и. Затем производится вычисление А-ДКП с последующей жесткой пороговой обработкой трансформант с заданным порогом в. Использование обратного А-ДКП позволяет получить восстановленное изображение.
Полный алгоритм фильтрации можно представить следующим образом: 7и =Т-\у{Ти{ёи-ти{Е))))+ти где Ти и Ту - прямое и обратное А-ДКП, у - процедура жесткой пороговой обработки, — среднее значение защумленного изображения внутри
области 17.
Кроме того, для каждого пикселя на основе коэффициентов преобразования вычисляется вес для последующего восстановления:
а'2
^ +
где у - число ненулевых коэффициентов после пороговой фильтрации, а Nu -число пикселей в области и. Значения весовых коэффициентов м>ху обратно
пропорциональны усредненному значению дисперсии .
Таким образом, процедуру восстановления изображения можно представить следующим выражением:
у _ х.уеХ_
х.уеХ
где X - определяет пространственную область изображения, а Хи ~ обозначает функцию, показывающую принадлежность пикселя к области С/.
Результаты обработки сравнивались с известными из литературы линейным фильтром Винера и билатеральным фильтром. Результаты фильтрации для тестового изображения «Лена» по двум объективным критериям оценки качества (пиковое отношение сигнал/шум - ПОСШ и коэффициент структурного подобия -КСП) приведены на рис. 6.
Предложенный алгоритм на основе А-ДКП позволяет улучшить качество защумленного изображения и повысить значение ПОСШ на величину порядка 6-12 дБ при любых значениях дисперсии шума с2. Аналогичные результаты получаются по метрике КСП, которая увеличивается на 0,2-0,6. Установлено, что эта зависимость справедлива для изображений с различной степенью детализации.
Визуальные результаты обработки фрагмента тестового изображения «Лена» с внесенным гауссовским шумом (при <т=20) представлены на рис. 7. Анализ восстановленных изображений подтверждает превосходство алгоритма на основе А-ДКП. Кроме того, показана эффективность применения данного алгоритма в задаче удаления артефактов блочности, характерных для сжатых телевизионных
а)
б)
Рис. 6. Зависимость значения объективных метрик восстановленного изображения «Лена» от уровня шума: а) - ПОСШ; б) - КСП
Рис. 7. Подавление АБГШ различными фильтрами: а) зашумленное изображение; б) результат обработки фильтром Винера; в) результат обработки билатеральным фильтром; г) результат обработки фильтром на основе А-ДКП
изображений. Незначительный эффект размытия, вносимый алгоритмом на основе А-ДКП в обрабатываемое изображение, визуально менее заметен, нежели блочная структура JPEG/MPEG-изображения или те артефакты, которые остаются после применения стандартных алгоритмов удаления блочности.
На рис. 8а показаны зависимости уровня распознавания от СКО гауссовского шума для алгоритмов распознавания на базе изображений с высоким разрешением. Они получены путем усреднения данных по 5 экспериментам на различных базах лиц при N=10. Как видно из представленных зависимостей, наименьшую устойчивость к шуму продемонстрировал алгоритм на базе ЛБП, который показывает наилучшие результаты на неискаженных изображениях. На рис. 86 показаны зависимости числа верно распознанных изображений от СКО гауссовского шума для изображений, восстановленных с помощью фильтра А-ДКП. Для алгоритма на базе ЛБ11 удалось добиться существенного увеличения числа верных распознаваний (до уровня о<40). Таким образом, показано, что для первого эксперимента наилучшие результаты показал алгоритм на базе ЛБП и его комбинация с предложенным фильтром на основе А-ДКП.
а) б)
Рис. 8. Зависимость уровня распознавания от СКО гауссовского шума, полученная на базе изображений с высоким разрешением для алгоритмов распознавания лиц: а) для зашумленных изображений; б) для изображений, восстановленных с помощью фильтра А-ДКП
Второй эксперимент проводился на изображениях из базы с высоким разрешением (рис. 56) при следующих параметрах: N = 20, М = 5, X = 18, Y = 18. Для улучшения результатов распознавания предлагается использовать комбинированный алгоритм, который заключается в объединении результатов распознавания по лицу и по туловищу. Если хотя бы один из алгоритмов распознает объект, то человек относится к классу известных. Как видно из табл. 1, подобный подход приводит к улучшению результатов распознавания на расширенной базе в среднем на 10-20%.
Третий эксперимент посвящен анализу большого массива видеоданных (более 7 часов), полученных при съемке «живой» видеопоследовательности с веб-камеры разрешением Full HD (N=50, М=3, Х=50, Y=50). Выделенная область лица на изображениях колебалась от 60x60 до 100x100 пикселей. В связи с высокой вычислительной сложностью анализ данных проводился в режиме оффлайн.
16
Установлено, что алгоритм распознавания по лицу на основе ЛЫ1 дает 68%, а комбинированный алгоритм - 79% точных распознаваний.
Таблица 1
Результаты распознавания с использованием различных подходов
Число классов Число тестовых изображений Распознавание по лицу на основе ЛБП Распознавание по туловищу Комбинированный алгоритм
10 24 23 22 23
20 36 28 30 33
Четвертая глава носит практический характер и посвящена описанию программно-аппаратного комплекса Recognition.Lab, в котором реализованы описанные выше алгоритмы. Кроме того, проведено сравнение данного программного комплекса с коммерческим аналогом - Intel AIM Suite.
Для сравнения результатов работы алгоритмов Recognition.Lab и алгоритмов Intel AIM Suite был поставлен следующий эксперимент. Видеопоток, который анализировался в программе Intel AIM Suite, получался с IP-камеры Axis М1014 (рис. 9а). Одновременно с этим данный видеопоток средствами видеокамеры записывался на диск в формате ASF. Записанное видео подавалось на вход программы Recognition.Lab (рис. 96). Полученные результаты выдавались в виде файла в формате CSV.
(а) (б)
Рис. 9. Примеры кадров анализируемой видеопоследовательности: а) из программы Intel AIM Suite; б) из программы Recognition.Lab
Для сравнения работы программ предложена следующая метрика оценки качества.
Пусть Лг,жс" - число объектов лиц, детектированное экспертом в 7 -ом кадре видеопоследовательности, а ]У"рогр - число объектов, детектированных в этом кадре программой. Тогда = Ы3/''™ - Ы"рогр представляет собой ошибку детектирования для г -го кадра. Значение Д > 0 указывает на то, что программа детектировала не
все объекты, которые присутствуют в кадре. Значение < О говорит о том, что произошли ложные срабатывания детектора.
В качестве метрики оценки качества будем использовать относительную ошибку
где Г) = У,|Д| - абсолютная ошибка определения объектов для всей !
видеопоследовательности; N = ЛГ1ЖК - общее число объектов на всей
I
видеопоследовательности, зафиксированных экспертом.
Сравнение результатов подсчета числа людей на тестовом ролике представлено на рис. 10. Как видно из представленных гистограмм, значения, полученные программой Intel AIM Suite, в несколько раз превышают истинные. В программе Recognition.Lab результаты значительно ближе к истинным значениям. Значение предложенной выше метрики качества для программы Recognition.Lab составило 0,29, а для программы Intel AIM Suite - 0,6. Такое двукратное преимущество программы Recognition.Lab связано, в том числе, с более качественной работой алгоритма сопровождения и, следовательно, меньшими потерями объектов.
а) б) в)
Рис. 10. Сравнение результатов подсчета количества людей программами Recognition.Lab и Intel AIM Suite: а) экспертные данные; б) результаты Recognition.Lab; в) результаты Intel AIM Suite
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Проведен анализ известных алгоритмов решения задач детектирования, сопровождения, распознавания и классификации объектов, позволяющий оценить эффективность существующих методов.
2. Предложены новые алгоритмы сопровождения объектов на телевизионных изображениях в условиях наличия специфических искажений на основе метода Лукаса-Канаде.
3. Разработана методика объективного сравнения различных алгоритмов сопровождения объектов по видеоданным. Ее использование показывает, что преимущество предложенного алгоритма Лукаса-Канаде-3 над классическим алгоритмом сопровождения (при одинаковой вычислительной сложности) составляет в среднем 5-10%.
4. Показано, что использование предложенного нелинейного фильтра на базе А-ДКП совместно с алгоритмом распознавания лиц на основе ЛБП позволяет получать уровень точного распознавания 85-90% (при числе классов N до 20) в условиях присутствия АБПП (о<40). Это позволяет использовать эффективный алгоритм распознавания лиц в условиях низкого отношения сигнал/шум без потери уровня точного распознавания.
5. При увеличении числа классов (20<N<50) целесообразно использование дополнительной информации о цвете объекта (для людей - распознавание по туловищу). Использование предложенного комбинированного алгоритма позволило увеличить процент верно распознанных объектов по сравнению с алгоритмом ЛБП на 10-20%. При этом уровень точного распознавания при N=50 составляет 79%, что является удовлетворительным для существующих практических приложений.
6. Предложена метрика для количественного выражения ошибки определения объектов, основанная на покадровом сравнении результатов с экспертными данными. Проведено сравнение разработанной программы Recognition.Lab с коммерческим аналогом - Intel AIM Suite. Программа Recognition.Lab показала в 2 раза меньшее значение ошибки по сравнению с аналогом.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Ганин А.Н., Гущина О.Н., Хрящев В.В. Анализ применения адаптивного дискретного косинусного преобразования в некоторых задачах цифровой обработки изображений // Успехи современной радиоэлектроники. 2011. №2. С. 72-80.
2. Шмаглит J1.A., Хрящев В.В., Ганин А.Н., Матвеев Д.В. Распознавание пола человека по выделенной области лица на изображениях// Проектирование и технологии электронных средств. 2011. №4. С. 36-43.
3. Приоров A.JL, Ганин А.Н., Хрящёв В.В. Цифровая обработка изображений: уч. пособие. Ярославль: ЯрГУ, 2001. 218 с.
4. Ганин А.Н. Функции определения вектора перемещения при кодировании телевизионных сигналов // Матер. VI всерос. науч.-техн. конф. «Динамика нелинейных дискретных электротехнических и электронных систем». Чебоксары, 2001. С. 273-274.
5. Ганин А.Н. Выбор вейвлетов для сжатия изображений // Сб. науч. тр. молодых ученых, аспирантов и студентов. Яросл. гос. ун-т. Ярославль, 2001. С. 87-90.
6. Ганин А.Н. Модель квантования вейвлет-коэффициенгов // Докл. 4-ой междунар. конф. и выставки «Цифровая обработка сигналов и ее применения». М. 2002. Т. 1. С. 240-241.
7. Ganin A.N., Priorov A.L. Quantization of wavelet coefficients // Proc. of lst IEEE Int. Conf. on Circuits and Systems for Communications (ICCSC'02). St. Petersburg, 2002. P. 202-205.
8. Никитин A.E., Ганин A.H., Хрящев В.В. Выделение людей на изображениях на основе алгоритма Adaboost // Тез. докл. IX всерос. науч. конф. «Нейрокомпьютеры и их применение». М. 2011. С. 33.
9. Матвеев Д.В., Аминова Е.А., Ганин А.Н. Алгоритм отслеживания движения точечных объектов // Докл. 13-й междунар. конф. «Цифровая обработка сигналов и ее применение». М. 2011. Т. 1. С. 275-277.
10. Гущина О.H., Соловьев Е.В., Ганин А.Н. Удаление артефактов блочное™ из сжатых изображений с использованием адаптивного дискретного косинусного преобразования // Докл. 13-й междунар. конф. «Цифровая обработка сигналов и ее применение». М. 2011. Т. 2. С. 119-122.
11. Ганин А.Н., Вдовченко П.В., Матвеев Д.В. Разработка и анализ алгоритмов тендерной классификации по изображениям лиц // Матер, междунар. науч.-практ. конф. «Молодежь и наука: модернизация и инновационное развитие страны». Пенза. 2011. Ч. 1. С. 221-223.
12. Шмаглит Л.А., Ганин А.Н. Система слежения и гендерной классификации лиц на видеоизображениях // Тез. докл. 18-й междунар. науч.-тех. конф. «Радиоэлектроника, электротехника и энергетика». М. 2012. Т. 1. С. 128-129.
13. Носков A.A., Кандрин А.Е., Ганин А.Н. Слежение за областью лица на видеопоследовательностях // Докл. 14-й междунар. конф. «Цифровая обработка сигналов и ее применение». М. 2012. Т. 2. С. 285-288.
14. Шмаглит Л.А., Голубев М.Н., Ганин А.Н., Хрящев В.В. Тендерная классификация по изображению лица // Докл. 14-й междунар. конф. «Цифровая обработка сигналов и ее применение». М. 2012. Т. 2. С. 425-428.
15. Голубев М.Н., Шмаглит Л.А., Ганин А.Н. Разработка и анализ системы автоматического распознавания пола людей по изображению лица // XIV Всерос. науч,-техн. конф. «Нейроинформатика-2012». М. 2012. С. 151-159.
16. Голубев М.Н., Ганин А.Н., Шмаглит Л.А. Алгоритм распознавания пола на основе адаптивных признаков и метода опорных векторов // X всерос. науч.-техн. конф. «Нейрокомпьютеры и их применение». М. 2012. С. 33.
17. Ганин А.Н., Шмаглит Л.А., Храбров Д.Е., Манов И.А. Программно-аппаратный комплекс для детектирования, слежения и гендерной классификации объектов по изображению лиц // Тр. LXVH науч. сессии, посвященной Дню Радио. М. 2012. С. 163-166.
18. Хрящев В.В., Ганин А.Н., Манов И.А., Матвеев Д.В. Система анализа аудитории на основе алгоритмов детектирования, слежения и гендерной классификации // Тр. II всерос. науч. конф. молодых ученых с междунар. участием. Рыбинск. 2012. Т. 2. С. 136-142.
19. Khryashchev V., Ganin A., Golubev M., Shmaglit L. Audience analysis system on the basis of face detection, tracking and classification techniques // Proc. International MultiConference of Engineers and Computer Scientists 2013. Hong Kong. 2013. V. 1. P. 446-450.
20. Ганин A.H., Хрящев B.B., Шемяков A.M., Шмаглит ЛА. Тендерная и возрастная классификация по видеоданным // Докл. 15-й междунар. конф. «Цифровая обработка сигналов и ее применение». М. 2013. Т. 2. С. 92-96.
21. Ганин А.Н., Кисельникова O.A., Матвеев Д.В., Носков A.A. Применение метода цифровых гистограмм для детектирования повторного появления объекта на видеоданных // Докл. 15-й междунар. конф. «Цифровая обработка сигналов и ее применение». М. 2013. Т. 2. С. 92-96.
22. Голубев М.Н., Аминова Е.А., Ганин А.Н., Хрящев В.В. Научно-исследовательская среда для детектирования и распознавания лиц на цифровых изображениях с целью анализа возраста и пола личности Recognition.Lab // Свидетельство о регистрации в Реестре программ для ЭВМ №2011614271 от 31.05.2011.
Ганин Александр Николаевич
СОПРОВОЖДЕНИЕ И РАСПОЗНАВАНИЕ ОБЪЕКТОВ НА ТЕЛЕВИЗИОННЫХ ИЗОБРАЖЕНИЯХ
Автореферат диссертации на соискание ученой степени кандидата технических наук
Подписано в печать 23.05.2013. Заказ №173 Формат 60x84/16. Усл. печ. л. 1. Тираж 110 экз. ИП Сергеева Д.С.
Текст работы Ганин, Александр Николаевич, диссертация по теме Радиотехника, в том числе системы и устройства телевидения
ЯРОСЛАВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
им. П.Г. ДЕМИДОВА
04201358733 На правах рукописи
Ганин Александр Николаевич
СОПРОВОЖДЕНИЕ И РАСПОЗНАВАНИЕ ОБЪЕКТОВ НА ТЕЛЕВИЗИОННЫХ ИЗОБРАЖЕНИЯХ
ДИССЕРТАЦИЯ
на соискание ученой степени кандидата технических наук по специальности 05.12.04 - Радиотехника, в том числе системы и
устройства телевидения
Научный руководитель — д.т.н., профессор Брюханов Юрий Александрович
Ярославль, 2013
СОДЕРЖАНИЕ
ВВЕДЕНИЕ..............................................................................................................4
1. АЛГОРИТМИЧЕСКАЯ ОСНОВА СОВРЕМЕННЫХ СИСТЕМ АНАЛИЗА ВИДЕОДАННЫХ.................................................................................................12
1.1. Вводные замечания.....................................................................................12
1.2. Схема построения системы анализа аудитории......................................15
1.3. Детектирование лиц....................................................................................17
1.4. Сопровождение лиц....................................................................................25
1.5. Распознавание людей.................................................................................38
1.6. Классификация пола...................................................................................42
1.7. Краткие выводы..........................................................................................45
2. АНАЛИЗ И МОДИФИКАЦИЯ АЛГОРИТМОВ СОПРОВОЖДЕНИЯ ЛИЦ .................................................................................................................................47
2.1. Вводные замечания.....................................................................................47
2.2. Метод цветовых гистограмм.....................................................................48
2.2.1. Построение гистограммы....................................................................49
2.2.2. Построение изображения правдоподобия.........................................50
2.2.3. Итеративная смена центра окна поиска и размеров окна поиска... 51
2.2.4. Фильтрация изображения правдоподобия.........................................51
2.3. Алгоритм на основе метода Лукаса-Канаде............................................52
2.3.1. Точечные особенности........................................................................52
2.3.2. Алгоритм Лукаса-Канаде....................................................................53
2.4. Модификация алгоритмов сопровождения лиц......................................56
2.4.1. Постановка задач..................................................................................56
2.4.2. Описание модификаций.......................................................................57
2.4.3. Метрики оценки качества сопровождения........................................62
2.4.4. Тестовые видеопоследовательности..................................................64
2.5. Результаты анализа работы алгоритмов сопровождения.......................69
2.6. Краткие выводы..........................................................................................77
3. РАЗРАБОТКА И АНАЛИЗ АЛГОРИТМОВ РАСПОЗНАВАНИЯ ЛЮДЕЙ НА ВИДЕОПОСЛЕДОВАТЕЛЬНОСТЯХ.........................................................79
3.1. Вводные замечания.....................................................................................79
3.2. Алгоритмы распознавания людей на основе информации о лице........80
3.2.1. Алгоритм на основе метода главных компонент..............................80
3.2.2. Алгоритм на основе линейного дискриминантного анализа...........81
3.2.3. Метод сравнения гистограмм локальных бинарных паттернов.....83
3.3. Алгоритмы распознавания людей на основе информации о туловище 85
3.4. Результаты анализа алгоритмов распознавания людей..........................89
3.4.1. Постановка задачи................................................................................89
3.4.2. Тестовые изображения.........................................................................90
3.4.3. Оптимизация параметров алгоритмов распознавания.....................92
3.4.4. Распознавание людей в условиях наличия аддитивного белого гауссовского шума на изображениях...........................................................94
3.4.5. Распознавание людей на изображениях, восстановленных с помощью фильтра А-ДКП.............................................................................96
3.5. Краткие выводы........................................................................................103
4. РЕАЛИЗАЦИЯ АЛГОРИТМОВ СОПРОВОЖДЕНИЯ И РАСПОЗНАВАНИЯ ЛИЦ В ПРОГРАММНО-АППАРАТНОМ КОМПЛЕКСЕ RECOGNITION.LAB................................................................105
4.1. Вводные замечания...................................................................................105
4.2. Интерфейс программы.............................................................................106
4.2.1. Основное окно....................................................................................106
4.2.2. Панель статистики..............................................................................107
4.2.3. Настройка параметров.......................................................................108
4.3. Особенности представления алгоритмов в Recognition.Lab................109
4.3.1. Кадр......................................................................................................112
4.3.2. Обработка кадров...............................................................................113
4.4. Визуализатор статистики.........................................................................124
4.5. Анализ результатов работы программы Recognition.Lab.....................127
4.5.1. Тестовые видеопоследовательности................................................127
4.5.2. Анализ результатов............................................................................128
4.6. Сравнение результатов Recognition.Lab с результатами
Intel Aim Suite...................................................................................................133
4.6.1. Введение метрики..............................................................................133
4.6.2. Анализ результатов............................................................................134
4.7. Краткие выводы........................................................................................137
ЗАКЛЮЧЕНИЕ...................................................................................................138
СПИСОК ЛИТЕРАТУРЫ...................................................................................140
ВВЕДЕНИЕ
Актуальность темы. Миллиарды камер охранного телевидения -неотъемлемая часть современного цивилизованного мира [1-10, 94-97]. Изображения сменяют друг друга на мониторах, многочисленные операторы обеспечивают безопасность в аэропортах, на вокзалах и в других общественных местах. Видеонаблюдение сегодня считается едва ли не самым главным техническим инструментом обеспечения безопасности. Важнейшую роль в современных системах охранного телевидения играют алгоритмы цифровой обработки изображений [7, 8, 10, 20, 95, 97] и компьютерного зрения [14, 15], позволяющие контролировать тысячи видеоканалов в режиме реального времени.
Для построения современных систем охранного телевидения характерны следующие основные проблемы и задачи [95]:
— обнаружение объекта интереса на сложном изменяющемся фоне;
— измерение пространственных параметров и оценка динамических параметров объектов по наборам последовательных кадров;
— сопровождение объектов;
— классификация и распознавание динамических объектов.
Среди объектов для распознавания и классификации наиболее развитой и актуальной задачей является детектирование и классификация человеческих лиц [26, 51-55, 59, 62, 65-68]. В настоящее время эта задача находит применение в различных сферах человеческой деятельности (в первую очередь, в системах безопасности). Сферами применения распознавания лиц являются, например, системы охранного телевидения, сравнение фотографий на паспортах или водительских удостоверениях, контроль доступа к безопасным компьютерным сетям и оборудованию в учреждениях, наблюдение за аэропортами и вокзалами для предотвращения террористических актов и др. В большинстве практических ситуаций анализ входного изображения должен осуществляться в режиме реального времени.
Современные алгоритмы позволяют детектировать лицо человека на реальных видеоизображениях со сложным фоном с вероятностью, превышающей 90%. Среди них самым известным является алгоритм на основе бустинга [74], предложенный P. Viola и М. Jones в 2001 г.
Целью задачи сопровождения (трекинга) является установление соответствия между различными объектами или частями в последовательности кадров и нахождение траекторий объектов, а также вычисление их динамических характеристик, таких как скорость и направление движения [30]. Сопровождение объектов в большинстве практических приложений требуется осуществлять в режиме реального времени [31].
Одним из важнейших направлений компьютерного зрения является задача автоматизированного распознавания объектов [26, 32, 52, 53, 55, 56, 59, 62-65, 69]. Успешное решение этой задачи необходимо для разработки и производства систем, способных интеллектуально оценивать внешнюю среду и выполнять в ней те или иные действия. Однако в реальных системах охранного телевидения задачу распознавания объектов приходится решать в условиях наличия искажений, связанных с помехами в радиотехнических устройствах и сжатием двумерного сигнала, поэтому для эффективного решения поставленной задачи требуется применение специализированных алгоритмов цифровой обработки изображений. Среди них можно выделить нелинейные алгоритмы фильтрации и восстановления изображений, вейвлет-обработку, системы, построенные на нечеткой логике, генетических алгоритмах, нейронных сетях.
В область разработки алгоритмов цифровой обработки телевизионных изображений внесли вклад как отечественные ученые — Ю.Б. Зубарев [1-3, 10], М.И. Кривошеев, В.П. Дворкович [1-3, 10, 97], A.B. Дворкович [3, 97], М.К. Чобану [9], A.C. Крылов, Ю.С. Бехтин, Ю.С. Радченко, A.JI. Приоров, так и зарубежные - R. Gonzalez [20], R. Woods [20], A. Bovik, Y. Neuvo, J. Astola, К. Egiazaryan, M. Nikolova.
Первые работы по распознаванию динамических объектов были опубликованы еще в конце 1980-х гг. Следует отметить особый вклад советских и российских ученых, занимающихся в данной области, таких как Ю.И. Журавлев [13, 22], Ю.В. Гуляев, В.А. Сойфер [21], А.И. Галушкин, В.Н. Вапник [12], Н.Г. Загоруйко [23], A.A. Потапов [15]. В области анализа-синтеза алгоритмов сопровождения объектов и оценки их движения на видеоизображениях выделяются работы Б.А. Алпатова, П.В. Бабаяна, М.Н. Фаворской, Ю.В. Визильтера, Е.В. Медведевой, В. Lucas [33], Т. Kanade [33].
На сегодняшний день достигнуты значительные успехи при построении систем видеоаналитики, систем аутентификации личности по изображениям. Однако существуют нерешенные проблемы при распознавании динамических образов из-за сложности и многообразия поведения объектов реального мира [95]. Существует класс задач, где особую важность приобретает информация о структуре и движении объектов сцены (видеонаблюдение в закрытых помещениях, в местах большого скопления людей, управление движением робототехнических комплексов, наблюдение за движением транспортных средств и т.д.).
Так, например, для задач сопровождения объектов на современном этапе развития представляет интерес обработка следующих практических ситуаций [95]:
— изменение изображения или освещенности сцены;
— наличие шума камеры;
— присутствие объектов, изменяющих свою форму;
— временное исчезновение объектов интереса, возникающее из-за перекрытия их другими объектами;
— наличие нескольких одновременно движущихся объектов с близкими характерными признаками и пересекающимися траекториями.
Для задач распознавания объектов актуальным остается поиск алгоритмов, работающих в режиме реального времени и позволяющих
6
идентифицировать объект в условиях наличия помех на телевизионных изображениях. Поэтому на современном этапе развития науки и техники разработка и анализ алгоритмов сопровождения и распознавания объектов на телевизионных изображениях представляют собой актуальную задачу.
Основной целью работы является разработка, усовершенствование и исследование новых алгоритмов сопровождения и распознавания объектов на видеоизображениях в условиях наличия искажений и помех, обусловленных практическими требованиями для функционирования систем охранного телевидения.
Объектом исследования являются алгоритмы сопровождения и распознавания объектов, применяемые в радиотехнических системах обработки и анализа изображений и современных системах телевидения.
Предметом исследования являются модификация и разработка алгоритмов, с целью повышения эффективности функционирования видеоинформационных систем охранного телевидения.
Задачи диссертационной работы:
- разработка алгоритмов сопровождения объектов на телевизионных изображениях в условиях наличия специфических искажений и помех;
— разработка методики объективного сравнения различных алгоритмов сопровождения объектов по видеоданным;
- разработка комбинированного алгоритма обработки изображения, зашумленного белым гауссовским шумом, сочетающего нелинейную фильтрацию на основе адаптивного дискретного косинусного преобразования и алгоритм распознавания лиц;
— усовершенствование работы алгоритма распознавания объектов на основе локальных бинарных паттернов с использованием дополнительной информации о цвете объекта.
Методы исследования. При решении поставленных задач использовались современные методы цифровой обработки изображений, компьютерного зрения, распознавания образов, математического анализа,
7
теории вероятностей и математической статистики. Для практической реализации алгоритмов применялись современные численные методы и методы объектно-ориентированного программирования на языке С#. Научная новизна полученных результатов В рамках данной работы получены следующие новые научные результаты:
- разработаны новые алгоритмы сопровождения объектов на видеоданных, показывающие свою эффективность в условиях наличия искажений и помех;
- разработан комбинированный алгоритм обработки телевизионного изображения, зашумленного аддитивным белым гауссовским шумом, на основе нового алгоритма нелинейной фильтрации и алгоритма распознавания лиц;
- разработана модификация алгоритма распознавания объектов на телевизионных изображениях на основе локальных бинарных паттернов с использованием дополнительной информации о цвете.
Практическая значимость полученных результатов
1. Разработана методика объективного сравнения различных алгоритмов сопровождения объектов по видеоданным.
2. Проведен анализ работы алгоритмов сопровождения объектов на видеоданных при наличии искажающих факторов и предложены модификации, позволившие повысить уровень сопровождения в среднем на 5-10%.
3. Разработаны модификации алгоритма распознавания лиц путем использования информации о цвете и предварительной нелинейной цифровой фильтрации, позволившие увеличить результат верного распознавания на 10-20% в условиях наличия искажений, связанных с помехами в радиотехнических устройствах и сжатием двумерного сигнала.
4. Разработан критерий качества функционирования систем определения числа объектов на видеоданных для решения ряда практических задач в области современных систем охранного телевидения. Разработанные методы и алгоритмы требуют для их практической реализации относительно небольших вычислительных ресурсов, что позволяет использовать их для обработки телевизионных изображений в системах реального времени.
Результаты работы внедрены в соответствующие разработки ООО «А-ВИЖН», г. Ярославль и ООО «ЛВЛ Инжиниринг», Московская обл. Отдельные результаты диссертационной работы внедрены в учебный процесс ЯрГУ им. П.Г. Демидова в рамках дисциплин «Цифровая обработка изображений» и «Компьютерное зрение», а также в научно-исследовательские работы при выполнении исследований в рамках гранта РФФИ №10-08-01186. Получено свидетельство на программный продукт, зарегистрированное в Реестре программ для ЭВМ.
Достоверность полученных научных результатов обусловлена применением адекватного математического аппарата, подтверждается их согласованностью с результатами проведенного компьютерного моделирования и сопоставлением полученных результатов с научными данными, известными из российской и зарубежной литературы.
Апробация работы. Результаты работы докладывались и обсуждались на следующих научно-технических конференциях и семинарах.
- 1st IEEE International Conference on Circuits and Systems for Communications (ICCSC'02), Sankt Petersburg, 2002.
- 4-я, 13-15-я международные конференции «Цифровая обработка сигналов и ее применение», Москва, 2002, 2011-2013.
- 67-я научная сессия, посвященная Дню радио, Москва, 2012.
- 18-я международная научно-техническая конференция «Радиоэлектроника, электротехника и энергетика», Москва, 2012.
- 14-я всероссийская научно-техническая конференция «Нейроинформатика», Москва, 2012.
- 10-я всероссийская научная конференция «Нейрокомпьютеры и их применение», Москва, 2012.
- 2-я всероссийская научная конференция молодых ученых с международным участием, Рыбинск, 2012.
- International MultiConference of Engineers and Computer Scientists (imaging engineering section), Hong Kong, 2013.
Публикации. По теме диссертации опубликовано 22 научные работы, из них 2 статьи в журналах, рекомендованных ВАК, учебное пособие, 17 докладов на научных конференциях, свидетельство о регистрации программы для ЭВМ.
Структура и объем работы. Диссертация состоит из введения, четырех разделов, заключения, списка использованных источников, содержащего 97 наименований. Она изложена на 149 страницах машинописного текста, содержит 62 рисунка и 5 таблиц.
Основные научные положения и результаты, выносимые на защиту:
1. Алгоритм сопровождения объектов на телевизионных изображениях на основе метода Лукаса-Канаде, с использованием медианной фильтрации скоростей ключевых особенностей и детектора препятствий, увеличивает уровень сопровождения объектов, при наличии искажений и помех, на 5-10% по сравнению с классическим алгоритмом.
2. Применение предварительного алгоритма фильтрации на базе адаптивного дискретного косинусно
-
Похожие работы
- Алгоритмы обработки изображений в телевизионных измерительных системах контроля движения транспортных средств
- Определение пространственного положения и распознавание типов летательных аппаратов на основе контурного анализа
- Исследование телевизионного метода измерения параметров движения летательных аппаратов
- Телевизионные средства определения координат объектов, расположенных на сложном фоне
- Разработка и анализ алгоритмов распознавания лиц на телевизионных изображениях для биометрической идентификации
-
- Теоретические основы радиотехники
- Системы и устройства передачи информации по каналам связи
- Радиотехника, в том числе системы и устройства телевидения
- Антенны, СВЧ устройства и их технологии
- Вакуумная и газоразрядная электроника, включая материалы, технологию и специальное оборудование
- Системы, сети и устройства телекоммуникаций
- Радиолокация и радионавигация
- Механизация и автоматизация предприятий и средств связи (по отраслям)
- Радиотехнические и телевизионные системы и устройства
- Оптические системы локации, связи и обработки информации
- Радиотехнические системы специального назначения, включая технику СВЧ и технологию их производства