автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Алгоритмы распознавания лиц и жестов на основе вейвлет-преобразований и метода главных компонент
Автореферат диссертации по теме "Алгоритмы распознавания лиц и жестов на основе вейвлет-преобразований и метода главных компонент"
На правах рукописи
Буй Тхн Тху Чанг
АЛГОРИТМЫ РАСПОЗНАВАНИЯ ЛИЦ И ЖЕСТОВ НА ОСНОВЕ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЙ И МЕТОДА ГЛАВНЫХ КОМПОНЕНТ
05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
ь МАИ 2014
Томск-2014
005549195
005549195
Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Национальный исследовательский Томский политехнический университет», на кафедре вычислительной техники.
Научный руководитель: доктор технических наук, профессор
Спицын Владимир Григорьевич
Официальные оппоненты:
Панин Сергей Викторович, доктор технических наук, профессор, федеральное государственное бюджетное учреждение науки Институт физики прочности и материаловедения СО РАН, заместитель директора по научной работе; лаборатория механики полимерных композиционных материалов, заведующий лабораторией
Гриф Михаил Геннадьевич, доктор технических наук, профессор, федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Новосибирский государственный технический университет», кафедра автоматизированных систем управления, заведующий кафедрой
Ведущая организация: Федеральное государственное бюджетное
учреждение науки Институт оптики атмосферы им. В.Е. Зуева СО РАН, г. Томск
Защита состоится 26 июня 2014 г. в 12:00 на заседании диссертационного совета Д 212.267.08, созданного на базе федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Национальный исследовательский Томский государственный университет», по адресу: 634050, г. Томск, пр. Ленина, 36 (корп. 2, ауд. 102).
С диссертацией можно ознакомиться в Научной библиотеке и на официальном сайте федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Национальный исследовательский Томский государственный университет» www.tsu.ru.
Материалы по защите диссертации размещены на официальном сайте ТГУ: http://www.tsu.ru/content/news/announcement_of_the_dissertations_in_the_tsu.php
Автореферат разослан «_» мая 2014 г.
Скворцов
Алексей Владимирович
Ученый секретарь диссертационного совета, доктор технических наук, профессор
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. В настоящее время успешно развивается направление, связанное с интеллектуализацией методов обработки и анализа данных. Задача распознавания лиц и жестов является одной из первых практических задач, которая послужила стимулом для развития теории распознавания объектов. Распознавание лиц и жестов находит применение в различных сферах человеческой деятельности. Данное направление появилось в начале 1980-х годов, но его развитие началось в 1990-х годах в процессе создания информационно-поисковых систем распознавания для идентификации личности.
В развитие теории и практики распознавания лиц и жестов значительный вклад внесли зарубежные ученые Jonathon Phillips (N1ST, США), Harry Wechsler (университет George Mason), работающие в этой области уже 15 лет, а также Такео Kanade, Matthew Turk, Paul Viola, Michael J. Jones, Bruce D. Lucas, Jing Xiao, Simon Baker, Dorin Comaniciu, Gary R. Bradski и другие. Интересные результаты в области распознавания образов и распознавания объектов на изображениях были получены российскими учеными: Вапником В.Н., Журавлёвым Ю.И., Сойфером В.А., Загоруйко Н.Г., Местецким Л.М., Алпатовым Б.А., Гореликом А.Л., Гуревичем И.Б., Сергеевым В.В., Васиным Ю.Г. и другими. Ценный вклад в решение проблемы распознавания лиц внесли российские ученые: Желтое С.Ю., Визильтер Ю.В., Крылов A.C., Вежне-вец В.П., Шерстобитов А.И., Пахирка А.И. и другие.
Проблема автоматизированного распознавания лиц и жестов является относительно новой и до сих пор не решена в полном объеме. За последние годы был предложен ряд различных подходов к обработке, локализации и распознаванию объектов, таких как метод главных компонент (Principal Component Analysis, РСА), нейронные сети, эволюционные алгоритмы, алгоритм AdaBoost, метод опорных векторов и т.д. Однако эти подходы для распознавания объектов обладают недостаточной точностью, надежностью и скоростью в сложной реальной обстановке, характеризующейся присутствием шумов на изображениях и видеопоследовательностях.
Методы, применяемые для решения задачи распознавания лиц и жестов, должны обеспечивать приемлемую точность распознавания и высокую скорость обработки видеопоследовательностей. Таким образом, необходимо совершенствовать методы и алгоритмы распознавания лиц и жестов на статических изображениях и движущихся объектов на видеопоследовательностях в режиме реального времени.
Целью диссертационной работы является разработка алгоритма, позволяющего распознавать лица и жесты на статических изображениях и видеопоследовательностях в режиме реального времени.
Для достижения указанной цели были поставлены следующие основные задачи:
1. Разработать способ выделения признаков объектов на изображениях, обеспечивающий высокую точность при решении задач распознавания лиц и жестов.
2. Разработать алгоритм на основе предложенного способа выделения признаков объектов, позволяющий распознавать лица и жесты в присутствии шума на статических изображениях.
3. Разработать алгоритм на основе предложенного алгоритма распознавания лиц на изображениях, позволяющий распознавать лица на видеопоследовательностях
в режиме реального времени.
4. Разработать алгоритм на основе предложенного алгоритма распознавания жестов на изображениях, позволяющий распознавать жесты на видеопоследовательностях в режиме реального времени.
5. Реализовать разработанные алгоритмы в виде программных систем, предназначенных для распознавания лиц и жестов, и провести вычислительные эксперименты с целью оценки их качества и эффективности.
Методы исследования. При выполнении диссертационной работы использовались вейвлет-преобразования, РСА, метод Виолы-Джонса, алгоритм САМБЫр, алгоритмы цифровой обработки изображений, технология разработки программного обеспечения (ПО), а также методы теории вероятностей и математической статистики для количественной обработки данных экспериментов.
Научная новизна результатов диссертационной работы заключается в следующем:
1. Предложен способ выделения признаков объектов на изображениях, основанный на совместном применении вейвлет-преобразований Хаара и Добеши, позволяющий эффективнее распознавать объекты по сравнению с применением вейвлет-преобразования Хаара или Добеши в отдельности.
2. Разработан алгоритм распознавания лиц и жестов на статических изображениях в присутствии шума, основанный на предложенном способе выделения признаков объектов и РСА, обеспечивающий высокую точность распознавания.
3. Разработан алгоритм, основанный на совместном применении предложенного алгоритма распознавания лиц на изображениях и метода Виолы-Джонса, позволяющий распознавать множество лиц на видеопоследовательности.
4. Разработан алгоритм, основанный на применении предложенного алгоритма распознавания жестов на изображениях, метода Виолы-Джонса и алгоритма САМБИ;Уг, дающий возможность распознавания жестов на видеопоследовательности в режиме реального времени.
Теоретическая значимость результатов диссертационного исследования состоит в том, что разработаны, исследованы и апробированы новые алгоритмы для распознавания лиц и жестов на изображениях и видеопоследовательностях в режиме реального времени.
Практическая ценность. Разработанные в диссертации алгоритмические и программные средства могут найти применение в системах правоохранительных органов для верификации личности, осуществления криминалистической экспертизы, а также при проведении телеконференций.
Реализованные в ходе диссертационной работы алгоритмы предназначены для решения задач распознавания объектов на статических изображениях и движущихся объектов на видеопоследовательностях.
Реализация результатов работы. Способы, алгоритмы и программные средства, разработанные в диссертационной работе, использовались при выполнении работ по гранту РФФИ № 09-08-00309 «Создание программного комплекса автоматизированной обработки изображений и распознавания образов на основе применения искусственных нейронных сетей, регуляторных сетей и эволюционных алгоритмов» (2009-2011 гг.); в проекте «Создание комплексных технологий распознавания объек-
тов на изображении на основе применения моделей зрительного восприятия и методов вычислительного интеллекта», поддержанном грантом РФФИ № 12-08-00296 (2012-2014 гг.).
Степень достоверности результатов проведённых исследований подтверждается результатами численных экспериментов, согласующимися с результатами, полученными другими авторами.
Внедрение работы. Результаты работы внедрены в Томском политехническом университете на кафедре вычислительной техники при подготовке специалистов по магистерской программе «Компьютерный анализ и интерпретация данных» по курсу «Методы интеллектуальной обработки и анализа изображений».
Основные положения, выносимые на защиту:
1. Способ выделения признаков объектов на изображениях на основе совместного применения вейвлет-преобразований Хаара и Добеши.
2. Алгоритм распознавания лиц и жестов в присутствии шума на статических изображениях, основанный на предложенном способе выделения признаков объектов на изображениях и РСА.
3. Алгоритм, основанный на совместном применении предложенного алгоритма распознавания лиц на изображениях и метода Виолы-Джонса, позволяющий распознавать множество лиц на видеопоследовательности.
4. Алгоритм, основанный на применении предложенного алгоритма распознавания жестов на изображениях, метода Виолы-Джонса и алгоритма CAMShift, дающий возможность распознавания жестов на видеопоследовательности в режиме реального времени.
Апробация работы. Результаты диссертационной работы обсуждались и докладывались на следующих симпозиумах, семинарах и конференциях: VIII, IX Всероссийские научно-практические конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2010, 2011); XVI, XVII Международные научно-практические конференции студентов, аспирантов и молодых ученых «Современные техника и технологии» (Томск, 2010, 2011); III Всероссийская научно-практическая конференция «Научная инициатива иностранных студентов и аспирантов российских вузов» (Томск, 2010); VI Международная научно-практическая конференция «Электронные средства и системы управления» (Томск, 2010); XIX Всероссийской семинар «Нейроинформатика, ее приложения и анализ данных» (Красноярск, 2011); XIV Всероссийский с международным участием научный симпозиум по теории и приложениям непараметрических и робастных статистических методов «Непараметрика-XIV» (Томск, 2012); The 7th International Forum on Strategie Technology IFOST (Томск, 2012).
Публикации. Основные результаты диссертационного исследования изложены в 15 печатных работах, в том числе в 6 статьях из списка рецензируемых журналов, рекомендованных ВАК РФ.
Личный вклад автора. Постановка задач исследования по теме диссертации выполнена автором совместно с научным руководителем, д.т.н., профессором В.Г. Спицыным. Основные теоретические и практические результаты, представленные в диссертации, получены лично автором.
Структура и объем работы. Диссертация содержит введение, 4 главы, заключение и список литературы, содержащий 124 наименования. Общий объем диссертации составляет 145 страниц машинописного текста, иллюстрированного 82 рисунками и 20 таблицами.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
В первой главе представлен аналитический обзор алгоритмов и методов распознавания объектов на статических изображениях и движущихся объектов на видеопоследовательностях в режиме реального времени, обозначены их достоинства и недостатки. '
Проводится обсуждение одномерного и двумерного вейвлет-преобразований. Проанализированы возможности совместного использования вейвлет-преобразований и РСА при решении задач распознавания лиц и жестов как на статических изображениях, так и на видеопоследовательностях в режиме реального времени.
Во второй главе подробно описываются предложенные алгоритмы для распознавания объектов на статических изображениях и динамических объектов на видеопоследовательностях в режиме реального времени.
Алгоритмы распознавания объектов на изображениях и видеопоследовательностях включают создание базы признаков объектов, на основе которой происходит распознавание объектов.
1. Способ выделения признаков объектов на изображениях
В данной работе предложен способ выделения признаков объектов на изображениях, основанный на совместном применении вейвлет-преобразований Хаара и Добеши, позволяющий эффективнее распознавать объекты по сравнению с применением вейвлет-преобразований Хаара или Добеши в отдельности.
Способ выделения признаков объектов на изображениях состоит из следующих шагов: преобразование и изменение размера изображения, извлечение вейвлет-коэффициентов, вычисление средних вейвлет-коэффициентов.
Вначале происходит преобразование входного изображения из формата RGB в цветовое пространство YUV. Затем полутоновое изображение приводится к размеру 64x64 пикселя.
К полутоновому изображению применяются вейвлеты Хаара и Добеши первого уровня и извлекаются низкочастотные коэффициенты XLL(x, у) и DLL(x, у), гдех= 1 ,..,32; jy = 1,..,32 соответственно.
На рис. 1 представлены изображения низкочастотных коэффициентов и гистограммы их значений, которые получаются при применении вейвлетов Хаара и Добеши к полутоновому изображению.
Из рис. 1 следует, что средний уро-
Ночер признаков
Всйвлст Хаара ВейметД4
Рис. 1. Изображения низкочастотных вейвлет-коэффициентов и гистограммы их значений
вень значений вейвлет-коэффициентов Хаара располагается ниже, чем средний уровень значений вейвлет-коэффициентов Добеши. Значения вейвлет-коэффициентов Хаара имеют меньший разброс по амплитуде по сравнению с соответствующими значениями для вейвлет-коэффициентов Добеши.
Для того чтобы уменьшить различие между значениями вейвлет-коэффициентов Добеши, было решено ограничивать эти значения следующим образом:
п , ч \°и.(х'У)' если °ц.(х>У)<°
°и.(х'У) = \п • (1)
[и, иначе
Здесь О - параметр для ограничения значений вейвлет-коэффициентов Добеши. Значение й определяется на основе эмпирических данных.
Для осуществления комплексного вейвлет-преобразования предлагается вычисление среднего арифметического вейвлет-коэффициентов Хаара и Добеши по формуле:
где х= 1,..,32; у= 1,..,32.
Характерная особенность преобразования Хаара заключается в том, что оно является разделимым и легко вычисляется. По сравнению с вейвлет-преобразованием Хаара, вейвлет-преобразование Добеши имеет более высокую вычислительную сложность. Вейвлеты Добеши являются функциями, вычисляемыми итерационным путем. В процессе выполнения преобразования происходит перекрытие между итерациями. Можно предположить, что именно за счет перекрытия применение вейвле-тов Добеши позволяет учесть детали, которые пропущены вейвлетами Хаара.
2. Алгоритм распознавания лиц и жестов на изображениях
Для решения задачи распознавания лиц и жестов на статических изображениях предложен алгоритм, основанный на совместном применении предложенного способа выделения признаков объектов и РСА. В этом алгоритме лицо или жест рассматриваются как объект.
2.1 Процесс создания базы признаков объектов
Процесс создания базы признаков из М изображений объектов обучающей выборки, основанный на совместном применений вейвлет-преобразований Хаара, Добеши и РСА, состоит из следующих шагов.
1. Выделение признаков каждого /-ого изображения объекта из М изображений объектов обучающей выборки на основе совместного применения вейвлет-преобразований Хаара и Добеши.
2. Представление полученных вейвлет-коэффициентов в виде вектора 7,, где г = 1 ,..,М.
3. Вычисление среднего изображения по формуле: 1ср =—V//.
М
4. Вычитание среднего изображения из каждого изображения Ф( = /, - 1ср.
_ м -
5. Вычисление собственных объектов: и, = г = 1,...,М, где V, - соб-
ственные векторы матрицы WTW, W =|Ф[,...,Фл/|.
6. Вычисление для каждого объекта соответствующего ему вектора = {а\,...,а>м} в пространстве собственных объектов, где coi =й[(I, — IcP), i = 1 ,...,М.
2.2 Процесс распознавания объекта
После того, как создана база признаков, процесс распознавания нового входного объекта выполняется следующим образом.
1. Выделение признаков объекта входного изображения на основе совместного применения вейвлет-преобразований Хаара и Добеши.
2. Представление полученных вейвлет-коэффициентов в виде вектора /«,.
3. Вычисление для входного объекта соответствующего ему вектора Qт ={щ,...,а>м] в пространстве собственных объектов, где щ = Uj(Iex - IcP),i = 1,...,М.
4. Сопоставление входного объекта с £-ым известным объектом из базы признаков на основе вычисления расстояния Евклида:
</42 = ||й-а||\ (2)
5. Определение принадлежности входного объекта к известному объекту осуществляется путем сравнения величины ¿4 со значением порога 5. Если величина расстояния Евклида dk, определяемого по формуле (2), меньше значения порога 5 для некоторого к, то такое изображение объекта принадлежит к-му классу. Иначе оно считается новым.
2.3 Экспериментальное исследование эффективности работы комбинаций вейвлет-преобразований Хаара, Добеши и РСА при решении задачи распознавания лиц на изображениях
В этом разделе приводятся результаты двух экспериментов со 100 изображениями 10 человек (по 10 изображений каждого лица) базы ORL Database of Faces. Первый эксперимент выполняется для настройки значения параметра D (вейвлет-преобразование Добеши) и в нем исследуется влияние значения порога признания лица 8 (метод главных компонент) на точность распознавания. Второй эксперимент проводится для исследования эффективности работы комбинаций вейвлет-преобразований Хаара, Добеши и РСА при решении задачи распознавания лиц в присутствии шума на изображениях.
Для оценки эффективности процесса распознавания применяются вероятности ошибки первого (False Acceptance Rate, FAR) и второго рода (False Reject Rate, FRR). Уровнем равной ошибки называется точка, в которой ошибка первого рода равна ошибке второго рода.
Настройка значения параметра D и исследование влияния значения порога признания лица 8 на точность распознавания
Для настройки значения параметра D при ограничении значений вейвлет-коэффициентов в соответствии с (1) было проведено исследование его влияния на точность распознавания.
Рассматривались следующие комбинации:
• вейвлет-преобразование Хаара и РСА (Хаар+РСА);
• вейвлет-преобразование Добеши и РСА (Д4+РСА);
• вейвлет-преобразования Хаара, Добеши и РСА (Хаар+Д4+РСА), без введения ограничения на величину значений вейвлет-коэффициентов Добеши;
• вейвлет-преобразования Хаара, Добеши и РСА (Хаар+Д4(200)+РСА), (Хаар+Д4(250)+РСА), (Хаар+Д4(300)+РСА) и (Хаар+Д4(350)+РСА), при этом значение параметра D принималось равным 200, 250, 300 и 350 соответственно.
Для обучения используются 100 обучающих выборок, содержащих 50 случайных изображений лиц (из 100). Для тестирования используются 100 тестовых выбо-j рок, содержащих 50 оставшихся из 100 изображений базы ORL. Затем к изображениям подготовленных тестовых выборок из базы ORL были добавлены 165 изображений базы Yale Face Database для вычисления ошибки первого рода.
Зависимость ошибки первого и второго рода от значений порога признания лица 5 при распознавании лиц приведена на рис. 2.
^100 ^ J .»100 ^ k i ■ FAR
1 о о •■=> о о о «л о о чл Порог б " <= о g о о о Порог О о о g о о о 1/1 ~ 2 й п Порог 1FRR
Хаар+РСА Д4+РСА Хаар+Д4+РСА
0 J^^^r— О о о о о о о 1л о 1л о 1Л 0 —^^ ОООООО J.100 ^ 3 0 г-Щ.
Порог Порог Порог Порог
Хаар+Д4(200)+РСА Хаар+Д4(250)+РСА Хаар+Д4(300)+РСА Хаар+Д4(350)+РСА
Рис. 2. Ошибки первого и второго рода при различных значениях порога признания лица
Из приведенного рисунка 2 следует, что уровень равной ошибки у каждой комбинации является различным. Значение порога признания лица для каждой комбинации находится в следующих диапазонах: 1550-1700 для комбинации Хаар+Д4(200)+РСА и 1700-2200 для комбинации Хаар+Д4+РСА. Для сравнения результатов распознавания лиц всеми комбинациями было выбрано общее значение порога признания лица равное 1700.
Результаты исследования зависимости точности распознавания лиц от значения параметра Ц при использовании общего значения порога (5=1700) для ком; бинации Хаара, Добеши и РСА приведены на рис. 3.
Полученные результаты показывают, что точность распознавания лиц изменяется с ростом значений параметра О. Наилучшая точность распознавания лиц составляет 97,6% при значении параметра £> равном 280.
На рис. 4 представлены результаты распознавания лиц различными комбинациями при использовании общего значения порога (5=1700).
т о Н
97 -
96
95
200 220 240 260 280 300 320 340 Значение параметра D Рис. 3. Зависимость точности распознавания лиц при использовании общего значения порога (8=1700) от значения параметра D для комбинации Хаара, Добеши и РСА
Показано, что наилучшая точность распознавания лиц комбинацией вейвлет-преобразований Хаара, Добеши и РСА без введения ограничения на величину значений вейвлет-коэффициентов Добеши составляет 96,6%. Введение ограничений значений вейвлет-коэффициентов Добеши (характеризуемых параметром О) позволило показать более высокую точность распознавания лиц (на 1,0%) на тестовых изображениях.
Таким образом, в дальнейшем при проведении численных экспериментов значение параметра £> для комбинации вейвлет-преобразований Хаара, Добеши и РСА устанавливается равным 280, соответственно пороговое значение признания лица 8 - 1700.
Исследование эффективности работы комбинаций вейвлет-преобразований Хаара, Добеши и РСА для распознавания лиц в присутствии шума на изображениях
В данном эксперименте были созданы дополнительные тестовые выборки из базы (ЖЬ путем добавления 5 и 10% шума типа «соль и перец» к изображениям подготовленных тестовых выборок.
В соответствии с приведенными выше результатами пороговое значение признания лица устанавливается равным 1700, а значение параметра О - 280.
Результаты численных экспериментов по распознаванию лиц различными комбинациями представлены на рис. 5.
Показано, что комбинация вейвлет-преобразований Хаара, Добеши и РСА дает наилучшую точность распознавания лиц как в присутствии шума на изображениях, так и в его отсутствии.
3. Алгоритм распознавания лиц на видеопоследовательности
Для решения задачи распознавания множества лиц на видеопоследовательности предложен алгоритм, основанный на совместном применении предложенного алгоритма распознавания лиц на статических изображениях и метода Виолы-Джонса.
3.1 Процесс создания базы признаков лиц на видеопоследовательности
Пусть имеется обучающая выборка, состоящая из М кадров, на каждом из которых расположено одно лицо. Процесс создания базы признаков происходит следующим образом.
1. Представление каждого из М кадров обучающей выборки в виде полутонового изображения.
2. Применение к каждому полутоновому изображению метода Виолы-Джонса
Хаар+РСА Д4+РСА
Хаар+Д4(280)+РСА Хаар+Д4+РСА
Рис. 4. Результаты распознавания лиц различными комбинациями при использовании общего значения порога признания лица
0 5 10
Уровень шума на изображениях, %
Рис. 5. Результаты распознавания лиц различными комбинациями
для поиска области лица.
3. Выполнение процесса создания базы признаков из М обнаруженных областей лиц.
3.2 Процесс распознавания множества лиц на видеопоследовательности
Для распознавания множества лиц на видеопоследовательности к каждому очередному кадру применяются следующие шаги.
1. Представление очередного кадра в виде полутонового изображения.
2. Применение к полученному полутоновому изображению метода Виолы-Джонса для поиска N областей, содержащих лица.
3. Выполнение процесса распознавания каждого ¿-ого из N обнаруженных лиц.
4. Вывод результата распознавания на экран.
4. Алгоритм распознавания жестов на видеопоследовательности в режиме реального времени
Для решения задачи распознавания жестов на видеопоследовательности в режиме реального времени предложен алгоритм, основанный на применении предложенного алгоритма распознавания жестов на изображениях, метода Виолы-Джонса и алгоритма САМБЫф.
4.1 Процесс создания базы признаков жестов на видеопоследовательности
Пусть имеется обучающая выборка, состоящая из М кадров, на каждом из которых расположен один жест. Процесс создания базы признаков происходит следующим образом.
1. Представление каждого из М кадров обучающей выборки в виде полутонового изображения.
2. Применение к каждому полутоновому изображению метода Виолы-Джонса для поиска области жеста.
3. Выполнение процесса создания базы признаков из М обнаруженных областей жестов.
4.2 Процесс распознавания жестов на видеопоследовательности происходит следующим образом.
Представляется очередной кадр в виде полутонового изображения. Затем к полутоновому изображению применяется метод Виолы-Джонса для поиска местоположения области жеста. Если область жеста не обнаружена, то применяется метод Виолы-Джонса для следующего очередного кадра. Если область жеста обнаружена, то к очередному кадру применяется алгоритм САМБЫф для отслеживания области жеста. Если область жеста отслежена, то выполняется процесс распознавания жеста для этой области жеста.
Затем для следующего очередного кадра применяется алгоритм САМБМф и запускается процесс распознавания. Если область жеста не отслежена, то применяется метод Виолы-Джонса для поиска нового местоположения области жеста.
Предложенный алгоритм для распознавания жестов на видеопоследовательности работает только с областью жеста, благодаря этому он может обеспечить высокую скорость распознавания на видеопоследовательности в режиме реального времени.
В третьей главе излагаются результаты применения разработанных алгорит-
мов к решению задачи распознавания лиц и жестов на статических изображениях и видеопоследовательностях в режиме реального времени. Осуществлена экспериментальная проверка разработанных алгоритмов на задачах распознавания лиц и жестов на изображениях, видеопоследовательностях и видеороликах.
1. Для тестирования работы алгоритма распознавания лиц на статических изображениях используется база изображений лиц ORL Face Databases. Она содержит 40 изображений лиц различных людей, по 10 изображений каждого лица. Снимки лиц сделаны в разное время, при различном освещении, для различной мимики (открытые/закрытые глаза, улыбка или ее отсутствие) и лицевых деталей (наличие или отсутствие очков).
2. Для тестирования работы алгоритма распознавания жестов на статических изображениях используется база изображений жестов Cambridge Gesture Database. Эта база изображений жестов состоит из 5 различных частей, изображения в которых получены при различных условиях освещенности. В данной работе все жесты в базе данных (БД) делятся на 12 классов.
3. Для тестирования работы алгоритма распознавания лиц на видеопоследовательности используется база видеоролика NRC-IIT: Facial Video Database. База содержит 10 пар коротких видеороликов (один видеоролик для обучения, а второй -для тестирования), в которых показываются лица пользователей компьютера. Эти пользователи находятся перед монитором, совершая поступательные и вращательные движения головой. Лицо занимает от 1/4 до 1/8 части изображения.
4. При тестировании работы алгоритма распознавания жестов на видеопоследовательности используются изображения «жестов», разделяющиеся на 6 классов.
Результаты тестирования
1. Результаты тестирования разработанного алгоритма распознавания лиц на изображениях из БД ORL Face Databases приведены на рис. 6.
Показано, что комбинация вейвлет-преобразований Хаара, Добеши и РСА (Хаар+Д4+РСА) распознает лица эффективнее, чем РСА и разница между ними становится более заметной в условиях зашумленных изображений.
Результаты, полученные на основе предложенного алгоритма для распознавания лиц на изображениях, сопоставлялись с данными, полученными на основе применения ряда алгоритмов, таких как: 1 - РСА (Principal Component Analysis) Moment Invariant Face Colour, 2 - PCA Moment Invariant; 3 - PDBNN (Probabilistic Decision-based Neural Network); 4 - Point-matching-, 5 - Pseudo 2-D HMM (.Hidden Markov Models) DCT (Discrete Cosine Transform)', 6 - LVQ (Learning Vector Quantization) RBF (Radial Basic Function) FEC (Forward Error Correction); 7 - PCA RBF; 8 - UDT (Uncorrelated Discriminant Transformation); 9 - Wavelet RBF; 10 - RBF; 11 - Gabor PCA; 12 - комбинация вейвлет-преобразований Хаара, Добеши и РСА (рис. 7).
Уровень шума на изображениях, %
Рис. 6. Результаты распознавания лиц из базы СЖЬ
100
°:95 в S
х
f- о
90 85
75 -J—1
Рис. 7. Сравнение различных алгоритмов на задаче распознавания лиц из базы ОЯЬ
100
ÖS
и =
X
95
о Н
90
85
80
I Хаар + PC А ■ Д4 + РСА ■ Хаар + Д4 + РСА
0 5 10 15 20 25 30 Уровень шума на изображениях , %
Рис. 8. Результаты распознавания жестов из базы Cambridge Gesture Database
Метод Point-matching показал худшие результаты. Результаты работы предложенного алгоритма (№ 12) сопоставимы с методами: РСА Moment Invariant Face Colour, РСА Moment Invariant, PDBNN, PCA RBF, UDT, Wavelet RBF и Gabor РСА.
2. Результаты распознавания жестов из базы Cambridge Gesture Database приведены на рис. 8.
Показано, что комбинация вейвлет-преобразований Хаара, До-беши и РСА (Хаар+Д4+РСА) распознает жесты эффективнее, чем комбинация вейвлет-преобразования Хаара и РСА (Хаар+РСА) и комбинация вейвлет-преобразования До-беши и РСА (Д4+РСА) как в отсутствии, так и в присутствии шумов на изображениях тестовой выборки.
Результаты распознавания жестов на статических изображениях предложенным алгоритмом сопоставлялись с данными, полученными на основе применения других методов.
На рис. 9 представлены результаты сопоставления созданного алгоритма с десятью известными алгоритмами (1 - SVM (Support Vector Machine)', 2 - 3D SIFT RVM (Relevance Vector Machine)-, 3 -RVM; 4 - CC (canonical correlations)-, 5 -ST-DCC (spatiotemporal discriminative canonical correlations ST-DCC); 6 — SIFT CC; 7 - модель ИВП; 8 - ST-CC; 9 - SIFT ST-CC; 10 - SIFT ST-DCC; 11 - комбинация вейвлет-преобразований Хаара, Добеши и РСА) для распознавания жестов, которые показывают, что предложенный алгоритм является наилучшим.
3. Примеры результатов работы предложенного алгоритма для распознавания двух лиц на видеопоследовательности в реальном режиме времени представлены на рис. 10.
Для тестирования работоспособности предложенного алгоритма на видеопоследова-
5 я
' -
с? "
Н о
Рис. 9. Сравнение различных алгоритмов на задаче распознавания жестов
в •а
в Ж т.
Рис. 10. Примеры распознавания двух лиц на видеопоследовательности
тельностях использовалась база видеороликов Facial Video Database.
При проведении экспериментов по распознаванию лиц на видеопоследовательности применялся алгоритм, основанный на комбинации вейвлет-преобразований Хаара, Добеши и РСА и метода Виолы-Джонса.
На рис. 1 ] представлены результаты сравнения точности распознавания лиц на видеопоследовательностях предложенным алгоритмом с данными, полученными на основе применения алгоритма «Associative neural networks» (ANN).
Результаты распознавания лиц на видеопоследовательностях в режиме реального времени предложенным алгоритмом показали в среднем более высокую точность по сравнению с результатами, полученными на основе применения алгоритма «Associative neural networks».
4. Распознавание жестов на видеопоследовательности
Примеры результатов применения предложенного алгоритма для распознавания жестов на видеопоследовательности в режиме реального времени представлены на рис. 12.
При выполнении тестирования программы распознавания жестов на видеопоследовательности наклон руки изменяется медленно по разным направлениям. Скорость обработки составляет 30-31 кадр в секунду.
Рис. 12. Примеры распознавания жестов на видеопоследовательности
Четвёртая глава посвящена разработке ПО на основе предложенных во 2 главе алгоритмов. Выбран язык программирования для реализации библиотеки. Описываются используемые библиотеки ОрепСУ, Emgu СУ и AForge.Net. Представлена структура классов библиотеки.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Предложен и разработан новый способ выделения признаков объектов на изображениях на основе совместного применения вейвлет-преобразований Хаара и Добеши.
2. Разработан оригинальный алгоритм распознавания лиц и жестов в присутствии шума на статических изображениях на основе применения вейвлет-преобразований Хаара, Добеши и РСА.
3. Разработан новый алгоритм распознавания множества лиц на видеопоследовательности, основанный на совместном применении предложенного алгоритма распознавания лиц на изображениях и метода В иолы-Джонса.
4. Разработан оригинальный алгоритм распознавания жестов на видеопо-
| ANN
Хаар + Д4 + РСА
23456789 10 Итого
Видеопоследовательность
Рис. 11. Точность распознавания лиц на видеопоследовательностях
следовательности в режиме реального времени, основанный на применении предложенного алгоритма распознавания жестов на изображениях, метода Виолы-Джонса и алгоритма CAMShift.
5. Созданы программные модули «PatternRecognition», «FaceRecognition» и «GestureRecognition», которые используются для распознавания объектов на изображениях и движущихся объектов на видеопоследовательностях в режиме реального времени.
ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ
Статьи в журналах, включенных в Перечень рецензируемых научных изданий, рекомендованных Высшей аттестационной комиссией при Министерстве образования и науки Российской Федерации для опубликования основных научных результатов диссертаций:
1. Буй Т.Т.Ч. Анализ методов выделения краев на цифровых изображениях / Буй Т.Т.Ч., В.Г. Спицын // Доклады Томского государственного университета систем управления и радиоэлектроники. - 2010. - № 2 (22). - Ч. 2. - С. 221-223. -0,21/0,11 п. л.
2. Буй Т.Т.Ч. Разложение цифровых изображений с помощью двумерного дискретного вейвлет-преобразования Хаара / Буй Т.Т.Ч., В.Г. Спицын // Известия Томского политехнического университета. - 2011. - Т. 318. - № 5. - С. 73-76. -0,3/0,15 п.л.
3. Буй Т.Т.Ч. Алгоритмическое и программное обеспечение для классификации цифровых изображений с помощью вейвлет-преобразования Хаара и нейронных сетей / Буй Т.Т.Ч., Фан Н.Х., В.Г. Спицын // Известия Томского политехнического университета.-2011. - Т. 319. - № 5. - С. 103-106.-0,37/0,15 п.л.
4. Буй Т.Т.Ч. Распознавание лиц на основе применения метода Виолы-Джонса, вейвлет-преобразования и метода главных компонент / Буй Т.Т.Ч., Фан Н.Х., В.Г. Спицын // Известия Томского политехнического университета. - 2011. - Т. 320. - № 5. - С. 54-59. - 0,45/0,2 п.л.
5. Буй Т.Т.Ч. Распознавание лиц и жестов на основе применения вейвлет-преобразования и метода главных компонент / Буй Т.Т.Ч., Фан Н.Х., В.Г. Спицын // Нелинейный мир. - 2012. - Т. 10. - № 6. - С. 371-379. - 0,79/0,3 п.л.
6. Фан Н.Х. Распознавание жестов на видеопоследовательности в режиме реального времени на основе применения метода Виолы-Джонса, алгоритма CAMShift, вейвлет-преобразования и метода главных компонент / Фан Н.Х., Буй Т.Т.Ч., В.Г. Спицын // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2013. - Т. 23. - № 2. - С. 102-111. -0,65/0,2 п.л.
Публикации в других научных изданиях".
1. Буй Т.Т.Ч. Проблема подавления шума на изображениях и различные подходы к ее решению на основе применения вейвлет-преобразования / Буй Т.Т.Ч., В.Г. Спицын // Сборник трудов VIII Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии». - Томск: Изд-во СПБ Графике, 2010. - Ч. 2. - С. 225-226. -0,19/0,1 п.л.
8. Буй Т.Т.Ч. Подавление шума на изображениях и различные подходы к ее решению / Буй Т.Т.Ч., В.Г. Спицын // Сборник трудов XVI Международной научно-
практической конференции студентов, аспирантов и молодых ученых «Современные техника и технологии». - Томск: Изд-во ТПУ, 2010. - Т. 2. - С. 296-298. -0,18/0,1 п.л.
9. Буй Т.Т.Ч. Подавление шума на изображениях / Буй Т.Т.Ч., В.Г. Спицын // Сборник докладов III Всероссийской научно-практической конференции «Научная инициатива иностранных студентов и аспирантов российских вузов». - Томск: Изд-во ТПУ, 2010. - С. 34-38. - 0,17/0,1 п.л.
10. Буй Т.Т.Ч. Подавление шумов и реконструкция изображений на основе применения ядра регрессии / Буй Т.Т.Ч., Фан Н.Х. // Сборник трудов XVII Международной научно-практической конференции студентов, аспирантов и молодых ученых «Современные техника и технологии». - Томск: Изд-во ТПУ, 2011. - Т. 2. - С. 299-300.-0,26/0,13 п.л.
11. Буй Т.Т.Ч. Разложение изображений с помощью двумерного дискретного вейвлет-преобразования и быстрого преобразования Хаара / Буй Т.Т.Ч., В.Г. Спицын // Сборник трудов IX Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии». - Томск: Изд-во СПБ Графике, 2011.-Ч. 1.-С. 198-199.-0,2/0,1 п.л.
12. Буй Т.Т.Ч. Разложение изображений с помощью двумерного дискретного вейвлет-преобразования и быстрого преобразования Хаара / Буй Т.Т.Ч., В.Г. Спицын // Проблемы информатики. - 2011. - № 2(10). - С. 4-10. - 0,29/0,2 п.л.
13. Буй Т.Т.Ч. Классификация изображений на основе применения цветовой информации, вейвлет-преобразования Хаара и многослойной нейронной сети / Буй Т.Т.Ч., Фан Н.Х., В.Г. Спицын // Проблемы информатики, 2011. - Спецвыпуск. -С. 81-86.-0,38/0,15 п.л.
14. Буй Т.Т.Ч. Способ классификации изображений на основе применения вейвлет-преобразования Хаара и нейронных сетей / Буй Т.Т.Ч., Фан Н.Х., В.Г. Спицын // Материалы XIX Всероссийского семинара «Нейроинформатика, ее приложения и анализ данных». - Красноярск: Изд-во Сиб. федер. ун-та, 2011. -С. 159-164.-0,31/0,12 п.л.
15. Bui Т.Т.Т. Face and Hand Gesture Recognition based on Wavelet Transforms and Principal Component Analysis / Bui T.T.T., Phan N.H., V.G. Spitsyn // 7Ш International Forum on Strategic Technology IFOST: Proceedings of IFOST. - Tomsk: TPU Press, 2012,-V. 1,-P. 588-591.-0,4/0,15 п.л.
Подписано к печати 22.04.2014. Формат 60x84/16. Бумага «Снегурочка». Печать XEROX. Усл. печ. л. 0,99. Уч.-изд. п. 0,89.
_Заказ 340-14. Тираж 120 экз._
Национальный исследовательский Томский политехнический университет Система менеджмента качества Издательства Томского политехнического университета сертифицирована в соответствии с требованиями ISO 9001:2008
ИЗДАТЕЛЬСТВО Ж ТПУ. 634050, г. Томск, пр. Ленина, 30 Тел./факс: 8(3822)56-35-35, www.tpu.ru
Текст работы Буй Тхи Тху Чанг, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Национальный исследовательский Томский политехнический университет»
На правах рукописи
04201459873
Буй Тхи Тху Чанг
АЛГОРИТМЫ РАСПОЗНАВАНИЯ ЛИЦ И ЖЕСТОВ НА ОСНОВЕ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЙ И МЕТОДА ГЛАВНЫХ КОМПОНЕНТ
05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель -доктор технических наук, профессор В.Г. Спицын
Томск-2014
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ..............................................................................................................5
ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ РАСПОЗНАВАНИЯ ОБЪЕКТОВ ........................................................................................................13
1.1 Применение и развитие методов распознавания объектов.........13
1.2 Анализ подходов при решении задач распознавания объектов. 17
1.2.1 Формирование признаков изображения..................................17
1.2.2 Классификация методов распознавания объектов.................21
1.2.3 Вейвлет-анализ...........................................................................29
1.3 Обнаружение лиц на изображениях..............................................37
1.4 Слежение за объектами...................................................................40
1.5 Цель и задачи исследования...........................................................42
1.6 Основные результаты и выводы по главе 1..................................45
ГЛАВА 2. АЛГОРИТМЫ РАСПОЗНАВАНИЯ ЛИЦ И ЖЕСТОВ НА ОСНОВЕ ПРИМЕНЕНИЯ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЙ И МЕТОДА ГЛАВНЫХ КОМПОНЕНТ...................................................................................46
2.1 Способ выделения признаков объектов на изображениях..........46
2.2 Алгоритм распознавания лиц и жестов на статических изображениях...................................................................................................49
2.2.1 Алгоритм распознавания объектов при применении РСА....49
2.2.2 Принципы и схемы работы предложенного алгоритма распознавания объектов на изображениях...............................................51
2.3 Экспериментальное оценивание точности распознавания объектов на основе применения вейвлет-преобразований и РСА.............54
2.4 Алгоритм распознавания лиц на видеопоследовательности......63
2.4.1 Интегральное представление изображений............................65
2.4.2 Хаар-подобные признаки..........................................................66
2.4.3 Метод построения классификатора на основе алгоритма бустинга ......................................................................................................69
2.4.4 Метод комбинирования классификаторов в каскадную структуру......................................................................................................70
2.5 Алгоритм распознавания жестов на видеопоследовательности 71
2.6 Основные результаты и выводы по главе 2..................................75
ГЛАВА 3. ТЕСТИРОВАНИЕ И ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ АЛГОРИТМОВ ДЛЯ РАСПОЗНАВАНИЯ ЛИЦ И ЖЕСТОВ НА ИЗОБРАЖЕНИЯХ И ВИДЕОПОСЛЕДОВАТЕЛЬНОСТЯХ...........................76
3.1 Постановка экспериментов............................................................76
3.2 Тестирование разработанного ПО.................................................77
3.2.1 Распознавание лиц на статических изображениях.................77
3.2.2 Распознавание жестов на статических изображениях...........87
3.2.3 Распознавание множества лиц на видеопоследовательности... ......................................................................................................94
3.2.4 Распознавание жестов на видеопоследовательности.............98
3.3 Перспективы использования полученных результатов в жизни99
3.4 Основные результаты и выводы по главе 3................................101
ГЛАВА 4. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ РАСПОЗНАВАНИЯ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ И ВИДЕОПОСЛЕДОВАТЕЛЬНОСТЯХ .
......................................................................................................102
4.1 Выбор средств разработки............................................................102
4.1.1 Структура классов библиотеки..............................................104
4.2 Программные средства для распознавания объектов на изображениях и видеопоследовательностях..............................................116
4.2.1 Приложение для распознавания объектов на статических
изображениях.............................................................................................117
4.2.2 Приложение для распознавания лиц на видеопоследовательностях.......................................................................120
4.2.3 Приложение для распознавания жестов на видеопоследовательностях.......................................................................123
4.3 Основные результаты и выводы по главе 4................................125
ЗАКЛЮЧЕНИЕ....................................................................................................126
ОБОЗНАЧЕНИЯ..................................................................................................127
СПИСОК СОКРАЩЕНИЙ.................................................................................128
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ..........129
СПИСОК ПУБЛИКАЦИЙ АВТОРА................................................................142
ПРИЛОЖЕНИЕ...................................................................................................145
ВВЕДЕНИЕ
Актуальность работы. В настоящее время успешно развивается направление, связанное с интеллектуализацией методов обработки и анализа данных. Задача распознавания лиц и жестов является одной из первых практических задач, которая послужила стимулом для развития теории распознавания объектов [1, 27-29, 42]. Распознавание лиц и жестов находит применение в различных сферах человеческой деятельности. Данное направление появилось в начале 1980-х годов, но его развитие началось в 1990-х годах в процессе создания информационно-поисковых систем распознавания лиц для идентификации личности.
В развитие теории и практики распознавания лиц и жестов значительный вклад внесли зарубежные ученые Jonathon Phillips (NIST, США), Harry Wechsler (университет George Mason), работающие в области распознавания образов уже 15 лет, а также Такео Kanade, Matthew Turk [113], Paul Viola [116-118], Michael J. Jones [116-118], Bruce D. Lucas, Jing Xiao, Simon Baker, Dorin Comaniciu [57-60], Gary R. Bradski [54] и другие. Интересные результаты в области распознавания образов и распознавания объектов на изображениях были получены российскими учеными: Вапником В.Н. [15], Журавлёвым Ю.И. [27, 28], Сойфером В.А. [42, 43], Загоруйко Н.Г. [29], Местецким Л.М. [31], Алпатовым Б.А. [1], Гореликим А.Л. [20, 21], Гуревичем КБ. [21], Сергеевым В.В. [38], Васиным Ю.Г. [115] и другими. Ценный вклад в решение проблемы распознавания лиц внесли российские ученые: Желтое С.Ю. [25], Визилыпер Ю.В. [25], Крылов A.C. [32], Веэ/сневец В.П. [16], Шерстобитов А.И. [46], Пахирка А.И. [34] и другие.
Распознавание лиц заключается в идентификации одного или нескольких человек путем сравнения входных изображений с имеющимися изображениями в базе данных (БД) [30]. Методы, применяемые для решения задачи распознавания лиц и жестов, должны обеспечивать приемлемую точность распознавания и высокую скорость обработки видеопоследовательностей.
Распознавание объектов состоит из четырех этапов: захвата объектов, извлечения признаков, сравнения полученных признаков с шаблонами и поиска соответствия. Большой интерес представляют задачи распознавания объектов. Решение этих задач востребовано в связи с возрастающими практическими потребностями правоохранительных органов для осуществления процедур верификации, криминалистической экспертизы и т.д. [33].
Проблема автоматизированного распознавания лиц и жестов является относительно новой и до сих пор не решена в полном объеме. За последние годы был предложен ряд различных методов и алгоритмов по обработке, локализации и распознаванию лиц и жестов на статических изображениях, таких как «собственные лица» (метод главных компонент, Principal Component Analysis, РСА), нейронные сети, эволюционные алгоритмы, алгоритм AdaBoost, метод опорных векторов и т.д. Однако эти подходы для распознавания объектов обладают недостаточной точностью, надежностью и скоростью в сложной реальной обстановке, характеризующейся присутствием шумов на изображениях и на видеопоследовательностях.
Следует отметить существование ряда факторов, усложняющих распознавание объектов на статических изображениях и видеопоследовательностях. К ним относятся: изменение условий освещенности в процессе съемки, низкое качество видеоизображений, сложность отделения объекта от фона, присутствие в видеокадре множества объектов и т.д.
Таким образом, необходимо совершенствовать подходы, методы и алгоритмы распознавания объектов на статических изображениях и движущихся объектов на видеопоследовательностях в интересах разнообразных применений. В частности, разрабатываемые алгоритмы могут найти применение при создании человеко-машинных интерфейсов, которые расширяют интеллектуальные возможности компьютерных систем.
Целью диссертационной работы является разработка алгоритма, позволяющего распознавать лица и жесты на статических изображениях и видеопоследовательностях в режиме реального времени.
Для достижения указанной цели были поставлены следующие основные задачи:
1. Разработать способ выделения признаков объектов на изображениях, обеспечивающий высокую точность при решении задач распознавания лиц и жестов.
2. Разработать алгоритм на основе предложенного способа выделения признаков объектов, позволяющий распознавать лица и жесты в присутствии шума на статических изображениях.
3. Разработать алгоритм на основе предложенного алгоритма распознавания лиц на изображениях, позволяющий распознавать лица на видеопоследовательностях в режиме реального времени.
4. Разработать алгоритм на основе предложенного алгоритма распознавания жестов на изображениях, позволяющий распознавать жесты на видеопоследовательностях в режиме реального времени.
5. Реализовать разработанные алгоритмы в виде программных систем (ПС), предназначенных для распознавания лиц и жестов, и провести вычислительные эксперименты с целью оценки их качества и эффективности.
Степень достоверности результатов проведённых исследований
подтверждается результатами численных экспериментов, согласующимися с результатами, полученными другими авторами.
Внедрение работы. Результаты работы внедрены в Томском политехническом университете на кафедре вычислительной техники при подготовке специалистов по магистерской программе «Компьютерный анализ и интерпретация данных» по курсу «Методы интеллектуальной обработки и анализа изображений».
Реализация результатов работы. Способы, алгоритмы и программные средства, разработанные в диссертационной работе, использовались при выполнении работ по гранту РФФИ № 09-08-00309 «Создание программного комплекса автоматизированной обработки изображений и распознавания образов на основе применения искусственных нейронных сетей, регуляторных сетей и эволюционных алгоритмов» (20092011 гг.); в проекте «Создание комплексных технологий распознавания объектов на изображении на основе применения моделей зрительного восприятия и методов вычислительного интеллекта», поддержанном грантом РФФИ № 12-08-00296 (2012-2014 гг.).
Предметом исследования являются алгоритмы для распознавания лиц и жестов на статических изображениях и видеопоследовательностях в режиме реального времени.
Теоретическая значимость результатов диссертационного исследования состоит в том, что разработаны, исследованы и апробированы новые алгоритмы для распознавания лиц и жестов на изображениях и видеопоследовательностях в режиме реального времени.
Апробация работы. Результаты диссертационной работы обсуждались и докладывались на следующих симпозиумах, семинарах и конференциях: VIII, IX Всероссийские научно-практические конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2010, 2011); XVI, XVII Международные научно-практические конференции студентов, аспирантов и молодых ученых «Современные техника и технологии» (Томск, 2010, 2011); III Всероссийская научно-практическая конференция «Научная инициатива иностранных студентов и аспирантов российских вузов» (Томск, 2010); VI Международная научно-практическая конференция «Электронные средства и системы управления» (Томск, 2010); XIX Всероссийской семинар «Нейроинформатика, ее приложения и анализ данных» (Красноярск, 2011); XIV Всероссийский с международным участием научный симпозиум по
теории и приложениям непараметрических и робастных статистических методов «НЕПАРАМЕТРИКА-XIV» (Томск, 2012); The 7th International Forum on Strategie Technology IFOST (Томск, 2012).
Кратко изложим содержание основных разделов работы.
В первой главе представлен аналитический обзор алгоритмов и методов при решении задач распознавания объектов на статических изображениях и движущихся объектов на видеопоследовательностях в режиме реального времени, обозначены их преимущества и недостатки.
Проводится обсуждение одномерного и двумерного вейвлет-преобразований. Проанализированы возможности совместного использования вейвлет-преобразований и РСА при решении задач распознавания лиц и жестов как на статических изображениях, так и на видеопоследовательностях в режиме реального времени.
Во второй главе описываются алгоритмы для распознавания объектов на статических изображениях и динамических объектов на видеопоследовательностях в режиме реального времени, разработанные в соответствии с требованиями, сформулированными в главе 1. Предложены алгоритмы, успешно работающие как со статическими изображениями, так и с видеопоследовательностями. Особенностью предложенных алгоритмов является совместное применение вейвлет-преобразований, РСА, метода Виолы-Джонса и алгоритма CAMShift.
В третьей главе излагаются результаты применения разработанных алгоритмов к решению задачи распознавания объектов на статических изображениях и движущихся объектов на видеопоследовательности в режиме реального времени. Представлены данные для обучения и тестирования, а также таблицы с результатами распознавания объектов. Произведено тестирование разработанного программного обеспечения (ПО) и сопоставление предложенных алгоритмов распознавания объектов с известными аналогами.
Четвёртая глава посвящена разработке ПО на основе предложенных во 2 главе алгоритмов. Выбран язык программирования для реализации библиотеки. Описываются используемые библиотеки ОрепСУ, Ет^и СУ и AForge.Net. Представлена структура классов библиотеки.
Научная новизна результатов диссертационной работы заключается в следующем:
1. Предложен способ выделения признаков объектов на изображениях, основанный на совместном применении вейвлет-преобразований Хаара и Добеши, позволяющий эффективнее распознавать объекты по сравнению с применением вейвлет-преобразования Хаара или Добеши в отдельности.
2. Разработан алгоритм распознавания лиц и жестов на статических изображениях в присутствии шума, основанный на предложенном способе выделения признаков и РСА, обеспечивающий высокую точность распознавания лиц и жестов.
3. Предложен алгоритм, основанный на совместном применении предложенного алгоритма распознавания лиц на изображениях и метода Виолы-Джонса, позволяющий распознавать множество лиц на видеопоследовательности.
4. Разработан алгоритм, основанный на применении предложенного алгоритма распознавания жестов на изображениях, метода Виолы-Джонса и алгоритма САМБЫА, дающий возможность распознавания жестов на видеопоследовательности в режиме реального времени.
Научную ценность работы представляет вклад в развитие в области распознавания объектов, заключающийся в предложенном алгоритме, основанном на совместном применении вейвлет-преобразований, РСА, метода Виолы-Джонса и алгоритма САМБМА, увеличивающем точность и скорость распознавания объектов на статических изображениях и движущихся объектов на видеопоследовательности в режиме реального времени.
Практическая ценность. Разработанные в диссертации алгоритмические и программные средства могут найти применение в системах правоохранительных органов для верификации личности, осуществления криминалистической экспертизы, а также при проведении телеконференций.
Реализованные в ходе диссертационной работы алгоритмы предназначены для решения задач распознавания объектов на статических изображениях и движущихся объектов на видеопоследовательностях.
Методы исследования. При выполнении диссертационной работы использовались вейвлет-преобразования, РСА, метод Виолы-Джонса, алгоритм САМБЫА, алгоритмы цифровой обработки изображений, технология разработки ПО, а также методы теории вероятностей и математической статистики для количественной обработки данных экспериментов.
Личный вклад автора. Постановка задач исследования по теме диссертации выполнена автором совместно с научным руководителем, д.т.н., профессором В.Г. Спицыным. Основные теоретические и практические результаты, представленные в диссертации, получены лично автором.
Основные положения, выносимые на защиту:
1. Способ выделения признаков объектов на изображениях на основе совместного применения вейвлет-преобразований Хаара и Добеши.
2. Алгоритм распознавания лиц и жестов в присутствии шума на статических изображениях, основанный на предложенном способе выделения признаков объектов на изображениях и РСА.
3. Алг�
-
Похожие работы
- Алгоритмы обработки и анализа символов вейвлет-преобразованием, методом главных компонент и нейронными сетями
- Сжатие сигналов и изображений при помощи оптимизированных вейвлет-фильтров
- Методы и алгоритмы выделения контуров изображений в радиотехнических системах с использованием дискретной вейвлет-фильтрации
- Алгоритмы распознавания жестов на видеопоследовательностях
- Методы сжатия цифровых изображений на основе дискретных ортогональных вейвлет преобразований
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность