автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Распознавание лиц на телевизионных изображениях при наличии искажающих факторов
Автореферат диссертации по теме "Распознавание лиц на телевизионных изображениях при наличии искажающих факторов"
На правах рукописи
НИКИТИН АНАТОЛИЙ ЕВГЕНЬЕВИЧ
РАСПОЗНАВАНИЕ ЛИЦ НА ТЕЛЕВИЗИОННЫХ ИЗОБРАЖЕНИЯХ ПРИ НАЛИЧИИ ИСКАЖАЮЩИХ ФАКТОРОВ
Специальность 05.12.04 Радиотехника, в том числе системы и устройства телевидения
г 9 Щ 2015
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Ярославль - 2015
005571040
Работа выполнена на кафедре динамики электронных систем ФГБОУ ВПО «Ярославский государственный университет им. П.Г. Демидова»
Хрящев Владимир Вячеславович
кандидат технических наук, доцент, доцент кафедры динамики электронных систем ФГБОУ ВПО «Ярославский государственный университет им. П.Г. Демидова», г. Ярославль
Бехтин Юрий Станиславович
доктор технических наук, профессор, профессор ФГБОУ ВПО «Рязанский государственный радиотехнический университет», г. Рязань
Медведева Елена Викторовна
доктор технических наук, доцент, профессор ФГБОУ ВО «Вятский государственный университет», г. Киров
Ведущая организация: ФГБОУ ВПО «Владимирский государственный
университет имени Александра Григорьевича и Николая Григорьевича Столетовых», г. Владимир
Научный руководитель:
Официальные оппоненты:
Защита диссертации состоится 13.11.2015 г. в 15.00 на заседании диссертационного совета Д 212.131.01 при ФГБОУ ВО «Московский государственный университет информационных технологий, радиотехники и электроники» (МИРЭА) по адресу: 119454, г. Москва, просп. Вернадского, д. 78, аудитория Д-117.
С диссертацией можно ознакомиться в библиотеке МИРЭА и на сайте https://www.rnirea.ru/upload/medialibrary/d82/dissertatsiya_nikitin-2015.pdf.
Автореферат разослан « » 2015 г.
Отзывы на реферат, заверенные печатью, просьба отправлять в адрес ученого секретаря диссертационного совета: 119454, г. Москва, просп. Вернадского, д. 78.
Ученый секретарь диссертационного совета Д 212.131.01, к.т.н. доц.
А.И. Стариковский
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время возрастает интерес к вопросам идентификации личности в видеопотоке, полученном с камер охранного телевидения. Системы распознавания лиц находят применение в задачах обеспечения безопасности в местах массового скопления людей, системах родительского контроля, при разработке интерфейсов взаимодействия людей и роботов, особенно мобильных, людей и компьютеров, приложений для автоматической сортировки фото- и видеоданных. Важнейшую роль в современных системах охранного телевидения играют алгоритмы цифровой обработки изображений и технического зрения, позволяющие контролировать сотни и тысячи видеоканалов в режиме реального времени. Одним из важнейших направлений дальнейшего развития таких систем является решение задачи автоматического распознавания объектов. Это необходимо для анализа и синтеза систем, способных интеллектуально оценивать внешнюю среду и выполнять в ней соответствующие действия.
Задача детектирования лица человека в естественной или искусственной обстановке с последующей идентификацией (распознаванием) всегда находилась в ряду самых приоритетных задач для исследователей, работающих в области систем охранного телевидения. К сожалению, множество исследований, проводившихся в ведущих научных центрах в течение нескольких десятилетий, так и не привели к созданию реально работающих систем технического зрения, способных обнаруживать и распознавать человека в любых условиях. Несмотря на близость задач и методов, используемых при разработке альтернативных систем биометрической идентификации человека, таких, как идентификация по отпечатку пальца или по изображению радужной оболочки глаза, системы идентификации по изображению лица пока существенно уступают вышеперечисленным системам. В то же время такие системы обладают существенным преимуществом, так как могут собирать и обрабатывать информацию об объектах наблюдения, не требуя от них осведомленности и активного участия в сборе данных. Основными проблемами, связанными с разработкой систем распознавания лиц, являются проблемы освещенности и положения головы в пространстве (лицо в общем случае является ЗО-объектом).
В разработку алгоритмов цифровой обработки телевизионных изображений внесли вклад как отечественные ученые - Ю.Б. Зубарев, М.И. Кривошеев, В.П. Дворкович, A.B. Дворкович, М.К. Чобану, A.C. Крылов, М.Н. Рычагов, Ю.С. Бехтин, Ю.С. Радченко, А.К. Бернюков, Д.С. Ватолин, C.B. Умняшкин, Е.П. Петров, И.С. Трубин, АЛ. Приоров, В.В. Хрящев, так и зарубежные -R. Chellappa, Z. Wang, A. Bovik, Y. Neuvo, J. Astola, T. Ojala, К. Egiazaryan, M. Nikolova, R. Szeliski, R. Lukac, T. Kanade.
Первые работы по распознаванию динамических объектов были опубликованы еще в конце 1980-х гг. Следует отметить значительный вклад советских и российских ученых, занимающихся в данной области, таких как Ю.И. Журавлев, В.А. Сойфер, Е.В. Медведева, А.И. Галушкин, В.Н. Вапник, А.Я. Червоненкис, Б.А. Алпатов, М.Н. Фаворская, Ю.В. Визильтер, A.C. Конушин.
При всем многообразии различных алгоритмов и методов распознавания лиц, в большинстве из них можно выделить три основных этапа:
- преобразование исходного изображения в стандартное представление;
- выделение ключевых характеристик (признаков);
- классификация по имеющейся базе изображений лиц.
На текущем этапе развития систем технического зрения для решения задачи распознавания лиц используются различные подходы, основанные на вейвлетах Габора, дискретном косинусном преобразовании, обнаружении ключевых точек лица и определении расстояния между ними, вычислении геометрических свойств лица, методе главных компонент, линейном дискриминантном анализе, обнаружении локальных признаков и др.
В реальных системах охранного телевидения задачу распознавания объектов приходится решать в условиях наличия искажений, связанных с помехами в радиотехнических устройствах и сжатием двумерного сигнала. Поэтому для эффективного решения поставленной задачи требуется применение специализированных алгоритмов цифровой обработки изображений. Среди них можно выделить современные алгоритмы сжатия видеоданных, нелинейные алгоритмы фильтрации и восстановления изображений, вейвлет-обработку, системы, построенные на базе нейронных сетей.
Для решения практических задач распознавания лиц актуальным остается поиск алгоритмов, работающих в реальном или близком к реальному режимах времени и позволяющих идентифицировать человека в условиях наличия искажений и помех на телевизионных изображениях. Поэтому на сегодняшний день разработка и анализ алгоритмов распознавания лиц для систем охранного телевидения представляет собой актуальную научно-техническую задачу.
Основной целью работы является улучшение характеристик алгоритмов распознавания лиц для работы в условиях наличия искажений и помех, характерных для современных систем охранного телевидения.
Объектом исследования являются алгоритмы распознавания лиц на изображениях, применяемые в радиотехнических системах обработки и анализа двумерных цифровых сигналов и современных системах прикладного телевидения.
Предметом исследования являются разработка и модификация алгоритмов распознавания лиц с целью повышения эффективности функционирования видеоинформационных систем охранного телевидения. Задачи диссертационной работы:
- анализ существующих алгоритмов детектирования и распознавания лиц на телевизионных изображениях;
- разработка и анализ алгоритмов локализации положения глаз на изображениях лиц;
- разработка и исследование алгоритма распознавания лиц на основе локальных бинарных шаблонов;
- повышение робастности алгоритма распознавания лиц в условиях наличия искажений и помех на телевизионных изображениях.
Методы исследования. При решении поставленных задач использовались современные методы цифровой обработки изображений, компьютерного зрения,
распознавания образов, машинного обучения, теории вероятностей и математической статистики. Для практической реализации алгоритмов применялись современные численные методы и методы объектно-ориентированного программирования на языке С++.
Научная новизна полученных результатов
В рамках работы получены следующие новые научные результаты:
- разработан итерационный алгоритм локализации положения центров глаз на основе мультиблочных локальных бинарных шаблонов;
- предложена модификация алгоритма распознавания лиц на основе локальных бинарных шаблонов, показывающая свою эффективность для различных условий тестирования;
- разработан алгоритм распознавания лиц на изображениях с использованием фильтров Габора, робастный к воздействию различных типов искажений и помех, характерных для систем охранного телевидения.
Практическая значимость полученных результатов
1. Разработана методика и программное обеспечение для объективного сравнения различных алгоритмов распознавания лиц на телевизионных изображениях при наличии искажающих факторов.
2. Проведен анализ работы алгоритмов локализации положения глаз на телевизионных изображениях и предложен новый итерационный алгоритм, позволяющий сократить число грубых ошибок локализации глаз на изображениях низкого качества на 8-13%.
3. Предложен, реализован на языке высокого уровня и протестирован робастный алгоритм распознавания лиц на основе локальных квантованных шаблонов и фильтров Габора, позволяющий увеличить уровень верного распознавания на 20% по сравнению с существующими открытыми реализациями алгоритмов распознавания лиц при тестах на унифицированной базе РЕЯЕТ.
Разработанные алгоритмы требуют для их практической реализации относительно небольших вычислительных ресурсов, что позволяет использовать их для обработки телевизионных изображений в системах реального или близкого к реальному режимах времени.
Результаты работы внедрены в соответствующие разработки ООО «Проектный сервис» и ООО «АйДата» г. Ярославль. Отдельные результаты диссертационной работы внедрены в учебный процесс ЯрГУ им. П.Г. Демидова в рамках дисциплин «Цифровая обработка изображений», «Компьютерное зрение», а также в научно-исследовательские работы при выполнении исследований в рамках гранта РФФИ №12-08-01215-а. Получено свидетельство о государственной регистрации программы для ЭВМ.
Личный вклад автора. Выносимые на защиту научные положения предложены и реализованы лично автором. Практическая реализация алгоритмов и моделирование на ЭВМ проводились коллективом исследователей при личном участии автора.
Достоверность полученных научных результатов обусловлена применением адекватного математического аппарата, подтверждается их согласованностью с результатами проведенного компьютерного моделирования и сопоставлением ряда
полученных результатов с научными данными, известными из российской и зарубежной литературы.
Апробация работы. Результаты работы докладывались и обсуждались на следующих научно-технических конференциях:
- 16-я и 17-я международные конференции «Цифровая обработка сигналов и ее применение» (DSPA), Москва, 2014, 2015;
- 69-я и 70-я международные конференции «Радиоэлектронные устройства и системы для инфокоммуникационных технологий» (REDS), Москва, 2014,2015;
- 4-я всероссийская конференция «Радиоэлектронные средства получения, обработки и визуализации информации», Нижний Новгород, 2014;
- 21-я международная конференция «Радиолокация, навигация и связь» (RLNS), Воронеж, 2015;
- 15th International Conference on Image Processing, Computer Vision, & Pattern Recognition (IPCV), Las Vegas, USA, 2011 ;
- 17th International Conference of Open Innovations Association FRUCT, Yaroslavl, Russia, 2015;
- ISPRS WG V/5 and WG III/3 International Workshop «Photogrammetric techniques for video surveillance, biometrics and biomedicine», Moscow, Russia, 2015.
Публикации. По теме диссертации опубликовано 16 научных работ, из них 3 статьи в рецензируемых журналах из перечня ВАК и 13 докладов на научных конференциях; получено свидетельство о регистрации программы для ЭВМ.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, содержащего 118 наименований, трех приложений. Она изложена на 136 страницах машинописного текста, содержит 51 рисунок и 11 таблиц.
Основные научные положения и результаты, выносимые на защиту
1. Итерационный алгоритм локализации положения центров глаз, значительно превосходящий известные аналоги по скорости работы и допускающий грубые ошибки локализации (err > 0,15) только для 1% изображений из тестовой базы FERET и для 4% из базы BioID.
2. Алгоритм распознавания лиц на основе локальных квантованных шаблонов, позволяющий увеличить уровень верного распознавания на стандартном тесте fb базы FERET на 20% в сравнении с открытыми реализациями алгоритмов распознавания лиц из библиотеки OpenCV при сопоставимой вычислительной сложности.
3. Применение фильтров Габора совместно с алгоритмом распознавания на основе локальных квантованных шаблонов, увеличивающее уровень распознавания на тесте fl> базы FERET с 97,6% до 98,6% и повышающее робастность алгоритма к воздействию основных типов искажений, возникающих на телевизионных изображениях.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность выбранной темы, сформулированы цель и задачи исследования, изложены основные положения, выносимые на защиту, показаны научная новизна и практическая значимость работы.
В первой главе рассмотрена модель построения системы распознавания лиц, представлен обзор существующих алгоритмов детектирования лиц, локализации положения центров глаз и распознавания лиц на телевизионных изображениях.
Во второй главе предлагается новый итерационный алгоритм локализации центров глаз на основе мультиблочных локальных бинарных шаблонов.
Базой для предлагаемого алгоритма локализации глаз выбран подход на основе машинного обучения с использованием мультиблочных локальных бинарных шаблонов (МБ-ЛБШ), изначально применявшийся в задаче детектирования лиц. Шаблон является оператором, применяемым к некоторой прямоугольной области изображения. Область разбивается на девять равных блоков. Средняя интенсивность пикселей центрального блока рассматривается в качестве порогового значения, которое сравнивается с интенсивностями восьми областей окрестности как показано на рис. 1.
средняя интенсивность " блокад/ = 7_
8 8
7 7
8
6
8
22
сравнение с порогом
0 0 1
0 1
0 1 1
двоичный код: 00111100
МБ-ЛБШ = 4+8+16+32=60
средняя интенсивность блока: = 6
Рис. I. Пример вычисления оператора МБ-ЛБШ
Выходное значение оператора МБ-ЛБШ центрального блока представляется в следующем виде:
МБ-ЛБШ = ^2'
(1)
где а - сигма-функция.
Построим классификатор /^(х), который по описанию изображения в виде вектора признаков х = (х1,...,*4) относит изображение либо к классу «глаз» е , либо к классу «не глаз» ё:
+1, если хее 1, если х е е.
Значения признаков х ,..,х' являются значениями всех МБ-ЛБШ, где 5 — общее число возможных мультиблочных ЛБШ, определяемое размером изображений. Так, для изображений разрешением 21x21 5 = 4900, а для изображений 21x15 - 5 = 2450.
Итоговый сильный классификатор строится в виде суперпозиции т
слабых классификаторов /,(\) по формуле
на основе обучающей выборки (х,, >',),..., (х„,ук) из N изображений, представленных в виде вектора признаков х( и метки класса у,. Значение у, = +1 соответствует изображению «глаза», а у, =-1 — изображению «не глаза».
На каждой стадии I необходимо найти все возможные слабые классификаторы /к(х), которые ищутся в виде деревьев решений:
а„,еслихк =0
/*(х) = /*(*',...,**.....х") =
апеслих =у (4)
а255 , если хк = 255.
Коэффициенты aJ вычисляются по всей обучающей выборке согласно соотношению
Е^Ж =У) «1=—н-- (5)
=л
/
где IV, - веса элементов выборки на шаге г. Начальные веса элементов выборки, принадлежащих классу е, выбирались больше, так как количество экземпляров «глаз» в использованной обучающей выборке было меньше числа «не глаз».
Из всех возможных слабых классификаторов /*(х) на шаге / выбирается классификатор /(х) с минимумом среднеквадратической ошибки:
N
/,(х) = тш 2>((л-/*(х,))2. (6)
/ е'" /=1
После этого элементам выборки присваиваются новые веса согласно соотношению
(7)
что позволяет увеличить вес сложных примеров, неверно классифицированных на данном шаге. Веса на каждом шаге нормируются согласно условию:
N
$>/=!■ (8)
/=1
Обучим три разных классификатора ^'(х), ^"(х), F"'(x) для трех масштабов изображения глаз, схематично представленных на рис. 2 с размерами, указанными в пикселях изображения. Каждый классификатор представляется в виде выражения (3). Опуская в нем функцию sгgf^, получим функцию схожести некоторого изображения с изображением глаза. Чем выше ее значение, тем более похоже изображение, представленное вектором признаков х, на изображение глаза.
Если размер лица Л < Н или
Нет
Выбираем пиксель с с макс, значением
Если размер лица Л < //" или ,„, < ^ '
Выбираем пиксель с с маке, значением /г"
Предлагаемый алгоритм локализации определяет положение глаза согласно итерационному подходу, позволяющему на каждой стадии улучшать оценку местоположения центра глаза и подстраиваться к качеству и сложности изображения лица (рис. 3).
Выбираем пиксель с с макс, значением
Рис. 2. Три масштаба изображения глаз для построения классификаторов /*"(х),
Рис. 3. Итерационный алгоритм локализации центров глаз
В начале работы алгоритма изображение лица представляется в грубом масштабе. Внутри области поиска центра глаза для каждого пикселя вычисляется значение функции /*"'(х). Отбирается от, пикселей с наибольшими значениями этой функции. Выбранные точки являются грубой оценкой положения глаза. Если разрешение изображения лица является очень низким (линейный размер лица И меньше заданного порога Н'тт) или функция имеет низкое значение для
7
последнего из отобранных пикселей F'm (x)< П\ то это говорит о крайне невысоком качестве изображения или о наличии на лице очков со значительными бликами или перекрытием глаз. В этом случае работа алгоритма прекращается, и в качестве положения глаза выбирается пиксель с максимальным значением F'(x). Если же качество и размер изображения лица являются удовлетворительными, происходит переход ко второй итерации алгоритма. Здесь изображение масштабируется, для отобранных пикселей и соседних с ними в новом масштабе считается значение функции F"(x). Отбирается пи пикселей с наибольшими значениями этой функции. Выбранные пиксели являются более точной оценкой положения глаза. Если изображение лица довольно качественное и имеет относительно высокое разрешение, в качестве итогового решения о положении центра глаза выбирается пиксель с наивысшим значением функции F'"(x), в противном случае - функции F"(x).
Проведено сравнение разработанного алгоритма с двумя другими известными алгоритмами локализации глаз: байесовским и градиентным. В качестве критерия оценки точности локализации использовалась нормализованная ошибка:
тах(|/ - / II. II/" - г II)
err =-^-^-—. (9)
где lg и г,, - настоящее положение левого и правого глаза соответственно, a i и г — положения, найденные с помощью алгоритма.
Обучение байесовского и разработанного алгоритмов проходило на первой тысяче изображений лиц из базы FERET. Для градиентного алгоритма обучение не требуется. На рис. 4 представлены графики сравнения алгоритмов при тестировании на изображениях из базы FERET, не вошедших в обучающую выборку, и на полной базе BioID. По оси абсцисс отсчитывается нормализованная ошибка, по оси ординат — доля изображений в базе, на которых алгоритм локализации глаз дал ошибку, меньшую соответствующего значения на оси абсцисс.
Полученные результаты показывают, что разработанный итерационный алгоритм на основе МБ-ЛБШ практически не дает грубых ошибок локализации {err > 0,15, что соответствует смещению в среднем на половину ширины глаза от истинного положения). Только на 1% изображений из базы FERET и на 4% из базы BioID ошибка при локализации глаз превышает 0,15. Байесовский локализатор с аналогичной ошибкой работает на 2% изображений из базы FERET и 12% изображений из базы BioID. Для градиентного локализатора результаты еще хуже: 10% и 17% соответственно. Снижение числа грубых ошибок разработанного алгоритма локализации на основе МБ-ЛБШ происходит из-за первичной оценки местоположения глаза классификатором F'{x) в самом крупном масштабе. За счет адаптивной подстройки к изображениям низкого качества преимущество нового метода особенно заметно на изображениях из более сложной базы BioID. Использование классификаторов F"(x) и F'"(x) позволяют новому алгоритму иметь сопоставимые результаты с другими методами локализации на простых изображениях, где нормализованная ошибка всех алгоритмов не превышает 0,1.
/JA LO-Q-Q Д-О
; ' / j / / J [ +7
1
—в—итерационный МБ-ЛБШ ■ -•■•••градиентный - -ь- • байесовский
q
о ч
V' [ ' rl
................../ f Г................... 1 / i ;]/
' ' г
...............ff Г......................... ' Ч i /cd I
—»—итерационный МБ-ЛБШ -•-■-градиентный --*-- байесовский
i Д -¿Л
а) б)
Рис. 4. Результаты тестирования алгоритмов локализации глаз на базах: а) 11: КЕ'Г; б) ВюШ
Результаты тестирования производительности алгоритмов представлены в табл. 1. В качестве параметра сравнения вычислялось среднее время поиска глаз на лице из базы РЕЯЕТ (среднее разрешение изображения лица 170x170 пикселей).
Таблица I. Сравнение алгоритмов локализации глаз по производительности
Алгоритм Время поиска центров глаз на изображении лица
Градиентный 587 мс
Байесовский 367 мс
Итерационный МБ-ЛБШ 44 мс
Установлено, что новый алгоритм в среднем на порядок превосходит по скорости работы другие рассмотренные алгоритмы локализации, позволяя производить поиск положения глаз в видеопотоке в режиме реального времени.
Как показал анализ работы алгоритмов на изображениях в условиях искажений, предложенный алгоритм на основе МБ-ЛБШ оказывается более робастным к воздействию шума и сжатию изображения среди всех протестированных алгоритмов локализации центров глаз. Число грубых ошибок разработанного алгоритма практически не увеличивается при снижении качества изображения лица до РЭКЯ = 25 дБ при искажении аддитивным белым гауссовским шумом и РБТМЯ = 30 дБ в случае .1РЕО-сжатия.
В третьей главе предлагается алгоритм распознавания лиц на основе модифицированных локальных бинарных шаблонов, рассматривается его применение совместно с фильтрами Габора.
Описание точки на изображении через стандартный 8-битный локальный бинарный шаблон на основе окрестности из 8 ближайших пикселей не является достаточно точной характеристикой. Использование большей окрестности приводит к резкому увеличению числа возможных признаков. Например, для окрестности из 20 пикселей это число возрастает с 256 (28) до более миллиона (220). При этом большинство признаков не встретится на отдельно взятом изображении вообще, а другие могут появиться лишь однажды. В связи с этим сравнивать изображения,
описанные большим количеством признаков, практически невозможно. Разделим все множество возможных бинарных кодов на небольшое число групп - кластеров -с помощью алгоритма к-средних. Локальные бинарные шаблоны, подвергнутые кластеризации, назовем локальными квантованными шаблонами (ЛКШ). Составим словарь, в котором для каждого возможного значения ЛКШ будут записаны номера кластеров О,, к которым с наибольшей вероятностью относится данное значение ЛКШ, и вероятности отношения к этим кластерам ]>(()1). Пример такого словаря представлен в табл. 2.
Таблица 2. Словарь для перевода 24-битного ЛКШ в вероятности принадлежности к кластерам
24-битный локальный квантованный шаблон № о, Ж0) № а РШ № а Ж&)
0000 0000 0000 0000 0000 0000 53 0.92 8 0,07 95 0,01
0000 0000 0000 0000 0000 0001 53 0,75 8 0.21 14 0,04
0110 0011 0100 1000 0110 0001 1 0.57 27 0.21 16 0.22
0110 0011 0100 1000 0110 0010 27 0,45 1 0.33 10 0.22
10100001 0110 1011 0111 ООП 78 0,51 31 0.39 100 0,10
10100001 0110 1011 0111 0100 100 0.62 69 0,23 78 0,15
111111111111111111111111 91 0.87 14 0,11 0,06 0,02
Рассмотрим процедуру распознавания алгоритмом с предложенной модификацией локальных бинарных шаблонов (рис. 5). Для нормированного согласно координатам глаз изображения лица 1(х,у), поступающего для распознавания, вычисляется свертка с 40 фильтрами Габора <//„,.(*,у) вида:
где = ^. / = 42, и е {0,1,2,3,4} определяют масштаб, а
фи = ц е {0,1,2,3,4,5,6,7} - ориентацию фильтров Габора. 8
Каждое полученное габоровское изображение разбивается на несколько подобластей, для каждой из которых ранее составлен словарь, на подобии приведенного в табл. 2. Каждой подобласти на габоровском изображении ставится в соответствие гистограмма с к столбцами-признаками с изначально нулевой высотой Ь. Для каждого пикселя подобласти вычисляется значение ЛКШ. Найденному значению ЛКШ пикселя согласно словарю соответствуют кластеры, к которым с наибольшей вероятностью относится данный шаблон.
Вероятности отношения к данным кластерам прибавляются к столбцам с номерами этих кластеров. Гистограммы для каждой подобласти всех габоровских изображений соединяются, формируя итоговую гистограмму признаков
^ 2 4л"
Детектирование лица
Локализация глаз
Нормировка изображения лица
Применение фильтров Габора и разбиение на подобласти Вычисление гистограммы ЛКШ для каждой подобласти
12 3 к-2 к-1 к но мер кластера
Конкатенация гистограмм подобластей в единую гистограмму
Сравнение полученной гистограммы с эталонами
Рис. 5. Алгоритм распознавания лиц на основе локальных квантованных шаблонов и фильтров Габора
изображения. Затем для решения задачи идентификации лица общая гистограмма признаков сравнивается с ранее составленными гистограммами признаков эталонных лиц, хранящихся в базе.
В четвертой главе проводится анализ работы предложенного алгоритма распознавания лиц на телевизионных изображениях в условиях искажений. Исследования проводились для двух модификаций разработанного алгоритма на основе локальных квантованных шаблонов (с фильтрами Габора и без них). Для сравнения взяты алгоритмы, входящие в открытую библиотеку ОрепСУ: алгоритм на основе линейного дискриминантного анализа (ЛДА), алгоритм на основе метода главных компонент (МГК) и алгоритм на основе классических линейных бинарных шаблонов (ЛБШ). На базе РЕКЕТ проведены следующие стандартные тесты алгоритмов в условиях искажений: /Ь - изменение выражения лица, /с - смена освещения, с1ир-1 и (1ир-11 - возрастные изменения лица. Все алгоритмы обучались на наборе /а базы РЕЯЕТ, состоящем из 1196 классов (по одному изображению на класс). Результаты работы алгоритмов приведены в табл. 3.
Таблица 3. Уровень верного распознавания алгоритмов распознавания на тестовой базе FERET
Алгоритм Тестовый набор
!Ь fc dup-l dup-ll
МГК 73,0 6,7 34,1 15,4
ЛБШ 78,1 21,1 38,1 20.9
ЛДА 79,3 9,8 36,3 19.2
ЛКШ (без фильтров Габора) 97,6 45,4 61,6 50,4
ЛКШ-Г (с фильтрами Габора) 98,6 96,4 73,4 71,4
Установлено, что предложенный алгоритм на основе локальных квантованных шаблонов позволяет на 20% увеличить долю верного распознавания по сравнению со стандартным алгоритмом на основе ЛБШ на тесте fb. Применение фильтров Габора совместно с алгоритмом распознавания на основе локальных квантованных шаблонов увеличивает уровень распознавания на тесте fb базы FERET с 97,6% до 98,6%. При анализе возрастных изменений на тестах dup-1 и dup-II использование фильтров Габора повышает робастность на 12—21%. Уровень верного распознавания на стандартном тесте fc базы FERET при использовании фильтров Габора возрастает с 45,4% до 96,4%.
Для проверки робастности алгоритмов распознавания к другим видам искажений обученные на наборе fa базы FERET алгоритмы тестировались на изображениях из набора fb, которые изменялись согласно стандартным моделям цифровых искажений. Исследовалась робастность алгоритмов к размытию изображения, наличию на изображении импульсного, аддитивного белового гауссовского и мультипликативного шумов, сжатию изображения алгоритмами JPEG и JPEG2000 с коэффициентами сжатия Ki и К2 соответственно (рис. 6).
Искажение вида «размытие» моделировалось с помощью свертки изображения 1{х,у) с единичной квадратной маской размером (2Л + 1)х(2/<! + 1). Воздействие импульсного шума вида «соль и перец» моделировалось заменой с вероятностью р„ значения яркости каждого пикселя изображения на 0 или 255. Искажение гауссовским шумом моделировалось путем добавления к сигналу нормально
т--А--A i
, .------------,Q. _ . _ . -¡J :-------------
-»•-МГК -0-ЛБШ ■-Q-ЛДА -е-лкш-г
а)
ч2
в)
0 01 0 015 0 02 0 025
г)
Рис. 6. Графики зависимости уровня верного распознавания Р от степени искажений: а) размытие; б) импульсный шум; в) гауссовский шум; г) мультипликативный шум; д) сжатие алгоритмом JPEG; е) сжатие алгоритмом JPEG2000
распределенной шумовой составляющей /7г(х,у) с дисперсией ат. Искажение мультипликативным шумом моделировалось добавлением к полезному сигналу 1(х,у) шумовой составляющей rjc(x,у)1(х,у), где 4(х,у) является нормально распределенной случайной величиной с дисперсией а;.
Зависимости, приведенные на рис. 6, демонстрируют, что локальные бинарные и квантованные шаблоны без надлежащей предобработки не способны работать в условиях гауссовского, импульсного и мультипликативного шумов и серьезно страдают от помех, связанных со сжатием и размытием изображения. Использование фильтров Габора позволяет сохранить уровень верного распознавания алгоритма на основе локальных квантованных шаблонов выше 90% при размытии с R< 4; гауссовском шуме с 07 <0,15; мультипликативном шуме с егс < 0,02 ; 20-кратном сжатии изображения алгоритмом JPEG и 30-кратном сжатии JPEG2000. Такой уровень распознавания не доступен робастным к большинству искажений алгоритмам на базе ЛДА и МГК. Менее робастным алгоритм ЛКШ-Г оказывается к импульсному шуму, показывая уровень распознавания выше 80% только при ри <0,05.
Проведенные исследования на базе Robotics показали, что уровень верного распознавания алгоритма на основе локальных квантованных шаблонов и фильтров Габора при работе с 90 классами падает до значения 80% при угле поворота головы в 30°. Таким образом, предложенный алгоритм оказывается не робастным к большим отклонениям лица от фронтального положения.
Проведенные тесты на базе CMU Multi-PIE помогли сформировать требования к равномерности освещения лица. Для получения уровня верного распознавания выше 90% на фронтальных лицах при использовании алгоритма на основе локальных квантованных шаблонов с фильтрами Габора и базы данных, состоящей из около 300 классов, источник света должен находиться к объектам наблюдения под углом, не большим 30°.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Разработан итерационный алгоритм локализации центров глаз на изображениях лиц, использующий мультиблочные локальные бинарные шаблоны. Предложенный алгоритм практически на порядок превосходит по скорости работы известные алгоритмы локализации глаз (байесовский, градиентный), позволяя производить поиск положения глаз в видеопотоке в режиме реального времени. Показано, что разработанный алгоритм является робастным к воздействию аддитивного белого гауссовского шума и JPEG-сжатию изображения.
2. Предложенный алгоритм локализации глаз допускает грубые ошибки локализации (err >0,15) только для 1 % изображений из тестовой базы FERET и для 4% из базы BioID. Число грубых ошибок практически не увеличивается при снижении качества изображения лица до PSNR = 25 дБ при искажении аддитивным белым гауссовским шумом и PSNR = 30 дБ в случае JPEG-сжатия.
3. Разработан алгоритм распознавания лиц на основе локальных квантованных шаблонов и фильтров Габора. Проведено сравнение предложенного алгоритма с открытыми реализациями алгоритмов распознавания лиц из библиотеки OpenCV на
стандартном тесте jh базы FERET, показывающее превосходство по уровню верного распознавания нового алгоритма на 20% при сопоставимой вычислительной сложности. Применение фильтров Габора дополнительно увеличивает уровень верного распознавания с 97,6% до 98,6%.
4. Показано, что применение фильтров Габора позволяет повысить робастность алгоритма на основе локальных квантованных шаблонов к воздействию 11 типов искажений и помех, характерных для систем охранного телевидения. Так, например, уровень верного распознавания на стандартном тесте fe базы FERET при использовании фильтров Габора возрастает с 45,4% до 96,4%. При анализе возрастных изменений на тестах dup-l и dup-II базы FERET применение фильтров Габора повышает робастность на 12-21%.
5. Использование фильтров Габора позволяет сохранить уровень верного распознавания алгоритма на основе локальных квантованных шаблонов выше 90% для 1196 классов при размытии с /?<4; аддитивном белом гауссовском шуме с err:<0,15; мультипликативном шуме с стс2<0.02; 20-кратном сжатии изображения алгоритмом JPEG и 30-кратном сжатии алгоритмом JPEG2000.
6. Проведенные эксперименты на тестовых базах Robotics и CMU Multi-PIE позволили получить оценки уровня верного распознавания (при 100-300 классах) для разных углов поворота головы и различном расположении источников освещения.
7. Цель и задачи диссертационной работы успешно выполнены. Разработанные алгоритмы локализации центров глаз и распознавания лиц интегрированы в программу для слежения за лицами на видеопоследовательностях Faces.Video.Lab, которая протестирована на ряде тестовых видеоданных, характерных для систем охранного телевидения. Получено свидетельство о государственной регистрации программы для ЭВМ.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Никитин А.Е., Хрящев В.В., Приоров А.Л., Матвеев Д.В. Разработка и анализ алгоритма распознавания лиц на основе локальных квантованных шаблонов // Нелинейный мир. 2014. № 8. С. 35^2.
2. Приоров А.Л., Хрящев В.В., Никитин А.Е., Матвеев Д.В. Анализ и модификация алгоритмов детектирования пешеходов на цифровых изображениях // Радиотехнические и телекоммуникационные системы. 2014. № 4 (16). С. 40-47.
3. Хрящев В.В., Бекренев В.А., Соловьев В.Е., Никитин А.Е. Улучшение качества .1РЕ02000-изображений на основе модифицированного билатерального фильтра // Цифровая обработка сигналов. 2011. № 3. С. 53-57.
4. Никитин А.Е. Оптимизация параметров ранжирующего фильтра генетическим алгоритмом // Матер. 16-й межд. конф. «Ломоносов-2009». Москва, 2009. Секция «Физика». С. 16-17.
5. Nikitin A., Solovyev V., Khryashchev V., Priorov A. Adaptive Bilateral Filter for JPEG 2000 Deringing // Proc. of the International Conference on Image Processing, Computer Vision & Pattern Recognition (IPCV 2011). Las Vegas, USA, 2011. Vol. 1. p. 144-149.
6. Никитин А.Е., Тихонова Т.С. Детектирование фигур людей на изображениях с помощью хааровских признаков и алгоритма Adaboost // Матер, всеросс. конф. «Молодые исследователи - регионам». Вологда, 2011. Т. 1. С. 91-93.
7. Бабенко Р.А., Никитин А.Е., Хрящев В.В. Распознавание лиц людей на основе расширенного метода локальных бинарных шаблонов // Докл. 69-й межд. конф. «Радиоэлектронные устройства и системы для инфокоммуникационных технологий» (REDS-2014). Москва, 2014. С. 377-381.
8. Бабенко Р.А., Кисельникова О.А., Никитин А.Е., Хрящев В.В. Метод локальных квантованных шаблонов в задачах распознавания // Докл. 4-й всерос. конф. «Радиоэлектронные средства получения, обработки и визуализации информации». Нижний Новгород, 2014. С. 201-205.
9. Матвеев Д.В., Никитин А.Е. Алгоритм Далала-Триггса и его модификация для детектирования человека на видеоданных // Докл. 4-й всеросс. конф. «Радиоэлектронные средства получения, обработки и визуализации информации». Нижний Новгород, 2014. С. 196-201.
10. Лебедев А.А., Матвеев Д.В., Никитин А.Е., Хрящев В.В., Шемяков А.М. Анализ и модификация алгоритмов детектирования пешеходов на цифровых изображениях // Докл. 16-й межд. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2014). Москва, 2014. Т. 2. С. 560-564.
11. Хрящев В.В., Приоров А.Л., Никитин А.Е., Матвеев Д.В. Алгоритм распознавания лиц с использованием информации о расположении центра глаз // Докл. 21-й межд. конф. «Радиолокация, навигация, связь» (RLNC-2015). Воронеж, 2015. Т. 1.С. 177-187.
12. Никитин А.Е., Степанова О.А., Студенова А.А., Хрящев В.В. Локализация положений центров глаз на изображении лица // Докл. 17-й межд. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2015). Москва, 2015. Т. 2. С. 719-723.
13. Никитин А.Е. Распознавание лиц на изображениях в условиях искажающих факторов // Докл. 70-й межд. конф. «Радиоэлектронные устройства и системы для инфокоммуникационных технологий» (REDS-2015). Москва, 2015. С. 349-353.
14. Никитин А.Е., Павлов В.А., Крапина А.А. Сравнительный анализ современных алгоритмов детектирования лиц на изображениях // Докл. 70-й межд. конф. «Радиоэлектронные устройства и системы для инфокоммуникационных технологий» (REDS-2015). Москва, 2015. С. 353-357.
15. Nikitin A., Khryashchev V., Stepanova О., Kosterin I. Еуе Center Localization on a Facial Image Based on Multi-Block Local Binary Patterns // Proc. of the 17th Conférence of Open Innovations Association FRUCT. Yaroslavl, 2015. P. 129-135.
16. Khryashchev V., Priorov A., Nikitin A., Stepanova O. Face Récognition Using Local Quantized Patterns and Gabor Filters // Proc. of the ISPRS WG V/5 and WG III/3 International Workshop "Photogrammetric techniques for video surveillance, biométries and biomedicine". Moscow, 2015. C. 59-63.
17. АминоваЕ.А., Никитин А.Е., Хрящев В.В., ШмаглитЛ.А. Faces.Video.Lab -программа для слежения за лицами на видеопоследовательностях // Свидетельство о государственной регистрации программы для ЭВМ №2011619048 от 21 ноября 2011.
Никитин Анатолий Евгеньевич
РАСПОЗНАВАНИЕ ЛИЦ НА ТЕЛЕВИЗИОННЫХ ИЗОБРАЖЕНИЯХ ПРИ НАЛИЧИИ ИСКАЖАЮЩИХ ФАКТОРОВ
Автореферат диссертации на соискание ученой степени кандидата технических наук
Подписано в печать 16.07.2015. Формат 60x84/16. Усл. печ. л. 1. Тираж 100 экз. ИП Платонова И.В.. 150000, Ярославль, ул. Б. Октябрьская 37/1
-
Похожие работы
- Сопровождение и распознавание объектов на телевизионных изображениях
- Алгоритмы распознавания трехмерных объектов по эталонным двумерным проекциям
- Исследование телевизионного метода измерения параметров движения летательных аппаратов
- Математические и программные средства распознавания графических изображений для передачи по цифровым каналам связи
- Моделирование и анализ пространственной структуры графических изображений на основе дискретно-планиметрической модели гиперрастра
-
- Теоретические основы радиотехники
- Системы и устройства передачи информации по каналам связи
- Радиотехника, в том числе системы и устройства телевидения
- Антенны, СВЧ устройства и их технологии
- Вакуумная и газоразрядная электроника, включая материалы, технологию и специальное оборудование
- Системы, сети и устройства телекоммуникаций
- Радиолокация и радионавигация
- Механизация и автоматизация предприятий и средств связи (по отраслям)
- Радиотехнические и телевизионные системы и устройства
- Оптические системы локации, связи и обработки информации
- Радиотехнические системы специального назначения, включая технику СВЧ и технологию их производства