автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Развитие и применение методов, алгоритмов и программных средств автоматической видео идентификации для предоставления индивидуального доступа по изображению лица

кандидата технических наук
Куликов, Александр Анатольевич
город
Москва
год
2014
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Развитие и применение методов, алгоритмов и программных средств автоматической видео идентификации для предоставления индивидуального доступа по изображению лица»

Автореферат диссертации по теме "Развитие и применение методов, алгоритмов и программных средств автоматической видео идентификации для предоставления индивидуального доступа по изображению лица"

На правах рукописи

Куликов Александр Анатольевич

Развитие и применение методов, алгоритмов и программных средств автоматической видео идентификации для предоставления индивидуального доступа по изображению лица

Специальность 05.13.11- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

г а \ш т

Москва 2014г.

005549252

005549252

Работа выполнена на кафедре «Системы автоматизированного проектирования» Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Московский государственный машиностроительный университет (МАМИ)».

Научный руководитель доктор технических наук, профессор Путилин

Александр Борисович, заведующий кафедрой «Системы автоматизированного проектирования» Университета машиностроения

доктор технических наук, профессор Балдин Александр Викторович, директор Научно-образовательного центра «Электронный университет» МГТУ им. Баумана

Официальные оппоненты

кандидат технических наук кандидат технических наук Короткое Александр Евгеньевич, ООО "Интаро Софт", ведущий разработчик

Ведущая организация Федеральное государственное бюджетное

учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук

Защита диссертации состоится 18 июня 2014 года в 15 часов 00 минут на заседании диссертационного совета Д212.131.05 при федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Московский государственный технический университет радиотехники, электроники и автоматики» (МГТУ МИРЭА) по адресу: г. Москва, проспект Вернадского, д. 78.

С диссертацией можно ознакомиться в библиотеке МГТУ МИРЭА и на сайте www.mirea.ru.

Автореферат диссертации разослан 14 мая 2014 года. Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу: 119454, г. Москва, проспект Вернадского, д. 78, МГТУ МИРЭА, диссертационный совет Д212.131.05.

Ученый секретарь диссертационного совета,

к.т.н., доцент Андрианова Е.Г.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. Системы идентификации личности используются в автоматизированных системах безопасности для управления контрольно-пропускной системой (КПС), в различных общественных местах с различными целями. Поиск и идентификация личности обычно проводится с использованием таких данных как фамилия, имя, отчество, дата рождения и др. Такие системы имеет высокую скорость, но не лишены недостатков, главным из которых является возможность получения доступа по подложным документам. Альтернативой этому варианту поиска является метод идентификации личности по лицевому изображению.

Сложившиеся подходы к идентификации человека по изображению лица практически устоялись. Актуальными задачами остаются улучшение точностных и временных характеристик существующих методов, алгоритмов и программных средств идентификации. Дальнейшее развитие систем распознавания лица, является создание подсистем набора из видеоряда, формируемой, путем считывания информации с видеокамер изображений лиц, а так же создание комплекса систем интерфейсов. В дальнейшем этот набор можно использовать в качестве входной информации для системы идентификации.

Задаче распознавания лицевых изображений посвящено большое количество публикаций, однако в целом она ещё остается далёкой от разрешения. Основные трудности метода идентификации личности состоят в том, что система должна распознавать человека по изображению лица независимо от изменения условий освещённости, изменения ракурса, а так же при различных других внешних изменениях лица. Кроме того не решены такие задачи как оценка сжатия изображения для снижения необходимого объема на вероятность распознавания, специальных алгоритмов сохранения и поиска ключевых признаков изображения и др.

Объект исследования: Человеко-машинные интерфейсы обработки

изображений в системах автоматической видео идентификации для

3

предоставления индивидуального доступа по изображению лица в контрольно-пропускных системах.

Предмет исследования: Предмет исследования определен предметной областью №7 паспорта специальности 05.13.11, «Человеко-машинные интерфейсы: модели, методы, алгоритмы и программные средства обработки изображений», а так же перечнем задач решаемых в диссертации.

Цель работы. Целью работы является развитие и применение методов, алгоритмов и программных средств автоматической видео идентификации для предоставления индивидуального доступа по изображению лица с целью построения контрольно-пропускной системы (КПС), а так же разработка программного интерфейса, позволяющий настраивать и обучать КПС. Для достижения этой цели в работе ставятся следующие задачи:

1. Модифицировать метод эластичного графа, позволяющий повысить эффективность распознавания лицевых изображений. Ввести коэффициент джета в общую формулу определения меры подобия графов в алгоритме эластичного графа;

2. Разработать модифицированный алгоритм обучения нейронной сети ЫЕРСЬазэ, позволяющий повысить надежную идентификацию лица;

3. Определить допустимую степень сжатия изображения лица, для уменьшения объема хранимой информации;

4. Разработать типовую структуру, алгоритмы и программное обеспечение для контрольно-пропускной системы (КПС), производящей автоматическую видео идентификацию для предоставления индивидуального доступа по изображению лица;

5. Разработать алгоритм хранения и оперативного поиска данных о персоне в базе данных. Разработать типовую структуру организации информационного хранилища позволяющего хранить необходимо-большой объем данных;

6. Разработать программное обеспечение, позволяющее автоматически производить видео идентификацию личности по изображению лица;

7. Разработать программный интерфейс, позволяющий настраивать и обучать контрольно-пропускную систему.

Методы исследования. Для решения поставленных задач, применялись методы объектно-ориентированного программирования, вычислительной математики, теории распознавания образов, разработки и обучения нейронной сети, математического моделирования.

Научная новизна работы состоит в следующем:

1. Разработан модифицированный метод распознавания на основе эластичного графа, позволяющий повысить качество распознавания лицевых изображений. Введен коэффициент вклада джета в общую формулу определения меры подобия графов в алгоритме эластичного графа, позволяющий увеличить вероятность распознавания в среднем на 5-7%;

2. Разработан алгоритм хранения и поиска данных о персоне в базе данных позволивший повысить скорость идентификации; Разработана типовая структура информационного хранилища ключевых признаков изображения, позволяющая хранить необходимо-большой объем ключевых признаков;

3. Определенна степень сжатия изображения для применения в системе идентификации лиц. Показано, что приемлемо допустимый уровень сжатия изображения составляет 25%, при этом необходимый объем хранимой информации снижается в 7 раз;

4. Разработан алгоритм обучения модифицированной нейронной сети ЫЕРСЬайх М. Как показал эксперимент, из исследуемых алгоритмов нейронная сеть ЫЕРОаэз М наиболее эффективно решает задачу распознавания лицевых изображений;

5. Разработан алгоритм идентификации и поиска данных о персоне в базе данных. Основным отличием алгоритма являются; отсутствие

5

необходимости вычисления меры подобия при поиске, отсутствие атрибута (признака) поиска, возможность работы в реальном масштабе времени, работа при неполной априорной информации о лицевом изображении.

Практическая ценность работы состоит в том, что в ней:

1. Разработан алгоритм организации хранения и поиска информации, а так же определен минимальный набор ключевых признаков;

2. Разработано прикладное программное обеспечение позволяющее производить автоматическую видео идентификацию личность по изображению лица;

3. Установлен максимально допустимый уровень сжатия изображений, при их обработке в алгоритме эластичного графа.

4. Научные положения диссертации внедрены в практические разработки.

Личный вклад. Все результаты работы, вынесенные на защиту,

получены автором лично.

Реализация и внедрение. На основе полученных в работе научных результатов, разработана контрольно-пропускная система для идентификации персонала по изображению лица, которая внедренная в ООО «Эврика Тревел» и в ООО Консультационный центр «Простые решения». Имеются акты о внедрении системы.

Достоверность научных положений, выводов и практических рекомендаций, полученных в диссертации, подтверждается корректным обоснованием постановок задач, точной формулировкой критериев согласно нормативным документам, имитационным моделированием, а также результаты диссертации внедрены в практическое использование. Достоверность новизны технического решения подтверждается экспериментами, проведенными в ходе разработке системы.

Апробация работы. Основные положения диссертационной работы доложены и обсуждены на научно-практических конференциях: «VI Московская межвузовская научно-практическая конференция» (Москва,

6

2011); «VII Московская межвузовская научно-практическая конференция» (Москва, 2012), «VIII Недели науки молодежи СВАО» (Москва, 2013); «Карьера и образование - 2013»» (Москва, 2013), XI Международная заочная научно-практическая конференция «технические и математические науки» (2013 г.).

Публикации. По результатам исследований опубликовано 11 научных работ, из них 5 статей в реферируемом журнале, рекомендованном ВАК.

Структура и объем работы. Диссертация состоит из Введения, трех глав основного текста, Заключения и списка литературы, включающего 116 наименования. В приложении приведены документы о внедрении, листинг разработанной программы и расчет параметров нейронной сети NEFClass М Общий объем диссертации составляет 323 листа, включая 46 рисунков и 12 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность и практическая значимость, определены основные задачи исследования и сформулирована цель. В первой главе дан аналитический обзор методов, алгоритмов и программных средств распознавания лица. Рассмотрены основные классы решаемых задач связанных с идентификацией личности. Приведен анализ существующих методов распознавания человека по изображению лица. Рассмотрены программные средства распознавания лицевых изображений. Проведен сравнительный анализ методов распознавания лицевых изображений. Выполнена постановка задачи диссертационного исследования. Исходя из аналитического обзора Главы 1, сформулирован уточненный перечень задач, решаемых в диссертации.

Вторая глава посвящена развитию методов и алгоритмов распознавания человека по изображению лица. Рассмотрена необходимость исследования и доработки алгоритмов распознавания применительно к изображению лица при по этапном его распознавании лица. Подробно рассмотрен каждый из этапов, предложены методы, необходимые для

7

решения задачи выделения основных характеристик из изображения и разработки алгоритма распознавания.

Процесс распознавания человека по изображению лица в работе разделен на следующие основные этапы: 1) первичная обработка и нормализация изображения; 2) выделение из изображения требуемой информации для использования на последующих этапах распознавания, например, координаты лицевых точек, эластичный граф и др.; 3) сравнение выделенной информации с эталоном; 4) вынесение заключения о принадлежности изображения к эталону. Этап первичной обработки и нормализации изображения включает следующие шаги: поиск лица на изображении; обнаружение центров зрачков на изображении; поворот изображения (если требуется); масштабирование; вырезание прямоугольной области лица из изображения; выравнивание яркости изображения, т.е. использование фильтров, изменяющих насыщенность, контраст, и т.д. в зависимости от исходных значений изображения.

Разработан модифицированный метод распознавания на основе эластичного графа применительно к распознаванию лица. В качестве основного алгоритма распознавания изображений лица выбран, исследован и модифицирован алгоритм эластичного графа (Elastic Graph Matching Algorithm). В основе алгоритма лежит вейвлет-преобразование Габора. Дано краткое описание алгоритма эластичного графа, введено понятие джета, определены различные функции подобия для джетов, описан алгоритм автоматической разметки графа и процедура распознавания.

В вейвлетном представлении функция представлена суммой некоторой базовой функции при различных сдвигах и масштабах. Эта базовая функция

y/{t) называется вейвлетом. Вейвлеты должны быть пространственно локализованы, иметь равные площади над и под осью графика, и не равны нулю только на конечном интервале: f^ipffldt = 0.

Общий вид вейвлетного преобразования, вычисление вейв- летных коэффициентов функции f(t)

[ /COViCOdt.Vr^

J-O»

где - масштаб; v - сдвиг базисной функции (вейвлета)

На практике используется дискретное вейвлетное преобразование, масштаб и сдвиг базисного вейвлета изменяется дискретными шагами. Масштаб, как правило, на каждом шаге уменьшается в геометрической

ж

прогрессии 2 »(та) ,а шаг смещения выбирается пропорционально масштабу. Обратное преобразование (реконструкция) имеет вид

JT««)*^)*?

Основным прикладным назначением вейвлетных преобразований является сжатие изображений и извлечение ключевых характеристик изображений и поиска участков с одинаковыми свойствами на разных изображениях. Для алгоритма эластичного графа базовым объектом представления является размеченный граф. Ребра графа помечены информацией о расстоянии между узлами, а узлы помечены локальными откликами вейвлет-преобразования, которые условно называют джетами (jets). Узлы графа изображения размечаются локальными откликами вейвлет-преобразования - джетами. Джет описывает маленький фрагмент полутонового изображения I(i) вокруг заданного пикселя X = (х,у). Описание джета основано на вэйвлет-преобразовании Габора, определяемом как свертка ¡¡С*) = * семейством функций Габора

к? ft?xa _» аг 1

ЪЮ = ¿а«PC- 5 ~^РС—g")!

в форме плоских волн с волновым вектором /^ограниченным огибающей Гаусса. Обычно используют дискретный набор из 5-ти различных частот с индексами V = 0,...,4, и 8-ми ориентаций с индексами ц = 0,...,7

где индекс / = р + в*. Это квантование равномерно покрывает всю полосу в частотной области. Ширина Гауссиана С/к контролируется параметром сг = 2 я

Изображение Фильтры Результат свертки

Габора Мнимая Амплитуда Граф изображения часть

Рис. 1. Представление лица в виде графа, основанное на вейвлет-преобразовании Габора (свертка с фильтрами Габора).

Джет / определяется как набор {/у} комплексных коэффициентов Габора, полученных из одной точки изображения. Комплексный коэффициент Габора может быть записан следующим образом: /у = а,®Ф(*0|)

где величина медленно изменяется в зависимости от местоположения

на изображении, и фазы 0|,(Рис. 1.).

Для того, чтобы представить изображение лица с помощью эластичного графа, следует определить набор лицевых точек, например, зрачки, углы губ, и пр.). Размеченный граф С, представляющий лицо, содержит ./V узлов в этих лицевых точках в позициях х^п = 1,..,71 и Е ребер между ними. Узлы обозначены джетами Ребра е=1,..,Е являются двухмерными векторами и помечены расстояниями йха — . Ребра е связывает узел п' с узлом

%

Ш

п.. Такой граф лица является объектно-адаптированным, так как узлы выбраны в точках, специфичных для лица (лицевые точки).

Разработана типовая структура организации информационного хранилища позволяющая хранить необходимо-большой объем ключевых признаков. Разработан алгоритм хранения и поиска ключевых признаков в базе данных позволивший повысить скорость идентификации лицевых изображений. Предлагаемая структура организации информационного хранилища применима не только для задач распознавания лицевых изображений, ио и для автоматизированных систем распознавания графических объектов (например, объекты на аэрофотоснимках). Даны краткие выводы по главе 2.

Третья глава посвящена применению нейросетевого подхода в задаче распознавания лицевого изображения. Приведен алгоритм обучения нечеткой нейронной сети NEFClass. Проведены эксперименты с нейронной сетью NEFClass применительно к распознаванию человека по изображению лица.

Впервые проведено исследование сжатия изображения на результат распознавания и применено в системе идентификации. В качестве обрабатываемых изображений для исследования были выбраны полутоновые и цветные изображения без сжатия и сжатые алгоритмом JPEG. Цветные изображения были преобразованы в полутоновые. Определена оценка степени сжатия изображения лица на результат идентификации для контрольно-пропускной системы и показано, что максимальный допустимый уровень сжатия изображения является 25%, при этом необходимый объем хранимой информации снижается в 7 раз.

Алгоритм эластичного графа крайне чувствителен к локально частотным свойствам изображения. На Рис.2 представлены увеличенные изображения лица без сжатия и со сжатием 25% JPEG. Размеры исследуемых изображений 128x128 пикселей.

В таблице 1. приведены соответственно табличные и графические результаты эксперимента. Отметим, что оценка расхождения в таблице 1. выполнена относительно растрового изображения без сжатия.

Таблица 1. Зависимость качества распознавания от степени сжатия JPEG

Степень сжатия JPEG, [%] Мера подобия Расхождение Размер файла, [Кб] Степень сжатия JPEG, Г/о] Мера подобия Расхождение Размер файла, [Кб]

100 0,994689 0,005311 13,7 50 0,938723 0,061277 2,3

95 0,989116 0,010884 7,4 45 0,933619 0,066381 2,2

90 0,981243 0,018757 5,1 40 0,92851 0,07149 2,1

85 0,974068 0,025932 4,1 35 0,919028 0,080972 2,0

80 0,966997 0,033003 3,6 30 0,909013 0,090987 1,9

75 0,956991 0,043009 3,2 25 0,903907 0,096093 1,8

70 0,954068 0,045932 3,0 20 0,884846 0,115154 1,6

65 0,948719 0,051281 2,8 15 0,843202 0,156798 1,5

60 0,946634 0,053366 2,6 10 0,796047 0,203953 1,3

55 0,942813 0,057187 2,4 5 0,636948 0,363052 1,1

50 0,940813 0,059187 2,2 0 0,552174 0,447826 0,998

Рис. 2. Изображения без сжатия (а) и со сжатием 25% JPEG (б)

Разработан алгоритм обучения модифицированной нейронной сети ЫЕРС1ак.ч М для модифицированного метода распознавания, в котором в значительной мере устранены недостатки, связанные с несовершенством алгоритма обучения нечетких сетей NEFClass. Эмпирический алгоритм обучения заменен на строгий алгоритм численной оптимизации для архитектуры и алгоритмов сети.

Как и оригинальная, так и модифицированная модель ЫЕРОавз основывается на архитектуре нечеткого персептрона. Архитектурные различия оригинальной и модифицированной моделей состоит в виде функций принадлежности нечетких множеств, функции 1-нормы для вычисления активаций нейронов правил, а также в виде агрегирующей функции (Ч-копормы), определяющей активации выходных нейронов.

Применение численных методов оптимизации требует дифференцируемости функций принадлежности нечетких множеств -условие, которому треугольные функции принадлежности не удовлетворяют. Поэтому в модифицированной модели нечеткие множества имеют гауссовскую функцию принадлежности, описываемую как

Конкретная функция принадлежности задается двумя параметрами - а и Ъ.

Основное изменение, касается алгоритма обучения нечетких сетей. Целевой функцией в модифицированной NEFClass выступает минимизация среднеквадратичной ошибки на обучающей выборке по аналогии с классическими (четкими) нейросетями (1):

ттЯ^ХН^-я^Н2, (1)

м Р=1

где N — количество образцов обучающей выборки, а^- априорный вектор активации нейронов выходного слоя для очередного обучающего образца р, а а^* - целевое значение этого вектора для данного паттерна.

13

Компоненты целевого вектора для паттернар равны:

«г-Г'--

где у" — номер класса, которому принадлежит данный паттерн. Алгоритм обучений нейронной сети ^РОаББ М делиться на этапы: Этап 1 — генерация базы правил:

Для первого этапа данного алгоритма - обучения базы правил используется первый этап базового алгоритма МЕРОазэ. Этап 2 — нечеткий алгоритм обучения

Метод сопряженных градиентов для КЕРСЛазэ М

Пусть критерий обучения нечеткой нейросети, которая имеет 3 слоя (один скрытый слой) (2):

м

е(Ж) = - лдат; (№)) -> тт (2)

где 11 — желаемое значение /-го выхода нейросети;

ИЕТ^мг) - фактическое значение /-го выхода нейросети, для весовой матрицы W = [WI,W0~\. = Ж(л:,Л) =//,. (х),

То есть, критерий е (и>) является средним квадратом ошибки аппроксимации. Пусть функции активации для нейронов скрытого слоя (нейронов правил) (3):

Оц=Т[р(!?(.Ъ),У = 1..4„ (3)

;=1

где /Лц (х) - функция принадлежности, которая имеет вид:

>2

М%{х) = е ,

и функция активации нейронов выходного слоя (взвешенная сумма)(4):

X ЩЯ,С)-Ок

О -. (4)

ЛеС/2

Описание алгоритма сопряженных градиентов.

1. Предположим, что К — 1. Инициализировать весовой вектор Цг и вычислить градиент б = ёгас1 Е(\У). Вектор начального

в

направления р^ = _

2. Необходимо использовать метод «золотого сечения» или метод Фибоначчи для нахождения скаляра а*, который минимизирует Е(]¥ + ар).

\¥{К + 1) = Цг(К) + а р(К) .

3. Если

где £тг - допустимая точность достижения минимума, то СТОП. Иначе - вычислить новое направление: в{к + 1) = ёгас1Е{цг(к +1)).

4. Если тос!мК = 0, то новый вектор направления:

Р{к+,>- а(к)Т0(к) •

-в(к + 1) + Рр(к)

и вычислить новый вектор направления Рк+, = й-----——т?.

\-С(к + 1) + /Зр{к)\

5. Заменить р[к) на р(к + 1) и С(к) на С(к + 1). Переходим на шаг 1 следующей итерации.

Проведен эксперимент с нейронной сетью NEFClass М применительно к распознаванию человека по изображению лица. Анализ полученных результатов показывает, что количество термов составляет 5 использующиеся для описания набора данных во время обучения. Как показал эксперимент, из исследуемых алгоритмов нейронная сеть NEFClass

М наиболее эффективно решает задачу распознавания лицевых изображений.

Разработана типовая структура контрольно-пропускной системы для автоматической видео идентификации. Система работает в 2 этапа. 1-й этап -это процесс обучения, 2-й этап — непосредственная классификация. Два этапа работают схоже за исключением блока нейронной сети. Образы подающиеся на выход в процессе обучения должны распознаваться. Система представляемая в работе состоит из 3-х блоков (Рис.3.): блок предварительной обработки; блок преобразования и выделения ключевых признаков; блок распознавания.

На вход блока предварительной обработки подается изображение лица с удаленным фоном. Дополнительный фон вносит помехи в систему, его удаление является необходимым условием стабильной работы системы. Процесс предварительной обработки изображение масштабируется к размеру 46x56 и преобразовывается в составляющие серого цвета.

В блоке преобразования двухмерное изображение преобразовывается в одномерный вектор по строкам. Над вектором пикселей (значения которых составляет 0-ь255) осуществляется дискретное преобразование Фурье для перехода в частотную область (5)

7*= $>„£> " к = 0,....,М-1. (5)

и=0

После дискретного преобразования отбирается определенное число первых значащих коэффициентов М (200) и осуществляется обратное преобразование (6)

1 ^ ™Ьп

хт=Т7 21УкеМ т = 0,....,М-1. (6)

М к=0

Таким образом, изображение сжимается с 2576 пикселей в 200 чисел. Для реконструкции этого изображения необходимо совершить ДПФ, заполнить недостающие коэффициенты (2576-200 коэффициентов) нулями и

над 2576 коэффициентов преобразования.

Фурье проделать операцию обратного

Фотография, видеопоток

Блок извлечения признаков

Сегментация изображения |

Изображение лица

Удаление фона

Лицо без фона

Блок предварительной обработки

Масштабирование | Переход в Grayscale

Преобразование в вектор

I

Преобразование Фурье 1

Выбор первых N коэффициентов

Обратное преоброзование и нормализация

Набор чисел классифицирующие одно изображение

Блок распознавания

ННС NEFFCIass М

Рис. 3 — Типовая структура контрольно-пропускной системы по лицевому изображению Так как после обратного преобразования остается комплексная составляющая для дальнейшей работы берется ее абсолютное значение (7) уп=аЪ*(хп) (7)

После проделанных операций происходит операция нормализации выходных данных — приведения значений в границы 16-ричного целого числа, (8) т.е. в область значений 0 4- 65535 :

X' = X-mir\(X) у„=-

>65535

(8)

тах(Х')

приведено изначальное представление изображения в виде одномерного вектора (Рис. 4) и абсолютные значения чисел после обратного преобразования (Рис. 5). Как видно из графиков зависимость существенно не изменилась за исключением того, что существенно уменьшился объем данных.

Рис. 4 — Значения пикселей яркостей исходного изображения. По оси X указан номер пиксела в векторе пикселей, по оси У указана яркость.

Рис. 5 — Абсолютные значения коэффициентов обратного

преобразования Фурье и операции нормализации двух разных лиц

г

В блоке распознавания происходит непосредственно операция распознавания лицевых изображений, т.е. на вход подается набор чисел определяющие конкретное изображение, на выходе получаем класс, т.е. номер лица (идентификатор человека) в базе данных. В работе использован подход реализации блока распознавания: на основе нечеткой нейронной сети NEFClass М. Разработано программное обеспечение обработки изображения лица и описание интерфейса системы идентификации лиц для обучения и настройки системы. Даны краткие выводы по главе III.

В заключении приведены данные о научной новизне и практической значимости полученных автором личных результатов, выносимых им на защиту.

Диссертация имеет три приложения: приложение 1 - Расчет параметров нейронной сети NEFClass М в математическом редакторе Mathcad; приложение 2 - Акты о внедрении контрольно-пропускной системы автоматической видео идентификации личности по лицевому изображению; приложение 3 - Листинг разработанного программного средства.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ, ВЫНОСИМЫЕ НА ЗАЩИТУ

1. Разработан модифицированный метод распознавания на основе эластичного графа, позволяющий повысить качество распознавания лицевых изображений. Введен коэффициент вклада джета в общую формулу определения меры подобия графов в алгоритме эластичного графа, что позволило увеличить вероятность распознавания, в среднем на 5-7%.

2. Разработан алгоритм обучения нейронной сети ЫЕРСЬазз М использующий модифицированный метод распознавания, позволяющий повысить надежную идентификацию. В нейронной сети ЫЕРСЬазв заменен эмпирический алгоритм обучения на строгий алгоритм численной оптимизации для алгоритма обучения.

3. Впервые исследована степень сжатия изображения для применения в системе идентификации лиц. Показано, что приемлемо допустимый уровень сжатия изображения составляет 25%, при этом необходимый объем хранимой информации снижается в 7 раз.

4. Разработана типовая структура контрольно-пропускной системы, позволяющая производить автоматическую видео идентификацию для предоставления индивидуального доступа по изображению лица.

5. Разработана типовая структура организации информационного хранилища позволяющая хранить необходимо-большой объем ключевых признаков. Разработан алгоритм хранения и поиска ключевых признаков в базе данных позволивший повысить скорость идентификации лицевых изображений.

6. Разработано программное обеспечение и интерфейс настройки и обучения нейронной сети КПС для автоматической видео идентификации лицевых изображений. Получены акты о внедрении системы в практические разработки.

Научные положения диссертации, опубликованы в 11 научных статьях (в том числе, 5статей в журналах из перечня ВАК). Их приоритет заявлен на 5 научных конференциях и семинарах.

СПИСОК РАБОТ, ОПУБЛИКОВАНЫХ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи в журналах из перечня ВАК РФ:

1. Куликов A.A. Разработка системы автоматической идентификации изображения лица персоны по видеоизображению. // Глобальный научный потенциал. №3 (24) 2013. С. 75 - 80.

2. Куликов A.A. Разработка нечеткой нейронной сети NEFClass М и проведение экспериментов. // Системы управления и информационные технологии. №2 (52) 2013. С. 66 - 70.

3. Куликов A.A., Мельков А.Е. Разработка алгоритма хранения данных для алгоритмов распознавания образов при формировании систем идентификации. // Экономика и менеджмент систем управления № 1.3 (2014). С. 86-91

4. Куликов A.A., Мельков А.Е. Введение понятие джета в алгоритме эластичного графа позволившая повысить качество распознавания. //Глобальный научный потенциал №3 2014г. С. 65-70

5. Куликов A.A., Демкин Д.В., Мелков А.Е. Анализ влияния максимальной степени сжатия изображения лица на результат распознавания лица. // Перспективы науки №3 2014. С. 54-61.

Другие работы:

6. Путилин А.Б., Куликов A.A. Разработка системы идентификации лица персоны по видео изображению. // Информационные технологии в науке и технике (2013г.).

7. Путилин А.Б., Куликов A.A. Разработка автоматической системы идентификации изображения лица персоны по видео изображению. // Сборник VIII Недели науки молодежи СВАО (2013 г.).

8. Путилин А.Б., Куликов A.A. Система автоматической идентификации изображения лица персоны по видео изображению. //Сборник «Карьера и образование - 2013» МГОУ имени B.C. Черномырдина.

9. Куликов A.A. Алгоритм нейронной сети NEFClass М и реализация алгоритма в среде Matlab». // Информационные технологии моделирования и управления. №3 (81) 2013. С. 262 - 268.

10. Куликов A.A. Современный метод защиты информации распознавания человека по изображению лица //Сборник тезисов VI Московская межвузовская научно-практическая конференция(2011г.)

11. Путилин А.Б., Куликов A.A. Распознавание видеоизображение пользователя для предоставления доступа к информации // Сборник тезисов VII Московская межвузовская научно-практическая конференция (2012г.)

Отпечатано в ООО «Служба печати» г. Москва, площадь Журавлева, д. 10, офис 12 Тел.: (495) 641-5253

Заказ №236. Тираж 100 штук

Текст работы Куликов, Александр Анатольевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ МАШИНОСТРОИТЕЛЬНЫЙ

УНИВЕРСИТЕТ(МАМИ)

(ФГБОУ ВПО «МАМИ»)

Развитие и применение методов, алгоритмов и программных средств автоматической видео идентификации для предоставления индивидуального доступа по изображению лица

Специальность 05.13.11-Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

На правах рукописи

04201458068

Куликов Александр Анатольевич

ДИССЕРТАЦИЯ

на соискание ученой степени кандидата технических наук

Научный руководитель: доктор технических наук, профессор

Путилин А.Б.

Москва 2014г.

Оглавление

Перечень сокращений................................................................................................................................4

Введение..........................................................................................................................................................5

Глава I. Аналитический обзор методов, алгоритмов и программных средств распознавания лица.............................................................................................................................8

1.1 .Основные классы решаемых задач связанных с идентификацией личности............8

1.2.Анализ существующих методов распознавания человека по изображению лица. 11

1.3.Программные средства распознавания лицевых изображений....................................27

1.4. Сравнительный анализ методов распознавания лицевых изображений. Постановка задачи диссертационного исследования.......................................................32

Глава II. Развитие методов и алгоритмов распознавания человека по изображению лица.........................................................................................................................................................40

2.1.Необходимость исследования и доработки алгоритмов распознавания применительно к изображению лица.......................................................................................40

2.2. Принципы поэтапного распознавания лица.........................................................................41

2.3.Разработка модифицированного метода распознавания на основе эластичного графа применительно к распознаванию лица. Введение понятия джета................43

2.4.Разработка алгоритма хранения и поиска данных для идентификации лица. Разработка типовой структуры организации информационного хранилища ключевых признаков лицевых изображений........................................................................55

2.5.Краткие выводы по главе II..........................................................................................................69

Глава III. Применение нейросетевого подхода в задаче распознавания лицевого изображения........................................................................................................................................69

3.1.Алгоритм обучения нечеткой нейронной сети NEFClass..............................................69

3.2.Проведение экспериментов с нейронной сетью NEFClass применительно к распознаванию человека по изображению лица.................................................................75

3.3.Исследования влияния оценки степени сжатия изображения лица на результат идентификации для контрольно пропускной системы....................................................82

3.4.Разработка алгоритма обучения модифицированной нейронной сети NEFClass М для введенного понятия джета....................................................................................................90

3.5.Проведение экспериментов с нейронной сетью NEFClass М применительно к распознаванию человека по изображению лица.................................................................96

3.6. Разработка типовой структуры контрольно-пропускной системы для автоматической видео идентификации................................................................................101

3.7.Разработка программного обеспечения обработки изображения лица и описание интерфейса системы идентификации лиц для обучения и настройки системы. 107

3.8.Краткие выводы по главе III......................................................................................................113

ЗАКЛЮЧЕНИЕ......................................................................................................................................114

Литература................................................................................................................................................118

Список работ, опубликованных по теме диссертации.........................................................131

Приложения:

Приложение 1. Расчет параметров нейронной сети NEFClass М в математическом редакторе Mathcad..................................................133

Приложение 2. Акты о внедрении контрольно-пропускной системы автоматической видео идентификации личности по лицевому изображению.. 143

Приложение 3. Листинг разработанного программного средства.............145

Перечень сокращений

КПС - Контрольно-пропускная система

НС- нейронная сеть

ННС - нечеткая нейронная сеть

РСА- (Principal Component Analysis)MeTOA анализа главных компонент

FLD (LDA) - (Linear Discriminant Analysis) метод линейного дискриминантного

анализа

DIFS - (Distance in feature space) расстояние в собственном пространстве

DFFS - (Distance from feature space) расстояние до проекции в собственном

пространстве

JPEG - формат файла изображения лица

Jet - фрагмент полутонового изображения вокруг заданного пикселя. ER - (entity-relationship model) модель данных СКО - среднеквадратическая ошибка

ORL - (Olivetti Research Laboratory) база изображений лиц

Введение

Актуальность исследования. Системы идентификации личности используются в автоматизированных системах безопасности для управления контрольно-пропускной системой (КПС), в различных общественных местах с различными целями. Поиск и идентификация личности обычно проводится с использованием таких данных как фамилия, имя, отчество, дата рождения и др. Такие системы имеет высокую скорость, но не лишены недостатков, главным из которых является возможность получения доступа по подложным документам. Альтернативой этому варианту поиска является метод идентификации личности по лицевому изображению.

Сложившиеся подходы к идентификации человека по изображению лица практически устоялись [3,5,6,8,9,10]. Актуальными задачами остаются улучшение точностных и временных характеристик существующих методов, алгоритмов и программных средств идентификации. Дальнейшее развитие систем распознавания лица, является создание подсистем набора из видеоряда, формируемой, путем считывания информации с видеокамер изображений лиц, а также создание комплекса систем интерфейсов. В дальнейшем этот набор можно использовать в качестве входной информации для системы идентификации.

Задаче распознавания лицевых изображений посвящено большое количество публикаций [6,8,9,10 и др.], однако в целом она ещё остается далёкой от разрешения. Основные трудности метода идентификации личности состоят в том, что система должна распознавать человека по изображению лица независимо от изменения условий освещённости, изменения ракурса, а также при различных других внешних изменениях лица. Кроме того не решены такие задачи как оценка сжатия изображения для снижения необходимого объема на вероятность распознавания, специальных алгоритмов сохранения и поиска ключевых признаков изображения и др.

Цель и задачи исследования. Целью работы является развитие и применение методов, алгоритмов и программных средств автоматической видео

идентификации для предоставления индивидуального доступа по изображению лица с целью построения контрольно-пропускной системы (КПС), а также разработка программного интерфейса, позволяющий настраивать и обучать КПС.

Для достижения цели поставленной в работе, необходимо, решить следующие основные задач:

- Модифицировать методы и алгоритмы распознавания лиц, позволяющие повысить качество распознавания, в сравнении с существующими методами;

- Разработать алгоритм обучения нейронной сети позволяющий повысить надежную идентификацию лица;

- Разработать алгоритмы организации хранения вспомогательной информации для оперативного поиска в базе данных при идентификации лиц;

- Разработать типовую структуру организации информационного хранилища КПС для ключевых признаков используемых в алгоритме хранения данных;

- Разработать программное обеспечение КПС, в котором реализованы алгоритмы хранения, поиска, алгоритма обучения нейронной сети, метода распознавания и информационного хранилища с целью проверки на практике правильности сделанных теоретических выводов;

- Разработать программный интерфейс, позволяющий настраивать и

обучать контрольно-пропускную систему. Перечисленные задачи будут дополнены и уточнены с учетом результатов аналитического обзора Главы I.

Объект исследования. Человеко-машинные интерфейсы обработки изображений в системах автоматической видео идентификации для предоставления индивидуального доступа по изображению лица в контрольно-пропускных системах.

Предмет исследования. Предмет исследования определен предметной областью №7 паспорта специальности 05.13.11, «Человеко-машинные интерфейсы: модели, методы, алгоритмы и программные средства обработки изображений», а также перечнем задач решаемых в диссертации.

Методы исследования. Для решения поставленных задач, применены методы объектно-ориентированного программирования, вычислительной математики, теории распознавания образов, разработки и обучения нейронной сети, математического моделирования.

Публикации. По результатам исследований опубликовано 11 научных работ, из них 5 статей в реферируемом журнале, рекомендованном ВАК.

Апробация работы. Основные положения диссертационной работы доложены и обсуждены на научно-практических конференциях: «VI Московская межвузовская научно-практическая конференция» (Москва, 2011); «VII Московская межвузовская научно-практическая конференция» (Москва, 2012), «VIII Недели науки молодежи СВАО» (Москва, 2013); «Карьера и образование -2013»» (Москва, 2013), XI Международная заочная научно-практическая конференция «технические и математические науки» (2013 г.). Структура и объем работы. Диссертация состоит из Введения, трех глав основного текста, Заключения и списка литературы, включающего 116 наименований. В приложении приведены документы о внедрении, листинг разработанной программы и расчет параметров нейронной сети NEFClass М Общий объем диссертации составляет 130 листов, включая 46 рисунков и 12 таблиц

Глава I. Аналитический обзор методов, алгоритмов и программных

средств распознавания лица

В главе дан критический обзор, сравнительный анализ существующих методов и алгоритмов распознавания человека по изображению его лица, применительно к распознаванию человека по единичному экземпляру изображения его лица. Приведен обзор современных систем распознавания, осуществляющих идентификацию человека по изображению его лица, рассмотрены общие вопросы теории и практики построения таких систем.

1.1. Основные классы решаемых задач связанных с идентификацией

личности

Задача идентификации личности делится на три больших класса, отличающихся как по требованиям, предъявляемым к системам распознавания, так и по способам их решения. Различны и требования, предъявляемые к ошибкам возникающим при решении этих классов задач.

- поиск ключевых признаков в больших базах данных;

- контроль доступа;

- контроль фотографий в различных документах (документный контроль).

Ошибкой первого рода (type I error, misdetection) называют ситуацию, когда

объект заданного класса не распознаётся (пропускается) системой. Ошибка второго рода (type II error, falsealarm) происходит, когда объект заданного класса принимается за объект другого класса. [1-5]

Следует также отметить различие понятий верификации и распознавания (идентификации). В задаче верификации неизвестный объект заявляет, что он принадлежит к некоторому известному системе классу. Система подтверждает или опровергает это заявление. При распознавании требуется отнести объект неизвестного класса к одному из известных или выдать заключение о том, что этот объект не относится к известным классам.

Поиск изображения в базе данных.

При поиске изображения в базах данных большого объема используется сравнение типа «один со многими». При этом предъявляются высокие требования к ошибке первого рода - система распознавания должна находить изображения, соответствующие данному человеку, не пропустив, по возможности, ни одного такого изображения. Система должна находить изображения, соответствующие конкретному человеку.

Обычно в большой базе данных (с объемом хранения 104 - 107 изображений) требуется найти изображения, наиболее похожие на заданное. Поиск должен быть произведён за минимальное время(менее 5 сек). Одно из решений состоит в хранении в базе данных небольших наборов заранее извлечённых ключевых признаков, максимально характеризующих изображение. При этом требования к точности при подборе похожих изображений лица не столь критичны как в задачах контроля доступа и документного контроля.

При решении задач данного класса, прежде всего, применяется метод эластичного графа [71, 113]. В данном методе для получения граф-модели изображения лица используются, так называемые, джеты ~ набор комплексных коэффициентов Габора для некоторых точек изображения, полученных в результате свертки изображения лица с вейвлетами Габора, которые хорошо характеризуют локально-частотные свойства изображения. Для сравнения изображений используется функция подобия, учитывающая амплитуду и фазу соответствующих коэффициентов Габора.

При решении задач данного класса используется также метод «собственных лиц» (метод главных компонент) [25, 107]. При использовании этого метода коэффициенты, полученные разложением входного изображения на главные компоненты, используются для сравнения изображений путём вычисления Евклидова расстояния, а в более совершенных методах - на основе метрики Махаланобиса с использованием гауссовского распределения [86,107]. В работе [66] описано развитие метода главных компонент на основе нейронных сетей.

Задача контроля доступа.

При решении задачи контроля доступа используется сравнение типа «один с несколькими». Для этой задачи критичны требования к ошибкам второго рода. Система распознавания изображений не должна характеризовать незнакомых людей в качестве знакомых, возможно, даже за счёт увеличения ошибок первого рода (отказа в доступе знакомым людям).

Решение задачи контроля доступа обычно требуется в условиях, когда имеется небольшая группа лиц (например 5-50 человек), которых контрольно-пропускная система должна распознавать по изображению лица для принятия решения о доступе конкретного лица на охраняемую системой территорию. Лиц, не входящих в состав доверенной группы, КПС не должна пропускать.

Возможны варианты, когда требуется установить конкретную личность по изображению лица. При этом от системы требуется высокая достоверность распознавания, возможно, даже за счёт увеличения числа отказов в доступе.

Обычно в качестве тренировочных изображений каждого члена доверенной группы системе доступны несколько изображений его лица, полученных при различных условиях. Это могут быть, например, различные ракурсы съемки, освещённость, различные причёски, мимика, наличие или отсутствие очков, усов, бороды и т.п.

При этом в штатном режиме система должна работать в реальном масштабе времени (время принятия решения системой не должно превышать нескольких десятков секунд), в то время как процесс настройки функционирования системы на конкретную доверенную группу лиц может занимать значительно больше времени, но в подготовительном режиме, выполняемом заранее.

Ограничений на применяемые методы нет. Однако, большинство методов сходятся к одному: имеется обучающий набор изображений лиц заданной доверенной группы сотрудников (возможно, при различных условиях съёмки), к этому набору система обращается в процессе распознавания и принятия решения о допуске. Или в процессе обучения система настраивается на этот набор.

При решении этого класса задач распространён подход с использованием нейронных сетей, которые после обучения обладают хорошей обобщающей способностью.

1.2. Анализ существующих методов распознавания человека по

изображению лица.

В данном разделе приведен обзор современных методов распознавания человека по изображению лица, рассмотрены преимущества и недостатки каждого из методов, дано общее сравнение методов.

1.2.1. Метод анализа главных компонент Метод анализа главных компонент [105,107, 109] (Principal Component Analysis, РСА) применяется для сжатия информации без существенных потерь информативности. Используемый в методе подход состоит в линейном ортогональном преобразовании входного вектора X размерности N в выходной вектор У размерности M,N<M. При этом компоненты вектора Г являются некоррелированными и общая дисперсия после преобразования остаётся неизменной. Матрица X состоит из всех примеров изображений обучающего набора. Решив уравнение Л = ФГТ,Ф [105], получаем матрицу собственных векторов Ф (здесь Е- ковариационная матрица для X, а Л- диагональная матрица, образуемая собственными числами).

Выбрав изФ подматрицу Фм, соответствующую М наибольшим собственным числам, получим, что преобразование:

у = Фтмх,тъх =х-х- нормализованный вектор с нулевым математическим ожиданием, характеризует большую часть общей дисперсии и отражает наиболее существенные изменени�