автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Модели распознаваемых объектов в системе компьютерного стереозрения реального времени

кандидата физико-математических наук
Матвеев, Иван Алексеевич
город
Москва
год
1999
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Модели распознаваемых объектов в системе компьютерного стереозрения реального времени»

Текст работы Матвеев, Иван Алексеевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

На правах рукописи

МАТВЕЕВ Иван Алексеевич

МОДЕЛИ РАСПОЗНАВАЕМЫХ ОБЪЕКТОВ В СИСТЕМЕ КОМПЬЮТЕРНОГО СТЕРЕОЗРЕНИЯ РЕАЛЬНОГО ВРЕМЕНИ

05.13.11 - математическое и программное обеспечение вычислительных комплексов, систем и сетей

диссертация на соискание ученой степени кандидата физико-математических наук

/ил**

Москва 1999

Работа выполнена в Вычислительном центре РАН

Научные руководители - доктор физико-математических наук,

профессор В.И.ЦУРКОВ кандидат технических наук, старший научный сотрудник А.Б.МУРЫНИН

Официальные оппоненты - доктор физико-математических наук,

профессор А.П.АФАНАСЬЕВ кандидат физико-математических наук О. В. СЕНЬ КО

Ведущая организация - Институт космических исследований РАН

Защита диссертации состоится "_"_ 1999 г.

в_часов на заседании диссертационного совета

К002.32.01 при Вычислительном Центре Российской Академии Наук по

адресу: Москва, ул. Вавилова, д. 40.

С диссертацией можно ознакомиться в библиотеке ВЦ РАН. Автореферат разослан "_" 1999 г.

Оглавление

ВВЕДЕНИЕ_5

Общая характеристика работы_5

Краткое содержание диссертации_9

ГЛАВА 1. СОСТОЯНИЕ И ПЕРСПЕКТИВЫ РАЗВИТИЯ СИСТЕМ ТРЕХМЕРНОГО МАШИННОГО ЗРЕНИЯ_14

1.1 Задачи систем машинного зрения_17

1.1.1 Распознавание изображений лиц_18

1.2 Геометрия сцен и регистрирующих установок_24

1.3 Системы признаков, в зрении нижнего уровня_25

1.4 Методы стереореконструкции_27

1.4.1 Алгоритмы, основанные на локальной корреляции участков изображений__28

1.4.2 Алгоритмы, основанные на совмещения точечных признаков 32

1.4.3 Алгоритмы, основанные на совмещении границ_34

1.4.4 Коррекция недостоверно распознанной диспаратности_39

ГЛАВА 2 - МЕТОД СТЕРЕОРЕКОНСТРУКЦИИ РЕАЛЬНОГО ВРЕМЕНИ__40

2.1 Постановка задачи__42

2.2 корреляционный алгоритм ___________________________45

2.2.1 Предобработка изображения_45

2.2.2 Базовый алгоритм стереопсиса_46

2.2.3 Корреляционный поиск соответственных точек_49

2.2.4 Корреляционная функция_53

2.2.5 Сверхразрешение_55

2.2.6 Обратный проход_56

2.2.7 Пирамидалъностъ_56

2.3 Коррекция недостоверной информации_59

2.3.1 Алгоритм коррекции недостоверной информации._60

Выводы к главе 2_._63

ГЛАВА 3 - ПОСТРОЕНИЕ МОДЕЛЕЙ И РАСПОЗНАВАНИЕ_64

3.1 Метод главных компонент_66

3.1.1 Разложение Карунена-Лоэва_68

3.1.2 Метод ГК в задаче распознавания_74

3.1.3 Уменьшение размерности пространства изображений_75

3.2 Частные признаки_79

3.2.1 Метод деформируемых шаблонов_79

3.2.2 Метод интегральных проекций_83

3.2.3 Вычисление характеристик по карте диспаратности_86

3.3 Комбинированные пространства признаков_89

Выводы к главе 3_;_91

ГЛАВА 4 - СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ЧЕЛОВЕКА ПО ИЗОБРАЖЕНИЯМ ЛИЦА_92

4.1 Лабораторная модель системы_92

4.1.1 Структура системы распознавания личности_92

4.1.2 Состав системы_93

4.1.3 Сценарий работы системы__95

4.1.4 Роль стереореконструкции в общей работе системы_95

4.2 Результаты работы системы и отдельных алгоритмов_96

4.2.1 Стереореконструкция лица человека__97

4.2.2 Стереореконструкция по данным аэрофотосъемки_98

4.2.3 Иллюстрации к работе метода главных компонент_99

4.2.4 Распознавание по частным признакам_103

4.3 Вычислительные ресурсы_105

ВЫВОДЫ К ДИССЕРТАЦИИ_106

Введение

Общая характеристика работы

В работе рассматривается задача построения системы распознавания объектов определенного класса (например, человеческих лиц) по их фотографическим изображениям, работающая в реальном времени и обладающая достаточной устойчивостью к изменениям параметров регистрации изображений. Ключевым моментом является использование трехмерных моделей при распознавании объектов, что позволяет, как показано в работе, увеличить точность и устойчивость работы системы.

Актуальность темы. Развитие вычислительной техники и увеличение количества обрабатываемой информации (в том числе и видеоинформации) сделали весьма актуальным создание различных распознающих систем. Восприятие, построение моделей и распознавание изображений трехмерных сцен - одна из наиболее важных и интересных областей кибернетики. Одна из центральных проблем зрения - восприятие трехмерной структуры пространства. Из этой задачи можно условно выделить задачу реконструкции трехмерной поверхности по двумерным проекциям - изображениям и задачу построения трехмерной модели - взаимосвязанной совокупности признаков, служащей в дальнейшем для распознавания, ориентации в пространстве и иным целям, зависящим от общей задачи, решаемой системой. Очевидно, что нервная система человека и животных, обладающих зрением, успешно справляется со многими задачами зрительного восприятия. Поэтому изучение механизмов зрения, реализованных в природе, многое дало для построения искусственных зрительных систем. Широко известна, например, вычислительная теория человеческого зрения, разработанная Марром, Поджо и Гримсоном. Большинство систем трехмерного машинного зрения использует ее результаты.

В силу огромной сложности механизмов распознавания, реализованных в природе, невозможно прямое их изучение, и о том, как происходит восприятие трехмерной сцены или узнавание шаблона до сих пор имеются лишь косвенные данные. По этой причине, а также из-за большого разнообразия прикладных задач построение искусственных распознающих и разработка универсальных распознающих алгоритмов столкнулись с большими трудностями. Один из

возможных методов распознавания - выделение различных признаков в исходной информации (изображениях или трехмерных сценах) и построение моделей, в которых эти признаки являются параметрами. На данный момент рассмотрены признаки изображений самых разнообразных типов, однако большинство современных исследований по распознаванию изображений оперируют с признаками одинаковой природы. В данной работе делается попытка использовать для построения распознаваемой модели признаки различной природы.

Достаточно серьезной проблемой для машинного зрения в целом является большое количество исходных данных, обработка которых даже современными вычислительными системами может занять много времени. По этой причине системы реального времени (диалоговые или управляющие) не могут использовать многих привлекательных алгоритмов, а те алгоритмы, что используются, нуждаются в оптимизации. В данной работе представлен подход, позволяющий построить алгоритмы, работающие в реальном времени и обладающие значительными точностью и устойчивостью.

Цель и задачи исследования.

разработка и алгоритмическая реализация метода стереореконструкции по бинокулярной проекции, работающего в реальном времени;

разработка методов машинного зрения путем построения трехмерной модели видимой сцены и распознаваемого объекта, создание системы признаков трехмерного объекта, получаемых в реальном времени;

исследование способов и возможностей распознавания с использованием нескольких информационных пространств; экспериментальное исследование работоспособности предложенных методов и алгоритмов, установление возможности их практического применения.

Научная новизна данной работы заключается в том, что в результате проведенных автором исследований:

Разработана модель трехмерного машинного зрения и распознавания изображений. Построена система признаков трехмерных объектов и сцен и методов их выделения, оптимизированная по быстродействию. Изучены

способы и возможности распознавания с использованием нескольких информационных пространств.

Разработан алгоритм стереореконструкции по бинокулярной проекции, работающий в реальном времени. Алгоритм основывается на корреляции площадных и точечных признаков, использует иерархическое (пирамидальное) представление данных, производя последовательные доуточнения результатов своей работы. Алгоритм использует методы коррекции недостоверной информации, используя априорную модель обрабатываемого объекта.

Практическая ценность. Разработанные методы и алгоритмы могут быть применены в различных практических приложениях, в которых требуется регистрация, распознавание, классификация трехмерных объектов и сцен, восстановление формы трехмерных объектов. Система распознавания трехмерных объектов может быть применена при работе с базами данных, содержащими различные изображения, например с базами данных фотографий лиц. Программный комплекс может быть использован как составная часть систем ограничения доступа, основанных на распознавании лица посетителя или радужки глаза. Предложенный алгоритм стереореконструкции может быть использован для удаленного зондирования рельефа в авиационных и космических приложениях.

На защиту выносятся:

1. Методы реализации машинного зрения путем построения трехмерных моделей распознаваемого объекта, использующих признаки изображений различной природы.

2. Методы и алгоритмы выделения соответственных признаков на изображениях, устранения неоднозначностей восстановления рельефа, использования пирамидальных структур данных, образующие в целом алгоритм восстановления трехмерной структуры видимой сцены, работающий в реальном времени.

3. Программно-аппаратный комплекс распознавания лиц, реализующий вышеописанные методы.

Апробация.

Представленные в диссертационной работе методы, их алгоритмическая реализация и полученные результаты доложены на 23м Международном конгрессе по высокоскоростной фотографии и фотонике (International Congress

on High Speed Photography and Photonics - ICHSPP), проходившем в Москве 2025 сентября 1998 г., на 5-й Международной конференции по распознаванию изображений и обработке информации (Pattern Recognition and Information Processing- PRIP), проходившей в Минске 18-20 Мая 1999 г., а также на семинарах Вычислительного Центра РАН, Института Проблем Передачи Информации РАН.

Результаты работы опубликованы:

1. Ivan A. Matveev, Alexander В. Murynin, "3-D Surface Reconstruction in Automatic Recognition System" ,H Proceedings of SPIE, V.3516, 1998

2. Ivan A. Matveev, Alexander B. Murynin, "Automatic Stereoscopic System for Person Recognition", //Proceedings of SPIE, V.3516, 1998

3. Victor D. Kuznetsov, Ivan A. Matveev, Alexander B. Murynin, "Optimisation of Informative Components for 3D Object Recognition", //Proceedings of SPIE, V.3 516, 1998

4. A.B.Murynin, I.A.Matveev, Identification of Objects on the Basis of Stereo Images: Optimization of Algorithms for Reconstruction of a Surface, Journal of Computer and Systems Sciences International, Vol.37, No 2, 1998, pp. 149-155.

5. A.B.Murynin, V.D.Kuznetsov, I.A.Matveev, Identification of Objects on the Basis of Stereo Images: Optimization of Recognition Algorithms, Journal of Computer and Systems Sciences International, Vol.37, No 3, 1998

6. А.Б.Мурынин, О.А.Серебренников, В.В.Кулаков, С.А.Большаков, К.А.Маковкин, В.Я.Чучупал, И.А.Матвеев, М.Е.Скорик

"Автоматическая система распознавания личности по характеристикам изображения и голоса", Препринт ВЦ РАН, 1997

7. С.А.Зорин, И.А.Матвеев, А.Б.Мурынин, Р.В.Сеньков, В.И.Цурков "Восстановление 3-мерного рельефа лица в задаче автоматической идентификации личности", препринт ВЦ РАН, 1997

8. В.Д.Кузнецов, И.А.Матвеев, А.Б.Мурынин, В.И.Цурков "Эталон лица и выделение области сравнения при автоматической идентификации личности", препринт ВЦ РАН, 1997

9. И.А.Матвеев, В.Д.Кузнецов, А.Б.Мурынин, "Комбинированные векторы признаков стереоизображений для автоматической идентификации", препринт ВЦ РАН, 1998

Краткое содержание диссертации

Глава I представляет собой обзор состояния методов распознавания изображений и построения трехмерных моделей видимых объектов. Приведена парадигма системы компьютерного зрения, и рассмотрены ее элементы. Рассмотрены различные варианты постановок задач трехмерного зрения (геометрии сцен и требования). Описаны различные варианты восстановления трехмерной структуры сцены, а именно: стереопсис, восстановление по модуляциям яркости, восстановление по изменению вида изображений со временем, статистический метод. Описаны различные признаки изображений, применяемые при построении моделей распознаваемых объектов и методы их распознавания.

В Главе 2 рассмотрена задача построения метода восстановления трехмерной структуры сцены, работающего в реальном времени.

Парадигма компьютерного зрения включает в себя три этапа: сцену, зрение нижнего уровня, зрение верхнего уровня. Стереореконструкция относится к зрению нижнего уровня. Один из классов алгоритмов стереореконструкции дается вычислительной теорией человеческого стереоскопического зрения, разработанной Марром, Поджо и Гримсоном. Эта теория рассматривает стереопсис - восстановление трехмерной сцены по корреляциям признаков на двух изображениях (бинокулярной проекции). Если ограничиться случаем текстурированных объектов при отсутствии существенных затенений, то можно построить концепцию алгоритма, которая включает в себя следующие шаги:

1. первоначальное совмещение изображений по интегральным признакам,

2. поиск соответственных точек путем корреляции по большим окнам в областях с выраженной текстурой большого масштаба,

3. уменьшение размеров окна корреляции и повтор шага 2 вплоть до некоторого размера окна.

4. заполнение точек, в которых соответствие не было найдено, интерполяцией (какого-либо типа, согласно априорной модели сцены) из соседних точек, где соответствие было найдено.

Такой алгоритм достаточно универсален, надежен и устойчив, но вычислительно сложен (необходимо производить многократную свертку с различными масками). Поэтому более практичной является следующая интерпретация алгоритма. Число шагов (2) ограничено двумя-тремя и размер окон фиксирован. Такой подход называется пирамидальной обработкой и представлением данных. На верхнем уровне пирамиды ищутся соответственные точки для некоторого небольшого подмножества точек изображения. Затем значения диспаратности (разности координат соответственных точек) во всех остальных точках интерполируются по найденным. После этого на нижнем уровне пирамиды находятся диспаратности для всех оставшихся точек, но уже с учетом приблизительной ее оценки, полученной в результате интерполяции. Данный способ позволяет на порядок сократить вычисления при построении трехмерного рельефа исследуемого объекта, не уменьшая при этом надежности и устойчивости работы. Для контроля правильности установления соответствий используется обратное сканирование, иначе говоря, если корреляция соответственных точек невелика, и есть сомнение в правильности их нахождения, то для найденной соответственной точки в свою очередь производится поиск. Если полученная точка совпадает с исходной, то соответствие считается найденным правильно. В результате применения этого правила в части точек ненадежные соответствия забраковываются, и диспаратность считается нераспознанной. Для коррекции таких областей нераспознанной диспаратности применяется алгоритм локальной аппроксимации функцией определенного вида (например, квадратичной, в зависимости от предполагаемой модели поверхности) методом наименьших квадратов.

Также предложен статистический способ оценки рельефа. До сих пор априорная информация об объекте не использовалась, за исключением предположения о том, каким образом можно интерполировать его поверхность. Однако, если априори известен класс рассматриваемых объектов, можно, вычислив некоторые его признаки и предположив, что они коррелированны с другими, оценить последние. Такой подход особенно ценен, если прямое

вычисление оцениваемых признаков ресурсоемко. Предлагается использовать статистический подход для оценки рельефа объекта, то есть заменить им верхний уровень пирамидального алгоритма стереореконструкции.

Глава 3 посвящена рассмотрению методов зрения верхнего уровня и распознавания.

Распознавание объектов основывается на предварительном построении модели объекта или класса объектов и может быть рассмотрено как вычисление параметров этой модели для предъявленного объекта и последующее сравнение этих параметров с эталонными. Существующие методы построения моделей можно разделить на две группы: 1) методы, в которых модель строится на основании внешних экспертных знаний (знаний человека-разработчика о специфических свойствах распознаваемого образа) и 2) методы, автоматически генерирующие модель объекта по обучающей выборке (статистике).

К первой группе можно отнести методы оценки различных численных характеристик распознаваемых образов, например, координат, размеров, ориентации различных областей изображения. Рассмотрены методы интегральных проекций, деформируемых шаблонов, сравнения линий одинаковой яркости. Распознавание любого объекта предполагает наличие априорной информации или гипотезы о принадлежности его какому-нибудь классу. Если априори известно о том, что распознаваемые объекты принадлежат определенному классу, можно попытаться построить параметрическую модель объектов этого класса, в которой индивидуальные характеристики объектов являются параметрами. Одним из вариантов такого подхода является построение модели в виде деформируемого шаблона с заданной функцией "энергии", зависящей от деформаций. Задача представляется как поиск параметров т