автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Метод компрессии видеоизображений, основанный на использовании априорной информации о структуре кадра

кандидата технических наук
Мироненко, Евгений Петрович
город
Санкт-Петербург
год
2009
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Метод компрессии видеоизображений, основанный на использовании априорной информации о структуре кадра»

Автореферат диссертации по теме "Метод компрессии видеоизображений, основанный на использовании априорной информации о структуре кадра"

На правах рукописи

Мироненко Евгений Петрович

МЕТОД КОМПРЕССИИ ВИДЕОИЗОБРАЖЕНИЙ, ОСНОВАННЫЙ НА ИСПОЛЬЗОВАНИИ АПРИОРНОЙ ИНФОРМАЦИИ О СТРУКТУРЕ КАДРА

Специальность: 05.13.01 "Системный анализ, управление и обработка информации (в технике и технологиях)"

Автореферат диссертации на соискание ученой степени кандидата технических

Санкт-Петербург

2008 г.

003459779

Работа выполнена на кафедре информационно-сетевых технологий Государственного образовательного учреждения высшего профессионального образования "Санкт-Петербургский государственный университет аэрокосмического приборостроения" (ГУАП)

Научный руководитель:

доктор технических наук, профессор Красильников Николай Николаевич

Официальные оппоненты:

доктор технических наук, профессор Петров Павел Николаевич кандидат технических наук, доцент Гласман Константин Францевич

Ведущая организация: ОАО Научно-производственное предприятие "Радар ММС"

Защита состоится " " (ра^р&ЛлЛ 2009 г. в _ час. _ мин. на

заседании диссертационного совета Д 212.233.02 при Государственном образовательном учреждении высшего профессионального образования "Санкт-Петербургский государственный университет аэрокосмического приборостроения" по адресу: 190000, г. Санкт-Петербург, ул. Большая Морская, д. 67.

С диссертацией можно ознакомиться в библиотеке государственного образовательного учреждения высшего профессионального образования "Санкт-Петербургский государственный университет аэрокосмического приборостроения"

?

Автореферат разослан " " " Л^'^уМ " 200&'г.

Ученый секретарь А г,

диссертационного совета П ( к /

доктор технических наук, профессор Ч^/ д д Осипов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы.

В настоящее время, в связи с широким распространением цифровой техники, быстро растет объем передаваемой и хранимой информации. Особенно это касается данных, относящихся к визуальной информации, наиболее широко используемой в различных сферах человеческой деятельности. Хранение визуальной информации требует больших объёмов памяти, а для ее передачи необходимо наличие каналов с высокой пропускной способностью.

Таким образом, одной из наиболее актуальных задач в области обработки видеоданных становится разработка и совершенствование методов компрессии этих данных.

Особенностью большинства современных алгоритмов комирессии видеоданных является то, что они разработаны для компрессии произвольных изображений. Вместе с тем, если тип изображений, для которых разрабатывается алгоритм компрессии, заранее известен, это обстоятельство может быгь использовано для увеличения его эффективности. Другими словами, знание объектов, находящиеся в кадре, и способов их движения, дают возможность получить большую степень компрессии при сохранении необходимого качества изображения.

Таким образом, одним из основных направлений исследований в области компрессии является разработка методов компрессии, согласованных с содержанием видеоконтента с целью повышения эффективности их работы. В области компрессии видеоизображений реальных сцен, при условии обеспечения высокого качества результирующих изображений, процесс компрессии должен учитывать свойства зрительной системы человека как оконечного анализирующего устройства. Поэтому дополнительный интерес представляет детальное изучение работы зрительной системы при восприятии объектов реальных трехмерных сцен, с целью усовершенствования механизмов компрессии при сохранении высокого визуального качества.

Цель работы: целью работы является разработка и исследование алгоритма компрессии видеоданных, основанного на использовании априорной информации о структуре кадра видеоизображения и параметров объектов в кадре. Алгоритм включает в себя распознавание объекта в кадре видеопоследовательности, нахождение его характерных элементов и использование полученной информации для переноса на трёхмерную модель и её дальнейшей анимации в соответствии с движением объекта в исходной видеопоследовательности.

Задачи исследования: для достижения поставленной цели в работе решались следующие основные задачи и вопросы:

1. Анализ существующих методов компрессии видеоданных. Выявление недостатков этих методов, в случае компрессии потокового видео с априорно известными объектами в кадре при условии обеспечения

малых потерь в качестве и отсутствия эффекта накопления ошибок преобразования при многократной обработке.

2. Исследование особенностей визуального восприятия трехмерных объектов и определение допустимых искажений при обеспечении высокого визуального качества.

3. Разработка и исследование эффективного алгоритма для компрессии видеоданных на основе использования ЗБ модели, согласованного со зрительной системой человека.

4. Экспериментальное исследование предложенных алгоритмов и оценка их эффективности.

Методы исследования: для достижения поставленной цели в диссертационной работе использовались методы системного анализа, методы цифровой обработки сигналов, теория дискретных сигналов, теория информации, математическая статистика и методы компьютерного моделирования.

Научная новизна:

1. Разработан и исследован метод компрессии видеоданных, основанный на замене изображений объектов в кадре их трехмерными моделями.

2. Проведен анализ эффективности применения современных методов компрессии видеоданных при обеспечении высокого визуального качества результирующих изображений.

3. Проведено экспериментальное исследование эффективности зрительной системы человека в условиях распознавания трехмерных тестовых объектов, алфавит которых задан и ограничен.

4. Определен уровень допустимых погрешностей для основных характеристик трехмерных объектов при их наблюдении.

Практическая ценность работы определяется тем, что предложенный алгоритм компрессии для видеоизображений с заранее определенными объектами в кадре позволяет получить больший выигрыш по сжатию, чем те, которые обеспечиваются известными методами компрессии движущихся изображений.

Основные положения, выносимые на защиту:

1. Метод компрессии видеоданных, основанный на замене изображений объектов в кадре их трехмерными моделями.

2. Алгоритм нахождения и определения параметров объектов в кадре видеоизображения

3. Алгоритм адаптации шаблонной трехмерной модели объекта к параметрам визуального объекта в кадре видеоизображения

4. Результаты исследования восприятия трехмерных объектов наблюдателем

Внсдреннс результатов работы: в учебном процессе Санкт-Петербургского государственного университета аэрокосмического приборостроения.

Апробация результатов работы. Основные положения и результаты диссертации докладывались и обсуждались на VIII, IX, X научных сессиях ГУАП (г. Санкт-Петербург 2005, 2006,2007), IV Международной конференции "Телевидение: передача и обработка изображений" ЛЭТИ (г. Санкт-Петербург 2005), IV Межвузовской конференции молодых учёных ИТМО (г. Санкт-Петербург 2007), ECVP (Европейская конференция зрительного восприятия) (2005).

Публикации. По теме диссертации опубликовано 8 печатных работ, из них 3 в журналах, входящих в список ВАК.

Структура работы. Диссертационная работа изложена на 148 страницах и состоит из введения, 4-х разделов, заключения, списка исиользованных источников литературы, включающего 78 наименований. Основное содержание работы включает 49 рисунков и 13 таблиц.

-6-

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цели диссертационной работы и основные задачи, приведены основные положения, выносимые на защиту.

В первом разделе диссертационной работы ставится задача компрессии видеоизображения с обеспечением высокого качества восстановленной копии.

В первой части раздела производится обзор и анализ существующих алгоритмов, рассматриваются их достоинства и недостатки в применении к мультимедиа данным (в частности к компрессии видеоинформации).

Традиционные методы компрессии видеоданных «без потерь», основанные на статистических характеристиках изображений, не учитывают в достаточной степени специфику структуры кадра кодируемых видеопоследовательностей, что приводит в раде случаев к существенному снижению коэффициентов компрессии. Увеличение эффективности работы таких методов можно получить за счет использования свойств внутрикадровой структуры (контекста) видеоизображения.

Методы компрессии изображений «с потерями», позволяют получать существенные коэффициенты сжатия, однако при возрастании величины коэффициента компрессии эти методы вносят в изображения дополнительные артефакты, например, регулярные структуры, изначально отсутствующие в оригинальном изображении, появление которых обусловлено доменным представлением изображения. Улучшение качества компрессии возможно за счет согласования структуры объектов исходного изображения и методов их преобразования. Для увеличения величины коэффициента компрессии изображений в случае алгоритмов компрессии с потерями информации помимо свойств источника информации, т.е. самого изображения, используются свойства приемника, которым в случае видеоизображений обычно является зрительная система человека.

В задачах компрессии видеоданных оригинальное изображение, поступающее на вход видеокомпрессора, рассматривается как массив данных

отсчетов яркости для трех цветовых каналов(¿,],г), Хс(г,у,г), 1В{1,],1). По

типу используемых преобразований, применяемых к оригинальным изображениям, современные алгоритмы компрессии можно разделить на две группы:

1.Алгоритмы, основанные на представлении оригинального изображения в виде регулярной доменной структуры. Осуществляют компрессию за счет перераспределения энергии изображения внутри доменов (на основе дискретного косинусного преобразования (ДКП), на основе вейвлет преобразования (ДВП)) и адаптивное квантование на различное число уровней в зависимости от энергии каждой компоненты, а также кодирования межкадровой разности на основе данных движения каждого домена.

2.Алгоритмы, использующие представление оригинального изображения в виде набора отдельных эталонных фрагментов, адаптированных к соответствующим объектам, составляющим кадр изображения. В данном

случас компрессия может осуществляться за счет кодирования межкадровой разности набором фиксированных преобразований над моделями объектов, требующих для своего представления меньшего объема данных.

Методы компрессии второй группы позволяют более полно учитывать свойства изображения и получать большую степень компрессии при сохранении визуального качества восстановленного изображения. Однако, применение данных методов к любому типу изображений часто затрудняется наличием большого количества разнообразных объектов, составляющих структуру кадра. Таким образом, для компрессии параметров межкадровой разности требуется наличие большой базы данных возможных шаблонов объектов в кадре, а также разработки алгоритмов высокой сложности, позволяющих определить тип объекта в кадре и провести адаптацию шаблона к свойствам объекта в кадре изображения.

В качестве пути улучшения работы алгоритмов компрессии видеоизображений в работе рассматривается сегментация кадра изображения с целью группировки пикселей по признаку их принадлежности к объектам кадрового пространства и использование априорно известных параметров каждой группы для повышения эффективности предсказания локальных смещений и кодирования межкадровых различий в частности с использованием трехмерных моделей для представления объектов в кадре.

Вторая часть раздела посвящена вопросам эффективности восприятия трехмерных объектов зрительной системой человека. Необходимость детального анализа свойств зрительной системы обусловлена тем, что в рассматриваемой в диссертационной работе области применения декодированных изображений, последние предназначены для визуального восприятия человеком. В разделе представлен анализ свойств зрительной системы человека при восприятии изображений трехмерных сцен и её сравнение с моделью идеального наблюдателя, реализованной в виде компьютерной программы. Анализ проводился на основе экспериментальных данных, полученных в результате измерения коэффициента эффективности зрительной системы человека, который определяется следующим образом:

з

где Ек - пороговые значения энергии изображения для идеального

наблюдателя и человека-наблюдателя соответственно, которые обеспечивают правильное опознавание изображения с одной и той же вероятностью Р

Результаты исследований, полученные в экспериментах, показали то, что отсутствие априорной информации о ракурсе предъявляемого для опознавания объекта, заметно снижает величину коэффициента эффективности, и что с увеличением уровня шума коэффициент эффективности уменьшается. Кроме того, было найдено, что при наблюдении изображений объектов, легко запоминающихся зрителю, коэффициент эффективности оказывается выше, чем в случае наблюдения сложных трудно запоминающихся в деталях объектов.

По результатам экспериментов было установлено, что коэффициент эффективности зрительной системы представляет собой очень малую величину, что указывает на то, что зрительная система очень неполно использует информацию, заложенную в изображении. За счет устранения неиспользуемой зрительной системой информации существует возможность более эффективной компрессии оригинального изображения без потери визуального качества.

Наиболее значимыми факторами при восприятии трехмерных объектов являются искажения формы и текстуры. Для определения точности их представления нами была проведена серия экспериментальных исследований.

В процессе экспериментального исследования восприятия формы трехмерных объектов зрительной системы были получены параметры пороговых значений для искажений формы трехмерных моделей различного характера, наиболее важными с точки зрения компрессии среди которых является искажение, обусловленное разряжением плотности полигональной сетки. Установлены пороговые значения границ для величины плотности сетки на примере модели человеческой головы.

В зависимости от вида искажений выявляется существенное различие между значениями пороговых относительных среднеквадратичных расстояний между оболочками искаженного и неискаженного объектов. Исследования, при которых в трехмерные объекты вносились как распределенные по поверхности объекта искажения, так и локальные, позволили прояснить природу этого феномена, заключающуюся в том, что зрительная система намного более чувствительна к локальным искажениям объекта, чем к распределенным искажениям.

Ряд экспериментов, позволяющих выявить степень влияния конкретной реализации текстуры опознаваемого объекта на величину коэффициента эффективности показал, что при опознавании реальных трехмерных объектов, как правило, имеющих текстуру, зрительная система человека не использует информацию, заключенную в конкретной реализации рисунка текстуры. Полученный результат говорит о том, что зрительная система при опознавании трехмерных объектов не использует информацию, заключенную в конкретной реализации рисунка текстуры. Но, как следует из проведенных дополнительных экспериментов, она использует такие ее статистические характеристики, как плотность вероятности первого порядка и коэффициент автокорреляции.

Второй раздел посвящен рассмотрению принципов, положенных в основу работы предложенного в диссертационной работе метода компрессии видеоданных. Рассмотрены основные этапы работы предложенного алгоритма и обозначена область его применения.

Область применения исследуемого алгоритма - компрессия видеоданных с априорно известными типами объектов и характером их движения (изменениями параметров) в кадре. За счет разделения изображения кадра видеопоследовательности на отдельные объекты, появляется возможность осуществлять компрессию видеоизображения с учетом характерных свойств, присущих каждому объекту в кадре, что позволяет повысить величину коэффициента компрессии без существенной потери качества результирующего изображения.

-9В диссертационной работе рассматривается применение предложенного метода в области видеотелефонии и видеоконференций. Особенностью подобных видеоизображений является то, что объекты, находящиеся в кадре, представляют собой фоновое изображение и изображение человека или нескольких людей, а движение в кадре представляет собой перемещение изображения человека по полю кадра и изменение мимики его лица. Трехмерная модель соответствует форме человеческой головы. Перемещение характерных элементов описывают мимику говорящего. В случае изображения человеческого лица характерными элементами являются антропометрические точки лица.

Компрессия заднего плана может быть реализована на базе алгоритмов JPEG или MPEG в зависимости от того, является ли задний план статичным или динамичным. Для компрессии объектов переднего плана в диссертационной работе предложен метод, использующий перенос параметров объекта в кадре и информации о его движении на трехмерную модель, представляющую собой полигональный шаблон, соответствующий по своим характеристикам оригинальному объекту в кадре, и дальнейшее кодирование переднего плана векторами анимации адаптированной модели.

Алгоритм кодирования видеопоследовательности включает в себя обнаружение объекта в кадре и локализацию характерных элементов, адаптацию 3D модели к параметрам объекта в кадре, трассировку движения объекта и его характерных элементов, кодирование параметров структуры и движения модели и изображения фона. Алгоритм декодирования осуществляет

декодирование параметров структуры и движения модели и изображения

фона,

построение 3D модели в соответствии с положением объекта в кадре, текстурирование 3D модели,

совмещение модели с фоном, соответствующим заднему плану видеоизображения.

Для передачи движения в первом кадре видеопоследовательности выносится решение о присутствии требуемого объекта в кадре, определяется его положение и выделяются характерные инвариантные элементы объекта, определяющие его свойства. В случае лица такими точками являются антропометрические точки.

Следующей этапом предлагаемого метода является правильная инициализация базовой трехмерной модели в кадре, т.е. адаптация полигональной сетки модели к форме исходного объекта и пространственное размещение модели в соответствии с положением оригинального объекта в кадре.

В общем случае проблему инициализации можно представить следующим образом: пусть В - (V; F) - полигональный триангулированный шаблон из N-вершин, представляющий трехмерную модель объекта, где у = | набор вершин и

F = {п,,п2,пз) набор граней модели. В' = (У; F') - шаблон В, модифицированный в

соответствии с формой объекта в кадре видеопоследовательности. Преобразование В в В' может быть представлено следующим образом:

B'~G{L{B))=B(V,p),

где Ь - локальная трансформация полигонального шаблона, б - глобальная трансформация шаблона, р - параметры всего объекта и его отдельных элементов.

Под глобальной трансформацией полигонального шаблона мы понимаем размещение в кадре адаптированной по форме полигональной модели в соответствии с положением оригинального объекта в кадре. Локальная трансформация полигонального шаблона позволяет адаптировать базовую модель к форме оригинального объекта. Очевидно, что локальная трансформация в общем случае не будет одинаковой для всех вершин V модели В, а будет зависеть от особенностей формы оригинального объекта в кадре и расположения его характерных элементов. Применение локальной трансформации к базовому трехмерному шаблону позволяет нам получить персонифицированную (адаптированную к реальному объекту) трехмерную модель.

На следующем этапе на 30 модель накладывается текстура, представляющая собой битовую карту с изображением объекта, находящегося в кадре последовательности.

Для передачи (сохранения) информации о глобальном движении достаточно определить векторы перемещения центра модели относительно координатных осей и углы поворота модели. Для передачи локального движения необходимо передавать данные об изменении положения каждой вершины полигональной сетки. Для уменьшения объема передаваемых данных передаются векторы движения не для всех вершин, а только для вершин, соответствующих характерным элементам объекта. Положение остальных вершин модели вычисляется путем взвешенного суммирования векторов анимации вершин, соответствующих основным антропометрическим точкам с весовыми коэффициентами, зависящими от свойств объекта.

При воспроизведении ЗБ модели, осуществляется её проекция на плоскость кадра с изображением заднего плана.

В третьем разделе рассматриваются вопросы локализации лица и его отдельных элементов в кадре видеопоследовательности. Для адаптации шаблонной трехмерной модели к объекту требуется вынести решение о его наличии в кадре, получить данные о его положении, вычислить параметры формы и текстуры лица и определить расположение основных антропометрических точек, данные о перемещении которых позволят описать мимику лица.

В первой части раздела проведен анализ современных алгоритмов локализации лиц и выработаны основные критерии, определяющие выбор метода сегментации для исследуемого алгоритма. К таким критериям относятся быстродействие алгоритма, определяющее возможность работы в реальном времени, необходимость точного определения положения антропометрических точек, возможность определения параметров формы по первому кадру изображения и возможность дальнейшего уточнения их положения в последующих кадрах. Также определен ряд допущений, позволяющий упростить алгоритм сегментации. К ним относятся фиксированное положение головы объекта в кадре на этапе локализации, который должен быть обращен лицом в сторону камеры (в фас), равномерная освещенность лица, отсутствие объектов, заслоняющих лицо.

В качестве признака, определяющего наличие лица в кадре и, позволяющего провести сегментацию, в работе выбрана цветовая характеристика изображения. Оптимальным цветовым пространством при построении маски лица является пространство YCbCr Главным достоинством работы в YCbCr пространстве является то, что мы ограничиваем влияние яркостной компоненты изображения на дальнейшую обработку кадра. В RGB пространстве каждая компонента характеризуется своей яркостью, а в случае YCbCr пространства яркость изображения описывается только компонентой У, а Сг и СЬ составляющие являются независимыми от яркости.

Опираясь на данные экспериментальных исследований, проведенных на группе изображений лиц, определены оптимальные значения порогов цветоразностных компонент, на основании которых строится бинарная маска, соответствующая изображению лица.

Для удаления областей, попавших в границы цветовых интервалов, но не принадлежащих изображению лица (например, другие части тела или элементы одежды), дополнительно производится фильтрация по признаку формы и исключение из рассмотрения тех областей маски, соотношение сторон которых априорно не соответствует геометрическим параметрам лица.

В тех областях изображения, которые после первого этапа оказались сегментированы как изображения лица, требуется определить форму лица и положение характерных элементов. Для этих целей в работе используется метод активных контуров.

На этапе локализации характерных элементов лица в качестве наиболее важных при построении мимики и наиболее устойчивых к изменениям внешних условий мы выбрали изображения глаз и рта. В этом случае, на начальном кадре изображения требуется равномерно распределить вершины контуров вокруг каждого из этих элементов. В исследовании использовано по шесть равномерно распределенных вершин вдоль контура для рта, по шесть вершин для глаз и семь вершин для контура лица. Для нахождения оптимального положения каждой из этих вершин, применяется вычисленный методом главных компонент собственный вектор для каждой вершины v,, извлекая их образцы из базы данных, составленной на этапе обучения. Для каждой вершины контура v( исследуется область вокруг её

предполагаемого положения, минимизируется ошибка разности относительно соответствующего собственного вектора.

В определении метода активных контуров, контур представлен как набор вершин v, = (*„;>,) Для ¡=0, ..., N-1, где х, и у,- х и у координаты i-й вершины.

Энергия контура, которая должна быть минимизирована, определяется следующим выражением:

гдс Еы - внутренняя энергия контура, обеспечивающая плавность его формы при

прохождении через вершины, £ - внешняя энергия, определяющая прохождение

контура через конкретные элементы на изображении.

Для вычисления £ используют приближение второй производной:

) = (/?,>,., -2У, +У1+1| + (1-Д-Х^-К, -2У, + у|+1|))

где Д=1, если у. - не является угловым узлом и Д=0, если является. В

представляет максимальное значение, которое принимает приближение второй производной.

Присутствие величины Еа1 позволяет обеспечить прохождение контура через характерные точки или контура на изображении. В работе был использован градиент интенсивности изображения вдоль контура от у, до и данные,

полученные при вычислении положения вершины методом главных компонент

где с2(х) = |х|3 - ' У = ФмТх> х=х-х, фм - подматрица матрицы главных

векторов для вершины у(, которая содержит М основных собственных векторов,

уе[0Д]. Пиксели, положение которых характеризуется минимальным значением

ошибки, рассматриваются как возможные кандидаты для вершины у,.

Для исследования алгоритма была разработана программа, реализующая поиск и сегментацию изображений лиц, полученных с различных источников. Исследование алгоритма проводилось на базе 50 фронтальных изображений лиц, размер нормированных изображений составил 200x350. Для определения эталонного положения узлов для каждого изображения была проведена ручная разметка. Наиболее подходящим критерием для оценки работы алгоритма является величина расстояния между положениями узлов, которое определил алгоритм в автоматическом режиме и истинным положением узла, определенным вручную.

В четвертом разделе рассмотрен алгоритм адаптации шаблонной трехмерной модели к реальному объекту в кадре видеопоследовательности и вопросы трассировки и передачи движения объекта в кадре видеопоследовательности, основанные как на анимации трехмерной модели в соответствии с мимикой и движением объекта в кадре, так и на методе ДКИМ.

Наличие априорных данных об объекте в кадре видеопоследовательности (голова говорящего человека в кадре) позволяет использовать в качестве точек, определяющих пространственную форму модели, антропометрические точки. Предлагаемый в работе алгоритм адаптации модели заключается в вычислении смещения вершин полигональной сетки шаблонной модели на основе информации о расположении антропометрических точек лица объекта в кадре видеопоследовательности. Для построения трехмерной формы в исследовании

используется модель с плотностью полигональной сетки в диапазоне 2700-3100 вершин на объект.

Первая часть раздела посвящена вопросам инициализации шаблонной модели в соответствии с положением объекта в кадре видеопоследовательности. Пусть В - (У; Е) - полигональный шаблон из А'-вершин, представляющий голову человека, где ^ = набор вершин и р - {л,,л2,л3} набор граней. Для вычисления величины

деформации шаблонной модели, требуется вычислить смещение с1п для каждой вершины такое, что проекция деформированного полигонального шаблона В', с набором вершин {?„ + (¡п , будет оптимально соответствовать изображению

объекта в кадре видеопоследовательности. Для вычисления величины адаптивного смещения вершин можно использовать два параметра:

1. Смещение вершин - Е1,

2. Регулирующий показатель - Ег.

Форма лица, адаптированная к оригинальному изображению У, может быть выражена следующим образом:

У'=У+Е!+<рЕг

где коэффициент ¡р <= [од] определяет влияние регулирующего показателя на модификацию модели и подбирается экспериментально.

Смещение вершин определяется следующим выражением:

У/=У + Е1 = У+Ра

где Р е /?3"™ - матрица первых т главных компонент, а = (а,,а2,...,ат)г ей" -коэффициенты главных компонент формы.

На этапе адаптации подразумевается, что для восстановления формы объекта на шаблонной модели отобраны Т характерных вершин, положение которых соответствует положению антропометрических точек на лице объекта в кадре. Величина смещения для остальных вершин полигонального шаблона вычисляется на основе коэффициента удаления от контрольной вершины по следующей формуле:

к

гДе - смещение контрольной вершины к адаптированной модели относительно эталонной, <р - коэффициент, позволяющий учитывать удаление вершины п от контрольной вершины к, и характеризующий уменьшение влияния данной контрольной вершины на деформируемую.

Проекция координат характерных вершин на оригинальное изображение КА"= БУк'+Т, где Т е К2' - вектор перемещения вершин, а 5 б К - коэффициент масштабирования.

1 /-1

1=1_■

1=1

По найденным значениям Т , Т и 5 вычисляется значение КЛ

X ' у л

На втором шаге вычисляется вектор коэффициентов главных компонент формы а:

Подставляя новое значение а в выражение +Рна, можно вычислить

новое значение для координат вершин антропометрических точек адаптируемой шаблонной модели.

Коэффициент формы а сводится к фиксированному значению за 8-10 итераций.

Для компенсации неравномерного распределения вершин по модели, необходимо добавить, регулирующий параметр Ег, который скомпенсирует большое смещение мевду соседними вершинами на полигональном шаблоне.

Егт= Ж-^Л.-^!2

Для генерации текстуры в работе использовалась ортогональная проекция оригинального изображения, соответствующая области лица на трехмерную модель. Для восстановления этой информации о текстуре на участках модели, скрытых от камеры используется алгоритм линейной интерполяции, который позволяет заполнить пустые области на основе текстурных данных из известных областей.

Во второй части раздела рассматриваются вопросы трассировки объекта в последующих кадрах и вычисления параметра смещения определяющего

правила движения модели и изменение её формы в соответствии с объектом в кадре. Для оценки движения в кадре видеопоследовательности ею целесообразно разделить на два типа: глобальное движение всего объекта и локальное движение антропометрических точек, определяющих мимику.

В диссертационной работе для определения глобального движения использована ошибка компенсации движения {ц/) для определения перемещения всего объекта в кадре видеопоследовательности вдоль вертикальной и горизонтальной сторон кадра.

>Ку |=Кг 2

¿у)= X (*о -Уй~])~Л-1 (*о-|' + Л,>'0-у + с1у] >

j=-Ry^=^tx

где / и /м - яркость пикселя в текущем и предыдущем кадре соответственно. Область поиска блока в новом кадре имеет размер НЪсхШу по вертикали и

горизонтали соответственно. (*„,>>„) координаты хну блока в предыдущем кадре. По полученным данным вычисляется средний вектор смещения объекта. Расчет значений углов поворота объекта осуществляется на основе информации о смещении осей лица объекта в кадре видеоизображения.

Для определения положения основных антропометрических точек в последующих кадрах видеопоследовательности требуется вычислить энергию контура аналогично тому, как это было сделано для первого кадра видеопоследовательности. Первое слагаемое суммы представляет собой величину градиента по периметру контура, а второе образец текстуры, взятый из предыдущего кадра последовательности в области, где был расположен узел контура. Выражение для вычисления внешней энергии контура примет следующий вид:

ЕМ= + (1" У Mv,)

Для переноса глобального движения на 3D модель вектор V'= умножается на матрицы аффинных преобразований с параметрами углов и смещений, полученных на этапе трассировки. Для переноса локального движения аналогичная операция проводится для вершин вектора у1, содержащего

информацию только о координатах антропометрических точек модели лица.

Для нахождения положения остальных вершин модели лица в работе предложен метод, использующий адаптивную сегментацию лица на гибкие области. И использование карт влияния контрольных вершин на соседние с ними области модели. Под термином "карта влияния" рассматривается набор коэффициентов, определяющих параметры перемещения вершин модели относительно движения контрольных вершин.

В качестве базового стандарта для представления данных модели в диссертационной работе выбран формат .obj .

Предложенный алгоритм кодирования анимации модели на основе векторов движения контрольных вершин на практике позволяет получить выигрыш в 3,5-100 раз относительно существующих алгоритмов. Эффективность предложенного алгоритма возрастает при работе с моделями сложной формы, характеризующихся высокой плотностью полигональной сетки. При использовании алгоритма контрольных вершин для компрессии данных анимации модели плотность полигональной сетки оказывает влияние на общий объем передаваемых данных лишь для коротких последовательностей. В случае длинных последовательностей (60 секунд и более) объем данных определяется в основном количеством контрольных точек модели и выравнивается для моделей различной степени сложности.

В третьей части раздела приводятся результаты экспериментального исследования работы предложенного алгоритма, а также алгоритмов ДКИМ и форматов OBJ и VRML. Показано, что эффективность алгоритмов ДКИМ и предложенный в работе алгоритм анимации контрольных вершин возрастает с увеличением длительности последовательности кадров.

Пятый раздел посвящен экспериментальному исследованию предложенного метода и алгоритмов в составе системы компрессии видеоизображений. Для исследования был отобран набор из нескольких видеопоследовательностей, удовлетворяющих условиям, сформулированным в начале работы. Исходные видеопоследовательности представляли собой изображения, взятые из различных источников видеосигнала. Для сравнения с исследуемым методом были отобраны следующие современные методы видеокомпрессии - Tiff, RAR, MJPG, MPEG2, Н264.

Файл видеопоследовательности, подвергнутый компрессии предложенным методом, включает в себя:

1. Изображение заднего плана, представленное в формате записи JPEG

2. Текстуру лица, представленную в формате записи JPEG

3. 3 D-мод ель объекта в кадре видеопоследовательности

4. Информацию о глобальном движении объекта и параметры движения основных антропометрических точек в каждом кадре

Результаты экспериментов представлены в таблицах 1 и 2:

Табл.1. Объем данных (в мегабайтах) для видеопоследовательностей 1 и 2 при использовании

Компрессия без потерь информации Компрессия с потерями информации

Неком Н.264

Длигель ность пресси рованн ый AVI файл TIFF Арифметич еское кодировали е (RAR) MJPEG (Quality 30% bitrate 1,2Мб/с) (Quality 30% bitrate 0,039Мб/ с) MPEG2 (bitrate 0,5Мб/с) Исследуе мый алгоритм

Последовательность 1

1сек 3,38 2,87 1,36 0,092 0,042 0,063 0,701

Юсек 33,7 29,2 14,1 0,89 0,39 0,69 0,738

бОсек 203 173,9 83,5 5,26 2,28 8,41 0,955

Последовательность 2

1сек 32 26,3 7,68 0,79 0,35 0,136 0,729

Юсек 324 265 75,2 7,92 3,42 3,58 0,766

бОсек 1944 1523 449,9 47,4 20,5 25,6 0,983

Табл.2. Величина PSNR для видеопоследовательностей 1 и 2 при использовании различных

Р БЖ для различных компрессоров

№ последоват елыюсти КОРЕв (С?иа1Пу 30% Ый^е 1,2Мб/с) Н.264 (С>иа1ку 30% Ы1ха1е 0,039Мб/с) МРЕ02 (ЬИпНе 0,5Мб/с) Исследуемы й алгоритм

1 37,66 31,39 32,03 35,47

2 39,62 33,77 33,14 29,95

Коэффициент компрессии предлагаемого метода, основанного на передаче параметров анимации модели, пропорционален длительности видеопоследовательности. Так как в заголовке файла исследуемого метода передается информация о параметрах ЗЭ модели и изображение заднего плана. В случае малой длительности видеопоследовательности данная служебная информация составляет большую часть файла. При увеличении длительности видеопоследовательности доля служебной информации снижается относительно, что приводит к росту коэффициента компрессии. Величина коэффициента компрессии, обеспечиваемого предложенным методом, лежит в диапазоне от 4,8 до 1977 раз в зависимости от длительности видеопоследовательности (длительность последовательностей в исследовании менялась в диапазоне от 1 до 60 сек.).

Также к достоинству предложенного метода можно отнести малую зависимость коэффициента компрессии от разрешения исходного видеоизображения. Так как объем данных, описывающих движение в кадре, определяется только количеством антропометрических точек лица, используемых для передачи мимики объекта, то при увеличении разрешения оригинального изображения увеличится только размер заголовка файла, в котором содержится информация об изображении заднего плана и текстуре объекта. Такое изменение в значительной степени скажется только на коротких видеопоследовательностях, в которых размер заголовка составляет значительную часть от общего размера файла.

Для исследуемого метода характерной оказалась зависимость величины PSNR от положения объекта в кадре видеопоследовательности. Величина РЯК'Я для исследуемого метода колеблется в пределах от 42 до 25 дБ в зависимости от положения объекта в кадре. Значения РБИИ для остальных методов в исследовании не имели такой жесткой зависимости от перемещения объекта . При значительных отклонениях положения головы объекта в кадре от первоначального значения Р5КЯ для исследуемого метода уменьшается. Данный факт возможно объяснить тем, что при построении модели использовалась информация с первого кадра изображения, в котором отсутствовала часть данных, касающихся формы и текстуры объекта в областях скрытых от камеры. Также при восстановлении изображения в работе не учитывалось расположение источников освещения относительно объекта в реальной сцене. Виртуальная модель освещалась заполняющим бестеневым источником белого цвета, который равномерно освещает модель со всех сторон.

- 18В заключении сформулированы основные результаты диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

В работе были получены следующие основные результаты:

1. Проведен анализ современных методов компрессии данных «без потерь» и

«с потерями информации» применительно к области сжатия видеоизображений реальных сцен с априорно известными типами объектов в кадре при условии обеспечения высокого качества результирующих изображений. На основе проведенного исследования были выявлены основные достоинства и недостатки существующих алгоритмов компрессии.

2. На основании анализа существующих методов компрессии предложен и

исследован метод, использующий априорную информацию о типе изображения и характере поведения объектов в кадре, для обеспечения степени компрессии, значительно превосходящую ту, которую позволяют получить известные методы. Предложенный метод основывается на замене изображения оригинального объекта на трехмерную модель, адаптированную по своим параметрам к исходному объекту, анимация которой описывается некоторым набором функций, отражающих поведение оригинального объекта в кадре видеопоследовательности.

3. Для определения параметров трехмерных моделей, проведена серия

экспериментов, направленных на исследование проблемы восприятия трехмерных объектов наблюдателем. Экспериментально определена необходимая точность представления полигональной сетки трехмерных моделей объектов различной формы. Проведена оценка чувствительности зрительной системы человека к различного рода искажениям модели, затрагивающим как геометрическую форму, так и параметры текстуры.

4. Показано, что дополнительная компрессия данных о параметрах модели

возможна за счет отказа от использования текстуры оригинального объекта, вместо которой может быть использована битовая карта, синтезированная по данным о статистических характеристиках текстуры исходного объекта.

5. Предложен и исследован алгоритм нахождения и определения параметров

лица в кадре видеоизображения, в основе которого лежит цветовая сегментация объекта и локализация основных антропометрических точек лица. Для определения параметров лица используется метод активных контуров.

6. Разработан алгоритм адаптации и трассировки движения шаблонной

трехмерной модели объекта к параметрам визуального объекта в кадре видеоизображения.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Мироненко Е.П. Алгоритм дифференциальной кодово-импульсной модуляции в задачах компрессии цифрового потока данных, описывающих движение 3D модели // журнал Известия вузов -Приборостроение, 2008 (в печати )

2. Н.Н. Красильников, Е.П. Мироненко Исследование погрешностей восприятия формы при наблюдении 3D объектов //Оптический журнал. - 2006. - Т. 73, № 5. - с. 18 - 24.

3. Н.Н. Красильников, Е.П. Мироненко, О.И. Красильникова Коэффициент эффективности зрительной системы человека при произвольных ракурсах наблюдения трехмерных объектов //Оптический журнал. - 2006. - Т. 73, № 10. - с. 63 - 68.

4. Мироненко Е.П. Влияние формы трехмерного объекта на формирование образа в коре головного мозга // Сборник докладов 8-й научной сессии аспирантов ГУАП. Технические науки. - СПб.: ГУАП, 2005,

5. Мироненко Е.П. Применение алгоритма дифференциальной кодово-импульсной модуляции при сохранении информации о движении и мимики 3D модели человеческой головы // Сборник докладов 9-й научной сессии аспирантов ГУАП. Технические науки. - СПб.: ГУАП, 2006,

6. Мироненко Е.П. Метод распознавания лица в задачах компрессии видеоизображений // Сборник докладов 10-й научной сессии аспирантов ГУАП. Технические науки. - СПб.: ГУАП, 2007,

7. Мироненко Е.П., Красильников Н.Н. Оценка точности восприятия трехмерных объектов наблюдателем// Материалы 4-ой международной конференции «Телевидение: передача и обработка изображений», СПб, 2005. С. 56-57.

8. Krasilnikov N.N., Mironenko Е.Р. Investigation of accuracy of 3D représentation of a 3D object shape in the human visual system // ECVP European Conférence on Visual Perception, Confia, Spain 2005

Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Тираж 100 экз. Заказ № 639.

Редакционно-издательский центр ГУАП 190000, г. Санкт-Петербург, ул. Б. Морская, 67.

Оглавление автор диссертации — кандидата технических наук Мироненко, Евгений Петрович

1. Методы и алгоритмы компрессии видеоданных. Восприятие изображений зрительной системой человека.

1.1. Современные методы и алгоритмы компрессии видеоданных.

1.2.Компрессия видеоданных на основе использования ЗО модели.

1.3.Эффективность восприятия трехмерных объектов зрительной системой человека.

1.4. Оценка погрешности восприятия формы объекта зрительной системой.

1.5.Оценка погрешности восприятия текстуры объекта зрительной системой.

1.6.Выводы по разделу.

2. Метод компрессии видеоданных, основанный на замене изображений объектов в кадре их трехмерными моделями

2.1. Модель изображения.

2.2.Использование ЗО модели для компрессии межкадровой разности

2.3.Выводы по разделу

3. Распознавание объектов в задачах компрессии видеоизображений.

3.1.Анализ современных алгоритмов распознавания объектов на примере изображений человеческого лица.

3.2.Использование цветовой сегментации изображения для локализации лица в кадре.

3.3.Метод активных контуров.

3.4.Адаптация метода активных контуров для задачи локализации характерных элементов лица.

3.5.Исследование алгоритма распознавания лица в кадре видеоизображения

З.б.Выводы по разделу.

4. Адаптация трехмерной модели к реальному изображению и представление данных анимации.

4.1. Анализ современных методов создания трехмерных моделей реальных объектов.

4.2.Адаптация формы 3D модели к форме оригинального объекта в исследуемом алгоритме компрессии

4.3.Трекинг движения и определение формы и положения модели в новых кадрах последовательности

4.4.Алгоритм трассировки характерных элементов объекта в кадре и определение векторов анимации модели

4.5.Передача (сохранение) информации о движении на основе контрольных вершин 3D модели.

4.6.Передача (сохранение) информации о движении по методу дифференциальной кодово-импульсной модуляции

4.7.Выводы по разделу

5. Экспериментальное исследование предложенных алгоритмов в составе системы компрессии видеоизображений.

5.1.Критерии сравнения алгоритмов компрессии видеоизображений

5.2.Методика проведения экспериментов и полученные результаты

5.3.Выводы по разделу

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Мироненко, Евгений Петрович

Актуальность темы

В настоящее время, в связи с широким распространением цифровой техники, быстро растет объем передаваемой и хранимой информации. Особенно это касается данных, относящихся к визуальной информации, наиболее широко используемой в различных сферах человеческой деятельности. Хранение визуальной информации требует больших объёмов памяти, а для ее передачи необходимо наличие каналов с высокой пропускной способностью.

Таким образом, одной из наиболее актуальных задач в области обработки видеоданных становится разработка и совершенствование методов компрессии этих данных.

Особенностью большинства современных алгоритмов компрессии видеоданных является то, что они разработаны для компрессии произвольных изображений. Вместе с тем, если тип изображеиий, для которых разрабатывается алгоритм компрессии, заранее известен, это обстоятельство может быть использовано для увеличения его эффективности. Другими словами, знание объектов, находящиеся в кадре, и способов их движения, дают возможность получить большую степень компрессии при сохранении необходимого качества изображения.

Целью работы является разработка и исследование алгоритма компрессии видеоданных, основанного на использовании априорной информации о структуре кадра видеоизображения и параметров объектов в кадре. Алгоритм включает в себя распознавание объекта в кадре видеопоследовательности, нахождение его характерных элементов и использование полученной информации для переноса на трёхмерную модель и её дальнейшей анимации в соответствии с движением объекта в исходной видеопоследовательности. Решение этой задачи особенно интересно для компрессии видеоданных в условиях ограниченной пропускной способности коммуникационных каналов.

Задачи исследования:

1. Анализ существующих методов компрессии видеоданных. Выявление недостатков этих методов, в случае компрессии потокового видео с априорно известными объектами в кадре при условии обеспечения малых потерь в качестве и отсутствия эффекта накопления ошибок преобразования при многократной обработке.

2. Исследование особенностей визуального восприятия трехмерных объектов и определение допустимых искажений при обеспечении высокого визуального качества.

3. Разработка и исследование эффективного алгоритма для компрессии видеоданных на основе использования ЗО модели, согласованного со зрительной системой человека.

4. Экспериментальное исследование предложенных алгоритмов и оценка их эффективности.

Методы исследования. Для достижения поставленной цели в диссертационной работе использовались методы цифровой обработки сигналов, теория дискретных сигналов, теория информации, математическая статистика, компьютерное моделирование.

Научная новизна:

1. Разработан и исследован метод компрессии видеоданных, основанный на замене изображений объектов в кадре их трехмерными моделями.

2. Проведен анализ эффективности применения современных методов компрессии видеоданных при обеспечении высокого визуального качества результирующих изображений.

3. Проведено экспериментальное исследование эффективности зрительной системы человека в условиях распознавания трехмерных тестовых объектов, алфавит которых задан и ограничен.

4. Определен уровень допустимых погрешностей для основных характеристик трехмерных объектов при их наблюдении.

Практическая ценность работы определяется тем, что предложенный алгоритм компрессии для видеоизображений с заранее определенными объектами в кадре позволяет получить больший выигрыш по сжатию, чем те, которые обеспечиваются известными методами компрессии движущихся изображений.

Положения, выносимые на защиту:

1. Метод компрессии видеоданных, основанный на замене изображений объектов в кадре их трехмерными моделями.

2. Алгоритм нахождения и определения параметров объектов в кадре видеоизображения

3. Алгоритм адаптации шаблонной трехмерной модели объекта к параметрам визуального объекта в кадре видеоизображения

4. Результаты исследования восприятия трехмерных объектов наблюдателем

Внедрение результатов работы. В учебном процессе Санкт-Петербургского государственного университета аэрокосмического приборостроения.

Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на VIII, IX, X научных сессиях ГУАП (г. Санкт-Петербург 2005, 2006, 2007), IV Международной конференции "Телевидение: передача и обработка изображений" ЛЭТИ (г. Санкт-Петербург 2005), IV Межвузовской конференции молодых учёных ИТМО (г. Санкт-Петербург 2007), ЕС\ГР (Европейская конференция зрительного восприятия) (2005).

Публикации. Материалы, отражающие основное содержание и результаты диссертационной работы, опубликованы в 8 печатных работах, из них 3 в журналах, входящих в список ВАК.

Заключение диссертация на тему "Метод компрессии видеоизображений, основанный на использовании априорной информации о структуре кадра"

5.3. Выводы по разделу

На основе алгоритмов, предложенных в предыдущих разделах диссертационной работы, был программно реализован метод компрессии видеоизображений, параметры и особенности которых были оговорены во втором разделе диссертационной работы.

1. Проведенные экспериментальные исследования предложенного метода для ряда тестовых видеопоследовательностей, полученных с различных источников видеосигнала, подтверждают его эффективность. Метод позволяет получить коэффициент компрессии, значительно превосходящий тот, что дают известные методы. В исследованиях была получены значения коэффициента компрессии в диапазоне 3-350 раз в зависимости от длительности последовательности и сложности модели.

2. Предложенный метод продемонстрировал высокую зависимость величины Р8ЫЯ от ориентации объекта. Изменение положения объекта относительно начального может менять (уменьшать) значение РЗИЕ*. в диапазоне до 10 дБ. Данный факт можно объяснить наличием малого количества информации о параметрах объекта, в областях, скрытых от камеры на этапе построения трехмерной модели. Устранение данного недостатка возможно за счет уточнения параметров текстуры в областях, скрытых от камеры на начальном этапе.

Заключение

В диссертационной работе были рассмотрены современные методы и алгоритмы компрессии видеоизображений, а также проанализированы особенности визуального восприятия трехмерных объектов зрительной системой человека. Проведено сравнение эффективности работы зрительной системы реального наблюдателя с идеальным, показавшее возможность компрессии изображений на основе учета свойств зрительной системы человека. Предложен и исследован метод компрессии видеоизображений, для видеопоследовательностей с априорно известными типами объектов в кадре, основанный на замене изображений объектов их трехмерными моделями.

По итогам работы можно сформулировать следующие новые научные результаты, выносимые на защиту:

1. Проведен анализ современных методов компрессии данных «без потерь» и «с потерями информации» применительно к области сжатия видеоизображений реальных сцен с априорно известными типами объектов в кадре при условии обеспечения высокого качества результирующих изображений. На основе проведенного исследования были выявлены основные достоинства и недостатки существующих алгоритмов компрессии. Основным недостатком, характерным для большинства современных алгоритмов, является отсутствие анализа содержания изображения в кадре для дальнейшего использования свойств визуального ряда при компрессии видеоданных. Проведение подобного анализа и разделение кадра видеоизображения на отдельные объекты (информация о каждом из которых в дальнейшем кодируется наиболее эффективным образом) позволяет значительно увеличить коэффициент компрессии при сохранении визуального качества исходного изображения.

2. На основании анализа существующих методов компрессии предложен и исследован метод, который в отличие от известных, используя априорную информацию о типе изображения и характере поведения объектов в кадре, обеспечивает степень компрессии, значительно превосходящую ту, которую позволяют получить известные методы. Предложенный метод основывается на замене изображения оригинального объекта на трехмерную модель, адаптированную по своим параметрам к исходному объекту, анимация которой описывается некоторым набором функций, отражающих поведение оригинального объекта в кадре видеопоследовательности. К достоинствам предложенного метода можно отнести также возможность работы в реальном времени и в полностью автоматическом режиме. Метод может быть вписан в стандарт MPEG 4.

3. Для определения параметров трехмерных моделей, используемых в предложенном методе, в работе была проведена серия экспериментов, направленных на исследование проблемы восприятия трехмерных объектов наблюдателем. В результате экспериментальных исследований найдена необходимая точность представления полигональной сетки трехмерных моделей объектов различной формы (в частности для моделей человеческой головы, используемых в исследуемом алгоритме). Проведена оценка чувствительности зрительной системы человека к различного рода искажениям модели, затрагивающим как геометрическую форму, так и параметры текстуры.

4. Показано, что дополнительная компрессия данных о параметрах модели возможна за счет отказа от использования текстуры оригинального объекта, вместо которой может быть использована битовая карта, синтезированная по данным о статистических характеристиках текстуры исходного объекта. Построение битовой карты возможно на этапе декодирования видеоданных. В этом случае увеличение коэффициента компрессии возможно за счет того, что передача статистических характеристик текстуры потребует меньшего количества двоичных единиц кода, чем передача самой текстуры.

5. Предложен и исследован алгоритм нахождения и определения параметров лица в кадре видеоизображения, в основе которого лежит цветовая сегментация объекта и локализация основных антропометрических точек лица. Для определения параметров лица используется метод активных контуров.

6. Разработан алгоритм адаптации шаблонной трехмерной модели объекта к параметрам визуального объекта в кадре видеоизображения, основанный на методе главных компонент.

Практическую ценность работы иллюстрирует высокий коэффициент компрессии, обеспечиваемый предложенным методом. Реализованный программно, метод позволяет получить значительный выигрыш (3-350 раз) при компрессии видеоизображений, соответствующих параметрам, определенным в работе, например, для изображений видеоконференций. Для реализации алгоритма и написания программ для проведения экспериментальных исследований были использованы среды программирования C++Builder и Delphi. Представление трехмерных объектов реализовывалось средствами графической библиотеки Open GL. В качестве программ 3D моделирования были использованы программные пакеты Maya и Poser.

Помимо компрессии данных, предлагаемый метод позволяет получить дополнительные параметры видеоизображения, отсутствовавшие в оригинальной последовательности. К таким параметрам можно отнести значение альфа канала и карты глубины для изображения оригинального объекта. Данные параметры могут быть использованы при дальнейшей обработке видеоизображения, например, при маскировании объекта, замене фона оригинальной видеопоследовательности.

Подходы и методы, предложенные в данной работе, могут эффективно применяться как в задачах компрессии видеоизображений, так и в других задачах обработки видеоизображений. о

Библиография Мироненко, Евгений Петрович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Прэтт У. Цифровая обработка изображений. М.: Мир. T.l, Т.2, 1982.

2. Красильников Н.Н. Цифровая обработка изображений М: Вузовская книга, 2001.

3. Ватолин Д., Ратуншяк А. и др. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео -М: Диалог-МИФИ, 2002.

4. Ватолин Д. Алгоритмы сжатия изображений. М.: Диалог-МГУ, 1999.

5. Salomon D. Data Compression: The Complete Reference, New York, NY, Springer-Verlag, 2000.

6. Forchheiiner R., Fahlander O., Kronander T. "Low bit-rate coding through animation" // Proc. International Picture Coding Symposium PCS'83, Mar. 1983, p. 113-114.

7. Aizawa K., Huang T. Model-based image-coding: Advanced video coding techniques for very-low bit-rate applications // Proceedings of IEEE, 83(2), February 1995, p. 259-271.

8. Aizawa K., Harashima H., and Saito T. Model-based analysis synthesis coding system for a person's face. // Signal Processing: Image Communication, Vol. 1, № 2, Oct. 1989.

9. Welsh W. J., Scarby S., Brigant E. Model-based coding of videophone images. // IEEE Colloquium on Realistic 3D Image Synthesis, London, 1990, p. 13-18.

10. Welsh W.J., Model-based coding of moving images at very low bit rates. // Proc. Int. Picture Coding Symp., Stockholm, Sweden, 1987.

11. Li H., Low Bitrate Image Sequence Coding, Ph.D. Thesis, Linlcoping, 1993

12. Li H., Roivainen P., Forchheimer R. 3D motion estimation in model-based facial image coding. // IEEE Trans. Pattern Analysis and Machine Intelligence, 15(6), June 1993, p. 545-555.

13. Pearson D. Texture mapping in model-based video coding. I I Proc. IEEE, vol. 83, no. 6, 1995, p. 829-906.

14. Pearson D., Developments in model-based video coding. // Signal Processing: Image Communication, 2(4), 1990, p. 892-906.

15. Musmann H.G., Hotter M., Ostermann J. Object-oriented analysis-synthesis coding of moving images. // Signal Processing: Image communication, 1(2), 1989, p. 117-138.

16. Hill A., Taylor С J., Cootes T.F. Object Recognition by Flexible Template Matching using Genetic Algorithms. // 2nd European Conference on Computer Vision, Santa Margherita Ligure, Italy, May 1992, p. 852-856.

17. Wiskott L. Labeled Graphs and Dynamic Link Matching for Face Recognition and Scene Analysis, Ph.D. thesis, Ruhr-Univerisyt at Bochum, 1995.

18. Turk M. A., Pentland A. P. Face Recognition Using Eigenfaces. // Proc. Of IEEE Conf. on Computer Vision and Pattern Recognition, June 1991, pp. 586-591.

19. Yang M., Kriegman D., Ahuja N. Detecting Faces in Images: A Survey. // IEEE, PARMI, vol 24, no. 1, January, 2002.

20. Cootes T.F., Edwards G.J., Taylor C.J. Active Appearance Models. // Proc. European Conference on Computer Vision 1998 (H.Burkhardt & B. Neumann Ed.s). Vol. 2, Springer, 1998 , p. 484-490.

21. Koenen R., editor, Overview of the MPEG-4 Standard, International Organisation for standartisation ISO/TEC JTC1/SC29/WG11 N4668 Coding of moving picturies and audio, 2002.

22. ISO/ffiC JTC1/SC29/WG11, Coding of Moving Pictures and Audio: MPEG-4 Video Verification Model version 18.0, JTC1/SC29AVG11 N3908, Pisa, January 2001.

23. Аврамова О.Д. Язык VRML. Практическое руководство Диалог-МИФИ, 2000.

24. Sutherland N.S. The representation of three-dimensional objects. // Nature, V. 278, 1979, p. 395-398.

25. Barlow H.B. The efficiency of detecting changes of density in random dot patterns // Vision Research, 1978, Vol. 18, p. 637-650.

26. Barlow H.B., Reeves B.C. The versatility and absolute efficiency of detecting mirror symmetry in random dot displays // Vision Research, 1979, Vol. 19, p. 783-793.

27. Barlow H.B. The absolute efficiency of perceptual decision// Philosophical Transactions of the Royal Society, London B, 1980, 290, p. 71-82.

28. Красильников H.H., Мироненко Е.П., Красильникова О.И. Коэффициент эффективности зрительной системы человека при произвольных ракурсах наблюдения трехмерных объектов //Оптический журнал. 2006. - Т. 73, № 10. - с. 63 - 68.

29. Марр Д. Зрение.-М.: Радио и связь. 1987. 400 с.

30. Красильников Н.Н., Мироненко Е.П. Исследование погрешностей восприятия формы при наблюдении 3D объектов. // Оптический журнал Том 73, № 5, 2006

31. Красильников Н.Н., Шелепин Ю.Е., Красильникова О.И. Применение принципов оптимального наблюдателя при моделировании зрительной системы человека // Оптический журнал. 1999. - Т. 66, № 9. - с. 17 -24.

32. Прэтт У.К., Фожра О.Д., Гагалович А. Применение моделей стохастических текстур для обработки изображений // ТИИЭР, 1981. Т. 69. №5. с. 54-64.

33. Красильников Н.Н., Красильникова О.И., Шелепин Ю.Е. Исследование эффективности зрительной системы человека при опознавании динамических изображений // Физиология человека, 2003, Т. 29. № 2, с. 5-10.

34. Красильников Н.Н., Шелепин Ю.Е., Красильникова О.И.

35. Красильников Н.Н., Красильникова О.И. Исследование коэффициента эффективности зрительной системы человека в пороговых условиях наблюдения динамических изображений // Автометрия 2003, Т. 39. №4, с. 21 -30.

36. Марр Д. Зрение (информационный подход к изучению представления и обработки зрительных образов). -М.: Радио и связь, 1987, 400с.

37. Красильников Н.Н., ПГелепин Ю.Е., Красильникова О.И. Фильтрация в зрительной системе человека в условиях порогового наблюдения //Оптический журнал. 1999. - Т. 66, № 1. - с. 5 - 14.

38. Красильников Н.Н. Теория передачи и восприятия изображений. -М.: Радио и связь, 1986, 246 с.

39. Burgess A., Wagner R., Jennings R., Barlow H. Efficiency of human visual signal discrimination// Science, 1981, Vol. 214, p. 93-94.

40. Yao Z. Initialization of Model Based Coding, Department of Applied Physics and Electronics Umea University 2003

41. Евсеев Г. МауаЗ: Трехмерная графика и визуализация -М.: «Десс Ком», 2001. 448 с.

42. Фокс А., Пратт М. Вычислительная геометрия. -М.: Мир, 1982

43. Heisele В., Но P., Poggio Т. Face recognition with support vector machines: global versus component-based approach. // Proc. 8th International Conference on Computer Vision, volume 2, Vancouver, 2001, p. 688-694.

44. Глазунов А. Компьютерное распознавание человеческих лиц // Открытые системы., №3, 2000.

45. Daughman J. Face and Gesture Recognition: Overview И IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19, 1997, p. 675-676.

46. Kass M., Witkin A., Terzopoulos D., Snakes: Active Contour Models, // International Journal of Computer Vision, Vol. 1, No. 4, 1988, p. 321-331.

47. Amini A., Weymouth Т., Jain R Using Dynamic Programming for Solving Variational Problems in Vision, // IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 12, No. 9, September 1990.

48. Рабинер JI.P. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор, // Труды ИИЭР, т. 77, № 2, февраль 1989.

49. Rowley Н. A., Baluja S., Kanade Т., Neural network-based face detection, // IEEE Trans. Pattern Anal. Mach. Intell. 20, January 1998

50. Benson K. Television Engineering Handbook. McGraw-Hill, Inc., 1986

51. Телевидение: Учебник для вузов, под ред. Джаконии В.Е. -М.: Радио и связь, 2000. 640 с.

52. Маргулис Д. "Photoshop для профессионалов, классическое руководство по цветокоррекции". 4-е издание / Пер. с англ. —М.: «Интерсофтмарк», 2003.

53. Гонсалес Р., Вудс Р. Цифровая Обработка Изображений -М.: Техносфера 2005.

54. Мироненко Е.П. Метод распознавания лица в задачах компрессии видеоизображений // Сборник докладов 10-й научной сессии аспирантов ГУАП. Технические науки. СПб.: ГУАП, 2007

55. Craw I., Costen N., Kato Т., Robertson G., Akamatsu S. Automatic Face Recognition: Combining Configuration and Texture, International Workshop on Automatic Face- and Gesture-Recognition, 1995.

56. Geiger D., Gupta A., Costa L. A., Vlontzos J. Dynamic programming for detecting, tracking, and matching deformable contours, // IEEE Trans, on PAMI, vol. 17, March 1995.

57. Rao C.R. The Use and Interpretation of Principal Component Analysis in Applied Research, 1964.

58. Krasilnikov N.N., Mironenko E.P. Investigation of accuracy of 3D representation of a 3D object shape in the human visual system // ECVP European Conference on Visual Perception, Coruna, Spain 2005

59. Ascension Technology Corporation. Motion Star. // http://www.ascensiontech.com/products/motionstar.php.

60. Meta Motion. Motion Captor. // http://www.metamotion.com/captor/motioncaptor.htm.

61. Scharstein D., Szeliski R. A taxonomy and evaluation of dense two-frame // IEEE Transactions on Computers C 23, 1974, p. 84 - 87.

62. Hartley R. I., Zisserman A. Multiple View Geometry, Cambridge University Press, 2000.

63. Brand M. Morphable 3D models from video. // Proc. IEEE Conf. on Computer, 12(3), 1996, p. 364-368.

64. Torresani L., Yang D. B., Alexander E. J., Bregler C. Tracking and modeling non-rigid objects with rank constraints. // Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 2001, p. 493-500.

65. Sato K., Inokuchi S. Three-dimensional surface measurement by space encoding range imaging. // Journal of Robotic System, 1985, p.27-39.

66. Huang P. S., Zhang C. P., Chiang F. P. High speed 3-d shape measurement based on digital fringe projection. // Optical Engineering, 42(1), 2003, p.163-168.

67. Hall-Holt О., Rusinkiewicz S. Stripe boundary codes for real-time structured-light range scanning of moving objects. // Proc. Int. Conf. on Computer Vision, 2001, pages 359-366.

68. Cyberware Inc., Model 15 scanner. // http://www.cyberwcire.corn/.

69. Boyer K. L., Kale A. C. Color-encoded structured light for rapid active ranging. // IEEE Trans, on Pattern Analysis and Machine Intelligence, 9(1), 1987, p. 14-28.

70. Morita H., Yajima K., Sakata S. Reconstruction of surfaces of 3d objects by m-array pattern projection method. // Proc. Int. Conf. on Computer Vision, pages 468-473, 1988.

71. Shree K. Nayar, Masahiro Watanabe, and Minori Noguchi. Real-time focus range sensor. // IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(12), 1996, p. 1186-1198.

72. Nocedal J., Wright S. J. Numerical Optimization. Springer, 1999.

73. Мироненко Е.П., Красильников H.H. Оценка точности восприятия трехмерных объектов наблюдателем// Материалы 4-ой международной конференции «Телевидение: передача и обработка изображений», СПб, 2005. С. 56-57.

74. Мироненко Е.П. Влияние формы трехмерного объекта на формирование образа в коре головного мозга // Сборник докладов 8-й научной сессии аспирантов ГУАП. Технические науки. СПб.: ГУАП, 2005

75. Молодчик П., Оптические потоки // Компьютерное Обозрение №13 (232), 2000

76. Мироненко Е.П. Применение алгоритма дифференциальной кодово-импульсной модуляции при сохранении информации о движении и мимики 3D модели человеческой головы // Сборник докладов 9-й научной сессии аспирантов ГУАП. Технические науки. СПб.: ГУАП,