Разработка и исследование методов передачи стереотелевизионных сигналов по каналам со сжатием цифрового потока

Аносов, Александр Владимирович

Радиотехника, в том числе системы и устройства телевидения

автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Разработка и исследование методов передачи стереотелевизионных сигналов по каналам со сжатием цифрового потока

кандидата технических наук: Аносов, Александр Владимирович
город: Санкт-Петербург
год: 2006
специальность ВАК РФ: 05.12.04

Диссертация по радиотехнике и связи на тему «Разработка и исследование методов передачи стереотелевизионных сигналов по каналам со сжатием цифрового потока»

Автореферат диссертации по теме "Разработка и исследование методов передачи стереотелевизионных сигналов по каналам со сжатием цифрового потока"

На правах рукописи

АНОСОВ Александр Владимирович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ПЕРЕДАЧИ СТЕРЕОТЕЛЕВИЗИОННЫХ СИГНАЛОВ ПО КАНАЛАМ СО СЖАТИЕМ ЦИФРОВОГО ПОТОКА

Специальность 05.12.04 - Радиотехника, в том числе системы и устройства телевидения

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 2006

Работа выполнена в Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича.

Научный руководитель:

кандидат технических наук, доцент Коганер Сергей Эйзерович.

Официальные оппоненты:

доктор технических наук, профессор Полосин Лев Леонидович; кандидат технических наук Логунов Алексей Николаевич.

Ведущая организация:

Ленинградский отраслевой научно-исследовательский институт радио.

Защита диссертации состоится « ¿2^» ¿Л^ 2006 г. в

часов на заседании диссертационного совета Д 219.004.01 при Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича по адресу: 191186, Санкт-Петербург, наб. реки Мойки, д. 61.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича.

Отзыв на автореферат в двух экземплярах, заверенных печатью учреждения, просим направлять по вышеуказанному адресу на имя ученого секретаря диссертационного совета.

Автореферат разослан « 2006 г.

Ученый секретарь __ диссертационного совета ____

доктор технических наук, профессор/ В.Ю.Волков

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

. Актуальность работы. Стереоскопическая фотография, киносъемка, телевидение находят применение в тех, областях науки и техники, где требуется наибольшая наглядность и выразительность отображения визуальной информации. Этот способ дает зрителю представление о наблюдаемой картине, минуя сложные вычисления и графические построения, которые необходимы для изучения пространственной картины при наличии нескольких отдельных проекций. Стереоскопический метод исследования используется для измерения расстояния до удаленных объектов, определения их пространственного расположения, рассматривания мелких и микроскопических объектов, идентификации объектов и в других не менее важных целях.

До недавнего времени одной из главных причин, препятствующих переходу к стереоскопическому представлению видеоинформации, являлось несовершенство воспроизводящих устройств. В настоящее время эта проблема в значительной степени решена благодаря появлению матричных воспроизводящих устройств, построенных по принципу автостереоскопии. Они позволяют рассматривать стереоизображения невооруженным глазом, то есть для работы с ними не требуется дополнительных устройств сепарации.

В связи с этим на первый план выдвинулась задача передачи и хранения стереотелевизионных сигналов, которые по сравнению с обычными видеосигналами характеризуются удвоенным количеством информации. Исследования стереоскопических изображений показали, что существуют различные возможности для сокращения этого объема данных. Более того, использование компьютерной техники и методов цифровой обработки сигналов дало новые пути решения этой проблемы.

Существуют различные подходы к компрессии стереотелевизионных сигналов. С точки зрения эффективности сжатия методы с анализом параллакса изображений стереопары считаются лучше. Также интерес представляют различные методы, которые при некотором снижении степени сжатия отличаются высокой скоростью работы и простотой реализации.

Все способы предварительной обработки стереопары, которые используются в упомянутых методах, целесообразно использовать с методами компрессии цифровых сигналов. Это позволит добиться более эффективного сокращения избыточности сигналов стереоскопических изображений: пространственной, временной, визуальной и бинокулярной.

В этом плане представляют интерес стандарты группы MPEG: широко распространенный в цифровом телевещании MPEG-2 (13818-2) и появившийся

позднее MPEG-4 (14496-2). Поскольку последний называется одним из возможных кандидатов на смену MPEG-2, то задача создания методов компрессии стереотелевизионных сигналов, совместимых со стандартом сжатия цифровых сигналов MPEG-4, представляется актуальной.

Цель и задами работы. Целью диссертационной работы является развитие и совершенствование базовых методов передачи стереотелевизионных сигналов и создание на их основе новых методов, по-возможности совместимых со стандартами сжатия цифровых сигналов MPEG-2 и особенно MPEG-4.

Для достижения поставленной цели в работе решались следующие задачи:

1. Анализ существующих способов компрессии стереотелевизионных сигналов и разработка более эффективных методов компрессии, таких как метод с формированием разностного сигнала и группы методов с компенсацией параллакса.

2. Внедрение разработанных методов в кодер MPEG-4.

3. Экспериментальное исследование разработанных методов с целью их апробации при работе с реальными стереотелевизионными изображениями.

Методы исследований. Для решения поставленных задач в диссертационной работе использовались методы математического и гармонического анализа, методы статистического анализа и обработки изображений, аналитической геометрии и программирования на алгоритмических языках (Visual С++, Borland С++ Builder), экспертной оценки, а также имитационное моделирование в среде Matlab 6.5 и Mathcad. Объективная оценка качества видеоизображения выполнялась с помощью программы MSU Video Quality Measurement Tool. Для проверки эффективности разработанных алгоритмов выполнялось их внедрение в кодер стандарта MPEG-4 (XVID). Тексты программ, разработанных в ходе работы, приведены в приложениях к диссертационной работе.

Научная новизна. Теоретические результаты, данные экспериментальных исследований, являются новыми. Выводы по каждому разделу диссертационной работы содержат частные заключения, отмечающие элементы научной новизны. Автореферат обобщает результаты:

1. Показаны способы сокращения объема информации стереотелевизионных сигналов методами с формированием разностного сигнала и рядом методов с компенсацией параллакса.

2. Разработано и реализовано пять быстрых в вычислительном отношении методов компенсации параллакса с рядом модификаций.

3. В ходе эксперимента выделено три метода оценки параллакса: логарифмический поиск, метод на основе фазовой корреляции с иерархическим поиском, метод с предсказанием.

4. Предложена методика кодирования стереотелевизионных сигналов на основе кодера с открытым кодом, отвечающего стандарту МРЕС-4 (ХУШ).

Практическая ценность работы заключается, прежде всего, в том, что результаты проведенных в диссертационной работе исследований могут быть использованы при создании систем стереоскопического телевизионного вещания, вещания в сети Интернет, передачи стереотелевизионных сигналов по сетям мобильной связи, сжатия стереотелевизионных сигналов с целью архивирования."

Разработанная методика кодирования стереотелевизионных сигналов кодером МРЕО-4 (XVГО) может применяться для исследований этого процесса в практических и учебных целях. Кроме того, она может быть использована с любым кодером, использующим гибридную схему кодирования.

Реализация и внедрение результатов исследований. Ряд положений диссертационной работы нашли отражение в техническом проекте «Разработка профессионального оборудования, поддерживающего современные высокоэффективные стандарты компрессии», выполненном в рамках ОКР «Мультиканал-2-Л» в Ленинградском отраслевом научно-исследовательском институте радио (ЛОНИИР). Теоретические результаты диссертационной работы используются в курсах лекций, которые читаются на кафедре телевидения в видеотехники Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича (СПб ГУТ). Разработанные программные продукты включены в курс лабораторных работ.

Вклад автора в исследование проблемы. Основныенаучные положения, теоретические выводы и рекомендации, содержащиеся в диссертации, получены автором самостоятельно.

Апробация. Основные положения и результаты диссертационной работы докладывались и обсуждались на конференции международной выставки «Одиннадцатая международная Санкт-Петербургская видеоярмарка» (г. Санкт-Петербург, 2002 г.); на 10-й, 11-й и 14-й научно-технических конференциях «Современное телевидение» (г. Москва, 2002, 2003 и 2006 г.); на 54-й, 55-й, 56-й, 58-й научно-технических конференциях профессорско-преподавательского состава, научных сотрудников и аспирантов Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А., Бонч-Бруевича (г. Санкт-Петербург, 2002, 2003, 2004 и 2006 г.); на международной конференции «Телевидение: передача и обработка

изображений» (г. Санкт-Петербург, 2002 г.); на 8-й международной конференции по информационным сетям, системам и технологиям «МКИССиТ» (г. Санкт-Петербург, 2002 г.); на научных семинарах кафедры телевидения и видеотехники Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича.

Ряд методов и алгоритмов, предложенных в диссертационной работе, использовались при создании профессионального оборудования на основе современных высокоэффективных стандартов компрессии в ЛОНИИР.

Программный продукт, созданный в процессе выполнения диссертационной работы для анализа параллакса изображений стереопары, экспонировался на 10-й международной видеоярмарке «Санкт-Петербургская видеоярмарка» в 2001 г. (г. Санкт-Петербург, 2001 г.).

Публикации. Теоретические и практические результаты, представленные в диссертации, отражены в 12 печатных работах, список которых приведен в конце автореферата.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав с выводами по каждой из них, заключения, библиографического списка и шести приложений. Работа содержит 186 страниц машинописного текста, в том числе 152 страницы основного текста, включая 44 рисунка, 5 таблиц и библиографический список из 111 наименований.

Основные положения, выносимые на защиту:

1. Возможности сокращения избыточности стереотелевизионных сигналов с помощью алгоритмов формирования разностного сигнала и компенсации параллакса с оценкой их эффективности.

2. Разработанные быстрые методы определения параллакса стереоскопических изображений: логарифмический поиск, метод па основе фазовой корреляции с иерархическим поиском, метод с предсказанием па основе фазовой корреляции.

3. Методика кодирования стереотелевизионных сигналов на основе кодера, отвечающего стандарту MPEG-4 (XVID).

4. Результаты кодирования стереотелевизионных сигналов при помощи кодера стандарта MPEG-4 (XVID).

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснованы актуальность и практическая значимость темы диссертации, сформулированы основные цели и задачи исследования, а также положения, выносимые на защиту.

В первой главе освещаются некоторые необходимые понятия стереоскопии, затронута проблема воспроизведения объемных изображений, уделено внимание принципам стереоскопического зрения и факторам, оказывающим влияние на восприятие стереоэффекта. Выполнен анализ существующих способов компрессии стереотелевизионных сигналов. Кратко рассмотрен стандарт компрессии МРЕО-2, произведена сравнительная оценка техники компрессии стандарта МРЕС-4 с техникой предшествующего стандарта.

В настоящее время разработано большое число методов кодирования сигналов изображений стереопары (под стереопарой понимаются два изображения, полученные от левого и правого объективов снимающей камеры). Среди указанных методов можно выделить две группы:

1. методы с передачей ^компрессированных сигналов двух изображений стереопары;

2. методы, реализующие различного рода обработку сигналов изображений стереопары. Так, известны алгоритмы, основанные на использовании некоторых бинокулярных особенностей зрения, применяющие чересстрочное разложение, формирующие разностный сигнал изображений стереопары, оценивающие параллакс стереоскопических изображений, задействующие оптические устройства, как, например, в однообъективной системе стереоцветного телевидения. Все перечисленные методы призваны сократить объем информации, необходимой для воспроизведения объемного изображения.

Методы первой группы находят применение в различных замкнутых и специализированных системах передачи стереотелевизионных сигналов, где не предъявляют жестких требований к объему передаваемой информации, требуется повышенное качество объемного изображения на приемном конце и т.д. Такие системы не являются предметом рассмотрения в данной работе.

Для архивирования или передачи стереоскопического изображения, когда объем информации имеет немаловажное значение, используются методы второй группы. Их сравнительный анализ показал, что многие из них обладают такими недостатками, как большая вычислительная емкость, неустойчивый стереоэффект, малая глубина зоны стереоэффекта, утомляемость зрителя, снижение цветового контраста объемного изображения.

Методы, которым свойственны большинство из перечисленных недостатков, не рекомендуется использовать в современных условиях, когда требования к качеству видеоизображений постоянно растут. Необходима разработка методов компрессии стереотелевизионных сигналов, по возможности, свободных от указанных недостатков.

В связи с этими требованиями, в качестве основы были, выбраны следующие методы: метод с формированием разностного сигнала и метод с компенсацией параллакса^

В методе с формированием разностного сигнала находится разность сигналов изображений стереопары. Разностный сигнал несет информацию о пространственном расположении объектов • сцены. Таким образом, для получения исходных изображений необходима передача сигнала одного из изображений стереопары и разностного сигнала.

В сходной аналоговой стереоскопической системе один сигнал соответствовал одному кадру стереопары в цвете, второй сигнал представлял собой разность сигналов яркости двух изображений стереопары. Восстановленный на приемном конце второй кадр воспроизводился в черно-белом виде. Кроме того, разностный сигнал в этой системе ограничивался по полосе частот, что приводило к снижению стереоэффекта для мелких деталей. Эти ограничения были необходимы для обеспечения совместимости с существующей аналоговой системой телевидения и тем самым ограничивались возможности метода.

Применяя метод с передачей разностного сигнала с использованием известных алгоритмов компрессии цифровых сигналов, возможно преодолеть указанные недостатки.

В методе с компенсацией параллакса для формирования объемного изображения необходимо наличие одного из изображений стереопары, данные о векторах параллакса* и ошибке предсказания этих векторов. На основе этого набора информации возможно восстановление недостающего изображения стереопары.

При разработке методов компенсации параллакса были проанализированы существующие подходы к решению этого вопроса. Кроме того, рассматривались современные методы компенсации движения. Действительно, задачи компенсации движения и параллакса имеют много общего. Изображения левого и правого кадров стереопары отличаются незначительно и если их сопоставить, то можно заметить смещение проекций одноименных объектов. При условии, что оба объектива стереоскопической камеры находятся в горизонтальной плоскости, характер этого смещения — строго по горизонтали.

Поскольку изначально известно направление смещения, решение задачи компенсации параллакса упрощается по сравнению с компенсацией движения

Под термином вектор параллакса понимается величина смещения, которое имеет блок одного из изображений стереопары по отношению к подобному блоку другого изображения.

и сводится к нахождению максимально подобных блоков двух изображений по известному направлению. Очевидно, что с учетом этой поправки вычислительная емкость методов компенсации параллакса должна быть меньше, чем при использовании с той же целью методов компенсации движения, построенных на тех же вычислительных принципах и работающих в двух измерениях.

В то же время усложняется процесс поиска корреспондирующего блока, поскольку ракурс, с которого получены проекции стереоскопических изображений, различен. Как следствие, имеют место перспективные искажения. Дополнительные сложности могут возникать из-за различия в освещенности областей объектов, наблюдаемых разными объективами стереокамеры.

В процессе выбора методов компенсации движения для их возможного использования было рассмотрено четырнадцать методов. Из них отобраны только те, которые можно адаптировать для эффективной работы со стереоскопическими изображениями: логарифмический поиск с рядом модификаций, метод фазовой корреляции, метод поиска с предсказанием, поиск по ромбу. Остальные методы компенсации движения, не вошедшие в дальнейшее исследование, были отнесены или к неэффективным с точки зрения компенсации параллакса или к повторяющим алгоритмы работы других рассмотренных методов при выполнении поиска только по одной координате.

Метод с формированием разностного сигнала и методы оценки параллакса целесообразно использовать совместно с кодерами, отвечающим современным стандартам компрессии цифровых сигналов. Это позволяет добиться более эффективного сокращения избыточности стереотелевизионных сигналов и возможности внедрения разработанных методов в существующие системы вещания, архивирования и т.д.

Вторая глава посвящена разработке алгоритма сжатия стереотелевизионных сигналов с формированием разностного сигнала. Вводится понятие сигнала параллактических разностей. Он описывает, в основном, контуры объектов. Их сильная заметность объясняется резкими световыми переходами на границах объектов. С увеличением величины параллакса толщина контуров возрастает.

Динамический диапазон разностного сигнала оказывается в два раза выше динамического диапазона исходных сигналов. Для практического использования необходимо привести его в диапазон [0...255], для чего рекомендуется выбрать коэффициент компрессии 2 и поднять все уровни сигнала на 128.

В работе показано, что ошибка, которая в таком случае возникнет при

восстановлении одного из кадров стереопары, не внесет существенных искажений. Это объясняется уменьшением чувствительности глаза к изменению цвета и яркости контуров, а также мелких деталей изображения. Кроме того, ошибка такого рода будет характерна только для нечетных значений отсчетов исходного (с удвоенным динамическим диапазоном) разностного сигнала.

При выполнении сжатия разностного сигнала с использованием алгоритмов МРЕО-2 и МРЕО-4, необходимо предусмотреть использование специальной внутри кадровой матрицы спектрального взвешивания, отличной от матрицы при внутрикадровой компрессии. В ходе ее разработки учитываются частотные свойства разностного сигнала. В частности, обращается внимание на особенность стереоскопического восприятия: пространственное расположение объектов сюжета зритель воспринимает в основном по их вертикальным границам, диагональные границы имеют второстепенное значение.

В настоящей работе в качестве внутрикадровой матрицы спектрального взвешивания была принята матрица, предложенная в работах кафедры СПб ГУТ. Матрица спектрального взвешивания для процедуры межкадрового кодирования была оставлена без изменений.

В предложенной схеме кодирующего устройства, использующей кодер стандарта МРЕС-4, один из кадров стереопары кодировался независимо и составлял основной поток. Дополнительный поток образовывался компрессированным разностным сигналом. Благодаря такой схеме кодирования удалось в значительной степени сократить избыточность, присущую стереотелевизионным сигналам.

Основным достоинством метода с формированием разностного сигнала является его высокое быстродействие. Кроме того, разностный сигнал обладает заметно меньшей энтропией, чем исходные сигналы. Действительно, если предположить, что отсчеты сигнала яркости независимы, и каждый из них принимает значения х, = е с вероятностью р(х1), то согласно теории информации Шеннона, энтропия такой системы равна

256

(1)

Из (1) видно, что большая часть информации связана с теми исходами, которые маловероятны. Статистические данные свидетельствуют, что

вероятность появления нулевых и близких к нулю значений в разностном сигнале весьма велика, поэтому можно судить о его меньшей энтропии. Величина последней зависит от особенностей исходных сигналов стереоскопического изображения — чем больше крупных предметов, а значит и плавных изменений яркости, тем она меньше.

Была разработана программа для вычисления значений энтропии. Для трех исследованных сюжетов максимум относительной избыточности, по сравнению с исходными стереотелевизионными сигналами, достигает 29%. Это позволяет судить об эффективности метода с формированием разностного сигнала. Более детальные результаты исследования метода освещены в экспериментальной главе.

В третьей главе выполнена разработка методов сжатия стереотелевизионных сигналов с компенсацией параллакса. Они являются конкурентами метода, использующего разностный сигнал. Разность сигналов исходного изображения стереопары и полученного на основе оценки векторов параллакса содержит еще большее число нулевых и близких к нулю значений, чем в разностном сигнале. Значение энтропии такого сигнала будет также меньше, вследствие чего станет возможным еще более эффективное сжатие, чем в методе кодирования с формированием разностного сигнала.

Разработаны следующие методы компенсации параллакса, каждый из которых предложен с рядом модификаций: метод двойного поиска, логарифмический метод, двумерный логарифмический метод, метод фазовой корреляции, метод с предсказанием.

Метод двойного поиска строится на базе полного перебора, его отличие в том, что поиск ведется в ограниченных областях. Метод логарифмического поиска и двумерный логарифмический метод отличают простота реализации и сравнительно высокая результативность. Использование метода фазовой корреляции уже предлагалось для оценки величины параллакса. В настоящей работе были учтены все существующие в данном направлении наработки и предложена модификация этого метода - метод фазовой корреляции с иерархическим поиском.

Метод поиска с предсказанием построен на базе хорошо зарекомендовавшего себя метода предсказания движения, получившего название РМЧТАБТ. Ему свойственна высокая скорость функционирования. Это достигается за счет того, что для очередного кадра стереопары выполняется лишь уточнение в небольшой окрестности векторов параллакса, найденных для предыдущих кадров (с использованием модифицированного поиска по ромбу). Для первоначального определения векторов параллакса использовался разработанный метод фазовой корреляции, а для обеспечения

возможности отслеживания смены сюжета и быстрого движения в кадре был выбран метод с динамическим порогом, который строится на основе анализа статистики абсолютных разностей {SAD) последовательности кадров.

Эта величина претерпевает постоянные изменения по ходу сюжета (классификация очень приблизительная): самые большие величины связаны со сменой сцены, несколько меньшие значения наблюдаются при наличии быстрого движения в кадре, еще меньше - при высокой степени подобия соседних кадров. Поэтому любое предварительно заданное пороговое значение не может давать достаточно точную информацию о смене сюжета. Используя метод с динамическим порогом можно значительно повысить точность определения смены сюжета.

Пусть Bt — случайная величина, которая отражает величину SAD в г —м кадре; N — количество предыдущих кадров (так называемое «окно»). Если п — номер текущего кадра, то статистика SAD анализируется в интервале

j л-1

кадров [и — (N + l),« — l] Тогда, если т„ -— ^ ' Д — математическое

^ i—n—N—\

ожидание случайной величины SAD в окне анализа, а

п ^

<7„ = - > (Bt—m„) - среднеквадратическое отклонение этой

V l=n-N-1

величины, то пороговую функцию можно определить как

Т(п) = а- В„_, + b-m„+c-<j„, (2)

где а, Ь, с — константы, определяющие характер пороговой функции. Выбор их конкретных числовых значений возможен только опытным путем, поскольку увеличение значения Ь повышает порог срабатывания, что позволяет избежать ложного решения о смене сюжета при наличии быстрого движения. В то же время, смена одного сюжета на другой может быть пропущена из-за их схожей картины. Увеличение значения с позволяет точнее разделять быстрое движение и смену сюжета; величина а должна иметь небольшие значения, поскольку по величине Bi не всегда можно судить о смене сюжета.

Определение численных значений а, Ь, с выполняется в экспериментальной части диссертационной работы на основе анализа ряда реальных стереотелевизионных изображений.

В качестве области присваивания (блок, для которого определяется вектор параллакса) для разработанных методов рекомендовано использовать блок 8x8 или 16x16 пикселей. Это упрощает алгоритм сжатия, поскольку области присваивания такого размера соответствуют блокам, определенным в стандарте МРЕО-4. Рекомендуемый размер зоны анализа для изображения с разрешением 352x288 составляет 58^8 или 66x16 пикселей. Это обеспечивает обнаружение соответствующих точек объектов в диапазоне параллаксов от нулевого до максимально допустимого, при котором разность углов конвергенции и аккомодации не превышает 1°. Также в работе приводятся расчеты размера зоны анализа для других разрешений изображения.

Отдельный раздел посвящен теоретическому расчету необходимой вычислительной емкости разработанных методов. Результатом явилась количественная оценка объема операций, требуемых для поиска одного вектора параллакса. По этому критерию в порядке возрастания вычислительной емкости рассмотренные методы расположились в следующем порядке: метод с предсказанием, логарифмический метод, метод фазовой корреляции с иерархическим поиском, двумерный логарифмический метод, метод двойного поиска, метод полного перебора. Полученные результаты сопоставлены с данными экспериментальной оценки.

В четвертой главе выполняется экспериментальное исследование разработанных методов компрессии: метода с формированием разностного сигнала и методов с компенсацией параллакса. Проверяется работа предложенных алгоритмов совместно с кодером стандарта МРЕО-4, выполняется объективная и субъективная оценка полученных результатов.

Для оценки методов определения параллакса в среде Ма11аЬ была выполнена их программная реализация, которая позволила произвести визуальную оценку векторов параллакса, а также оценить методы по ряду объективных характеристик: отношению сигнал-шум энтропии

результата (Н) и времени выполнения вычислений, которое необходимо для анализа одной стереопары (/). Для Лб'Л'Л! сначала определялось его исходное значение между кадрами стереопары, а затем вычислялось его улучшение при использовании методов анализа параллакса. Время работы каждого метода сравнивалось со временем оценки стереопары методом полного перебора. За эталон Н было выбрано максимальное значение энтропии, которое при выбранной зоне анализа в 64 пикселя составляет 6 бит/элемент.

Выполнение программной реализации было разделено на две части: для статических и динамических стереоскопических сюжетов.

Первая часть исследований проводилась для шестнадцати статических цветных стереоскопических изображений. Каждое из них было оценено пятью

предложенными методами анализа параллакса. Затем полученные результаты усреднялись. По этим данным выносилось предварительное решение о дальнейших перспективах использования каждого из методов.

В результате было выяснено,; что метод двойного поиска не рекомендуется для практического использования. По показателю PSNR он показал низкие, значения, значительно уступая по этому параметру всем остальным методам.

Среди логарифмических методов можно выделить простой логарифмический метод. При высокой скорости работы он позволяет получить достаточно высокие значения близкие к лучшим, полученным в

эксперименте. Двумерный логарифмический метод дал удовлетворительные результаты: при большем времени анализа меньшие значения

Метод фазовой корреляции показал лучшие значения РБN11 и Н при сравнительно большом ■ времени оценки. Также нужно отметить, что полученные при использовании этого метода векторы параллакса достаточно точно отражают его реальное значение. Эта особенность выразилась в более низких значениях Н результата, по сравнению с другими методами.

Дальнейшие исследования метода фазовой корреляции показали, что уменьшить время анализа параллакса при сохранении высоких показателей Р8ЫЯ и Н можно совместным использованием метода фазовой корреляции и иерархического поиска. При этом время поиска и сравнимы с

результатами логарифмического метода, а Н- более чем на 40% меньше.

Окончательное решение о выборе того или иного метода принималось на основе теории выбора оптимальных параметров в задачах со многими критериями.

Таким образом, из всех методов после проведения исследований было выделено два: логарифмический и метод фазовой корреляции с иерархическим поиском. Дальнейший анализ этих методов проходил во второй части исследований.

Вторая часть исследований проводилась для ряда реальных цветных стереотелевизионных изображений, содержащих 1000 кадров. Каждое из них было оценено с целью определения параллакса одним из трех выбранных методов: логарифмическим, методом фазовой корреляции с иерархическим поиском и методом с предсказанием. Затем полученные результаты, как и на первом этапе исследований, усреднялись, и по этим данным выносилось решение о перспективах использования каждого из методов.

В ходе эксперимента было выполнено уточнение коэффициентов пороговой функции, используемой в методе с предсказанием для определения

смены сюжета и быстрого движения в кадре: а = — 1, Ь = 3, с-2. При полученных значениях все моменты смены сюжета были зафиксированы.

В результате оценки трех методов был выделен метод с предсказанием. По совокупности характеристик (PSNR, //, г) он превзошел результаты логарифмического метода и метода фазовой корреляции.

Время оценки параллакса, показанное методами в упомянутых экспериментах, оказалось пропорциональным рассчитанной вычислительной сложности алгоритмов, что подтвердило теоретический расчет.

Дальнейшее исследование было направлено на оценку возможности совместного использования разработанных методов с кодером стандарта \1PEG-l.

Экспериментальным путем показано, что кодирование разностного сигнала эффективнее кодирования сигнала исходного изображения: при повышении степени сжатия цифрового потока значение А&УЛ разностного сигнала убывает с меньшей скоростью, чем PSNR сигнала исходного изображения. Однако высокие степени сжатия разностного сигнала приводят к появлению цветовых искажений при восстановлении исходного кадра. В результате разностный метод при всех рассмотренных скоростях потока показал низкие результаты по сравнению с методами, использующими оценку параллакса. Его субъективная оценка не достигла отметки «хорошо».

Для анализа эффективности методов оценки параллакса было выполнено внедрение разработанных алгоритмов в кодер с открытым кодом, соответствующий стандарту МРЕв-4 (ХУГО). Предложена следующая методика кодирования стереотелевизионных сигналов:

1. На вход кодера подаются чередующиеся сигналы изображений стереопары.

2. В исходном коде кодера отключается адаптивный выбор типа кадра I,

Р или В. Это не позволит кодеру самостоятельно принимать решения о выборе типа кадра и жестко его определит. Таким образом, схема кодирования сигналов объемного изображения примет вид, показанный на рис. 1.

3. В модуле кодера, где в Рис. 1. К определению методики оригинальном исполнении происходит кодирования стереотелевизионных оценка движения в В-кадрах, заменяется сигналов исходная функция оценки движения на

Базовый поток

Дополнит, поток

\ / \ /

Время

методы оценки параллакса, разработанные в настоящей работе.

При указанном алгоритме действий все перечисленные изменения необходимо внести только в кодирующую часть кодека. Для декодирования стереоскопической видеопоследовательности подойдет стандартный декодер.

По показателю /-'Л'Л'Л в сравнении с оригинальным кодером логарифмический метод показал близкие результаты, которые лишь на 0.01-0.05 дБ ниже для всех рассмотренных скоростей сжатого цифрового потока (200, 300, 400 Кбит/с). При этом процесс кодирования сигналов стереоскопических изображений выполнялся примерно на 8% быстрее.

Метод фазовой корреляции с иерархическим поиском показал меньшие из полученных в этом эксперименте значения но скорость его работы

оказалась выше оригинального метода примерно на 12%.

Метод с предсказанием при скорости работы, превышающей скорость исходного метода примерно на 23%, показал значения РЗЛТ? ниже результатов исходного метода на 0.3-0.5 дБ.

Среднее время кодирования одного кадра для цветного изображения 352><288: исходный метод — 0.0120 с, логарифмический — 0.0110 с, метод фазовой корреляции с иерархическим поиском - 0,0105 с, метод с предсказанием - 0.0093 с, разностный метод - 0,0023 с.

Субъективная оценка результатов компрессии с использованием метода с предсказанием приближается к оценке исходного метода компенсации движения на всех исследованных скоростях сжатого цифрового потока. При этом ее значение не опускалось ниже отметки «хорошо», а при скорости 400 Кбит/с вплотную приближалось к «отлично». Логарифмический метод и метод фазовой корреляции с иерархическим поиском показали близкие значения оценок, которые превосходят значение «хорошо» при скорости потока от 300 Кбит/с.

В заключении приведены основные результаты, полученные в диссертационной работе:

1. На основе анализа способов оценки параллакса и методов компенсации движения в динамических изображениях разработаны методы компрессии стереотелевизионных сигналов: с формированием разностного сигнала и группа методов с оценкой параллакса. Показана возможность их совместного использования с кодером стандарта компрессии МРЕО-4. В этом случае эффективно сокращается избыточность, которая свойственна стереотелевизионным сигналам: пространственная, временная, визуальная и бинокулярная.

2. Выполнена оценка вычислительной емкости и исследование эффективности методов с компенсацией параллакса для статических и

динамических стереоизображений по трем характеристикам: отношению сигнал-шум, энтропии и времени работы. В результате проделанной работы были выявлены наиболее перспективные методы: логарифмический, фазовой корреляции с иерархическим поиском и метод с предсказанием.

3. Предложена методика кодирования стереотелевизионных сигналов с использованием разработанных методов и кодера МРЕО-4 (ХУГО). При этом внесение изменений в декодер не требуется.

4. Произведено количественное сравнение величины сжатия, которое обеспечивается разработанными методами при их совместном использовании с кодером МРЕО-4. Наиболее перспективным назван метод с предсказанием.

5. Анализ результатов объективной и субъективной оценки проведенного исследования подтвердил возможность сокращения избыточности сигналов объемных изображений с помощью разработанных методов.

6. Дальнейшее развитие предложенных методов видится в переходе к анализу величин параллакса стереоскопических изображений больше максимально допустимых значений. В случае обнаружения значений параллакса больше максимально допустимых, целесообразно искусственно их уменьшать до значений, исключающих возникновение эффекта двоения изображения при его рассматривании. В таком случае возрастет вычислительная емкость методов оценки параллакса, но появится возможность повысить качество объемного изображения.

7. Другой вариант развития методов компрессии стереотелевизионных сигналов представляется в использовании техники работы с видеообъектами, которую определяет стандарт МРЕО-4. Видеообъекты используются в основном для организации видеоконференций, в рекламе и различных интерактивных приложениях. Использование в этих областях стереоскопических изображений представляет немалый интерес. Тема эта мало изучена и представляет широкое поле деятельности для разработчиков.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

, - 1.. Аносов А.В. Применение современных стандартов компрессии для сжатия стереотелевизионных изображений // 54-я НТК: материалы / СПб ГУТ.

- СПб, 2002, - С. 75.

2. Аносов А.В. Особенности компрессии стереотелевизионных изображений в рамках стандарта MPEG-4 // 10-я НТК «Современное телевидение»: тез. докл. / МКБ «Электрон». - М., 2002. — С.62.

3. Аносов А.В. Интерактивная телевизионная система на основе стандарта компрессии MPEG-4 // Междунар. конф. «Телевидение: передача и обработка изображений»: тез. докл. / СПб ГЭТУ «ЛЭТИ». - СПб, 2002. -С. 18-20.

4. Аносов А.В. Стандарт MPEG-4. Сжатие стереоизображений по методу Incomplete 3D // 8-я Междунар. конф. «МКИССиТ»: сб. тр. / СПб ГУТ. - СПб,

2002.-С. 131-137.

5. Аносов А.В. Применение стандарта MPEG-4 для системы интерактивного телевидения // 55-я НТК: материалы / СПб ГУТ. - СПб, 2003. -С. 63-64.

6. Аносов А.В., Беляева Н.Н., Бучатский А.Н. Программная реализация изменения цветовых характеристик объекта. - Там же. — С. 64.

7. Аносов А.В., Бучатский А.Н. Метод определения параметров видеообъектов с использованием инструментария MPEG-4 // Известия ВУЗов России. Радиотехника. - 2003.-№ 3. - С. 42 - 52.

8. Аносов А.В., Бучатский А.Н. Возможности стандарта MPEG^l для работы с видеообъектами // Труды учебных заведений связи / СПб ГУТ.

- 2003.-№ 169.-С. 19-30.

9. Аносов А.В. Стандарт MPEG-4. Интерактивное телевидение // 11-я Всерос. конф. «Современное телевидение»: сб. тр. / МКБ «Электрон». — М.,

2003.-С. 104.

10. Аносов А.В. Разработка объектно-ориентированного метода компрессии стереотелевизионных изображений для интернет-телевешания // 56-я НТК: материалы / СПб ГУТ. - СПб, 2004. - С. 63.

11. Аносов А.В. Использование методов предсказания движения для компенсации параллакса // 58-я НТК: материалы / СПб ГУТ. - СПб, 2006. -С. 81.

12. Аносов А.В., Бучатский А.Н. Использование метода фазовой корреляции в программе стабилизации телевизионных и киноизображений // 14-я Всерос. конф. «Современное телевидение»: сб. тр. / МКБ «Электрон». -М., 2006.-С. 153.

Отпечатано в ООО «Копи-Р» г. Санкт-Петербург, ул. Пестеля, д. 11, тел.: (812) 272-30-36 Подписано к печати 12.05.2006. Печ. л. 1. Тираж 100 экз.

Оглавление автор диссертации — кандидата технических наук Аносов, Александр Владимирович

Список сокращений.

Введение.

1. СТЕРЕОСКОПИЧЕСКИЕ ИЗОБРАЖЕНИЯ. АНАЛИЗ МЕТОДОВ КОМПРЕССИИ СТЕРЕОТЕЛЕВИЗИОННЫХ СИГНАЛОВ.

1.1 Особенности зрительного аппарата человека. Стереоскопическое зрение.

1.2 Факторы, влияющие на качество восприятия стереоэффекта.

1.3 Воспроизведение стереоскопических изображений.

1.4 Методы компрессии стереотелевизионных сигналов.

1.4.1 Теоретические сведения.

Ф 1.4.2 Анализ методов компрессии стереотелевизионных сигналов.

1.4.3 Анализ методов компенсации движения в динамических изображениях.

1.4.3.1 Метод полного перебора (Full Search).

1.4.3.2 Логарифмический, трехшаговый и двумерный логарифмический поиск (Logarithmic Search, Three Step Search, Two Dimensional Logarithmic Search).

1.4.3.3 Четырехшаговый метод поиска (Four Step Search Algorithm).

1.4.3.4 Круговой поиск (Circular Zonal Search).

1.4.3.5 Поиск по ромбу (Diamond Search).

Ф 1.4.3.6 Алгоритмы с предсказанием.

1.4.3.7 Иерархический поиск (Hierarchical Search Algorithm).

1.4.3.8 Метод фазовой корреляции (Phase Correlation).

1.5 Элементы кодирования видеоинформации современных стандартов компрессии.

1.5.1 Стандарты MPEG.

1.5.2 Методы кодирования видеоинформации стандарта MPEG-2.

1.5.3 Особенности кодирования видеоинформации стандарта MPEG-4.

Ф 1.5.3.1 Представление видеоинформации.

1.5.3.2 Кодирование видеоинформации.

Выводы.

2. ВОЗМОЖНОСТИ МЕТОДА КОМПРЕССИИ СТЕРЕОТЕЛЕВИЗИОННЫХ

СИГНАЛОВ С ФОРМИРОВАНИЕМ РАЗНОСТНОГО СИГНАЛА.

2.1 Разностный сигнал.

2.2 Особенности разностного сигнала. ф 2.3 Избыточность разностного сигнала.

2.4 Ошибки, характерные для метода с формированием разностного сигнала

Выводы.

3. РАЗРАБОТКА МЕТОДОВ КОМПРЕССИИ СТЕРЕОТЕЛЕВИЗИОННЫХ СИГНАЛОВ С КОМПЕНСАЦИЕЙ ПАРАЛЛАКСА.

3.1 Выбор размера области присваивания.

3.2 Выбор размера зоны анализа.

3.3 Модификация методов компенсации движения.

3.3.1 Метод полного перебора.

3.3.2 Метод двойного поиска.

3.3.3 Логарифмический метод поиска.

3.3.4 Метод фазовой корреляции.

3.3.5 Метод с предсказанием.

3.4 Оценка вычислительной емкости.

Выводы.

• 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ РАЗРАБОТАННЫХ МЕТОДОВ. ВНЕДРЕНИЕ МЕТОДОВ В КОДЕР СТАНДАРТА MPEG-4.

4.1 Исследование метода с формированием разностного сигнала.

4.2 Исследование методов с компенсацией параллакса.

4.2.1 Исходные условия для программной реализации методов.

4.2.2 Анализ результатов программной реализации.

4.2.2.1 Статические стереоскопические изображения.

4.2.2.2 Выбор оптимальных методов.

4.2.2.3 Динамические стереоскопические изображения. ifr 4.3 Особенности внедрения методов оценки параллакса в кодер стандарта

MPEG-4.

4.4 Экспериментальное исследование возможности сжатия стереотелевизионных сигналов. Объективная оценка результатов. ф 4.5 Субъективная оценка качества стереоскопических изображений.

4.5.1 Методика субъективной оценки.

4.5.2 Схема экспериментальной установки.

4.5.3 Обработка результатов субъективной оценки.

4.5.4 Результаты субъективной оценки.

Выводы.

Введение 2006 год, диссертация по радиотехнике и связи, Аносов, Александр Владимирович

Стереоскопическая фотография, киносъемка, телевидение находят применение в тех областях науки и техники, где требуется наибольшая наглядность и выразительность отображения визуальной информации. Этот способ дает зрителю представление о наблюдаемой картине, минуя сложные вычисления и графические построения, которые необходимы для изучения пространственной картины при наличии нескольких отдельных проекций. Стереоскопический метод исследования используется для измерения расстояния до удаленных объектов, определения их пространственного расположения, рассматривания мелких и микроскопических объектов, ** идентификации объектов и в других не менее важных целях. Так, в астрономии, оценка пространственного расположения планет возможна почти исключительно по стереоскопическим снимкам.

Плоское изображение не дает зрителю полноты художественного восприятия, эффекта присутствия, не задействует полностью возможности зрительного аппарата. Если использовать стереоскопическое изображение, то удается устранить не только перечисленные недостатки, но и уменьшить латентный период1 оценки видеосцены в 1,1-1,2 раза [1], повысить точность Ф оценки удаленности наблюдаемых деталей в 3 раза, повысить распознаваемость и дешифрацию объектов рассматривания [2]. Указанные характеристики могут быть важны для специализированных устройств, применяемых в практических целях.

Стремление создать изображение, обладающее эффектом объемности и телесности изображаемых предметов, появилось очень давно. Еще в XV в. Леонардо да Винчи занимался этим вопросом, пытаясь дать ему научное объяснение. А первые работы по созданию устройств, позволяющих реализовать стереоскопический эффект, относятся к середине XIX столетия.

1 Латентный период - время от момента воздействия какого-либо раздражителя до появления ответной реакции

Тогда были впервые созданы зеркальный и линзовый стереоскопы.

К XX веку, в результате использования новых мелкоструктурных растровых оптических систем, были найдены способы воспроизведения стереоскопических изображений без применения специальных очков для просмотра (п. 1.3). Кроме того, был разработан метод построения объемной картины, который позволял не только ощутить ее объем, но и рассматривать ее с различных ракурсов.

В нашей стране работы по использованию принципа стереовидения в телевидении начались в 1949 г. на кафедре телевидения Ленинградского электротехнического института связи им. проф. М.А. Бонч-Бруевича (ЛЭИС) под руководством проф. П.В. Шмакова. Их результатом стал выпуск в 1952 г. первой в СССР промышленной установки стереоскопического черно-белого телевидения, а в 1959 г. прошла успешные испытания стереоскопическая установка цветного телевидения [3,4].

При передаче стереоскопического изображения понадобилась удвоенная, по сравнению с обычным телевидением, полоса частот канала связи. Поэтому в дальнейшем основное внимание исследователей переключилось на разработку таких систем, которые позволяли бы получать на приемном конце объемное изображение приемлемого качества, используя для этого как можно меньший объем передаваемой информации.

С учетом этого, на кафедре в 1962 г. была разработана система стереоскопического телевидения (ССТ) с совмещенными спектрами частот левого и правого кадров стереопары и использованием квадратурной модуляции поднесущей [3, 4]. Полоса частот для передачи стереопрограммы была использована стандартная - 6 МГц.

В настоящее время работы по проектированию и созданию ССТ в Санкт-Петербургском государственном университете телекоммуникаций (СПб ГУТ) продолжаются. В последние годы коллективом кафедры телевидения была разработана однообъективная система стереоцветного телевидения [5]. Ее особенность состоит в том, что изображение передается в цвете, а сам сигнал организован так, чтобы не создавать заметных помех при приеме стереоизображения на обычные цветные и черно-белые телевизоры.

Интерес к стереоскопии существует не только в России, но и за ее пределами. Во многих странах ведутся разработки по созданию новых ССТ и методов компрессии стереоскопических изображений. Основная задача - как можно более компактное представление информации об объеме с максимальным сохранением качества изображения.

Использование компьютерной техники и методов цифровой обработки видеоинформации дало новые пути решения этой проблемы. В частности, возможности компрессии сигналов цифрового телевидения показали его большое преимущество там, где еще недавно позиции аналоговых систем казались незыблемыми. Считалось, что главный недостаток цифрового телевидения заключен в слишком высоких по интенсивности потоках данных, для передачи которых нужны сверхширокополосные каналы. Однако вскоре выяснилось, что цифровой поток избыточен. При сокращении различных видов избыточности, в стандартную полосу телевизионного сигнала можно поместить несколько каналов цифрового вещания [6].

Видеоизображениям в цифровой форме соответствуют большие объемы данных. Это усложняет задачу разработки программно-аппаратных средств. Требования быстрой передачи данных встречают ряд проблем, связанных с техническими характеристиками используемой аппаратуры: недостаточной емкостью запоминающих устройств, ограниченной пропускной способностью каналов передачи данных, недостаточным быстродействием вычислительной техники и так далее. В таких ситуациях важную роль играет особый вид обработки сигналов изображений - их кодирование с целью сокращения объема (компрессии) данных.

Правильное» решение вопроса компрессии видеосигналов дает коммерческое и техническое преимущество готового устройства (кодека), которое обеспечивает высокое качество изображения, надежность и/или универсальность, по сравнению с конкурирующими разработками. Поэтому существует заинтересованность в эффективных методах кодирования. Это касается таких областей, как вещание, коммуникации, развлечения и других.

При компрессии сигналов изображений стереопары кроме пространственной, временной и визуальной необходимо также учитывать бинокулярную избыточность. Ее наличие объясняется подобием изображений стереопары.

В настоящее время разработан ряд методов, позволяющих учесть такого рода корреляцию. В большинстве случаев эти методы основаны на предварительной обработке стереопары.

Например, при сжатии сигналов изображений стереопары, вместо одного из изображений можно кодировать сигнал их разности. По сравнению с исходными изображениями он обладает меньшей энтропией и позволяет выполнить сжатие с большей эффективностью (гл. 2).

Другим примером служит анализ стереоскопических изображений с целью поиска подобных участков. Здесь так же, как и в первом случае, сигнал одного кадра кодируется независимо, а второй сигнал заменяется информацией о векторах параллакса1 и набором ошибок поиска векторов (гл. 3).

Также нередко используются некоторые бинокулярные особенности человеческого зрения. Учитывая это свойство, можно представить изображения стереопары в компактном виде, что приведет лишь к небольшому снижению качества. Более подробно перечисленные методы рассмотрены в п. 1.4.

Для сжатия сигналов, полученных в результате предварительной обработки изображений стереопары, используют, как правило, существующие методы компрессии цифровых сигналов. Самые распространенные и эффективные из них объединяются в стандарты. В настоящее время наиболее

1 Под термином вектор параллакса понимается величина смещения, которое имеет блок одного из изображений стереопары по отношению к подобному блоку другого изображения. распространены стандарты группы MPEG: MPEG-2 и созданный позднее MPEG-41 (п. 1.5.2,1.5.3).

Известно несколько работ, в которых рассматривают возможность сжатия стереотелевизионных сигналов с использованием стандартов компрессии. Например, в [7] предлагается использовать один из масштабируемых уровней стандарта MPEG-2. В алгоритме учитываются бинокулярные свойства человеческого зрения, что дает дополнительное сокращение видеопотока.

В работе [8] для сокращения объема информации исследовалось кодирование разности сигналов изображений стереопары кодером MPEG-2. Также была исследована возможность определения параллакса с помощью метода фазовой корреляции.

Известна практическая реализация объектно-ориентированного кодирования объемных видеоизображений на основе MPEG-2 [9]. К недостаткам метода относится большая вычислительная емкость, а его характеристики зависят от сюжета.

В 1996 г. группой MPEG был разработан профиль стандарта MPEG-2 для компрессии стереотелевизионных сигналов - MPEG-2 Multiview Profile [10], но эффективность его использования на практике оказалась невысокой (п. 1.4).

Работ по практическому использованию стандарта MPEG-4 для компрессии стереотелевизионных сигналов известно мало. Связано это, в первую очередь, с тем, что он был разработан позже MPEG-2. В ходе многочисленных испытаний по компрессии одинакового объема информации с сохранением сходного качества, результаты кодера стандарта MPEG-4 превзошли результаты кодера MPEG-2. Особенно это касается низких скоростей цифрового потока [11]. Оценка причин более эффективной работы кодера стандарта MPEG-4 выполнена в п. 1.5.3.

1 Здесь и далее под MPEG-2 и MPEG-4 понимаются те их части, которые отвечают за работу с видео, соответственно: 13818-2 и 14496-2.

Стандарт MPEG-4 достаточно универсален, что достигается за счет определенной схемы представления видеоданных. Помимо реализации традиционных схем кодирования видеоинформации, он предлагает возможности по организации видеоконференций, интерактивных программ, созданию и работе с искусственными аудиовизуальными объектами.

По сравнению с MPEG-4, стандарт MPEG-2 обладает меньшей универсальностью. Он получил наибольшее распространение в области вещательного цифрового телевидения и DVD1-видео. Однако используемые технологии, оставаясь все еще эффективными, заметно устарели. На смену MPEG-2 в дальнейшем должен придти другой стандарт, обладающий лучшими показателями компрессии и возможностью работы с разнообразным видеоматериалом. Одним из основных претендентов называется стандарт MPEG-4 [12].

Учитывая тот факт, что спецификация стандартов MPEG-2 (не считая MPEG-2 Multiview Profile) и MPEG-4 не дает рекомендаций для работы со стереоскопическими изображениями, оставляя решение этой задачи сторонним разработчикам, целесообразно создание новых методов компрессии стереотелевизионных сигналов, по-возможности совместимых со стандартами сжатия цифровых сигналов MPEG-2 и особенно MPEG-4.

Использование современных достижений в области обработки изображений позволит добиться более эффективного сокращения избыточности сигналов стереоскопических изображений. Это, в свою очередь, даст положительный результат, выражающийся в достижении более высокой степени компрессии сигналов изображений стереопары при сохранении качества стереоскопического изображения на том же уровне.

Необходимо выделить основные стадии решения поставленной задачи:

1. Изучение особенностей зрительного аппарата человека и стереоскопического зрения.

1 Цифровой многофункциональный диск (Digital Versatile Disk, DVD).

2. Анализ существующих способов компрессии видеосигналов и стереотелевизионных сигналов. Оценка возможности использования современных наиболее эффективных методов компенсации движения для компенсации параллакса.

3. Анализ элементов кодирования современных стандартов компрессии с целью оценки возможности их использования при кодировании стереотелевизионных сигналов.

4. Разработка новых методов компрессии стереотелевизионных сигналов для их совместного использования с алгоритмами кодирования MPEG-2 и особенно MPEG-4.

5. Исследование статистических свойств разности сигналов изображений стереопары с целью оценки эффективности метода ее передачи.

6. Разработка новых методов компенсации параллакса.

7. Внедрение разработанных методов в кодер стандарта MPEG-4.

8. Экспериментальное исследование разработанных методов с целью их апробации при работе с реальными стереотелевизионными изображениями.

На защиту выносятся:

2. Разработанные быстрые методы определения параллакса стереоскопических изображений: логарифмический поиск, метод на основе фазовой корреляции с иерархическим поиском, метод с предсказанием на основе фазовой корреляции.

3. Методика кодирования стереотелевизионных сигналов на основе кодера, отвечающего стандарту MPEG-4 (XVID).

4. Результаты кодирования стереотелевизионных сигналов при помощи кодера стандарта MPEG-4 (XVID).

Заключение диссертация на тему "Разработка и исследование методов передачи стереотелевизионных сигналов по каналам со сжатием цифрового потока"

140 Выводы

1. Выполненная программная реализация пяти методов оценки параллакса стереоскопических изображений: полного перебора (эталон), двойного поиска, логарифмического, двумерного логарифмического, фазовой корреляции и метода с предсказанием, позволила оценить предлагаемые методы по трем характеристикам: отношению сигнал-шум (PSNR), энтропии (Н) и времени анализа (t).

Лучшие результаты по совокупности перечисленных параметров при оценке параллакса статических стереоскопических изображений показали логарифмический метод и метод фазовой корреляции с иерархическим поиском (J = 0,5).

При оценке параллакса динамических стереоскопических изображений лучшие результаты показал метод с предсказанием векторов параллакса.

Переход от области присваивания 8x8 к 16x16 пикселей дает определенное, хотя и незначительное увеличение PSNR. Однако время анализа при этом при этом возрастает в среднем в 3 раза. Вычисления с полупиксельной точностью приводят к повышению PSNR при одновременном увеличении Н и времени анализа.

2. Программная реализация предложенных методов анализа параллакса подтвердила теоретический расчет вычислительной сложности разработанных методов: время анализа параллакса пропорционально теоретически рассчитанным значениям количества операций для нахождения одного вектора параллакса.

3. Для практического использования при кодировании стереотелевизионных сигналов рекомендуется метод оценки параллакса с предсказанием. Несколько худшие характеристики — у логарифмического метода, но его реализация значительно проще.

4. Внедрение методов с компенсацией параллакса в кодер MPEG-4 (XVID) позволило оценить их работу в реальной схеме кодирования. Лучшие результаты показал метод с предсказанием: при кодировании цветного изображения с разрешением 352x288 необходимая скорость передачи стереотелевизионных сигналов составила 300 Кбит/с. В этом случае при субъективной экспертизе оценка качества стереоизображения в целом не опускалась ниже отметки «хорошо». Скорость работы метода с предсказанием превысила скорость работы оригинального кодера примерно на 23%.

Кодирование стереотелевизионных сигналов методом с формированием разностного сигнала можно рекомендовать к использованию только в системах, критичных к сложности вычислений.

Заключение

1. На основе анализа способов оценки параллакса и методов компенсации движения в динамических изображениях разработаны методы компрессии стереотелевизионных сигналов: с формированием разностного сигнала и группа методов с оценкой параллакса. Показана возможность их совместного использования с кодером стандарта компрессии MPEG-4. В этом случае эффективно сокращается избыточность, которая свойственна стереотелевизионным сигналам: пространственная, временная, визуальная и бинокулярная.

2. Выполнена оценка вычислительной емкости и исследование эффективности методов с компенсацией параллакса для статических и динамических стереоизображений по трем характеристикам: отношению сигнал-шум, энтропии и времени работы. В результате проделанной работы были выявлены наиболее перспективные методы: логарифмический, фазовой корреляции с иерархическим поиском и метод с предсказанием.

3. Предложена методика кодирования стереотелевизионных сигналов с использованием разработанных методов и кодера MPEG-4 (XVID). При этом внесение изменений в декодер не требуется.

4. Произведено количественное сравнение величины сжатия, которое обеспечивается разработанными методами при их совместном использовании с кодером MPEG-4. Наиболее перспективным назван метод с предсказанием.

7. Другой вариант развития методов компрессии стереотелевизионных сигналов представляется в использовании техники работы с видеообъектами, которую определяет стандарт MPEG-4. Видеообъекты используются в основном для организации видеоконференций, в рекламе и различных интерактивных приложениях. Использование в этих областях стереоскопических изображений представляет немалый интерес. Тема эта мало изучена и представляет широкое поле деятельности для разработчиков.

Библиография Аносов, Александр Владимирович, диссертация по теме Радиотехника, в том числе системы и устройства телевидения

1. Бойко Е.И. Время реакции человека. - М.: Медицина, 1964. - 440 с.

2. Мамчев Г.В. Стереотелевизионные устройства отображения информации. -М.: Радио и связь, 1983. 96 с.

3. Шмаков П.В., Колин К.Т., Джакония В.Е. Стереотелевидение. М.: Связь, 1968.-207 с.

4. Джакония В.Е. О работе кафедры в области стереоскопического телевидения // Сборник трудов к 25-летию кафедры телевидения / ЛЭИС. Л., 1962. -С. 59-63.

5. Телевидение: Учебник для вузов / Под ред. В.Е. Джаконии. М.: Радио и связь, 1997.-640 с.

6. Чирков Л. Спутниковое вещание // 625. 1997. - №8. - С. 5-23.

7. Tseng B.L., Anastassiou D. Perceptual adaptive quantization of stereoscopic video coding using MPEG-2's temporal scalability structure // International Workshop on Stereoscopic and Three Dimensional Imaging IWS3DI'95. Santorini, Greece. -P. 52-57.

8. Федоров С.Л. Исследование способов кодирования и передачи информации о пространственной глубине по цифровому каналу в системе вещательного телевидения: Дис. канд. техн. наук. СПб, 2002. — 195 с.

9. Tzovaras D., Grammalidis N., Strintzis M. Joint three-dimensional motion/disparity segmentation for object-based stereo image sequence coding // Optical engineering. 1996. - V.35, №1. - P. 137-144.

10. ISO/IEC 13818-2, AMD 3 : «MPEG-2 Multiview profile», Sept. 1996

11. Wang L. MPEG-4 Video Coding Algorithm: Implementation and Performance Evaluation. An Engineering Project Report. Edmonton, University of Alberta, Fall 2001. -81 c. http://www.uofaweb.ualberta.ca/mccl/pdfs/MEngReport-LinWang.pdf

12. Ричардсон Я. Видеокодирование. H.264 и MPEG-4 стандарты нового поколения. - М.: Техносфера, 2005. - 365 с.

13. Джакония В.Е., Шмаков П.В. Стереотелевидение: Учебное пособие по курсу телевидения. JI, 1959.-81 с.

14. Валюс Н.А. Стереоскопия. М.: АН СССР, 1962. - 379 с.

15. Хацевич Т.Н. Медицинские оптические приборы: Физиологическая оптика: Учебное пособие. Новосибирск: СГГА, 1998. - Ч. 1. - 98 с.

16. Кравков С.В. Глаз и его работа. М.: АН СССР, 1950. - 532 с.

17. Рубинштейн С. JI. Основы общей психологии. СПб.: Питер, 1998. - 720 с.

18. CeBit выставка достижений в области высоких технологий. http://www.cebit.de/

19. Bungert С. Stereo3D Displays. 2003. http://www.stereo3d.com/3dhome.htm

20. Симченко В. Бег иноходца (Обзор стереомонитора SmartrOn). 2003.• http://www.really.ru/review/smartron.html

21. Гласман К. Видеокомпрессия // 625. 1997. №7. - С. 60 - 75.

22. Телевидение: Учебник для вузов / Под ред. В.Е. Джаконии. М.: Радио и связь, 2004. - 615 с.

23. ISO/IEC 14495-1:2000 Information technology lossless and near-lossless compression of continuous-tone still images: Baseline, (JPEG-LS).

24. Мамчев Г.В. Современное состояние и перспективы развития ^ стереотелевидения // Зарубежная радиоэлектроника. 1985. - № 1. - С. 3 - 20.

25. Пат. 4743965 (США). МКИ Н 04 N 13/00. # 26. Пат. 4704629 (США). МКИ Н 04 N 13/02.

26. Пат. 4424529 (США). МКИ Н 04 N 13/00.

27. Пат. 7030926А2 (Япония). МКИ Н 04 N 13/00.

28. Пат. 2010453С1 (Россия). МКИ Н 04 N 13/00.

29. Шмаков П.В. Система стереоскопического телевидения / ЛЭИС. Л., - 1962.-С. 62-70.ф 31. Джакония В. Е. Вещательные системы стереоцветного телевидения: Учеб.пособие.-Л.: ЛЭИС, 1979.-51 с.

30. Мамчев Г. В. Особенности передачи ТВ сигналов стереоцветой системы в канале связи с временным уплотнением // Техника кино и телевидения. 1994. -№ 5. - С. 50-52.

31. Сосновский Е. Стереокино на домашнем экране // Наука и жизнь. 1966.- № 9. С. 44-46.

32. Сосновский Е. Стереокино на домашнем экране // Наука и жизнь. 1967. -№ 2. - С. 33-36.

33. Стереовидение // Компьютер Пресс. 1997. - № 5. - С. 64-71.

34. Волков С. Н. Анализ изображений стереопары // Техника кино и телевидения. 1990,-№ 8.-С. 36-39.

35. Woo W., Ortega A. Stereo image compression based on the disparity compensation using the MRF model // SPIE/VCIP. 1996. - V.2727. - P. 28 - 41.

36. Woo W., Ortega A. Overlapped block disparity compensation with adaptive windows for stereo image coding // IEEE Trans, on Circuits and Systems for Video Technology. 2000. - V. 10. - P. 194 - 200.

37. Hendriks E. A. Recursive disparity estimation algorithm for real time stereoscopic video applications // International Conference on Image Processing (ICIP). 1996. Lausanne, Switzerland. - V.2. P. 891 - 894.

38. Tsai C., Katsaggelos A. K. Dense disparity estimation with a divide-and-conquer disparity space image technique // IEEE Trans, on Multimedia.- 1999. V.l. - P. 18-29.

39. Jiang J., Edirisinghe E. A., Schroder H. Algorithm for compression of stereo image pairs // Electronics Letters. 1997. - V.33, № 12. - P. 1034 - 1035.

40. ISO/IEC 13818-2, AMD 3 : «MPEG-2 Multiview profile», Sept. 1996.

41. Ohm J. R. Stereo/Multiview Encoding Using the MPEG Family of Standards // SPIE. 1999. - V.3639. - P. 242 - 253.

42. А. с. 1631753A1 (СССР). МКИ H 04 N 13/00.

43. Пат. 5633682 (США). МКИ H 04 N 13/00.

44. Tzovaras D., Grammalidis N. Joint three-dimensional motion/disparity segmentation for object-based stereo image sequence coding // Optical engineering.- 1996. V.35, № 1. - P. 137 - 144.

45. Rao K., Sinivasan R. Predictive Coding Based on Efficient Motion Estimation // Proceedings of the International Conference on Communications. 1987. Amsterdam. - V. 1, P. 521 - 526.

46. Ghanbari M. The Cross Search Algorithm for Motion Estimation // IEEE Trans, on Commun. 1990. - V. COM-38. № 7. - P. 950 - 953.

47. Зубарев Ю.Б., Дворкович В.П., Нечипаев B.B., Соколов А.Ю. Методы анализа и компенсации движения в динамических изображениях

48. Электросвязь. 1998.-№ 11.-С. 14- 18.

49. Kalivas D., Zahariadis Т. A Spiral Search Algorithm for fast estimation of block motion vectors // Proceedings of the VIII European Signal Processing Conference (EUSIPCO). Sept. 1996. Trieste, Italy. - V. 2. P. 1079 - 1082.

50. Jain J.R., Jain A.K. Displacement Measurement and its Application in Interframe Image Coding // IEEE Trans. Commun. 1981. - V.COM-29. № 12. - P. 1799- 1808.

51. Koga T. et al. Motion compensated interframe coding for video conferencing. National Telecom. Conf. New Orleans, LA, Nov.-Dec. 1981. -G.5.3.1 -G.5.3.5.

52. Lai-Man Po, Wing-Chung Ma. A Novel Four Step Search Algorithm For Fast Block Motion Estimation // IEEE Trans, on Circuit Syst. Video Technol. 1996. -V. 6. -P. 313 -317.

53. Li R., Zeng B. and Liou M.L. A new three-step search algorithm for block motion estimation // IEEE Trans. Circuits Syst. Video Technol. 1994. - V. 4. -P. 438-442.

54. ISO/IEC JTC1/SC2/WG11. MPEG Video Simulation Model Three (SM3) //MPEG 90/041, July 1990.

55. Tourapis A.M., Au O.C., and Liou M.L. Fast Motion Estimation using Circular Zonal Search // Proceedings of SPIE, VCIP'99, V. 3653, San Jose, CA, USA, January 1999, P. 1496- 1504.

56. Zhu S. et al. A New Diamond Search algorithm for Fast Block Matching Motion Estimation // Int. Conf. Information, Commun. and Signal. (ICICS'97), Singapore, 1997, P. 292-296.

57. Tourapis A.M., Au O.C., Liou M.L. Optimizing the MPEG4 encoder Advanced Diamond Zonal Search // Proc of IEEE Int. Sym. On Circuits and Systems, V. 3, - P. 674 - 677, May 28 - 31, 2000.

58. Tourapis A.M., Au O.C., Liou M.L. Predictive Motion Vector Field Adaptive Search Technique (PMVFAST) Enhancing Block Based Motion Estimation // SPIE/VCIP. - 2001. - V. 4310. - P. 132-142.

59. Nam K.M., Kim J.S., Park R.H. A Fast Hierarchical Motion Vector Estimation Algorithm Using Mean Pyramid // IEEE Trans. Circuits and Systems for Video Technology. 1993. - V. 5. - № 4. - P. 344 - 351.

60. Plompen R. et al. Motion Video Coding in CCITT SG XV The Video Source Coding // Proceedings of the IEEE Global Telecommunications Conference. Nov. -1988. St. Louis, Missouri. - P. 997 - 1004.

61. Shi Y.Q., Xia X. A Thresholding Multiresolution Block Matching Algorithm // IEEE Trans. Circuits and Systems for Video Technology. 1997. - V. 7, № 4. -P. 437-440.

62. Watkinson J. Textbook for Engineers on Motion Compensation. Hampshire: Snell & Wilcox Ltd, 1994. - 62 c.

63. Претт У.К. Цифровая обработка изображений: Пер. с англ. -М.: Мир, 1982. -Кн. 1.-480 с.

64. Fleet D.J. Disparity from local weighted phase-correlation // IEEE International Conference on System, Man and Cybernetics. San Antonio, 1994. P. 48 - 56.

65. The European research Action COST 230. Stereoscopic Television Standards, Technology and Signal Processing: Final Report. 1998. - 89 p. http://www.fub.it/cost230/welcome.htm

66. Le Gall D.J. The MPEG Video Compression Algorithm // Signal Processing: Image Communication. 1992. - V. 4, № 2. - P. 129 - 140.

67. ISO/IEC 11172-2. Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s: video.

68. Anderson M. VCR quality video at 1,5 Mbit/s // National Communication Forum. Chicago, Oct. 1990.

69. ISO/IEC 13818-2. Information technology Generic coding of moving pictures and associated audio information: video.

70. ISO/IEC 14496-2. Information technology Coding of audio-visual objects: visual.

71. Bhaskaran V., Konstantinides K. Image and Video Compression Standards: Algorithms and Architectures. Norwell, MA, USA: Kluwer Acad. Publ., 1997. -454 p.

72. Chen C.T., Le Gall D.A. A Kth order adaptive transform coding algorithm for high-fidelity reconstruction of still images // Proceedings of the SPIE. San Diego, Aug. 1989.

73. Video codec for audio visual services at px64 Kbits/s. CCITT Recommendation H. 261. 1990.

74. Ватолин Д., Ратушняк А., Смирнов M. Методы сжатия данных. М.: Диалог-МИФИ, 2002. - 381 с.

75. Аносов А.В, Бучатский А.Н. Метод определения параметров видеообъектов с использованием инструментария MPEG-4 // Известия ВУЗов России. Радиотехника. 2003. - № 3. - С. 42 - 52.

76. Цифровая обработка телевизионных и компьютерных изображений / Под ред. Зубарева Ю.Б. и Дворковича В.П. М.: Междунар. центр науч. и техн. инф., 1997.-255 с.

77. Яблонский С.В. Введение в дискретную математику. М.: Наука, 1986. -384 с.

78. Претт У.К. Цифровая обработка изображений: Пер. с англ. М.: Мир, 1982. -Кн. 2.-480 с.

79. Методы компьютерной обработки изображений / Под ред. В.А. Сойфера. -М.: Физматлит, 2003. 780 с.

80. MPEG-2 Frequently Asked Questions List, http://tns-www.lcs.mit.edu /manual s/mpeg2/FAQ

81. Koenen R. MPEG-4 Overview (V.18 - Singapore Version) ISO/IEC JTC1/SC29/WG11, 2001. - 69 p. http://www.m4if.org/public/MPEG-40verview.zip

82. Ebrahimi Т., Pereira F. The MPEG-4 Book. Upper Saddle River, NJ, USA: Prentice Hall PRT, 2002. - 896 p.

83. ITU-T Recommendation H.263, Video coding for low bit rate communication, Version 2, 1998.

84. Семенюк В.В. Современные методы и стандарты экономного кодирования видеоинформации. СПб: 2002. http://library.graphicon.ru:8080/paper/971

85. Wang Y., Wen G., Wenger S. Review of Error Resilient Techniques for Real-time Video Communications // IEEE Signal Proces. Mag. 2000. - V. 17, №4.-P. 61-82.

86. Бутаков E.A. и др. Обработка изображений на ЭВМ. М.: Радио и связь, 1987.-240 с.

87. Певзнер Б.М. Качество цветных телевизионных изображений. М.: Радио и связь, 1988.-224 с.

88. Кривошеев М.И., Кустарев А.К. Световые измерения в телевидении. М.: Связь, 1973.-230 с.

89. Kuhn P. Algorithms, complexity analysis and VLSI architectures for MPEG-4 motion estimation. Boston: Kluwer Academic Publishers, 1999.

90. Зубарев Ю.Б., Витязев B.B., Дворкович В.П. Цифровая обработка сигналов- информатика реального времени // Цифровая обработка сигналов и ее применение. Труды 2-й Междунар. конф. «DSPA-1999». М.: МЦНТИ, 1999.

91. Ю.А. Бычков, В.М. Золотницкий, Э.П. Чернышев. Основы теории электрических цепей: учебник для вузов. СПб.: Лань, 2002. - 464 с.

92. ГОСТ 26320-84. Оборудование телевизионное студийное и внестудийное. Методы субъективной оценки качества цветных телевизионных изображений.- М.: Изд-во стандартов, 1985. 6 с.

93. Turaga D., Alkanhal М. Search Algorithm for Block-Matching in Motion Estimation, http://www.ece.cmu.edu/~ee899/project/deepakmid.htm

94. Huang C.L., Liao B.Y. A Robust Scene-Change Detection Method for Video Segmentation // IEEE Trans. Circuits and Systems for Video Technology. 2001. -V. 11,№ 12.-P. 1281 - 1288.

95. Youm S., Kim W. Dynamic Threshold Method for Scene Change Detection // Proceedings of IEEE ICME. 6-9 July. 2003. Baltimore, Maryland. - V. 2, -P. 337-340.

96. Sethi I. К., Patel N. A Statistical Approach to Scene Change Detection // Proceedings of SPIE Storage and Retrieval for Image and Video Databases. February. 1995. San Jose. California. - V. 2420, - P. 329 - 338.

97. Wang X., Weng Z. Scene Abrupt Change Detection // Proceedings of IEEE Canadian Conf. on Elect, and Computer Eng. March. 2000. Ottawa, Ontario, Canada. - V. 2, - P. 880 - 883.

98. Sze K.W., Lam K.M., Qiu G. Scene Cut Detection Using The Colored Pattern Appearance Model // IEEE International Conference on Image Processing. 14-17 September. 2003. Barcelona, Spain. - V. 2, - P. 1017 - 1020.

99. Liu H.C., Zick G. Automatic Determination of Scene Changes in MPEG Compressed Video // IEEE International Symposium on Circuits and Systems, ISCAS. April 30 May 3. - 1995. Seattle, Washington, USA. - V. 1, - P. 764 - 767.

100. Li H., Liu G., Zhang Z. Adaptive Scene-Detection Algorithm for VBR Video Stream // IEEE Trans, on Multimedia. 2004. - V. 6, № 4. - P. 624 - 633.104. http://www.xvid.org

101. Соболь И.М., Статников Р.Б. Выбор оптимальных параметров в задачах со многими критериями. -М.: Наука, 1981. 110 с.106. http://fflw.org107. http://www.compression.ru/

102. Джакония В.Е. Исследования основных вопросов создания совместимой системы стереоцветного телевидения: Дисс. . канд. техн. наук. Л., 1962. -270 с.

103. Руководство по физиологии. Физиология сенсорных систем. Часть 1. Физиология зрения / Под ред. В.Г. Самсоновой. JL: Наука, 1971.-416 с.

104. Recommendation ITU-R ВТ.501-7 «Methodology for the subjective assessment of the quality of television pictures».

105. Птачек M. Цифровое телевидение. Теория и техника / Пер. с чешек, под ред. JI. С. Виленчика. М.: Радио и связь, 1990. - 528 с.

Похожие работы

Радиотехника и связь
05.12.00