автореферат диссертации по приборостроению, метрологии и информационно-измерительным приборам и системам, 05.11.18, диссертация на тему:Исследование и разработка методов мониторинга аудиовизуального ряда в телевизионных и кинематографических системах

кандидата технических наук
Федина, Александра Александровна
город
Санкт-Петербург
год
2008
специальность ВАК РФ
05.11.18
цена
450 рублей
Диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам на тему «Исследование и разработка методов мониторинга аудиовизуального ряда в телевизионных и кинематографических системах»

Автореферат диссертации по теме "Исследование и разработка методов мониторинга аудиовизуального ряда в телевизионных и кинематографических системах"

На правах рукописи

Федина Александра Александровна

003454Э57

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ МОНИТОРИНГА АУДИОВИЗУАЛЬНОГО РЯДА В ТЕЛЕВИЗИОННЫХ И КИНЕМАТОГРАФИЧЕСКИХ СИСТЕМАХ

Специальность: 05.11.18 - Приборы и методы преобразования изображений и звука

АВТОРЕФЕРАТ

диссертации на соискание учёной степени кандидата технических наук

5 ПЕН*

Санкт-Петербург - 2008

003454957

Работа выполнена на кафедре видеотехники Санкт-Петербургского государственного университета кино и телевидения

Научный руководитель: кандидат технических наук, доцент

К.Ф. Гласман

Официальные оппоненты: заслуженный деятель науки и техники РФ,

доктор технических наук, профессор Н.Н. Красильников

Защита состоится 18 декабря 2008 г. в 13 часов на заседании диссертационного совета № Д 210.021.01 при Санкт-Петербургском государственном университете кино и телевидения по адресу 191119, Санкт-Петербург, ул. Правды, д.13, аудитория 1316.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета кино и телевидения.

Автореферат разослан 17 ноября 2008 г.

Отзывы на автореферат просьба присылать в двух экземплярах по адресу: 191119, Санкт-Петербург, ул. Правды, 13.

кандидат технических наук, доцент А.А. Манцветов

Ведущая организация: ФГУП «Научно-исследовательский институт

телевидения»

И.о. учёного секретаря диссертационного совета

!ЗЛОВ

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Телевидение и кинематограф являются синтетическими дисциплинами, соединяющими достижения разных областей науки и техники: физики, оптики, механики, электроники, информатики и многих других. Технические средства телевидения и кинематографа разрабатываются в разных отраслях, в которых существуют разнообразные и независимые методы измерений и измерительные установки. Однако производство телевизионных программ и фильмов, а также передача телевизионных программ и демонстрация цифровых фильмов являются теми областями, для которых методы измерений и измерительные устройства должны быть созданы в рамках телевидения и кинематографа. С введением новых систем телевидения и цифрового кинематографа в сфере измерений стали актуальными исследования и разработки, имеющие целью метрологическое обеспечение процесса производства телевизионных программ и фильмов и метрологическое обеспечение процесса передачи телевизионных программ и демонстрации цифровых фильмов. В связи с внедрением новых систем, таких как телевидение высокой четкости, цифровой кинематограф, мобильное телевидение, стали использоваться новые методы обработки сигналов изображения и звука, новые каналы связи, новые методы передачи сигналов. Это привело к появлению дополнительных видов искажений, помех и артефактов, которые различны для видео и аудиосигналов. Объединение изображения и звука в рамках единого аудиовизуального ряда требует измерения и коррекции этих новых видов искажений. Необходимы новые методы мониторинга аудиовизуального ряда в системах производства телевизионных программ и фильмов, в системах управления телевизионным вещанием и демонстрацией цифровых фильмов. Исследования в этой области надо признать важными и актуальными для современного этапа развития телевизионных и кинематографических систем, основанных на применении цифровых и информационных технологий.

Целью диссертационной работы является исследование и разработка методов мониторинга аудиовизуального ряда в телевизионных и кинематографических системах.

Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:

1. Анализ современного этапа развития телевидения и кинематографа и разработка принципов мониторинга аудиовизуального ряда в свете современных тенденций развития кинематографических и телевизионных систем.

2. Исследование и разработка методов измерения временного рассогласования изображения и звука в задачах мультимодального мониторинга телевизионных и кинематографических систем.

3. Оценка заметности временного рассогласования изображения и звука в телевизионных и кинематографических системах.

4. Исследование и разработка модели субъективной заметности рассогласования изображения и звука.

5. Исследование и разработка методов семантического мониторинга.

Методы исследования. Теоретические исследования выполнены с использованием методов информатики, математического моделирования. Экспериментальные исследования проведены с использованием принятых в телевидении методов планирования, проведения и статистической обработки результатов зрительских экспертиз и методов моделирования данных.

Научная новизна диссертационной работы состоит в следующем:

1. Показано, что управление качеством услуг на современном этапе развития телевидения и кинематографа требует применения мультимодального, многоуровневого и распределенного мониторинга. Разработан метод решения проблемы мониторинга в телевизионных и кинематографических системах, построенных на базе информационных технологий, как задачи генерации и управления метаданными.

2. Разработан метод измерения временного рассогласования аудио и видео сигналов на коротких интервалах, основанный на покадровом фонемно-виземном анализе изображения и звука. Показано, что для повышения точности измерения в сравнении с известными методами необходимо учитывать речевые и мимические особенности произношения. В качестве параметров фонем предложено использовать суммарный вектор коэффициентов предсказания - параметров модели голосового тракта, построенной в соответствии с методом линейного предсказания, а в качестве параметров органов артикуляции, позволяющих определять временное положение виземы с точностью, равной интервалу одного кадра, предложено использовать относительные величины раскрыва рта человека по вертикали и горизонтали.

3. Проведён сравнительный анализ субъективного восприятия различных типов временного рассогласования изображения и звука. Установлено, что субъективные оценки локального рассогласования изображения и звука импульсного типа на коротких временных интервалах, что характерно для условий озвучивания и дублирования фильмов, отличаются от известных оценок при статическом сдвиге между звуком и изображением. При показателе качества на уровне 4,5 балла допустимые значения рассогласования отличаются примерно в 2 раза при отставании звука и в 3 раза - при опережении звука. Был также выявлен фактор значительного влияния артикуляционных характеристик речи на восприятие несинхронности изображения и звука. На уровне качества 4,5 балла допустимые значения рассогласования при импульсном временном сдвиге слов, состоящих преимущественно из звуков с явной и неявной артикуляционной динамикой, отличаются примерно в 2 раза.

4. Впервые разработана модель оценки временного рассогласования изображения и звука для рационализации процессов чистовой записи звука и дублирования фильмов. Экспериментально доказано, что модель

обладает высокими показателями точности, монотонности и совместности предсказания.

5. Предложен метод составления семантических описаний аудиовизуальных программ. Была экспериментально показана возможность составления семантических описаний новостных выпусков, основанных на модели выдачи новостей в эфир в соответствии с принципами «контрастности» и «дополняемости». Была предложена технология составления кратких описаний аудиовизуальных материалов, основанная на анализе формы кумулятивной кривой, представляющей собой зависимость критерия «эмоционального воздействия» от времени.

Практическая ценность. Значение результатов диссертационной

работы для практики заключается в следующем:

1. Разработанный метод измерения временного рассогласования аудио и видео сигналов на коротких интервалах, который основан на покадровом фонемно-виземном анализе изображения и звука, позволяет добиться более высокой в сравнении с известными методами точности измерения, равной интервалу одного кадра.

2. Метод покадрового фонемно-виземного анализа изображения и звука, учитывающий речевые и мимические особенности произношения человека, может использоваться для синхронизации изображения и звука в устройствах конечного пользователя, когда измерение относительной задержки аудио и видео сигналов в тракте передачи сигналов уже невозможно.

3. Применение предложенного метода анализа и модели оценки временного рассогласования изображения и звука, связывающей объективные показатели несинхронности сигналов и субъективное восприятие подобной несинхронности, позволяет упростить и ускорить процессы чистовой записи звука и дублирования фильмов. Предложенная модель позволяет в полуавтоматическом режиме составлять для актёра, озвучивающего экранный образ, инструкции, содержащие ссылки на слова, в которых произнесённые звуки не соответствуют мимическим движениям экранного образа, и рекомендации по изменению временного положения этих слов.

4. Предложенный метод составления семантических описаний аудиовизуальных программ позволяет отказаться от традиционной технологии составление описаний, которая не является эффективной и связана с большими затратами времени и труда.

Научные положения, выносимые на защиту:

1. Управление качеством услуг на современном этапе развития телевидения и кинематографа, связанном с применением информационных технологий, следует решать как задачу генерации и управления метаданными с использованием мультимодального, многоуровневого и распределенного мониторинга.

2. Для измерения временного рассогласования изображения и звука в условиях, когда измерение относительной задержки аудио и видео сигналов в тракте передачи сигналов невозможно, например, в устройствах конечного пользователя в телевидении и при чистовой записи звука и дублировании фильмов в кинематографе, необходимо учитывать речевые и мимические особенности произношения человека.

3. Для достижения точности измерения временного рассогласования изображения и звука на уровне интервала одного кадра достаточно использовать суммарный вектор коэффициентов предсказания параметров модели голосового тракта в качестве параметра речи и относительные величины раскрыва рта человека по вертикали и горизонтали в качестве параметров органов артикуляции и мимики человека.

4. При оценке локального рассогласования изображения и звука импульсного типа на коротких временных интервалах, которое характерно для условий чистового озвучивания и дублирования фильмов, необходимо учитывать значительные отличия допустимых значений рассогласования между звуком и изображением от известных оценок для статического сдвига между звуком и изображением. Необходимо также учитывать фактор значительного влияния артикуляционных характеристик речи на восприятие несинхронности изображения и звука.

5. Составление семантических описаний аудиовизуальных программ с учетом степени воздействия на аудиторию и реакции зрителя должно быть основано на анализе формы кумулятивной кривой, представляющей собой зависимость критерия «эмоционального воздействия» от времени.

Реализация результатов работы

Результаты работы были использованы компанией «ДИП» (Санкт-Петербург) при разработке синхронизатора аналоговых аудиосигналов, предназначенного для временной задержки аналоговых аудиосигналов с целью синхронизации сигналов звукового сопровождения с видеосигналом.

Апробация работы

Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях:

• 6-я Международная выставка и конференция «Кабельное и спутниковое ТВ, ТВЧ, Телерадиовещание, Широкополосный доступ, ТВ по 1Р протоколу, Спутниковая связь», Москва, 10-13 февраля 2004г.

• 12-я международная конференция "Организационно-правовые, финансовые и научно-технические аспекты современного телевидения и радиовещания". Софрино, 5-9 апреля 2004г.

• 2-я Международная конференция «Новые технологии в телевидении и кинематографе-2004», Санкт-Петербург, 2-3 июня 2004г.

• 4-я Международная конференция «Телевидение: передача и обработка изображений», Санкт-Петербург, 24-26 мая 2005г.

• 3-я Международная конференция «Цифровые технологии в аудиовизуальной технике-2005», Санкт-Петербург, 29-30 июня 2005г.

• 4-я Международная конференция «Цифровые и информационные технологии в электронной медиаиндустри-2006», Санкт-Петербург, 89 июня 2006г.

• IEEE Tenth International Symposium on Consumer Electronics, St.Petersburg, June 2006

• 5-я Международная конференция «Телевидение: передача и обработка изображений», СПб., 24-26 мая 2007г.

Публикации. По материалам диссертации опубликовано 11 научных работ, в том числе 2 статьи в журналах из списка ВАК, 1 статья в научно-техническом сборнике, 8 публикаций в сборниках материалов и тезисов конференций и семинаров.

СОДЕРЖАНИЕ РАБОТЫ

Работа состоит из введения, пяти глав, заключения, списка литературы и приложения.

Во введении обоснована актуальность темы диссертационных исследований, сформулирована цель и определены задачи диссертационной работы, изложены научная новизна и практическая значимость полученных результатов, приведены основные научные положения, выносимые на защиту.

От новых технологий цифрового телевидения и кинематографа пользователь (зритель и слушатель) ожидает внедрения новых услуг и сервисов, но с качеством изображения и звука, более высоким, чем в традиционных системах. Традиционные и новые услуги должны предоставляться с высокой надежностью и качеством. Лучший способ найти решение этой проблемы - активно управлять параметрами качества. Центральное место в системе управления качеством услуг занимает мониторинг - проверка качества и сравнение полученных значений с нормативными. По результатам мониторинга делаются выводы о достигнутом уровне качества, разрабатываются меры коррекции, намечаются планы внедрения услуг с более высоким уровнем качества.

В первой главе выполнен анализ современного состояния телевидения и кинематографа, обоснована необходимость проведения мониторинга аудиовизуального ряда, проанализированы принципы формирования метаданных мониторинга, введена обобщенная модель классификации видов мониторинга и определены перспективные направления исследования в области метаданных и систем управления метаданными.

Оценка качества мультимедийного зрелища в широком смысле - это определение качества впечатления, которое должно производиться по интегральной совокупности компонентов зрелища: изображения, звука, графических образов, дополнительных текстовых данных, которые дают оценку впечатления, оставленного аудиовизуальным рядом. Такой мониторинг называют мультимодальным.

Аудиовизуальный ряд как слитное зрелище, оставляющее впечатление, подвергается искажениям, которые не учитываются при мониторинге изображения и звука в отдельности, но которые появляются в современных системах. Это связано с тем, что сигналы изображения и звука подвергаются большому числу разных преобразований. Среди этих искажений надо выделить, прежде всего, нарушение синхронности видеосигналов и аудиосигналов. Нарушения синхронности видеосигналов и аудиосигналов являются искажениями, наиболее ухудшающими впечатление от восприятия аудиовизуального ряда. Эта нарушения могут быть статическими, плавно меняющимися и импульсными. Статический (постоянный) сдвиг во времени между сигналами изображения и звука существует и в аналоговых и в цифровых системах. Он может быть связан с расхождением путей прохождения сигналов от точки формирования программы до точки ее воспроизведения. Он может также быть результатом введения обработки сигналов, характеризующейся разной длительностью для изображения и звука. Обычно обработка изображения занимает больше времени, потому видеосигнал отстает от аудиосигнала. При

озвучивании и дублировании фильмов расхождение во времени между изображением и звуком носит импульсный или случайный характер.

В качестве предпосылки к разработке необходимого ряда измеряемых параметров и измерительных устройств для обеспечения мониторинга цифрового телевизионного вещания и цифрового кинематографа целесообразно использовать объектно-ориентированную модель цифровой телевизионной системы, разработанную Рабочей группой 8МРТЕ/ЕВи по гармонизированным стандартам обмена программными материалами как цифровыми потоками. Наиболее важным отличием модели 8МРТЕ/ЕВи от подходов, применявшихся прежде, является то, что обмен данными между объектами системы осуществляется с использованием четырехуровневой модели, которая построена на базе модели взаимных соединений открытых систем 180/081. Применение уровневой модели приводит к выводу, что мониторинг должен быть многоуровневым и распределенным. Многоуровневый мониторинг подразумевает оценку и контроль качества на разных уровнях - от физического уровня, т.е. уровня сигналов до уровня эмоций и впечатлений. Распределенный мониторинг означает оценку, измерение и контроль в разных точках тракта создания и доставки аудиовизуального ряда (в процессе студийного производства телевизионных программ, в процессе озвучивания или дублирования фильмов, в процессе создания кратких описаний аудиовизуальных зрелищ, в аппаратуре демонстрации фильмов или телевизоре зрителя).

Провести быстрый и эффективный анализ причин сбоя, ухудшения качества трансляции возможно при помощи метаданных, содержащих соответствующие сведения. Добавление их в аудиовизуальный контент на начальной стадии вещательной цепи позволило бы с большей надёжностью осуществлять системный мониторинг на завершающей стадии. Метаданные могут быть встроены в аудио и видео сигналы, для того чтобы осуществлять мониторинг в условленных контрольных точках вещательной цепи. Схематическая диаграмма процесса использования метаданных эксплуатационного мониторинга в вещательной цепи изображена на рис 1. На этой диаграмме предполагается, что эксплуатационный мониторинг производится в ряде контрольных точек вещательный цепи. Генерация и вставка метаданных эксплуатационного мониторинга происходит в каждой контрольной точке. Детали этого процесса показаны в нижней части рисунка.

Основные этапы:

1. Извлечение метаданных, которые были вставлены в предыдущих контрольных точках.

2. Анализ аудио и видеосигналов в каждой контрольной точке для генерации и обновления метаданных.

3. Сравнение метаданных, экстрагируемых в данной точке, с метаданными, выделенными на предыдущих этапах контроля, позволяет отслеживать состояние аудио и видеосигналов.

4. Метаданные, экстрагированные в данной точке контроля, добавляются к архиву метаданных.

5. Необходимо отметить, что только метаданные эксплуатационного мониторинга подвергаются постоянному обновлению внутри процесса, в то время как аудио, видео и другие вспомогательные сигналы остаются неизменными

Трансляционная цепь

Контрольная точка №1

Извлечение и

обновление

метаданных

Мониторинг

Контрольная точка №2

Извлечение и

обновление

метаданных

Мониторинг

Контрольная! точка №3 ^ |

и.

Извлечение и

обновление

метаданных

V

Мониторинг

Передача аудио/видео данных(основной поток)

Обновление метаданных (аудио/видео сигналы остаются неизменными)

Генерация метаданных

Демультиплексирование аудио/видео/ мета данных

Расчёт параметров аудиосигнала

Расчёт параметров видеосигнала

Кодирование в метаданные

Кодирование в метаданные

Метаданные (история метаданных в предыдущих точках)

'За

:ф X

11 ю ® О 2

Мониторинг 2

Рис Л. Конфигурация контрольных точек цепи передачи аудиовизуального ряда и процесс мониторинга метаданных.

Один из возможных методов мониторинга степени ухудшения качества аудиовизуального контента является установление некоторой информационной характеристики аудиовизуального сигнала и мультиплексирование её в сигнал на первой стадии производственного цикла. Сравнение исходной характеристики и получаемой из аудиовизуального сигнала на следующих стадиях даёт информацию о соответствующих изменениях. Необходимо разработать метаданные, относящиеся к качеству аудиовизуального сигнала. В общую систему оценки и управления качеством должны быть также включено определение параметров временного рассогласования видео и звука. Должны быть разработаны метаданные, описывающие временное рассогласование видео и звука

Для генерации метаданных проверки несинхронности необходим надёжный метод объективной оценки рассогласования аудио и видеосигналов. Ошибка рассинхронизации должна определяться в каждом кадре. Существующие методы определения несинхронности аудио и видеопотоков не отвечают представленным требованиям, и это остаётся областью дальнейших разработок.

Точность определения рассогласования на коротких интервалах необходима для нахождения импульсного случайного сдвига, возникающего при озвучивании фильмов. Разработка подобного объективного метода позволит расширить применение метода не только для генерации метаданных управления временным расхождением видео и звука в телевизионном вещании цепи, но и для сферы кинотелевизионных систем. Это позволит модернизировать технологический процесс озвучивания и дублирования фильмов, упростив и сделав эффективней процедуру оценки степени синхронности озвучиваемого материала.

К настоящему времени мало изучены проблемы мониторинга и генерации метаданных, относящихся к временному рассогласованию видео и звука, как элемента общей системы оценки и управления качеством в таких сложных системах, как кинотелевизионные. Как было отмечено выше, есть системы для мониторинга изображения, для мониторинга звука, но нет систем для мониторинга параметров, характеризующих взаимные соответствия между изображением и звуком. Практически нет работ, которые решают проблему мониторинга на основе генерации и обработки метаданных.

Распространение метода мониторинга на основе метаданных на сферу кинотелевизионных систем, в которой расхождение между видео и звуком при озвучивании фильмов всегда остается в форме «импульсных» или псевдослучайных сдвигов, имеет важное практическое значение. Это модернизирует технологический процесс озвучивания и дублирования, ускоряя и удешевляя процесс фильмопроизводства.

Вторая глава содержит результаты исследования и разработки методов измерения временного рассогласования изображения и звука в задачах мониторинга временных метаданных в кинотелевизионных системах. Современные мультимедийные системы реализованы на основе цифровых технологий. Величина возникающие задержки между аудио и видеосигналами зависит от количества промежуточных стадий обработки сигнала, прохождения по каналам и линиям передач. Подобное рассогласование, наиболее заметное для аудитории зрителей, является несовпадение движения губ диктора с произносимым текстом. Для генерации метаданных проверки синхронности губ необходим надёжный метод объективной оценки рассогласования аудио и видеосигналов. Ошибка рассинхронизации должна определяться в каждом кадре. Существующие методы определения несинхронности аудио и видеопотоков не отвечают представленным требованиям, и это остаётся областью дальнейших разработок.

Точность определения рассогласования на коротких интервалах необходима для нахождения импульсного случайного сдвига, возникающего при озвучивании фильмов. Разработка подобного объективного метода позволяет расширить применение не только для генерации метаданных управления временным расхождение видео и звука в вещательной цепи, но и найдёт применение в сфере

кинотелевизионных систем. Это позволит модернизировать технологический процесс озвучивания и дублирования фильмов, упростив и сделав эффективней процедуру оценки степени синхронности озвучиваемого материала.

Автоматическое измерение и компенсация рассогласования аудио и видео является сложной задачей. Известны методы решения этой задачи, которые предполагают измерение временного рассогласования аудио и видео сигналов на основе нахождения взаимной корреляции между уровнем интенсивности звука и величиной вертикальной составляющей вектора движения в области лица говорящего человека. Эти методы основаны на предположении, что громким звукам в речи человека соответствует изменение вертикальной составляющей вектора движения в области лица. Точность таких методов относительно невелика, нахождение рассогласование аудио и видеосигналов возможно на длинных интервалах последовательности (не менее 125 мс). Выполненные в диссертационной работе исследования показали, что для повышения точности необходимо учитывать речевые и мимические особенности произношения. Было установлено, что большей точности измерения рассогласования аудио и видео можно достичь, оценивая временной интервал между тайм-кодом фонем и тайм-кодом соответствующих им визем. Фонемой принято называть наименьшую единицу устной речи, виземоЙ - положение органов артикуляции при произнесении данной фонемы. Для увеличения точности измерения временного рассогласования аудио и звука в диссертации был разработан метод покадрового фонемно-виземного анализа. Метод предполагает выполнение следующих операций. Сигнал звуковой составляющей аудиовизуального материала обрабатывается с целью распознавания фонем и определения значения тайм-кода, при котором появляется каждая фонема. Сигнал изображения лица обрабатывается во временной окрестности каждой фонемы с целью нахождения момента времени (тайм-кода), в который на изображении лица присутствует визема, соответствующая данной фонеме. Этот момент устанавливается по минимуму среднеквадратической меры отклонения параметров органов артикуляции от параметров эталонной виземы, соответствующей анализируемой фонеме.

Тестируемый аудиовизуальный материал анализируется на предмет наличия той или иной фонемы в звуковой составляющей каждого кадра аудиовизуальной последовательности. Эталоном при этом служат типовые параметры характерных гласных звуков русской речи. Исследования показали, что в качестве таких параметров целесообразно использовать суммарный вектор коэффициентов предсказания - параметров модели голосового тракта, построенной в соответствии с методом линейного предсказания и рассчитанных на основе автокорреляционных матриц. Таким образом, вычислив среднеквадратическую разность между тестируемым набором суммарных значений вектора для каждого кадра и эталонным, можно установить тайм-коды кадров, соответствующих той или иной фонеме (предполагая, что значение этой разности в этих кадрах близко к нулю). Исследования показали, что в качестве параметров органов артикуляции, позволяющих определять временное положение виземы с точностью, равной интервалу одного кадра, могут использоваться относительные величины раскрыва рта по вертикали и горизонтали.

Для распознавания фонем был применён подход, основанный на оценке параметров модели голосового тракта - метод линейного предсказания. В работе была использована методика моделирования голосового тракта с помощью дробной передаточной функции, содержащей только полюса (1):

a

K(z)= —

i-I

Импульсная характеристика s(n\ соответствующая

разностному уравнению: р

s(n) = a8{ri) + '^¡al¡-s{n-k)

Общая форма предсказания:

s{rí) = ~^\tk-s[n-k) => е„ = s{n) -s(n) = s (n)-^ak -s(n-k)

ы

(1)

, удовлетворяет (2) (3)

Прогнозируемые коэффициенты выбираются из условия минимума среднеквадратического значения ошибки. Полная среднеквадратическая ошибка:

Ет = £е\п) = (и) - £^ • *(и - к)]'

п=] л«1 /1-1

Параметры можно найти, положив = О,

да, /=1,2 ,... р

что даёт систему уравнений

/ = 1,2 ,... р

(4)

о

где

<Р,к = £ ^{п-г)-$(п-к)

г = 1,2,... р

^ - коэффициенты автокорреляционной матрицы.

1,2,... р

(5)

(6)

Д(о)Д(1)... R(P - 1) 1 "а, 1

Л0)Л(О>... R(P - 2) = R(2)

R(P - 1 )R(P - 2)R(0) .«íj R(P)_

(7)

В работе был использован автокорреляционный метод, в котором вся информация о сигнале, необходимая для определения коэффициентов линейного предсказания, содержится в кратковременной ненормированной автокорреляционной функции. В результате получаем систему линейных алгебраических уравнений(5), которая в матричном виде представляет собой матрицу Теплица (7). Для решения системы линейных алгебраических уравнений с такой матрицей используем алгоритм Левинсона-Дарбина, который требует меньших вычислительных затрат.

Для автоматического распознавания и фиксации параметров визем было решено использовать информацию о цвете. В качестве основных параметров визем было решено взять значения раскрыва рта по горизонтали и вертикали. Выделение по цвету человеческой кожи и губ достаточно устойчиво, их цветовые характеристики практически не зависят от освещения [28]. Три этапа обработки изображения для нахождения виземных параметров: 1 - выделение области губ, 2 - выделение одного цвета, 3 - бинаризация изображения, исходя из данных гистограммы. В полученной матрице отсчётов фиксируются крайние значения, и вычисляется разница, соответствующая высоте и ширине раскрытия рта.

С помощью предложенных методов распознавания фонем и визем был сформирован массив эталонных данных фонем и соответствующих им визем гласных звуков, необходимый для фиксирования псевдослучайного сдвига, возникающего при озвучивании. На рис. 1,2 приведены схемы процедур сначала оценки положения фонем на временной оси, а затем нахождения локального рассогласования аудио и видеосигналов.

Эталонный фонемы

Рис. 1 Схема процедуры оценки положения фонем на временной оси.

виземы

Рис. 2 Схема процедуры нахождения локального рассогласования аудио и видео

Точность распознания и возможность фиксации несинхронности аудио и видео с помощью разработанного алгоритма, учитывающего как речевые, так и мимические особенности произношения, составляет интервал одного телевизионного кадра. Анализ имеющихся методов распознавания речи и образов доказал целесообразность применения именно фонемно-виземного метода распознавания для фиксирования случайного сдвига, возникающего при озвучивании в процессе производства фильмов.

Третья глава содержит результаты проведения серии экспериментов по оценке заметности нарушений синхронности изображения и звука в кинотелевизионных системах. Несмотря на огромные достижения в сфере разработки устройств для кинотелевизионных измерений, в области оценки качества изображения и звука зрительно-слуховое восприятие человека остается наиболее совершенным измерительным инструментом. Аудиовизуальный контент, создаваемый кинотелевизионными системами, предназначен, прежде всего, для зрителей, потому оценка качества человеком является решающей. В соответствии с этим измерения в области оценки качественных показателей изображений и звука могут быть разделены на две группы: объективные и субъективные.

Известны результаты многочисленных экспериментов по оценке заметности временного рассогласования изображения и звука аудиовизуальных материалов, однако исследованию до сих пор подвергались только ситуации, в которых временной сдвиг между изображением и звуком является статическим, т.е. неизменным во время предъявления зрителю аудиовизуального материала. Однако в таких технологических процессах, как озвучивание и дублирование фильмов, появляющееся временное рассогласование может быть рассогласованием импульсного типа, т.е. меняться скачкообразно в интервале даже одного фрагмента аудиовизуального материала. Такой характер временного рассогласования обычно связан с ошибками актера, выполняющего озвучивание или дублирование. Оценка субъективной заметности возникающих ошибок, выполняемая объективными методами с использованием модели субъективного восприятия временного рассогласования изображения и звука, позволяет, во-первых, подсказать актеру о допущенных ошибках и, во-вторых, принять решение о допустимости полученного варианта, если ошибки будут незаметны

зрителю. Поэтому исследование закономерностей субъективного восприятия временного рассогласования при импульсном сдвиге между изображением и звуком, является актуальной задачей, решение которой позволит упростить и ускорить процесс озвучивания и дублирования.

В ходе проведения экспериментов было установлено, что субъективная оценка локального рассогласования аудио и видеосигналов на коротких временных интервалах, характерного для условий озвучивания и дублирования фильмов, отличается от оценки при статическом сдвиге между звуком и изображением. Например, при показателе качества на уровне 4,5 баллов допустимые значения рассогласования отличаются примерно в 2 раза при отставании звука и в 3 раза - при опережении звука. Результаты экспериментального исследования показали, что зависимости субъективных оценок несинхронности изображения и звука при статическом и импульсном временном сдвиге отличаются с уровнем значимости £=0,025. Был также выявлен фактор влияния артикуляционных характеристик речи на восприятие несинхронности изображения и звука. Нарушение интонационно-фразовой сегментации речи при озвучивании, приводящее к несовпадению звуковой фонограммы с исходным снятым изображением, менее заметно зрителю, если фрагмент, где произошло рассогласование, состоит преимущественно из звуков с неявной артикуляционной динамикой (рис. 3,4). При показателе качества на уровне 4,5 баллов допустимые значения рассогласования отличаются примерно в 2 раза при отставании и опережении звука.

•320 -230 -24} -Ж -Ш) -120 .$0 -в 0 40 80 120 Ш 200 2« 280 320 Сдвнг{мс)

Рис. 3 Оценка локального рассогласования аудио и видеосигналов при внесении импульсного (пунктирная кривая) и статического сдвига (сплошная кривая).

Отставание 7Вука относительно видео

Опер ежение чвук а ; О-5"" ' относительно вод?о

импульсного сдвига слов с неявной артикуляционной динамикой (пунктирная кривая - «театр») и явной артикуляционной динамикой (сплошная кривая -

«принцип»).

Результаты эксперимента по субъективной оценке случайного сдвига, возникающего при озвучивании фильма, показали схожесть оценок, даваемых представителями разных целевых групп. Статистическая проверка подтвердила гипотезу о равенстве параметров распределений оценок для представителей экспертной и зрительской аудитории.

Четвёртая глава диссертации посвящена исследованию и разработке модели субъективной заметности нарушений синхронности.

Оценка качества аудиовизуальных программ, относящаяся к временному рассогласованию изображения и звука, выполняется в производственных условиях озвучивания и дублирования фильмов специалистами разной квалификации и опыта, в различных технологических условиях. Результаты такой оценки не являются стабильными и сопровождаются значительными ошибками. Использование достаточно точных моделей восприятия позволяет внести в производственный процесс стабильность и снизить величину ошибок.

Объектом моделирования в данном случае является процесс восприятия степени соответствия видимых артикуляционных движений и воспроизводимых звуков. Целевым назначением модели является оценка реакции слухо-зрительной системы на внешний стимул и её прогнозирование в разных условиях предъявления стимула. Оправданной в данном случае является графическая форма представления модели в виде распределения балловых оценок в зависимости от набора атрибутов оценки.

Результаты экспериментов по оценке вероятности обнаружения «статического» и «импульсного» сдвига послужили началом для построения модели оценки несинхронности видео и звука. Объективными параметрами несинхронности типа «статического» сдвига являются величина сдвига и знак, которые служат аргументами некоторой зависимости - субъективной заметности. или оценки качества. Эта зависимость является собственно сенсорной зависимостью, которую нельзя объяснить на уровне более простых явлений, поэтому она была измерена и табулирована.

Модель может быть рационализирована путем учета особенностей и закономерностей работы зрительного и слухового анализаторов. Было решено построить модель, где аргументом сенсорной зависимости является один из параметров: величина максимального временного сдвига, среднеквадратическое значение сдвига, либо среднее значение абсолютных величин положительного и отрицательного сдвигов. Для численной оценки возможностей предсказания субъективных оценок с помощью моделей в данной работе использовались критерии, предложенные группой экспертов по качеству изображения (У<ЗЕО). Эти критерии разделены на три группы: критерии оценки точности, монотонности и совместности предсказания. Разработанные модели обладают высокими показателями монотонности и совместности предсказания: Однако модель, в которой аргументом является среднеквадратическое значение сдвига, является наиболее точной. В работе показано, что разработанный алгоритм пригоден для решения задач оценки и контроля качества степени синхронности озвучиваемого материала. Проведено экспериментальное исследование применимости разработанного алгоритма в задачах оценки качества синхронности аудиовизуального контента. Простота привлечённой графической модели позволяет применять алгоритм для управления качеством в режиме близком к реальному времени. Высокая линейность полученных зависимостей между предсказанными и экспериментальными оценками говорит о применимости все трёх моделей для предсказания оценки заметности несинхронности при дублировании (озвучивании) фильмов. Разработанная модель позволяет оценивать субъективную заметность несинхронности видео и звука для условий кинематографа.

В работе также решается задача использования моделей оценки несинхронности видео и звука для рационализации процессов чистовой записи звука и дублирования. Был проведен эксперимент по субъективной оценке степени синхронности озвучивания видеоматериала. Для этого было сформировано и переозвучено две тестовых последовательности. Для каждой видеопоследовательности было отобрано по три варианта озвучивания: 1 -близкий к синхронному варианту, 2- несинхронность заметна, но не мешает, 3 -несинхронный вариант озвучивания, который мешает просмотру. Каждая видеопоследовательность была продемонстрирована экспертной аудитории. В результате были получены субъективные данные заметности рассогласований, возникающих при озвучивании видеоматериала.

Для того, чтобы получить данные о количестве и величине локальных сдвигов в переозвученном материале, была проведена объективная оценка аудиовизуального материала. С помощью предложенного фонемно-виземного метода были определены отклонения звука от изображения в отдельных точках

аудиовизуальных последовательностей, а именно, в точках, где произносились фонемы [И], [А], [У].

Разработанная модель была применена к аудиовизуальным последовательностям, используемым в экспериментах. В результате применения модели находились предсказания оценки качества, которые сравнивались с фактическими оценками качества, данными экспертами. Предложенную модель можно считать удачной, так как линии тренда для различных входных данных имеют наклон близкий к 45 градусам. Анализ возможностей использования разработанных моделей для предсказания оценки качества с помощью критериев оценки точности, монотонности, совместимости предсказания дал положительный результат. Разработанная модель обладает высокими показателями точности, монотонности и совместности предсказания: среднеквадратичная ошибка предсказания для разных условий наблюдения лежит в диапазоне 1.2 - 1.9 единиц шкалы (0.6 - 0.95 балла), коэффициент корреляции Пирсона - в диапазоне 0.90 - 0.95, коэффициент ранговой корреляции Спирмена - в диапазоне 0.93 - 0.95, отношение несовместности - в диапазоне 0.06 - 0.08.

Пятая глава диссертации посвящена исследованию и разработке методов семантического мониторинга. Под семантическим мониторингом понимается мониторинг, относящийся к содержанию и смыслу программ и фильмов. В настоящее время результатом такого мониторинга, выполняемого не в реальном времени, является чаще всего транскрипт, или текстовая расшифровка программы или ее фрагмента. Возможно составление эфирной справки - перечня передач, где упоминались заданные ключевые слова, а также посюжетного аннотирования. Наиболее высоким уровнем отличается так называемый клиппинг - тематическая подборка фрагментов эфира, включающая заставку, оглавление и меню, обеспечивающее навигацию между сюжетами. Однако перечисленные виды мониторинга не дают полного представления о семантической стороне программ.

Значительное расширение представления о том, какое впечатление оставляет содержание программ и фильмов на зрителя, дает разработанный в диссертационной работе метод оценки зависимости эмоционального воздействия от времени. Зависимость критерия «эмоционального воздействия» от времени отображает фабулу аудиовизуального произведения, линию развития событий. Такой подход соответствует драматургической схеме Фрейтага, в соответствии с которой любое произведение, имеющее завязку, кульминацию, развязку, можно отобразить на схеме в виде треугольника по степени напряжённости происходящих событий. Вершина треугольника соответствует кульминации. Степень воздействия на аудиторию зависит от распределения последовательности событий во времени. Это применительно не только к кинематографу, но к телевидению. Последовательность выдачи сюжетов в новостных выпусках имеет непосредственное влияние на восприятие их зрителем. «Соседство» различных материалов почти никогда не бывает случайным. В диссертационной работе исследованы основные принципы ранжирования и вёрстки новостей информационного выпуска, а также определения последовательности их сообщения аудитории основанные на определении степени общественно-политической важности и общечеловеческой значимости новостей. В диссертационной работе предложен метод, основанный на модели выдачи новостей в эфир, с помощью которой можно выделять чёткие временные зоны

для наиболее актуальных, интересных зрителю новостей. Были проведены исследования, задачей которых было выявить закономерности в порядке выдачи информации в эфир. Последовательность расположения информационных материалов - весьма радикальный инструмент воздействия на аудиторию при полной беспристрастности изложения фактов. При этом применяются два подхода: контрастности и дополняемости. Необходимо учитывать, что зритель может, как подсоединиться к потоку вещания, так и отключиться от него в любое удобное для него время. Оценка аудиовизуального контента проводилась по набору атрибутов в зависимости от жанра. Для художественных фильмов этим критерием является «эмоциональная напряжённость», для новостей такими атрибутами являются актуальность и новизна. Если проводить оценку аудиовизуального контента по критерию «эмоциональная напряжённость» и строить кумулятивную кривую в зависимости от времени просмотра, то она будет иметь один общий максимум, соответствующий кульминационному моменту по схеме Фрейтага, и несколько локальных экстремумов. Разработка методов оценки временного положения эффектов программы или фильма, воздействующих на зрителя, сводится к нахождению временных параметров этих максимумов. Эти параметры являются важными данными мониторинга. Эти данные могут представлять собой набор наиболее эмоционально напряжённых, актуальных моментов, которые могут быть включены в компактную версию данной программы (шпигель) или фильма, а главное - использоваться авторами фильмов и телевизионных программ для управления производством.

Такие системы не являются системами реального времени. Разработка методов генерации метаданных для такого «семантического» мониторинга может иметь большое практическое значение для мониторинга масс-медиа.

В заключении сформулированы основные результаты проведенных исследований, которые состоят в следующем:

1. Управление качеством услуг на современном этапе развития телевидения и кинематографа требует применения мультимодального, многоуровневого и распределенного мониторинга. В диссертации разработан подход к решению проблемы мониторинга в телевизионных и кинематографических системах, построенных на базе информационных технологий, как задачи генерации и управления метаданными.

2. Разработан метод измерения временного рассогласования аудио и видео сигналов на коротких интервалах, основанный на покадровом фонемно-виземном анализе изображения и звука. Показано, что для повышения точности измерения в сравнении с известными методами необходимо учитывать речевые и мимические особенности произношения. В качестве параметров фонем предложено использовать суммарный вектор коэффициентов предсказания - параметров модели голосового тракта, построенной в соответствии с методом линейного предсказания, а в качестве параметров органов артикуляции, позволяющих определять временное положение виземы, предложено использовать относительные величины раскрыва рта человека по вертикали и горизонтали. Точность распознания и возможность измерения несинхронности аудио и видео с помощью разработанного метода, учитывающего как речевые, так и

мимические особенности произношения, составляет один телевизионный кадр.

3. Субъективная оценка локального рассогласования аудио и видеосигналов на коротких временных интервалах, характерного для условий озвучивания и дублирования фильмов, отличается от оценки при статическом сдвиге между звуком и изображением. Результаты экспериментального исследования показывают, что распределения субъективных оценок несинхронности изображения и звука при статическом и импульсном временном сдвиге отличаются с высоким уровнем значимости. При показателе качества на уровне 4,5 балла допустимые значения рассогласования отличаются примерно в 2 раза при отставании звука и в 3 раза - при опережении звука.

4. В диапазоне временных рассогласования изображения и звука импульсного типа (-320,..+320мс) не выявлено значительных различий в субъективной оценке сдвига при опережающем и отстающем звуке.

5. В ходе проведения экспериментов был выявлен фактор влияния артикуляционных характеристик речи на восприятие несинхронности изображения и звука. Нарушение интонационно-фразовой сегментации речи при озвучивании, приводящее к несовпадению звуковой фонограммы с исходным снятым изображением, менее заметно зрителю, если фрагмент, где произошло рассогласование, состоит преимущественно из звуков с неявной артикуляционной динамикой. На уровне качества 4,5 балла допустимые значения рассогласования при импульсном временном сдвиге слов, состоящих преимущественно из звуков с явной и неявной артикуляционной динамикой, отличаются примерно в 2 раза.

6. Предложена модель оценки несинхронности видео и звука для условий кинематографа, позволяющая рационализировать процессов чистовой записи звука и дублирования фильмов. Экспериментально доказано, что модель обладает высокими показателями точности, монотонности и совместности предсказания.

7. Проведено экспериментальное исследование применимости разработанной модели в задачах оценки качества синхронности аудиовизуального контента. Предложенный алгоритм обладает высокими показателями точности, монотонности и совместности предсказания: среднеквадратичная ошибка предсказания для разных условий наблюдения лежит в диапазоне 1.2 - 1.9 единиц шкалы (0.6 - 0.95 балла), коэффициент корреляции Пирсона - в диапазоне 0.90 - 0.95, коэффициент ранговой корреляции Спирмена - в диапазоне 0.93 - 0.95, отношение несовместности - в диапазоне 0.06 - 0.08. Показано, что разработанный алгоритм пригоден для решения задач оценки и контроля качества синхронности озвучиваемого материала.

8. Существующие методы описания аудиовизуальных программ: транскрипт, эфирная справка, клиппинг соответствуют видам мониторинга, которые не дают представления о семантической стороне программ. Необходимо вводить семантический мониторинг. Результаты мониторинга в виде семантического описания могут быть использованы при оценке программ и

фильмов, для информирования общественности, а также в качестве инструмента обратной связи при реализации проектов.

Составление семантических описаний аудиовизуальных программ с учетом степени воздействия на аудиторию и реакции зрителя должно быть основано на анализе формы кумулятивной кривой, представляющей собой зависимость критерия «эмоционального воздействия» от времени. Предложенный метод составления семантических описаний аудиовизуальных программ позволяет отказаться от традиционной технологии составление описаний, которая не является эффективной и связана с большими затратами времени и труда.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Федина, А.А. Кооперативное обогащение семантических метаданных аудиовизуальных архивов / Гласман К.Ф., Перегудов А.Ф., Кияшко К.С., Федина А.А. // Техника кино и телевидения. - 2004 - № 4 с.29-33.

2. Федина, А.А. Кооперативное обогащение семантических метаданных аудиовизуальных архивов / Гласман К.Ф., Перегудов А.Ф., Кияшко К.С., Федина А.А. // Техника кино и телевидения. 2004 - №5 с. 20-23.

3. Федина, А.А. Обогащение семантических метаданных аудиовизуальных архивов в кооперации с ассоциациями пользователей / Гласман К.Ф., Перегудов А.Ф., Федина А.А. // 6-я Международная выставка и конференция «Кабельное и спутниковое ТВ, ТВЧ, Телерадиовещание, Широкополосный доступ, ТВ по IP протоколу, Спутниковая связь», Москва, 10-13 февраля 2004,: Тезисы докладов/CSTB,- M., 2004.-С.15.

4. Федина, А.А. Семантическая компрессия аудиовизуальных материалов на основе взаимодействия архива с ассоциациями пользователей / Гласман К.Ф., Перегудов А.Ф., Федина А.А. // 12-я Международная конференция «Организационно-правовые, финансовые и научно-технические аспекты современного телевидения и радиовещания», Софрино, 5-9 апреля 2004.: Материалы конференции/ВНИИТР.-М., 2004.-с.10.

5. Федина, А.А. Метод составления последовательного обзора аудиовизуального контента: семантическая компрессия // 2-я Международная конференция «Новые технологии в телевидении и кинематографе-2004», Санкт-Петербург, 2-3 июня 2004.: Материалы конференции/ СПбГУКиТ.-СПб., 2004.-c.22.

6. Федина, А.А. Метод составления последовательного обзора аудиовизуального контента: семантическая компрессия // 4-я Международная конференция «Телевидение: передача и обработка изображений», Санкт-Петербург, 24-26 мая 2005.: Материалы конференции/СПбГЭТУ «ЛЭТИ».-СПб.,2005.- с.46.

7. Федина, А.А. Домашний мультимедийный терминал // 3-я Международная конференция «Цифровые технологии в аудиовизуальной технике-2005», Санкт-Петербург, 29-30 июня 2005.: Материалы конференции/ СПбГУКиТ.-СПб., 2005.-c.27.

8. Федина, А.А. Оценка локального рассогласования аудио- и видео ряда на малых интервалах времени// 4-я Международная конференция «Цифровые и информационные технологии в электронной медиаиндустри-2006», Санкт-Петербург, 8-9 июня 2006.: Материалы конференции / СПбГУКиТ.-СПб., 2006.-е. 19.

9. Fedina A. Lip-Sync: the Evaluation of Audio-to-Video Timing Error over Shot Interval. 2006 IEEE Tenth International Symposium on Consumer Electronics, c. 178-184.

10. Федина, A.A. Оценка заметности нарушений синхронности изображения и звука в прикладных телевизионных системах. Вопросы радиоэлектроники, серия «Техника телевидения», вып.1, 2007 с. 119- 129.

11. Федина, A.A. Оценка заметности нарушений синхронности изображения и звука в прикладных телевизионных системах // 5-я Международная конференция «Телевидение: передача и обработка изображений», СПб., 2426 мая 2007.: Материалы конференции/СПбГЭТУ «ЛЭТИ».-СПб.,2007 с. 16-17.

Подписано в печать 17.11.2008. Формат 60x84 1/16. Бумага офсетная печ. л. 1,0 Тираж 100 экз. Заказ № 41-170 от 17.11.2008.

Отпечатано с готовых макетов в фирме Копи-Р. Адрес: Россия, Санкт-Петербург, ул. Ломоносова д.20.

Оглавление автор диссертации — кандидата технических наук Федина, Александра Александровна

Введение.

1 Принципы мониторинга аудиовизуального ряда в свете современных тенденций развития кинематографических и телевизионных систем.

1.1 Мультимодальный мониторинг.

1.2 Многоуровневый и распределенный мониторинг.

1.3 Мониторинг как задача контроля и управления метаданными.

1.4 Мониторинг временного рассогласования видео и звука.

1.5 Семантический мониторинг.

Выводы.

2 Исследование и разработка методов измерения временного рассогласования изображения и звука в задачах мониторинга временных метаданных в кинотелевизионных системах.

Введение.

2.1 Покадровый метод фонемно-виземного анализа изображения и речи.

2.1.1 Метод распознавания фонем.

2.2 Метод оценки локальной иесинхронности видео и звука.

2.2.1 Распознавание визем.

2.2.2 Нахождение локального рассогласования аудио и видео.

Выводы.

3 Оценка заметности нарушений синхронности изображения и звука в кинотелевизионных системах.

3.1 Постановка задачи.

3.2 Существующие нормативы на допустимые значения нссинхронности сигналов видео и звука.

3.3 Субъективная оценка несинхронности при внесении статического сдвига

3.3.1 Методика проведения и обработка данных эксперимента.

3.3.2 Результаты эксперимента по оценке заметности нарушений синхронности изображения и звука.

3.4 Особенности рассогласования изображения и звука на малых интервалах времени в цифровом кинематографе.

3.4.1 Речевая сегментация (интонационные характеристики речи).

3.4.2 Артикуляционные характеристики речи.

3.4.3 Методика проведения и обработка данных эксперимента.

3.4.4 Результаты эксперимента по оценке заметности нарушений синхронности изображения и звука.

3.5 Оценка вероятности обнаружения несинхронности и оценка на шкале ITU для «псевдослучайного» сдвига отдельных слов сюжета.

3.5.1 Методика формирования и проведения эксперимента.

3.5.2 Оценки разных целевых групп.

Выводы.

4 Исследование и разработка модели субъективной заметности нарушений синхронности.

Введение.

4.1 Постановка задачи.

4.2 Построение моделей оценки несинхронности.

4.2.1 Начальный этап построения модели.

4.2.2 Создание модели.

4.2.3 Разведочный анализ.

4.2.4 Качество модели восприятия импульсной несинхронности а/в материала, возникающего при дублировании.

4.3 Применение модели для рационализации процессов дублирования.

Выводы.

5 Исследование и разработка методов семантического мониторинга.

5.1 Постановка задачи.

5.2 Общий стандарт описания мультимедийного контента MPEG-7.

5.2.1 Экстенсивное и интенсивное описание программ.

5.2.2 Зависимость оценок от времени.

5.2.3 Целевые группы.

5.3 Генерация метаданных семантического мониторинга.

5.3.1 Семантическая компрессия.

5.3.2 Семантическая оценка информпрограмм.

Выводы.

Введение 2008 год, диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам, Федина, Александра Александровна

Телевидение и кинематограф как технические системы претерпевают на современном этапе серьезные трансформации. Происходит замена традиционных технологий производства на цифровые и-информационные, осуществляется переход от аппаратных решений к программным. Появляется телевидение высокой четкости, в котором значительно (более чем в четыре раза) улучшается четкость изображения. Появляются домашние кинотеатры, в которых используются видеопроекторы высокой четкости [87]. Звуковая составляющая телевизионных программ и фильмов в домашних кинотеатрах воспроизводится по системе окружающего звука. Телевизионные системы высокой четкости образуют техническую базу цифрового театрального кинематографа. Появляются новые службы: телевидение по запросу, мобильное телевидение. В традиционных и новых кинематографических и телевизионных системах используются общие технические решения многих элементов систем, у них общий выходной продукт -аудиовизуальный контент, но воспроизводимый различными техническими устройствами с экранами разных размеров — от экрана мобильного телефона до экрана кинотеатра[63,92,93,188].

Развитие технических средств телевидения и кинематографа неразрывно связано с совершенствованием техники и методов измерений. Разработка и внедрение новых систем и служб^ требует разработки, новых методов измерений. Однако принципы измерений в цифровой технике телевидения и кинематографа остаются* неизменными -такими, какими они были разработаны отечественной школой телевизионных измерений [57,60,61,6,1].

Теория и практика измерений в телевидении и цифровом кинематографе направлена на достижение следующих основных целей:

• Метрологическое обеспечение научных исследований, разработок и системного проектирования.

• Метрологическое обеспечение процесса производства аппаратуры.

• Метрологическое обеспечение процесса производства телевизионных программ и фильмов.

• Метрологическое обеспечение процесса передачи телевизионных программ и демонстрации цифровых фильмов.

В процессе научных исследований требуется производить самые разнообразные измерения, причем основным требованием к измерительным устройствам является 4 универсальность и высокая точность. В процессе производства аппаратуры измерения в основном используются для оценки соответствия параметров аппаратуры заданным нормам. В процессах производства и передачи телевизионных программ и демонстрации цифровых фильмов измерения производятся для контроля и регулирования параметров аппаратуры, диагностики и прогнозирования отказов.

К настоящему времени сложились следующие области измерений:

• Оценка и измерения качественных показателей изображения и звука.

• Измерения параметров видеосигналов и аудиосигналов.

• Измерения характеристик приборов и оборудования.

• Мониторинг в системах управления телевизионным вещанием и демонстрацией цифровых фильмов.

Требования, предъявляемые к измерениям и измерительным устройствам, многообразны и иногда противоречивы. Поэтому в каждой области измерений разрабатываются измерительные приборы, в основу работы которых положены различные методы:

• Прямые измерения.

• Косвенные измерения.

• Измерения в процессе передачи телевизионных программ и демонстрации фильмов.

• Измерения вне телевизионных программ и демонстрации фильмов.

• Измерения в реальном масштабе времени.

• Измерения не в реальном масштабе (отложенном) времени.

• Непрерывные измерения и оценка.

• Дискретные (выборочные) измерения и оценка.

Несмотря на огромные достижения в сфере разработки устройств для измерений, в области оценки качества изображения и звука сенсорная система человека остается наиболее совершенным измерительным инструментом [86,88,97,17]. Кроме того, системы вещания н кинотеатральные системы демонстрируют аудиовизуальный контент для зрителей, потому оценка качества человеком является решающей. В соотвегствии с этим измерения в области оценки качественных показателей изображения и звука могут быть разделены на две группы: объективные и субъективные измерения.

Объективные измерения в области оценки качества выполняются с помощью специальных приборов, или инструментов. Целью прямых измерений является непосредственная оценка качества изображений. Косвенные измерения выполняются с использованием специальных испытательных сигналов.

Субъективные измерения предполагают оценку качества изображения и звука наблюдателями — зрителями. Субъективные измерения качества всегда являются прямыми, поскольку мнения зрителей о качестве воспроизведения испытательных сигналов с использованием каких-либо шкал субъективных величин не имели бы никакого значения.

И телевидение, и кинематограф являются синтешческими дисциплинами, соединяющими достижения разных областей науки и техники: физики, оптики, механики, электроники, информатики и многих других. Технические средства телевидения и кинематографа разрабатываются в разных отраслях, в которых существуют разнообразные и независимые методы измерений и измерительные установки. Однако производство телевизионных программ и фильмов, а также передача телевизионных программ и демонстрация цифровых фильмов являются теми областями, для которых методы измерений и измерительные устройства должны быть созданы в рамках телевидения и кинематографа. С введением новых систем телевидения и цифрового кинематографа в сфере измерений стали актуальными исследования и разработки, имеющие целью метрологическое обеспечение процесса производства телевизионных программ и фильмов и метрологическое обеспечение процесса передачи телевизионных программ и демонстрации цифровых фильмов. В связи с внедрением новых систем, таких как телевидение высокой четкости, цифровой кинематограф, мобильное телевидение, стали использоваться новые методы обработки сигналов изображения и звука, новые каналы связи, новые методы передачи сигналов. Это привело к появлению дополнительных видов искажений, помех и артефактов, которые различны для видео и аудиосигналов. Объединение изображения и звука в рамках единого аудиовизуального ряда требует измерения и коррекции этих новых искажений. Потребовались существенные изменения в области мониторинга в системах управления телевизионным вещанием и демонстрацией цифровых фильмов. Исследования в этой области надо признать важными и актуальными для современного этапа развития телевидения и кинематографа, основанного на применении цифровых и информационных технологий.

Выполненный анализ позволяет сформулировать цель диссертационной работы -исследование и разработка методов мониторинга аудиовизуального ряда в телевизионных и кинематографических системах.

В диссертационной работе поставлены и решены следующие задачи:

1. Анализ современного этапа развития телевидения и кинематографа и разработка принципов мониторинга аудиовизуального ряда в свете современных тенденций развития кинематографических и телевизионных систем.

2. Исследование и разработка методов измерения временного рассогласования изображения и звука в задачах мультимодального мониторинга телевизионных и кинематографических систем.

3. Оценка заметности временного рассогласования изображения и звука в телевизионных и кинематографических системах.

4. Исследование и разработка модели субъективной заметности рассогласования изображения и звука.

5. Исследование и разработка методов семантического мониторинга.

Методы исследования. Теоретические исследования выполнены с использованием методов информатики, математического моделирования. Экспериментальные исследования проведены с использованием принятых в телевидении методов планирования, проведения и статистической обработки результатов зрительских экспертиз и методов моделирования данных.

Научная новизна диссертационной работы состоит в следующем:

1. Показано, что управление качеством услуг на современном этапе развития телевидения и кинематографа требует применения мультимодального, многоуровневого и распределенного мониторинга. Разработан метод решения проблемы мониторинга в телевизионных и кинематографических системах, построенных на базе информационных технологий, как задачи генерации и управления метаданными.

2. Разработан метод измерения временного рассогласования аудио и видео сигналов на коротких интервалах, основанный на покадровом фонемно-виземном анализе изображения и звука. Показано, что для повышения точности измерения в сравнении с известными методами необходимо учитывать речевые и мимические особенности произношения. В качестве параметров фонем предложено использовать суммарный вектор коэффициентов предсказания - параметров модели голосового тракта, построенной в соответствии с методом линейного предсказания, а в качестве параметров органов артикуляции, позволяющих определять временное положение виземы с точностью, равной интервалу одного кадра, предложено использовать относительные величины раскрыва рта человека по вертикали и горизонтали.

3. Проведён сравнительный анализ субъективного восприятия различных типов временного рассогласования изображения и звука. Установлено, что субъективные оценки локального рассогласования изображения и звука импульсного типа на коротких временных интервалах, что характерно для условий озвучивания и дублирования фильмов, отличаются от известных оценок при статическом сдвиге между звуком и изображением. При.показателе качества на уровне 4,5 балла допустимые значения рассогласования отличаются примерно в 2 раза при отставании звука и в 3 раза - при опережении звука. Был также выявлен фактор значительного влияния артикуляционных характеристик речи на восприятие несинхронпости изображения и звука. На уровне качества 4,5 балла допустимые значения рассогласования при импульсном временном сдвиге слов, состоящих преимущественно из звуков с явной и неявной артикуляционной динамикой, отличаются примерно в 2 раза.

4. Впервые разработана модель оценки временного рассогласования изображения и звука для рационализации процессов чистовой записи звука и дублирования фильмов. Экспериментально доказано, что модель обладает высокими показателями точности, монотонности и совместности предсказания.

5. Предложен метод составления семантических описаний аудиовизуальных программ. Была экспериментально показана возможность составления семантических описаний новостных выпусков, основанных на модели выдачи новостей в эфир в соответствии с принципами «контрастности» и «дополняемости». Была предложена технология составления кратких описаний аудиовизуальных материалов, основанная на анализе формы кумулятивной кривой, представляющей собой зависимость критерия «эмоционального воздействия» от времени.

Практическая ценность. Значение результатов диссертационной работы для практики заключается в следующем:

1. Разработанный метод измерения временного рассогласования аудио и видео сигналов на коротких интервалах, который основан на покадровом фонемно-виземном анализе изображения и звука, позволяет добиться более высокой в сравнении с известными методами точности измерения, равной интервалу одного кадра.

2. Метод покадрового фонемно-виземпого анализа изображения и звука, учитывающий речевые и мимические особенности произношения человека, может использоваться для синхронизации изображения и звука в устройствах конечного пользователя, когда измерение относительной задержки аудио и видео сигналов в тракте передачи сигналов уже невозможно.

3. Применение предложенного метода анализа и модели оценки временного рассогласования изображения и звука, связывающей объективные показатели несинхронности сигналов и субъективное восприятие подобной несинхронности, позволяет упростить и ускорить процессы чистовой записи звука и дублирования фильмов. Предложенная модель позволяет в полуавтоматическом режиме составлять для актёра, озвучивающего экранный образ, инструкции, содержащие ссылки на слова, в которых произнесённые звуки не соответствуют мимическим движениям экранного образа, и рекомендации по изменению временного положения этих слов.

4. Предложенный метод составления семантических описаний аудиовизуальных программ позволяет отказаться от традиционной технологии составление описаиий, которая не является эффективной и связана с большими затратами времени и труда.

Материалы диссертационной работы изложены в пяти главах. Глава 1 посвящена критическому анализу управления качеством услуг на современном этапе развития телевидения и кинематографа. В ней также предлагается метод решения проблемы мониторинга в телевизионных и кинематографических системах, построенных на базе информационных технологий, как задачи генерации и управления метаданными. Глава 2 содержит исследование и разработку методов измерения временного рассогласования изображения и звука в задачах мультимодального мониторинга телевизионных и кинематографических систем. В главе 3 проводится сравнительный анализ субъективного восприятия различных типов временного рассогласования изображения. В главе 4 разрабатывается модель оценки временного рассогласования изображения и звука для рационализации процессов чистовой записи звука и дублирования фильмов. В главе 5 предложен метод составления семантических описаний аудиовизуальных программ. В заключении сформулированы основные результаты диссертационных исследований.

Заключение диссертация на тему "Исследование и разработка методов мониторинга аудиовизуального ряда в телевизионных и кинематографических системах"

6. Мониторинг в телевизионных и кинематографических системах, построенных на базе информационных технологий, является задачей генерации и управления метаданными.7. Составление семантических описаний аудиовизуальных программ с учетом степени воздействия на аудиторию и реакции зрителя должно быть основано на анализе формы кумулятивной кривой, представляющей собой зависимость критерия «эмоционального воздействия» от времени. Предложенный метод составления семантических описаний аудиовизуальных программ позволяет отказаться от традиционной технологии составление описаний, которая не является эффективной и связана с большими затратами времени и труда.8. Была экспериментально показана возможность составления семантических описаний новостных выпусков, основанных на модели выдачи новостей в эфир в соответствии с принципами «контрастности» и «дополняемости».9. Предложенный метод создания метаданных с добавленной стадией модификации содержания в режиме, близком к режиму реального времени, меняет жизненный цикл метаданных. Метаданные представляют собой эволюционирующий электронный документ -результат структурного и семантического описания аудиовизуальных материалов.10. Проведенные исследования подтвердили практическую реализуемость предложенного метода создания семантических метаданных аудиовизуальных материалов. При обработке результатов экспериментов были обнаружены четкие закономерности предпочтений, различные по разным целевым группам Заключение

1. Управление качеством услуг на современном этапе развития телевидения и кинематографа требует применения мультимодального, многоуровневого и распределенного мониторинга. В диссертации разработан подход к решению проблемы мониторинга в телевизионных и кинематографических системах, построенных на базе информационных технологий, как задачи генерации и управления метаданными.2. Разработан метод измерения временного рассогласования аудио и видео сигналов на коротких интервалах, основанный на покадровом фонемно-виземном анализе изображения и звука. Показано, что для повышения точности измерения в сравнении с известными методами необходимо учитывать речевые и мимические особенности произношения. В качестве параметров фонем предложено использовать суммарный вектор коэффициентов предсказания - параметров модели голосового тракта, построенной в соответствии с методом линейного предсказания, а в качестве параметров органов артикуляции, позволяющих определять временное положение виземы, предложено использовать относительные величины раскрыва рта человека по вертикали и горизонтали.Точность распознания и возможность измерения несинхронности аудио и видео с помощью разработанного метода, учитывающего как речевые, так и мимические особенности произношения, составляет один телевизионный кадр.3. Субъективная оценка локального рассогласования аудио и видеосигналов на коротких временных интервалах, характерного для условий озвучивания и дублирования фильмов, отличается от оценки при статическом сдвиге между звуком и изображением. Результаты экспериментального исследования показывают, что распределения субъективных оценок несинхронности изображения и звука при статическом и импульсном временном сдвиге отличаются с высоким уровнем значимости. При показателе качества на уровне

4.5 балла допустимые значения рассогласования отличаются примерно в 2 раза при отставании звука и в 3 раза - при опережении звука.4. В диапазоне временных рассогласования изображения и звука импульсного типа

(-320...+320мс) не выявлено значительных различий в субъективной оценке сдвига при опережающем и отстающем звуке.5. В ходе проведения экспериментов был выявлен фактор влияния артикуляционных характеристик речи на восприятие несинхронности изображения и звука.Нарушение интонационно-фразовой сегментации речи при озвучивании, приводящее к несовпадению звуковой фонограммы с исходным снятым изображением, менее заметно зрителю, если фрагмент, где произошло рассогласование, состоит преимущественно из звуков с неявной артикуляционной динамикой. На уровне качества 4,5 балла допустимые значения рассогласования при импульсном временном сдвиге слов, состоящих преимущественно из звуков с явной и неявной артикуляционной динамикой, отличаются примерно в 2 раза.6. Предложена модель оценки несинхронности видео и звука для условий кинематографа, позволяющая рационализировать процессов чистовой записи звука и дублирования фильмов. Экспериментально доказано, что модель обладает высокими показателями точности, монотонности и совместности предсказания.7. Проведено экспериментальное исследование применимости разработанной модели в задачах оценки качества синхронности аудиовизуального контента.Предложенный алгоритм обладает высокими показателями точности, монотонности и совместности предсказания: среднеквадратичная ошибка предсказания для разных условий наблюдения лежит в диапазоне 1.2 - 1.9 единиц > шкалы (0.6 - 0.95 балла), коэффициент корреляции Пирсона - в диапазоне 0.90 -

0.95, коэффициент ранговой корреляции Спирмена - в диапазоне 0.93 - 0.95, отношение несовместности - в диапазоне 0.06 — 0.08. Показано, что разработанный алгоритм пригоден для решения задач оценки и контроля качества синхронности озвучиваемого материала.8. Существующие методы описания аудиовизуальных программ: транскрипт, эфирная справка, клиппинг соответствуют видам мониторинга, которые не дают представления о семантической стороне программ. Необходимо вводить семантический мониторинг. Результаты мониторинга в виде семантического описания могут быть использованы при оценке программ и фильмов, для информирования общественности, а также в качестве инструмента обратной связи при реализации проектов.9. Составление семантических описаний аудиовизуальных программ , с учетом степени воздействия на аудиторию и реакции зрителя должно быть основано на анализе формы кумулятивной кривой, представляющей собой зависимость критерия «эмоционального воздействия» от времени. Предложенный метод составления семантических описаний аудиовизуальных программ позволяет отказаться от традиционной технологии составление описаний, которая не является эффективной и связана с большими затратами времени и труда.

Библиография Федина, Александра Александровна, диссертация по теме Приборы и методы преобразования изображений и звука

1. Антипин М.В. Интегральная оценка качества телевизионных изображений. - Л.: Наука, 1970.-154 с.

2. Антипин М.В., Андронов В.Г., Гласман К.Ф. Квалиметрия кипотелевизионных систем: Учебное пособие. -Л.: ЛИКИ, вып. 1,1976.-124с; вып. 2. 1977.-76 с.

3. Антипин М.В., Гласман К.Ф. Квалиметрия кинотелевизионных систем: Учебное пособие.-Л.: ЛИКИ, 1983.-111 с.

4. Бектемирова З.А.. Комар В.Г. Информационная оценка качества изображения различных систем кинематографа.//Техника кино и телевидения, 1978, №3, с. 3-10.

5. Белицкий В.И. Субъективные методы интегральной оценки качества в кино и телевидении: Учебное пособие. -СПб.: СПИКиТ.1995.-32 с.

6. Белоусов А.А. Диагностика механических систем аудиовизуальной техники. - СПб.: Политехника, 2002.

7. Беспрозванный М., Преображенский И., Рудинский И. Количественная оценка качества обслуживания зрителей.//Киномеханик, 1992, №3, с. 20-30.

8. Бешелев Д., Гурвич Ф.Г. Математико-статистические методы экспертных оценок .- М.: Статистика, 1980.-263 с.

9. Быков Р.Е. и др. Телевидение: Уч. пособие для радиотехнических спец. вузов. -М.: Высшая школа, 1988.-248 с.

10. Быков Р.Е. Теоретические основы телевидения: Учеб. для вузов. -СПб.: Лань, 1998.- 288 с.

11. Быков Р.Е., Гуревич С Б . Анализ и обработка цветных и объемных изображений. - М.: Радио и связь, 1984. - 248 с.

12. Былянски П., Ингрэм Д. Цифровые системы передачи. Пер. с англ. по ред. А.А. Визеля - М.:Связь, 1980.-360 с.

13. Введение в науку русского языка. Учеб. Для студентов пед. ин-тов/ Л.Л. Касаткин, Л.П. Крысин.-М.:Просвещение,1989.-287с.

14. Вентцель Е.С. Теория вероятностей. -М.: Государственное издательство физико- математической литературы, 1962.-564 с.

15. Воробьёв В.И., Грибунин В.Г. Теория и практика вейвлет-преоразования., ВУС, 1997.

16. Гласман К.Ф. Видеокомпрессия // 625, 1997, №7, с.60-76.

17. Гласман К.Ф. MPEG-2 и измерения// 625, 2004, №1, с. 12-21

18. Гласман К.Ф. Конференция IBC/98: теория и практика цифрового вещания.//625.- 1998.-№9.-с. 38-44.

19. Гласман К.Ф., Букина А.В., Логунов А.Н., Покопцева М.Н., Шурбелев П.А. Оценка качества изображения при видеокомпрессии // Техника кино и телевидения. 1999, №8. с. 48-51.

20. Гласман К.Ф., Логунов А.Н. Метод оценки заметности артефактов видеокомпрессии на основе пространственно-частотной модели зрительного анализатора. Материалы конференции «Телевидение: передача и обработка изображений», СПб, 2000, с.55-57.

21. Гласман К.Ф.. ЛогуновА.Н., Перегудов А.Ф., Лычаков В.Н. Объективная оценка артефактов видеокомпрессии. Техника кино и телевидения, 2000, №2.

22. Гласман К.Ф., Перегудов А.Ф., Кияшко К.С. Федина А.А. Кооперативное обогащение семантических метаданных аудиовизуальных архивов. // Техника кино и телевидения. - 2004. - №5. - с.29-33.

23. Глезер В.Д. Зрение и мышление. Л.: Наука, 1985.

24. Глезер В.Д. Механизмы опознания зрительных образов. М.: Наука, 1966.

25. Глезер В.Д., Цуккерман И.И. Информация и зрение. М.;Л.; Изд-во АН СССР, 1961.

26. Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: «Высшая школа», 1977.

27. Гнеденко Б.В. Курс теории вероятностей. М.: Наука. 1969.

28. Гольденберг Л.М. и др. Цифровая обработка сигналов. Уч. пособие для вузов.-2-е изд. перераб и доп.- М.: Радио и связь, 1990.-256 с.

29. ГОСТ 26320-84. Оборудование телевизионное студийное и внестудийное. Методы субъективной оценки качества цветных телевизионных изображений. М.: Изд-во стандартов, 1996.

30. Гофайзен О.В. и др. Закон суммирования ухудшений, вносимых каналом изображения системы цветного телевидения.//Техника кино и телевидения. 1979, №6, с. 37-42.

31. Гофайзен О.В., Басий В.Т., Медведев Ю.А., Бабич В.В. и др. Проблемы построения телевизионного квалиметра. // Техника кино и телевидения, 1993, № 5. с.37-45.

32. Гофайзен О.В., Епифанов Н.И., Ляхова Т.М., Певзнер Б.М. Субъективная оценка качества цветных ТВ изображений./Лехника кино и телевидения, 1979, №2, с. 32-38.

33. Гранрат Д. Роль моделей зрения человека в обработке изображений // ТИИЭР, 1981, Т. 69, №5, с. 65-77.

34. Гребенников О.Ф. Основы записи и воспроизведения изображения (в кинематографе): Учебное пособие для вузов кинематографии. - М.: Искусство, 1982.-239 с.

35. Гребенников О.Ф. Системы записи сигналов. - СПб. 1992.-76 с.

36. Дворкович В., Басий В., Дворкович А., Макаров Д. Телевизионные измерения как средство обеспечения высокого качества телевизионного вещания. 625,1999, №8, с.5-46.

37. Джакония В.Е. Запись телевизионных изображений. -Л.: Энергия, 1972.

38. Джакония В.Е., Гоголь А.А„ Ерганжиев Н.А. Телевидение: Учебник для вузов. М.: Радио и связь, 1986.

39. Дэвид Г. Метод парных сравнений. - М.:Статистика,1978.

40. Дюбери П. Многоуровневый мониторинг дос говерности в цифровом телевизионном вещании//625. 2004, №1, с . 24-30

41. Зубарев Ю.С., Кривошеев М.И., Красносельский И.Н. Цифровое телевизионное вещание. Основы, методы, системы. - М.: Научно-исследовательский институт радио (НИИР), 2001. - 548с.

42. Иванов И.Л. Снижение размерности задач оценки качества телевизионного изображения. - В сб.: Проблемы развития техники и технологии кинематографа. Вып. 8.-СПб.: 1998, с.60-61.

43. Иванов И.А. Совершенствование сверточных алгоритмов интегральной оценки воспроизводящих свойств кинотелевизионных систем. Автореферат диссертации на соискание учёной степени к.т.н. - Санкт-Петербург, 2000.

44. Ивченко Б.П., Мартыщенко A.M., Монастрьтский M.JI. Теоретические основы информационно-статисгического анализа сложных систем. - СПб.:Лань,1997.

45. Ишуткин Ю.М., Раковский В.В. Измерения в аппаратуре записи и воспроизведения звука кинофильмов. -М.: Искусство, 1985.

46. Колемаев В.А., Староверов О.В., Турундаевский В.Б. Теория вероятности и математическая статистика. -М.: Высш. школа., 1991. - 400 с.

47. Коломенский Н.Н. Новый интегродифференциальный критерий оценки качества изображения и звука кинематографических и кинотелевизионных систем. // Техника кино и телевидения, 1992, №5, с.25-28.

48. Коломенский Н.Н. Проблема интегральной оценки качества изображения и звука: от теории к практике.//Техника кино и телевидения, 1994, №5.

49. Коломенский Н.Н. Теоретические проблемы технологической квалиметрии аудио- и видеосистем. В сб.: Труды СПИКиТ. Вып.6., 1995, с. 85-89.

50. Коломенский Н.Н., Коломенский И.Н. О логико-математических обоснованиях законов психофизики. В сб.: Труды СПИКиТ. Вып.5., 1995.

51. Коломенский Н.Н., Нахле А., Куприна Т.А., Нестерова Е.И., Орлова К.Е., Усачева Е.В. Научные основы квалиметрии и сертификации аудио- и видеосистем. В сб.:Труды СПИКиТ. Вып.8, 1998. с. 46-51.

52. Комар В.Г. Информационная оценка качества изображения кинематографических систем.//Техника кино и телевидения, 1971, №10,с.10-22.

53. Королюк В .С, Портенко Н.И., Скороход А.В., Турбин А.Ф. Справочник по теории вероятности и математической статистике.-Киев.: Наукова думка, 1978.-581 с.

54. Красильников Н.Н. Статистическая теория передачи изображений. - М.: Связь, 1976.-184с. по

55. Красильнпков Н.Н. Теория передачи и восприятия изображений: Теория передачи изображений и ее приложения. -М.: Радио и связь, 1986.-247 с.

56. Кривошеев М.И. Основы телевизионных измерений.З-е изд., доп. и перераб.- М.: Радио и связь, 1989. - 408 с.

57. Кривошеев М.И. Новый подход к ТВ вещанию на базе многоцелевого цифрового интерактивного контейнера// Электросвязь. 1987. - № 12.

58. Кривошеев М.И., Гласмаи К.Ф. О новом подходе к оценке качества изображения в цифровых телевизионных системах с видеокомпрессией. Материалы международного конгресса HAT «Прогресс технологий телерадиовещания», TRBE*2000, М.,2000.

59. Кривошеев М.И., Мкртумов А.С., Федунин В.Г. Качество изображения и измерения в цифровом телевидении.//625, 1999, №1, с. 72-75.

60. Кривошеев М.И., Хлебородов В.А. Историческое решение для мирового телевидения, кинематографии и компьютерной индустрии. Техника кино и телевидения, 1999, № 9, с.3-17

61. Кривошейкин А. В. Кабельное телевидение в цифре // Broadband. Кабельное телевидение и мультисервисные сети, 2004, №3, с. 18-21.

62. Литвак И.И., Ломов Б.Ф., Соловейчик И.Е. Основы построения аппаратуры отображения в автоматизированных системах. - М..'«Советское радио»,1975.

63. Ломов Б.Ф. Человек и техника. - М.: «Советское радио», 1966.

64. Львовский Е.Н. Статистические методы построения эмпирических формул.-2.е изд., доп. и перераб.- М.: Высшая школа. 1988.-239 с.

65. Новаковский СВ. Стандартные системы цветного телевидения. -М.: Связь, 1976.- 368 с. in

66. OCT 58-18-96 Телевещание. Нормативные выходные характеристики каналов изображения, звукового сопровождения и экспертная оценка качества изображения и звука по группам телецентров.

67. Паздерак И., Кепр М. Мультипликативный интегральный критерий качества телевизионного изображения // Техника кино и телевидения, 1976, №11, с.51-55.

68. Перегудов А.Ф. Автореферат диссертации «Исследование и разработка методов формирования и преобразования метаданных в телевизионных системах» на соискание учёной степени к.т.н. - Санкт-Петербург, 2003.

69. Пешковский A.M. «Опыт звуковой характерисгики русского языка как основы для эвфонических исследований», 1925

70. Полосин Л.Л. Качественные показатели цветного изображения. -Л.: ЛИКИ, 1984. - 54 с.

71. Попов А.А. Объективные измерения качества изображения.//Техника кино и телевидения, 1999, №4, с. 21-24.

72. Прэтт У. Цифровая обработка изображений./Пер. с англ.-М.: Мир,1982.-Книга 1- 312 с , Книга 2 - 480 с.

73. Птачек М. Цифровое телевидение. Теория и техника/ Пер. с чешек. Под ред. Л.С. Виленчика. -М.: Радио и связь, 1990.-528 с.

74. Пугачев B.C. Теория вероятностей и математическая статистика. -М.: Наука, 1979.- 496 с.

75. Роуз А. Зрение человека и электронное зрение М.гМир, 1977.

76. Рыфтин Я.А. Телевизионная система. Теория. - М.: Сов. радио, 1967.-271с.

77. Семенов Ю. А. Стандарт MPEG-7 // http://book.itep.ni/2/25/mpeg_7.htm , http://mpeg.telecomitalialab.com/standards/mpeg-7/

78. Симкин Б.Э. Пороговое функциональное моделирование получателя видеоинформации. // Техника кино и телевидения, 1993, №№7-9.

79. Солдатов А. Чтение по губам: распознавание контуров губ. // Международная научная конференция "Интеллектуализация обработки информации-2002". Тезисы докладов, с. 147.

80. Статистические методы анализа и планирования эксперимснтов/В.К. Гришин-М.: Издат. Московского Университета.1975

81. Стокхэм Т. Обработка изображений в контексте моделей зрения // Обработка изображений при помощи вычислительных машин. М.: Мир, 1973, с. 122-137.

82. Телевидение. Под ред. Джакония В.Е. 5-е изд., перераб. и доп.-М.: Связь, 1986.- 456 с.

83. Телевидение. Под ред. М.В. Антипина. - М.: Сов. радио, 1974.-160с.

84. Тихомирова Г.В. Временная амплитудная чувствительность зрительного анализатора // Техника кино и телевидения, 1979, №7, с 13-16.

85. Тихомирова Г.В. Электронный кинематограф высокого качества // Техника кино и телевидения, 2005, №1-2.

86. Тихомирова Г.В. Временная частотная характеристика зрительного анализатора и оценка его линейности // Техника кино и телевидения, 1979, №9, с.3-9.

87. Трифонов М.И. Математическая модель наблюдателя в процессе зрительной обработки изображения. - Диссертация на соискание уч. степени доктора техн. наук. Институт фи зиологии РАН им. И.П. Павлова, 1998, Санкт-Петербург.

88. Трофимов Б.Е., Куликовский О.В. Передача изображений в цифровой форме. - М.: Связь, 1980.-120 с.

89. Уваров В. К. Речь и слух (монография). - СПб.: СПбГУКиТ, 2005.

90. Умбиталиев А.А. Телевизионные и оптико-электронные космические системы технического зрения (монография). СПб. Изд. СПбУТМО. 2006.

91. Умбиталиев А.А. Твердотельная революция в телевидении: Телевизионные системы на приборах с зарядовой связью, системах на кристалле и видеосистемах на кристалле. М.: Радио и связь, 2006.

92. Фили Дж. Новые методы оценки цифрового видео http://wwvv.digitalvideo.ru/

93. Филимонов Р.П. Синтез и статистические свойства критериев последсткторного обнаружения слабых сигналов. - Диссертация на соискание уч. степени доктора физ.-мат. наук, ВНЦ «ГОИ» им. И.Вавилова, 1996, Санкт-Петербург. - 424с.

94. Филимонов Р.П. Иконика на рубеже веков. Состояние и перспективы // Оптический журнал.- 1999.- т.66. - №6.- с.5-26.

95. Филимонов Р.П. Контраст и его роль в обобщённой оценке качества изображения // Оптический журнал. - 2007.-T.74.- №5.-С. 31-38

96. Филимонов Р.П. Фотографические системы с цифровым преобразованием изображения. СПб.: Изд-во СПбГУКиТ, 2002.

97. ANSI Standard Tl.801.03-1996. Digital Transport of One-way Video Signals. Parameters for Objective Performance Assessment, 1996.

98. Antonio C. Franca Pessoa. Video Quality Assessment Using Objective Parameters Based on Image Segmentation. ITU-T. SG12, doc 12-39-Dec. 97.

99. ATSC Implementation Subcommittee Finding: Relative timing of sound and vision for broadcast operations, Advanced Television Systems Committee Doc. IS-191 (26 June 2003).

100. Bancroft, D. Universal Content Production — More Bang for the Byte // IBC 2004 Papers.

101. B.L.Jones and P.R. McManus. Graphic Scaling of Qualitative terms // SMPTE Journal, November 1986, pp. 1166-1171.

102. Baroncini V.A. Automatic Visual Quality Control in Digital TV Services. Proceedings of 1998 International Broadcasting Convention, pp. 425 to 430.

103. Blackwell О. M., Blackwell H.R. Visual Performance Data for 156 Normal Observers of Various Ages // Journal of IES, 1971, №10, pp.3-13.

104. Boroczky L., Ngai Y. Comparison of MPEG-2 and M-JPEG Video Coding at Low Bit Rates // SMPTE Journal, 1999, №3, pp. 161-164.

105. Bregler, C , Covell, M., Slaney, M. Video Rewrite: Driving Visual Speech with Audio. Corporation Interval Research

106. Bregier, С, Konig, Y.. "Eigenlips" for robust speech recognition. // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1994.

107. Brydon N. Saving Bits - The Impact of MCTF Enhanced Noise Reduction // SMPTE Journal, January 2002, pp.23-29.

108. Chalapathy Neti, Matthews Iain. Audio-visual speech recognition Workshop 2000 Final Report

109. Covell, M., Bregier, C. Eigenpoints. Proc.Int.Conf.Image Processing, Lausanne, Switzerland, vol.3, pp.471-474,1996

110. Devlin, В., Walland, P.Test card M - bitstreams for DVB test and measurement. Proceedings of 1998 International Broadcasting Convention, pp 409 to 412.

111. Dimino,G., Messina, A., Borgotallo, R. Automatic Newscast Transcription System. RAI Centre for Research and Technology Innovation. EBU technical review, 2008

112. Digital Cinema System Specification. VI.0. Final Approval July 20, 2005. Digital Cinema Initiatives, LLC. Hollywood, CA, United States of America. 2005

113. Digital VQM/AQM Metadata for Quality Monitoring //Document 6SCOM/34-E

114. EBU / SMPTE Task Force for Harmonized Standards for the Exchange of Programme Material as Bitstreams Final Report: Analysis and Results. // SMPTE Journal. - vol.107, No.9, September 1998. - pp.605-815.

115. EBU P_META - Metadata Exchange Scheme. EBU Technical Document :Tech 3295 2002. // http://www.ebu.ch.

116. EBU Technical Document 3293: EBU Core Metadata Set for Radio Archives.

117. EBU Technical Document 3295: EBU P M E T A Metadata Exchange Scheme.

118. EBU Technical Recommendation R37-2002: The relative timing of the sound and vision components of a television signal, the European Broadcast Union (2002).

119. ESCORT 2.4. «EBU System of classification of TV programmes».// http://www.ebu.ch.

120. Fedina, A., Glasman, K. Lip-Sync: the Evaluation of Audio-to-Video Timing Errors over Short Time Intervals. IEEE Tenth International Symposium on Consumer Electronics (ISCE 2006).

121. Fibush D. and Ravel M , 1998. Objective picture quality measurement: expectations today and tomorrow. Proceedings of 1998 International Broadcasting Convention. pp.418 to 424.

122. Fibush D. Overview of Picture Quality Measurement Methods. Contribution to IEEE Standards Subcommittee. Committee: G-2.1.6 Compression and Processing Subcommittee. Tektronix. May 6, 1997.

123. Fibush D. Practical Application of objective picture quality measurement. Proceedings of 1998 Internationl Bradcasting Convention, 1998. pp. 418-424.

124. Fibush D. Proposed Test Scenes for a Measurement Instrument. Contribution to IEEE Standards Subcommittee. Committee: G-2.1.6 Compression and Processing Subcommittee . Tektronix. August 5, 1997.

125. Fleck, M., Forsyth, D., Bregler, C. "Finding Naked People". // European Conf. on Computer Vision, 1996, Vol II, pp. 592-602.

126. Gardiner P.N., Tan K.T. Development of a perceptual distortion meter for digital video. Proceedings of 1997 Internationl Bradcasting Convention, 1998.

127. Glasman C , Andronov V., Bukina A. and Vasilyev O., 1997. Subjective assessment of compression systems by trained and untrained observers. Proceedings of 1 997 Internal ional Broadcasting Convention, pp. 476 to 481.

128. Glasman C , Bukina A., Logunov A, Pokoptseva M., Shourbelev P., 1998. Interval- scaled picture quality evaluation of compression systems based on paired com parisons. Proceedings of 1998 International Broadcasting Convention pp. 450 to 455.

129. Glasman C.F., Logunov A.N., Peregoudov A.F., Lichakov V.N. Video Compression Artefacts: Predicting the Perceptual Ratings. Proceedings of 1999 Internationl Bradcasting Convention, 1999.

130. Glasman C.F., Logunov A.N., Peregoudov A.F., Lichakov V.N. Predicting the perceptual ratings of compression artefacts for different viewing conditions. Proceedings of 2000 Internationl Bradcasting Convention.

131. Hamada Т., Miyaji S., Matsumoto S. Picture Quality Assesment System by Three- 1.ayered Bottom-Up Noise Weighting Considering Human Visual Perception. SMPTE Journal, January 1999. pp.20 to 26.

132. Harvey, R., Matthews, I., Bangham, J.A, Cox, S. Lip reading from scale-space measurements. // Proceedings of theConference on Computer Vision and Pattern Recognition, 1997.

133. Hiroaki IKEDA and Reiko IWAI: Estimation of audio-video delay in recorded media (to appear).

134. Hiroaki IKEDA and Junichi YOSHIO: Synchronization in multimedia - Technical review, Journal of IEEJ, Vol. 126, No.5, pp.288-291 (May 2006).

135. IEC Multimedia quality - Method of assessment of synchronization of audio and video

136. Introduction to MPEG-7. Multimedia Content Description Interface. Edited by Manjunath B.S., Salembier P., Sikora T. - John Wiley & Sons. 2002. - 371p.

137. ISO/9000 Модель обеспечения качества при проектировании, разработке, производстве, монтаже и обслуживании. ISO/9001--94, 1994.

138. ISO/IEC 11172-2. Information Technology - coding of moving pictures and associated audio for digital storage media up to about 1.5 Mbit/s: Part 2 video,1993.

140. ISO/IEC 15938 Information technology - Multimedia content description interface (Part 1 - Part 8)

141. ITU-R. Japan. Requirements for operational monitoring in broadcasting chains //Doc.6Q/124-E, 26 September 2005.

142. ITU-R. Chairman, Study Group 6. Report on the current metadata situation //Doc.6A/l 17-Е, 6E/359-E, 6J/38-E, 6M/140-E, 6Q/164-E, 6S/167-E,13 April 2006

143. ITU-R. Republic of Korea. VQM/AQM Metadata for Quality Monitoring //Doc.6Q/202- E16, 16 April 2007.

144. ITU-R. Japan. Proposed Annex to the working document on metadata for broadcast operational monitoring//Doc.6Q/207-E, 16 April 2007.

145. ITU-R. Japan. Metadata for broadcast operational monitoring// Doc.6Q/172-E, 10 August 2006.

146. ITU-R. Working Party 6J. Liaison statement to Working Parties 6Q and 6A - Metadata for broadcast operational monitoring// Doc.6A/160-E, 6Q/216-E, 18 May 2007

148. Janko B. 1998. Measuring the Quality of Compression Systems in Composite Video Environments. Proceedings of 1998 International Broadcasting Convention , pp . 403 to 408.

149. Knee M. A Single-Ended Picture Quality Measure for MPEG-2. Proceedings of 2000 Internationl Bradcasting Convention,2000. pp.95-100.

150. Kuratate Т., Munhall K., P. Rubin, Audio-Visual Synthesis of Talking Faces from Speech Production Correlation , EuroSpeech'99 Publication.

151. Lakhani G. Improved Equations for JPEG's Blocking Artifacts Reduction Approach. IEEE Transactions on circuits and systems for video technology, 1997, vol.7, №7. pp.930-934

152. Lauterjung J. Picture Quality Measurement. Proceedings of 1998 Internationl Bradcasting Convention, 1998, pp.413-417.

153. Laurel B. Computers as Theatre. Addition- Wesiey, 1993.

154. Lewis, J. Automated Lip-Sync: Background and Techniques. Computer Graphics 1.aboratory, New York, personal communication. 1991.

155. Lodge N. K. and Wood, D., 1996. New Tools for evaluating the quality of digital television - results of the MOSAIC project. Proceedings of the International Broadcasting Convention. September 1996. pp. 323-330.

156. Lopez A., Fernandez G. Efficient media delivery over mobile terminals using DVB-II // ISCE2006

157. Lubin J. A human vision system model for objective picture quality measurement, Proceedings of 1997 International Broadcasting Convention, pp.498 to 503.

158. Lubin J. A human vision system model for objective picture quality measurements. Proceedings of 1997 Internationl Bradcasting Convention, 1997.

159. Lubin J. Sarnoff JND Vision Model. Contribution to IEEE Standards Subcommittee. Committee: G-2.1.6 Compression and Processing Subcommittee. Sarnoff Corporation. Ausust. 1997.

160. Lubin, J.,1997. A human vision system model for objective picture quality measurements. 1997 International Broadcasting Convention, pp 498 to 503.

161. Munhall, K., Kroos, G.C. and JOZAN, G. Spatial frequency requirements for audiovisual speech perception

162. Nagato Narita. Graphic Scaling and Validity of Japanese Descriptive Terms Used in Subjective-Evaluation Tests // SMPTE Journal, July 1993, pp. 616-622.

163. P/ FTA DRAFT REPORT «Future Content Management Systems. December 2001. Advanced Digital Video Storage and On-line Retrieval system DG 1ST - Project 10147». // www.advisor-project.com

164. Paulk M.C., Weber C.V., Curtis В., Chrissis M.B. The Capability Maturity Model: Guidelines for Improving the Software Process. - Addison-Wesley, 2000.

165. Pennebaker, W.B., Mitchell J.L. JPEG Still Image Data Compression Standard, Van Nostrand Reinhold, 1993.

166. Peterson H., Ahumada A., Watson A. An Improved Detection Model for DCT Coefficient Quantization. SPIE, vol. 1913, pp. 191-201.

167. Peregudov, A.F., Glasman, K.F., and Logunov, A.N. Relative Timing of Sound and Vision: Evaluation and Correction. ISCE2006 Publication.

168. Question ITU-R 68/6: Synchronization necessary for the satisfactory reception of sound and picture signals (2003-10) - still under study as of 2006.

169. Question ITU-T 11/9: Requirements and methods for sound and television transmission over IP networks "webcasting" (Study period: 2005-2008).

170. Rabiner, R., Juang, B. Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffts, New Jersey, 1993.

171. Rabiner, R., Gold, B. Theory and Application of Digital Signal Processing. Prentice-Hall, Inc. Englewood Cliffs, New Jersey, 1975

172. Ribas-Cordera J. Windows Media 9 Series - a platform to deliver compressed audio and video for Internet and broadcast applications.// EBU Technical Review. 2003. - N 293, January 2003.

173. Recommendation ITU-R BT.500-11: Methodology for the subjective assessment of the quality of television pictures.

174. Recommendation ITU-T H.262 ISO/IEC 13818-2: Information Technology Generic Coding of Moving Pictures and Associated Audio Information.

176. Recommendation ITU-R BT.710-4: Subjective assessment methods for image quality in high-definition television.

177. Recommendation ITU-R BT.709-5: Parameter values for the HDTV standards for production and international program exchange.

178. Recommendation ITU-R ВТ. 1359-1: Relative Timing of Sound and Vision for Broadcasting

179. Recommendation ITU-R ВТ. 1377: Labelling of video and audio apparatus throughput (processing) delay.

180. Rohaly A.M.. Janko В., Patel K.,Durant L. Objective Picture Quality Measurement - New Understandings. Proceedings of 2000 International Bradcasting Convention, 2000.

181. Rodionov I.V. Building an efficient mobile video streaming service//ISCE 2006

182. Schade O.H. Optical and photoelectric analog of the eye // JOSA, 1956, vol.46, №9, pp.721-739.

183. SMEF Data Model v. 1.87/http://ww-w.bbc.co.uk

184. SMPTE 336M-2001, Television — Data Encoding Protocol using Key-Length-Value. - SMPTE,2001.

185. SMPTE 356M Type D-10 Stream Specifications-MPEG-2 4:2:2P@ML for 525/60 and 625/50.

186. SMPTE Metadata Dictionary as specified in SMPTE RP210a.

187. SMPTE RP 205-2000 — Application of Unique Material Identifiers in Production and Broadcast Environments.

188. SMPTE Standard 330M-2000 for Television — Unique Material Identifier (UM1D).

189. SMPTE Standard 336M« - Data Encoding Protocol using Key-Length-Value. 190. SMPTE Standard, 380M - Material Exchange Format (MXF). Descriptive Metadata Scheme-1 (Standard, Dynamic).

191. Sugamura, N., Itakura, F. Speech analyses and'synthesis methods developed at ECL in* NTT - From LPC to LSP. Speech Communication, 4(2), June 1986.

192. Switkes E., Bradley A., De Valois K.K. Contrast dependence and mechanisms* of masking interactions among chromatic and luminance grating* // Journal of the Optical Soci ety of America A, 1998, vol.*5, №7, p p . i 149-1162.

193. Takahashi Y., Ilasegawa K., Sugiyama K., Watanabe M. Describing Story Structure of Movies with Semantic Score Method - Toward Human Content Interface Design»// Bulletin of Japanese Society for Science of Design, Vol.46, №6, pp.57-66 (2000).

194. Tucker, T. Monitoring and Control of Audio-to-Video Delay in Television.Broadcast Systems. IBC2001 Conference Publication, v.2, pp.355 to,359.

195. Vahitov, Y. Sh. Audition and Speech, LIKI, Leningrad.1973

196. Van Nes F.L., Koenderink J.J., Bouman M.A. Spatiotemporal Modulation Transfer in the Human Eye // Journalof the Optical Society of America, 1967, vol.21, pp.1082-1088.

197. Watson, A. A singlechannel model does not predict visibility of asynchronous gratings // Vision Research, 1981, vol.21, ppЛ 799-1800.

198. Watson A. Transfer of contrast sensitivity in linear visual networks. Visual Neuroscience, 1992, vol.8, p. 65 - 76.

199. Watson A., Nachmais J. Summation of asynchronous gratings // Vision Research, 1980, vol.20, pp.91-94.

200. Watson A., Solomon J., Ahumada A. DCT Basis Function Visibility: Effects of Viewing Distance and1 Contrast Masking. Human Vision, Visual Processing, and Digital Display IV, pp.99-108, 1994.