автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы и модели энтропийной оптимизации систем обработки, хранения и передачи видеоданных
Автореферат диссертации по теме "Методы и модели энтропийной оптимизации систем обработки, хранения и передачи видеоданных"
На правах рукописи
ЦВЕТКОВ Олег Викторович
МЕТОДЫ И МОДЕЛИ ЭНТРОПИЙНОЙ ОПТИМИЗАЦИИ СИСТЕМ ОБРАБОТКИ, ХРАНЕНИЯ И ПЕРЕДАЧИ ВИДЕОДАННЫХ
Специальность 05.13.01 - Системный анализ, управление и обработка информации (технические системы)
АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук
- 3 НОЯ 2011
Санкт-Петербург 2011
4858590
Работа выполнена в Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН
Официальные оппоненты:
доктор технических наук, профессор
Тимофеев Адиль Васильевич
доктор технических наук, профессор
Сарычев Валентин Александрович
доктор технических наук, профессор
Дегтярев Владимир Михайлович
Ведущая организация: Санкт-Петербургский государственный университет информационных технологий, механики и оптики (СПбГУ ИТМО)
Защита состоится «24» ноября 2011 г. в 11.00 часов на заседании диссертационного совета Д.002.199.01 при Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.
С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Санкт-Петербургского института информатики и автоматизации РАН
Автореферат разослан «18» октября 2011 г. Ученый секретарь
диссертационного совета Д.002.199.01
кандидат технических наук
Нестерук Ф. Г.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы диссертации. Курс на ускоренную информатизацию страны, последовательно поддерживаемый Президентом и Правительством России, ставит множество практических задач перед специалистами, занятыми в сфере обеспечения населения качественной, полной и своевременной информацией. Современные мультимедийные и многомодальные подходы к подаче информации потребителю предполагают передачу текстов сообщений, сопровождаемых значительным количеством видео и аудио информации. Среди этих трех видов представления информации видеоданные в наибольшей степени загружают ресурсы информационной инфраструктуры. В связи с этим, оптимизация потоков видеоданных и систем их обработки, хранения и передачи является насущной проблемой на современном этапе информатизации страны.
Решение этой практической проблемы сопряжено с решением сложной научной проблемы разработки и обоснования обобщенного описания цифровой системы обработки, хранения и передачи видеоданных с учетом технических, технологических, экономических и психофизиологических ограничений и на этой основе разработки методов и критериев оценки избыточности видеоданных, методик и программно-математических средств анализа характеристик технических систем обработки, хранения и передачи видеоданных.
Таким образом, тема исследований является актуальной. Научные исследования в этой области базируются на основополагающих работах К.Шеннона и А.Н.Колмогорова. Теоретические и практические предпосылки к проведению данного исследования развиты в работах М.И.Кривошеева, В.В.Александрова, В.П.Дворковича, А.С.Мкртумова, С.Р.Немцовой, К.Ф.Гласмана и других исследователей.
Цель работы и задачи исследования. Целью диссертационной работы является развитие теоретических основ моделирования цифровых систем обработки, хранения и передачи видеоданных и на этой основе разработка методов и программных средств для их энтропийной оптимизации в интересах повышения эффективности использования ресурсов информационной инфраструктуры.
Для достижения цели в диссертационной работе поставлены и решены следующие задачи:
¡.Разработка принципов и моделей взаимоувязанного учета технологических, экономических, психофизиологических и других ограничений при выборе параметров кодирования и обработки видеоданных в цифровых системах.
2.Исследование структуры и свойств различных компонентов информационной избыточности видеоданных в контексте технологических, экономических, психофизиологических и других ограничений,
накладываемых на системы обработки, хранения и передачи видеоданных.
3.Исследование свойств искажений видеоданных в зависимости от степени применяемого сжатия, исследование проблем и оценка возможности подавления шумов компрессии в видеоданных.
4.0боснование подходов к определению допустимых уровней искажений видеоданных и оценке предельных уровней их сжатия в современных и перспективных цифровых каналах телевидения.
5.Разработка математических моделей и программных средств энтропийного анализа информационной избыточности видеоданных.
6.Разработка математических моделей и программных средств анализа и оценки искажений видеоданных при сжатии с потерями.
7. Разработка рекомендаций по энтропийной оптимизации различных типов цифровых систем обработки, хранения и передачи видеоданных.
Объект исследования. Процессы обработки, хранения и передачи видеоданных в цифровых системах.
Предмет исследования. Системные связи и закономерности влияния процессов обработки, хранения и передачи видеоданных на объем, качество, стоимость и безопасность предоставляемой потребителю видеоинформации.
Методы исследования. Для решения поставленных задач в работе используются методы системного анализа, теории информации, теории множеств, цифровой обработки сигналов, объектно-ориентированного программирования.
Положения, выносимые на защиту:
1. Теоретические основы моделирования и энтропийной оптимизации цифровых систем обработки, хранения и передачи видеоданных
2. Обобщенная модель «идеального» кодека и ее использование для анализа и оценки реальных кодеков видеоданных.
3. Концепция энтропийных измерений и ее применение к задачам оптимизации цифровых систем обработки, хранения и передачи видеоданных.
4. Методы энтропийных измерений в рамках физической и семантической концепций информации, их применение для оценки потерь визуальной информации при сжатии видеоданных с потерями.
5. Метод и программные средства оценки искажений видеоданных при сжатии с потерями в отсутствие референтных видеоданных.
6. Метод и программные средства оценки потерь визуальной информации с использованием энтропийных характеристик референтных видеоданных.
Научная новизна. В работе исследована новая предметная область: применение энтропийных методов к решению задач оптимизации цифровых систем обработки, хранения и передачи видеоданных, к которой применен новый подход, основанный на интеграции физической и семантической
концепций информации. Наиболее важные результаты, составляющие научную новизну:
1. Разработаны теоретические основы моделирования и энтропийной оптимизации цифровых систем обработки, хранения и передачи видеоданных, обеспечивающие возможность оценки и учета взаимного влияния критериев стоимости, сложности, энергозатрат и качества системы при решении задачи многокритериального выбора на основе принципа Парето.
2. Разработана, экспериментально обоснована и исследована обобщенная модель «идеального» кодека, что позволило выявить фундаментальные ограничения существующих процедур сравнения кодеков и обосновать подходы к преодолению этих ограничений.
3. Теоретически и экспериментально обоснована концепция энтропийных измерений, применение которой к задачам оптимизации цифровых систем обработки, хранения и передачи видеоданных позволяет обосновать методики и критерии динамической оптимизации таких систем.
4. Разработаны новые методы энтропийных измерений в рамках физической и семантической концепций информации, отличающиеся чувствительностью к различным компонентам информационной избыточности видеоданных, экспериментально подтверждена эффективность их применения для оценки потерь визуальной информации при сжатии видеоданных с потерями.
5. Разработаны метод и программные средства оценки искажений видеоданных при сжатии с потерями в отсутствие референтного сигнала, позволяющие контролировать качество видеоданных на входе системы их обработки, хранения и передачи.
6. Разработаны метод и программные средства оценки потерь визуальной информации при сжатии видеоданных, позволившие преодолеть проблему проведения измерений в больших распределенных системах на основе передачи по низкоскоростному каналу энтропийных характеристик референтных видеоданных и последующего сопоставления их с энтропийными характеристиками выходных данных системы.
7. В результате экспериментальных исследований с применением разработанных программных средств обоснована постановка новой актуальной проблемы экологической безопасности видеоданных, связанной с появлением в шумах компрессии периодических компонентов на частотах, попадающих в диапазон частот ритмов мозга человека.
Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет всестороннего анализа состояния исследований в данной области, подтверждается
корректностью предложенных моделей, согласованностью результатов численного моделирования н экспериментов, апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях, результатами опытной эксплуатации и внедрения разработанных программных средств.
Практическая ценность работы. Работа нацелена на преодоление актуальной практической проблемы поиска рациональных подходов к определению структуры и параметров цифровых систем обработки, хранения и передачи видеоданных в условиях противоречивости предъявляемых требований по качеству, с одной стороны, и стоимости, сложности, энергопотреблению с другой стороны. Полученные в диссертации результаты обеспечивают необходимые методологические основы для решения этой проблемы. Разработанные методы н программные средства позволяют создавать экономически эффективные и при этом адекватные новым цифровым технологиям подсистемы динамической оптимизации и контроля качества видеоданных, в том числе для больших распределенных систем, таких как телевизионное вещание и Интернет.
Реализация результатов работы. Исследования, отраженные в диссертации, реализованы при создании средств контроля и анализа видеоданных при выполнении научно-исследовательских работ «Разработка и создание студии мониторинга телевизионных средств массовой информации» (шифр «Развертка-И»), «Исследование факторов, изменяющих параметры сигналов телевизионного вещания, и их выявление» (шифр «Альянс-И»), «Исследование теоретических основ и разработка методов контроля информационной избыточности аудиовизуальных данных в современных и перспективных каналах цифрового вещания» (шифр «Апрель-С». Разработанные программные средства внедрены во ФГУП «ГосНИИПП» при создании комплекса мониторинга безопасности информации в системе телевизионного вещания. Разработанные теоретические основы энтропийной оптимизации систем обработки, хранения и передачи видеоданных, а также методы энтропийных измерений в рамках физической и семантической концепций информации реализованы ФГУП «НИИР» и НП «НИЦРИТ» при разработке проектов ГОСТ «Аудиовизуальные сообщения и материалы телевизионного вещания. Технические требования к обеспечению безопасности для потребителя» и Технического регламента «О безопасности аудиовизуальной информации в части технических параметров телевизионного изображения и звукового сопровождения». Разработанные методы и программные средства оценки искажений видеоданных при сжатии с потерями внедрены ЗАО «НТЦ БИТ «Фрактал» при создании устройства защиты информации в трактах телевизионного вещания. Результаты исследований внедрены в учебном процессе на кафедре распределенных интеллектуальных систем СПбГПУ.
Апробация результатов работы. Основные положения и результаты диссертационной работы представлялись на 19-ой конференции главных метрологов и специалистов метрологических служб связи «Единство измерений как эффективный механизм обеспечения целостности и устойчивости функционирования цифровых сетей связи», Москва, 2011 г., 13-м международном форуме международной академии связи «Проблема перехода телекоммуникаций на контент-ориентированные услуги», Москва, 2011, международной научной конференции «Модернизация России: ключевые проблемы и решения», Москва, 2011 г., Всероссийской научно-методической конференции «Информационные технологии в дизайне», Санкт-Петербург, 2011 г., VII Санкт-Петербургской международной конференции «Региональная информатика-2000», международной конференции «Проблемы геокосмоса», Санкт-Петербург, 1996 г., международной конференции «Конверсионные технологии гидроакустики», Санкт-Петербург, 1994 г.
Публикации. Основные результаты по материалам диссертационной работы опубликованы в 26 печатных работах, из них 1 монография и 17 статей в журналах по списку ВАК.
Структура и объем работы. Диссертация содержит введение, пять глав, заключение, список литературы (227 наименований), 2 приложения. Основной материал изложен на 252 стр., включая 9 таблиц, 89 рисунков.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована важность и актуальность темы диссертации, сформулированы цели диссертационной работы и решаемые задачи, определяется научная новизна работы и ее практическая значимость, кратко описаны разработанные методы и модели, а также представлены основные результаты диссертационного исследования.
В первой главе диссертации приведен анализ существующих подходов и нерешенных проблем в области оптимизации систем обработки, хранения и передачи видеоданных, а также проанализированы основные факторы, оказывающие наиболее значительное влияние на выбор параметров таких систем.
Выявлено, что в данной области сложилась проблемная ситуация, характеризующаяся рядом противоречий:
1. Законы РФ и руководящие документы в области информатизации ставят задачи по всеобъемлющему обеспечению граждан страны качественной и доступной информацией. Решение этой задачи помимо проблем техники связи, наталкивается также и на технологические, экономические, психофизиологические, организационные и правовые проблемы. В этих условиях задача оптимизации каналов передачи, а также средств обработки и хранения видеоданных является многокритериальной,
однако перечисленные факторы с трудом поддаются формализованному описанию и учету.
2. Отсутствует адекватная современным технологиям методологическая база для выбора средств, методов и параметров кодирования видеоданных, методов и технологий контроля параметров качества аудиовизуальных программ в больших системах, таких как система цифрового телевизионного вещания. Для цифровых методов распространения программ телевидения старые методы оценки качества кодирования не подходят, а новые еще не выработаны.
3. Несогласованность различных звеньев типовой цепи в цифровых системах обработки, хранения и передачи видеоданных может приводить к таким недопустимым искажениям видеоинформации, которые наносят вред здоровью человека. Он может варьировать от переутомления зрительного анализатора у здоровых людей до серьезных нарушений функций центральной нервной системы у больных с нервно-психическими расстройствами.
4. Теоретические основы построения и моделирования систем обработки, хранения и передачи видеоданных недостаточно ориентированы на человека, как получателя видеоинформации. Вследствие этого практические подходы к построению и выбору параметров этих систем носят эмпирический и во многом субъективный характер. Одним из следствий этого является субъективизм в выборе типов, моделей и поставщиков оборудования для создания различных систем обработки, хранения и передачи изображений.
5. В основе существующих подходов к оптимизации систем обработки, хранения и передачи видеоданных лежит использование информационной избыточности естественных изображений, однако в научно-технической литературе отсутствует системный анализ структуры и свойств информационной избыточности видеоданных, что не позволяет создать адекватную методологию оптимизации цифровых систем их обработки, хранения и передачи.
Вопросы оптимизации систем обработки, хранения и передачи видеоданных широко исследовались в связи с развитием телевидения и компьютерных технологий. Рядом национальных и международных организаций по стандартизации (ITU, ISO, ANSI) выпущено большое количество рекомендаций по этому поводу. Анализ этих рекомендаций показывает, что:
- рекомендации, относящиеся к аналоговым и цифро-аналоговым (без сжатия с потерями) системам отработаны в высокой степени и позволяют решить задачу оптимизации и контроля параметров таких систем;
- рекомендации, относящиеся к современным цифровым системам, носят преимущественно рамочный характер, включают большое число
частных решений, заявленных различными авторами и на данный момент не стандартизованных.
Сложности стандартизации процедур оптимизации и контроля цифровых систем обработки, хранения и передачи видеоданных обусловлены существенным различием природы информационных процессов, протекающих в аналоговых и цифровых системах. Во-первых, аналоговые системы обработки, хранения и передачи изображений, как правило, линейны и стационарны, поэтому их можно тестировать с использованием стандартных тест-сигналов. Цифровые системы обработки, хранения и передачи видеоданных, использующие сжатие с потерями, существенно нелинейны, вносимые ими искажения зависят от передаваемых данных. Кроме того, параметры отдельных каналов могут изменяться во времени вследствие применения процедур мультиплексирования. Следовательно, оптимизация цифровых систем не может быть выполнена с использованием ограниченного набора тест-сигналов, необходимо применять методы контроля и управления качеством на основе характеристик реальных передаваемых видеоданных.
Во-вторых, в аналоговых системах информация неразрывно связана с носителем, поэтому мерой потерь информации при обработке, хранении и передаче может служить мера искажений носителя (сигнала). Различные типы таких искажений (амплитудно-частотные, фазово-частотные, нелинейные, сложение с шумом, паразитные модуляции и др.) хорошо изучены, методики их нормирования отработаны и стандартизованы. В цифровых системах информация в общем случае отделена от носителя, поэтому попытки адаптировать заимствованные из аналоговой техники методики для применения в цифровых каналах сталкиваются со значительными трудностями. Преодоление этой проблемы требует разработки методов, моделей и алгоритмов информационных измерений характеристик цифровых систем обработки, хранения и передачи видеоданных.
Таким образом, анализ существующих подходов к решению задач оптимизации систем обработки, хранения и передачи видеоданных, в частности выбору и параметризации критериев оптимизации, показал необходимость более глубоких исследований как по обоснованию первичных показателей, характеризующих преобразование видеоданных в цифровой системе, так и по обоснованию адекватной процедуры оптимизации в условиях необходимости одновременного учета разнородных ограничений (технологических, экономических, психофизиологических, организационных и других)
Во второй главе рассматриваются основные подходы к решению задач оптимизации цифровых систем обработки, хранения и передачи видеоданных. Дается формальная постановка задачи оптимизации, проводится анализ ограничений на решение этой задачи. Формулируется
концепция энтропийной оптимизации таких систем на основе исследований взаимного влияния критериев стоимости, сложности, энергозатрат и качества системы при решении задачи многокритериального выбора на основе принципа Парето.
Задача оптимизации систем обработки, хранения и передачи видеоданных в рамках диссертационного исследования формализуется следующим образом.
1. Границы системы. Типовая система включает каналы передачи данных, устройства хранения и устройства обработки видеоданных. Для оптимизации рассматриваются два варианта: замкнутый и открытый. В замкнутом варианте все элементы системы фиксированы и принадлежат только ей. В открытом варианте некоторая часть элементов системы (например, магистральные линии связи) разделяется с другими системами, кроме того включение в систему новых элементов может быть динамическим.
2. Критерий оптимизации. Большие системы обработки, хранення и передачи видеоданных, такие как телевидение, видеоблоги и видеосерверы, должны отвечать разнообразным и в общем случае противоречивым требованиям со стороны различных участников процессов их создания и функционирования (государственных органов, инвесторов, рекламодателей, аудитории, технических служб, общественных и профессиональных организаций). Отсюда следует множественность критериев оптимизации:
- минимальная стоимость создания системы;
- минимальная стоимость эксплуатации системы;
- минимальная суммарная ширина занимаемых полос радиочастот;
- минимальное энергопотребление;
- максимальное качество предоставляемых видеоданных.
Таким образом, критерий оптимизации является векторным.
3. Внутрисистемные переменные, используемые для идентификации вариантов. С целью снижения размерности задачи отобраны только основные переменные, определяющие свойства системы в смысле вышеперечисленных компонентов векторного критерия оптимизации:
- скорости потоков видеоданных на разных участках системы, в том числе в используемых внешних каналах передачи;
- эффективность кодирования бит/с/Гц в беспроводных линиях передачи;
характеристики пространственно-временного разрешения видеоданных (количество пикселей в кадре и количество кадров в секунду);
- параметры применяемых алгоритмов сжатия (GOP-структура, соотношение верхней/нижней границ битрейта);
- вычислительные мощности элементов системы (количество операций в секунду, объем памяти, скорости записи/чтения).
Типовыми подходами преодоления проблемы многокритериальное™ являются скаляризация критерия (например, методом свертки), либо решение задачи условной оптимизации, при которой один из критериев назначается первичным, остальные - вторичными. Эти подходы хорошо зарекомендовали себя при синтезе отдельных устройств, однако при оптимизации больших систем они оказываются слишком абстрактными.
Так для скаляризации критерия необходимо ввести коэффициенты значимости его компонентов, однако это порождает эквивалентную по степени неопределенности оптимизационную проблему выбора коэффициентов с учетом необходимости удовлетворить предъявляемым противоречивым требованиям. В диссертации исследуется и обосновывается подход к оптимизации цифровых систем обработки, хранения и передачи видеоданных на основе решения многокритериальной задачи в исходной постановке методом Парето.
Решение поставленной задачи указанным методом приводит к построению многомерного множества Парето, в которое включаются все варианты, не мажорируемые другими вариантами. Все решения, лежащие внутри области Парето, являются приемлемыми и могут выбираться исходя из внешней информации, например, уровня конкуренции в данном секторе, финансовых ограничений, имеющейся технологической базы и т.п.
Пример полученного в диссертации сечения множества Парето для двух критериев (стоимость, качество) приведен на рис.1. В основу представленного на рис. 1 графика положен стандартный вид зависимости «скорость как функция искажений», в соответствии с которой большей скорости передачи соответствуют меньшие искажения видеоданных, и наоборот. Все точки плоскости, лежащие ниже этой кривой недостижимы при заданном способе кодирования, все точки, лежащие выше этой кривой, мажорируются точками, лежащими на кривой.
Так как в современной телекоммуникационной инфраструктуре затраты на передачу данных пропорциональны их объему, данная зависимость может быть преобразована в «стоимость как функция искажений». На рисунке заштрихована область, ограниченная сверху предельной стоимостью передачи видеоданных, при которой эта передача будет рентабельной, а справа - предельным уровнем искажений видеоданных, превышение которого повлечет снижение аудитории, либо санкции контролирующих государственных органов.
Анализ показывает, что на практике доминируют экономические приоритеты, и выбранные решения стремятся к правой границе области Парето, то есть к границе недопустимых искажений качества видеоданных.
Поскольку видеоданные по своей природе являются аналоговыми, к ним применима хорошо известная зависимость между шириной частотной полосы сигнала и пространственным разрешением. В отсутствие других ограничений эта зависимость однозначно определяет требования по
выделению эфирных частот для передачи этих сигналов по аналоговым каналам радиосвязи. Однако для цифровых каналов обработки, хранения и передачи видеоданных однозначность данной зависимости нарушается, вследствие чего удается в реальном канале с заданной шириной полосы сформировать виртуальный канал с большей шириной частотной полосы.
Скорость (стоимость) как функция искажений
Искажение
Рис. 1. Пример множества Парето для критериев стоимости и качества
передачи видеоданных
В цифровом канале требуемая полоса пропускания определяется отношением объема передаваемых в единицу времени данных к эффективности кодирования:
Д^кан = \ (1)
где, О - объем данных, передаваемых в единицу времени (бит/с), Е - эффективность кодирования (бит/с/Гц).
Объем данных определяется теоремой отсчетов с учетом эффективности компрессии:
0 = 2-^ (2)
к к '
где К - коэффициент обратимого сжатия данных, В - разрядность оцифровки (количество бит на отсчет); ДРС - ширина частотной полосы сигнала.
Предельная эффективность кодирования по теореме Шеннона С Р
определяется как: Е = - = 1(^(1 + -—), где Рс- мощность сигнала,
Рт- мощность помехи.
Учитывая, что реальные помехи не являются абсолютно случайными и могут до определенной степени подавляться цифровыми методами, внесем небольшие изменения в эту формулу:
Е = с7 = 106(1+^) (3)
где Дс и - параметры сигнала и помехи, определяющие как их мощности, так и потенциальные возможности шумоподавления цифровыми методами.
Подставляя (2) и (3) в (1) получим:
д «г - 0 - 2ВйГс КаН * **«(«*>
или Д^кан = <7^, Я = к1о8(1+|£)
Данная формула показывает, что при фиксированных значениях полосы пропускания физического и виртуального каналов коэффициент сжатия видеоданных, а следовательно, и их качество, определяется отношением сигнал/шум в физическом канале. Это соотношение позволяет получить множество Парето, аналогичное представленному на рис.1, но вместо стоимости передачи верхняя граница множества задается предельно допустимой энергией, расходуемой на передачу видеоданных. Как и в предыдущем случае, тенденция к минимизации энергозатрат сдвигает решение к правой границе области Парето, то есть к границе допустимых искажений видеоданных.
Следует отметить, что отношение сигнал/шум может быть увеличено не только за счет увеличения энергии сигнала, но и за счет снижения энергии шума с применением сложных методов цифровой обработки, которые, в свою очередь, требуют повышения вычислительной мощности системы и увеличения сложности алгоритмов ее работы. Таким образом, формируется еще одна проекция множества Парето - на плоскость «качество-сложность системы», или «качество-стоимость».
Метод Парето широко используется в задачах оптимизации сложных технических систем, таких как сети передачи данных или системы распределения электроэнергии. Развитие микропроцессорных систем позволило разработчикам не проводить полную оптимизацию систем на этапе разработки, заменив ее динамической Парето-оптимизацией на этапе функционирования за счет создания дополнительной подсистемы, решающей в реальном масштабе времени задачи моделирования системы и определения ее оптимальной конфигурации и параметров. В связи с этим дальнейшие исследования в рамках диссертации нацелены на разработку теоретических основ моделирования цифровых систем обработки, хранения и передачи видеоданных, а также методов текущего контроля характеристик информационной избыточности и достаточности видеоданных в различных элементах таких систем в интересах реализации подходов к их динамической оптимизации.
В третьей главе исследуются структура и свойства информационной избыточности видеоданных в контексте технологических, экономических,
психофизиологических и других ограничений, накладываемых на системы обработки, хранения и передачи видеоданных. Разрабатывается и исследуется обобщенная модель кодека, как основного элемента, определяющего характеристики исследуемых систем. Проводится исследование свойств искажений видеоданных в зависимости от степени применяемого сжатия.
Преобразование видеоданных для хранения и передачи в современных цифровых системах, как правило, сопровождается сжатием, снижающим информационную избыточность данных. В системе, использующей только обратимое сжатие, избыточность данных при декодировании возвращается к исходному уровню. При сжатии с потерями избыточность выходных данных не достигает уровня избыточности входных, поэтому измерение различий в избыточности входных и выходных данных дает искомый способ оценки потерь качества видеоданных в системе. Для разработки основанных на этом подходов к энтропийной оптимизации рассматриваемых систем необходимо более детально исследовать структуру и свойства информационной избыточности видеоданных.
В теории и практике сжатия видеоданных обычно выделяют следующие компоненты информационной избыточности: статистическая избыточность психофизиологическая избыточность.
Применяют также разделение избыточности видеоданных на: внутрикадровую избыточность межкадровую избыточность.
Все эти виды избыточности выделены исходя из применяемых процедур сжатия видеоданных. Так обычно считают, что при сжатии без потерь устраняется статистическая избыточность, а при сжатии с потерями-психофизиологическая. Однако два этих компонента не являются независимыми друг от друга: статистически неизбыточное изображение (пространственно некоррелированный шум) обладает значительной психофизиологической избыточностью, человек не способен различить две реализации такого шума, следовательно, их можно не передавать по каналу, а синтезировать непосредственно на выходе. Таким образом, статистическая и психофизиологическая избыточность являются двумя взаимосвязанными компонентами избыточности одной природы.
В диссертации проведен анализ структуры и свойств информационной избыточности видеоданных, при этом в основу выделения отдельных компонентов положены различия в происхождении и свойствах. Выделены следующие значимые для решения поставленных задач типы избыточности видеоданных:
физическая избыточность естественных изображений; семантическая избыточность видеоданных; избыточность (неоптимальность) кодека.
Физическая избыточность присуща практически всем естественным изображениям так как они получаются за счет отражения видеосенсорами внешних процессов, протекающих в физической системе и подчиняющихся физическим законам и закономерностям. Физическая избыточность является атрибутом входных видеоданных и поэтому не является параметром, подлежащим оптимизации в системе обработки, хранения и передачи видеоданных. Однако эта избыточность важна для правильного восприятия изображения зрительным анализатором человека, который в ходе эволюции приспособился к восприятию внешнего мира, упорядоченного физическими законами и закономерностями.
Под семантической избыточностью в диссертации понимается избыточность видеоданных относительно целевой установки получателя этих данных. Рассмотрим некоторые граничные оценки семантической избыточности видеоданных. Сначала рассмотрим оценку семантической избыточности снизу. Пусть и 1)с - число различимых значений яркости и цветового тона, адекватных восприятию (под величиной параметра, адекватной восприятию понимается такое максимальное значение параметра, дальнейшее увеличение которого не приводит к субъективному улучшению качества восприятия); к - частота кадров, адекватная восприятию (1/с); Му и Мс - разрешение (количество пикселей в изображении по яркости и цветности), адекватное восприятию по яркости и цветовому тону, соответственно.
Тогда, 5Р = к(Му £>у + Мс £>с) - это скорость потока,
адекватного восприятию, а = (5сЛл - информационная
избыточность видеопотока за время / . Здесь Бскп - поток данных в канале.
Теперь рассмотрим оценку семантической избыточности сверху. В общем случае целевую установку можно охарактеризовать некоторой неопределенностью (энтропией) Н, которую нужно преодолеть с помощью информации, извлекаемой из видеопотока, для достижения цели. В этом случае информационная избыточность составит: Яр = 5сЛп — Н.
Разность между оценками сверху и снизу не зависит от скорости канала:
- = Хспп -Н- (5СЛЛ - =5рг - н
и определяется разностью между информационной емкостью психовизуального аппарата человека и неопределенностью решаемой им задачи. Максимальная неопределенность задачи, решаемой на основе зрительного восприятия, не может превышать информационной емкости психовизуального аппарата человека.
Снижение семантической избыточности может быть весьма эффективным инструментом оптимизации каналов передачи информации в тех случаях, когда получателем является человек. Известно, что для человека внешние воздействия не столько являются сигналами, сколько
значащими формами, которые человек должен наполнить значениями. Сжатие исходных данных до уровня значащих форм является предельно возможным сжатием данных в системе их передачи, если приемником является человек.
Однако в случае массовой информации мы имеем дело с массовым получателем, то есть с огромным множеством людей, каждый из которых вычленяет из аудиовизуального потока свои значащие формы и наполняет их своими смыслами. В этой ситуации, очевидно, учет семантической избыточности не дает почти никакого выигрыша. Все, что мы можем сделать, это передать аудиовизуальные данные максимально реалистично с тем, чтобы каждый получатель мог извлечь из них ту значащую форму, которая актуальна конкретно для него в текущий момент. По этому пути и развиваются аудиовизуальные технологии массовых коммуникаций, достаточно упомянуть такие достижения в области реалистичности, как телевидение высокой четкости и 30- видео.
Реалистичность предполагает соответствие полученной аудиовизуальной информации тому, что человек может наблюдать в естественных условиях. Поэтому реалистичность следует трактовать как информационную достаточность видеоданных.
Для разработки конкретных методов измерения информационной избыточности / достаточности видеоданных необходимо уточнить содержание понятия «информация» в объеме его использования в диссертационной работе. Рассматривая известные определения этого понятия, мы можем разделить их на два класса: «семантические» и «физические». Первый класс базируется на явном или неявном предположении о некоторой коммуникативной ситуации, определяющее значение в них имеет получатель сообщений. К этому классу относятся определения информации как сведений и текстов.
Второй класс определений опирается на свойства источников и носителей информации, безотносительно ее получателя: фиксация случайного выбора, взаимно-однозначное соответствие между объектом и информацией о нем, возможность реконструкции заданных свойств объектов по информации о них. Примерами информационных процессов, содержательное изучение которых возможно провести без учета получателя, являются генетическая информация и процессы порождения информации в диссипативных структурах.
Как физическая, так и семантическая концепции информации позволяют построить эффективные процедуры энтропийных измерений информационной достаточности видеоданных. Материалы разработки соответствующих методов изложены в 4-й главе.
Избыточность кодека связана с его отличием от «идеального» кодека. В диссертации сформулирована и исследована модель «идеального» кодека. Необходимость в построении такой модели обусловлена тем, что любой
процесс оценки характеристик реальной системы может быть представлен в виде сопоставления ее с характеристиками идеальной системы. В аналоговой технике идеальная система характеризуется бесконечным отношением сигнал/шум, нулевыми нелинейными искажениями и равномерными частотными характеристиками во всем рабочем диапазоне частот. Для кодеков видеоданных построение такой идеальной системы является нетривиальной задачей. Во-первых, неясно какими характеристиками нужно оперировать при описании такого кодека. Например, широко распространенный параметр РБЫЯ (пиковое отношение сигнал/ шум) при углубленном исследовании оказывается малоинформативным относительно вариаций качества видеоданных на выходе кодека (установлено, что РБИЛ объясняет не более 8% дисперсии субъективных оценок качества видеоданных). Во-вторых, неясно, каковы должны быть идеальные значения этих показателей, так как значения, аналогичные идеальной аналоговой системе, принципиально не могут быть достигнуты при коэффициенте сжатия больше 1. По этой причине результаты объективных испытаний кодеков не могут быть корректно интерпретированы, единственной общепризнанной методикой сравнения кодеков остаются субъективные испытания.
Предложенная, разработанная и исследованная в диссертации модель строится исходя из наиболее общих исходных предположений. Пусть мы имеем источник видеосигнала, порождающий в единицу времени цифровой массив длиной п бит, и канал для передачи этого сигнала, способный передать в единицу времени т бит. Например, для цифрового компонентного телевизионного сигнала (270 Мбит/с), передаваемого по стандартному вещательному каналу (6 Мбит/сек): п = 2,7 • 108, т = 6 -106.
Обозначим через N множество всех возможных в единицу времени входных сигналов кодека, через М- аналогичное множество выходных сигналов. Заметим, что компрессированный код мы считаем внутренним сигналом кодека, а под выходными сигналами понимаем результат декомпрессии, то есть видеосигнал, представленный в том же формате, что и входной сигнал.
Мощность множества Ы, очевидно, равна 2П. Максимальная мощность множества компрессированных кодов не превышает пропускной способности канала и поэтому равна 2т . Поскольку по каждому компрессированному коду на выходе реконструируется строго один выходной сигнал, мощность множества М также равна 2т. Заметим также, что, так как выходной сигнал существует в том же формате, что и входной, он может быть подан на вход канала. Следовательно, М является подмножеством N. Эти утверждения положены в основу всех дальнейших рассуждений.
Преобразование сигнала кодеком задается отображением:
F:N М, M=F(N) Поскольку М с N, F отображает множество N в себя, причем необратимо. Пусть произвольному входному сигналу S Е N на выходе канала ставится в соответствие сигнал S = F(S),5 EN, SEM.
Назовем М инвариантным относительно F(.), если V5 G М, F(s) = S. В этом случае все SEM являются инвариантными относительно F(.) сигналами, или инвариантными сигналами данного кодека.
Существование такого преобразования F(.), для которого М является инвариантным множеством, следует из того, что любой из сигналов SEM является по определению результатом декодирования некоторого компрессированного кода, причем процедура преобразования кодов в выходные сигналы взаимно однозначна, поэтому для любого сигнала SEM может быть найден компрессированный код, воспроизводящий на выходе в точности сигнал S. Следовательно, любой из сигналов SEM может быть передан по каналу без искажений. В то же время, ни один сигнал, не принадлежащий данному множеству, не может быть передан без искажений.
На множестве сигналов можно определить функцию расстояния d(S1,S2), тогда d(S, F(S)) будет характеризовать искажение сигнала при прохождении через канал с компрессией. Среднее значение d(S,F(5)), взятое по всем SEN, будет характеризовать среднюю ошибку компрессии, рассчитанную без учета априорной вероятности появления различных сигналов из множества N на входе канала.
При одной и той же топологии распределения элементов М в пространстве N, средняя ошибка будет минимальной, если каждому SEN кодер ставит в соответствие ближайший к нему SEM.
На основании сказанного в общем случае в ошибке компрессии можно выделить две составляющие:
- искажение сигнала при замене S С М на SEM, определяемое топологией размещения элементов множества М среди элементов множества N;
дополнительные искажения, вызванные неоптимальным отображением S в 5, то есть таким отображением, при котором некоторый сигнал S отображается в S, не являющийся ближайшим к нему.
Если первый тип искажения носит характер объективно обусловленного и является неустранимым при заданном способе кодирования, то второй тип искажения является погрешностью реализации, которая приводит к увеличению шумов компрессии и неэффективному использованию канала. Наличие более близкого к 5 элемента множества М, чем выбранный кодером, говорит о том, что сигнал 5 мог быть передан по данному каналу с тем же самым способом кодирования, но с меньшей ошибкой компрессии. Если же кодер выбирает для каждого входного
сигнала ближайший к нему допустимый, то есть принадлежащий М, выходной сигнал, то он не допускает искажений второго типа. Кодер, не имеющий искажений второго типа, назван локально оптимальным.
Очевидно, что если на вход кодера поступает сигнал 5 6 М, то ближайшим к нему элементом множества М будет сам сигнал §, поэтому для локально оптимального кодера должно быть справедливо:
¿(¿^(я)) = о
Это свойство может быть проверено путем подачи на вход кодера сигнала с его выхода и вычисления ошибки компрессии стандартными методами, например на основе среднеквадратичного отклонения.
В том случае, если кодер является локально оптимальным, свойства канала полностью задаются топологией размещения элементов множества М среди элементов множества N.
При равномерном размещении ошибка компрессии не превысит 0=с*(5Д+1)
При неравномерном размещении ошибка компрессии на одних входных сигналах может существенно отличаться от ошибки компрессии на других.
На величину ошибки влияет, в первую очередь, соотношение количества элементов множеств N и М, то есть коэффициент компрессии. Следует отметить, что, так как мощность множества М задается пропускной способностью канала (см. выше), она не зависит от кодера. Поэтому для двух локально оптимальных кодеров, обрабатывающих одно и то же множество входных сигналов и имеющих одно и то же ограничение по пропускной способности канала, невозможна ситуация, когда один из кодеров на всех входных сигналах дает меньшую ошибку компрессии, чем другой. Для этого ему пришлось бы «покрыть» множество N элементами множества М с меньшим шагом, а следовательно, ему потребовалось бы увеличить количество элементов в М, что связано с увеличением требований по пропускной способности канала. Следовательно, сравнивать кодеры между собой путем формального измерения ошибки компрессии на разных сигналах некорректно. Если один из кодеров на каком-либо массиве входных сигналов в результате таких испытаний оказался лучше - всегда найдется набор входных сигналов, по которым он уступит второму. Естественно, это не выполняется для кодеров, не являющихся локально оптимальными.
Таким образом, все чего можно добиться в процессе совершенствования локально оптимальных кодеков при фиксированных скоростях входных и выходных цифровых потоков - более эффективное в некотором смысле покрытие множества N элементами множества М. Представляется разумным считать оптимальным такое покрытие, которое соответствует восприятию телевизионных изображений
среднестатистическим зрителем. В тех областях множества Ы, где
чувствительность глаза к искажениям наиболее велика, локальная плотность расположения элементов M должна быть максимальной, там же, где чувствительность глаза понижена - плотность размещения элементов M также должна быть понижена. Кодек, обеспечивающий оптимальное в этом смысле покрытие множества N элементами множества М, назван глобально оптимальным.
Предложенная модель была проверена экспериментально. Был проведен численный эксперимент по оценке распределения ошибки компрессии на выходе модели, результаты которого сопоставлялись с данными по ошибкам компрессии, полученными на реальном кодеке (JPEG и JPEG2000). Полученные результаты, пример которых представлен на рис.2, показали хорошее совпадение модельных и реальных данных для обоих кодеков.
Распределение верятности ошибки компрессии
<о
d
ОЦРЕС 4.8:1 _ модель_
Рис. 2. Сопоставление данных численного моделирования с экспериментальными оценками распределения ошибок компрессии
изображения
В том случае, когда в системе обработки, хранения и передачи видеоданных установлено последовательно два и более кодеков, свойство локальной оптимальности может не выполняться для системы в целом, даже если оно выполняется для каждого кодека в отдельности. Это связано с несогласованностью инвариантных множеств отдельных кодеков между собой. Таким образом, в общем случае избыточность кодека может включать следующие компоненты:
избыточность, связанную с локальной неоптимальностью: а = Л(§,Р(§))
избыточность, связанную с несогласованностью кодеков:
£ = ¿йлсгО)
избыточность, связанную с глобальной неоптимальностью: 5 = £ф?К) Дч)
Из приведенных рассуждений следует, что «идеальным» является кодек, удовлетворяющий критериям локальной и глобальной оптимальности. Методики тестирования качества реальных кодеков могут быть получены путем формализации и алгоритмизации процедуры сравнения реального кодека с моделью «идеального».
Таким образом, избыточность видеоданных не является однородной характеристикой, она включает различные по своей природе и свойствам компоненты. При этом устранение избыточности кодека позволяет приблизить решение к Парето-оптимальному (на рис. 1 - сдвинуть точку из области мажорируемых решений влево до уровня кривой, задающей множество Парето).
Сформулированные во второй и третьей главах принципы и подходы к многокритериальной динамической оптимизации исследуемых систем, учету соотношений виртуальных и физических каналов передачи, энтропийному анализу информационной избыточности и достаточности видеоданных, построению обобщенной модели исследуемых систем и определению их характеристик составляют основное содержание разработанных в диссертации теоретических основ моделирования и энтропийной оптимизации цифровых систем обработки, хранения и передачи видеоданных.
В четвертой главе разрабатывается общая концепция энтропийных измерений и ее применение к задачам оптимизации цифровых систем обработки, хранения и передачи видеоданных.
В практической реализации методов моделирования и оптимизации, основанных на оценках информационной избыточности и достаточности, ключевую проблему составляет отделение свойств информации от свойств носителя. Формальное решение проблемы отделения информации от носителя предложено Шенноном и состоит в следующем: «любое обратимое преобразование сообщений, создаваемых стохастическим процессом, скажем, посредством невырожденного преобразования с конечным числом состояний, следует рассматривать как содержащее ту же информацию, что и первоначальное значение. Таким образом, информация источника считается эквивалентным классом всех обратимых преобразований сообщений, создаваемых источником».
Следовательно, для получения полной информации, переносимой некоторым сигналом, необходимо из всего множества свойств сигнала отобрать только те, которые сохраняются при его обратимых
преобразованиях, и именно их считать информацией. На практике удается решить эту задачу только относительно конкретных классов обратимых преобразований. В диссертации предложено решение данной задачи для класса непрерывных взаимно-однозначных преобразований носителя.
Далее, для того, чтобы количественно оценить отделенную от носителя информацию, необходимо, чтобы она была представлена в форме некоторого математического объекта, для которого стандартным образом определена энтропия. В диссертации предложено использовать два таких объекта - символьная последовательность и разбиение некоторого пространства.
Энтропия символьной последовательности вычисляется по стандартной формуле:
h = - lim ) Pi log Pi
П->О0
£=1
где Kn- количество различных подпоследовательностей длины п в исходной последовательности символов, рг, — вероятность появления подпоследовательности с номером i в исходной последовательности.
При расчетах энтропии по этой формуле вычисление предела обычно заменяют вычислением функции:
ДН = H(d) - H{d - 1)
Н(п) = log Pi
i=i
где d -параметр алгоритма, выбираемый таким образом, чтобы выполнять оценку энтропии на линейном участке зависимости Н(п), АН -искомая оценка энтропии.
Энтропия разбиения а = {Л^, где At 6 М; U At = М, пространства М с мерой ц задается формулой:
H(a) = -kZin(Ai)logn<iAi) (4)
Таким образом, предложенный в диссертации метод энтропийных измерений в общем случае включает два шага:
- инвариантное в некотором смысле кодирование исходных данных (носителя) в форме математического объекта, для которого определена энтропия;
- вычисление энтропии полученного математического объекта.
В основе предложенного метода энтропийных измерений в рамках физической концепции информации лежит построение символьной последовательности путем кодирования отношений (больше/меньше) между отсчетами сигнала, отстоящими друг от друга не более чем на некоторый фиксированный интервал. Полученная последовательность, названная ранговым ядром сигнала, обладает инвариантностью к непрерывным
взаимно-однозначным преобразованиям носителя. Работу метода иллюстрирует рисунок 3.
Энтропия рангового ядра вычисляется стандартно как энтропия символьной последовательности.
Ранговое ядро ПСГ!
Рис. 3. Пример рангового ядра псевдослучайной последовательности
Для обоснования целесообразности использования предложенного подхода при обработке сигналов естественного (природного) происхождения были проведены исследования закономерностей изменения энтропии рангового ядра регистрируемых сигналов при наблюдении природных систем в различных состояниях. На рис. 4 приведен пример изменения энтропии сейсмических колебаний, зарегистрированных вблизи эпицентра землетрясения.
Представленные на рисунке данные позволили сделать вывод о том, что перед землетрясением тектоническая система приходит в определенное состояние, при котором энтропия рангового ядра составляет приблизительно 8,3 бит/с. Если после первого толчка (момент времени I) система не возвращается в исходное состояние, происходит повторный толчок (момент времени II).
Такие данные о возможности наблюдать состояние системы перед и после основного землетрясения по сейсмическим шумам были получены впервые, никакие другие методы обработки сейсмических шумов не позволяли пронаблюдать это явление. Следовательно, предложенный подход к измерению энтропии колебаний в системе, основанный на базовой идее Шеннона об инвариантности информации к обратимым преобразованиям носителя, а также на реализации этой идеи в виде оценок энтропии рангового ядра, подтвердил свою обоснованность и эффективность.
колебаний, зарегистрированных вблизи эпицентра землетрясения. По оси абсцисс - время в минутах относительно момента землетрясения
Применение этого подхода к оценке энтропийных характеристик цифровых систем обработки, хранения и передачи видеоданных основано на предположении о том, что в процессе кодирования видеоданных с потерями часть переносимой ими информации необратимо теряется, поэтому их энтропия уменьшается.
Для оценки энтропии видеоданных описанный выше метод был обобщен на случай двумерного сигнала, каковым является изображение. Возможность оценки потерь информации при сжатии видеоданных была проверена экспериментально. Для проведения эксперимента стандартные изображения были подвергнуты сжатию по алгоритму JPEG кодеком MathLab с различными уровнями качества (от 100 до 0). Полученные оценки энтропии приведены на рис. 5.
На всех изображениях получено монотонное снижение энтропии рангового ядра изображения при увеличении коэффициента сжатия. Исследования показали, что метод обладает высокой чувствительностью и позволяет зафиксировать искажения, едва заметные для человеческого глаза.
Таким образом, избыточность изображения на физическом уровне, обеспечивающая необходимую реалистичность его восприятия человеком, может адекватно оцениваться предложенным методом, основанным на оценках изменений энтропии рангового ядра изображения в различных точках системы обработки, хранения и передачи видеоданных.
Рис. 5. Изменения энтропии рангового ядра изображения при сжатии. По оси абсцисс - качество сжатия (100 - максимальный размер файла, 0 - минимальный). По оси ординат - энтропия рангового ядра,
бит/пиксель
Обоснование предложенного метода энтропийных измерений в рамках семантической концепции информации потребовало формализации модели визуального образа, базирующейся на закономерностях работы зрительного анализатора человека. С точки зрения решаемой задачи важно, чтобы модель была сформулирована в форме, допускающей корректное определение энтропии моделируемых данных, например в виде символьной последовательности или разбиения некоторого пространства.
Современная психофизиология зрения выделяет два взаимодополняющих друг друга способа обработки визуальной информации человеком:
- интегральная обработка на основе инвариантного описания зрительных объектов;
- структурная обработка на основе выделения множества ключевых элементов и связей между ними.
Оба этих способа опираются на первичное кодирование зрительной информации, которое осуществляется на основе отображения входного изображения во множество параллельно функционирующих рецептивных полей, в каждом из которых происходит обнаружение локальных признаков, на которые настроено данное рецептивное поле (точек, линий, углов, крестов, фрагментов решеток различных пространственных частот и ориентаций), после чего на более высоких уровнях обработки происходит связывание выходов рецептивных полей в единый образ объекта по одному из двух вышеперечисленных способов.
Для того чтобы обработка видеоданных не сказалась на описанном процессе восприятия образа, необходимо, чтобы при обработке сохранились
те локальные признаки, которые на более высоких уровнях обработки связываются в зрительный образ. Анализ литературы по моделям зрительного восприятия показал, что основными локальными признаками, из которых строится зрительный образ, являются точки неоднородности изображения. У разных авторов они обозначаются терминами ключевые точки, контрастные точки, референтные точки. С этой точки зрения адекватной моделью визуального образа является множество точек неоднородности изображения. Формально модель изображения вводится следующим образом:
1. Изображение является объединением визуальных объектов
2. Визуальный объект представляет собой множество точек, принадлежащих плоскости изображения, в которых изображение обладает свойством локальной неоднородности (в дальнейшем - множество локальных неоднородностей)
3. Мерой сохранности визуального объекта при искажениях изображения является отношение количества локальных неоднородностей, сохранившихся в визуальном объекте после искажения изображения, к числу всех локальных неоднородностей, принадлежащих этому же визуальному объекту в неискаженном изображении.
Математически модель формулируется следующим образом:
\.1т = 1)™=10( ,где 1т - изображение,0, - визуальный объект
2. О; 2= {(х1к,уш)}, где СЪк.Уш) - координаты к-й точки (локальной неоднородности), принадлежащей г'-му визуальному объекту. Эквивалентным приведенному и более удобным для дальнейших исследований является определение визуального объекта через функцию принадлежности (индикаторную функцию):
2а. 0£ = {(х,у)|й(*.у) = 1}.
Пусть 0т- искаженный т-й визуальный объект. Тогда мерой сохранности визуального объекта после его искажения является величина:
3. <2ОТ = где знаком | обозначена мощность множества.
Такая модель может описывать простые изображения в виде одного или нескольких непересекающихся визуальных объектов на однозначно определенном фоне. При восприятии более сложных изображений зрительный анализатор человека непрерывно ведет работу по разделению воспринимаемых визуальных объектов на фигуры и фон.
Проведенные исследования показали, что в общем случае изображению может быть сопоставлено иерархическое семейство интерпретаций множества его локальных неоднородностей, каждая из которых задает свою конфигурацию фигур и фона. Оказалось также, что сходную иерархию порождают некоторые процедуры сегментации изображений, в частности, адаптивная динамическая сегментация. Это сходство процедур сегментации
с работой зрительного анализатора позволило обосновать и разработать метод оценки потерь визуальной информации при сжатии с потерями.
Процедура сегментации порождает на каждом шаге некоторое разбиение, энтропию которого можно определить по формуле 4. На рис. 6. приведена зависимость энтропии разбиения от номера шага сегментации для исходного и сжатого изображений. Потеря информации при сжатии отчетливо проявляется уменьшением энтропии на определенных шагах сегментации.
Разработанные в данной главе энтропийные методы получения оценок потерь информации при сжатии видеоданных обеспечивают необходимую оценку сохранения «реалистичности» изображения по двум основным се компонентам:
энтропия рангового ядра характеризует информационную избыточность/достаточность видеоданных в рамках физической концепции информации, связанную с закономерностями порождения информации в естественных системах;
- энтропия разбиений при сегментации характеризует информационную избыточность/достаточность видеоданных в рамках семантической концепции информации, связанную с закономерностями преобразования информации сенсорными системами человека.
Рис. 6. Изменения энтропии разбиения в зависимости от номера шага сегментации до и после сжатия видеоданных
В целом, эти методы позволяют сформулировать критерии динамической оптимизации цифровых систем обработки, хранения и передачи видеоданных, основанный на оценке уменьшения энтроиии по двум указанным компонентам.
В пятой главе приводятся материалы разработки и экспериментальной проверки новых технических решений, основанных на результатах проведенных исследований.
Разработанная обобщенная модель кодека видеоданных позволила обосновать новый метод внедрения цифровых водяных знаков в изображения, согласованный с конкретным кодеком и обеспечивающий сохранность внедренного цифрового водяного знака при любых коэффициентах сжатия. Разработанный метод позволит расширить возможности контроля авторских прав и управления контентом в больших системах обработки, хранения и передачи видеоданных.
В диссертации разработан ряд технических решений по оценке искажений видеоданных при сжатии с потерями. Известные решения в этой области требуют наличия референта - несжатого оригинала видеоданных. Во многих случаях референт либо недоступен (например, при получении сжатых видеоданных от стороннего производителя), либо не может быть доставлен в точку контроля из экономических соображений. Результаты проведенных исследований позволили разработать технические решения для обоих случаев.
Решение задачи в отсутствие референта опирается на возможность его частичной вероятностной реконструкции. Наличие в изображении избыточности физического уровня позволяет ставить и решать задачу оценки искажений изображения в системе при отсутствии референта путем оценки соответствия выходного изображения и априорной информации о нем. Общее решение задачи оценки параметра А по принятому значению Я сводится к отысканию максимума апостериорной вероятности: р(а |Я) = шахр(Л|й), где а - оптимальная оценка параметра А при поступлении на вход сигнала Д. Вероятность принять на выходе канала результирующий образ Тт{х,у) связана с априорными вероятностями возможных переданных образов ¡т^ (х, у) и вероятностями суммарных искажений йс(х,у) соотношением:
Р (/т(х,у)) = £р(/т((*,у))Р(Д£(*,у))
где суммирование производится по всем парам, для которых
1щ(х,у) + Д;(х,у) = 1т(х,у) _
Если на выходе канала принято искаженное изображение 1т(х,у), то наилучшей оценкой переданного изображения по максимуму апостериорной вероятности будет: Ш{х,у) = 1тк(х,у)\Р(1ткСх,у))Р(Ак(.х,у))
= та^Р{1т1(х,у))Р(Ь1{х,у))) /т£(х, у) + А ¡(х,у) = 1т(х, у)
В диссертации разработан ряд технических решений, отличающихся видами используемой априорной информации. Первое решение (фильтр
HSV) использует корреляцию между цветовыми представлениями изображения, которая нарушается при сжатии с потерями. Второе решение (энтропийный фильтр) основано на процедуре накопления информации о присущих видеоданным закономерностях непосредственно по самим этим видеоданным. Полученные решения сравнивались с известными, представляющими собой различные варианты дифференцирующего фильтра. На рис. 7 показаны соотношения полученных оценок и истинных
Рис. 7. Соотношение полученных оценок и истинных значений шума компрессии
Анализ графика показывает, что предложенные методы дают оценки шумов компрессии, хорошо согласующиеся с истинным значением, в отличие от традиционно используемого дифференцирующего фильтра, уровень сигнала на выходе которого с ростом уровня шума компрессии не растет, а уменьшается.
На основе предложенного метода оценки шума компрессии была разработана программа визуализации шума компрессии, позволяющая эксперту достаточно точно определить в видеоданных наличие и уровень артефактов компрессии.
Решение задачи в условиях, когда референт доступен, но не может быть доставлен в точку измерений по экономическим соображениям, опирается на разработанные в главе 4 методы энтропийных измерений. Общая идея предлагаемого решения иллюстрируется рис. 8. Существующие схемы тестирования систем обработки, хранения и передачи видеоданных делятся на два класса:
- тестирование испытательными сигналами;
- тестирование на реальных видеоданных.
Недостатком первой схемы является то, что в силу нелинейности цифровых систем обработки и передачи видеоданных, использующих
сжатие с потерями, отсутствие недопустимых искажений испытательных сигналов еще не гарантирует отсутствия таковых на реальных видеоданных. Недостатком второй схемы является то, что для оценки потерь качества видеоданных требуется подать на вход анализатора не только выходной, но и входной поток данных тестируемой системы. Такое тестирование можно применять только локально, для больших распределенных систем этот метод не подходит.
Испытательный сигнал
Кодер Декодер
> Анализатор
а) Тестирование испытательными сигналами
г Референт
Кодер Декодер ь Анализатор
Реальные
видеоданные
б) Тестирование по реальным видеоданным с использованием песЬепента
Кодер Декодер ь
Результаты энтропийных измерений
Анализатор
Реальные видеоданные
в) Тестирование по реальным видеоданным с использованием энтпопийных изменений Рис. 8. Сопоставление существующих и предлагаемой схем тестирования систем обработки, хранения и передачи видеоданных: а, б - существующие схемы, в - предлагаемая
Недостатки обеих схем устраняются применением разработанного в диссертации метода тестирования на основе энтропийных измерений. Суть метода состоит в том, что по входным видеоданным системы вычисляют их энтропийные характеристики (энтропию рангового ядра и энтропии разбиений на отдельных шагах сегментации), которые по низкоскоростному каналу передаются на выход системы. На выходе системы вычисляются такие же характеристики. Уменьшение энтропийных характеристик выходных видеоданных относительно входных дает оценку потерь визуальной информации в системе.
Разработанное программное обеспечение референтной и нереферентной оценки потерь визуальной информации в системах обработки, хранения и передачи изображений было использовано для проведения
экспериментальных исследований свойств искажений видеоданных различными кодеками. В ходе этих исследовании было обнаружено новое явление, заключающееся в существовании периодических во времени компонентов шума компрессии, связанных с периодическим чередованием I, Р и В кадров в видеопоследовательности. Чаще всего выявляются ритмические колебания шумов компрессии с периодами 3 и 12 кадров (рис: 9),'связанные с типовой структурой GOP: IBBPBBPBBPBBI...
б) период 3 кадра
Рис. 9. Примеры реализаций периодических колебаний шума компрессии
Значимость обнаружения этого явления состоит в том, что частоты этих ритмов (примерно 2 и 8 Гц) попадают в диапазон частот ритмов мозга человека, в том числе зрительного анализатора, и могут оказывать негативное влияние на функционирование центральной нервной системы при длительной экспозиции. Таким образом, одним из результатов диссертационного исследования стала постановка важной проблемы в сфере экологической безопасности аудиовизуальной продукции, особенно актуальной в связи с предстоящим переходом к цифровому наземному телевизионному вещанию.
В диссертации содержится постановка и решение крупной научной проблемы - разработка и обоснование обобщенного описания цифровой системы обработки, хранения и передачи видеоданных с учетом технических, технологических, экономических и психофизиологических ограничений и на этой основе разработка методов и критериев оценки избыточности видеоданных, методик и программно-математических средств
О pi од 12 кадров
ЛлААД*
ЗАКЛЮЧЕНИЕ
анализа характеристик технических систем обработки, хранения и передачи видеоданных, имеющей важное хозяйственное и культурное значение.
Получены следующие основные результаты, обеспечившие достижение поставленной цели диссертационного исследования:
1. Разработаны теоретические основы моделирования и энтропийной оптимизации цифровых систем обработки, хранения и передачи видеоданных, исследовано взаимное влияние критериев стоимости, сложности, энергозатрат и качества системы при решении задачи многокритериального выбора на основе принципа Парето.
2. Разработана, экспериментально обоснована и исследована обобщенная модель «идеального» кодека, необходимая для оценивания характеристик реальных систем через их сопоставление с характеристиками идеальной системы.
3. Теоретически и экспериментально обоснована общая концепция энтропийных измерений и ее применение к задачам оптимизации цифровых систем обработки, хранения и передачи видеоданных.
4. Разработаны методы энтропийных измерений в рамках физической и семантической концепций информации, экспериментально подтверждена эффективность их применения для оценки потерь визуальной информации при сжатии видеоданных с потерями.
5. Разработаны метод и программные средства оценки искажений видеоданных при сжатии с потерями в отсутствие референтного сигнала, основанные на использовании физической избыточности естественных изображений, которая учитывается в предложенном методе как априорная информация.
6. Разработаны метод и программные средства оценки потерь визуальной информации при сжатии видеоданных на основе измерения и передачи по низкоскоростному каналу энтропийных характеристик референтных видеоданных и последующего сопоставления их с энтропийными характеристиками выходных данных системы.
7. В результате экспериментальных исследований с применением разработанных программных средств обоснована постановка актуальной проблемы экологической безопасности видеоданных, связанной с появлением в шумах компрессии периодических компонентов на частотах, попадающих в диапазон частот ритмов мозга человека.
Полученные результаты соответствуют паспорту специальности 05.13.01 «Системный анализ, управление и обработка информации (технические системы)».
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ Монография
1. Александров В.В., Кулешов C.B., Цветков О.В. Цифровая технология инфокоммуникации. Передача, хранение и семантический анализ текста, звука, видео. СПб.: Наука, 2008 — С. 40-48, 125-165,207-215
В журналах из перечня ВАК
2. Цветков О.В. Вычисление оценки энтропии биосигнала, инвариантной к изменению его амплитуды, с использованием рангового ядра // Радиоэлектроника (Известия ВУЗ), 1991, №8, — С. 108—110
3. Цветков О.В. Оценка близости числовых последовательностей на основе сопоставления их ранговых ядер // Радиоэлектроника (Известия ВУЗ), 1992, №8, — С.28-33
4. Цветков О.В., Дегтярев Г.М., Смирнова Е.П. Вариант модели Ходжкина-Хаксли с сокращенным числом параметров // Биофизика, т. 43, №1, 1998 —С. 109-114
5. Цветков О.В., Дегтярев Г.М. Локальный и синоптический метод наблюдений за движениями земной коры по сейсмическим шумам //Геохимия, №9, 1998 — С.919-925
6. Цветков О.В., Дегтярев Г.М., Антонова JI.M. Взаимосвязь пространственно-временной изменчивости энтропии сейсмических шумов с геодинамическими процессами //Ученые записки С-Пб университета, вып. 35, 1998 — С. 106-116
7. Александров В.В., Зайцева A.A., Харинов М.В., Цветков О.В. Концепция динамического выделения семантических компонент аудиовизуального потока данных //Проблемы информатизации: теоретич. и научно-практич. журнал / РАН, Министерство науки и технологий РФ, М.: 2001, вып.З. — С. 45^8
8. Малюков С.П., Мкртумов A.C., Цветков О.В. Периодичность статистических параметров в динамических телевизионных изображениях с цифровой компрессией // Известия ЮФУ. Технические науки. Тематический сборник «Интеллектуальные САПР» — 2007, №2. — С. 125-130
9. Цветков О.В., Кулешов C.B. О критериях метрологической оценки информационных сообщений //Изв. Вузов. Приборостроение. — Т. 50, №5, 2007.—С. 11-15
Ю.Александров В.В., Кулешов C.B., Цветков О.В. Концепция программируемой технологии цифровой теории связи: от герц кбит/с. //«Информационно-измерительные и управляющие системы», №6, т.5, 2007. — С. 62-72
11. Цветков O.B. Виртуальные и физические каналы цифровой передачи сигналов //«Информационно-измерительные и управляющие системы», №6, т.5, 2007. — С. 9-14
12. Цветков О.В. Элементы теории объективных испытаний цифровых кодеков для телевизионного вещания //«Информационно-измерительные и управляющие системы», №4, т.6,2008. — С. 58-62
13. Цветков О.В. Численное моделирование шумов компрессии изображений //«Информационно-измерительные и управляющие системы», №10, т.6, 2008. — С. 82-84
Н.Александров В.В., Кулешов C.B., Левашкин С.П., Цветков О.В. Концепция развития инфокоммуникации в Интернет среде //«Информационно-измерительные и управляющие системы», №4, т.7, 2009, —С. 5-10
15.Дегтярев Г.М., Цветков О.В. Возможен ли прогноз катастрофических землетрясений малой заблаговременности //Проблемы безопасности и чрезвычайных ситуаций. Научно-практический журнал, РАН, ВИНИТИ, №1, 2009. — С.26-42
16. Кулешов C.B., Цветков О.В. Цифровая программируемая технология информационно-энергетической передачи данных //«Информационно-измерительные и управляющие системы», №7, т.8, 2010, —С. 43-47
17. Цветков О.В. Некоторые граничные оценки информационной избыточности потока видеоданных для плоскостного и объемного телевидения //«Информационно-измерительные и управляющие системы», №11, т.8,2010. — С. 5-10
18. Цветков О.В. Физическая концепция информации применительно к задачам измерения и управления избыточностью аудиовизуальных данных //«Информационно-измерительные и управляющие системы», №4, т.8,2011. — С. 36-^1
В других изданиях
19. Цветков О.В., Алейник C.B. Информационный подход к обработке сейсмических данных // Международная конференция «Конверсионные технологии гидроакустики» (Тезисы доклада), СПб, 1994.
20. Цветков О.В., Дегтярев Г.М., Антонова JI.M. Некоторые особенности сейсмических шумов перед землетрясением в китайско-японском регионе // Международная конференция «Проблемы геокосмоса» (Тезисы доклада), СПб, 1996. — С. 150
21. Александров В.В., Зайцева A.A., Харинов М.В., Цветков О.В. Концепция динамического выделения семантических компонент аудиовизуального потока данных // Труды VII Санкт-Петербургской
международной конференции «Региональная информатика-2000», СПб, 2001. —С.278-280
22.Бритиков А.А., Немцова С.Р., Мкртумов А.С., Цветков О.В. Метрологические аспекты нормирования комплекса параметров изображения и звука в телевизионном вещании //Broadcasting (телевидение и радиовещание), №2,2004. — С.56-59
23. Цветков О.В.Цифровые технологии обработки аудиовидеосигналов: компрессия и семантический анализ //Труды СПИИРАН, вып.2, СПб, 2004. — С.145-158
24. Александров В.В., Кулешов С. В., Зайцева А. А., Цветков О.В. Концепция и теория нанотехнологии физической среды инфотелекоммуникации (прототип SDR) // Труды СПИИРАН. Вып. 6, СПб.: Наука, 2008. — С. 51-57
25. Цветков О.В., Дегтярев Г.М. Информационный инвариант открытых динамических систем // НОЦ «Технологии таможенного сервиса», НИЦ «Кристалл». Совместный сборник научных трудов №1. - Изд-во СПбГУСЭ, 2010. — С.208-212
Свидетельства о регистрации
26. Свидетельство о регистрации электронного ресурса ИНИМ РАО №15142 от 14.01.2010. Сенкевич Ю.И., Цветков О.В. Пакет прикладных программ психофизиологического тестирования «Operator-Tests»
Типография «Восстания -1» г. Санкт-Петербург, Средний пр. В.О., д.28 Подписано в печать 07.07.2011 г. Формат 80x84 1/16. Тираж 100
-
Похожие работы
- Разработка быстродействующих алгоритмов компрессии видеоданных с использованием дельта-преобразований второго порядка
- Разработка методов создания банков видеоданных для космического экологического мониторинга
- Методы и технология построения программируемых инфокоммуникационных систем
- Разработка и исследование методов и алгоритмов устранения избыточности видеопоследовательностей на основе сегментации видеоданных
- Метод, алгоритмы и устройства фрагментарного сжатия видеопотока
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность