Адаптивное скалярное квантование спектральных коэффициентов для систем сжатия аудио сигналов

Поров, Антон Викторович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Адаптивное скалярное квантование спектральных коэффициентов для систем сжатия аудио сигналов

кандидата технических наук: Поров, Антон Викторович
город: Санкт-Петербург
год: 2009
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Адаптивное скалярное квантование спектральных коэффициентов для систем сжатия аудио сигналов»

Автореферат диссертации по теме "Адаптивное скалярное квантование спектральных коэффициентов для систем сжатия аудио сигналов"

На правах рукописи

АДАПТИВНОЕ СКАЛЯРНОЕ КВАНТОВАНИЕ СПЕКТРАЛЬНЫХ КОЭФФИЦИЕНТОВ ДЛЯ СИСТЕМ СЖАТИЯ АУДИО СИГНАЛОВ

Специальность 05.13.01 - Системный анализ, управление и обработка информации (в технических системах)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

2 6 НОЯ 2009

Санкт-Петербург - 2009

003485261

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования "Санкт-Петербургский государственный университет информационных технологий, механики и оптики" (СПбГУ ИТМО).

Научный руководитель:

доктор технических наук, профессор

Кудряшов Борис Давидович

Официальные оппоненты:

доктор технических наук, профессор Тропченко Александр Ювенальевич

кандидат технических наук, доцент Солодянников Александр Владимирович

Ведущая организация - ОАО «Российский Институт Мощного Радиостроения» (РИМР), г. Санкт-Петербург.

Защита состоится "15" декабря 2009г. в 16 часов 00 минут на заседании диссертационного совета Д 212.227.03 при Государственном образовательном учреждении высшего профессионального образования "Санкт-Петербургский государственный университет информационных технологий, механики и оптики" по адресу: 197101, Санкт-Петербург, пр. Кронверкский, 49, СПбГУ ИТМО.

С диссертацией можно ознакомиться в библиотеке СПбГУ ИТМО. Автореферат разослан "10" ноября 2009г.

Ученый секретарь

диссертационного совета

Дударенко Н.А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Алгоритмы сжатия аудио информации используются дал получения компактного представления аудио сигналов. Эффективность .сжатия важна с точки зрения уменьшения затрат на передачу информации по каналам связи или хранения информации на цифровом носителе. Целью кодирования аудио сигнала является представление сигнала наименьшим числом бит при условии, что последующее его воспроизведение удовлетворительно с точки зрения субъективного восприятия. Разработка устройства кодирования опирается на особенности восприятия аудио сигналов человеком. Эти особенности в большей степени зависят от спектрального состава сигнала, совместного влияния спектральных коэффициентов друг на друга и частотного диапазона. Квантование является одной из основных составляющих алгоритмов кодирования аудио информации.

Так как в реальных системах сжатия аудио информации качество передачи зависит от выбранного способа квантования, то актуальной является задача разработки алгоритмов квантования спектральных коэффициентов, обеспечивающих необходимое качество передачи сигнала и большую эффективность сжатия. Актуальным является также определение характеристик способов квантования, позволяющих предварительно оценить эффективность сжатия и выбрать наилучшие параметры передачи аудио информации.

Цель и задачи работы. Разработка способов квантования спектральных коэффициентов аудио сигнала.

Для достижения цели исследования необходимо решить следующие задачи:

• Построение математической модели квантуемых данных.

• Идентификация модели по выборке данных малого объема.

• Адаптивный выбор параметров квантователя в зависимости от кодируемого сигнала и параметров распределения.

• Адаптивное квантование спектральных коэффициентов в зависимости от требуемой ошибки квантования.

Научная новизна работы. На основе анализа информационных характеристик модели и источника показано, что в качестве модели источника аудио данных может быть использовано одномерное обобщенное гауссово распределение. В работе показано, что анализ оценки параметров распределения данных позволяет более эффективно выбирать параметры скалярного квантователя. Характеристики предложенного метода квантования значительно превосходят характеристики наиболее часто применяемых алгоритмов скалярного квантования (Макса-Ллойда, равномерного) и близки к оптимальному скалярному квантованию в области низких скоростей кодирования.

Положения, выносимые на защиту.

• Алгоритм квантования с расширенной нулевой зоной, оптимизированный по скорости и ошибке кодирования.

• Алгоритм субоптимального квантования с расширенной нулевой зоной, позволяющий получить характеристики, близкие к предельно достижимым, при всех распределениях вероятностей рассматриваемого класса.

• Алгоритм адаптивного скалярного квантования с расширенной нулевой зоной на основе модели распределения спектральных коэффициентов.

• Метод вычисления перцептуальной энтропии для квантования с расширенной нулевой зоной при заданных параметрах модели распределения спектральных коэффициентов.

Практическая значимость. Разработан алгоритм субоптимального квантования с расширенной нулевой зоной, обеспечивающий выигрыш порядка 0.5 дБ по сравнению с обычным равномерным квантованием при скорости порядка 1 бит на отсчет. Потери энергетической эффективности лежат в пределах 0.05 дБ от теоретически достижимого предела для скалярного квантования.

Разработан простой метод вычисления оценки перцептуальной энтропии, позволяющий эффективно реализовать на практике адаптацию параметров квантования к изменению

параметров сигнала.

Применение на практике нового метода вычисления перцептуальной энтропии позволяет более эффективно осуществлять распределение бит между участками спектра сигнала. Как следствие, уменьшается число итераций при управлении ошибкой квантования или скоростью кодирования.

На основе проведенных экспериментов с интеграцией квантования с расширенной нулевой зоной в аудио кодек показано, что при передаче полного спектра достигается значительный выигрыш по скорости и увеличение качества (в среднем на 8.71 кбит/с и 0.44 дБ или 14.44% в скорости и 2.25% по ошибке, измеренной в дБ).

Экспертные оценки методом слепого тестирования при фиксированной целевой скорости показали: с внедрением квантования с расширенной нулевой зоной в кодек субъективное качество существенно возросло (в среднем на 15.03 балла по 100-бальной шкале).

Апробация работы. Основные положения и результаты диссертации докладывались на 8, 9 конференции аспирантов ГУАП, на 8 международной конференции «Цифровая обработка сигналов», публиковались в журнале «Цифровая обработка сигналов», оформлено 7 заявок на патенты США и докладывались на научных семинарах института прогрессивных технологий Самсунг и кафедре информационных систем ИТМО.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, списка использованных источников (59 наименований). Основная часть работы изложена на 136 страницах машинописного текста, содержит 54 рисунка и б таблиц.

В первой главе диссертационной работы приведен обзор методов обработки и кодирования аудио сигналов. Особое внимание уделено методам квантования и сформулирована постановка задачи построения адаптивного скалярного квантователя в системе кодирования аудио сигналов. Вторая глава посвящена информационным характеристикам квантования и построению модели спектральных коэффициентов аудио данных. Третья глава посвящена анализу предлагаемого метода квантования и сравнению его информационных характеристик с другими известными методами квантования. В четвертой главе рассматриваются вопросы управления квантованием, построения оценки перцептуальной энтропии и приведены алгоритмы для нахождения необходимых параметров. Пятая глава демонстрирует результаты применения предлагаемого метода квантования в аудио кодеке.

СОДЕРЖАНИЕ РАБОТЫ В первой главе диссертационной работы приведен обзор методов обработки и кодирования аудио информации. Источником данных системы сжатия аудио данных является дискретизированный по времени сигнал с частотой дискретизации . К настоящему времени существует целый класс аудио кодеков, основанных на кодировании коэффициентов ортогонального преобразования. Каждая из этих систем содержит стандартные модули, такие как блок фильтров, модель субъективного восприятия, квантование, модуль распределения бит, модуль сжатия информации без потерь, формирователь битового потока. Типовая структурная схема устройства, сжимающего аудио информацию методом кодирования спектральных коэффициентов на выходе блока фильтров, показана на рис. 1.

Рис. 1. Структурная схема устройства сжатия аудио информации

Блок фильтров выполняет преобразование временного сигнала в частотный спектр, а также вычисляет амплитудный спектр. Для получения косинусного спектра сигнала используют модифицированное дискретное косинусное преобразование (МДКП) сигнала взвешенного с окном Л(/) = яп[я-(/ + 1/2)/2Л^], / = 0,...,^-1:

2Л-1

1-0

Для получения амплитудного спектра сигнала дополнительно вычисляется модифицированное синусное преобразование (МДСП):

2ЛМ

.? (£)= £ ¿('МО«ш[гг(/ + (ЛГ +1)/ 2)(к + М2)Ш\ к = 0,...,N -1 (2)

1-0

Амплитудный спектр сигнала при известных коэффициентах преобразований МДКП (1) и МДСП (2) вычисляется как:

Д/) = л/Я/)2+У</)2 , / = (3)

где - коэффициенты косинусного преобразования, 5 (/) - коэффициенты синусного преобразования, N - длина преобразования.

Оба спектра разбиваются на спектральные поддиапазоны. Модуль, называемый «модель субъективного восприятия» оценивает требуемую ошибку квантования аудио данных для каждого поддиапазона. Модуль распределения бит оценивает битовые затраты для полос спектра на основе допустимой ошибки, полученной из модуля построения модели субъективного восприятия. Оценка битовых затрат базируется на величине перцептуальной энтропии, о которой подробнее будет сказано позже. Модуль квантования определяет необходимые параметры квантователя для каждой полосы и квантует совокупность полос

спектра. Квантование является одной из основных составляющих алгоритмов кодирования аудио информации. Модуль сжатия информации без потерь выполняет контекстное кодирование информации, затем следует модуль упаковки битового потока.

Рассмотренная структурная схема кодирования аудио информации предполагает модуль квантования, управляемый по ошибке или скорости кодирования. Выбор метода квантования в общем случае основывается на его характеристиках, определяющих качество квантования: скорость и ошибка кодирования. Предпочтительнее выбрать тот метод квантования, который дает наименьшую скорость при фиксированной ошибке или наименьшую ошибку при фиксированной скорости кодирования. Немаловажными являются ограничения, накладываемые областью применения квантователя. Учитывая рассматриваемую область применения (сжатие аудио данных), также необходимо обратить внимание на возможность управления квантованием. В действительности, необходимость управления квантованием вытекает из наличия модели субъективного восприятия, которая определяет допустимый уровень ошибки для разных участков спектра. В связи с этим появляется задача распределения битовых ресурсов между полосами спектра для улучшения субъективного качества. К ограничениям на выбор метода квантования можно также отнести вычислительную сложность и возможность адаптивного квантования данных. В диссертационной работе приведено сравнение методов скалярного квантования.

В работе приведен обзор характеристик известных методов квантования. Сравнительный анализ этих методов приводит к следующим выводам. Равномерное скалярное квантование обеспечивает возможность управления качеством квантования за счет изменения шага квантования; по вычислительной сложности равномерное скалярное квантование также лучше других методов, однако, равномерное скалярное квантование проигрывает по информационной характеристике скорость-искажение по сравнению с другими методами, что делает его применение весьма непривлекательным на практике.

Во второй главе диссертации, посвященной построению модели источника данных, исследуются информационные характеристики потока аудио данных, модель источника данных и влияние предварительной спектральной обработки на функцию скорость-искажение источника. В качестве информационной характеристики предложено использовать функцию скорость-искажение источника данных, которая может быть получена численными методами. Для дискретного стационарного источника без памяти, функция скорость-искажение вычисляется с помощью алгоритма Блейхута. Для непрерывного источника данных известна нижняя граница Шеннона на функцию скорость-искажение, которая может быть использована для оценки скорости кодирования при заданной ошибке. Оценка влияния предварительной спектральной обработки на информационную характеристику выполняется на основе разбиения спектра сигнала на полосы, использования принципов модели субъективного восприятия и анализа полос спектра на шумность. Использование предварительной обработки сигнала позволяет варьировать качество передачи спектральных коэффициентов в зависимости от требуемого уровня шума квантования данных и получить достаточно гибкую модель обработки источника данных при низких скоростях кодирования.

Модель непрерывного стационарного источника независимых сообщений полностью описывается одномерной функцией плотности вероятности /(х) . При известной модели можно рассчитать функцию скорость-искажение источника, построить эффективную шкалу квантования. Построение модели одномерного распределения заключается в нахождении такого теоретического распределения, которое будет находиться в согласии со статистическим распределением на заданной выборке опытных значений величины X. Для решения этой задачи необходимо выбрать класс теоретических распределений, с которыми проверяется согласие. Наиболее подходящим классом распределений является обобщенное гауссово распределение, задаваемое функцией плотности вероятности, поскольку оно охватывает широкое множество распределений, включая: нормальное, Лапласа и равномерное.

Обобщенное гауссово распределение случайной величины описывается функцией плотности вероятностей:

/м=

аг](а,сг)

2Г(1 /а)

ехр{- [17(а, ст)^]"}, Т](а, а) = а']

Г(31а)

Г(11а)

(4)

(5)

где а - параметр, характеризующий скорость экспоненциального убывания распределения, а - среднеквадратическое отклонение, Г(-) - гамма функция. При параметре а = 2 получается нормальное распределение, при а = 1 - распределение Лапласа, а при а -» оо -равномерное распределение.

Параметр а определяется соотношением дисперсии и первого абсолютного момента случайной величины. Поэтому для вычисления оценки £ используется следующее уравнение, в котором в левой части вместо дисперсии и абсолютного первого момента подставлялись их оценки по выборке:

<тг _ Г(1/а)Г(3/а) ¿2[|*|Г Г2(2/я) '

где Г(-) - гамма функция, ст2 - дисперсия выборки, Е[\ х |] - первый абсолютный момент случайной величины выборки.

Заметим, что для обоснования применения данной модели источника данных на практике достаточно показать, во-первых, что информационные характеристики модели и источника данных близки, и, во-вторых, что замена истинного (эмпирического) распределения его моделью не вносит существенной избыточности г . Напомним, что в качестве информационной характеристики выступает функция скорость-искажение источника. Результаты расчетов и моделирования представлены на рис. 2 при типичном для аудио сигналов значении параметра а.

Рис. 2. Функция скорость - искажение для источника данных и построенной модели

Для построения кривых использовался алгоритм Блейхута. Из представленных результатов понятно, что точность оценок, построенных по модели, достаточно высока, что позволяет использовать в качестве модели источника данных обобщенное гауссово распределение.

В диссертационной работе исследовано влияние предварительной спектральной обработки на величину нижней границы Шеннона и на скорость при заданном искажении. К предварительной спектральной обработке относятся: разбиение спектра сигнала на полосы, применение абсолютного порога слышимости согласно модели субъективного восприятия и анализ спектральных коэффициентов на шумность.

Разбиение исходного диапазона частот спектра на полосы является эффективной техникой для кодирования сигнала, причем ее эффективность может быть измерена в терминах функции скорость-искажение. Эффективность разбиения спектра сигнала на частотные диапазоны объясняется тем, что функция Н(В) некоторого процесса на исходном

диапазоне частот больше, чем средняя H(D) по полосам частот. Этот факт следует из выпуклости средней взаимной информации l(X\Y). В диссертационной работе рассмотрено два способа разбиения спектра на полосы: полосы равной длины и шкала Барка. Достоинством полос Барка по сравнению с полосами равной длины является согласованность между субъективным восприятием частотных диапазонов и шириной полос шкалы.

Использование абсолютного порога слышимости позволяет выявить спектральные коэффициенты, которые не важны с точки зрения субъективного восприятия. На практике коэффициенты спектра, энергия которых меньше значения абсолютного порога слышимости, передаются с незначительным уровнем качества или исключаются из рассмотрения.

В общем случае кодируемый сигнал можно рассматривать как сумму гармонических составляющих и шума S{t) = //(f) + N(t) . Можно предположить, что гармоническая составляющая H(t) сигнала эффективно приближается суммой небольшого числа синусно-подобных функций, а шумовая составляющая N(t) - гауссовским шумом. Таким образом, спектр сигнала состоит из двух видов коэффициентов, сгруппированных по признаку тональности: тональные и шумовые коэффициенты спектра. Используя некоторые критерии тональности, выделяются полосы спектра, которые считается незначимыми, и обрабатываются аналогично полосам лежащим ниже абсолютного порога слышимости.

На рис. 3 приведены функции скорость-искажение при различных способах спектральной обработки и длине кадра N в спектральной области. В случае полос равной длины рассмотрен случай с переключением длин кадров на основе изменения характеристик временного сигнала. На графике можно видеть, что использование абсолютного порога слышимости и анализа на шумность позволяет существенно сократить битовые затраты на передаваемый сигнал.

Выводы: в качестве модели источника данных может быть использовано обобщенное гауссово распределение с параметрами а ист; функция скорость искажение источника является инструментом определения минимально возможной скорости по заданной ошибке; алгоритм Блейхута позволяет численно оценить функцию скорость-искажение источника; разбиения спектр сигнала на полосы позволяет уменьшить битовые затраты на представление кодируемого сигнала; кодируемый сигнал можно разделить на две составляющие компоненты: шум и тон; использование абсолютного порога слышимости позволяет исключить из рассмотрения полосы спектра с малым уровнем звукового давления.

Исследованию скалярного квантования' посвящена -третья глава диссертацийнной работы. В ней исследуются границы эффективности скалярного квантования, равномерное скалярное квантование, оптимальное равномерное и неравномерное скалярное квантование. В данной главе рассматривается еще один подход к построению неравномерного скалярного квантования: скалярное квантование с расширенной нулевой зоной. Его преимуществом является то, что номера квантов и аппроксимирующие значения вычисляются практически с той же сложностью, что и для равномерного скалярного квантования. Важной особенностью рассматриваемого квантования является малое число параметров, требуемых для его описания. Это свойство имеет большое значение в тех случаях, когда требуется подстройка квантования к изменениям статистических свойств источника. Предложен алгоритм адаптивного скалярного квантования с расширенной нулевой зоной. Предполагается, в соответствии с результатами второй главы, что модель источника описывается одномерной функцией плотности вероятности обобщенного гауссова распределения. Также рассмотрены сравнительные характеристики различных способов квантования и потери энергетической эффективности скалярного квантования при различных параметрах обобщенного гауссовского распределения.

Рассмотрим теоретические границы эффективности скалярного квантования. В качестве нижней границы можно принять функцию скорость-искажение источника (эпсилон-энтропия) или ее нижнюю оценку - границу Шеннона:

НЮЪНя{В) = Нл{Х)-±Ь%гО>*т. (б).

где й - среднеквадратичная ошибка, Я0 (X) - относительная энтропия источника, ■ вычисляемая по формуле:

tf0(X) = -J/(x)log2/(*)<&,

где /(х) - функция плотности вероятности источника.

Граница Шеннона (9) для обобщенного гауссова распределения может быть в явном виде выражена через его параметры а и <т:

ЛЯ(Д) = - log.

ат](а,сг)

2Г(1/ а)

1 :-~log2(2 mD).

aln2 2

Известна асимптота Кошелева, показывающая избыточность скалярного квантования по отношению к функции скорость-искажение источника:

RKK (Л) < Яя (D) +1 log2 Щ- = Яя (£>) + 0.2546. ¿ о

Следует отметить, что добавка к границе Шеннона в формуле (6) справедлива при условии среднеквадратичной меры искажения. Оценка Кошелева асимптотически точна для высоких скоростей кодирования, т.е. при D-* 0.

Функция скорость-искажение оптимального скалярного квантования определяется минимальной энтропией выходного алфавита квантователя при ошибке не больше заданной: R,(D)= min (Н(Г)). m

Функция скорость-искажение ROKK(D) для оптимального равномерного скалярного лучше, чем для равномерного скалярного квантования RKK (D). Наша цель - разработка скалярного квантования с характеристиками не хуже, чем для оптимального равномерного квантования, и по возможности, близкими к предельно достижимым (7):

Яя (D) <H(D)< R, (D) < R(D) < Rm (D) < RnK (D). (8)

На графике показаны кривые скорость-искажение для равномерного скалярного квантования RKK(D) , оптимального равномерного скалярного квантования ROKK(D) , функции скорость-искажение источника H(D) и граница Шеннона Яй (D) , пунктиром

показана асимптота Кошелева. Графики функций, представленных в цепочке неравенств (8), приведены на рис. 4 для нескольких значений параметров обобщенного гауссова распределения а.

параметра а обобщенного гауссова распределения

Граница Кошелева показана на графиках пунктиром. Функция скорость-искажение источника обозначена как Я (О). Видно, что возможен выигрыш в скорости по сравнению с равномерным скалярным квантованием для диапазона низких скоростей. Также, можно видеть, что асимптота Кошелева справедлива только в области высоких скоростей кодирования. Графики построены для параметров а = 0.5 и а = 1.0 при единичной дисперсии. В случае параметра а = 1.0 графики построены с помощью методов численного интегрирования, для параметра а = 0.5 - моделированием. Длина выборка была выбрана такой, чтобы точность вычислений была не ниже 1% от оцениваемой величины. Для этого процесс моделирования продолжался до тех пор, пока флюктуации оцениваемого параметра не оказывались меньше 1% оцениваемой величины.

Квантование с расширенной нулевой зоной (КРНЗ) задается параметрическим набором шкал:

Ви,Л) = {±Л2;-\±Л(2^+\),±Л(2М +2),...}, у = 0,1,..., Я > 0.

Каждой шкале соответствует набор границ квантов Ь, е В(У,Д), аппроксимирующих значений у{ и масштабирующий коэффициент Л. Индекс } определяет индекс шкалы. При параметре у равном нулю получается шкала равномерного скалярного квантования, а при параметре У равном двум - нулевой квант расширен в 4 раза, как показано на рис. 5.

У = 0

— Ь3 —Ьг —6, ¿», Ъг ¿з

---(-!-!-!-(-!-

-2.5 -1.5 -0.5 0.5 1.5 2.5

7 = 2

-Ь} -Ь2 -6, А, Ь2 Ьг

__—!-!-!-!-(-

-4.0 -3.0 -2.0 2.0 3.0 4.0

Рис. 5. Параметрический набор шкал квантования с расширенной нулевой зоной

Рассмотрим три типа квантования КРНЗ. В случае КРНЗ аппроксимирующие значения выбираются в середине кванта:

1, / = ...,-2,-1,0,1,2,....

Для оптимального КРНЗ аппроксимирующее значение соответствует среднему по величинам, попавшим в квант:

1"'хДх)сЬ

у.=-=гг-> '' = -.-2,-1,0,1,2.....

Субоптимальное КРНЗ только для первого ненулевого кванта использует аппроксимирующее значение как среднее значение, в остальных квантах аппроксимирующее значение - середина кванта:

Ь,+1

У,=-

' = -1,0,1

Р"хДх)сЬ {/Мах

Сравним кривые скорость-искажение для различных способов квантования (см. рис. 6).

м,я.

Н0рск<[1>-К01™'11>

V 0=0 50

"орскИ \\ \ X

вкрюР1-нсо™т-поки13<0) к ^^

Рис. 6. Сравнительные характеристики скалярного квантования Можно видеть, что информационная характеристика КРНЗ очень блика к характеристике оптимального равномерного скалярного квантования во всем диапазоне скоростей. Квантование согласно процедуре Макса-Ллойда значительно уступает КРНЗ. График приведен для единичной дисперсии. В случае параметра а = 1.0 графики построены с помощью методов численного интегрирования (за исключением кривой Хш(0)), для параметра а = 0.5 - моделированием. Длина выборка была выбрана такой, чтобы точность вычислений не бьиа ниже 1 % от оцениваемой величины. Для этого процесс моделирования продолжался до тех пор, пока флюктуации оцениваемого параметра не оказывались меньше 1% оцениваемой величины.

Для более детального анализа функций скорость-искажение ОРСК, РСК и КРНЗ вычислены потери энергетической эффективности квантователей по сравнению с предельно достижимой эффективностью. Энергетический выигрыш квантования вычисляется по формуле:

С = Ю1оё10^- (дБ), (9)

где <т2 - дисперсия источника, а И - ошибка квантования.

Без потери общности в (9) положим сг2 = 1. Максимальный энергетический выигрыш определяется функцией скорость-искажение источника:

(10)

Потери энергетической эффективности можно выразить как разницу между максимальным выигрышем (10) и выигрышем рассматриваемого квантователя (9):

(И)

Графики функций Х(Л) для различных распределений вероятностей и различных методов скалярного квантования приведены на рис.7.

параметрах обобщенного гауссова распределения

Самые большие потери энергетической эффективности у равномерного скалярного квантования. В диапазоне скоростей от 0 до 1,4 бит (параметр а = 0.5 ) потери энергетической эффективности ОРСК больше, чем для КРНЗ. В диапазоне скоростей от 0 до 1,8 бит (параметр а = 1.0) потери энергетической эффективности РСК больше, чем для КРНЗ. Наименьшими потерями энергетической эффективности обладает ОКРНЗ. Субоптимальное КРНЗ практически полностью исчерпывает выигрыш ОКРНЗ. График приведен для единичной дисперсии.

Алгоритм адаптивного КРНЗ состоит из нескольких шагов: вычисление параметра распределения, оценивание индекса используемой шкалы и масштабирующего коэффициента по заданной ошибке квантования, сам процесс квантования.

Эффективность использования адаптивного квантования с расширенной нулевой зоной можно оценить с помощью моделирования. Рассматривается кодер аудио сигналов, основанный на кодировании коэффициентов модифицированного косинусного преобразования. В качестве кодируемых образцов выбран типичный речевой сигнал и музыкальный фрагмент. В обоих случаях частота дискретизации равна 44.1 кГц, а длина кадра во временной области - 2048 отсчетов. В силу перекрытий кадров каждому кадру п соответствует N = 1024 спектральных коэффициента. Отдельно рассматривается диапазон частот от 500 до 1500 Гц. Этому диапазону соответствуют 46 спектральных коэффициентов одного кадра.

Рис. 8. Характеристики квантования и параметры распределений для музыкального образца

Результаты моделирования, приведенные на рис. 8 показывают, что оптимизация квантователя по приведенному выше алгоритму позволяет получить выигрыш по скорости

кодирования порядка 0.2 бита на отсчет по сравнению с наиболее часто применяемым равномерным скалярным квантованием. Для речевого образца результаты аналогичны.

Выводы: для обобщенного гауссовского распределения с параметром а е [0.25,2] граница Шеннона #Я(Ц) практически совпадает с функцией скорость-искажение Я(О) при Н(П) > Яя(/)) > 2.5 бит на отсчет; при значениях параметра «€[0.25,2] и скорости квантования выше 2.5 бит на отсчет характеристики РСК и ОРСК практически совпадают и избыточность близка к асимптотической оценке Кошелева 0.255 бит на отсчет; при скорости квантования ниже 2 бит на отсчет асимптотическая оценка Кошелева является плохим ориентиром при оценке эффективности квантования. В этом диапазоне скоростей возможен существенный выигрыш неравномерного или оптимального равномерного скалярного квантования по сравнению с равномерным квантованием; оптимальное равномерное скалярное квантование весьма близко по своим характеристикам к оптимальному скалярному квантованию и его недостаток - большое количество параметров, требуемых для его описания; полученные результаты для КРНЗ убеждают в том, что при всех распределениях вероятностей рассматриваемого класса, характеристики близкие к предельно достижимым, могут быть получены с помощью СОКРНЗ, т.е. квантователя, описываемого относительно небольшим числом параметров (шаг квантования Л , номер шкалы у , аппроксимирующее значение для младшего ненулевого кванта). Выигрыш СОКРНЗ по сравнению с обычным равномерным квантованием при скорости порядка 1 бит на отсчет может превышать 0.5 дБ, а проигрыш по сравнению с оптимальным скалярным квантованием находится в пределах 0.. .0.05 дБ.

В четвертой главе диссертационной работы рассматриваются вопросы о вычислении допустимого уровня шума квантования и перцептуальной энтропии на основе модели субъективного восприятия, управления квантованием и определение параме1ров квантования с расширенной нулевой зоной на основе заданной ошибки, вычисление перцептуальной энтропии для квантования с расширенной нулевой зоной. Величина требуемой ошибки квантования определяется согласно стандарту МРЕ01.

В диссертации вычисление перцептуальной энтропии выполняется на основе функции скорость-искажение для используемого способа квантования при заданной ошибке кодирования. Получена следующая формула для перцептуальной энтропии на основе полиномиальной аппроксимации приведенных выше оценок функции скорость-искажение:

РЕ{В) =

ац(а,Р)

2иЬ2,—, ----(12)

+1 /(а 1п 2) - ^ к^ 2 (2леВ) + 0.255, £>< Д

2Г(1 /а)

с„(1ов2(В))" +... + с11оё2(£>) + с(,, £>> Д

где аппроксимация порога йь:

-0.0406а2 + 0.1210а-0.0242, а^1.5

-0.0011а+ 0.0683, а >1.5

и аппроксимация коэффициентов:

_i0.ll87а3 -0.3266л2 + 0.2149а-0.0085, а < 1.5 °2 ~ {- 0.0104а - 0.0293, а > 1.5

_ Го. 1088а3 + 0.0874а2 - 0.9159а + 0.1464, а < 1.5 С'~{-0.0195а-0.7224, а>1.5'

_ |-0.0958а3+0.3575а2-0.3472а + 0.0326, а <1.5 С° ~ [0.0387а -0.0694, а > 1.5

Сравнение перцептуальной энтропии, вычисленной в диссертации (12), с перцептуальной энтропией стандарта МРЕй! показывает, что предложенный вариант

вычисления дает более достоверную оценку битовых затрат при одной и той же оценке ошибки, чем перцептуальная энтропия стандарта МРЕв! (см. рис. 9).

R, bps

1.8

0.4

0.S

0.8

0.2

1.2

1.4

1.6

Перцептуальная энтропия / стандарта MPEG 1

Действительные битовые / затраты

Предлагаемая оценка перцептуальной энтропии

о.

frame

100

150

200 250 300 350

Рис. 9. Перцептуальная энтропия стандарта MPEG1, оценка по функции скорость-искажение (12) и действительные битовые затраты

Средняя оценка действительных битовых затрат составляет 0,38 бита на отсчет, средняя оценка перцептуальной энтропии стандарта MPEG1 равна 1,13 бит на отсчет, а предложенный вариант вычисления перцептуальной энтропии показывает среднюю оценку в 0,54 бита на отсчет. Для эксперимента использовался тестовый файл с частотой дискретизации 44100 Гц, длина спектра- 1024 отсчета.

Выводы: выражение перцептуальной энтропии стандарта MPEG 1 определяет битовые затраты исключительно для равномерного скалярного квантования и не точна, поскольку основано на равномерности распределения величин, попадающих в квант и не учитывает особенности распределения входных данных; на низкой скорости кодирования возможна достаточно точная полиномиальная аппроксимация в зависимости от входного распределения данных; для высокой скорости кодирования, где наблюдается линейный участок кривой R(D), допустимо использовать нижнюю границу Шеннона и асимптоту Кошелева для оценки перцептуальной энтропии; простота вычисления оценки перцептуальной энтропии дает возможность эффективно использовать ее на практике; применение на практике оценки (12) позволяет более эффективно задать первоначальное распределение бит между передаваемыми участками сигнала и как следствие этого уменьшается число итераций при управлении ошибкой квантования или скоростью кодирования.

В пятой главе диссертационной работы рассмотрен анализ эффективности адаптивного КРНЗ, встроенного в аудио кодек, приведены оценки субъективного и объективного качества для адаптивного КРНЗ и предыдущего варианта квантования, а также показано, что уменьшение битовой скорости достигается исключительно за счет изменение процедуры квантования.

Оценка объективного качества выполняется на основе сравнения скорости и ошибки кодирования. В качестве тестовых последовательностей принят набор файлов с частотой дискретизации 44100 Гц, используемый для тестирования аудио кодека. В обоих случаях использовался один и тот же способ обработки аудио данных, за исключением модуля квантования. Результаты сравнения приведены на рис 10.

Рис. 10. Зависимость скорости кодирования и ошибки от номера звукового фрагмента Из графиков на рис. 10 видно, что квантование КРИЗ существенно лучше по скорости кодирования, чем предыдущий вариант, использованный в аудио кодеке. При этом отношение сигнал-шум для квантования КРНЗ несколько выше, чем в предыдущей модели квантования. Оценивая среднюю разницу в скорости кодирования между предыдущим квантованием и КРНЗ, можно видеть, что КРНЗ квантование экономит в среднем 8,71 кбит/с или 14,44% от скорости кодирования потока аудио данных. При этом средняя разница в отношении сигнал-шум между КРНЗ и предыдущим кодированием составляет 0,44 дБ или 2,25% по отношению к предыд>щему варианту квантования.

Сравнивая битовые затраты на каждый вид информации о сигнале для нескольких файлов можно убедиться, что выигрыш в скорости кодирования достигается только за счет смены квантователя на КРНЗ. Битовые затраты на кванты отражены на рис. 11. рг, кьрэ

ЛМ КРНЗ ли КРНЗ ЛМ КРНЭ !(Ч1-Т- 1.1,,,.

Рис. 11. Битовые затраты на каждый вид информации при использовании разных алгоритмов квантования

Как правило, для низких скоростей кодирования производится оценка субъективного качества, которая основана на слепом прослушивании тестовых фрагментов группой экспертов. Для каждого фрагмента, используемого в тестировании, определен набор файлов: оригинал, оригинал с отфильтрованным сигналом выше 3 и 7 кГц, файл который требуется оценить и несколько вариантов сторонних аудио-кодеков (обычно около 3-х). Затем эксперт выставляет оценки каждому звуковому фрагменту на основе следующих данных: оригинал 100 баллов, оригинал с отфильтрованным сигналом выше 3 кГц получает 20 баллов, выше 7 кГц - 40 баллов, остальным файлам оценки выставляются в пределах от 40 до 100 баллов.

После слепого прослушивания результаты всех экспертов усредняются. На основе средних данных строится график, где по оси ординат отложены средняя оценка, а по оси абсцисс -имя звукового фрагмента (см. рис. 12). Чем выше оценка, тем выше субъективное качество сигнала.

Целевая скорость кодирования 18 кбит/с, тип звуковых фрагментов - стерео, частота дискретизации - 48000 Гц. Набор тестовых последовательностей был изменен с целью исключения результатов, полученных только для настроечных файлов. Тестирование проводилось в институте прогрессивных технологий Самсунг. Средняя разница по звуковым фрагментам между оценками экспертов составляет 15,03 балла

РЕЗУЛЬТАТЫ

1. Построена вероятностная модель для коэффициентов преобразования сигнала ортогональными фильтрами.

2. Исследована зависимость потенциальных характеристик эффективности квантования от параметров модели, предложена новая формула перцептуальной энтропии на основе аппроксимации функции скорость-искажение.

3. Применение на практике нового метода вычисления перцептуальной энтропии позволяет более эффективно осуществлять распределение бит между передаваемыми участками сигнала.

4. На основе проведенных экспериментов с интеграцией квантования с расширенной нулевой зоной в аудио кодек показано, что достигается уменьшение средней скорости на 8.71 кбит/с (14.44%) и увеличение отношения сигнал/шум на 0.44 дБ (2.25%).

5. Эксперименты слепого тестирования при фиксированной целевой скорости показали, что при использовании квантования с расширенной нулевой зоной субъективное качество возросло в среднем на 15.03 балла.

Основное содержание диссертационной работы изложено в следующих публикациях:

1. Поров А.В. Анализ эффективности квантования спектральных коэффициентов аудио сигнала// Восьмая научная сессия аспирантов ГУАП, часть первая, технические науки: Сб. докл./ СПбГУАП. СПб., 2005. С. 327.

2. Поров А .В. Аппроксимация функции скорость-искажение при оценке битовых затрат в системах сжатия аналоговой информации// Цифровая обработка сигналов. 2009. №1.

3. Осипов КС., Поров А.В. Сравнительный анализ эффективности банков фильтров// Девятая научная сессия аспирантов ГУАП, часть первая, технические науки: Сб. докл./ СПбГУАП. СПб., 2006. С. 298.

4. Кудряшов Б.Д., Поров А.В. Скалярные квантователи для случайных величин, имеющих обобщенное гауссовское распределение// Цифровая обработка сигналов. 2005. №4.

5. Егоров А.А., Кудряшов Б.Д., Петров С.Е., Поров А.В. Сравнительный анализ методов совместного кодирования каналов стерео сигнала// Цифровая обработка сигналов и её применение: Сб. науч. тр./ Российского научно-технического общества радиотехники, электроники и связи имени А.С.Попова, выпуск VIII, Москва, 2006.

6. Пат. 20060004566 США, МКИ G10L 21/00. Low-bitrate encoding/decoding method and system. Oh Eunmi, Kim Junghoe, Kim Sangwook, Egorov Andrew, Porov Anton, Osipov Konstantin, Kudryashov Boris.

7. Пат. 20080219455 США, МКИ H03M 7/30. Method and apparatus for encoding and decoding noise signal. Oh Eunmi, Porov Anton, Kim Jung-hoe.

8. Пат. 20070229345 США, МКИ H03M 3/00. Method and apparatus to quantize and dequantize input signal, and method and apparatus to encode and decode input signal. Kim Junghoe, Oh Eunmi, Porov Anton.

9. Пат. 20080218390 США, МКИ H04N 7/24. Entropy encoding and decoding apparatus and method based on tree structure. Kim Jung-hoe, Porov Anton, Oh Eunmi.

10. Пат. 20080270125 США, МКИ G10L 19/00. Method and apparatus for encoding and decoding high frequency band. Choo Ki Hyun, Porov Anton, Oh Eunmi, Kim Jung-hoe.

11. Пат. 20080281604 США, МКИ G10L 19/00. Method and apparatus for encoding and decoding audio signal. Choo Ki Hyun, Porov Anton, Oh Eunmi, Kim Jung-hoe.

12. Пат. 20080101600 Юж. Корея, МКИ G10L 19/00. Method and apparatus for adaptive quantization and inverse-quantization. Kim Jung-Hoe, Oh Eunmi, Sung Ho Sang, Kudryashov Boris, Porov Anton

Тиражирование и брошюровка выполнены в учреждении «Университетские телекоммуникации» 197101, Санкт-Петербург. Саблинская ул.. 14 Тел. (812) 233 4669 'объем 1 п.л. Тираж 100 экз.

Оглавление автор диссертации — кандидата технических наук Поров, Антон Викторович

ВВЕДЕНИЕ.

1. ОБЗОР МЕТОДОВ КОДИРОВАНИЯ СПЕКТРАЛЬНЫХ КОЭФФИЦИЕНТОВ ДЛЯ СИСТЕМ СЖАТИЯ АУДИО СИГНАЛОВ.

1.1. Кодирование аудио сигнала.

1.1.1. Блок фильтров.

1.1.2. Модель субъективного восприятия.

1.1.3. Распределение бит.

1.1.4. Сжатие информации без потерь.

1.1.5. Формирование битового потока.

1.2. Сжатие информации с потерями.

1.2.1. Теоретико-информационные пределы эффективности кодирования при сжатии с потерями.

1.2.2. Классификация методов квантования.

1.2.3. Ограничения на выбор метода квантования.

1.2.4. Оптимальные методы скалярного квантования.

1.2.5. Избыточность скалярного квантования.

1.2.6. Сравнение методов скалярного квантования.

1.3. Постановка задачи построения адаптивного скалярного квантования для системы кодирования аудио сигналов.

1.4. Результаты и выводы.

2. ИНФОРМАЦИОННЫЕ ХАРАКТЕРИСТИКИ ПОТОКА АУДИО ДАННЫХ.

2.1. Методы вычисления функции скорость-искажение источника данных.

2.2. Предварительная обработка спектральных коэффициентов для вычисления информационных характеристик.

2.3. Построение модели одномерного распределения.

2.4. Вычисление информационных характеристик реального сигнала.

2.5. Результаты и выводы.

3. СКАЛЯРНОЕ КВАНТОВАНИЕ.

3.1. Характеристики скалярного квантования.

3.2. Границы эффективности скалярного квантования.

3.3. Оптимальное скалярное квантование.

3.4. Скалярное квантование с расширенной нулевой зоной.

3.5. Адаптивное скалярное квантование с расширенной нулевой зоной.

3.6. Результаты и выводы.

4. ПЕРЦЕПТУАЛЬНАЯ ЭНТРОПИЯ И УПРАВЛЕНИЕ КВАНТОВАНИЕМ.

4.1. Вычисление допустимого уровня шума квантования.

4.2. Перцептуальная энтропия.

4.3. Управление квантованием.

4.4. Определение параметров скалярного квантования с расширенной нулевой зоной.

4.5. Вычисление перцептуальной энтропии для квантования с расширенной нулевой зоной.

4.6. Результаты и выводы.

5. ЭФФЕКТИВНОСТЬ ПРИМЕНЕНИЯ КВАНТОВАНИЯ С РАСШИРЕННОЙ НУЛЕВОЙ ЗОНОЙ В АУДИО КОДЕКЕ.

5.1. Передача аудио данных.

5.2. Спектральная обработка аудио данных и сжатие информации без потерь.

5.3. Результаты применения квантования с расширенной нулевой зоной в аудио кодеке.

5.4. Результаты и выводы.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Поров, Антон Викторович

Актуальность. Алгоритмы сжатия аудио информации используются для получения компактного представления аудио сигналов. Эффективность сжатия важна с точки зрения уменьшения затрат на передачу информации по каналам связи или хранения информации на цифровом носителе. Целью кодирования аудио сигнала является представление сигнала наименьшим числом бит при условии, что последующее его воспроизведение удовлетворительно с точки зрения субъективного восприятия. Разработка устройства кодирования опирается на особенности восприятия аудио сигналов человеком. Эти особенности в большей степени зависят от спектрального состава сигнала, совместного влияния спектральных коэффициентов друг на друга и частотного диапазона. Квантование является одной из основных составляющих алгоритмов кодирования аудио информации.

Цели и задачи исследования. Целью диссертационной работы является разработка способов квантования спектральных коэффициентов аудио сигнала.

Для достижения цели исследования необходимо решить следующие задачи:

• Построение математической модели квантуемых данных.

• Идентификация модели по выборке данных малого объема.

• Адаптивное квантование спектральных коэффициентов в зависимости от требуемой ошибки квантования.

Предметом исследования является разработка и анализ алгоритмов квантования, учитывающих особенности субъективного восприятия аудио сигналов. Взаимосвязь квантования и субъективного восприятия в области аудио кодирования на сегодняшний день настолько тесная, что рассматривать их в отдельности практически невозможно.

Научная новизна. На основе анализа информационных характеристик модели и источника показано, что в качестве модели источника аудио данных может быть использовано одномерное обобщенное гауссово распределение. В работе показано, что анализ оценки параметров распределения данных позволяет более эффективно выбирать параметры скалярного квантователя. Характеристики предложенного метода квантования значительно превосходят характеристики наиболее часто применяемых алгоритмов скалярного квантования (Макса-Ллойда, равномерного) и близки к оптимальному скалярному квантованию в области низких скоростей кодирования.

Положения, выносимые на защиту:

• Алгоритм квантования с расширенной нулевой зоной, оптимизированный по скорости и ошибке кодирования.

• Алгоритм субоптимального квантования с расширенной нулевой зоной, позволяющий получить характеристики, близкие к предельно достижимым при всех распределениях вероятностей рассматриваемого класса.

Теоретическая значимость полученных результатов в ходе диссертационной работы заключается в следующем:

• Построена вероятностная модель для коэффициентов преобразования аудио сигналов ортогональными фильтрами.

• Исследована зависимость потенциальных характеристик эффективности квантования от параметров модели.

• Предложен алгоритм адаптации квантования к изменениям модели входных данных.

• Дан вывод новой формулы перцептуальной энтропии на основе аппроксимации функции скорость-искажение.

Практическая значимость полученных результатов в ходе диссертационной работы:

• Разработан алгоритм субоптимального квантования с расширенной нулевой зоной, обеспечивающий выигрыш порядка 0.5 дБ по сравнению с обычным равномерным квантованием при скорости порядка 1 бит на отсчет. Потери энергетической эффективности лежат в пределах 0.05 дБ от теоретически достижимого предела для скалярного квантования.

• Разработан метод вычисления оценки перцептуальной энтропии, позволяющий эффективно реализовать на практике адаптацию параметров квантования к изменению параметров сигнала.

• Применение на практике нового метода вычисления перцептуальной энтропии позволяет более эффективно осуществлять распределение бит между полосами спектра сигнала. Как следствие этого, уменьшается число итераций при управлении ошибкой квантования или скоростью кодирования.

• На основе проведенных экспериментов по интеграции квантования с расширенной нулевой зоной в аудио кодек показано, что достигается значительный выигрыш по скорости и увеличение качества (в среднем на 8.71 кбит/с и 0.44 дБ, что соответствует 14.44% и 2.25%, измеренной в дБ).

• Экспертные оценки слепого тестирования при фиксированной целевой скорости показали: при внедрении квантования с расширенной нулевой зоной в кодек субъективное качество существенно возросло (в среднем на 15.03 балла).

Апробация результатов. Основные положения и результаты диссертации докладывались на 8, 9 конференции аспирантов ГУАП, на 8 международной конференции «Цифровая обработка сигналов», публиковались в журнале «Цифровая обработка сигналов», оформлено 7 заявок на патенты США и докладывались на научных семинарах института прогрессивных технологий Самсунг и кафедре информационных систем ИТМО.

Структура диссертации. Диссертационная работа состоит из введения, пяти глав, списка использованных источников (59 наименований). Основная часть работы изложена на 136 страницах машинописного текста, содержит 54 рисунка и 6 таблиц. В первой главе диссертационной работы приведен обзор методов обработки и кодирования аудио сигналов. Особое внимание уделено методам квантования и сформулирована постановка задачи построения адаптивного скалярного квантователя в системе кодирования аудио сигналов. Вторая глава посвящена информационным характеристикам квантования и построению модели спектральных коэффициентов аудио данных. Третья глава посвящена анализу предлагаемого метода квантования и сравнению его информационных характеристик с другими известными методами квантования. В четвертой главе рассматриваются вопросы управления квантованием, построения оценки перцептуальной энтропии и приведены алгоритмы для нахождения необходимых параметров. Пятая глава демонстрирует результаты применения предлагаемого метода квантования в аудио кодеке.

Заключение диссертация на тему "Адаптивное скалярное квантование спектральных коэффициентов для систем сжатия аудио сигналов"

Заключение

В разделе 1.3 были сформулированы требования к разрабатываемому методу квантования на основе ограничений накладываемых областью применения и желаемых характеристик квантования. Рассмотрим, насколько эти требования выполнены для квантования с расширенной нулевой зоной.

Вычислительная сложность. Выражение (3.24) однозначно определяет процесс квантования данных методом КРНЗ. Нетрудно заметить, что вычислительная сложность предлагаемого метода и равномерного скалярного квантования практически идентичны.

Адаптивный выбор параметров квантования. Перед квантованием осуществляется анализ распределения данных в предположении, что оно относится к классу обобщенного гауссова распределения с некоторым параметром а. Согласно найденному параметру а (2.34) выбираются параметры квантования (4.25), учитывая тем самым свойства квантуемого сигнала.

Поведение R(D) в сравнении с другими методами квантования. Цепочка неравенств (3.17) демонстрирует, что кривая R{D) в случае ОКРНЗ лежит между функцией скорость-искажение источника и скорость-искажение оптимального равномерного скалярного квантования. Согласно рис. 3.6, функция скорость-искажение для случая КРНЗ лежит между кривыми R(D) для равномерного скалярного квантования и функцией скорость-искажение источника.

Управление ошибкой квантования. Возможность управления ошибкой квантования реализована с помощью аппроксимации параметров КРНЗ (шкала, масштабирующий коэффициент и скорость кодирования) таким образом, чтобы среднеквадратичная ошибка кодирования была ближе заданной, согласно (4.36).

Аппроксимация перг{ептуальной энтропии. В результате исследований в области аппроксимации функции скорость-искажение КРНЗ была найдена простая зависимость перцептуальной энтропии от параметров обобщенного гауссова распределения и требуемой ошибки квантования (4.42).

Отсюда следует, что КРНЗ удовлетворяет сформулированным требованиям. Результаты применения КРНЗ на практике (см. рис. 5.7, 5.8 и 5.9) показывают, что эффективность работы аудио кодека значительно выше, чем при совместном использовании процедуры оптимизации Макса-Ллойда. Основные результаты диссертации в области квантования подытожим в виде следующих выводов:

Результаты моделирования показывают, что в качестве модели распределения спектральных коэффициентов можно использовать обобщенное гауссово распределение с параметрами а и а, поскольку информационные характеристики R(D) модели и реальной последовательности практически совпадают. Типичное значение параметра а = 0.4.

Из-за наличия ограничений на вычислительную сложность предпочтительнее использовать скалярное квантование спектральных коэффициентов. Скалярное квантование с фиксированным числом квантов и оптимизацией только по ошибке кодирования дает значительно худший результат, чем равномерный скалярный квантователь (РСК) для ярко выраженных экспоненциальных распределений в диапазоне низких скоростей. В данном случае предпочтительнее оптимизация по скорости кодирования.

За счет некоторого увеличения ошибки с уменьшением скорости кодирования можно получить существенно лучшие результаты, чем возможны при использовании процедуры Макса-Ллойда или РСК. Этот эффект достигается с помощью квантования с расширенной нулевой зоны (КРНЗ).

Квантование ОКРНЗ и ОРСК весьма близко по своим характеристикам к оптимальному скалярному квантованию. Их недостаток - большое количество параметров, требуемых для описания.

Полученные результаты убеждают в том, что при всех распределениях вероятностей рассматриваемого класса, характеристики близкие к предельно достижимым, могут быть получены с помощью СОКРНЗ, т.е. квантователя, описываемого относительно небольшим числом параметров (шаг квантования Я, номер шкалы j, аппроксимирующее значение для младшего ненулевого кванта). Выигрыш СОКРНЗ по сравнению с обычным равномерным квантованием при скорости порядка 1 бит на отсчет может превышать 0.5 дБ, а проигрыш по сравнению с оптимальным скалярным квантованием находится в пределах 0.0.05 дБ.

Расчеты и моделирование для модели обобщенного гауссова распределения и для реальных потоков данных показывают, что методы квантования этого типа весьма перспективны для использования в системах сжатия мультимедиа информации. Использование предварительной спектральной обработки и модели субъективного восприятия позволяет уменьшить битовые затраты. Вычисление оценки необходимого количества бит для передачи сигнала требует знания достаточно точной аппроксимации функции скорость-искажение используемого квантователя (перцептуальная энтропия).

Вычисление перцептуальной энтропии может быть сведено к аппроксимации функции скорость-искажение R(D) для заданного параметра а. Эффективность предлагаемой оценки значительно выше, чем дана в стандарте MPEG1 за счет исключения предположения о неизменности функции плотности вероятности внутри кванта.

Простота вычисления оценки перцептуальной энтропии, как функции PE(D) = f(D,a), дает возможность эффективно реализовать на практике зависимость (4.42). Вычислительные затраты на оценку перцептуальной энтропии чрезвычайно малы - несколько операций умножения, вычитания и двоичный логарифм.

Применение на практике оценки (4.42) позволяет более эффективно задать первоначальное распределение бит между передаваемыми участками сигнала. Как следствие этого уменьшается число итераций при управлении ошибкой квантования или скоростью кодирования.

На основе проведенных экспериментов с интеграцией КРНЗ в аудио кодек видно, что при передаче полного спектра средний выигрыш на 8.71 кбит/с (14.44%) и увеличение качества на 0.44 дБ (2.25%) достигается исключительно за счет использования КРНЗ.

Эксперименты слепого тестирования при фиксированной целевой скорости 18 кбит/с показали: с внедрением КРНЗ в кодек субъективное качество возросло в среднем на 15.03 балла, что является существенным улучшением.

Библиография Поров, Антон Викторович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Арбузов С. М., Соловьева Е. Б., Солонина А. И., Улахович Д. А. Основы цифровой обработки сигналов. СПб: БХВ-Петербург, 2005, С. 768.

2. Ватолин Д., РатушнякА., Смирнов М., Юкин В. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео. М.: ДИАЛОГ-МИФИ, 2002, С. 384

3. Володин Э. К, Ковалгин Ю. А. Цифровое кодирование звуковых сигналов. СПб.: Корона-Принт, 2004, С. 240.

4. Гадзиковский В. И. Теоретические основы цифровой обработки сигналов. М.: Радио и связь, 2004, С. 344.

5. Галлагер Р. Теория информации и надежная связь: Пер. с англ. М.: Советское радио, 1974.

6. Ганеев P.M. Математические модели в задачах обработки сигналов: Справочное пособие. М.: Горячая линия Телеком, 2002, С. 84.

7. Гольденберг JI.M. и др. Цифровая обработка сигналов М.: Радио и связь, 1990, С. 256.

8. Павловец А.Н, Петровский А.А. Квантование огибающей спектра в вокодере, основанном на декомпозиции речевого сигнала на периодическую и апериодическую составляющие// Цифровая обработка сигналов. 2005. №3.

9. Колесник В. Д., Полтырев Г. Ш. Курс теории информации. М.: Наука, 1982.

10. Кошелев В.Н. Квантование с минимальной энтропией// Проблемы передачи информации, 1963. Т.14. С.151-156

11. Кудряшов БД., Поров А.В. Скалярные квантователи для случайных величин, имеющих обобщенное гауссовское распределение// Цифровая обработка сигналов. 2005. №4.

12. Куприянов М.С., Матюшкин БД. Цифровая обработка сигналов: процессоры, алгоритмы, средства проектирования. СПб.: Политехника, 1999, С. 592.

13. Поров А.В. Анализ эффективности квантования спектральных коэффициентов аудио сигналаУ/ Восьмая научная сессия аспирантов ГУАП, часть первая, технические науки: Сб. докл./ СПбГУАП. СПб., 2005. С. 327.

14. Поров А.В. Аппроксимация функции скорость-искажение при оценке битовых затрат в системах сжатия аналоговой информации// Цифровая обработка сигналов. 2009. №1.

15. Осипов КС., Поров А.В. Сравнительный анализ эффективности банков фильтров// Девятая научная сессия аспирантов ГУАП, часть первая, технические науки: Сб. докл./ СПбГУАП. СПб., 2006. С. 298.

16. Сборник задач по теории вероятностей, математической статистике и теории случайных функций/ Под ред. Свешникова А. А. М.: Наука, 1970.

17. Сергиепко А. Б. Цифровая обработка сигналов: Учебник для вузов. СПб: Питер, 2006, С. 752.

18. Солонина А. И. и др. Алгоритмы и процессоры цифровой обработки сигналов: Учебное пособие. СПб: БХВ-Петербург, 2001, С. 464.

19. ШелухигI О.И. и др. Цифровое сжатие видеоинформации и звука. М.: Дашков и Ко, 2003, С. 426.

20. Berger Т. Optimum quantizers and permutation codes// IEEE Trans. Inform. Theory, 18, No 6, pp. 759-765, Nov., 1972.

21. Berger Т., Gibson J. Lossy source coding// IEEE Trans. Inform. Theory, v. 44, No 6, pp. 2702-2703, Oct, 1998.

22. Blahut R. E. Computation of Channel Capacity and Rate-Distortion Functions// IEEE Trans. Inform. Theory, 18, No 4, pp. 460-473, Jul., 1972.

23. Chu P. L. Quadrature Mirror Filter Design for an Arbitrary Number of Equal Bandwidth Channels// IEEE Trans.Acous., Speech, and Sig. Process., v. ASSP-33, n. 1, pp. 203-218, Feb.1985.

24. Cover Т., Thomas J. Elements of Information Theory. John Wiley and Sons, Inc.: New York, 1991.

25. Cox R. The Design of Uniformly and Nonuniformly Spaced Pseudo QMF// IEEE Trans. Acous., Speech, and Sig Process., v. ASSP-34, pp. 1090-1096, Oct. 1986.

26. Farvardin N., Modestino J. W. Optimum quantizer performance for a class of non-Gaussian memoryless Sources// IEEE Trans. Inform. Theory, v. ГГ-30, No 3, pp. 485-497, May, 1984.

27. Fisher Т., Marcellin M., Wang M. Trellis-Coded Vector Quantization// ШЕЕ Trans. Inform. Theory, 37, No 6, pp. 1551-1566, Nov., 1991.

28. Fletcher H. Auditory Patterns// Rev. Mod. Phys., pp. 47-65, Jan. 1940.

29. Gish H., Pierce J.N. Asymptotically efficient quantizing// IEEE Trans. Inform. Theory, v.14, no 5, pp. 676-683, Sept., 1968.

30. Gray R. M., NeuhoffD.L. Quantization// IEEE Trans. Inform. Theory, vol. IT-44, pp. 2325 -2383, Oct. 1998.

31. Greenwood D.D. Critical Bandwidth and the Frequency Coordinates of the Basilar Membrane//J. Acous. Soc. Am., pp. 1344-1356, Oct. 1961.

32. Стандарт IS 11172-3 ISO/IEC JTC1/SC29/WG11 MPEG. Information Technology -Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to About 1.5 Mbit/s, Part 3: Audio 1992. (MPEG-1)

33. Стандарт IS13818-3 ISO/IEC JTC1/SC29/WG11 MPEG. Information Technology -Generic Coding of Moving Pictures and Associated Audio, Part 3: Audio 1994. (MPEG-2)

34. Johnston J. Estimation of Perceptual Entropy Using Noise Masking Criteria// in Proc. ICASSP-88, pp. 2524-2527, May 1988.

35. Johnston J. Transform Coding of Audio Signals Using Perceptual Noise Criteria// IEEE J. Sel. Areas in Comm., pp. 314-323, Feb. 1988.

36. Johnston J., et al. AT&T Perceptual Audio Coding (РАС)// in Collected Papers on Digital Audio Bit-Rate Reduction, N. Gilchrist and C. Grewin, Eds., Aud. Eng. Soc., pp. 73-81, 1996.

37. Koilpillai R., Vaidyanathan P. P. New Results on Cosine-Modulated FIR Filter Banks Satisfying Perfect Reconstruction// in Proc. Int. Conf. Acous., Speech, and Sig. Process. (ICASSP-91), pp. 1793-1796, May 1991.

38. Koilpillai R., Vaidyanathan P. P. Cosine-Modulated FIR Filter Banks Satisfying Perfect Reconstruction// IEEE Trans. Sig. Proc., v. SP-40, pp. 770-783, Apr. 1992.

39. Lloyd S. P. Least squares quantization in PCM// IEEE Trans. Inform. Theory, vol. IT-28, pp. 129-137, Mar. 1982.

40. Malvar H. Lapped Transforms for Efficient Transform/Subband Coding// IEEE Trans. Acous., Speech, and Sig. Process.,v. 38, n. 6, pp. 969-978, Jun. 1990.

41. Malvar H. Modulated QMF Filter Banks with Perfect Reconstruction// Electronics Letters, v. 26, pp. 906-907, Jun. 1990.

42. Masson J., Picel Z. Flexible Design of Computationally Efficient Nearly Perfect QMF Filter Banks// in Proc. Int Conf. Acous., Speech, and Sig. Process. (ICASSP-85), pp. 14.7.1-14.7.4, Mar. 1985.

43. Max J. Quantizing for minimum distortion// IRE Trans. Inform. Theory, vol. ГГ-6, pp. 712, Mar. 1960.

44. Noll P., Zelinski R. Bounds on quantizer performance in the low bit-rate region// IEEE Trans. Commun., vol. COM-26, pp.300-304, Feb. 1978.

45. Nussbaumer H. J. Pseudo QMF Filter Bank// IBM Tech. Disclosure Bulletin, v. 24, pp. 3081-3087, Nov. 1981.

46. Пат. 20060004566 США, МКИ G10L 21/00. Low-bitrate encoding/decoding method and system. Oh Eunmi, Kim Junghoe, Kim Sangwook, Egorov Andrew, Porov Anton, Osipov Konstantin, Kudryashov Boris.

47. Пат. 20070229345 США, МКИ H03M 3/00. Method and apparatus to quantize and dequantize input signal, and method and apparatus to encode and decode input signal. Oh Eunmi, Kim Junghoe, Porov Anton.

48. Пат. 20080219455 США, МКИ H03M 7/30. Method and apparatus for encoding and decoding noise signal. Oh Eunmi, Porov Anton, Kim Jung-hoe.

49. Пат. 20080218390 США, МКИ H04N 7/24. Entropy encoding and decoding apparatus and method based on tree structure. Oh Eunmi, Porov Anton, Kim Jung-hoe.

50. Пат. 20080270125 США, МКИ G10L 19/00. Method and apparatus for encoding and decoding high frequency band. Oh Eunmi, Choo Ki Hyun, Porov Anton, Kim Jung-hoe

51. Пат. 20080281604 США, МКИ G10L 19/00. Method and apparatus for encoding and decoding audio signal. Oh Eunmi, Choo Ki Hyun, Porov Anton, Kim Jung-hoe.

52. Пат. 20080101600 Юж. Корея, МКИ G10L 19/00. Method and apparatus for adaptive quantization and inverse-quantization. Oh Eunmi, Kim Jung-Hoe, Sung Ho Sang, Kudryashov Boris, Porov Anton

53. Painter Т., SpaniasA. Perceptual Coding of Digital Audio// Proceedings of the IEEE, vol. 88, No. 4, pp. 451-513, April, 2000.

54. Ramstad T. Cosine Modulated Analysis-Synthesis Filter Bank With Critical Sampling and Perfect Reconstruction// in Proc. Int. Conf. Acous., Speech, and Sig. Process. (ICASSP-91), pp. 1789-1792, May 1991.

55. Rothweiler J. H. Polyphase Quadrature Filters A New Subband Coding Technique// in Proc. Int. Conf. Acous., Speech, and Sig. Process. (ICASSP-83), pp. 1280-1283, May 1983.

56. ScharfB. Critical Bands// in Foundations of Modern Auditory Theory, New York: Academic Press, 1970.

57. Schroeder M., et al. Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear// J. Acoust. Soc. Am., pp. 1647-1652, Dec. 1979.

58. Sharifi K., Leon-Garcia A. Estimation of Shape Parameter for Generalized Gaussian Distributions in Sub band Decompositions of Video// in ШЕЕ Trans. On Circuits and Systems for Video Technology, 5(1), pp. 52-56, Feb. 1995.

59. Terhardt E. Calculating Virtual Pitch// Hearing Research, pp. 155-182, 1, 1979.

60. Welch T. A Technique for High Performance Data Compression// ШЕЕ Сотр., v. 17, n. 6, pp. 8-19, Jun. 1992.

61. Witten I. Arithmetic Coding for Data Compression// Comm. ACM, v. 30, n. 6, pp. 520540, Jun. 1987.

62. Zador P. Topics in the asymptotic quantization of continuous random variables// ШЕЕ Trans. Inform. Theory, vol. ГГ-28, pp. 139 -149, March, 1982.

63. Ziv J., Lempel A. A Universal Algorithm for Sequential Data Compression// ШЕЕ Trans. On Information Th„ v. IT-23, n. 3, pp. 337-343, May 1977.

64. Zwicker E., Fasti H. Psychoacoustics Facts and Models// Springer-Verlag,1990.

65. Zwislocki J. Analysis of Some Auditory Characteristics// in Handbook of Mathematical Psychology, R. Luce, et al., Eds., New York: John Wiley and Sons, Inc., 1965.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00