Адаптивное скалярное квантование спектральных коэффициентов для систем сжатия аудио сигналов

Поров, Антон Викторович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Адаптивное скалярное квантование спектральных коэффициентов для систем сжатия аудио сигналов

кандидата технических наук: Поров, Антон Викторович
город: Санкт-Петербург
год: 2006
специальность ВАК РФ: 05.13.01

Автореферат по информатике, вычислительной технике и управлению на тему «Адаптивное скалярное квантование спектральных коэффициентов для систем сжатия аудио сигналов»

Автореферат диссертации по теме "Адаптивное скалярное квантование спектральных коэффициентов для систем сжатия аудио сигналов"

На правах рукописи

Поров Антон Викторович

АДАПТИВНОЕ СКАЛЯРНОЕ КВАНТОВАНИЕ СПЕКТРАЛЬНЫХ КОЭФФИЦИЕНТОВ ДЛЯ СИСТЕМ СЖАТИЯ АУДИО СИГНАЛОВ

Специальность 05 13 01 - Системный анализ, управление и обработка информации (в технике и технологиях)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 2006 "

003066393

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования "Санкт-Петербургский государственный университет аэрокосмического приборостроения" (ГУАП)

Научный руководитель

доктор технических наук, доцент Кудряшов Борис Давидович

Официальные оппоненты доктор технических наук, профессор

Малыхина Галина Федоровна кандидат технических наук, доцент Канатов Иван Иванович

Ведущая организация — ОАО «Российский Институт Мощного Радиостроения» (РИМР), г Санкт-Петербург

Защита состоится 6 " Л 200^- в /1' часов на заседании

диссертационного совета Д 212 233 02 при Государственном образовательном учреждении высшего профессионального образования "Санкт-Петербургский государственный университет аэрокосмического приборостроения" по адресу 190000, Санкт-Петербург, ул Б Морская,67, ГУАП

С диссертацией можно ознакомиться в библиотеке ГУАП

Автореферат разослан "_"_200 г

Ученый секретарь диссертационного совета

доктор технических наук, профессор 4 У! к ^ \^ЛА»Ь<зшов Л А

• С ей

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность работы Алгоршмы сжатия аудио информации используются для получения компактного представления аудио сигналов Эффективность сжатия важна с точки -зрения уменьшения затрат на передачу информации по каналам связи или хранения информации на цифровом носителе Целью кодирования аудио сигаала является представление сигнала наименьшим числом бит при условии, что доследующее его воспроизведение удовлетворительно с точки зрения субъективного восприятия Разработка устройства кодирования опирается на особенности восприятия аудио сигналов человеком Эти особенности в большей степени зависят от спектрального состава сигнала, совместного влияния спектральных коэффициентов друг на друга и частотного диапазона Квантование является одной из основных составляющих алгоритмов кодирования аудио информации

Так как в реальных системах сжатия аудио информации качество передачи зависит от выбранного способа квантования, то актуальной является задача разработки алгоритмов квантования спектральных коэффициентов, обеспечивающих необходимое качество передачи сигнала и большую эффективность сжатия Актуальным является также определение характеристик способов квантования, позволяющих предварительно оценить эффективность сжатия и выбрать наилучшие параметры передачи аудио информации

Лель в задачи работы Разработка способов квантования спектральных коэффициентов аудио сигнала

Для достижения цели исследования необходимо решить следующие задачи

• Построение математической модели квантуемых данных.

• Идентификация модели по выборке данных малого объема

• Адаптивный выбор параметров квантователя в зависимости от кодируемого сншала и параметров распределения

• Адаптивное квантование спектральных коэффициентов в зависимости от требуемой ошибки квантования

Научная новизна работы. На основе анализа информационных характеристик модели и источника показано, что в качестве модели источника аудио данных может быть использовано одномерное обобщенное гауссово распределение В работе показано, что анализ оценки параметров распределения данных позволяет более эффективно выбирать параметры скалярного квантователя Характеристики предложенного метода квантования значительно превосходят характеристики наиболее часто применяемых алгоритмов скалярного квантования (Макса-Ллойда, равномерного) и близки к оптимальному скалярному квантованию в области низких скоростей кодирования Положения, вывоеимые на защиту.

• Алгоритм квантования с расширенной нулевой зоной, оптимизированный по скорости и ошибке кодирования

• Алгоритм субоптимального квантования с расширенной нулевой зоной, позволяющий получить характеристики, близкие к предельно достижимым, при всех распределениях вероятностей рассматриваемого класса

• Алгоритм адаптивного скалярного квантования с расширенной нулевой зоной на основе модели распределения спектральных коэффициентов

• Метод вычисления периептуальной энтропии для квантования с расширенной нулевой зоной при заданных параметрах модели распределения спектральных коэффициентов

Практическая значимость Разработан алгоритм субоптимального квантования с расширенной нулевой зоной, обеспечивающий выигрыш порядка 0 5 дБ по сравнению с обычным равномерным квантованием при скорости порядка 1 бит на отсчет Потери энергетической эффективности лежат в пределах 0 05 дБ от теоретически доетижимого предела для скалярного квантования

Разработан простотой метод вычисления оценки перцептуальной энтропии, позволяющий эффективно реализовать на практике адаптацию параметров квантования к

изменению параметров сигнала

Применение на практике нового метода вычисления перцешуальной энтропии позволяет более эффективно осуществлять распределение бит между участками спектра сигнала Как следствие, уменьшается число итераций при управлении ошибкой кваитования или скоростью кодирования

На основе проведенных экспериментов с интеграцией квантования с расширенной нулевой зоной в аудио кодек показано, что при передаче полного спектра достигается значительный выигрыш по скорости и увеличение качества (в среднем на 8 71 кбит/с и 0 44 дБ или 14 44% в скорости и 2 25% по ошибке)

Экспертные оценки методом слепого тестирования яри фиксированной целевой скорости показали с внедрением квантования с расширенной нулевой зоной в кодек субъективное качество существенно возросло (в среднем на 15 03 балла)

Аиробапия работы. Основные положения и результаты диссертации докладывались на 8, 9 конференции аспирантов ГУАП, на 8 международной конференции «Цифровая обработка сигналов», публиковались в журнале «Цифровая обработка сигналов», оформлена заявка на патент США и докладывались на научных семинарах института прогрессивных технологий Самсунг и кафеле информационных систем ГУАП

Структура и объем работы. Диссертационная работа состоят из введения, пяти глав, списка использованных источников (59 наименований) Основная часть работы изложена на 134 страницах машинописного текста, содержит 55 рисунков и 6 таблиц

В первой главе диссертационной работы приведен обзор методов обработка и кодирования аудио сигналов Особое внимание уделено методам квантования и сформулирована постановка задачи построения адаптивного скалярного квантователя в системе кодирования аудио сигаалов Вторая глава посвящена информационным характеристикам квантования и построению модели спектральных коэффициенте» аудио данных. Третья глава посвящена анализу предлагаемого метода квантования и сравнению его информационных характеристик с другими известными методами квантования В четвертой главе рассматриваются вопросы управления квантованием, построения оценки перцешуальной энтропии и приведены алгоритмы для нахождения необходимых параметров Пятая глава демонстрирует результаты применения предлагаемого метода квантования в аудио кодеке

СОДЕРЖАНИЕ РАБОТЫ В первой главе диссертационной работы приведен обзор методов обработки и кодирования аудио информации Источником данных системы сжатия аудио данных является дискретизированный но времени сигнал «(и) с частотой дискретизации К настоящему времени существует целый класс аудио кодеков, основанных на кодировании коэффициентов ортогонального преобразования Каждая из этих систем содержит стандартные модули, такие как блок фильтров, модель субъективного восприятия, квантование, модуль распределения бит, модуль сжатия информации без потерь, формирователь битового потока Типовая структурная схема устройства, сжимающего аудио информацию методом кодирования спектральных коэффициентов на выходе блока фильтров, показана на рис 1

Рис 1 Структурная схема устройства сжатия аудио информации

Блок фильтров выполняет преобразование временного сигнала в частотный спектр, а также вычисляет амшппудаый спектр Для получения косинусного спектра сигнала используют модифицированное дискретное косинусное преобразование (МДКП) сигнала взвешенного с окном h(i) = sin

S(k) = 2j?hv)s(i)<x>s[it(¡ + (N + \)/2)(k + ll2)/N\ k~Q, ,N-l (1)

í=0

Для получения амплитудного спектра сигнала дополнительно вычисляется модифицированное синусное преобразование (МДСП)

S(it) = '¿W¡M0sm[^(¡ + (yV + l)/2)(ifc+l/2)/^], i = 0, ,N-l (2)

f=0

Амплитудный спектр сигнала при известных коэффициентах преобразований МДКП (1) и МДСП (2) вычисляется как

A{f) = 4s<J?+V UY , f = (3)

где S(f) - коэффициенты косинусного преобразования, S'(f) - коэффициенты синусного преобразования, N - длина преобразования

Оба спектра разбиваются на спектральные поддиапазоны Модуль, называемый «модель субъективного восприятия» оценивает требуемую ошибку квантования аудио данных для каждого поддиапазона Модуль распределения бит оценивает битовые затраты для полос спектра на основе допустимой ошибки, полученной из модуля построения модели субъективного восприятия Оценка битовых затрат базируется на величине перцептуальной энтропии, о которой подробнее будет сказано позже Модуль квантования определяет необходимые параметры квантователя для каждой полосы и квантует совокупность полос спектра Квантование является одной из основных составляющих алгоритмов кодирования

аудио информации Модуль сжатия информации без потерь выполняет контекстное кодирование информации, затем следует модуль упаковки битового потока

Рассмотренная структурная схема кодирования аудио информации предполагает модуль квантования, управляемый по ошибке или скорости кодирования Выбор метода квантования в общем случае основывается на его характеристиках, определяющих качество квантования скорость и ошибка кодирования Предпочтительнее выбрать тот метод квантования, который дает наименьшую скорость при фиксированной ошибке или наименьшую ошибку при фиксированной скорости кодирования Немаловажными являются ограничения, накладываемые областью применения квантователя Учитывая рассматриваемую область применения (сжатие аудио данных), также необходимо обратить внимание на возможность управления квантованием В действительности, необходимость управления квантованием вытекает из наличия модели субъективного восприятия, которая определяет допустимый уровень ошибки для разных участков спектра. В связи с этим появляется задача распределения битовых ресурсов между полосами спектра для улучшения субъективного качества. К ограничениям на выбор метода квантования можно также отнести вычислительную сложность и возможность адаптивного квантования данных В диссертационной работе приведено сравнение методов скалярного квантования

В работе приведен обзор характеристик известных методов квантования Сравнительный анализ этих методов приводят к следующим выводам Равномерное скалярное квантование обеспечивает возможность управления качеством квантования за счет изменения шага квантования, по вычислительной сложности равномерное скалярное квантование также лучше других методов, одаако, равномерное скалярное квантование проигрывает по информационной характеристике скорость-искажение по сравнению с друпами методами, что делает его применение весьма непривлекательным на практике

Во второй главе диссертации, посвященной построению модели источника данных, исследуются информационные характеристики потока аудио данных, модель источника данных и влияние предварительной спектральной обработки на функцию скорость-искажение источника В качестве информационной характеристики предложено использовать функцию скорость-искажение источника данных, которая может быть получена численными методами Для дискретного стационарного источника без памяти, функция скорость-искажение вычисляется с помощью алгоритма Блейхута Для непрерывного источника данных известна нижняя граница Шеннона на функцию скорость-искажение, которая может быть использована для оценки скорости кодирования при заданной ошибке Оценка влияния предварительной спектральной обработки на информационную характеристику выполняется на основе разбиения спектра сигнала на полосы, использования принципов модели субъективного восприятия я анализа полос спектра на шумность Использование предварительной обработай сигнала позволяет варьировать качество передачи спектральных коэффициентов в зависимости от требуемого уровня шума квантования данных и получить достаточно гибкую модель обработки источника данных при низких скоростях кодирования

Модель непрерывного стационарного источника независимых сообщений полностью описывается одномерной функцией плотности вероятности f(x) При известной модели можно рассчитать функцию скорость-искажение источника, построить эффективную шкалу квантования Построение модели одномерного распределения заключается в нахождении такого теоретического распределения, которое будет находиться в согласии со статистическим распределением на заданной выборке опытных значений величины X Для решения этой задачи необходимо выбрать класс теоретических распределений, с которыми проверяется согласие Наиболее подходящим классом распределений является обобщенное гауссово распределение, задаваемое функцией плотности вероятности, поскольку оно охватывает широкое множество распределений, включая нормальное, Лапласа и равномерное

Обобщенное гауссово распределение случайной величины описывается функцией плотности вероятностей

ат](ам) 2Г(1 /а)

Г(3 /а)

(4)

ехр{-^(а,сг)|*|}!}, = с ^

где а - экспоненциальная скорость ослабления, <т - среднеквадратическое отклонение, Г() - гамма функция Ври параметре а - 2 получается нормальное распределение, при а = 1 -распределение Лапласа, а при а ->«> -равномерное распределение

Параметр а определяется соотношением дисперсии и первого абсолютного момента случайной величины Поэтому для вычисления оценки а используется следующее уравнение, в котором в левой частя вместо дисперсии и абсолютного первого момента подставляшсь их оценки по выборке

о г _ Г(1/аг)Г(3/«) ' Бг[|*|] Г2(2/а) ' где Г() - гамма функция, а2 - дисперсия выборки, Щ х ¡] - первый абсолютный момент случайной величины выборки

Заметим, что для практического применения данной модели источника данных достаточно совпадения информационных характеристик модели и источника данных (в данном случае, функции скорость-искажение источника) Результаты расчетов и моделирования представлены на рис 1 при типичном для аудио сигналов значении параметра а

Н =>г

г(а) =

(5)

- -0

Ряс 2 Функция скорость - искажение для источника данных и построенной модели

Для построения кривых использовался алгоритм Блейхута Из представленных результатов понятно, что точность оценок, построенных по модели, достаточно высока, что позволяет использовать в качестве модели источника данных обобщенное гауссово распределение

В диссертационной работе исследовано влияние предварительной спектральной обработай на величину нижней границы Шеннона и на скорость при заданном искажении К предварительной спектральной обработке относятся разбиение спектра сигнала на полосы, применение абсолютного порога слышимости согласно модели субъективного восприятия и анализ спектральных коэффициентов на шумность

Разбиение исходного диапазона частот спектра на полосы является эффективной техникой для кодирования сигнала, которая может быть оценена функцией скорость-искажение источника Эффективность разбиения спектра сигнала на частотные диапазоны заключается в том, что функция #(£>) некоторого процесса на исходном диапазоне частот

больше, чем средняя Н(О) по полосам частот Этот факт следует из выпуклости средней взаимной информации 1{ХВ диссертационной работе рассмотрено два способа разбиения спектра на полосы полосы равной длины и шкала Барка Достоинством полос

Бирка по сравнеяяю с; полосами равной длины является согласованность между субъективным восприятием частотных диапазонов и шириной полос шкалы.

Использование абсолютного порога слышимости поэво.эяет выявить спектральные коэффициенты, которые не важны с точки прения субъективного восприятия На практике коэффициенты спектра, энергия которых меньше значения абсолютного порога слышимости, передаются с незначительным уровнем качества или исключаются из рассмотрения

В общем случае кодируемый сигнал можно рассматривать как сумму гармонических отставляющих и шума S(i}~ H(t)+ N(t) , Можно предположить, что гармоническая составляющая Hit) сигнала эффективно приближается суммой небольшого числа синусно-подобных функций, а шумовая составляющая N(t) - гауссовекнм шумом. Таким образом спектр сигнала состоит из двух видов коэффициентов, сгруппированных гю признаку тональности; тональные и шумовые коэффициенты спектра. Используя некоторые критерии тональности, выделяются полосы спектра, которые считается незначимыми, и обрабатываются аналогично полосам лежащим ниже абсолютного порога слышимости.

На рис. 3 приведены функции скорость-искажение при различных способах спектральной обработки и длине кадра .V в спектральной области. В случае полос равной длины рассмотрен случай с переключением длин кадров на основе изменения х!!ракгеристик временного сигнала На графике можно видеть, что использование абсолютного порога слышимости и анализа на шумность позволяет существенно сократить битовые затраты на передаваемый сиги а.-.

Выводы: в качестве модели источника данных может быть использовано обобщенное гауссово распределение с параметрами а и а ; функция скорость искаженна источника является инструментом определения минимально возможной скорости по заданной ошибке; алгоритм Блейхута позволяет численно оценить функцию скорость-искажение источника: разбиения спектр сигнала на полосы позволяет уменынип, битовые затраты на представление кодируемого сигнала; кодируемый сигнал можно разделить на две составляющие компоненты: шум и тон: нспо;ц,зовтше абсолютною порога слышимости позволяет исключить из рассмотрения полосы спектра с малым уровнем звукового давления.

Исследованию скалярного квантования посвящена 1-ретья глава диссертационной работы В ней исследуются границы эффективности скалярного квантования, равномерное скалярное квантование, оптимальное равномерное и неравномерное скалярное квантование В данной главе рассматривается еще один подход к построению неравномерного скалярного квантования: скалярное квантование с расширенной нулевой зоной. Его преимуществом

является то, что номера квантов и аппроксимирующие значения вычисляются практически с той же сложностью, что и для равномерного скалярного квантования Важной особенностью рассматриваемого квантования является малое число параметров, требуемых для его описания Это свойство имеет большое значение в тех случаях, когда требуется подстройка квантования к изменениям статистических свойств источника Предложен алгоритм адаптивного скалярного квантования с расширенной нулевой зоной Предполагается, в соответствии с результатами второй главы, что модель источника описывается одномерной функцией плотности вероятности обобщенного гауссова распределения Также рассмотрены сравнительные характеристики различных способов квантования и потери энергетической эффективности скалярного квантования при различных параметрах обобщенного гауссовского распределения

Рассмотрим теоретические границы эффективности скалярного квантования В качестве нижней границы можно принять функцию скорость-искажение источника (эпсилон-энтропия) или ее нижнюю оценку - границу Шеннона

Нф) > Яа ф) = Я0 (X) - | 1о6 а (1жВ), (6)

где £> - среднеквадратичная ошибка, Н0(Х) — относительная энтропия источника, вычисляемая по формуле

Н11(Х) = -1/(х)кщг/(х)с1х,

где /(х) - функция плотности вероятности источника

Граница Шеннона (9) для обобщенного гауссова распределения может быть в явном виде выражена через его параметры а и о-

ап(а-Лг)

2Г(1 /а)

1 —-1С^2(2 яеЩ

аЫ2 2

Известна асимптота Кошелева, показывающая избыточность скалярного квантования по отношению к функции скорость-искажение источника

Ккк (ГУ) < Я,„ ф) + *-1о82 ^ = Я,,, (£>) + 0.2546

/ о

Следует отметить, что добавка к границе Шеннона в формуле (6) справедлива при условии среднеквадратичной меры искажения Оценка Кошелева асимптотически точна для высоких скоростей кодирования £> -> О

Функция скорость-искажение оптимального скалярного квантования определяется минимальной эшропией выходного алфавита квантователя при ошибке не больше заданной П,ф) = тш (Я(Г)) (7)

Функпви скорость-искажение Долж(£>) для оптимального равномерного скалярного лучше, чем для равномерного скалярного квантования ЯК1Сф) Наша цель - разработка скалярного квантования с характеристиками не хуже, чем для оптимального равномерного квантования, и по возможности, близкими к предельно достижимым (7)

я,й(0) 5 Нф) < ДДЯ) < П(й)<Я0КК(В) < ИКК(П) (8)

На графике показаны кривые скорость-искажение для равномерного скалярного квантования Я^ф) , оптимального равномерного скалярного квантования {П) , функции скорость-искажение источника #(£>) и граница Шеннона Н^ф) , пунктиром показана асимптота Кошелева Графики функций, представленных в цепочке неравенств (8), приведены на рис 4 для нескольких значений параметров обобщенного гауссова распределения а

параметра а обобщенного гауссова распределения

Граница Кошелева показана на графиках пунктиром Функция скорость-искажение источника обозначена как И (О) Видно, что возможен выигрыш в скорости по сравнению с равномерным скалярным квантовааием для диапазона низких скоростей Также, можно видеть, что асимптота Кошелева справедлива только в области высоких скоростей кодирования Графики построены для параметров альфа 0 5 и 1 0 при единичной дисперсии В случае параметра альфа 10 графики построены с помощью методов численного интегрирования, для параметра альфа 0 5- моделированием Длина выборка бьша выбрана такой, чтобы точность вычислений не была ниже 1% от оцениваемой величины Для этого процесс моделирования продолжался до тех пор, пока флюктуации оцениваемого параметра не оказывались меньше 1% оцениваемой ьеличииы

Квантование с расширенной нулевой зоной (КРНЗ) задается параметрическим набором

шкал

#0, Л) = {±А2}-' ,±Л(2>~1 + + 2), },./ = 0,1, ,1>0

Каждой шкале соответствует набор границ квантов А, е£(у,Л), аппроксимирующих значений у, и масштабирующий коэффициент Л Индекс ] определяет индекс шкалы При параметре ] равном нулю получается шкала равномерного скалярного квантования, а при параметре } равном двум-нулевой квант расширен в 4 раза, как показано на рис 5

./ = 0

-Ь, ~Ъг Ъх Ьг Ъ}

--1-(-!-]-!-

-25 -15 -05 05 15 25

7=2

-Ъг -Ъ2 -Ы__ь, _ъг ь3

1-1-!-1-1-т..

-40 -30 -20 20 30 40

Рис 5 Параметрический набор шкал квантования с расширенной нулевой зоной

Рассмотрим три типа квантования КРНЗ В случае КРНЗ аппроксимирующие значения выбираются в середине кванта

» = ,-2,-1,0,1,2,

Для оптимального КРНЗ аппроксимирующее значение соответствует среднему по величинам, попавшим в квант

У. = ^-. 1 = ,-2,-1,0,1,2.

{" Пх)Ох

Субоптимальное КРНЗ только для первого ненулевого кванта использует аппроксимирующее значение как среднее значение, в остальных квантах аппроксимирующее значение - середина кванта

У, = -

-3,-2,2,3,

Сравним кривые скорость-искажение для различных способов квантования (см рис 6)

Чарада^мяиИ ч^ яюс И

Рис 6 Сравнительные характеристики скалярного квантования Можно видеть, что информационная характеристика КРНЗ очень блика к характеристике оптимального равномерного скалярного квантования во всем диапазоне скоростей Квантование согласно процедуре Макса-Ллойда значительно уступает КРНЗ График приведен для единичной дисперсии В случае параметра альфа 10 графики построены с помощью методов численного интегрирования (за исключением кривой Яда (£>)), ДЛЯ параметра альфа 0 5 - моделированием Длина выборка была выбрана такой, чтобы точность вычислений не была ниже 1% от оцениваемой величин,! Для этого процесс моделирования продолжался до тех пор, пока флюктуации оцениваемого параметра не оказывались меньше 1% оцениваемой величины

Для более детального анализа функций скорость-искажение ОРСК, РСК и КРНЗ вычислены потери энергетической эффективности квантователей по сравнению с предельно достижимой эффективностью Энергетический выигрыш квантования вычисляется по формуле

0 = Ю1оВш™1 (дБ), (9)

где сг2 - дисперсия источника, а £> - ошибка квантования

Без потери общности в (9) положим аг =1 Максимальный энергетический выигрыш определяется функцией скорость-искажение источника

(10)

Потери энергетической эффективности можно выразить как разницу между максимальным выигрышем (10) и выигрышем рассматриваемого квантователя (9)

ЦК) = Ота{Ку-СНК} (11)

Графики функций ЦК) для различных распределений вероятностей и различных методов скалярного квантования приведены на рис 7

Рис 7 Потери энергетической эффективности скалярного квантования при различных параметрах обобщенного гауссова распределения

Самые большие потери энергетической эффективности у равномерного скалярного квантования В диапазоне скоростей от 0 до 1,4 бит (параметр альфа 0,5) потери энергетической эффективности ОРСК больше, чем для КРЮ В диапазоне скоростей от 0 до 1,8 бит {параметр альфа 1,0) потери энергетической эффективности РСК больше, чем для КРНЗ Наименьшими потерями энергетической эффективности обладает ОКРНЗ Субоптимальное КРНЗ практически полностью исчерпывает выигрыш ОКРНЗ График приведен для единичной дисперсии.

Алгоритм адаптивного КРНЗ состоит из нескольких шагов вычисление параметра распределения, оценивание индекса используемой шкалы и масштабирующего коэффициента по заданной ошибке квантования, сам процесс квантования

Эффективность использования адаптивного квантования с расширенной нулевой зоной можно оценить с помощью моделирования Рассматривается кодер аудио сигналов, основанный на кодировании коэффициентов модифицированного косинусного преобразования В качестве кодируемых образцов выбран типичный речевой сигнал и музыкальный фрагмент В обоих случаях частота дискретизации равна 44 1 кГц, а длина кадра во временной области - 2048 отсчетов В силу перекрытий кадров каждому кадру п соответствует N = 1024 спектральных коэффициента. Отдельно рассматривается диапазон частот от 500 до 1500 Гц Этому диапазону соответствуют 46 спектральных коэффициентов одного кадра

Рис 8 Характеристики квантования и параметры распределений для музыкального образца

Результаты моделирования, приведенные на рис 8 показывают, что оптимизация квантователя по приведенному выше алгоритму позволяет получить выигрыш по скооости кодирования порядка 02 бита на отсчет по сравнению с наиболее часто применяемым равномерным скалярным квантованием Для речевого образца результаты аналогичны

Выводы- для обобщенного гауссовского распределения с параметром «<=[0 25,2] граница Шеннона Н,Ь(П) практически совпадает с функцией скорость-искажение Нф) при #(£>) > ф) >25 бит на отсчет, при значениях параметра а е [025,2] и скорости квантования выше 2 5 бит на отсчет характеристики РСК и ОРСК практически совпадают и избыточность олизка к асимптотической оценке Кошелева О 255 бит на отсчет при скорости квантования ниже 2 бит на отсчет асимптотическая оценка Кошелева является плохим ориентиром при оценке эффективности квантования В этом диапазоне скоростей возможен существенный выигрыш неравномерного или оптимального равномерного скаляшого квантования по сравнению с равномерным квантованием, оптимальное равномерное скалярное квантование весьма близко по своим характеристикам к оптимальному скалярному квантованию и его недостаток - большое количество параметров, требуемых для его описания; полученные результаты да КРЮ убеждают в том что при всех распределениях вероятностей рассматриваемого класса, характеристики близкие к предельно достижимым, могут быть получены с помощью СОКРНЗ, те квантователя, описываемого относительно небольшим числом параметров (шаг квантования Л , номер шкалы у , аппроксимирующее значение для младшего ненулевого кванта) Выигрыш СОКРНЗ по сравнению с обычным равномерным квантованием при скорости порядка 1 бит на отсчет может превышать 05 дБ, а проигрыш по сравнению с оптимальным скалярным квантованием находится в пределах 0 0 05 дБ,

В четвертой главе диссертационной работы рассматриваются вопросы о вычислении допустимого уровня шума квантования и перцешуальной энтропии на основе модели субъективного восприятия, управления квантованием и определение параметров квантования с расширенной нулевой зоной на основе заданной ошибки, вычисление перцешуальной энтропии для квантования с расширенной нулевой зоной Величина требуемой ошибки квантования определяется согласно стандарту МРЕИ

В диссертации вычисление перцешуальной энтропии выполняется на основе функции скорость-искажение для используемого способа квантования при заданной ошибке кодирования Получена следующая формула для перцешуальной энтропии на основе полиномиальной аппроксимации приведенных выше оценок функции скорость-искажение

-log;

+ l/(ata2)-ilog2(2*eZ>) + 0 255, D<D6

0&Д

[«lyÇar.jg) />£(£>) = ] 2Г(1/ог)

cJlog^A»" + +c1bg2(D) + c„, где аппроксимация порога Dt

f- 0 0406а2 + 0 1210а - 0 0242, a s 15 [-0 0011а+ 0 0683, «>15'

и аппроксимация коэффициентов

Го И87«5 -0 3266а2 + 02149а - 0 0085, a S1 5 °2 0 0104а-0 0293, а>15

_ fo 1088а3 + 0 0874а2 - 0 9159а + 0 1464, а S1 5 С' [-0 0195а - 0 7224, л>15'

_ J- 0 0958а3 + 0 3575а2 - 0 3472а + 0 0326, «¿15 °0 ~ [0 0387а -0 0694, а >15

Сравнение перцептуальной энтропии вычисленной в диссертации (12) с перцептуальной энтропией стандарта MPEG1 показывает, что предложенный вариант вычисления дает более достоверную оценку битовых затрат при одной и той же оценке ошибки, чем перцептуальная энтропия стандарта MPEG1 (см рис 9)

Перцепгуальвая эшропия стандарта MPEG1

Предлагаемая оценка перцептуальной энтропии

Действительные битовые / затраты

О Ш 1Ш 150 аю 2SO зоо зш

Рис 9 Перцептуальная энтропия стандарта MPEG1, оценка по функции скорость-искажение (12) и действительные битовые затраты

Средняя оценка действительных битовых затрат составляет 0,38 бита на отсчет, средняя оценка перцептуальной энтропии стандарта MPEG1 равна 1,13 бит на отсчет, а предложенный вариант вычисления перцептуальной энтропии показывает среднюю оценку в 0,54 бита на отсчет Для эксперимента использовался тестовый файл с частотой дискретизации 44100 Гц, длина спектра -1024 отсчета

Выводы: выражение перцептуальной энтропии стандарта MPEG 1 определяет битовые затраты исключительно дай равномерного скалярного квантования и не точна, поскольку основано на равномерности распределения величин, попадающих в квант и не учитывает особенности распределения входных данных, на низкой скорости кодирования возможна достаточно точная полиномиальная аппроксимация в зависимости от входного распределения данных, дан высокой скорости кодировании, где наблюдается линейный

участок кривой К(О) , допустимо использовать нижнюю границу Шеннона и асимптоту Кошелева для оценки перцептуальной энтропии, простота вычисления оценки перцептуальной энтропии дает возможность эффективно использовать ее на практике, применение на практике оценки (12) позволяет более эффективно задать первоначальное распределений бит между передаваемыми участками сигнала и как следствие этого уменьшается число итераций при управлении ошибкой квантования или скоростью кодирования

В пятой главе диссертационной работы рассмотрен анализ эффективности адаптивного КРНЗ встроенного в аудио кодек, приведены оценки субъективного и объективного качества для адаптивного КРНЗ и предыдущего варианта квантования, а также показано, что уменьшение битовой скорости достигается исключительно за счет изменение процедуры квантования

Оценка объективного качества выполняется на основе сравнения скорости и ошибки кодирования В качестве тестовых последовательностей принят набор файлов с частотой дискретизации 44100 Гц, используемый для тестирования аудио кодека В обоих случаях использовался один и тот же способ обработки аудио данных, за исключением модуля квантования Результаты сравнения приведены на рис 10

Рис 10 Зависимость скорости кодирования и ошибки от номера звукового фрагмента Из графиков на рис 10 видно, что квантование КРНЗ существенно лучше по скорости кодирования, чем предыдущий вариант, использованный в аудио кодеке При этом отношение сигнал-шум для квантовашш КРНЗ несколько выше, чем в предыдущей модели квантовании Оценивая среднюю разницу в скорости кодирования между предыдущим квантованием и КРНЗ, можно видеть, что КРНЗ квантование экономит в среднем 8,71 кбит/с или 14,44% от скорости кодирования потока аудио данных При этом средняя разница в отношении сигнал-шум между КРНЗ и предыдущем составляет 0,44 дБ или 2,25% по отношению х предыдущему варианту квантования

Сравнивая битовые затраты на каждый вид информации о сигнале для нескольких файлов можно убедиться, что выигрыш в скорости кодирования достигается только за счет смены квантователя на КРНЗ Битовые затраты на кванты отражены черным прямоугольником на рис 11

R, fcbpe 80

70 60

50 <0

ЭС 20

10 0

Рис. 11, Битовые затраты на каждый вид информации при использовании разных алгоритмов кантования

Как правило, д:1я низких скоростей кодирования производятся оценка субъективного качества, которая основана на слепом прослушивании тестовых фрагмигсов группой экспертов Для каждого фрагмента, используемого в гестировании, определен набор файлов: оригинал, оригинал с отфильтрованным сигналом выше 3 и 7 кГц, файл который требуется оценить и несколько вариантов сторонних аудио-кодеков (обычно около 3-х')- Затем эксперт выставляет оценки каждому звуковому фрагменту на основе следующих данных: оригинал 1® баллов, оригинал с отфильтрованным сигналом выше 3 кГц получает 20 баллов, выше 7 кГц - 40 балле», остальным файлам оценки выставляются в пределах от 40 до I СЮ баллов. После слепого прослушивания результаты всех экспертов усредняются На основе средних данных строится график, где по оси ординат отложены средняя оценка, а но оси абсцисс -имя звукового фрагмента (см. рис. 12). Чем выше оценка, теч выше субъективное качество сигнала

фрагмента

Рис. 12 Оценка субъективного восприятия для JIM и КРНЗ квантования

Целевая скорость кодирования 18 кбнт'с. тип звуковых фрагментов - стерео, частота дискретизации - 48000 Гц Набор тестовых последовательностей был изменен с целью

исключения результатов полученных только для настроечных файлов Тестирование проводилось в институте прогрессивных технологий Самсунг Средняя разница по звуковым фрагментам между оценками экспертов составляет 15,03 балла

РЕЗУЛЬТАТЫ

1 Построена вероятностная модель для коэффициентов преобразования сигнала ортогональными фильтрами

2 Исследована зависимость потенциальных характеристик эффективности квантования от параметров модели, предложена новая формула перцептуальной энтропии на основе аппроксимации функции скорость-искажение

3 Применение на практике нового метода вычисления перцептуальной энтропии позволяет более эффективно осуществлять распределение бит между передаваемыми участками сигнала

4 На основе проведенных экспериментов с интеграцией квантования с расширенной нулевой зоной в аудио кодек показано, что достигается уменьшение средней скорости на 8 71 кбит/с (14 44%) и увеличение отношения сигнал/шум на 0 44 дБ (2 25%)

5 Эксперименты слепого тестирования при фиксированной целевой скорости показали, что при использовании квантования с расширенной нулевой зоной субъективное качество возросло в среднем на 15 03 баяла

Основное содержание диесертанвоиной работы изложено в следующих публикациях:

1 Поров А В Анализ эффективности квантования спектральных коэффициентов аудио сигаала// Восьмая научная сессия аспирантов ГУАП, часть первая, технические науки Сб докл/СПбГУАП СПб,2005 С 327

2 Осипов КС, Поров AB Сравнительный анализ эффективности банков фильтров// Девятая научная сессия аспирантов ГУАП, часть первая, технические науки Сб докд / СПбГУАП СПб, 2006 С 298

3 Кудряшов БД, Поров А В Скалярные квантователи для случайных величин, имеющих обобщенное гауссовское распределение//Цифровая обработка сигналов 2005 Ка4

4 Егоров А А, Кудряшов БД, Петров С В, Поров А В Сравнительный анализ методов совместного кодирования каналов стерео сигнала// Цифровая обработка сигналов и ее применение Сб науч тр / Российского научно-технического общества радиотехники, электроники и связи имени А С Попова, выпуск УШ, Москва, 2006

5 Пат 20060004566 США, МКИ G10L 21/00 Low-brtrate encoding/decoding method and system Oh Eunmi, Kjm Junghoe, Run Sangwook, Egorov Andrew, Porov Anton, Osipov Konstantin, Kudryashov Boris

Формат 60x84 1\16 .Бумага офсетная. Печать офсетная Тираж 100 экз Заказ №

Редакционно-издательский центр ГУАП 190000, Санкт-Петербург , Б. Морская ул., 67

Похожие работы

Информатика, вычислительная техника и управление
05.13.00