автореферат диссертации по приборостроению, метрологии и информационно-измерительным приборам и системам, 05.11.18, диссертация на тему:Перцепционное сжатие звука с использованием вейвлетных пакетов

кандидата технических наук
Рогозинский, Глеб Гендрихович
город
Санкт-Петербург
год
2010
специальность ВАК РФ
05.11.18
Диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам на тему «Перцепционное сжатие звука с использованием вейвлетных пакетов»

Автореферат диссертации по теме "Перцепционное сжатие звука с использованием вейвлетных пакетов"

Рогозинский Глеб Гендрихович

ПЕРЦЕПЦИОННОЕ СЖАТИЕ ЗВУКА С ИСПОЛЬЗОВАНИЕМ ВЕЙВЛЕТНЫХ ПАКЕТОВ

Специальность 05.11.18 - Приборы и методы преобразования изображений и звука

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

3 0 СЕН 2010

Санкт-Петербург 2010

004609496

Работа выполнена в Санкт-Петербургском государственном университете кино и телевидения на кафедре технической электроники

Научный руководитель

Официальные оппоненты

Ведущая организация

доктор технических наук, профессор Кривошейкин Анатолий Валентинович

доктор технических наук, профессор Ковалгин Юрий Алексеевич

кандидат технических наук, старший научный сотрудник Ахматов Андрей Андреевич

ОАО «НТЦ ВСП «Супертел Дале»»

Защита состоится 21 октября 2010 г. в 13 часов на заседании диссертационного совета Д 210.021.01 при Санкт-Петербургском государственном университете кино и телевидения по адресу 191119, Санкт-Петербург, ул. Правды, 13.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета кино и телевидения.

Автореферат разослан « бб^/М/Ы-^_2010 г.

Ученый секретарь

диссертационного совета ^ _а_0 Гласман К.Ф.

Актуальность темы диссертации.

Перцепционное кодирование подразумевает способ преобразования потока звуковых данных, при котором кодированию подвергается только та часть информации, которую способен воспринять слуховой анализатор человека. Часть информации, которая не может быть воспринята, устраняется из потока данных. Другая часть информации, параметры которой могут восприниматься только частично, кодируется более грубо, с использованием меньшего числа информационных разрядов. Таким образом, перцепционное кодирование подразумевает невосполнимую утрату значительной части исходной информации, за счет чего и достигается эффект сжатия. Поэтому данные методы относят к методам сжатия с потерями, в отличие от методов сжатия без потерь. Сжатие с потерями позволяет достичь больших значений коэффициента сжатия ценой ухудшения качества.

Вейвлетное преобразование, получившее значительное распространение в прикладной математике, находит новые области применения. Аналогия между быстрым алгоритмом вейвлетного преобразования и квадратурно-зеркальной фильтрацией делает это преобразование эффективным инструментом в задачах субполосного кодирования сигналов, к которым могут быть отнесены вопросы перцепционного сжатия звука.

Для сокращения времени передачи данных по сетям связи, а также для увеличения полезной емкости носителей данных применяются различные методы сжатия информации. Актуальность эффективного использования и оптимизации методов сжатия постоянно возрастает в связи с увеличением объемов данных, передаваемых по каналам связи. Важное значение принимают экономические факторы. Использование алгоритмов сжатия позволяет передать звук с высоким или приемлемым качеством, используя узкую полосу частот. Это, в свою очередь, делает возможным сокращение стоимости аренды спутникового канала, уменьшение диаметров передающей и приемной антенн, увеличение количества программ, передаваемых в одном канале и т.д.

В рамках целевой правительственной программы по внедрению в нашей стране цифрового теле- и радиовещания решается ряд задач, в том числе, связанных с эффективным сжатием мультимедиа. К этим задачам относится и рассматриваемая в данной работе проблема, что определяет актуальность поставленной темы.

Цель и задачи исследования. Цель диссертационной работы состоит в исследовании возможности использования вейвлетов в качестве базиса частотно-временного преобразования в перцепционном кодировании звука. Поставленная цель достигается решением следующих задач:

1) сравнительный анализ существующих и перспективных алгоритмов перцепционного сжатия звука;

2) разработка психоакустической модели слуха в вейвлетном пространстве;

3) разработка эффективного алгоритма сжатия звуковых данных;

4) экспериментальное апробирование результатов теоретических исследований.

Методы исследования. При решении поставленных задач применялись методы теории приближения функций, методы теории вычислений, методы теории вейвлетов, методы психоакустики, методы статистической обработки результатов эксперимента. Научная новизна.

1) показана возможность вычисления психоакустической модели непосредственно в вейвлетном пространстве

2) проведена адаптация метода оптимизации вейвлетов к задаче улучшения частотной селективности фильтров Добеши

3) разработан алгоритм перцепционного кодирования звука, использующий вейвлетное преобразование

4) разработан формат кадра сжатых данных Практическая значимость.

Решение поставленных задач позволяет провести разработку кодека на основе вейвлетного преобразования. Реализация и внедрение результатов исследований. Результаты диссертационной работы были использованы:

- на предприятии ОАО «НТЦ ВСП «Супертел Дале»» при проведении НИР по разработке головной станции цифрового кабельного телевидения в рамках целевой программы по цифровому телевидению и радиовещанию;

- на предприятии ООО «НПФ Технощит» при проведении НИР по системам волоконно-оптической связи;

- в Санкт-Петербургском государственном университете кино и телевидения в методиках лабораторных 1 научно-исследовательских работ для магистрантов факультета аудиовизуальной техники.

Личный вклад автора состоит в следующем:

- обоснование возможности использования психоакустической модели в пространстве вейвлетов

- разработка вейвлетных базисов с улучшенной частотной селективностью

, - разработка и отладка экспериментальной модели аудиокодека Защищаемые положения.

1. Принцип расчета психоакустической модели сигнала в вейвлетном пространстве, состоящий в вычислении суммарных энергий

вейвлетных коэффициентов различных уровней с последующей нормировкой и расчетом индивидуальных и глобального порогов маскирования.

1. Метод кодирования сигнала, заключающийся в переквантовании коэффициентов пакетного вейвлетного преобразования исходного звукового сигнала на основании данных, полученных из психоакустической модели. 3. Способ организации структуры кадра в файле, содержащем сжатые звуковые данные.

Апробация работы. По результатам диссертации сделаны доклады на Международном симпозиуме по проблемам применения алгоритмов искусственного интеллекта AI-METH2007 (г. Гливице, Польша, 2007), 7-ой международной научно-технической конференции «Цифровые и информационные технологии в электронной медиаиндустрии - 2009» (г. Санкт-Петербург, 2009) и 12-й Международной конференции «Цифровая обработка сигналов и ее применение - 2010» (г. Москва, 2010). Связь с научными программами и темами. Исследования по основным разделам диссертационной работы проводились в рамках НИОКР №0706/2-1138: «Разработка оборудования и технологий цифрового фильмопроизводства и кинопоказа» (номер гос. регистрации 01.2.007 08694) и НИР №607-ФР «Создание диагностического комплекса» (номер гос. регистрации 0120.0 800779).

Публикации. Основные материалы диссертации опубликованы в 12

работах, среди которых 3 статьи и тезисы 9 докладов.

Структура и объем диссертации. Диссертация состоит из введения, четырех

глав с выводами по каждой из них, заключения, списка литературы и

приложения.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении содержатся обоснование актуальности темы диссертационного исследования, формулировка цели и задач работы, основные положения, выносимые на защиту и определяются содержание и методы выполнения работы.

В первой главе представлено краткое изложение основных психоакустических принципов, лежащих в основе алгоритмов перцепционного сжатия звука. Рассматриваются существующие на сегодняшний день алгоритмы сжатия и анализируются их недостатки. Показано, что набор полифазных фильтров, используемый в блоке частотно-временного преобразования кодеков ISO/IEC MPEG, плохо аппроксимирует идеальную модель распределения критических полос слуха по ширине. Предложено использовать пакетное вейвлетное преобразование с целью достижения лучшей аппроксимации функции ширины критических полос слуха от их центральных частот.

Рассматриваются основные концепции, изложенные в опубликованных работах, посвященных экспериментальным исследованиям вейвлетных кодеков. Приводятся основные положения теории вейвлетов, на которых базируется теоретическая часть настоящей диссертационной работы.

На рисунке 1 приведена общая структура кодера звука, использующего перцепционный принцип ч сжатия.

Рисунок 1. Структура стандартного перцепционного кодера

Входной сигнал делится на кадры определенной длины, затем сигнал внутри каждого кадра подвергается частотно-временному преобразованию, которое может быть реализовано с помощью различных наборов фильтров или специального преобразования. Так, в кодеках ISO MPEG используется полифазный набор фильтров, представляющий собой набор полосовых фильтров с равной шириной полосы пропускания. Эти фильтры строятся из одного фильтра-прототипа. Параллельно происходит вычисление энергетического спектра сигнала в блоке психоакустического анализа. На основании данных о спектре сигнала вычисляется глобальный порог маскирования, позволяющий определить количество битов, до которого коэффициенты преобразования в той или иной частотной полосе могут быть сокращены, так, чтобы при этом шумы квантования оставались неслышимыми, то есть замаскированными. Далее происходит переквантование коэффициентов преобразования на основе данных психоакустической модели. Кодеры достигают большей эффективности за счет устранения не только психоакустической избыточности, но и статистической избыточности, которая устраняется с помощью энтропийного кодирования.

Альтернативой полифазному набору фильтров является набор, образованный парами фильтров, удовлетворяющих условию (1) и называемых квадратурно-зеркальными.

|я(е^ + |0(е^|=2 (1)

Амплитудно-частотные характеристики таких фильтров симметричны относительно л/2. Квадратурно-зеркальные фильтры обеспечивают идеальную реконструкцию сигнала. Пропускание сигнала

через каскады таких фильтров с последующей децимацией аналогично дискретному вейвлетному преобразованию. Кроме того, вейвлетное преобразование является частотно-временным и может заменить дискретно-косинусное преобразование, которое используется в кодеках MPEG-1 Layer 3.

Вейвлетное преобразование может быть отнесено к классу обобщенных спектральных преобразований. Принципиальное отличие вейвлетного преобразования от преобразования Фурье заключается в переменном размере носителя базисной функции, и, как следствие, переменном частотно-временном разрешении.

Общая идея, стоящая за всеми кодеками, использующими вейвлетное преобразование, заключается в переквантовании коэффициентов вейвлетного преобразования. Психоакустическая избыточность устраняется путем переноса глобального порога маскирования, полученного в частотной области, в вейвлетное пространство и регулирования шумов квантования, чтобы они оставались неслышны, то есть ниже вычисленного порога маскирования.

Среди опубликованных работ, посвященных экспериментальным исследованиям вейвлетных кодеков необходимо отметить следующие:

1) Синья и Тьюфик (D.Sinha and A.Tewfik, «Low bit rate transparent audio compression using adapted wavelets», IEEE Trans. Signal Processing, vol.41, no.12, pp.3463 - 3479, December 1993) разработали схему с переменным битрейтом, которая достигала качества CD Audio при скоростях 48-64 кбит/с. В работе большой акцент был сделан на устранение статистической избыточности, для чего использовался динамический словарь. Вывод - вейвлеты большей длины оказались эффективнее при кодировании. Также выяснилось, что более глубокие деревья разложения обеспечивали лучшие результаты. В качестве проблем были отмечены пре-эхо и плохие результаты с синусоидальными сигналами. Позднее Тьюфик и Али (A.Tewfik and M.Ali, «Enhanced Wavelet Based Audio Coder», in Conf. Ree. of the 27th Asilomar Conf. on Sig. Sys., and Сотр., pp.896-900, Nov 1993) улучшили этот кодек за счет устранения эффекта пре-эха.

2) Гибридный кодек. В силу своих локальных свойств, вейвлеты не могут обеспечить компактного представления для синусоидальных сигналов. Наиболее распространенными примерами сигналов, близких к синусоидальным в музыке служат гласные и звуки фортепиано. В то же время, математический аппарат вейвлетов позволяет эффективно кодировать различного рода переходные и кратковременные процессы. Учитывая эту двойственность, Хамди (K.Hamdy, «Low Bit Rate High Quality Audio Coding with Combined Harmonic and Wavelet Representations», in Proc. Int. Conf. Acous., Speech and Sig. Proc. (ICASSP-96), pp.1045-1048, May 1996)

разработал гибридный кодек, использующий плюсы обоих базисов. Алгоритм кодирования основан на представлении звукового сигнала суммой тональной, кратковременной и шумовой компонент. Соответственно, тональная составляющая представляется в гармоническом базисе, а шумовые и кратковременные составляющие - в базисе вейвлетов. Кодек позволил достичь прозрачного качества при скорости потока 44 кбит/с.

3) Адаптивные вейвлетные кодеки. К этой группе относятся кодеки, алгоритм которых позволяет подстраивать дерево декомпозиции к кодируемому сигналу. В частности, некоторые ветви дерева, в зависимости от свойств сигнала в кадре, могут не использоваться, или, наоборот, продолжить свой рост глубже. Для различных сигналов требуется различное разрешение по времени и по частоте. В этом ключе описываемый тип кодека оправдывает свою целесообразность. Кодек, разработанный Принсеном и Джонстоном (J.Princen and J.D.Johnston, Audio Coding with Signal Adaptive Filterbanks, in Proc. ICASSP-95, pp.3071 - 3074, May 1995) по оценке экспертов, оказался эффективнее MPEG-1 Layer 3 при скоростях 48 и 64 кбит/с.

В некоторых работах, например в М.Егпе, G.Moschytz, C.Faller, «Best Wavelet-Packet Bases for Audio Coding Using Perceptual and Rate-Distortion Criteria», ICASSP-99, May 1999, вместо всего многообразия деревьев вейвлет-пакетов используется несколько альтернативных структур, между которыми алгоритм кодека может переключаться при кодировании. Кроме того, адаптация к звуковому сигналу может осуществляться за счет выбора того или иного вейвлетного базиса.

После рассмотрения существующих на сегодня перцепционных вейвлетных кодеков можно сделать следующие обобщающие выводы:

- результаты экспертных оценок, которые проводились авторами работ, указывают на эффективность вейвлетных кодеков;

- вейвлетное преобразование позволяет обеспечить большую гибкость при кодировании сигналов за счет выбора между многочисленными базисами, банками фильтров и деревьями разложения;

- подавляющее большинство рассмотренных выше кодеков использует психоакустическую модель на основе быстрого преобразования Фурье. То есть, кроме частотно-временного преобразования, функцию которого выполняют вейвлеты, необходимо вычисление спектра Фурье для получения глобального порога маскирования в частотной области с его последующим переносом в вейвлетную область;

- исполняемые файлы описываемых в статьях кодеков не выложены, при этом некоторые результаты вызывают сомнения;

- большинство авторов сходятся в использовании максимально гладких вейвлетов Добеши высоких порядков.

Как было указано ранее, набор полифазных фильтров, используемых в КОЛЕС MPEG для преобразования сигнала, не точно аппроксимирует идеальную модель слуха. С этой точки зрения, банк квадратурно-зеркальных фильтров позволяет сделать это более точно.

Ширина критических полос слуха не является постоянной величиной и имеет тенденцию к росту с увеличением центральной частоты критической полосы. С учетом этого факта для кодирования звуковых сигналов в D.Sinha and A.Tewfik, «Low bit rate transparent audio compression using adapted wavelets», IEEE Trans. Signal Processing, vol.41, no.12, pp.3463 - 3479, December 1993 впервые было предложено использовать вейвлетное преобразование.

Дерево вейвлетных пакетов приводит к построению семейства полосовых фильтров, полосы пропускания которых растут с увеличением центральной частоты. Как правило, при моделировании критических полос слуха используется дерево, представленное на рисунке 2. Цифры, указанные на рисунке, означают граничные частоты групп полосовых фильтров.

ВхсдиоЯ сигнал

А

Хч

\

я

k

о

^ > / \ /> 'Г

х^ Ъ d Ь ойбо

/ \ /\ / ', Л МкГа-и

сГ Ъ о Ь cibbo

/ \ А /\ >\ ЫЛЛЧ-МкГ«

я н it1""

6 Ь 4 <? ¿ойЬ

/1 73014-1.1x1«

d6oo d666

0-350 Гц 350 - 780 Гц

К и

4 Ь 6Ь6Ь

d обо

1.4 кГа-2.75 кГц

Рисунок 2. Дерево вейвлетной декомпозиции

Структура дерева декомпозиции выбрана таким образом, чтобы промоделировать увеличение ширины критических полос слуха по сравнению с банком фильтров с постоянной абсолютной шириной полосы пропускания. На рисунке 3 показаны графики ширины полосы пропускания как функции центральной частоты для набора слуховых фильтров, 32 полифазных фильтров MPEG и банка вейвлетных фильтров. В случае с ISO MPEG, деление всего диапазона частот на одинаковые

поддиапазоны нельзя назвать удачным решением. С точки зрения человеческого слуха низкочастотные поддиапазоны оказываются чересчур широки, а высокочастотные - чересчур узки. Очевидно, что вейвлетная модель точнее аппроксимирует увеличение ширины критических полос.

10

ДР. Гп

* НАЮР ВЖЙВЛЕТНЫХ ФИЛЬТРОВ о НАЮР ПОЛИФАЗНЫХ ФИЛЬТРОВ МРЕО " НАЕОР СЛУХОВЫХ ФИЛЬТРОВ

! О

ш.ш.;.....

М'Н'О..........О О'й

пТМ..........................па'

I □

П !П Аг'ЙЗЗ'Е

.........'ТС.....:.....

......|.........!......

ЬГц

Рисунок 3. Зависимость ширины полосы пропускания различных фильтров от их центральных частот

Вторая глава посвящена исследованию и разработке методов повышения частотной селективности вейвлетов.

При реализации быстрого алгоритма вейвлетного преобразования имеет значение не только выбор определенного дерева декомпозиции, но и конкретной пары квадратурно-зеркальных фильтров Щг) и С(г). Классическим является использование вейвлетов из семейства Добеши, являющихся ортогональными и имеющими компактный носитель, т.е. наименьшую длину при заданном числе нулевых моментов К. Под числом нулевых моментов вейвлета понимается количество нулей на г-плоскости в точке г=-1.

Рассмотрим передаточные функции фильтров, находящихся между точкой входа сигнала и точками выхода, расположенными в терминальных узлах дерева. Они могут быть получены путем перемножения передаточных функций предыдущих фильтров

С'(г)=Я(г)Я(гг)... Н(г2"г)в(г2'") (2)

Обратимся к семейству амплитудно-частотных характеристик фильтров, используемых для разложения сигнала (рис. 4а). Обратим внимание на тот факт, что имеет место взаимное проникновение полос отдельных фильтров, часто называемое элайзингом. Это связано с тем, что вейвлеты Добеши обладают плохой частотной селективностью. В то же

время, требование к хорошему разделению полос пропускания фильтров имеет существенное значение в вопросах обработки звука.

а)

б)

Рисунок 4. Амплитудно-частотные характеристики наборов фильтров (а -до оптимизации, б - после оптимизации).

Эта проблема была рассмотрена в ряде статей, посвященных вопросам кодирования аудио (P.Philippe and et al., «Wavelet packet filterbanks for low time delay coding», IEEE Transactions on Speech and Audio Proc., vol.7, no.3, pp. 310-322, May 1999; M.Zurera and et al., «А new algorithm for translating psycho-acoustic information to the wavelet domain», Sig. Proc., vol.81, pp.519-531, 2001).

Существует несколько алгоритмов для проектирования квадратурно-зеркальных фильтров. Мы остановимся на методе, предложенном Риулем и Дюамэлем (O.Rioul and P.Duhamel, «А Remez exchange algorithm for orthonormal wavelets», IEEE Trans. Circuits Syst. II, vol.41, pp.550 - 560, August 1994), который базируется на модифицированном алгоритме Ремеза, позволяющем получить ортогональную пару квадратурно-зеркальных фильтров при использовании дополнительных ограничений, накладываемых на длину импульсной характеристики фильтра, ширину переходной области и количество нулевых моментов. Алгоритм также максимизирует затухание в полосе задерживания после того, как указанные ранее требования были выполнены.

Фильтр нижних частот представляется в виде

Я0(г) = (| + г-'/е(г), (3)

где ЛГ- количество нулевых моментов,

<2(г] - полином, не содержащий нулей или полюсов в точке г=-1. Для того, чтобы алгоритм позволял синтезировать вейвлетные фильтры, Я0(г) должен также удовлетворять условиям допустимости и ортогональности, которые означают, что

!>„(«) = л/2 и 5Х(я)Ло(и + 2*) = Я*) (4)

я п

Если Я0(г) имеет длину Ь, то условие ортогональности дает 1/1 уравнений (или ограничений), что оставляет максимум 1/2 степеней свободы для К. Условие допустимости требует наличия по крайней мере одного нулевого момента К> 1. Следовательно, мы приходим к

\<К<Ы2 (5)

Модифицированный алгоритм Ремеза сначала накладывает регулярность К на фильтр Н0(г), а затем использует оставшиеся 1Л - К степени свободы для удовлетворения ограничения по ширине переходной полосы В, после чего максимизирует затухание в полосе задерживания. В результате, регулярность, ширина переходной полосы и затухание в полосе задерживания представляют собой три противодействующих фактора. Заметим, что при К=1У2 алгоритм дает решение Добеши, а для минимальной регулярности К=0 - решение Смита-Барнвела, непригодное для вейвлетного преобразования.

В результате моделирования были получены семейства оптимизированных вейвлетных фильтров с различным числом нулевых моментов и шириной переходной полосы. В ходе эксперимента в среде МайаЬ был разработан алгоритм для расчета амплитудно-частотных характеристик ветвей заданного дерева вейвлетного разложения.

На рисунке 46 показаны АЧХ набора фильтров после оптимизации. Взаимное проникновение полос прилегающих фильтров снизилось. Новые фильтры при той же длине имеют число нулевых моментов вдвое меньше исходного, равного в данном случае четырем.

В таблице 1 приведены результаты вычисления затухания (дБ) в полосе задерживания оптимизированных фильтров при постоянной Ь=20 и переменных К и В. Следует отметить, что нижним пределом для ширины переходной полосы В для данного алгоритма является значение, приблизительно равное 0.07. При дальнейшем уменьшении В происходит уменьшение затухания в полосе задерживания.

Таблица 1

К/В 0.3 0.2 0.1 0.09 0.08 0.07 . 0.06

6 -18.3 -20.3 -27.8 -29.8 -32.4 -36.2 -33.2

4 -18.5 -20.9 -29.6 -31.9 -35.0 -39.5 -37.3

2 -18.7 -21.3 -30.5 -32.9 -36.2 -41.1 -39.4

Как видно из таблицы 1, затухание в полосе задерживания увеличивается с уменьшением числа нулевых моментов К.

В таблице 2 приведены результаты вычисления затухания в полосе задерживания при фиксированных К, В и варьируемой длине фильтра Ь. _Таблица 2

ь 22 26 30 34 38 42 46 50

А, дБ -43.5 -49.0 -54.4 -59.4 -64.2 -68.9 -73.6 -78.2

Как видно из таблицы 2, затухание в полосе задерживания увеличивается с увеличением длины фильтра Ь.

Алгоритм Дюамэля и Риуля использует численные методы для нахождения Р(г)=Н(г)С(г) и его корней г(г). Вследствие этого, из-за вычислительных погрешностей, для квадратурно-зеркальных фильтров Н(г) и С(г), полученных путем разделения корней полинома, условие идеальной реконструкции не выполняется. В диссертации предложен эффективный метод решения этой проблемы путем разделения корней полинома г(г) с целью построения биортогонального базиса. В случае с биортогональным базисом, условие идеальной реконструкции принимает вид

В результате обобщения этого алгоритма были получены пары биортогональных масштабирующих функций, порождающих биортогональный вейвлетный базис. Новые функции обладают лучшей частотной селективностью по сравнению с вейвлетами Добеши при той же длине носителя, однако число их нулевых моментов, определяющих гладкость фильтра, уменьшено.

В третьей главе дается обоснование теоретическим положениям, реализованным в модели экспериментального кодека, которая была разработана автором диссертации. Важным моментом является обоснование вычисления психоакустической модели непосредственно в пространстве вейвлетов вместо переноса ее из частотного пространства. Другими словами, отказ от использования преобразования Фурье при расчете глобального порога маскирования и проведение всех вычислений в пространстве вейвлетов, как попытка сократить вычислительную сложность, а также избавиться от необходимости работы с сигналом в пространстве время-частота, при наличии пространства время-масштаб, образуемого при вейвлетном разложении сигнала.

Вейвлеты, в общем случае, обладают худшим по сравнению с Фурье разрешением по частоте, при наличии временного разрешения, отсутствующего у преобразования Фурье. В случае использования вейвлетного энергетического спектра мы теряем временное разрешение,

так как происходит интегрирование по оси времени. Тем не менее, энергетические спектры, рассчитанные из коэффициентов вейвлетного преобразования, могут быть применены на практике в кодеках.

Как правило, задача компрессии подразумевает использование пакетных вейвлетов. Они являются гибким инструментом анализа, обладают адаптивностью и регулируемым разрешением по частоте и времени. О пакетных вейвлетах идет речь в первой главе этой работы. Для кодека была выбрана структура декомпозиции, показанная на рисунке 2.

В предлагаемой модели психоакустическая информация извлекается непосредственно из значений вейвлетных коэффициентов. Для этого рассчитывается суммарная энергия в каждой частотной полосе к

Ш)

к е [1,28] (7)

ы

Выполняется необходимая нормировка

5 '(*)= = (8)

N • - ы

N

где Ы- размер кадра, £Ц[7) - оконная функция. Уровень звукового давления в полосе

= 90.302 +10- дБ (9)

Уровень порога маскирования зависит от уровня маскера и его типа. При этом тональные и шумовые маскеры имеют, в этом смысле определенные отличия. Для определения типа маскера часто применяется мера оценки, называемая локальной гладкостью спектра. Однако эта оценка является эффективной при соответствующем частотном разрешении.

Простым, но эффективным вариантом является гипотеза о том, что маскеры, расположенные в низкочастотной области спектра, ближе по своим маскирующим свойствам к тональным, в то время как маскеры из высокочастотной области, наоборот, ближе к шумовым. Придерживаясь этой гипотезы, следует выбрать ту условную частоту или критическую полосу км, выше которой маскеры принимаются как шумовые, а ниже - как тональные.

Уровень относительного порога маскирования 0(к) в к-ой частотной полосе

|Р(*)-5.5, ке[ки +1,28]

Путем взятия свертки 0(к) и функции маскирования получим индивидуальные пороги маскирования

28 от В(*-о'

7]5И(Ш = 1(Мё £10'° ,10 ш (11)

Функция маскирования определяется как

В(п) = 15.81 + 7.5(п + 0.474) -17.5-^1 + (л + 0.474)2, дБ, (12) где п - значение центральной частоты полосы в барках.

От шкалы частот к шкале барков можно перейти по формуле

z(/) = 13-arcrg(0.00076-/)+3.5- arctgp П500)2] (13)

Суммарный порог маскирования складывается из индивидуальных

дБ (14)

r»(Jfc) = 10-lg

Помимо частотного или одновременного маскирования существует также маскирование во временной области. Некоторые из существующих моделей временного маскирования рассматриваются в диссертации. Принято решение использовать модель, которая описывает временное маскирование как функцию частоты, уровня маскера и расстояния до него.

Ттм(к), = a-(b ~ IgAty (TSM(k),- с), (15)

где Тгм(к): - уровень маскирования (дБ) в к-ой полосе в момент времени t

At - время между началом эффекта и точкой, для которой вычисляется значение временного маскирования, мс

Tsiu(k)t - уровень маскера в к-ой полосе

а, Ь, с - параметры, уточняющие вид кривой. Наиболее важное значение имеет параметр а, определяющий величину спада кривой маскирования.

На этапе вычисления глобального порога маскирования комбинируются рассчитанные ранее порог маскирования в частотной области TSu(k), порог маскирования во временной области ТТм(к) и абсолютный порог слышимости Т^к).

Т0(к) = 10- lg(lO°' т«а) + ю°1+ю° lr«»>), дБ (16)

Переходя к вопросу переквантования коэффициентов дискретного вейвлетного преобразования, следует отметить, что основное отличие блока перераспределения битов от аналогичного в ISO MPEG-подобных кодеках обусловлено различным количеством коэффициентов преобразования в частотных полосах при использовании вейвлетов. В остальном, процесс перераспределения и переквантования битов остается аналогичным по отношению к другим кодекам. Свободные биты расходуются на обеспечение высокого отношения маскирующий уровень -сигнал в тех полосах, где энергия сигнала велика, а в случае, если битов остается малое количество, они распределяются между полосами.

Структура кадра кодированных данных требует некоторых принципиальных изменений. В частности, многообразие вейвлетных базисов приводит к рассмотрению возможности переключения базисов в

зависимости от свойств того или иного кадра, как и эффективности того или иного конкретного вейвлетного базиса. Следовательно, возникает необходимость резервирования нескольких битов в заголовке кадра для указания на используемый при кодировании вейвлет. Следует также отметить многообразие деревьев декомпозиции и предложения ряда исследователей переключать структуры деревьев в зависимости от свойств кадра. В частности, дерево вейвлетных пакетов может быть адаптивным к свойствам сигнала. В случае использования различных структур требуется место для кодирования выбранной структуры.

В третьей главе рассмотрены основные принципы, лежащие в основе перцепционного алгоритма кодирования звукового сигнала, дан сравнительный анализ разнообразных психоакустических моделей, стратегий распределения битов, используемых в тех или иных кодеках.

По результатам анализа принято и обосновано решение использовать маскирующую функцию (12), а также описана структура кадра данных, сжатых с помощью экспериментального кодека.

Четвертая глава несет в себе практическое содержание работы и включает в себя блок-схему разработанного экспериментального кодера и ее описание. Блок-схема кодера представлена на рисунке 5.

Входной сигнал

Выходной сигнал

Рисунок 5. Блок-схема экспериментального вейвлетного кодера В блоке частотно-временного преобразования реализуется пакетное дискретное вейвлетное преобразование на основе быстрого алгоритма

Малла с использованием каскада квадратурно-зеркальных фильтров. На выходе указанного блока сигнал оказывается разделенным на 28 частотных полос различной ширины. Алгоритм позволяет задать тип вейвлета, при этом можно использовать ортогональные или биортогональные вейвлеты, встроенные в Matlab Wavelet Toolbox, или вейвлеты, которые могут быть добавлены пользователем. Структура дерева вейвлетной декомпозиции фиксирована и не может быть изменена в ходе выполнения алгоритма. Тем не менее, не составляет большого труда изменить ее при необходимости. Текст программы на языке Matlab приведен в приложении к диссертации.

Полученные значения коэффициентов вейвлетного преобразования подлежат переквантованию на основе результатов психоакустического расчета. В зависимости от количества битов, выделенных для данного кадра, происходит их распределение между частотными полосами. В первую очередь биты выделяются для тех полос, энергия которых велика. В случае, если на полосу не было отведено ни единого бита, то ее значения не будут переданы и на приемной стороне будут восстановлены в виде нулевого вектора соответствующей длины.

После того как резервуар битов исчерпан, выполняется переквантование коэффициентов в каждой полосе. Полученная информация укладывается в поток, вместе со служебными данными, необходимыми для правильного декодирования сигнала. К служебным данным относятся биты синхронизации, сведения о распределении битов для полос, номера ячеек таблицы масштабирующих коэффициентов.

Для тестирования экспериментального вейвлетного кодека использовался двойной слепой метод (ITU-R BS.1116). В тесте для оценки использовалась пятибалльная шкала в соответствии с ITU-R BS.562-3. В качестве экспертов выступали студенты факультета экранных искусств Санкт-Петербургского государственного университета кино и телевидения, обучающиеся по специальности «Звукорежиссура». Всего в тестировании принимало участие восемь человек в возрасте от 19 до 23 лет. Все эксперты имели музыкальное образование и опыт работы со звуком в студии. Перед тестированием эксперты прошли обучение и были ознакомлены с характерными артефактами перцепционного кодирования. Экспертам были предложены 15-секундные фрагменты различного звукового материала (кантри, поп, рок, симфоническая музыка, электронная музыка, речь).

Все эксперименты проводились на кафедре звукотехники в лаборатории, соответствующей требованиям стандарта ITU-R BS.1116. Результаты экспериментов с использованием их статистической обработки подтвердили справедливость результатов теоретических исследований.

Дальнейшее улучшение алгоритма сжатия возможно за счет оптимизации параметров психоакустической модели, стратегии распределения битов и применения энтропийного кодирования. Кроме того, проблемы, связанные с недостаточно хорошим качеством сжатия

тональных сигналов и близких к ним, должны быть устранены при использовании системы переключения окон.

ЗАКЛЮЧЕНИЕ

По результатам диссертационной работы и связанных с ней экспериментальных исследований необходимо отметить следующие положения:

1) В результате проведенных исследований была показана возможность расчета психоакустической модели в вейвлетном пространстве. Расчет базируется на вычислении суммарной энергии коэффициентов вейвлетного ■ преобразования с их последующей нормировкой и определением индивидуальных и - глобального порогов маскирования. Это положение было подтверждено экспериментально.

2) В ходе работы был реализован метод перцепционного кодирования звука, .заключающийся в переквантовании коэффициентов пакетного вейвлетного преобразования исходного звукового сигнала на основании данных, полученных из психоакустической модели. Для экспериментальной; оценки эффективности сжатия при использовании указанного метода была разработана модель вейвлетного перцепционного кодека.

3) В реализованной модели экспериментального вейвлетного кодека был предложен способ распределения битов, учитывающий различия в длине векторов вейвлетных коэффициентов на выходах фильтров, соответствующих различным уровням вейвлетной декомпозиции. Для рационального распределения битов и минимизации искажений предложено увеличивать среднее количество разрядов по направлению к нижней части дерева анализа/синтеза.

4) В ходе работы над экспериментальной моделью кодека был разработан способ организации структуры кадра в файле, содержащем сжатые при помощи описываемой модели звуковые данные. В предложенной структуре кадра учитывается использование вейвлетного базиса, - струетуры вейвлетной декомпозиции и особенностей переквантования коэффициентов различных уровней вейвлетной декомпозиции звукового сигнала.

5) Для исследования эффективности разработанного алгоритма перцепционного кодирования была проведена экспертная оценка качества сжатого материала с использованием статистической обработки результатов эксперимента.

СПИСОК ОСНОВНЫХ ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Рогозинский Г.Г. Применение вейвлет-анализа для восстановления зашумленных сигналов // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2005.

2. Рогозинский Г.Г. Вейвлеты и музыка // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2006.

3. Рогозинский Г.Г. Программные вейвлет-анализаторы // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2007.

4. Рогозинский Г.Г. Методы диагностики в цифровом кино // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2008. С. 99.

5. Явленский А.К., Рогозинский Г.Г. Методы диагностики системы цифрового кино на основе спектрального анализа и искусственного интеллекта // Сборник трудов СПбГУКиТ. СПб.: ГУКиТ, 2008.

6. Yavlensky, Belousov, Rogozinsky, Volkov. Digital Cinema Diagnostic System Based on Spectral Analysis and Artificial Intelligence Methods II Diagnostyka 3(47), pp. 75 - 59,2008.

7. Рогозинский Г.Г. Перцепционное кодирование звука на основе вейвлетной компрессии // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2009. С. 163 - 164.

8. Рогозинский Г.Г. Применение метода оптимизации вейвлетов в перцепционном кодировании звука // Радиотехника. 2010. №5. С. 94 - 98.

9. Рогозинский Г.Г. Биортогональные вейвлеты с улучшенной частотной селективностью // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2010.

Материалы научных конференций

1. Yavlensky, Belousov, Rogozinsky, Volkov, Chavoronkov. Artificial Intelligence-based Diagnostic System in Digital Cinema. AI-METH2007. Gliwice, pp. 259 - 263,2007.

2. Рогозинский Г.Г. Метод оптимизации вейвлетов для перцепционного кодирования звука // Тезисы докладов 7-ой Международной научно-технической конференции «Цифровые и информационные технологии в электронной медиаиндустрии - 2009». СПб.: СПбГУКиТ, 2009. С. 20-21.

3. Рогозинский Г.Г. К вопросу выбора оптимального вейвлета для перцепционного кодирования звуковых сигналов // Тезисы докладов 12-ой Международной конференции «Цифровая обработка сигналов и ее применение - 2010». М.: ИПУ РАН, 2010. С. 200 - 202.

Рогозинский Глеб Гендрихович ПЕРЦЕПЦИОННОЕ СЖАТИЕ ЗВУКА С ИСПОЛЬЗОВАНИЕМ ВЕЙВЛЕТНЫХ nAIŒTOB

АВТОРЕФЕРАТ

Лицензия ЛР № 0200308 от 14.02.97

Подписано в печать 16.09.2010 Формат 60x84 1/16

Б. кн.-журн. П.л. 1,0 Б.л. 0,5

Тираж 100._Заказ 185

Отпечатано с готового оригинал - макета Издательство СЗТУ, член Издательско-полиграфической ассоциации вузов Санкт-Петербурга

191186 Санкт-Петербург, ул. Миллионная, д. 5

Оглавление автор диссертации — кандидата технических наук Рогозинский, Глеб Гендрихович

ВВЕДЕНИЕ

1 ОБЗОР СОСТОЯНИЯ ПРОБЛЕМЫ

1.1 Основные положения психоакустики

1.2 Основные принципы перцепционного кодирования звука

1.3 Основные положения теории вейвлетов

1.4 Базисы вейвлетов в кодировании звука

2 ОПТИМИЗАЦИЯ ВЕЙВЛЕТНЫХ БАЗИСОВ

ДЛЯ ПЕРЦЕПЦИОННОГО КОДИРОВАНИЯ ЗВУКА

2.1 Постановка задачи оптимизации вейвлетных базисов

2.2 Методы увеличения частотной селективности вейвлетов

2.3 Оценка результатов оптимизации

3 ПСИХОАКУСТИЧЕСКАЯ МОДЕЛЬ В В ЕЙВЛЕТНОМ ПРОСТРАНСТВЕ

3.1 Глобальный порог маскирования в пространстве Фурье

3.2 Глобальный порог маскирования в вейвлетном пространстве

3.3 Принципы вейвлетного кодирования звука

4 ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ МОДЕЛИ ВЕЙВЛЕТНОГО КОДЕКА

4.1 Алгоритм перцепционного вейвлетного кодирования

4.2 Способ организации структуры кадра данных

4.3 Результаты экспертной оценки кодека

4.4 Описание программы на языке МаЙаЬ 87 ЗАКЛЮЧЕНИЕ 93 СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 97 ПРИЛОЖЕНИЯ

Введение 2010 год, диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам, Рогозинский, Глеб Гендрихович

Перцепционное кодирование подразумевает способ преобразования потока данных, при котором кодированию подвергается только та часть общей информации, которую способен воспринять слуховой анализатор человека. Часть информации, которая не может быть воспринята, устраняется из потока данных. Другая часть информации, параметры которой могут восприниматься только частично, кодируется более грубо, с использованием меньшего числа информационных разрядов. Таким образом, перцепционное кодирование подразумевает невосполнимую утрату значительной части исходной информации, за счет чего и достигается эффект сжатия. Поэтому данные методы относят к методам сжатия с потерями, в отличие от методов сжатия без потерь.

Вейвлетное преобразование, получившее значительное распространение в области прикладной' математики, находит новые области применения. Аналогия между быстрым алгоритмом диадного дискретного вейвлетного преобразования и квадратурно-зеркальной фильтрацией сигнала делает это преобразование эффективным* инструментом в задачах субполосного кодирования сигналов, к которым могут быть отнесены вопросы сжатия звука с потерями.

Для сокращения времени передачи данных по сетям связи, а также для увеличения полезной емкости носителей данных применяются различные методы сжатия информации. Актуальность эффективного использования и оптимизации методов сжатия постоянно возрастает в связи с увеличением объемов данных, передаваемых по каналам связи. Важное значение имеют экономические факторы. Использование информационного сжатия- позволяет передать звук с высоким или приемлемым. качеством, используя узкую полосу частот. Это, в свою очередь, делает возможным сокращение стоимости аренды спутникового канала, уменьшение диаметров передающей и приемной антенн и т.д.

В рамках целевой правительственной программы по внедрению в Российской Федерации цифрового теле- и радиовещания решается ряд задач, в том числе, связанных с эффективным сжатием мультимедиа. К этим задачам относится и рассматриваемая в данной работе проблема, что определяет тем самым актуальность поставленной темы.

Цель и задачи исследования. Цель диссертационной работы состоит в исследовании возможности использования вейвлетного базиса в качестве частотно-временного преобразования в перцепционном кодировании звука Поставленная цель достигается решением следующих задач:

1) анализ существующих и перспективных алгоритмов перцепционного сжатия звука

2) разработка психоакустической модели слуха в вейвлетном пространстве

3) разработка эффективного алгоритма сжатия звуковых данных

4) экспериментальное апробирование результатов теоретических исследований

Методы исследования. При решении поставленных задач применялись методы теории приближения функций, методы теории вычислений, методы психоакустики, методы статистической обработки результатов эксперимента.

Научная новизна работы

1) показана возможность вычисления психоакустической модели непосредственно в вейвлетном пространстве

2) проведена адаптация метода оптимизации вейвлетов к задаче улучшения частотной селективности фильтров Добеши

3) разработан алгоритм перцепционного кодирования звука, использующий вейвлетное преобразование

4) разработан формат кадра файла сжатых данных

Практическая значимость работы. Решение поставленных задач позволяет провести разработку кодека на основе вейвлетного преобразования.

Личный вклад автора состоит в следующем:

- разработка вейвлетных базисов с оптимизированной частотной селективностью

- разработка и отладка экспериментальной модели аудиокодека

- обоснование эффективности использования психоакустической модели в пространстве вейвлетов

- проведение экспериментов исследования

Защищаемые положения

1. Принцип расчета психоакустической модели сигнала в вейвлетном пространстве, состоящий в вычислении суммарной энергии коэффициентов уровней вейвлетного разложения с их последующей нормировкой и расчетом индивидуальных и глобального порогов маскирования.

2. Метод кодирования сигнала, заключающийся в переквантовании коэффициентов пакетного вейвлетного преобразования исходного звукового сигнала на основании данных, полученных из психоакустической модели.

3. Способ организации структуры кадра в файле, содержащем сжатые звуковые данные.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав с выводами по каждой из них, заключения, списка литературы и приложения.

Заключение диссертация на тему "Перцепционное сжатие звука с использованием вейвлетных пакетов"

Выводы

В третьей главе были рассмотрены основные принципы, лежащие в основе любого перцепционного алгоритма кодированиязвукового сигнала. Был дан сравнительный анализ существующих психоакустических моделей.

Для решения' поставленных задач, в первую очередь, необходимо было определить, какие из рассмотренных принципов могут быть заимствованы и адаптированы для вейвлетного кодирования звуковых сигналов. Было принято и обосновано решение использовать, маскирующую функцию (3.4), вследствие удобства применения ее к вычислению глобального^ порога маскирования. Для дальнейших исследований рекомендуется рассматривать чирплеты.

В качестве функции, моделирующей пост-маскировку, была выбрана (3.7). Глобальный порог маскирования определяется при помощи выражения (3.37).

Вторым важным положением, рассмотренным в третьей главе, является реализация психоакустической- модели в вейвлетном пространстве, без вычисления быстрого преобразования Фурье. Вейвлетное преобразование и преобразование Фурье- - оба являются спектральными, тем' не менее, существуют некоторые принципиальные отличия, о которых шла речь в первой главе. Вычисление глобального порога маскирования в частотном пространстве с последующим переносом в пространство вейвлетов требует дополнительных операций для адаптации к контролю квантования вейвлетных коэффициентов. В отличие от такого подхода, непосредственное вычисление глобального порога маскирования по значениям вейвлетных коэффициентов существенно упрощает процесс кодирования.

4 ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ МОДЕЛИ ВЕЙВЛЕТНОГО КОДЕКА

В предыдущей главе нами были изложены необходимые теоретические принципы, на которых базируется концепция перцепционного кодека, использующего вейвлетное сжатие звуковой информации. Настоящая глава, являясь заключительной, несет в себе практическую часть, а именно* основные положения, связанные с реализацией описываемого экспериментального кодека, использующего пакетное дискретное вейвлетное преобразование (ПДВП).

4.1 Алгоритм перцепционного вейвлетного кодирования

В качестве системы компьютерного моделирования для создания и отладки модели кодека применялся Matlab версии 7.6.0. В пользу выбора этой системы сказалось наличие встроенного инструментария функций для работы с вейвлетами Wavelet Toolbox, позволяющего в значительной мере упростить работу по реализации быстрого алгоритма вейвлетного преобразования и проектирования новых вейвлетных базисов.

По материалам предыдущей главы был разработан алгоритм перцепционного сжатия звука на основе предложенной там же вейвлетной психоакустической модели. Блок-схема экспериментального кодера представлена на рисунке 4.1.

В соответствии с представленной блок-схемой в экспериментальном кодере можно выделить следующие основные части: блок частотно-временного преобразования, в качестве- которого используется ПДВП, блок расчета психоакустической модели, блок перераспределения битов и переквантования коэффициентов преобразования, блок формирования выходного потока.

Входной сигнал

Выходной сигнал

Рисунок 4.1 - Структурная схема экспериментального вейвлетного кодера

В блоке частотно-временного преобразования реализуется анализ сигнала с помощью ПДВП на основе быстрого алгоритма Малла. На выходе указанного блока сигнал оказывается разделенным на 28 субполос различной ширины. Алгоритм позволяет задать тип вейвлетной функции, используемой для синтеза и анализа сигнала.

В разработанном алгоритме можно использовать ортогональные или биортогональные вейвлеты, встроенные в Matlab Wavelet Toolbox, или вейвлеты, которые могут быть добавлены пользователем. Структура дерева вейвлетной декомпозиции, соответствует предложенной в главе 3, является фиксированной и не может быть изменена в ходе выполнения алгоритма. Структура дерева описана в отдельном файле, что упрощает ее последующую модификацию в случае появления такой необходимости. Адаптация структуры к свойствам сигнала в данной модели не предусматривается.

Полученные на выходе блока частотно-временного преобразования значения коэффициентов ПДВП подлежат переквантованию согласно результатам психоакустического расчета, выполняемого на основе оценки этих же значений. Для этого вычисляются суммарные значения энергии коэффициентов в каждой частотной полосе, то есть энергии отдельных уровней декомпозиции, и, далее, на основе этих значений, определяются индивидуальные и глобальный пороги маскирования. Текущие значения глобального порога маскирования передаются в буфер, необходимый для вычисления порога маскирования во временной области, так как при этом следует сравнить значение порога маскирования в текущем кадре со значениями в предыдущих.

При создании алгоритма было принято положение о том, что ниже частоты 2.5 кГц (примерно 15-ой субполосы) маскеры в полосах фильтров имеют тональную форму, а выше этого порога - шумовую [66]. Это позволяет избежать трудностей, связанных с определением степени тональности сигнала в /-ой полосе. Оценка гладкости спектра [24] является эффективной в том случае, если имеется огибающая спектра сигнала, однако в нашем случае из-за недостаточного разрешения' по частоте использование этой оценки не оправдано.

Для коэффициентов вейвлетного преобразования в каждой частотной полосе необходимо определить соответствующий масштабирующий коэффициент (scalefactor). Процедура масштабирования в том или ином виде применяется практически во всех перцепционных кодеках и смысл ее заключается в следующем. Когда определяется спектр широкополосного ИКМ-сигнала, то общий динамический диапазон этого сигнала оценивается по самой большой спектральной составляющей (по самому громкому звуку). В то же время, подавляющее большинство других компонент спектра имеет очень незначительный уровень. Если производить квантование всех спектральных компонент, ориентируясь на максимальную, то спектральные компоненты меньшего уровня будут содержать высокий уровень шумов квантования.

Причем, чем меньше компонента, тем больше в ней будет шумов. Поэтому при делении спектра на субполосы появляется возможность избавиться от такого чрезмерного зашумления спектральных компонент. Для этого наибольшую по величине компоненту данного поддиапазона (которая, скорее всего, не является наибольшей в общем спектре) выделяют и придают ей максимально возможное значение, умножая на некоторый множитель. Все остальные компоненты этого поддиапазона также умножаются на ту же самую величину, которая и определяет коэффициент масштабирования. Таким образом, все спектральные составляющие усиливаются пропорционально друг другу и, каким бы числом разрядов они затем не квантовались, шум квантования в любом случае получится гораздо меньшим, чем если бы они сохранили свое истинное значение. Другими словами, коэффициент масштабирования характеризует степень уменьшения шумов квантования в данном диапазоне [9].

Итак, в результате описываемых операций, для каждой полосы определяется абсолютное максимальное значение вектора коэффициентов преобразования? и из, специальной таблицы, в которой хранятся значения коэффициентов масштабирования, выбирается' следующий больший. Его код (позиция в этой таблице) будет передан в заголовке кадра.

В> результате психоакустического расчета имеется вектор значений глобального порога маскирования, в котором г-ый элемент соответствует значению порога маскирования в т-ой субполосе. При расчете дискретных значений порога маскирования для каждого последующего кадра учитываются значения порогов предыдущих кадров, что необходимо для контроля временной маскировки. На основании данных, полученных с помощью психоакустического анализа коэффициентов вейвлетного преобразования реализуется-процедура перераспределения битов.

В зависимости от числа битов, выделенных кодером для данного кадра, происходит их распределение между 28 частотными полосами. Как указывалось в третьей главе, существует ряд стратегий для эффективного распределения битов между полосами. В нашей работе была выбрана стратегия, учитывающая особенности разложения сигнала с помощью набора фильтров с различной шириной полос пропускания. При ПДВП размер векторов вейвлетных коэффициентов, соответствующих выходам квадратурно-зеркальных фильтров для заданного дерева, варьируется в диапазоне от L/4 для последних (ВЧ) полос до L/256 для первых восьми полос в нижней части звукового диапазона.

В результате такой декомпозиции на выходах первых восьми фильтров после децимации остается всего 2 коэффициента для кадра длиной 512 отсчетов (11.6 мс при частоте дискретизации входного сигнала 44100 Гц) или 4 коэффициента для кадра длиной 1024 отсчета (23.2 мс при той же частоте дискретизации). Итого, для 8 полос получается 16 коэффициентов преобразования в первом случае и 32 - во втором. Общее количество этих коэффициентов составляет около 3% от общего числа коэффициентов в кадре. Исходя из этой оценки, в силу малого числа указанных коэффициентов-и их существенной'значимости, было принято решение не сокращать их разрядность при переквантовании. С движением в сторону ВЧ на выходах фильтров число коэффициентов начинает возрастать. Учитывая эту тенденцию, обусловленную выбранной структурой дерева, предлагается увеличивать диапазон шагов квантования по направлению к началу дерева.

При реализации процедуры распределения битов, в первую очередь биты выделяются для тех полос, в которых значения суммарной энергии максимальны. В случае, если на ту или иную полосу не было отведено ни единого бита, ее значения не будут переданы и в декодере будут восстановлены в виде нулевого вектора вейвлетных коэффициентов соответствующей длины.

Настоящая версия модели кодека использует постоянный битрейт (CBR, constant bit rate), таким образом, для кодирования каждого кадра может быть использовано только определенное количество битов. Более рациональным ' является использования 4 переменного ^битрейта (VBR, variable bit rate), однако, для упрощения; алгоритма перераспределения битов' и в целом структуры кодера выбор был сделан в пользу постоянного битрейта. ■г

После того как процедура перераспределения битов оказывается завершенной, происходит переквантование значений вейвлетных коэффициентов в каждой полосе. В кодеке используется неравномерный шаг квантования с р.=3/4.

4.2 Способ организации структуры кадра данных

Полученные переквантованные значения вейвлетных коэффициентов объединяются в поток, вместе со служебными данными; необходимыми для правильного декодирования сигнала. К служебным данным относятся биты синхронизации, свидетельствующие о начале нового кадра, сведения о количестве распределенных битов по ■ полосам, номера ячеек таблицы масштабирующих коэффициентов и< прочая информация:

Для- сокращения скорости передачи-- данных значение /-го масштабирующего коэффициента передается-только если распределение битов для ¿-ой полосы отлично от, нуля. Если- в'- результате- процедуры перераспределения битов на г-ю полосу не было выделено ни единого бита, код ее масштабирующего» коэффициента не будет передан. Аналогичным образом происходит формирование потока сжатых данных ISO/IEC MPEG-1 Layer 3.

На этапе проектирования структуры потока' сжатых данных следует остановиться на специфических для вейвлетного кодера! полях. В связи с многообразием вейвлетных базисов и задачей точного восстановления сигнала, логичен вывод о необходимости передачи тем или иным способом информации об использованной при кодировании вейвлетной функции. Как следует из первой главы, вейвлетная функция полностью» определяет связанную с ней масштабирующую функцию •» и коэффициенты пары соответствующих квадратурно-зеркальных фильтров. Одним из вариантов решения является строгая- привязка типа вейвлетного базиса к соответствующему номеру таблицы. Передавать такую информацию, можно через несколько кадров, определяя тем самым общий базис для них. Здесь возникает вопрос адаптации вейвлетного базиса к свойствам сигнала. Принятое решение позволит передавать код найденного оптимального базиса для конкретного кадра или серии кадров. Отрицательным моментом при этом будет являться увеличение времени до воспроизведения, так как для правильного декодирования потребуется обнаружить тот кадр, в котором хранится информация о базисе.

При анализе возможности адаптации базиса и дерева к свойствам сигнала в кадре следует так же учитывать, что согласно- [8], при использовании диадного вейвлет-пакетного разложения, существует не менее , чем 2ып и не более, чем 25/у/8 различных деревьев для дискретных сигналов длиной N.

То есть, для' заданной длины кадра N = 1024 отсчета максимально возможное число деревьев составит 2640. Это значение показывает, что передавать непосредственно код адаптивно выбранного дерева не представляется' возможным. Тем не менее, видится решение в виде фиксированного набора деревьев и вейвлетных базисов.

В случае с последними, теоретически возможна передача отсчетов импульсной характеристики одного из квадратурно-зеркальных фильтров. Это позволило бы конструировать базисы, адаптивные к свойствам сигнала и передавать информацию о них с целью последующего декодирования. Однако, точность, необходимая при задании импульсных характеристик вейвлетных фильтров для выполнения условия идеальной реконструкции, требует значительного количества битов. Так, для фильтра длиной 12 отсчетов при 32-битном формате отсчетов потребуется 12-32 = 384 бита, что составляет 2.3% от размера кадра длиной 1024 отсчета, не считая другой служебной информации.

Обобщая,приведенные выше рассуждения, приходим к выводу о том, что в качестве служебной информации для восстановления одного кадра в зависимости от выбранного метода кодирования- должны быть переданы значения распределения- битов по полосам, массив указателей на таблицу с масштабирующими коэффициентами, код использованного при анализе вейвлета и код дерева разложения. Последние два при отсутствии необходимости и/или постоянстве базиса и дерева могут передаваться только изредка, например, раз в установленное число кадров.

В процессе формирования выходных данных, по аналогии с КОЛЕС MPEG 1 Layer 1 & 2, поток разбивается на независимые друг от друга кадры. В результате анализа существующих структур кадров, а также исходя из необходимости передачи ряда специфических данных, требующихся для восстановления сигнала из массива вейвлетных коэффициентов, был предложен формат кадра данных, представленный в таблице 4.1.

Заголовок кадра начинается с 12 битов синхронизации (все биты установлены). Далее следует поле из 3 битов, отведенное под номер версии. Предполагается, что 8 возможных вариантов должно быть достаточно. Если установлен бит CRC (Cyclic Redundancy Code - циклический избыточный код), то для проверки правильности информации используется цифровая идентификация данных, основанная на вычислении, контрольного значения циклического избыточного- кода. Bf этом случае, 16-разрядное контрольное значение следует непосредственно за окончанием заголовка кадра.

В следующем за CRC поле кодируется значение выбранного битрейта. Для данной модели предлагается использовать таблицы битрейтов MPEG. Биты на позициях 20 и 21 отводятся под выбор частоты дискретизации. Бит пэддинга указывает на наличие нулевого заполнения для текущего кадра. Следующие 2 бита определяют режим- стерео и, наконец, последние 7 битов заголовка относятся к кодированию выбранного вейвлета.

Работа над моделью кодека, а также исследование ряда известных приложений, использующих вейвлетное преобразование, показало, что список вейвлетов, активно использующихся для кодирования сигналов, не является большим. К ним могут быть отнесены вейвлеты Добеши средних порядков, симлеты, а так же ряд биортогональных вейвлетов.

Следует обратить внимание на формат 1РЕС-2000 [40]; в котором для кодирования изображений стандартизовано использование всего лишь двух биортогональных вейвлетов. Исходя из этой логики, часть битов может быть использована для кодирования структуры декомпозиции сигнала в кадре или дополнительных, резервных режимов работы кодека.

ЗАКЛЮЧЕНИЕ

По результатам диссертационной работы и связанных с ней экспериментальных исследований необходимо отметить следующие положения:

1) В результате проведенных исследований была показана возможность расчета психоакустической модели в вейвлетном пространстве, базирующегося на вычислении суммарной энергии коэффициентов уровней вейвлетного разложения с их последующей нормировкой и расчетом индивидуальных и глобального порогов маскирования. Это положение было подтверждено экспериментально.

2) В ходе работы был реализован метод перцепционного кодирования сигнала, заключающийся в переквантовании коэффициентов пакетного вейвлетного преобразования исходного звукового сигнала на основании данных, полученных из психоакустической модели. Для экспериментальной оценки эффективности сжатия при использовании указанного метода была разработана модель вейвлетного перцепционного кодека.

3) В реализованной модели экспериментального вейвлетного кодека был предложен оригинальный способ распределения битов, учитывающий различия в длине векторов вейвлетных коэффициентов на выходах фильтров, соответствующих различным уровням вейвлетной декомпозиции. Для рационального распределения битов и минимизации искажений предложено увеличивать среднее количество разрядов по направлению к нижней части дерева анализа/синтеза.

4) В ходе работы над экспериментальной моделью кодека был разработан способ организации структуры кадра- в файле, содержащем сжатые при помощи описываемой модели звуковые данные. В предложенной структуре кадра учитывается использование вейвлетного базиса, структуры вейвлетной декомпозиции и особенностей переквантования коэффициентов различных уровней вейвлетной декомпозиции звукового сигнала.

5) Для исследования эффективности разработанного алгоритма; перцепционного кодирования была проведена экспертная оценка качества сжатого материала с использованием статистической обработки результатов эксперимента.

Основные рекомендации для дальнейшей работы*

В диссертационной' работе; была обоснована эффективность использования« вейвлетных преобразований; в; задачах субполосного кодирования звука. Тем; не менее, остается; открытым ряд; вопросов,, среди которых в первую очередь, следует выделить задачу нахождения оптимального базиса. Среди; всего многообразия- вейвлетных функций требуется обнаружить множество таких, которые: бы показали: наибольшую- эффективность при кодировании различных звуковых данных.

Следует учесть превосходство гармонических базисов; при кодировании; сигналов, близких к тональным. Для решения этой проблемы. требуется либо нахождение вейвлетного базиса, способного к эффективному представлению гармонических сигналов, либо- использование обоих базисов с алгоритмом выбора базиса в зависимости от свойств сигнала.

Использование диадных типов деревьев ограничивает возможность дальнейшей аппроксимации;распределения слуховых полос по ширине. Здесь, в первую очередь, требуется анализщелесообразности;дальнейшего приближения-и при положительных результатах - применение М-полосного вейвлетного преобразования;

За рамками диссертации остались адаптивные свойства пакетных вейвлетов. Возможна адаптация структуры дерева к свойствам сигнала в кадре. Одной из обозримых практических проблем при этом является вопрос кодирования выбранной структуры.

Описываемая в диссертации структура кадра данных может претерпевать существенные изменения в зависимости от дальнейшего направления работы. Напрямую от оценки множества эффективных для кодирования базисов зависит количество битов, отведенных для их кодирования.

Реализация и внедрение результатов исследований

Результаты диссертационной работы были использованы:

- на предприятии НПФ «Супертел Дале» при проведении НИР по разработке головной станции цифрового кабельного телевидения в рамках целевой программы по цифровому телевидению и радиовещанию;

- на предприятии НПФ «Технощит» при проведении НИР по системам волоконно-оптической связи.

Практическая значимость

Решение поставленных задач позволяет провести разработку звукового кодека на основе пакетного вейвлетного преобразования.

Апробация работы

По результатам диссертации сделаны доклады на Международном симпозиуме по проблемам применения алгоритмов искусственного интеллекта А1-МЕТН2007 (г. Гливице, Польша, 2007) [70], 7-ой международной научно-технической конференции «Цифровые и информационные технологии в электронной медиаиндустрии - 2009» (г. Санкт-Петербург, 2009) [18] и 12-й Международной конференции «Цифровая обработка сигналов и ее применение - 2010» (г. Москва, 2010) [19].

Связь с научными программами и темами

Исследования по основным разделам диссертационной работы проводились в рамках НИОКР №07-06/2-1138: «Разработка оборудования и технологий цифрового фильмопроизводства и кинопоказа» (номер гос. регистрации 01.2.007 08694) и НИР №607-ФР «Создание диагностического комплекса» (номер гос. регистрации 0120.0 800779).

Публикации

Основные положения диссертации опубликованы в 12 работах, среди которых 3 статьи [16], [20], [69] и тезисы 9 докладов [11], [12], [13], [14], [15], [17], [18], [19], [70].

Библиография Рогозинский, Глеб Гендрихович, диссертация по теме Приборы и методы преобразования изображений и звука

1. Айфичер Э., Джервис С., Барри У. Цифровая обработка сигналов: практический подход, 2-е издание: Пер. с англ. М.: Издательский дом "Вильяме", 2004. - 992 с.

2. Блаттер К. Вейвлет-анализ. Основы теории. М.: Техносфера, 2004. - 280 с.

3. Воробьев В., Грибунин В. Теория и практика вейвлет-преобразования. -СПб.: ВУС, 1999. 204 с.

4. Добеши И. Десять лекций по вейвлетам. Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001.

5. Ковалгин Ю. Компрессия цифрового звука: психоакустические основы и алгоритмы // 625. 2000. №6.

6. Ковалгин Ю., Вологдин Э. Цифровое кодирование звуковых сигналов MPEG Dolby. АС-3. СПб.: Корона принт, 2004. - 240 с.

7. Лемешко Б.Ю., Лемешко С.Б. Сравнительный анализ критериев проверки отклонения распределения от нормального закона // Метрология. 2005. №2.

8. Малла С. Вэйвлеты в обработке сигналов: Пер. с англ. М.: Мир, 2005.

9. Никамин В.А. Системы пространственного звучания. СПб.: Корона принт,2004. 192 с.

10. Петровский А., Белявский К., Петровский Ал. Перцептуальное кодирование аудио и речевых сигналов // Доклады БГУИР, №1 2004.

11. Рогозинский Г.Г. Применение вейвлет-анализа для восстановления зашумленных сигналов // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ,2005.

12. Рогозинский Г.Г. Вейвлеты и музыка // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2006.

13. Рогозинский Г.Г. Программные вейвлет-анализаторы // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2007.

14. Рогозинский Г.Г. Методы диагностики в цифровом кино // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2008.

15. Рогозинский Г.Г. Перцепционное кодирование звука на основе вейвлетной компрессии // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов СПбГУКиТ. СПб.: ГУКиТ, 2009.

16. Рогозинский Г.Г. Применение метода оптимизации вейвлетов в перцепционном кодировании звука // Радиотехника. 2010. №5.

17. Рогозинский Г.Г. Биортогональные вейвлеты с улучшенной частотной селективностью // Материалы научно-технических конференций студентов и аспирантов институтов и факультетов^СПбГУКиТ. СПб:: ГУКиТ, 2010.

18. Рогозинский, Г.Г. Метод оптимизации вейвлетов для перцепционного кодирования звука // Тезисы докладов 7-ой Международной научно-технической конференции «Цифровые и информационные технологии в электронной медиаиндустрии 2009». СПб.: СПбГУКиТ, 2009.

19. Рогозинский Г.Г. К вопросу выбора оптимального вейвлета для перцепционного кодирования' звуковых сигналов // Тезисы докладов 12-ой Международной, конференции «Цифровая* обработка сигналов и ее применение 2010». М.: ИПУ РАН, 2010.

20. Явленский А.К., Рогозинский Г.Г. Методы диагностики системы цифрового кино на основе* спектрального анализа и искусственного интеллекта // Сборник трудов СПбГУКиТ, 2008.

21. A.Abbate, C.DeCusatis and P.Das, Wavelets and Subbands: Fundamentals and Applications. Boston: Birkhauser, 2002.

22. PIS.Addison, The Illustrated. Wavelet Transformf Handbook, Taylor- & Francis, July, 2002.

23. E.Ambikairajah, J:Epps, L.Lin, «Wideband speech and audio coding using Gammatone filter banks,» in Proc. of International Conference on Acoustics, Speech and Signal Processing, pp. 773-776, 2001.

24. M.Bosi and R.E.Goldberg, "Introduction to Digital Audio Coding and Standards," Boston: Kluwer Academic Publishers, 2003.

25. K.Brandenburg et al., "ISO MPEG-1 Audio: A Generic Standard for Coding of High-Quality Digital Audio", J. Audio Eng. Soc., pp. 780^792, Oct. 1994.

26. B.Carnero and A.Drygajlo, "Perceptual Coding of Speech Using a Fast Wavelet Packet Transform Algorithm", in EUSIPCO-1996 Proc., 1996.

27. P.L.Chu, "Quadrature Mirror Filter Design for an Arbitrary Number of Equal Bandwidth Channels," IEEE Trans. Acous., Speech and Sig. Process., v. ASSP-33, n. 1, pp. 203-218, Feb. 1985.

28. R.Coifman, Y.Meyer, S.Quake, M.V.Wickerhauser, "Signal' Processing and Compression with; Wavelet Packet," in Num. Alg. Res. Group:, New Haven; CT: Yale University, 19901

29. I.Daubechies, "Where do wavelets come from? a personal?; point of view," Proceedings of the IEEE, voli 84, no.4, pp.510-513; Aprilr 1996:

30. M.Erne, G.Moschyt/, C.Faller, Best Wavelet-Packet Bases for Audio Coding Using Perceptual and Rate-Distortion Criteria, ICASSP-99, May 1999.

31. L.Fielder, et al., "AC-2 and AC-3: Low Complexity Transform-Based; Audio Coding", in Collected; Papers on Digital Audio Bit-Rate Reduction, N.Gilchrist and C.Grewin« Eds., Audi Eng. Soc., pp. 54-72, 1996.

32. H.Fletcher, "Auditory Patterns", Rev. Mod; Phys., pp. 47-65, Jan. 1940.

33. D.D.Greenwood, "Critical Bandwidth* and»5 the Frequency Coordinates of the Basilar Membrane", J; Acous. Soc. Am.«, pp. 1344-1356, Oct. 1961.

34. A.Grossman, J.Morlet. Decomposition of Hardy functions into square integralle wavelets of constant shape. S1AM J. of Math. Anal., 15(4), pp. 723-736, July 1984.

35. A.Haar, Zur Theorie der orthogonal en Funktionsysteme, Math. Annal., 69, pp. 331-371, 1910.

36. K.Hamdy, Low Bit Rate High Quality Audio Coding with Combined Harmonic and Wavelet Representations, in Proc. Int. Conf. Acous., Speech and Sig. Proc. (ICASSP-96), pp.1045-1048, May 1996.

37. C.Herley, "Wavelets and Filter banks," in The Digital Signal Processing Handbook, V.Madisetti and D.Williams, eds., CRC Press, 1998.

38. B.Hubbard, "The World According to Wavelets", Natick, MA: A K Peters, 2nd ed., 1998.

39. T.Irino, M.Unoki, "An Analysis/Synthesis Auditory Filterbank Based on an IIR Gamachirp Filter," Comp. Models of Auditory Function, S.Greenberg and M.Slaney Eds., IOS Press, 2001.

40. ISO 11172-3:1993 Annex.C.1.3 43.ITU-RBS.il 16 44. ITU-R BS.562-345; W.Jesteadt, S.P.Bacon, J.R.Lehman, «Forward masking as a function of frequency, masker level and signal delay,» Journal of Acoustic Society of America, vol. 71, pp. 950-962, 1982.

41. S.Krimi, K.Ouni, N.EUouze, "An Improved Psychoacoustic Model for Audio Coding Based on Wavelet Packet," in Proc. 4rd Int. Conf. Science of Elec. Tech. of Inf. and Tel., March 2007.

42. P.Lee, Wavelet Filter Banks in Perceptual Audio Coding, Master Thesis, University of Waterloo, Canada, 2003.

43. B.Novorita, «Incorporation of temporal masking effects into bark distortion measure,» in Proc. of International Conference on Acoustics, Speech and Signal Processing, pp. 665-668,1999.

44. H.J.Nussbaumer, "Pseudo QMF Filter Bank," IBM Tech. Disclosure Bulletin, v.24, pp. 3081-3087, Nov.1981.

45. T.Painter, A.Spanias, "Perceptual Coding of Digital Audio," in Proc. of the IEEE, v.88, №4, p.451-513, April 2000.

46. D.Pan, A tutorial on MPEG/Audio compression, IEEE Multimedia, vol.2, no.2, pp.60-74,1995.

47. P.Papamichalis, "MPEG Audio Compression: Algorithms and Implementation", in Proc. DSP 95 Int. Conf. on DSP, pp. 72-77, June 1995.

48. A.Park, "Using the Gammachirp Filter for Auditory Analysis of Speech," 18:327: Wavelets and Filter banks, May 2003.

49. J:Princen and J.D.Johnston, Audio Coding with Signal Adaptive Filterbanks, in Proc. ICASSP-95, pp.3071 3074, May 1995.

50. O.Rioul and P.Duhamel, A remez exchange algorithm for orthonormal wavelets, IEEE Trans. Circuits Syst. II, vol.41, pp.550 560; August 1994.

51. J.H.Rothweiler, "Polyphase Quadrature Filters A New Subband Coding Technique," in Proc. Int. Conf: Acous., Spccch and; Sig. Process. (ICASSP-83), pp.1280-1283, May 1983.

52. Y.Salimpour, M.D.Abolhassani, H. Soltanian-Zadeh, "Auditory. Wavelet Transform," in Proc. 3rd Eur. Med: and Biol. Eng. Conf., Nov.2005.

53. B.Scharf, "Critical Bands", in Foundations of Modern Auditory Theory, New York: Academic Press, 1970.

54. M.Schroeder, et a!., "Optimizing Digital Speech Coders by Exploiting:Masking Properties of the Human Ear," J. Acoust. Soc. Am:, pp. 1647-1652, Dec. 1979:

55. D.Sinha, et al., "The Perceptual Audio- Coder (PAC)," in The Digital? Signal Processing Handbook, Y.Madisetti andiDiWilliams, Eds:, CRC Press, pp. 42.1-42.18, 1998.

56. D.Sinha and A.Tewfik, Low bit rate transparent audio compression using adapted wavelets, IEEE Trans. Signal Processing; vol.41, no.12, pp;3463 3479, December 1993.

57. M.J.T.Smith and I.T.P.Barnwell, Exact reconstruction techniques for trcc-structured subband coders, IEEE Trans. Acoust., Speech, Sig. Proc., vol. ASSP-34, no.3, June 1986.

58. E.Therhardt, "Calculating Virtual Pitch", Hearing Research, pp.155-182, 1, 1979.

59. M.Vetterli, J.Kovacevic, Wavelets and Subband Coding, Prentice Hall PTR, 1995.

60. Xing He, 'Watermarking in Audio," Cambria Press, 2008.

61. A.Tewfik and M.Ali, Enhanced Wavelet Based Audio Coder, in Conf. Rec. of the 27th Asilomar Conf. on Sig. Sys., and Comp., pp.896-900, Nov 1993.

62. M.V.Wickerhauser, "Adaptive Wavelet Analysis from Theory to Software," A.K. Peters Ltd., Massachusetts, 1994.

63. Xing He and M.S.Scordilis, "Psychoacoustic Music Analysis Based on the Discrete Wavelet Packet Transform," in Research Letters in Signal Processing, 2008.

64. Yavlensky, Belousov, Rogozinsky, Volkov. Digital Cinema Diagnostic System Based on Spectral Analysis and Artificial Intelligence Methods, Diagnostyka 3(47)/2008.

65. Yavlensky, Belousov, Rogozinsky, Volkov, Chavoronkov. Artificial Intelligence-based Diagnostic System in Digital Cinema. AI-METH2007. Gliwice, 2007.

66. E.Zwicker and H.Fastl, Psychoacoustics Facts and Models, Springer-Verlag, 1990.

67. J.Zwislocki, "Analysis of Some Auditory Characteristics", in Handbook of Mathematical Psychology, R.Luce, et al., Eds., New York: John Wiley and Sons, Inc., 1965.