автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Повышение эффективности алгоритмов компрессии цифровых аудиоданных на основе учета временной маскировки

кандидата технических наук
Зырянов, Максим Викторович
город
Санкт-Петербург
год
2007
специальность ВАК РФ
05.12.04
Диссертация по радиотехнике и связи на тему «Повышение эффективности алгоритмов компрессии цифровых аудиоданных на основе учета временной маскировки»

Автореферат диссертации по теме "Повышение эффективности алгоритмов компрессии цифровых аудиоданных на основе учета временной маскировки"

На правах рукописи

ЗЫРЯНОВ Максим Викторович

ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ КОМПРЕССИИ ЦИФРОВЫХ АУДИОДАННЫХ НА ОСНОВЕ УЧЕТА ВРЕМЕННОЙ МАСКИРОВКИ

05 12 04 - Радиотехника, в том числе системы и устройства телевидения

Автореферат диссертации на соискание ученой степени кандидата технических наук

0031Т3 165

Санкт-Петербург 2007

003173165

Работа выполнена в Санкт-Петербургском государственном университете телекоммуникаций им проф МА Бонч-Бруевича на кафедре Радиоприема, вещания и электромагнитной совместимости

Научный руководитель

Официальные оппоненты

з д н РФ, д т н, проф

Юрий Алексеевич Ковалгин

СПбГУТ

д т.н , проф Борис Семенович Тимофеев СПбГУАП

к т н, доц Владимир Борисович Харитонов СПбГУКиТ

Ведущая организация

ФГУП НПЦ Радиосвязи, радиовещания и телевидения «Даймонд», Санкт-Петербург

Защита диссертации состоится « <Р » /¿^Л^/ЛЛ2007 г в «У^» часов на заседании диссертационного совета Д 219 004 01 п^и Санкт-Петербургском государственном университете телекоммуникаций им проф М А Бонч-Бруевича по адресу 191186, Санкт-Петербург, наб реки Мойки, 61

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета телекоммуникаций им проф М А Бонч-Бруевича

Отзыв на автореферат в двух экземплярах, заверенных печатью учреждения, просим направлять по адресу 191186, Санкт-Петербур!, наб реки Мойки, 61, на имя ученого секретаря диссертационного совета

Автореферат разослан « » г

Ученый секретарь диссертационного совета Д 219 004 01

доктор технических наук, профессор

Актуальность работы. Методы кодирования высококачественных звуковых сигналов (ЗС) получили в последнее десятилетие очень широкое распространение в области вещания, цифровой звукозаписи и бытовой звуко- и видеовоспроизводящей аппаратуры Появился даже новый, стремительно растущий, класс бытовой электроники - портативные МРЗ проигрыватели Развиваются сети цифрового теле- и радиовещания, предоставляющие потребителям высокое качество изображения и звука при широкой зоне охвата Растет популярность телерадиовещания по сети Интернет и мобильным телефонным сетям Все эти технологические новшества стали экономически целесообразны, а в ряде случает и вообще технически возможны, благодаря использованию высокоэффективных алгоритмов сжатия цифровой видео- и аудиоинформации, таких как MPEG-1 ISO/IEC 11172, MPEG-2 КОЛЕС 13818, MPEG-4 ISOAEC FCD 14496, ATSC Dolby АС-3 При этом за экономические преимущества использования таких алгоритмов, позволяющих на порядок снизить требования к пропускной способности каналов передачи или ёмкости носителей информации, приходится расплачиваться некоторым снижением качества звучания Проблема повышения качества кодирования ЗС является сегодня одной из ключевых для звукозаписывающей индустрии, отрасли звукового вещания и производителей различных мультимедийных систем

Эффективность и качество систем кодирования ЗС с компрессией цифровых аудиоданных зависят в первую очередь от точности психоакустического анализа Повысив точность психоакустического анализа, сделав его алгоритм более адекватным слуховому восприятию, можно улучшить качество кодирования ЗС, полностью сохранив совместимость с существующими устройствами декодирования Постмаскировка, а именно ее учет может дать дополнительный эффект, является, по сути дела, следствием присущей слуху инерционности

Изучению закономерностей слухового восприятия и разработке алгоритмов компрессии цифровых аудиосигналов посвящены работы ученых К H Brandenburg, S N Levine, E F Schroeder, M Schroeder, W Voessmg, N Jayant, J Johnston, E Zwicker, А С Грудинина, Ю А Ковалгина, В А. Леонова, С Г Рихтера, A M Синильникова и других Модели временной маскировки даны в работах H Fasti, Е Zwicker, В С J Moore, В R Glasberg С Plack и A Oxenham Оценка качества звучания рассмотрена в работах H Fletcher, W В Snow, D К Gannet, J Kerny, Gilbert A Soulodre, Theorder Grusec, Michel Lavoie, Louis Thibault, J Johnston, И А Алдошиной, Г Б Аскинази, НИ Веселовой, АС Галембо, В Д Грибова, И Е Горона, В П Гученко, Ж Я Дубовик, Ю А Ковалгина, В В Ремизова, M JI Сурова, Т П Мещанской, С Л Мишенкова, В К Уварова, А А Фадеева, E А Хрянина

Целью данной работы является исследование и разработка метода повышения эффективности алгоритмов кодирования ЗС с компрессией цифровых аудиоданных путем учета временной маскировки и оценка достигаемого при этом выигрыша в скорости цифрового потока

Для достижения поставленной цели необходимо решить следующие задачи

-получить на основе анализа и сопоставления известных экспериментальных данных математическую модель, описывающую с достаточной для практики точностью явление постмаскировки, пригодную для применения в системах кодирования с компрессией цифровых аудиоданных,

-разработать механизм учета постмаскировки при выполнении психоакустического анализа кодируемых звуковых сигналов,

-реализовать исследовательскую установку, разработать методику сбора, обработки и анализа экспериментальных данных,

-оценить эффективность учета постмаскировки для различных жанров реальных звуковых сигналов, провести субъективные оценки качества кодируемых сигналов, сопоставить полученные при этом результаты, сделать заключение о возможном при ее учете повышении эффективности существующих алгоритмов компрессии цифровых аудиоданных

Методы проведения исследований. Для решения поставленных задач использовались методы цифровой обработки сигналов, имитационного моделирования с применением вычислительных средств и языков программирования «С» и «Matlab», математической статистики и субъективно-статистических экспертиз

Научная новизна и новые полученные результаты диссертационной работы заключается в следующем

-выполнены анализ и обобщение экспериментальных и теоретических данных, посвященных исследованию временной маскировки,

-отобраны для математического моделирования наиболее адекватные слуховому восприятию массивы экспериментальных данных, посвященных исследования порогов постмаскировки, наиболее точно учитывающие влияние уровня и частоты маскирующего сигнала,

-методами математического моделирования получены непрерывные зависимости изменения порога постмаскировки от уровня и частоты маскирующего сигнала с учетом их применения в блоках психоакустического анализа систем кодирования с компрессией цифровых аудиоданных,

-разработан механизм учета постмаскировки, дополняющий вычислительные процедуры психоакустической модели 2, применяемой в системах кодирования стандартов MPEG КОЛЕС 11172-3 и ISO/IEC 13818-3,

-исследована эффективность учета постмаскировки в системах аудиокодирования для реальных звуковых сигналов, ее учет позволяет снизить среднюю скорость цифрового потока кодируемого сигнала в ряде случаев почти на 30%, при этом наибольший эффект достигается при кодировании музыкальных сигналов с большой динамикой уровней, а также и для речи,

-эффективность работы кодера существенно зависит от его временного разрешения при использовании длинных выборок ЗС (около 13 мс) учет

постмаскировки позволяет снизить среднюю скорость битового потока не более, чем на 9% для музыкальных и на 15% для речевых сигналов, при кодировании с временным разрешением около 4 мс средняя экономия битов достигает значений до 19 и 29% соответственно для музыкальных и речевых сигналов,

-выигрыш, получаемый от учета временной постмаскировки, не позволяет дополнительно снизить на постоянную величину число бит, необходимое для «прозрачного» кодирования во всех фреймах сигнала, в силу этой причины наибольший эффект от учета постмаскировки достигается в системах кодирования с переменной скоростью битового потока,

-разработана и реализована программная модель экспериментальной установки, предназначенной для исследования эффективности алгоритмов кодирования ЗС с компрессией цифровых аудиоданных, ее структура, примененные в ней дополнительные вычислительные процедуры, подпрограммы анализа массивов экспериментальных данных, наглядность представления последних сделали возможным ее применение не только в научно-исследовательских и прикладных целях, но и в учебном процессе

Практическая значимость работы состоит в следующем

- разработанный алгоритм компрессии может быть использован для повышения качества современных систем кодирования, например, таких как MPEG-1 ISCMEC 11172-3, MPEG-2 ISO/IEC 13919-3, 1SO/IEC 13818 ААС При этом обеспечивается совместимость кодированных данных с любыми совместимыми со стандартом декодирующими устройствами Его применение особенно эффективно там, где используется кодирование с переменной скоростью передачи бит в цифровой звукозаписи, для целей распространения файлов по сети Internet, по мобильным телефонным сетям, а также в каналообразующей аппаратуре сети доставки звуковых программ до радиопередающих станций,

- для дополнения существующих кодирующих устройств блоком учета постмаскировки необходимо лишь минимальное изменение исходного кода При этом требования к вычислительной мощности и используемой памяти увеличиваются незначительно по сравнению с требованиями самого алгоритма Любые изменения декодирующего оборудования в данном случае не требуются,

- результаты исследования могут быть использованы и при разработке новых алгоритмов кодирования ЗС Особенно для систем кодирования с высоким временным разрешением, эффект от учета постмаскировки в данном случае несет заметные преимущества

- разработанная экспериментальная установка и предложенная методика исследований могут быть использованы не только для разработки новых более совершенных алгоритмов компрессии цифровых аудиоданных, но также и в учебном процессе вузов, занимающихся подготовкой специалистов для радиовещания, телевидения, звукотехники

Внедрение результатов исследований Результаты исследований использовались в ФГУП «Ленинградский отраслевой научно-исследовательский

институт связи» (ЛОНИИС) и в ОАО НПП «Дигитон» при разработке кодеков с компрессией цифровых аудиоданных, а также в учебном процессе СПбГУТ при подготовке инженеров по специальностям 210405 - «Радиосвязь, радиовещание и телевидение» и 210312 - «Аудиовизуальная техника», что подтверждено соответствующими актами внедрения

Положениями, выносимыми на защиту, являются:

1 Математическая модель оценки порогов постмаскировки, описывающая данную закономерность слуха двумя экспоненциальными функциями предложенными Муром, Ппаком и др, с разной крутизной спада, полученная на основе дискретных экспериментальных данных, и учитывающая зависимости порогов постмаскировки от уровня и частоты маскирующего сигнала,

2 Алгоритм учета постмаскировки, реализованный в качестве дополнительного блока в психоакустической модели стандартов кодирования с компрессией цифровых данных - MPEG КОЛЕС 11172-3 и ISOflEC 13818-3,

3 Применение переключаемых банков цифровых фильтров в сочетании с предложенным механизмом оценки суммарного порога маскировки приводит к тому, что формируемые стандартной психоакустической моделью в каждой из субполос кодирования пороги маскировки плавно спадают в соответствии с временными свойствами слуха, что позволяет более точно оценить их значения в каждой субполосе кодирования,

4 Метод оценки эффективности системы кодирования с учетом постмаскировки, базирующийся на вычислении и последующем анализе массивов значений психоакустической энтропии, вычисляемых для каждой из субполос кодирования и в целом для всей выборки ЗС как стандартной, так и реализованной в данной работе модифицированной психоакустической модели,

5 Учет постмаскировки позволяет добиться дополнительного снижения средней скорости битового потока около 2-9% и до 16% соответственно для музыкальных и речевых сигналов, при этом эффективность от учета постмаскировки значительно возрастает с увеличением временного разрешения блока психоакустического анализа до 4—15% для музыкальных и до 30% для речевых сигналов,

6 Неравномерное во времени распределение областей действия постмаскировки для большинства звуковых сигналов не позволяет снижать скорость битового потока на постоянную величину для всего кодируемого сигнала при сохранении его качества;

7 Дополнительная экономия бит происходит во всех субполосах кодирования в низкочастотных субполосах относительные пороги маскировки наиболее сильно подвержены влиянию постмаскировки, в более высокочастотных субполосах даже небольшое дополнительное повышение относительных порогов маскировки приводит к более заметной экономии бит за счет их увеличивающейся ширины,

8 Эффективность кодирования при учете постмаскировки, как правило, возрастает для звуковых сигналов с большими значениями динамического диапазона и пик-фактора

Апробация результатов работы и публикации. По тематике

диссертационной работы опубликовано 9 печатных работ, включая 5 публикаций в виде тезисов докладов и 3 статьи в сборниках трудов международных научно-технических конференций

Структура и объем работы. Работа состоит из введения, четырех глав, заключения и списка литературы Работа содержит 180 листов, в том числе 166 листов основного текста, 69 рисунков, 28 таблиц, 51 формулу В списке литературы 177 наименований

СОДЕРЖАНИЕ РАБОТЫ

Глава 1 диссертации является вводной В ней кратко описаны принципы кодирования звуковых сигналов с устранением психоакустической избыточности звуковых сигналов, рассмотрены как традиционные, так и новейшие методы кодирования высококачественных звуковых сигналов, такие как ASPEC, ATRAC, стандарты MPEG и ATSC Dolby АС-3 (А/52) Рассмотрены также психоакустические модели, применяемые в этих алгоритмах, представлена сравнительная оценка качества кодирования Показано, что наиболее эффективными являются алгоритмы кодирования, использующие адекватные восприятию психоакустические модели слуха и близкое к слуховой системе временное и частотное разрешение кодирующего устройства Установлено также, что практически все известные алгоритмы кодирования с компрессией цифровых аудиоданных не учитывают свойства постмаскировки в блоках психоакустического анализа, и в тоже время могут быть дополнены таким механизмом с сохранением совместимости с существующим декодирующим оборудованием, не требуя его изменения или модификации

Предварительные результаты, полученные рядом авторов, свидетельствуют о том, что учет постмаскировки может дать дополнительную экономию бит около 12 18% по сравнению с учетом только одновременной маскировки Временная адаптация порогов маскировки, реализованная в психоакустической модели рекомендации ITTI-R BS 1387, также говорит о возможном направлении повышения эффективности существующих алгоритмов кодирования Это и определило цели и задачи диссертационной работы, сформулированные выше

Глава 2 работы посвящена анализу публикаций, направленных на изучение свойств и моделирование эффектов постмаскировки Надо отметить, что временные свойства слуха исследованы значительно меньше, чем, например, закономерности одновременной маскировки При этом результаты исследования различных особенностей временного восприятия ЗС, проводившиеся в различное время разными исследователями без единого методического подхода, часто разрозненны, противоречивы в методике получения экспериментальных

данных, нередко существенна расходятся в количественных оценках. Кроме того, опубликованные результаты по оценке порогов ностмаскирозки, носят дискретные характер, это частные результаты, полученные для нескольких частот, уровней или длительностей маскирующего сигнана. Для перехода к более общим непрерывным зависимостям, необходимым для практического учета временных свойств слуха, например, в системах кодирования ЗС, рядом исследователей был предложены разные аппроксимирующие функции, также рассмотренные в этой, глаеи, г.сето в, общей едздкхк&га улсятаокжс %

аппроксимирующих выражений.

На основе анализа и обобщения экспериментальных и теоретических данных в работе выбрана наиболее совершенная с точки зрения слухового восприятия моделирующая явление пост мае кирокки функция, представляющая собой сумму двух экспонент:

где 7, и Г,- константы (постоянные времени), определяющие крутизну спада кривой постмаскировки на каждом из двух, дополняющих друг друга, участков; и' - весовой, коэффициент, определяющий точку перехода одного участка в другой; t- время, прошедшее с момента выключения маскирующего сигнала.

Управляя значениями постоянных времени Т, и Г, в зависимости от уровня и частоты маскирующего сигнала, можно добиться высокой точности предсказания порогов постмаскировки. На основе экспериментальных данных, в работе предложены аналитические зависимости постоянных времени Щ, Тг и весового коэффициента w, для широкого диапазона частот и уровней маскирующих сигналов. Предсказанные такой аппроксимирующей функцией пороги постмаскировки хорошо соответствуют экспериментальным данным (рис. I).

0)

ГЪрсги гоелмэскьровки кз частоте SOCO Гц

EpavíH гткл «-...х v ..~ч v мiл:м-

l'nc. I. Пороги постмас-кировки. рассчитанные аналитически, в сравнении с экспериментальными данными (крестики).

Реализация в кодере предложенной аппроксимирующей функции требует сравнительно небольшой дополнительной вычислительной мощности по сравнению со стандартной психоакустической моделью, учитывающей только одновременную маскировку

Суть модификации психоакустической модели состоит в следующем Вычисляемое значение сигнального возбуждения в каждой из полос психоакустического анализа предварительно обрабатывается блоком учета постмаскировки, который обеспечивает плавный спад уровней сигнальной энергии, в соответствии со скоростью спада относительных порогов слышимости, определяемой механизмом постмаскировки Приведенное таким образом в соответствие с временным восприятием сигнальное возбуждение передается затем стандартным процедурам расчета порогов одновременной маскировки, определяющим, как известно, относительный порог слышимости в полосе психоакустического анализа с учетом индекса тональности субполосного сигнала Полученные таким образом адаптированные значения сигнального возбуждения используются далее во всех последующих шагах расчета глобального порога маскировки вместо их исходных значений Полная структурная схема модифицированной психоакустической модели показана на рис 2

С учетом всего вышеизложенного выражение, упрощенно описывающее вычисление порога маскировки в психоакустической модели 2 (Ferreira «Spectral Coding and Post-Processmg of High Quality Audio», 1998), принимает в этом случае вид

THR(k) = max

ZMpO))SFÜ.k)

2(fc),i0 i» у <=1-----

j-i

(2)

где /т(х) -функция учета постмаскировки, обрабатывающая значения энергии возбуждения в полосе психоакустического анализа ] Эта функция

вычисляется в выделенных блоках «Корректировка энергетических значений функцией временного сглаживания» (рис 2), используемых соответственно при обработке длинных и коротких выборок ЗС, а(к)- коэффициент хаоса^ [а(к)т(к) + [1 -а((с)«т(А:)]) - относительный порог маскировки внутри критической

полосы слуха к, Ш(к) - коэффициент маскировки в критический полосе слуха ¿для тонального маскирующего сигнала, пт(к) коэффициент маскировки в критический полосе слуха к для шумоподобного маскирующего сигнала, 67<Т./Д)-развертывающая функция, учитывающая распространения одновременной маскировки на соседние критические полосы слуха Для модифицированной модели, она же служит и для упрощенного учета распространения порогов постмаскировки по частоте

Входной сигнал

Вычисление спектра входного сигнала для длинных выборок (1024 точек) и для коротких выборок (3x256)

Вычисления в спектре сигнала

Значения амплитудного и фазового спектров двух предыдущих фреймов

^Вычисление г7редсказанных~ значений амплитуды и фазы Г(уу) и расчет меры непредсказуемости с(уу)

Вычисление действительных значений амплитуды г(ш) и фазы для текущей выборки

Вычисление взвешенного

значения меры непредсказуемости сЬ(Ь)

Вычисления в полосах психоакустического анализа

Спектр мощности входного сигнала для коротких выборок

X

^ ^Корректировка энергетических ©ременного -^^^^лпшживайия'д-^

Свертывание энергии сигнала и взвешенного значения меры непредсказуемости с развертывающей функцией с^Ь)

Расчет коэффициента хаоса и индекса тональности

Вычисление энергии сигнала в I

полосах психоакустического _анализа еЬ(Ь)

Вычисление энергии сигнала в полосах анализа еЬ(Ь) для коротких выборок

Вычисления

в полосах кодирования

Расчет отношения сигнал-шум в полосах психоакустического _анализа Б^СЬ)_

Расчет глобального порога маскировки и учет абсолютного порога слышимости

I Корректировка энёрг^тичвао«, ; значений фуню^^^^мен нош '

Вычисление порога маскировки для коротких выборок

Расчет глобального порога маскировки и энергии сигнала в полосах кодирования

Расчет перцепционной

энтропии и переключение оконных функций

Расчет глобального порога маскировки и энергии сигнала в полосах кодирования

Расчет отношения сигнал-маска БМР(п) в полосах кодирования п для коротких выборок

Расчет отношения сигнал-маска вМ(3(п) в полосах кодирования п для длинных выборок

Передача данных в канал кодирования и __блок анализа и обработки_

Рис 2 Модификация психоакустической модели 2 для дополнительного учета влияния постмаскировки Дополнительные, по сравнению со стандартной моделью блоки затемнены

Учет постмаскировки здесь, выполняется отдельно для длинных и коротких выборок психоакустического анализа, в зависимости от текущего режима кодирования

Блок учета временной постмаскировки выполнен на основе банка цифровых фильтров, реализующих аппроксимирующее выражение порогов постмаскировки (1) для каждой субполосы психоакустического анализа При этом параметры таких фильтров вычисляются отдельно для каждой субполосы кодирования в зависимости от частоты и уровня маскирующего воздействия

Цифровой фильтр, соответствующий выражению (1), можно получить Ъ-преобразованием Поскольку /-преобразованием экспоненциальной функции вида

Л(л)=ЛехP^-j является выражение #(z) =

.-ехр| IV О

то передаточная функция требуемого цифрового фильтра имеет вид

Н ехр| +ехр( ~ /

■+ехР|-^ ехр -1

(4)

что соответствует БИХ-фильтру второго порядка Для последнего, как известно, передаточная функция описывается выражением

Ч^К^К (5)

1 + </,z + a2z

При эюм коэффициенты такого фильтра ао, а/, а2, b0, bi, Ъ2 вычисляются на основе постоянных времени Т, и Т2 и весовых коэффициентов А| а А2 по формулам

&„ = 1, b, = A,cKP(~tfl2)+A2(-t/Tl), />2 = 0,

а„= I , а, =ехр(-/Д) + ехр(-//Г2), аг = ехр(-*/7;)ехр(-//Г2) (6)

Таким образом можно рассчитать передаточные функции требуемых цифровых фильтров для длинных и коротких выборок ЗС Надо отметить, что для формирования порогов постмаскировки используется именно импульсная характеристика таких фильтров

Глава 3 посвящена разработке исследовательской установки и методике сбора, обработке и анализа экспериментальных данных В качестве программной модели для исследования влияния учета постмаскировки на эффективность кодирования звуковых сигналов использован исходный код алгоритма кодирования 1SO/IRC-13818, написанный на языке программирования «С» и распространяемый Международной организацией по стандартизации (ISO) Данный алгоритм кодирования был в работе дополнен модифицированной

психоакустической моделью, созданной на основе психоакустической модели 2, но учитывающий и постмаскировку в соответствии с алгоритмом, описанным во второй главе настоящей работы.

Кодируемый сигнал анализируется параллельно как стандартной, так и модифицированной психоакустическими моделями (рис 3) При этом для кодирования звукового сигнала может использоваться результат работы любой из моделей

Входной сигнал

ИКМ

MDCP

Квантование и кодирование

Битовый поток

в формате MPEG Layer HI

Ппиупякугггиияский янапид сиг

Стандартная психоакустическая модель

модифицированная психоакустическая модель с учетом постмаскировки

Отношение Hi ui-маска (smr)

в noifqcax кодирования

ыбор модели я кодирования

Устройство декодированя и воспоизведения

Пртокопирование рассчитанных значений SMR и РЕ

Визуализация и статистическая обработка результатов

Рис 3 Схема экспериментальной установки

Особенностью выбранного для реализации экспериментальной установки алгоритма кодирования является динамическое изменение временного и частотного разрешения как психоакустического анализа, так время-частотного преобразования, в зависимости от структуры кодируемого сигнала Режим кодирования с повышенным временным разрешением (короткими выборками) не является основным, его использование ограниченно только участками сигнала, содержащими резкие переходы или выбросы При этом для уменьшения заметности незамаскированных шумов квантования на таких участках неявно учитываются временные свойства слуха, пред- и постмаскировка Однако следует подчеркнуть, что этот метод не является, строго говоря, методом учета временной маскировки, он лишь использует её возможности косвенно Описанная особенность используемого алгоритма кодирования предоставляет возможность провести исследования влияния учета постмаскировки на эффективность кодирования сразу для двух временных разрешений блока психоакустического анализа. В зависимости от текущего режима кодирования психоакустическая модель стандарта MPEG вычисляет порог маскировки либо для длинных, либо для коротких выборок ЗС В отличие от этого, в экспериментальной установке при кодировании всегда вычисляются пороги маскировки как для коротких, так и для длинных выборок ЗС. Это сделано с целью получения цельного массива экспериментальных данных, что необходимо для более полного исследования влияния временного разрешения на эффективность учета постмаскировки

Программная модель экспериментальной установки дополнена блоком сбора и предварительной обработки получаемых при ее работе данных К числу протоколируемых данных относятся

• отношения сигнал-маска для коротких и длинных окон, вычисленные стандартной и модифицированной психоакустическими моделями,

• значения перцепционной энтропии, вычисленные стандартной и модифицированной психоакустическими моделями,

• разностные значения отношений сигнал-маска, вычисляемые стандартной и модифицированной психоакустической моделями для коротких и длинных окон,

• статистические параметры кодируемых сигналов, необходимые для сопоставления их значений с оценкой эффективности учета постмаскировки,

Наиболее важным анализируемым параметром являются значения перцепционной (психоакустической) энтропии, вычисляемые на основе результатов работы как стандартной, так и модифицированной психоакустическими моделями

Значение перцепционной энтропии РЕ , бит/отсчет, можно вычислить по формуле, данной Джостоном («Transform Coding of Audio Signals Using Perceptual Noise Criteria» IEEE J Sel Areas in Comm, p 314-323, Feb 1988)

Необходимое для представления кодируемой величины Хв двоичном виде число битов определяется по формуле

N=log2

©

2nmtV+l> (7)

(где д = 4тш - шаг квантования, функция пнй вычисляет ближайшее целое), то значение перцепционной энтропии РЕ можно вычислить как

I N \

^Zloft

" »-о

/ 2 mnt Í |Х(Ь)| ] \ +1

ч. U12THR(b)J )

, бит/отсчет. (8)

Здесь и выше THR- допустимый уровень энергии искажений квантования на пороге маскировки, |Х(Ь)| - значение энергии сигнала в субполосе кодирования Ь, a THR (Ь) - значение порога маскировки в этой полосе Выражение (8) предложено Ферейром («Spectral Coding and Post-Processing of High Quality Audio», 1998)

Сравнивая значения психоакустической энтропии РЕ, полученные при кодировании одного и того же отрывка ЗС, можно получить количественную оценку эффективности учета постмаскировки Благодаря описанной выше особенности алгоритма, такое сравнение выполняется сразу для двух временных разрешений психоакустического анализа Дополнительно, производится также и анализ наиболее часто используемых параметров кодируемого сигнала динамического диапазона и пик-фактора Сопоставление этих данных, полученных для отдельных фрагментов различных ЗС со значениями

эффективности учета постмаскировки может использоваться для предварительной классификации и оценки ожидаемой экономии бит при кодировании различных типов звуковых сигналов.

В заключительной части этой главы описан интерфейс исследовательской установки, режимы её работы, и программные средства обработки и анализа получаемых данных

Глава 4 содержит описание проведенных экспериментов, анализ и обработку результатов экспериментальных исследований. В частности, представлены диаграммы распределения значений перцепционной энтропии, полученные для звуковых сигналов различных жанров. Они дают представления о теоретически достигаемой за счет учета постмаскировки экономии бит Также даны графики зависимости достигаемой экономии бит от величины динамического диапазона и пик-фактора кодируемого звукового сигнала Эти значения вычислены для секундных интервалов всех тестовых фрагментов ЗС и сопоставлены с усредненными на этих же интервалах значениями разностной перцепционной энтропии

Для исследования использовался высококачественный звуковой материал, разделенный на музыкальные жанры. Была представлена, в частности, классическая музыка, джазовая и современная музыка, а также речевые сигналы Всего около 40 тестовых фрагментов Каждый из отобранных отрывков имел длительность звучания около 20 с. Полученные результаты представлены в таблице

Результаты учета влияния постмаскировки на теоретически возможную при кодировании экономию бит, усредненные для различных музыкальных жанров

Жанры Значения Выигрыш, Выигрыш, % звукового сигнала энтропии бит/отсчет _Long Short Long Short Long Short

Струнная музыка 1,089 1,011 0,030 0,08 2,740 7,58

Симфоническая 1,148 1,049 0,008 0,04 0,680 4,21

Органная музыка 1,087 0,988 0,006 0,04 0,570 4,07

Электронная музыка 1,139 1,038 0,103 0,16 9,020 15,79

«Металл» 1,109 1,018 0,007 0,03 0,630 2,77

Джаз 1,153 1,053 0,032 0,10 2,790 9,59

Рок-музыка 1,151 1,047 0,029 0,08 2,550 7,74

Поп-музыка 1,129 1,036 0,017 0,05 1,510 4,96

Речь 1,030 0,938 0,168 0,27 16,340 29,17

Дополнительный учет постмаскировки позволяет (табл) для большинства музыкальных сигналов получить дополнительную экономию средней скорости битового потока около 2-9%. Максимальное значение экономии бит для музыкальных сигналов, было получено для отрывков электронной музыки Оно составляет примерно 11% для низкого временного разрешения (длинная выборка) и 19% для высокого временного разрешения при короткой выборке ЗС

Наиболее высокая эффективность получена при кодировании речевых сигналов. В этом случае средняя экономия бит составляет примерно 15 и 30% для низкого и высокого временного разрешения соответственно.

В данной главе приведены также и результаты субъективной оценки качества кодированных сигналов. Субъективные тесты проводились с несколькими экспертами. Ими оценивалось методом парных сравнений качество звучания сигналов, кодированных с использованием стандартной и модифицированной психоакустических моделей, учитывающей постмаскировку. Различие в качестве сравниваемых звучаний оценивалось по 7-баллькой шкале, рекомендуемой МККР, документ 562-3 (ГГО-Я ВБ.562-3). Субъективное тестирование (прослушивание) проводилось для 5 музыкальных и 2 речевых фрагментов.

В заключенной части работы проанализировано соответствие объективной оценки эффективности учета постмаскировки и результатов экспертиз (рис.4).

|;Без учетй тостмаодазеш ■С учегам"гех™есюфсёкй"

—- -

Дш+ье вьборки

! >

— - Короткие аь&рки

0.21--

-С.21.....

Ласкйсг! ЭогеЛа агаиБэ Уапдйга Мэлтап еоэгг>4£гп5чаггБЗгГ1

Рис. 4. Результаты прослушивания, полученные для 5 музыкальных и двух речевых сигналов, в сравнении с количественной оценкой достигаемой экономии битов за счет дополнительного учета постмаскировки.

На рис. 4 показана средняя оценка субъективного качества звучания сигналов, кодированных с использованием стандартной (светлые столбики) и модифицированной (темные столбики) психоакустических моделей, в сравнении со стандартным алгоритмом. Результаты субъективных прослушиваний хорошо совпадают с количественной оценкой эффективности учета шетмаскировки, полученной для этих сигналов (сплошная и прерывистая линии на рис. 4).

ЗАКЛЮЧЕНИЕ

В диссертационной работе получены следующие результаты

1 Доказано, что качество кодирования ЗС может быть повышено путем использования в кодирующем устройстве более адекватных слуховому восприятию психоакустических моделей. При этом можно полностью сохранить как формат передачи данных, так и совместимость с существующими декодирующими устройствами Более адекватный слуховому восприятию психоакустический анализ возможен, в частности, за счет дополнительного учета временных свойств слуха, и в первую очередь постмаскировки

2 Рассмотренные в работе многочисленные публикации и экспериментальные данные позволили установить основные свойства и получить аналитические зависимости, описывающие явление постмаскировки и достаточные для построения математической модели этого свойства слуха Теоретический и экспериментальный анализ данных, посвященных исследованию явления постмаскировки показал, что на основе двух дополняющих друг друга экспоненциальных функций, предложенных Муром и Плаком, возможно достаточно точное и, что важно, при небольших вычислительных затратах, предсказание порогов постмаскировки Разработанная в диссертации процедура расчета параметров такой аппроксимирующей функции обеспечивает хорошее совпадение предсказанных на ее основе порогов постмаскировки с экспериментальными данными для широкого диапазона частот и уровней маскирующего сигнала

3 Разработана программная модель экспериментальной установки для исследования и оценки эффективности учета постмаскировки Она содержит две психоакустические модели- стандартную и модифицированную, последняя дополнена новым блоком учета постмаскировки Программная модель экспериментальной установки содержит также блок сбора, обработки и визуализации получаемых при работе психоакустических моделей массивов данных Протоколируются, анализируются и сравниваются отношения сигнал-маска, используемые для управления искажениями квантования в субполосах кодирования, и значения перцепционной энтропии, вычисляемые для длинных и коротких выборок ЗС Эти массивы данных необходимы для оценки эффективности учета постмаскировки

4.Показано, что влияние учета постмаскировки на экономию бит при кодировании звукового сигнала без субъективного ухудшения его качества может быть количественно оценено на основе сравнения значений перцепционной энтропии, вычисляемых по результатам работы стандартной (учитывающей только одновременную маскировку) и модифицированной психоакустической модели, дополнительно учитывающей еще и влияние постмаскировки

4 Благодаря учету постмаскировки возможна дополнительная экономия средней скорости формируемого кодером битового потока около 2-9% по

сравнению с алгоритмами кодирования, учитывающими только одновременную маскировку. При этом эффективность учета постмаскировки существенно зависит от временного разрешения блока психоакустического анализа и кодирующего устройства Максимальное значение экономии бит, полученное для исследованных музыкальных отрывков, составляет примерно 11% для низкого временного разрешения (длинные выборки ЗС) и 19% для высокого временного разрешения (короткие выборки ЗС) Наиболее высокая эффективность разработанного алгоритма получена при кодировании речевых сигналов В этом случае средняя экономия бит составляет примерно 15% и 30% для низкого и высокого временного разрешения соответственно

5 Экономия бит за счет дополнительного учета постмаскировки, достигается неравномерно Она может существенно меняться от фрейма к фрейму, и по этой причине обычно не позволяет снизить скорость всего битового потока на постоянную величину с сохранением качества звучания Поэтому наибольший эффект от дополнительного учета постмаскировки может быть получен в кодирующих устройствах с переменной скоростью битового потока и высоким временным разрешением психоакустического анализа (менее 5 мс) Здесь можно ожидать среднее значение экономии бит около 10%

6 Вычислительная сложность предлагаемого алгоритма сравнительно невысока и оценивается в зависимости от особенностей его реализации в пределах от 2 до 10 MIPS при кодировании стереосигнала с частотой дискретизации 44,1 кГц

7 Разработанная модель предсказания порогов постмаскировки может найти применение и в других областях науки и техники, где используется моделирование свойств слуха, например в телекоммуникациях, где применяется кодирование речевых сигналов, а также и в медицине при протезировании органов слуха Сознанная в работе методика оценки эффективности учета постмаскировки может быть использована для дальнейшего совершенствования систем звукового кодирования с устранением психоакустической избыточности

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1 Зырянов, MB О возможности реализации алгоритма кодера MUSUCAM на базе процессора ADSP-21062 SHARC // 50-я НТК мат-лы / СПбГУТ - СПб, 1997

2 Зырянов, MB Об эффективности применения Wavelet-преобразования в системах с компрессией цифровых аудиоданных//51-я НТК мат-лы / СПбГУТ - СПб Л 998

3 Зырянов, MB Оптимизация алгоритма полифазной фильтрации для систем компрессии аудиоданных стандартов MPEG ISO/1EC 11172-3 13818-3/МВ Зырянов,ДА Хитров // 52-я НТК мат-лы / СПбГУТ СПб, 1999 - С 79

4 Zyrianov, М V Advanced Perceptual Digital Audio Coding Algorithm // AES 17th International conference on High Quality Audio Coding, 1999

5 Зырянов, MB Метод восстановления потерянных/искаженных кадров при декодировании цифрового потока формата MPEG-2 / М В Зырянов, Д А Хитров // 53-я НТК мат-лы / СПбГУТ - СПб, 2000 - С 65

6 Зырянов, MB Анализ возможностей алгоритма компрессии цифровых аудиоданных стандарта MPEG-2 и оценка его потенциальных возможностей / М В Зырянов, Ю А Ковалгин, Д А Хитров//53-я НТК мат-лы/СПбГУТ - СПб, 2000 -С 65-66

7 Зырянов, MB Применение временной маскировки при кодировании звуковых сигналов / М В Зырянов, Ю А Ковалгин // Труды учебных заведений связи / СПбГУТ - СПб, 2006 -№ 174 - С 99-106

8 Зырянов, MB Модели временной постмаскировки для кодирования звуковых сигналов // Труды учебных заведений связи / М В Зырянов, Ю А Ковалгин // Труды учебных заведений связи / СПбГУТ - СПб, 2006 -№174 - С 107-119

9 Зырянов, MB Феномен временной маскировки и его учет при кодировании звуковых сигналов/МВ Зырянов, Ю А Ковалгин // Звукорежиссер - 2007 - № 3 (с 66-74), № 4 (с 72-78)

Подписано к печати 26.09.2007. Объем 1 печ. л. Тираж 80 экз. Зак. ¿/8 Тип. СПбГУТ. 191186 СПб, наб р. Мойки, 61

Оглавление автор диссертации — кандидата технических наук Зырянов, Максим Викторович

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. МЕТОДЫ КОДИРОВАНИЯ ЗВУКОВЫХ СИГНАЛОВ С УСТРАНЕНИЕМ ПСИХОАКУСТИЧЕСКОЙ ИЗБЫТОЧНОСТИ

1.1. Цели кодирования цифровых аудиоданных

1.2. Кодирование с ортогональным преобразованием звукового сигнала

1.3. Алгоритмы кодирования звуковых сигналов с устранением психоакустической избыточности

1.3.1. Система кодирования MASCAM

1.3.2. Алгоритм компрессии MUSICAM

1.3.3. Метод кодирования ASPEC

1.3.4. Метод ATRAC

1.4. Стандарты кодирования семейства MPEG 28 1.4.1. Алгоритм кодирования аудиосигналов стандарта MPEG-1 ISO/IEC 11172

1.5. Алгоритмы кодирования звуковых сигналов стандарта MPEG-2 ISO/IEC 13818

1.6. Алгоритм кодирования MPEG-2 AAC ISO/IEC 13818

1.7. Алгоритм кодирования MPEG-4FCD 14496

1.8. Стандарт кодирования DOLBY АС

1.9. Качество кодеков с компрессией цифровых аудиодапных

1.10. Постановка задачи и цель диссертационной работы

ГЛАВА 2. РАЗРАБОТКА МАТЕМАТИЧЕСКОЙ МОДЕЛИ ПОСТМАСКИРОВКИ И МЕХАНИЗМА ЕЁ УЧЕТА В КОДЕРАХ С КОМПРЕССИЕЙ ЦИФРОВЫХ АУДИОДАННЫХ

2.1. Использование временной маскировки в системах кодирования звуковых сигналов с устранением психоакустической избыточности.

2.2. Математические модели постмаскировки

2.2.1. Суммирование индивидуальных порогов постмаскировки при их наложении во времени

2.3. Разработка механизма учета постмаскировки для использования в системах аудиокодирования

2.3.1. Учет частотной зависимости временной маскировки

2.3.2. Учет зависимости временной постмаскировки от уровня маскирующего сигнала

2.3.3. Получение комплексной зависимости порогов временной постмаскировки от частоты и от уровня маскирующего сигнала

2.4. Модификация психоакусгнчсской модели

ГЛАВА 3. РАЗРАБОТКА ПРОГРАММНОЙ МОДЕЛИ, СТРУКТУРЫ И

ИНТЕРФЕЙСА ИССЛЕДОВАТЕЛЬСКОЙ УСТАНОВКИ

3.1. Структура исследовательской установки 102 3.1.1. Сбор экспериментальных данных

3.2. Методы анализа эффективности кодирования

3.3. Статистический анализ звуковых сигналов

3.4. Пользовательский интерфейс экспериментальной установки

3.5. Другие модификации программной модели

3.6. Проверка правильности работы программной модели

ГЛАВА 4. ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТОВ. АНАЛИЗ РЕЗУЛЬТАТОВ. ОЦЕНКА

ЭФФЕКТИВНОСТИ УЧЕТА ПОСТМАСКИРОВКИ

4.1. Классическая музыка — симфоническая музыка

4.2. Классическая музыка - струнные музыкальные инструменты

4.3. Классическая музыка - органная музыка

4.4. Современная музыка - электронная музыка

4.5. Современная музыка - Heavy Metal

4.6. Джазовая музыка

4.7. Современная музыка - рок-музыка

4.8. Современная музыка - поп-музыка

4.9. Речевые сигналы

4.10. Обобщение результатов исследования

4.11. Субъективная оценка

4.12. Выводы по главе

Введение 2007 год, диссертация по радиотехнике и связи, Зырянов, Максим Викторович

Актуальность работы. Методы кодирования высококачественных звуковых сигналов (ЗС) получили в последнее десятилетие очень широкое распространение в области вещания, цифровой звукозаписи и бытовой звуко-и видеовоспроизводящей аппаратуры. Появился даже новый, стремительно растущий класс бытовой электроники - портативные МРЗ проигрыватели. Развиваются сети цифрового теле- и радиовещания, предоставляющие потребителям высокое качество изображения и звука при широкой зоне охвата. Растет популярность телерадиовещания по сети Интернет и мобильным телефонным сетям. Все эти технологические новшества стали экономически целесообразны, а в ряде случаев и вообще технически возможны, благодаря использованию высокоэффективных алгоритмов сжатия цифровой видео- и аудиоинформации, таких как MPEG-1 ISO/IEC 11172, MPEG-2 TSO/IEC 13818, MPEG-4 ISO/IEC FCD 14496, ATSC Dolby АС-3. При этом за экономические преимущества использования таких алгоритмов, позволяющих на порядок снизить требования к пропускной способности каналов передачи или ёмкости носителей информации, приходится расплачиваться некоторым снижением качества звучания. За эпоху господства цифрового аудио компакт-диска у потребителей сформировалось требование к высокому качеству звучанию любого звуковоспроизводящего оборудования. Усилия разработчиков алгоритмов кодирования звуковых сигналов всегда были направлены на то, чтобы обеспечить качество декодированного аудиоматериала не худшее, чем у компакт-диска. Именно качество звучания часто является решающим фактором, определяющим экономический успех услуг цифрового вещания или служб распространения цифровых звукозаписей таких, например, как iTunes). Кроме того, непрерывно растущее качество бытовой звуковоспроизводящей аппаратуры также повышает и требования к качеству воспроизводимого звукового материала.

Очевидно, что проблема повышения качества кодирования звуковых сигналов является сегодня одной из ключевых для звукозаписывающей индустрии, отрасли звукового вещания и производителей различных мультимедийных систем.

Основной принцип работы высокоэффективных систем кодирования звуковых сигналов заключается в использовании свойств слуховой системы человека, в первую очередь явления маскировки. Явление психоакустической маскировки обусловлено биофизической и нейронной обработкой звуковых сигналов слуховой системой человека [173]. При этом часть звуковой информации не оказывает влияния на акустическое восприятие звукового сигнала из-за присутствия в нем компонент с большей интенсивностью. Таким образом, наиболее интенсивные компоненты звукового сигнала формируют так называемые пороги маскировки. Звуковая информация с уровнем сигнальной энергии, лежащей ниже порога маскировки, не воспринимается слуховой системой. При традиционном цифровом представлении звуковых сигналов с использованием импульсно-кодовой модуляции (ИКМ) дискретизированные во времени отсчеты исходного сигнала представляются с использованием определенного числа двоичных разрядов в кодовом слове. Конечная точность представления мгновенных значений непрерывного аналогового сигнала вносит в сигнал ошибку - так называемый шум квантования. Идея кодирования звуковых сигналов с устранением психоакустической избыточности состоит в объединении психоакустического анализа и механизма квантования звуковых сигналов [112]. При этом цифровой кодируемый сигнал преобразуется во время-частотное представление, по возможности близкое к время-частотной разрешающей способности слуховой системы человека. Психоакустический анализ определяет пороги маскировки в каждой точке время-частотного представления кодируемого сигнала, а квантующее устройство осуществляет повторное квантование сигнала с минимально возможным количеством бит на отсчет, при котором возрастающий по уровню шум квантования все ещё лежит ниже порогов маскировки. Таким образом, может достигаться компактное представление звуковых сигналов без субъективного ухудшения качества звучания. Очевидно, что эффективность и качество подобных систем зависят в первую очередь от точности психоакустического анализа.

Сопоставление блоков психоакустического анализа современных систем кодирования звуковых сигналов и результатов исследований в области психоакустики показал, что потенциал устранения псхиоакустической избыточности раскрыт не полностью. Наиболее распространенный в настоящее время стандарт кодирования MPEG Layer 3 (известный как МРЗ) использует при вычислении порогов маскировки только свойства одновременной маскировки и учитывает ее распространение в частотной области. Феномен же временной маскировки [173] используется в этом алгоритме лишь косвенно, для уменьшения эффекта пред-эха.

Эффективность и качество систем кодирования ЗС с компрессией цифровых аудиоданных зависят в первую очередь от точности психоакустического анализа. Повысив точность психоакустического анализа, сделав его алгоритм более адекватным слуховому восприятию, можно улучшить качество кодирования ЗС, полностью сохранив совместимость с существующими устройствами декодирования. Постмаскировка, а именно ее учет может дать дополнительный эффект, является, по сути дела, следствием присущей слуху инерционности

Изучению закономерностей слухового восприятия и разработке алгоритмов компрессии цифровых аудиосигналов посвящены работы учёных: К.Н. Brandenburg, S. N. Levine, E.F. Schroeder, M. Schroeder, W. Voessing, N. Jayant, J. Johnston, E. Zwicker, A.C. Грудинина, Ю.А. Ковалгина, B.A. Леонова, С.Г. Рихтера, A.M. Синильникова и других. Модели временной маскировки даны в работах H.Fastl, Е. Zwicker, B.CJ. Moore, B.R. Glasberg С. Plack и A. Oxenham. Оценка качества звучания рассмотрена в работах Н. Fletcher, W.B.Snow, D.K. Gannet, J. Kerny, Gilbert A. Soulodre, Theorder Grusec, Michel Lavoie, Louis Thibault, J. Johnston, И.А. Алдошиной, Г.Б. Аскинази, Н.И. Веселовой, A.C. Галембо, В.Д. Грибова, И.Е. Горона, В.П. Гученко, Ж .Я. Дубовик, Ю.А. Ковалгина, В.В. Ремизова, М.Л. Сурова, Т.П. Мещанской, С.Л. Мишенкова, В.К. Уварова, А.А. Фадеева, Е.А Хрянина.

Целью данной работы является исследование и разработка метода повышения эффективности алгоритмов кодирования ЗС с компрессией цифровых аудиоданных путем учета временной маскировки и оценка достигаемого при этом выигрыша в скорости цифрового потока.

Для достижения поставленной цели необходимо решить следующие задачи:

-получить на основе анализа и сопоставления известных экспериментальных данных математическую модель, описывающую с достаточной для практики точностью явление постмаскировки, пригодную для применения в системах кодирования с компрессией цифровых аудиоданных;

-разработать механизм учета постмаскировки при выполнении психоакустического анализа кодируемых звуковых сигналов;

-реализовать исследовательскую установку, разработать методику сбора, обработки и анализа экспериментальных данных;

-оценить эффективность учета постмаскировки для различных жанров реальных звуковых сигналов, провести субъективные оценки качества кодируемых сигналов, сопоставить полученные при этом результаты, сделать заключение о возможном при ее учете повышении эффективности существующих алгоритмов компрессии цифровых аудиоданных.

Методы проведения исследований. Для решения поставленных задач использовались методы цифровой обработки сигналов, имитационного моделирования с применением вычислительных средств и языков программирования «С» и «Matlab», математической статистики и субъективно-статистических экспертиз.

Научная новизна и новые полученные результаты диссертационной работы заключаются в следующем:

-выполнены анализ и обобщение экспериментальных и теоретических данных, посвященных исследованию временной маскировки;

-отобраны для математического моделирования наиболее адекватные слуховому восприятию массивы экспериментальных данных, посвященных исследованию порогов постмаскировки, наиболее точно учитывающие влияние уровня и частоты маскирующего сигнала;

-методами математического моделирования получены непрерывные зависимости изменения порога постмаскировки от уровня и частоты маскирующего сигнала с учетом их применения в блоках психоакустического анализа систем кодирования с компрессией цифровых аудиоданных;

-разработан механизм учета постмаскировки, дополняющий вычислительные процедуры психоакустической модели 2, применяемой в системах кодирования стандартов MPEG ISO/IEC 11172-3 и ISO/IEC 13818-3;

-исследована эффективность учета постмаскировки в системах кодирования для реальных звуковых сигналов; ее учет позволяет снизить среднюю скорость цифрового потока кодируемого сигнала в ряде случаев почти на 30%; при этом наибольший эффект достигается при кодировании музыкальных сигналов с большой динамикой уровней, а также и для речи;

-эффективность работы кодера существенно зависит от его временного разрешения: при использовании длинных выборок ЗС (около 13 мс) учет постмаскировки позволяет снизить среднюю скорость битового потока не более, чем на 9% для музыкальных и на 15% для речевых сигналов; при кодировании с временным разрешением около 4 мс средняя экономия битов достигает значений до 19 и 29% соответственно для музыкальных и речевых сигналов;

-выигрыш, получаемый от учета временной постмаскировки, не позволяет дополнительно снизить на постоянную величину число бит, необходимое для «прозрачного» кодирования во всех фреймах сигнала; в силу этой причины наибольший эффект от учета постмаскировки достигается в системах кодирования с переменной скоростью битового потока;

-разработана и реализована программная модель экспериментальной установки, предназначенной для исследования эффективности алгоритмов кодирования ЗС с компрессией цифровых аудиоданных; ее структура, примененные в ней дополнительные вычислительные процедуры, подпрограммы анализа массивов экспериментальных данных, наглядность представления последних сделали возможным её применение не только в научно-исследовательских и прикладных целях, но и в учебном процессе.

Практическая значимость работы состоит в следующем:

- разработанный алгоритм компрессии может быть использован для повышения качества современных систем кодирования, например, таких как MPEG-11SO/IEC 11172-3, MPEG-2 ISO/IEC 13919-3,1SO/IEC 13818 ААС. При этом обеспечивается совместимость кодированных данных с любыми совместимыми со стандартом декодирующими устройствами. Его применение особенно эффективно там, где используется кодирование с переменной скоростью передачи бит: в цифровой звукозаписи, для целей распространения файлов по сети Internet, по мобильным телефонным сетям, а также в каналообразующей аппаратуре сети доставки звуковых программ до радиопередающих станций;

- для дополнения существующих кодирующих устройств блоком учета постмаскировки необходимо лишь минимальное изменение исходного кода. При этом требования к вычислительной мощности и используемой памяти увеличиваются незначительно по сравнению с требованиями самого алгоритма. Любые изменения декодирующего оборудования в данном случае не требуются; и

- результаты исследования могут быть использованы и при разработке новых алгоритмов кодирования ЗС. Особенно для систем кодирования с высоким временным разрешением, эффект от учета постмаскировки в данном случае несет заметные преимущества.

- разработанная экспериментальная установка и предложенная методика исследований могут быть использованы не только для разработки новых более совершенных алгоритмов компрессии цифровых аудиоданных, но также и в учебном процессе вузов, занимающихся подготовкой специалистов для радиовещания, телевидения, звукотехники.

Внедрение результатов исследований. Результаты исследований использовались в ФГУП «Ленинградский отраслевой научно-исследовательский институт связи» (ЛОНИИС) и в ОАО НПП «Дигитон» при разработке кодеков с компрессией цифровых аудиоданных, а также в учебном процессе СПбГУТ при подготовке инженеров по специальностям 210405 -«Радиосвязь, радиовещание и телевидение» и 210312 - «Аудиовизуальная техника», что подтверждено соответствующими актами внедрения.

Положениями, выносимыми на защиту, являются:

1. Математическая модель оценки порогов постмаскировки, описывающая данную закономерность слуха двумя экспоненциальными функциями, предложенными Муром, Плаком и др., с разной крутизной спада, полученная на основе дискретных экспериментальных данных, и учитывающая зависимости порогов постмаскировки от уровня и частоты маскирующего сигнала;

2. Алгоритм учета постмаскировки, реализованный в качестве дополнительного блока в психоакустической модели стандартов кодирования с компрессией цифровых данных - MPEG ISO/IEC 11172-3 и ISO/IEC 13818-3;

3. Применение переключаемых банков цифровых фильтров в сочетании с предложенным механизмом оценки суммарного порога маскировки приводит к тому, что формируемые стандартной психоакустической моделью в каждой из субполос кодирования пороги маскировки плавно спадают в соответствии с временными свойствами слуха, что позволяет более точно оценить их значения в каждой субполосе кодирования;

4. Метод оценки эффективности системы кодирования с учетом постмаскировки, базирующийся на вычислении и последующем анализе массивов значений психоакустической энтропии, вычисляемых для каждой из субполос кодирования и в целом для всей выборки ЗС как стандартной, так и реализованной в данной работе модифицированной психоакустической модели;

5. Учет постмаскировки позволяет добиться дополнительного снижения средней скорости битового потока около 2-9% и до 16% соответственно для музыкальных и речевых сигналов; при этом эффективность от учета постмаскировки значительно возрастает с увеличением временного разрешения блока психоакустического анализа до 4-15% для музыкальных и до 30% для речевых сигналов;

6. Неравномерное во времени распределение областей действия постмаскировки для большинства звуковых сигналов не позволяет снижать скорость битового потока на постоянную величину для всего кодируемого сигнала при сохранении его качества;

7. Дополнительная экономия бит происходит во всех субполосах кодирования: в низкочастотных субполосах относительные пороги маскировки наиболее сильно подвержены влиянию постмаскировки, в более высокочастотных субполосах даже небольшое дополнительное повышение относительных порогов маскировки приводит к более заметной экономии бит за счет их увеличивающейся ширины;

8. Эффективность кодирования при учете постмаскировки, как правило, возрастает для звуковых сигналов с большими значениями динамического диапазона и пик-фактора.

Апробация результатов работы и публикации. По тематике диссертационной работы опубликовано 9 печатных работ, включая 5 публикаций в виде тезисов докладов и 3 статьи в сборниках трудов международных научно-технических конференций.

Структура и объем работы. Работа состоит из введения, четырех глав, заключения и списка литературы. Работа содержит 180 листов, в том числе 166 листов основного текста, 69 рисунков, 28 таблиц, 51 формулу. В списке литературы 177 наименований.

Заключение диссертация на тему "Повышение эффективности алгоритмов компрессии цифровых аудиоданных на основе учета временной маскировки"

4.12. Выводы по главе 4

В результате проведенного исследования эффективности учета постмаскировки на музыкальном материале различного жанра и речевых сигналах, установлено, что:

1.Для большинства музыкальных сигналов учет постмаскировки дает заметные преимущества, оцениваемые в 5-10% сокращения скорости битового потока, только при использовании режимов кодирования с высоким временным разрешением и переменной скоростью битового потока. Для отдельных музыкальных сигналов возможна и большая средняя экономия бит, достигающая 16% по сравнению с алгоритмами кодирования учитывающими только одновременную маскировку;

2.При кодировании речевых сигналов, эффективность учета постмаскировки оценивается как очень высокая, позволяющая экономить до одной трети от скорости битового потока, формируемого стандартным алгоритмом компрессии;

3.Исследования достигаемой за счет учета постмаскировки экономии бит от значений динамического диапазона и пик-фактора кодируемых звуковых сигналов, показали, что достоверно предсказывать эффективность учета постмаскировки по этим параметрам достаточно сложно. Из них более пригодным параметром, представляется величина динамического диапазона кодируемого сигнала;

4. Результаты сравнительного прослушивания подтвердили правильность теоретических оценок эффективности кодирования за счет дополнительного учета постмаскировки. При этом можно также утверждать, что блок учета постмаскировки, разработанный в настоящей работе, корректно выполняет свою функцию, не внося дополнительных искажений в кодируемый сигнал и позволяя осуществлять дополнительную экономию бит при кодировании высококачественных звуковых сигналов.

165

ЗАКЛЮЧЕНИЕ

В диссертационной работе получены следующие основные результаты.

1.Доказано, что качество кодирования звуковых сигналов (ЗС) может быть повышено путем использования в кодирующем устройстве более адекватных слуховому восприятию психоакустических моделей. При этом можно полностью сохранить как формат передачи данных, так и совместимость с существующими декодирующими устройствами. Более адекватный слуховому восприятию психоакустический анализ возможен, в частности, за счет дополнительного учета временных свойств слуха, и в первую очередь постмаскировки.

2.Рассмотренные в работе многочисленные публикации и экспериментальные данные позволили установить основные свойства и получить аналитические зависимости, описывающие явление постмаскировки и достаточные для построения математической модели этого свойства слуха. Теоретический и экспериментальный анализ данных, посвященных исследованию явления постмаскировки, показал, что на основе двух дополняющих друг друга экспоненциальных функций, предложенных Муром и Плаком, возможно достаточно точное и, что важно, при небольших вычислительных затратах, предсказание порогов постмаскировки. Разработанная в диссертации процедура расчета параметров такой аппроксимирующей функции обеспечивает хорошее совпадение предсказанных на её основе порогов постмаскировки с экспериментальными данными для широкого диапазона частот и уровней маскирующего сигнала.

3.Разработана программная модель экспериментальной установки для исследования и оценки эффективности учета постмаскировки. Она содержит две психоакустические модели: стандартную и модифицированную, последняя дополнена новым блоком учета постмаскировки. Программная модель экспериментальной установки содержит также блок сбора, обработки и визуализации получаемых при работе психоакустических моделей массивов данных. Протоколируются, анализируются и сравниваются отношения сигнал-маска, используемые для управления искажениями квантования в субполосах кодирования, и значения перцепционной энтропии, вычисляемые для длинных и коротких выборок ЗС. Эти массивы данных необходимы для оценки эффективности учета постмаскировки.

4.Показано, что влияние учета постмаскировки на экономию бит при кодировании звукового сигнала без субъективного ухудшения его качества может быть количественно оценено на основе сравнения значений перцепционной энтропии, вычисляемых по результатам работы стандартной (учитывающей только одновременную маскировку) и модифицированной психоакустической модели, дополнительно учитывающей еще и влияние постмаскировки.

4.Благодаря учету постмаскировки возможна дополнительная экономия средней скорости формируемого кодером битового потока около 2-9% по сравнению с алгоритмами кодирования, учитывающими только одновременную маскировку. При этом эффективность учета постмаскировки существенно зависит от временного разрешения блока психоакустического анализа и кодирующего устройства. Максимальное значение экономии бит, полученное для исследованных музыкальных отрывков, составляет примерно 11% для низкого временного разрешения (длинные выборки ЗС) и 19% для высокого временного разрешения (короткие выборки ЗС). Наиболее высокая эффективность разработанного алгоритма получена при кодировании речевых сигналов. В этом случае средняя экономия бит составляет примерно 15% и 30% для низкого и высокого временного разрешения соответственно.

5.Экономия бит за счет дополнительного учета постмаскировки, достигается неравномерно. Она может существенно меняться от фрейма к фрейму, и по этой причине обычно не позволяет снизить скорость всего битового потока на постоянную величину с сохранением качества звучания. Поэтому наибольший эффект от дополнительного учета постмаскировки может быть получен в кодирующих устройствах с переменной скоростью битового потока и высоким временным разрешением психоакустического анализа (менее 5 мс). Здесь можно ожидать среднее значение экономии бит около 10%.

6.Вычислительная сложность предлагаемого алгоритма сравнительно невысока и оценивается в зависимости от особенностей его реализации в пределах от 2 до 10 MIPS при кодировании стереосигнала с частотой дискретизации 44,1 кГц.

7.Разработанная модель предсказания порогов постмаскировки может найти применение и в других областях науки и техники, где используется моделирование свойств слуха, например, в телекоммуникациях, где применяется кодирование речевых сигналов, а также и в медицине при протезировании органов слуха. Созданная в работе методика оценки эффективности учета постмаскировки может быть использована для дальнейшего совершенствования систем кодирования звуковых сигналов с устранением присущей им психоакустической избыточности.

Библиография Зырянов, Максим Викторович, диссертация по теме Радиотехника, в том числе системы и устройства телевидения

1. Алдошина И., Кацнельсон JI. Эврика-147/DAB. Система цифрового звукового радиовещания XXI века.- 625, №8,1997, с. 62-67.

2. Алдошина И. Основы психоакустики, часть 6. Слуховая маскировка "Звукорежиссер" 2000 /2

3. Алдошина И. А., Приттс Р. Музыкальная акустика СПб:Композитор, 2006

4. АНАЛИЗ ЧАСТОТНЫХ И ВРЕМЕННЫХ СВОЙСТВ СЛУХОВОГО АППАРАТА Методические указания Составители: А.А. Борискевич, В.К. Конопелько БГУИР, 2003.

5. Арпошенко В.М.ДИелухин О.И.,Афонин М.Ю. Цифровое сжатие видеоинформации и звука: Учебное пособие/ Под ред. В.М.Артюшенко. -М.: Издательско-торговая корпорация «Дашков и К», 2003.

6. Банк М.У., Сучилин В.А. Формирование выборки звукового сигнала при спектральном преобразовании//Электросвязь, 1990, N1, с.28-30.

7. Берестецкий А.А., Климова О.А., Синильников A.M. Адаптивное взвешивание в задаче сжатия цифрового звукового сигнала//Изв. ВУЗов. Радиоэлектроника, 1990, N12, с. 7-12.

8. Блейхут Р. Теория и практика кодов, контролирующих ошибки: /Пер.с анг. И.И. Грушко, В.М. Блиновского; Под. ред. К.Ш. Зигангирова. М.: Мир , 19869. .Н. Бронштейн, К.А. Семендяев "Справочник по математике". Москва "Наука" 1986 г

9. Л.М. Гольденберг, Б.Д. Матюшкин, М.Н. Поляк, Цифровая обработка сигналов. -М.: Радио и связь, 1985.

10. Грудинин А.С.,Ковалгин Ю.А. Кодирование звуковых сигналов в спектральной области //Техника кино и телевидения, М.: Искусство, 1987, N 7, с.14-19.

11. Грудинин А.С., Синильников А.М.Кодирование сигналов звукового вещания в базисе дискретного косинусного преобразования // Техника средств связи. Серия ТРПА, 1986, вып.З, с.3-10.

12. Дворецкий И.М., Дриацкий И.Н. Цифровая передача сигналов звукового вещания. -М.: Радио и связь, 1987.- 192 с.

13. Денин А, Кацнельсон Л. Система цифрового радиовещания «Эврика-147»// Радио, 1996, №8, с. 30-32.

14. Зырянов М, Ковалгин. Ю Феномен временной маскировки и его учет при кодировании звуковых сигналов//Звукорежиссер. 3/07 4/07

15. Кацнельсон Л. Результаты сравнительных испытаний систем цифрового звукового радиовещания //Радио, 1998, №4, с. 68-70.

16. Кацнельсон Л. Цифровое радиовещание шагает по планете.- Радио, 1998, №9, с.70-73.

17. Кацнельсон Л. Система цифрового звукового радиовещания «Эврика-147/DAB».-Install-Pro, декабрь 1999, №2, с. 38-43.

18. Кацнельсон Л. Система цифрового радиовещания DRM: Учеб. пособие/ СПбГУТ-СПб, 2003, 44 с.

19. Кацнельсон Л., Козлова Л. Система цифрового звукового радиовещания DAB. Современное состояние// Радио, №3,2005, с. 20-21.

20. Ковалгин Ю.А., Борисенко А.В., Гензель Г.С. Акустические основы стереофонии. -М.: Радио и связь, 1978. 336 с.

21. Ковалгин Ю.А. (ред) Выходец А.В., Жмурин П.М., Зорин И.Ф. и др. Звуковоевещание; Справочник,- М.: Радио и связь, 1993.- 464 с.

22. Ковалгин Ю.А., Вологдин. Э.И. Цифровое кодирование звуковых сигналов. СПб.: КОРОНА-принт,2004.-240 с.

23. Ковалгин Ю.А., Зырянов М.В. Применение временной маскировки при кодировании звуковых сигналов // Труды учебных заведений связи / СПбГУТ. СПб, 2006

24. Ковалгин Ю.А., Зырянов М.В. Модели временной постмаскировки для кодирования звуковых сигналов // Труды учебных заведений связи / СПбГУТ. СПб, 2006

25. Ковалгин Ю.А. Стереофония. М.: Радио и связь, 1989.-272 с. Ковалгин Ю А. Цифровые системы радиовещания и звукосопровождения телевидения. Часть 2 // «Broadcasting» Телевидение и радиовещание, номер 4,2002, -с. 60-63.

26. Ковалгин Ю.А. Цифровые системы радиовещания и звукосопровождения телевидения. Часть 3 // «Broadcasting» Телевидение и радиовещание, номер 6,2002, -с. 82-87.

27. Колесников В.М., Банк М.У., Синильников A.M., Сучилин В.А. Спектральные методы сокращения избыточности высококачественных звуковых сигналов. Радио и телевидение ОИРТ, 1989, N1, с.36-39, N2 с.35-39.

28. МККР. Рекомендации МККР. Радиовещательная служба (звуковая). Т.Х. -41.-Дюссельдорф, 1990.- 204с.

29. МККР. Рекомендации МККР. Передача сигналов телевизионного и звукового радиовещания (СМТТ). Дюссельдорф, 1990.- 170с.

30. МККР. Рекомендации и отчеты МККР. Радиовещательная служба (звуковая). -Т.Х.-4.1.-Дубровник 1986.-387с.

31. МККР. Рекомендации МККР. Радиовещательная спутниковая служба (звуковая и телевизионная).-Т.Х и XI.-4.2.- Дубровник 1990.-498с.

32. Моисеев М.Н., Синильников A.M. Кодирование высококачественных звуковых сигналов в частотной области // Электросвязь, 1988, N9, с. 34-36.

33. Моисеев М.Н. К вопросу о выборе интервала анализа при кодировании звуковых сигналов в частотной области //Техника средств связи, сер. ТРПА, 1989, вып.2, с. 5157.

34. Никамин В.А. Цифровая звукозапись, технология и стандарты. Наука и техника, Санкт-Петербург, 2002.

35. Никамин В.А. Форматы цифровой звукозаписи. СПб: ЗАО «Элби», 1998.- 264 с.

36. Оппенгейм А.В., Шафер Р. В. Цифровая Обработка Сигналов / Пер. с англ. В.А Лексаченко, В.Г. Челланова; Под ред. С.Я. Шаца. М.: Связь, 1979

37. Оппенгейм Э. (ред., пер. под ред. A.M. Рязанцева.) Применение цифровой обработки сигналов; М .: Мир , 1980

38. Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещания. Учебное пособие. М.: Горячая линия - Телеком, 2005

39. Прокос Дж. Цифровая связь -М. Радио и связь 2000

40. Рабинер J1.P., Шафер Р.В. Цифровая обработка речевых сигналов / Пер. с англ. М.В. Назарова, Ю.Н. Прохорова.- М.: Радио и Связь, 1981

41. Радиовещание и Электроакустика: Учебник для вузов / А.В. Выходец, М.В. Гитлиц, Ю.А. Ковалгин и др.; Под ред. М.В. Гитлица. М.: Радио и Связь, 1989.

42. Радиовещание и электроакустика: Учебное пособие для вузов/С.И.Алябьев, А.В.Выходец, Р.Гермер и др.;Под ред Ю.А.Ковалгина.- М.:Радио и связь, 1998,2000, 2002, 798 с.

43. Рихтер С.Г. Цифровое радиовещание. М.: Горячая линия-Телеком,2004.-352 с

44. Рихтер С., Ерохин С., Коротков В. Системы цифрового радиовещания: классификация и возможная перспектива совершенствования //Телевидение и радиовещание. Broadcasting, 2003, № 5 (33) часть 1, с.65-68 и № 6 (34) часть 2, с.68-71.

45. Розенберг Е.А., Синильников A.M., Шехтман Б.И. Построение аппаратуры адаптивного кодирования в спектральной области //Техника средств связи, сер. ТРПА, 1989, вып.1, с. 9-16.

46. Сергеев М.А. Теория и практика стереофонического радиовещания. -М.: ООО «Издательство 625», 2003.-120 с.

47. Синильников A.M. Цифровое радиовещание //Техника средств связи, сер. ТРПА, 1993, спец. вып., с.37-56.

48. Синильников A.M. Полосное кодирование звуковых сигналов с ортогональным преобразованием // Электросвязь, 1991, N8, с.35-37.

49. Скляр Б. Цифровая связь. Теоретические основы и практическое применение. Изд. 2-е, испр.: Пер. с англ.- М.: Издательский дом «Вильяме», 2003.- 1104 с

50. Смогунов В.В., Киселева Е.А., Филиппов Б.А. подготовка, оформление и защита диссертационных работ пенза 2006

51. Стереофоническое радиовещание./ М.М.Балан, С.А.Бедойа, А.В. Выходец и др.; Под ред. проф. А.В.Выходца и Б.В.Одинцова. К.: Техника, 1995,- 240 с

52. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации (Второе переработ. И доп. изд.) Пер.с нем. Под ред Б.Г. Белкина М., М.: Связь, 1971.

53. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи/Под ред.О.И.Шелухина. -М.:Радио и связь, 2000,- 456 с

54. Chang, Chia-Ming; Hsu, Han-Wen; Lee, Kan-Chun; Lee, Wen-Chieh; Liu, Chi-Min; Tang, Shou-Hung; Yang, Chung-Han; Yang, Yung-Cheng Compression Artifacts in Perceptual Audio Coding AES 121st (October 2006)

55. Bacon, Sid P., Fay, Richard R. Richard R. Arthur N (Editors) Compression: From Cochlea to Cochlear Implants (Springer Handbook of Auditory Research) Springer 2003

56. Baumgarte Frank, Charalampos Ferekidis, Hendrik Fuchs. "A Nonlinear Psychoacoustic Model Applied to the ISO MPEG Layer 3 Coder" University of Hanover, Germany.

57. Bosi M., Brandenburg K., Quackenbush S., Fielder L., Akagiri K., Fuchs H., Dietz M., Herre J., Davidson G., Oikawa: "MPEG-2 Advanced Audio Coding", 101st AES Convention, Los Angeles 1996 / J . Audio Eng. Sos., Vol. 45 , No. 10,1997 October

58. Brandenburg K., "OCF-A New Coding Algorithm for High Quality Sound Signals," in Prog. ICASSP-87, pp. 5.1.1-5.1.4,May 1987.

59. Brandenburg K. and Johnston J.D.,"Second Generation Perceptual Audio Coding: The Hybrid Coder," in Proc. 88th Conv. Aud. Eng. Soc., preprint #2937, Mar. 1990.

60. Brandenburg K., et al., "ASPEC: Adaptive Spectral Entropy Coding of High Quality

61. Music Signals," in Proc. 90th Conv. Aud. Eng. Soc. Preprint#3011, Feb. 1991.

62. Brandenburg K., "ASPEC Coding," AES 10th International Conference, pp. 81-90.

63. Brandenburg, K. (1999) "MP3 and AAC explained" AES 17th International Conference on High Quality Audio Coding

64. Brandenburg, K.(2000) Encoding considerations for MP3 and MPEG-2/MPEG-4 advanced audio coding Karlheinz J. Acoust Soc Am Volume 107, Issue 5, p. 2876

65. Brandenburg Karlheinz, Bosi Marina, Overview of MPEG Audio: Current and Future Standards for Low-Bit Rate Audio Coding. J. Audio Eng. Sos., Vol.45,No. 1/2,1997 January/February

66. Buchholz, J M.(2004) "Towards an analytical derivation of a computational auditory masking model" J.Acoust.Soc.Am 115(5), 2500

67. Ferreira A.J. de S. Spectral Coding and PostProcessing of High Quality Audio 1998

68. Gunawan T.S., Ambikairajah E., and Sen D. Speech and Audio Coding Using Temporal Masking in Signal Processing for Telecommunications and Multimedia, Springer 2005

69. Gunawan T.S Ambikairajah A New Forward Masking Modeland Its Application To Speech Enhancement ICASSP 2006

70. Gunawan T.S. Audio Compression and Speech Enhancement using Temporal Masking Models 2007

71. Digital Audio Compression Standard (AC-3). Doc.A/52,1995-12-20

72. Dehery Y.F., et al., "A MUSICAM Source Codec for Digital Audio Broadcasting and Storage,"in Proc. ICASSP-91, pp.3605-3608, May 1991

73. Duifhuis H. J (1973) "Consequences of peripheral frequency selectivity for nonsimultaneous masking." Acoust Soc Am. Dec;54(6): 1471-88

74. Edwards,В (2002) "Signal Processing, Hearing Aid Design, and the Psychoacoustic Turing Test" IEEE ICASSP-2002, vol. 4, pp. 3996-3999

75. Elliot, L.L. (1962). "Backward and forward masking of probe-tones of different frequencies," J. Acoust. Soc. Am. 34,1116-1117

76. European Telecommunication Standard ETS 300 401. Radio broadcasting system; Digital Audio Broadcasting (DAB) to mobile, portable and fixed receivers, ETSI, May 1997

77. Fasti, H. (1976) "Temporal masking effects: I. Broad band noise masker." Acustica 35, 287-302

78. Fasti, H. (1977) "Temporal masking effects: II. Critical band noise masker." Acustica 36, 317-331

79. Fasti, H. (1979) "Temporal masking effects: III. Pure tone masker." Acustica 43,282-294

80. Fasti Subjective duration and temporal masking patterns of broadband noise impulses J. Acoust. Soc. Am. 61,162 (1977)

81. Fasti, H. Bechly J.M, (1981)"Post masking with two maskers: Effects of bandwidth" J.Acoust. Soc Am. 69,1753 (1981)

82. Ferreira A.J. de S., Spectral Coding and Post-Processing of High Quality Audio 1998

83. Fletcher H., "Auditory Patterns," Rev. Mod. Phys., pp.47-65, Jan. 1940

84. Hant, J.J., Strope, В., Alwan, A., (1997). A psychoacoustic model for predicting the noise-masking of plosive bursts. J. Acoust. Soc. Amer. 101,2789-2802

85. Hau, O., Ewert, S., Dau, T, (2005) "A unified view of the temporal-window and theadaptation-loop model in conditions of forward- and simultaneous masking" J.Acoust.Soc.Am.l 17(4), 2536

86. Harma., A. (1999) Temporal masking effects: single incidents, FAMbac Technical Report

87. Hawksford, M.O.J.,Hollier, M. P. (1993) "Characterizationof CommunicationsSystemsUsing a Speechlike Test Stimulus" J. Audio Eng. Soc., 41, No. 12

88. Herre J., Johnston J. D. "A Continuously Signal-Adaptive Filterbank for High-Quality Perceptual Audio Coding", IEEE ASSP Workshop on Applications of Signal Processing to Audio and Acoustics, Mohonk 1997

89. Herre J., Johnston J. D., "Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)", 101st AES convention, Los Angeles 1996, Preprint 4384

90. Herre J., Johnston J. D.: "Exploiting Both Time and Frequency Structure in a System that Uses an Analysis / Synthesis Filterbank with High Frequency Resolution", 103rd AES Convention, New York 1997, Preprint 4519

91. Herre J., "Temporal Noise Shaping, Quantization And Coding Methods in Perceptual Audio Coding: A Tutorial Introduction," The AES 17th International Conference: High-Quality Audio Coding, pp 17-31, Sept. 1999

92. Hoeg,Wolfgang; Lauterbach, Thomas (ed.) Digital AudioBroadcasting Wiley 2003

93. Houtgast, T.(1972) "Psychophysical Evidence for Lateral Inhibition in Hearing" J.Acoust.Soc.Am 51(6B)

94. Humes Larry E., Jesteadt Walt, Models of the additivity of masking., Acoustical Society of Amarica, 1989 (page 1285-1295)

95. International Standard ISO/IEC 11172-3. Information technology-Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s- Part 3: Audio, 1993-08-01

96. ITU-R Recommendation BS.562-3, Subjective assessment of sound quality, 1990

97. ITU-R Recommendation BS.l 116-1. Methods for the Subjective Assessment of small Impairments in Audio Systems including Multichannel Sound Systems, 1997

98. ITU-R Recommendation BS.l387. (1998). Method for Objective Measurements of Perceived Audio Quality

99. Jesteadt, W., Bacon, S. P., Lehman, J. R. (1982). "Forward masking as a function of frequency, masker level, and signal delay" J. Acoust. Soc. Am. 71, 950-962.

100. Jesteadt, W., Bacon, S. P (1987). Effects of pure-tone forward masker duration on psychophysical measures of frequency selectivity// J. Acoust. Soc. Am. 82,1925-1932.

101. Jesteadt, W., Schairer, K.S., Neff, D. L.(2005). Effect of variability in level on forward masking and on increment detection // J.Acoust.Soc.Am 118(1), 325-337

102. Jesteadt, W., Weber, D.L., Wilke, S.S, (1982) .Interaction of simultaneous and forward masking for maskers and signals differing in frequency // J. Acoust. Soc. Am. 72, S67

103. Walt Jesteadt, Kim S. Schairer, and Donna L. Neff Effect of variability in level on forward masking and on increment detection The Journal of the Acoustical Society of America — July 2005 Volume 118, Issue 1, pp. 325-337

104. Johnston J., Transform Coding of Audio Signals Using Perceptual Noise Criteria // IEEE J. Sel. Areas in Comm., pp. 314-323, Feb. 1988

105. Johnston, J.; Safranek, R., Jayant, N. Signal compression based on models of human perception Proceedings of the IEEE, Volume 81, Issue 10, Oct 1993 Page(s):1385 1422

106. Johnston J.D., et al„ "the AT & T Perceptual Audio Coder (РАС), Presented at the AES convention, New Yore, Oct., 1995

107. Johnston J. and Brandenburg K. Wideband Coding- Perceptual Considerations for Speech and Music," in Advances in Speech Signal Processing, S. Furui and M.M. Sondhi, Eds., New York: Dekker, 1992

108. Kabal P An Examination and Interpretation of ITU-R BS.l387:Perceptual Evaluation of Audio Quality 2003

109. Kapust, R. (1993). Qualitatsbeurteilung codierter Audiosignale mittels einer BARK-Transformation. Dissertation an der Technischen Fakultat der Universitat Erlangen-Niirnberg Erlangen

110. Kahrs, Mark Brandenburg, Karlheinz (Ed.) Applications of digital signal processing to audio and acoustics ed. Kluwer 2002

111. Kidd,G., Feth,L.L.(1982).Effects of masker duration in pure-tone forward masking // J.Acoust.Soc.Am.72,1384

112. Kostek, Bozena .Perception-Based DataProcessing in Acoustics" Springer 2005

113. Levine, Scott N. Ph. D. Dissertation: Audio Representation for Data Compression and Compressed Domain Processing

114. Lopez-Poveda, Enrique A. and Alves-Pinto, Ana. On the rate of decay of forward masking and its relation to cochlear compression // The Journal of the Acoustical Society of America -November 2005 Volume 118, Issue 5, p. 2768

115. Luffi. R.A. Additivity of simultaneous Masking // J. Acoustic. Soc. Am. 73, pp. 262-267, 1983

116. Meddis, R., O'Mard, L.P.(2005) "A computer model of the auditory-nerve response to forward-masking stimuli" J.Acoust.Soc.Am 117(6), 3787-3798

117. Moore, B.C. (1978). Psychophysical tuning curves measured in simultaneous and forward masking // J Acoust Soc Am. Feb;63(2):524-32

118. Moore, B.C.J., Glasberg, B. R. (1983). Growth of forward masking for sinusoidal and noise maskers as a function of signal delay: Implications for suppression in noise // J.Acoust.Soc.Am. 73,1249-1259

119. Moore, B.C.J., Glasberg,B.R., Plack,C.J., Biswas,A.K. (1988). The shape of the ear's temporal window // J. Acoust. Soc. Am. 83,1102-1116

120. Moore, B.C.J., Glasberg, B.R. (1983). Forward masking patterns for harmonic complex tones // J. Acoust. Soc. Am. 73,1682

121. Moore, B.C.J., Glasberg,B.R. (1983). Growth of forward masking for sinusoidal and noise maskers as a function of signal delay; implications for suppression in noise // J.Acoust.Soc.Am. 73,1249-1259

122. Najafzadeh-Azghandi, Hossein. Perceptual Coding of Narrowband Audio Signals. Ph.D. Thesis, April 2000

123. Najafzadeh, H.; Lahdili, H.; Thibault, L.; Lavoie, M. C. (2003).Use of Auditory Temporal Masking in the MPEG Psychoacoustic Model 2 // 114th AES Convention.

124. Nelson, D.A., Freyman, R.L. (1987). Temporal Resolution in Sensorineural Hearing-Impaired Listeners // J. Acoust. Soc.Am., 81, 709-720

125. Noll P. Wideband Speech and Audio Coding //IEEE Comm. Mag., pp.34-44, Nov. 1993

126. Noll P. Digital Audio Coding for Visual Communications // Proc. IEEE, pp.925-943, Jun. 1995

127. Novorita, B. Incorporation Of Temporal Masking Effects Into Bark Spectral Distortion1. Measure.

128. Oxenham, A.J., Moore,B.CJ.(1994).Modeling the additivity of nonsimultaneous masking. Hearing Res.80,105

129. Pai Wan-Chieh. Method for utilizing temporal masking in digital audio coding// The Journal of the Acoustical Society of America, November 2005, Volume 118, Issue 5, p. 2768

130. Painter Ted, Spanians Andreas: A Review of Algorithms for Preceptual Coding of Digital Audio Signals.

131. Painter Ted, Spanians Andreas Perceptual Coding of Digital Audio

132. Penner, M.J. (1980). The coding of intensity and the interaction of forward and backward masking // J. Acoust. Soc. Am. 67, 608-616

133. Plack,C.J., Moore, B.C.J. (1990). Temporal window shape as a function of frequency and level // J. Acoust. Soc. Am. 87, 2178-2187

134. Plack, C. J., Oxenham, A. J.(1998). Basilar-membrane nonlinearity and the growth of forward masking // J Acoust Soc Am.; 103(3): 1598-608

135. Plack, C. J., Oxenham, A. J., Drga, V.(2002). Linear and nonlinear processes in temporal masking // Acustica 88, 348 -358

136. Plomp, R. (1964). The rate of decay of auditory sensation // J. Acoust. Soc. Am. 36, 277282

137. Penner, M.J. (1974).Effects of masker duration and masker level on forward and backward masking // J. Acoust. Soc. Am. 56, 179-182

138. Relkin,E.M., Turner,C.W. (1988). "A reexamination of forward masking in the auditory nerve" J. Acoust. Soc. Am. 84, 584-591.

139. Smyth M„ Smyth S. APT-X100: A low-delay, low bit-rate, subband ADPCM audio-coder for Bdroadcasting. Proceedings of the 10th International AES Conference, 1991,- pp. 4156.

140. Solbach L. Robsut Partical Tracking and Onset Localization in Signal Channel Audio Signal Mixer: http://www.tu-harburg.de/ti6/pub/diss/solbach/index.hml

141. Stein, H. J. (1960). Das Absinken der Mitho'rschwelle nach dem Abschalten von weiBem Rauschen//Acustica 10,116-119

142. Stoll G., et al. Generic Architecture of the ISO/MPEG Audio Layer I and II: Compatible Developments to Improve the Quality and Addition of New Features// in Proc. 95th Conv. Aud. Eng. Soc., preprint #3697, Oct. 1993

143. Schairer, K. S., Messersmith, J.,Jesteadt, W. (2005). Psychometric-function slopes for forward-masked tones in listeners with cochlear hearing loss // J.Acoust.Soc.Am 117(4), 2599

144. Shelton, B. R. Booth, J. C. (1983). Forward masking tuning curves with randomized masker frequencies // J. Acoust. Soc. Am. 73, S44

145. Solbach, L (1998). An Architecture for Robust Partial Tracking and Onset Localization in Single Channel Audio Signal Mixes. Dissetation

146. Terhardt, E. (1979). Calculating virtual pitch. Hearing Research, 1, p.155-182.

147. Terhardt, E Akustische Kommunikation Springer 1998

148. Terry, M., Moore, B.C.J. (1977). 'Suppression" effects in forward masking // J Acoust Soc Am. 62(3),781-783

149. Theile G., Stoll G., Link M. Low bit-rate coding of high-quality audio signals. An introduction to the MASCAM system // EBU Review-Technical, 1988, No 230, August.-p.158-181

150. Craig С. Todd, Grant A. Davidson, Mark F. Davis, Louis D. Fielder, Brian D. Link, Steve Vernon AC-3: Flexible Perceptual Coding for Audio Transmission and Storage // 96th AES Convention26-March 1,1994,

151. Thilo Thiede Perceptual Audio Quality Assessment using a Non-Linear Filter Bank Berlin 1999

152. Veldhuis Raymond N.J., Bit Rates in Audio Source Coding // IEEE Journal on Selected Areas in Communications.Vol. 10, No.l January 1992 , p. 86 96

153. Weber, D.L., Green, D.M. (1978). Temporal factors and suppression effects in backward and forward masking // J Acoust Soc Am.;64(5), 1392-9

154. Widin, G. P., Viemeister, N.F.(1979). Intensive and temporal effects in pure-tone forward masking // J.Acoust.Soc.Am., 66,388-395

155. Widin,G.P.,Viemeister, N.F.(1980). Masker interaction in pure-tone forward masking // J.Acoust.Soc.Am.68,475

156. Widin, G.P., Viemeister, N.F, Bacon S.P,(1986) .Effects of forward and simultaneous masking on intensity discrimination // J.Acoust.Soc.Am 80,108-111

157. Wojtczak, M, Viemeister, N.F. (2004).Mechanisms of forward masking // J.Acoust.Soc.Am. 115(5), 2599

158. Yatagama Gamage D.P., Kowalgin Ju. A. Algorithms of Digital Audio Data Compression; Standards, Problems and Perspectives of Development. The Proceedings of the AES 21st International conference-1-3 June 2002, St. Petersburg, Russia, p. 203-212.

159. Zelinsky R., Noll P. Adaptive transform coding of speech signals //IEEE. Trans. Acoust., Speach, Signals Processing,Vol.ASSP-25, Aug. 1977, p.p. 299-309.

160. Zhang, X., Oxenham, A.J.(2005). Modeling the influence of the cochlear nonlinearity on estimates of psychophysical tuning // J. Acoust. Soc. Am. 117,.2598

161. Zwicker, E.(1965). Temporal Effects in Simultaneous Masking by White-Noise Bursts // J.Acoust.Soc.Am.37,653

162. Zwicker, E.(1965). Temporal Effects in Simultaneous Masking and Loudness// J. Acoust. Soc. Am. 38, 132

163. Zwicker, E., Fasti, H.(1972). Zur Abhangigkeit der Nachverdeckung von der Storimpulsdauer //Acustica 26,78-82

164. Zwicker E., Herla. S. Uber die Addition von Verdeckungseffekten //Acustica Vol. 34, pp. 89-97,1975

165. Zwicker, E.; Fasti, H.(1999). Psychoacoustics: Facts and Models" Second Ed., Springer Verlag

166. Zwicker, E.; Feldkeller, R. (1967) .Das Ohr als Nachrichtenempfanger. Stuttgart: Hirzel Verlag

167. Zwicker, E. (1984). Dependence of post-masking on masker duration and its relation to temporal effects in loudness // J. Acoust. Soc. Am. 75,219-223

168. Zwicker, E., and Terhardt, E. (1980). Analytical expressions for critical band rate and criticalbandwidth as a function of frequency // JASA 68, 1523-1525

169. Zwicker E. and Zwicker U. Audio Engineering and Psychoacoustics: Matching Signals to the Final Receiver, the Human Auditory System// J. Audio Eng. Soc. Pp.115-126,1. Mar. 1991