Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары

Ятагама Гамаге Даммика Придаршана

автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары

кандидата технических наук: Ятагама Гамаге Даммика Придаршана
город: Санкт-Петербург
год: 2005
специальность ВАК РФ: 05.12.04

Диссертация по радиотехнике и связи на тему «Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары»

Автореферат диссертации по теме "Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары"

На нравах рукописи

Ятагама Гамаге Даммика Придаршана

ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ КОМПРЕССИИ ЦИФРОВЫХ ДАННЫХ ПРИ КОДИРОВАНИИ СИГНАЛОВ СТЕРЕОПАРЫ

Специальность 0S.12.04 Радиотехника, в том числе системы и устройства телевидения

Автореферат диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2005

Работа выполнена в Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича.

Научный руководитель:

доктор технических наук, профессор Ковалгин Юрий Алексеевич

Официальные оппоненты: '

доктор технических наук, профессор Чесноков Михаил Николаевич кандидат технических наук Федоров Сергей Леонидович

Ведущая организация:

на заседании диссертационного совета Д 219.004.01 в Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича по адресу: 191186 Санкг-Пеггербург, наб. р. Мойки, 61.

С диссертацией можно ознакомиться в библиотеке университета.

Автореферат разослан «29» апреля 2005 г.

ФГУП «ЛОНЙИС», г. Санкт-Петербург.

Защита диссертации состоится

имг^, 200 Гг. в и/Ь

)ее

»часов

Ученый секретарь диссертационного со доктор технических наук, профессор

В.Ю. Волков

•fggf мчзмг

О о Ob ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Представление высококачественных звуковых сигналов в цифровой форме широко используется в телекоммуникационных системах радиовещания, телевидения, в системах записи и воспроизведения звука, при реставрации старых записей с целью повышения их качества, при создании новых необычных видов звучаний, в MULTIMEDIA - приложениях, в системах виртуальной реальности.

При первичном кодировании звуковых сигналов применяется равномерное квантование с разрешением 16...24 бит/отсчет и частоте дискретизации 44,1, 48,...,192 кГц. Полоса частот кодируемого сигнала составляет 20...20000 Гц, а его динамический диапазон не более 40 дБ. Наиболее высокое качество звучания обеспечивают звуковые формата 3/2, 5.1 и система воспроизведения типа "трапеция" (Рек.ГШ-R 775). При первичном кодировании стереофонических сигналов суммарная скорость цифрового потока оказывается достаточно большой, особенно при форматах 3/2 и 5.1. Вследствие ограниченной пропускной способности каналов связи, особое значение приобретают методы их обработки с целью компрессии цифровых аудиоданных после первичного линейного кодирования. Все эти методы компрессии основаны на учете характеристик, как самого сигнала, так и слуха, в частности, таких его феноменов как маскировка, предмаскировка, и постмаскировка. С этой точки зрения наиболее эффективными являются методы кодирования группы MPEG (стандарта ISO/IEC 11172-3, 13818-3, 13818-7,14496-3), ATRAC, ASPEC, apHXlOO и Dolby АС-3 (А/52).

Компрессия цифровых аудиоданных при малой скорости цифрового потока неизбежно сопровождается искажениями, например, при использовании метода MUSICAM (ISO/IEC 11172-3 Laya- 2) стереопанорама, становится более плоской, исчезают звуковые планы, кажущиеся источники звука смещаются относительно их истинного положения, теряются индивидуальные признаки звучания, свойственные одиночным инструментам в группе, нарушается реверберационный фон каждого из них, возникает ощущение того, что отдельные инструменты записаны в помещениях с разными акустическими свойствами. Эти искажения заметны на слух уже при скорости передачи 128 кбит/с на канал (MPEG-1 ISO/IEC 11172-3 Layer 2) и 64 кбит/с (MPEG-1 ISO/IEC 11172-3 Layer 2).

Скорость цифрового потока на выходе кодера с компрессией цифровых аудиоданных обычно лежит в пределах 64...256 кбит/с на канал. С целью ее дальнейшего уменьшения в алгоритмах компрессии MPEG ISO/IEC 11172-3, ISO/ВЕС 13818-3 и 13818-7 ААС, а также и Dolby АС-3 (А/52) рекомендуется использовать дополнительно режим объединения сигналов стереопары («Joint Stereo»), Однако его применение на практике затруднено отсутствием критериев, при которых это объединен i^^fc&^fcbsapeonapij эффективно.

С.П«кИт л-.

Известно лишь, что при работе кодека в данном режиме могут появляться искажения в восстановленном сигнале, связанные не только с передачей пространственной информации.

Изложенное подтверждает, что изучение проблемы объединения сигналов стереопары с целью повышения эффективности алгоритмов их компрессии является актуальной научной задачей, востребованной в теории и на практике.

Проблемам компрессии цифровых аудиоданных с устранением избыточности посвящены работы ученых Scott N. Le vine, Е. F. Schroetter, W. Vœssing, J. Johnston, К. Brandenburg, E. Zwicker, M. Schroeder, N. Jayant, Ю. А. Ковалгина, AM Синильникова, A.C. Грудинина, В.А. Леонова, С. Г. Рихтера и других. Оценка качества звучания компрессированных сигналов рассмотрена в работах Gilbert A Soulodre, Theorder Grosec, Michel Lavoie, Louis Thibault, J. Johnston.

Цель и основные задачи работы. Целью работы является оценка эффективности процедуры объединения сигналов стереопары, а также исследование того, при каких условиях и каким образом процедура объединения сигналов стереопары должна выполняться; насколько при этом возрастает сложность алгоритма компрессии и как изменяется качество кодированного сигнала с уменьшением скорости его передачи.

Для достижения поставленной цепи необходимо:

1. Провести аналитический обзор существующих методов кодирования звуковых сигналов (ЗС) с компрессией цифровых данных; изучить международные стандарты и рекомендации, относящиеся к данной проблеме; детально по шагам исследовать алгоритмы и процедуры обработки ЗС, реализованные в системах кодирования с компрессией цифровых аудиоданных, включая и процедуры объединения сигналов стереопары; сформулировать требования, предъявляемые к отдельным блокам кодера;

2. Разработать алгоритм объединения сигналов стереопары, представить его в форме математической модели, в процессе исследований выбрать и уточнить критерии объединения сигналов стереопары в субполосах кодирования;

3. Разработать структурную схему исследовательской установки, позволяющей проводить исследования и оценку эффективности алгоритмов компрессии и качества кодированных ЗС, необходимые для достижения конечной цели, поставленной в данной работе;

4. Реализовать на базе программную модель исследовательской установки для проведения экспериментальных исследований, разработать удобный интерфейс, сформулировать и обосновать программу экспериментальных исследований;

5. В соответствии с разработанной программой с помощью данной установки исследовать реальные фрагменты ЗС, результаты вычислений записать в виде файлов, необходимых для дальнейших вычислений, создать тест-фонограммы для оценки качества кодированных сигналов путем проведения соответствующих субъективно-статистических экспертиз;

6. Массивы экспериментальных данных, полученные при проведении экспериментальных исследований, обработать с применением методов математической статистики и далее для удобства последующего анализа представить графически.

7. Оценить качество кодированных сигналов методом парных сравнений.

Методы проведения исследований. Для решения поставленных задач

использовались методы цифровой обработки звуковых сигналов, имитационного моделирования с применением средств С++, MathCAD, Visual Basic, математической статистики и субъективно-статистических экспертиз.

Научная новизна и новые полученные результаты диссертационной работы заключается в следующем:

1. Исследование алгоритмов компрессии цифровых данных показывает, что используемые здесь процедуры и лежащие в их основе психоакустические модели не в полной мере отражают процессы обработки стереофонических сигналов в слуховой системе человека, не учитывают механизмы временной маскировки и, что более важно, бинауральной демаскировки звуковых образов, играющие значительную роль при слуховом восприятии; все это снижает эффективность их применения;

2. Разработана психоакустическая модель, которая является ключевой частью в любой системе кодирования с компрессией цифровых аудиоданных. Она состоит из ряда модулей, имеет гибкую легко изменяемую структуру, включает в себя большинство существующих процедур психоакустического анализа. На ее основе может быть реализована любая базовая психоакустическая модель алгоритмов кодирования стандартов MPEG. Ряд процедур, реализуемых в этих моделях, уточнен автором с учетом результатов новейших исследований, дано полное математическое описание психоакустической модели, предложенной автором работы.

3. Разработана блочно-модульная структура и на ее основе программная модель экспериментальной установки, предназначенной для исследования алгоритмов компрессии цифровых аудиоданных. Она содержит все базовые блоки: банк фильтров, психоакустическую модель, блок квантования и кодирования, блок распределения бит, блок формирования цифрового потока. Программная модель исследовательской установки протестирована с использованием реальных стереофонических музыкальных сигналов.

4. Предложены и обоснованы критерии объединения субполосных сигналов стереопары при их кодировании; разработаны метод оценки

эффективности введения данной процедуры, а также интерфейс, необходимый для исследования алгоритмов компрессии цифровых аудиоданных и для создания тест-фонограмм, предназначенных для оценки качества эталонного и кодированного звуковых сигналов методом парных сравнений.

5. С помощью реализованной в работе исследовательской установки обработаны отрывки реальных ЗС разных жанров с длительностью звучания от 8 до 20,5 с. Каждый отрывок подвергнут исследованию в разных условиях объединения сигналов стереопары. Все результаты вычислений записаны в виде файлов в определенных директориях. На основе статистической обработки полученных массивов экспериментальных данных получено множество зависимостей, необходимых для последующего анализа.

6. Доказано, что объединение субполосных сигналов стереопары при их кодировании позволяет дополнительно снизить скорость цифрового потока на 5-10 % по сравнению со значением, начиная с которого искажения, вызванные компрессией цифровых данных, становятся заметными на слух; в среднем это составляет около 10... 15 кбит/с на канал.

7. Определены границы частот, начиная с которых можно начинать объедание сигналов стереопары.

Практическая значимость работы заключается в следующем:

1. Разработаны критерии, методы и программа исследований, позволяющие всесторонне оценить эффективность объединения субполосных сигналов стереопары при их кодировании, а также определить величину дополнительного снижения скорости цифрового потока за счет ее введения;

2. Разработаны программная модель и интерфейс исследовательской установки, форматы представления массивов входных и выходных данных, входящих в ее состав блоков. Это позволяет проводить всесторонние исследования алгоритмов компрессии цифровых аудиоданных на реальных звуковых сигналах, обрабатывать получаемые с ее помощью данные, используя для этой цели стандартные пакеты программ прикладной статистики. Исследовательскую установку можно использовать также и в учебном процессе. Ее использование позволяет не только выполнять широкий круг исследований алгоритмов компрессии цифровых данных, но найти компромиссное решение между эффективностью и качеством объединяемых сигналов стереопары. В результате чего, можно грамотно выбрать частотные границы объединения сигналов стереопары.

3. Найдено требуемое для прозрачного кодирования количество бит в разных субполосах и установлено, что для звуковых сигналов всех жанров существуют четкие границы требуемого количества бит, приходящееся на один коэффициент МДКП. При этом в области частот 0...700Гц это значение лежит в пределах от 8 до 10 бит, в области от 700...3500 Гц оно составляет уже от 2.. .4 бита, а в области частот выше 3500 Гц оно не превышает 1 ...2 бит.

4. Правильность предложенных в работе критериев объединения сигналов стереопары подаверждена субъективно-статистическими экспертизами, эффективность введения этой процедуры оценена на реальных звуковых сигналах, сформулированы условия ее применения.

Внедрение результатов исследований. Результаты исследований использованы в ЛОНИИС при разработке и исследовании кодеков с компрессией цифровых аудиоданных, а также в учебном процессе СПбГУТ при подготовке инженеров по специальностям 201100- Радиосвязь, радиовещание и телевидение и 2014400- Аудиовизуальная техника, что подтверждено соответствующими актами внедрения.

Положениями, выносимыми на защиту, являются.

1. Разработанные в рамках данной работы блочно-модульная структура исследовательской установки, реализованная на ее основе программная модель и интерфейс достаточны дли детального исследования алгоритмов компрессии цифровых аудиоданных. Предусмотренные в ней возможности для хранения, последующего анализа и обработки теоретических и экспериментальных данных позволяют на ее основе проводить множество исследований, в том числе и всестороннюю оценку эффективности процедуры объединения субполосных сигналов стереопары.

2. Оценка коэффициента корреляции субполосных сигналов, учет механизмов пространственного слуха человека и распределения энергии звуковых сигналов по частоте - это основа для разработки критериев объединения субполосных сигналов стереопары при их кодировании.

3. Оценка эффективности процедуры объединения сигналов стереопары подтверждает, что когда ресурсы других методов снижения скорости цифрового потока уже исчерпаны, режим объединения позволяет дополнительно снизить скорость цифрового потока в среднем на 5-7% от установленного исходного значения. Это выполняется при условиях, когда объединяются субполосные составляющие сигналов стереопары ниже 215 Гц и выше 10465 Гц для длинных блоков и выше 11025 Гц для коротких блоков, а также и те субполосы, где коэффициент взаимной корреляции превышает пороговое значение.

4. Требуемое для кодирования количество бит, приходящееся на один коэффициент МДКП, в среднем составляет от 8 до 10 бит до частоты 0,7 кГц, от 2 до 4 бит в частотном диапазоне от 0,7 до 3,5 кГц, от 1 до 2 бит на частотах выше 3,7 кГц.

Личный вклад соискателя. Соискателем разработана структурная схема исследовательской установки, которая реализована в виде программной модели, разработан интерфейс для управления ее работой и получены новые научные результаты, изложенные в работе автором самостоятельно.

Апробация результатов работы и публикации. Результаты, полученные в ходе исследований, докладывались и обсуждались на научно-

технических конференциях (НТК) профессорско-преподавательского состава СПбГУТ им. проф. Бонч-Бруевича в Санкт-Петербурге, на МНТК в Одессе (Украина, 2001) а также они были представлены в виде стендового доклада на 21-ой межрегиональной конференции международного общества аудиоинженеров (AES, г. Санкт-Петербург, 2002).

По тематике диссертационной работы опубликовано 8 печатных работ, включая 6 публикаций в виде тезисов докладов и 2 статьи в сборниках трудов международных научно-технических конференций.

Структура и объял работы. Работа состоит из введения, четырех глав, заключения, списка принятых сокращений, списка принятых обозначений, списка литературы и трех приложений. Работа содержат 260 листов, в том числе 226 листов основного текста, 58 рисунков, 23 таблиц, 128 формул. В списке литературы 102 наименований. Приложения 1 и 2 размещены на 34 страницах, а приложение 3 - на компакт-диске, прилагаемом к работе.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

В введении обоснована актуальность темы и сформулирована цель диссертационной работы, перечислены основные полученные в ней научные результаты, оценена ее практическая ценность работы и представлены основные положения, выносимые на защиту.

Глава 1 является вводной. В ней кратко рассмотрены общие сведения и классификация методов кодирования звуковых сигналов, как традиционные так и новейшие методы кодирования ЗС; изложены сведения о существующих стандартах семейства MPEG (MPEG-1 ISO/TEC 11172-3, MPEG-2 ISO/IEС 13818-3, MPEG-2 ISO/IEC 13818-7 AAC, MPEG-4 ISO/IEC FCD 14496-3) и ATSC Dolby AC-3 (A/52); рассмотрены психоакустические модели алгоритмов кодирования с компрессией цифровых аудиоданных; представлена оценка качества кодеков с компрессией цифровых данных, сформулированы основные проблемы, возникающие при их разработке, а также цель и задачи данного исследования.

Глава 2 посвящена разработке структурной схемы и алгоритма работы экспериментальной установки. Здесь сформулированы требования к экспериментальной установке и разработана ее структурная схема (рис.1), включающая в себя также и общие блоки систем кодирования с компрессией цифровых аудиоданных. Входной сигнал в формате WAV с частотой дискретизации f,=44,l кГц и разрешением 16 бит/отсчет поступает одновременно на банк фильтров н психоакустическую модель. С помощью интерфейса устанавливаются исходные параметры (скорость потока, длительность, число объединяемых субполос и т.д.) для обработки сигнала. После деквантования и декодирования коэффициентов МДКП, формируются WAV - файлы. Блок объединения сигналов стереопары предназначен для

Входной

ИКМ

сигнал

5,=44,1*Га 16 бвАясст

Установка скорости цифрового штока

576 или (3x192) коэффициентов МДКТТ

Итерационное распределение бит

Формаядовавяе дафровых потоков и помехоустойчивое

Гибридный ^ банк фильтров,! 32 субполосы

Образование блоков в неравномерное

квантование коэффициентов МДКП

(энтропийное

кодирование) ..........*........

Кодирование : дополнительной

Формирователь тест фонограмм

Блок

психоакустического анализа

аудиосигнал, т=32...25б кбит/с

Блок объединения сигналов сгерсопары

Рис.1,Обобщенйая структурная схема экспериментальной установки

объединения коэффициентов МДКП субполосных сигналов стереопары по заданному критерию.

Рассмотрены временная и частотная сегментации ЗС, особенности выбора длины анализирующего окна, аналитические методы расчета психоахустической энтропии и глобального порога маскировки, эти вычисления являются ключевыми в любой системе кодирования с компрессией цифровых аудиоданных.

Для оценки значений психоакустической энтропии в полосах анализа выбраны два основных выражения:

Р*ь

-МЫ

(1)

где ре -психоакустическая энтропия; Ъ - номер (индекс) субполосы психоакустического анализа; кь=м/Ыфь-^1опл>ь -ширина 6-ой субполосы психоакустического анализа; IНгь - значение энергии шума, соответствующее его порогу маскировки для полосы анализа Ь; е* - суммарная энергия коэффициентов ортогонального преобразования в ¿-ой полосе психоакустического анализа и

nmfr

*0W

V6

+1

+11,бит/отчет (2)

где ¿-номер полосы анализа; wIowb и whighb - соответственно нижняя и верхняя границы Ь~ой полосы анализа (индексы соответствующих коэффициентов ортогонального преобразования); кь - количество коэффициентов преобразования (частотных коэффициентов) в А - ой полосе анализа; tЬгь -энергия шума на пороге его маскировки для Ь-ой полосы психоакустического анализа; nint - операция округления до ближайшего целого; Re(YJ и Im(Yw) -вещественные и мнимые коэффициенты преобразования Фурье.

Значительное внимание уделено детальному описанию процедур психоакустического анализа, при этом рассмотрены как классические варианты, реализованные в стандартах MPEG и Dolby АС-3, так и вариант доработанной психоакустической модели, предложенный автором. Основным отличием предложенной модели является блочно-модульного принцип ее построения. Здесь каждый блок является самостоятельным, имеет свой набор входных и выходных параметров, с их помощью можно создать ту или иную ее реализацию. В модели предусмотрены также различные способы оценки глобального порота маскировки, значений психоакустической энтропии (по методу MPEG Layer 3 и по J. Johnston).

В гл. 2 особое внимание уделено и проблеме объединения сигналов стереопары при их кодировании: изложены психоакустические основы процедуры объединения сигналов стереопары, а также алгоритмы объединения сигналов стереопары, реализованные в стандартах семейства MPEG и А/52. В

системе кодирования MPEG Layer 3 четкого критерия для перехода в режим объединения нет.

В диссертационной работе в качестве критерия перехода в режим объединения субполосных составляющих сигналов стереопары при их кодировании предлагается использовать значение коэффициента корреляции сигналов левого и правого канала в полосах анализа Ъ в случае, когда оно превышает заданное пороговое значение. При этом значения коэффициентов корреляции в полосах психоакустического анализа Ь, вычисляются по формуле:

Mghb

Ёои-гмХги-гм)

~ i-ikrwb _

HL'R)" _ м&ы _ . (3)

J Е 0Ti,L-n,L)2 I (Хин-Yb,R)2

где У/х и Yijr -i-тые значения коэффициентов БПФ соответственно левого и правого сигналов стереопары в полосе психоакустического анализа Ь; ilowbji и ihighbx - соответственно нижний и верхний индексы коэффициентов БПФ в субполосе психоакустического анализа Ь для левого сигнала; ihighbj, в ilowbjt- -тоже самое, но для сигнала правого канала стереопары; Ybj, и fbjt -выборочные средние значения сигналов стереопары в психоакустического анализа Ь, вычисляемые по формулам

_ t 'Wgfi bfL _ thigh brR

Yb,L= , Y b,R =~—• I YiJ{, (4)

где kux. Kjr соответственно число коэффициентов БПФ, входящих в данную субполосу психоакустического анализа Ь для сигналов "левого и правого каналов.

Этот критерий не является единственным. При принятии решения об объединении субполосных составляющих сигналов стереопары должно также учитываться и распределение энергии ЗС по частоте и, несомненно, работа механизма локализации слухового анализатора человека.

Основные выводы по главе 2 заключаются в следующем:

1. На основе всестороннего анализа результатов опубликованных работ, алгоритмов компрессии цифровых аудиоданных стандартов MPEG и ATSC разработаны структурная схема и алгоритм обработки сигналов в экспериментальной установке, предназначенной для всестороннего анализа и оценки эффективности алгоритмов кодирования ЗС с компрессией цифровых данных;

2. Однскй из важнейших проблем является наилучший выбор временной и частотной сегментации кодируемого сигнала или проблема выбора длины и формы оконных функций в гибридном банке фильтров. Для их рационального выбора необходимы соответствующие экспериментальные исследования, при

этом длина окна при временной сегментации сигнала должна зависеть от частота, уменьшаться с ее повышением, например, так как это предложено в диссертационной работе Скотта Левина, США;

3. При расчете глобального порога маскировки в стандарте MPEG-1 ISO/IEC 11172-3 используется метод независимого суммирования индивидуальных кривых маскировки, который дает общий (глобальный) порог маскировки существенно ниже, чем данные экспериментальных исследований. Поэтому, необходимо рассмотреть возможность использования при этой оценке метода нелинейного суммирования кривых маскировки и оценить его эффективность;

4. В стандартах группы MPEG в режиме объединения «Joint-Stereo» при декодировании для каждой полосы кодирования п восстанавливаются не значения энергии каждого из исходных субполосных сигналов, а только их соотношения. Это существенный недостаток, т.к. в этом случае могут возникнуть тембральные искажения для сигналов отдельных источников стереопанорамы. Причиной последних является возможные изменения энергий сигналов в ряде субполос кодирования, по сравнению с исходными их значениями, в каждом из восстановленных сигналов стереопары;

5. При объединении сигналов стереопары, значение частоты, начиная с которой можно эту процедуру вводить, и границы частотных полос не заданы. Здесь нужны дополнительные экспериментальные исследования. Необходимо также уточнить и обосновать сами критерии, которые можно использовать при реализации данной процедуры. При этом должны быть учтены особенности распределения энергии ЗС по частоте и работа механизма локализации пространственного слуха человека.

Глава 3 посвящена разработке программной модели и интерфейса исследовательской установки. Созданная автором работы программная модель установки позволяет обработать любой отрывок реального ЗС (с частотой дискретизации 44,1 кГц и разрешением 16 бит/отсчет) в соответствии с алгоритмом MPEG-1 ISO/IEC 11172-3 или MPEG-2 ISO/IEC 13818-3 Layer 3, а также и в соответствии с алгоритмом объединения сигналов стереопары, предложенным в данной работе. Основные программные модули написаны на языке С++, а интерфейс - на языке VISUL BASIC. На этапе отладки программной модели все блоки были протестированы, как самбстоятельно, так и при совместной их работе с другими блоками. Во время каждой обработки ЗС программная модель позволяет сделать все необходимые для последующего анализа экспериментальных данных расчеты. Их перечень представлен в табл. 1.

Таблица 1

Перечень основных расчетов, сделанных с помощью программной модели _экспериментальной установки_

№ Название

1 Требуемое психоакустической моделью количество бит в полосах анализа Ь, рассчитанное на основе значений психоакустической энтропии по MPEG Layer 3

2 Требуемое психоакустической моделью количество бит для текущего фрейма, рассчитанное на основе значений психоакустической энтропии по MPEG Layer 3

3 Требуемое психоакустической моделью в полосах анализа Ъ количество бит, приходящееся на один коэффициент МДКП, рассчитанное на основе значений психоакустической энтропии по MPEG Layer 3

4 Требуемое психоакустической моделью в полосах анализа Ь количество бит, приходящееся на один коэффициент МДКП, рассчитанное на основе значений отношения сигнал-шум SNRj,

5 Требуемое психоакустической моделью в полосах кодирования п количество бит, рассчитанное на основе значений психоакустической энтропии по MPEG Layer 3

6 Фактически потраченное количество бит для каждого аудиофрейма до объединения сигналов стереопары

7 Значения коэффициентов корреляции в полосах психоакустического анализа b

8 Значения психоакустической энтропии в полосах анализа Ъ по MPEG Layer 3

9 Значения психоакустической энтропии в текущем аудиофрейме

10 Значения психоакустической энтропии в полосах кодирования по MPEG Layer 3

11 Значения отношений сигнал-шум SNRb в полосах психоакустического анализа Ь

12 Фактически потраченное количество бит для каждого аудиофрейма после объединения каналов стереопары

Обобщенная структурная схема психоакустической модели экспериментальной установки представлена на рис. 2. Она получена с учетом соображений, изложенных в гл. 2.

Особенно подробно описаны все блоки, входящие в состав психоакустической модели экспериментальной установки.

Блок А (2.14,2.17) Расчет БПФ и Си

Блок В (2.38) Расчет thrb для длинных блоков

£

Блок С (2.46) Расчет Йщ, для коротких блоков

Блок F (2.9) Расчет реь

Проверка неравенства

» Нет*

Буфер выходных данных блока В

м

Буфер выходных данных блока С

Блок D (2.47,2.50) Расчет а, и КМ;

1

Блок К(2.42,2.43) Расчет вп и 1Ьгп в полосах кодированияп (как в модели2М)

Блок Ц2.39.2.40) Расчет еп и dir,, в полосах кодирования п (как в модели 2)

-3-

1 г

Бл«сС( Расчета 2.35,2.37) bi,thr. i

i

Блок М(2.42,2.43) Расчет вп, Йщ, в полосах кодированияп (как в модели 1 при

-Ш

L

Блок N(2.45) Расчет SNR„

X

Выходной буфер п, SNSo

Блок Е (2.56,2.19) Формирование Fj и расчету

БлокН (2.57,2.58, 2.60,2,61) Расчет индивидуальных кривых маскировки и порога , МЯГ.КЯТЮП1ГИ

1

Блок 1(2.63) Сушяропшк

кривых шсквровжв

Блок J

(2.39,2.64,2.65) Расчет во, tinv, dir,, в полосах кодирования п

-Ы

Рис. 2. Обобщенная структурная схема алгоритма психоакустической модели Примечание: На рис. 2 приведены номера формул, по которым производятся расчеты в каждом из блоков.

Основные выводы по гл. 3 заключаются в следующем:

1. Разработана программная модель экспериментальной установки. Она имеет блочно-модульную структуру, включает ряд самостоятельных блоков, каждый из которых создает и использует свой набор входных и выходных

массивов данных. Все вычисления, выполняемые в блоках программной модели экспериментальной установки, подробно описаны в диссертации;

2. Для каждого блока модели (модуля) экспериментальной установки написана программа на языке С++. Эти программы затем были компилированы и созданы исполняемые файлы. Разработанные программы были протестированы на реальных музыкальных сигналах, кроме того, с ее помощью были созданы также и тест-фонограммы, необходимые для проведения субъективно-статистических экспертиз по оценке качества кодированных сигналов;

3. Разработан интерфейс экспериментальной установки, он реализован на языке Visual Basic и позволяет установить исходные параметры обрабатываемых сигналов, выполнять управление программной моделью, и осуществлять контроль над процессом обработки фонограмм в режиме реального времени.

Глава 4 посвящена анализу и обработке результатов исследований. Дополнительно к этому, рассмотрены и уточнены следующее вопросы, возникающие при проведении таких исследований, а именно: психоакустическая энтропия сигнала и требуемое для его кодирования количество бит, объем битового резервуара в системах кодирования MPEG Layer 3 и предельные значения психоакустической энтропии в зависимости от полосы частот звукового сигнала и частоты его дискретизации.

Кроме того, рассмотрены условия проведения эксперимента и обработка результатов, получены предварительные результаты субъективной оценки качества звучания объединенного сигнала стереопары; итоговые результаты расчетов представлены в виде графиков.

Основные выводы по главе 4 заключаются в следующем:

1. Требуемое психоакустической моделью для «прозрачного» кодирования гранулы число бит не зависит от скорости цифрового потока, ибо значение психоакустической энтропии для каждого из отрывков определяется только свойствами звукового сигнала. Следовательно, при низких скоростях передачи (64 кбит/с на канал и ниже), когда число бит для кодирования явно недостаточно, неизбежно возникают искажения восстановленного сигнала и качество сигнала, подвергнутого кодированию, при его восприятии ухудшается

2. Требуемое количество бит для каждой субполосы анализа Ь рассчитано из условия, когда при кодировании используется набор равномерных квантователей с разным значением числа ступеней квантования. После этого путем простого суммирования было вычислено требуемое психоакустической моделью количество бит для кодирования информации одной гранулы. В программной модели экспериментальной установки используется неравномерное квантование коэффициентов МДКП и энтропийное их кодирование с использованием таблиц Хаффмана, что дает дополнительное снижение затрачиваемых бит на кодирование одной гранулы. Зная эти

значения, мы можем оценить эффективность применения

энтропийного кодирования по сравнению с равномерным квантованием.

3. Снижение скорости цифрового потока при объединении субполосных составляющих сигналов стереопары зависит от степени корреляции левого и правого сигналов стереопары в субполосах кодирования, от выбранных значений верхних и нижних границ объединяемых субполос и конечно, от структуры самого звукового сигнала (жанра).

4. При объединении сигналов стереопары на частотах ниже 215 Гц и выше 10465 Гц для длинных блоков и выше 11025 Гц для коротких блоков, среднее значение снижения скорости цифрового потока составляет 2,8% без учета корреляции субполосных составляющих сигналов стереопары, а с учетом корреляции -12,8 %, при установленной скорости цифрового потока 128 кбит/с на канал. При скорости цифрового потока 96 кбит/с на канал, эти значения соответственно равняются 0,4% и 7,2 %. Следовательно, при данном значении скорости цифрового потока доступное для кодирования число бит уже лежит ниже требуемого значения.

5. При установленной скорости цифрового потока 64 кбит/с на канал применение режима объединении сигналов стереопары для большинства стереофонических музыкальных сигналов является не эффективным и приводит лишь к искажению сигнала. Это объясняется, прежде всего, тем, что в этом случае доступное для кодирования количество бит уже существенно ниже требуемого психоакустической моделью даже при условии объединения ряда субполосных составляющих.

6 Субъективная оценка качества звукового сигнала при разных режимах его кодирования подтверждает, что: с

-при установленных скоростях цифрового потока равных 128 и 96 кбиг/с объединение сигналов стереопары на частотах ниже 215 Гц и выше 6847 Гц для длинных блоков и выше 6890 Гц для коротких блоков не приводит к заметным на слух искажениям, но дает вполне определенный выигрыш в скорости цифрового потока;

-дальнейшее увеличение числа объединяемых субполос кодирования в данном случае дает снижение скорости цифрового потока, но качество восприятия кодированного звукового сигнала при этом ухудшается;

-при скорости цифрового потока равной 64 кбит/с применение процедуры объединения не достаточно для улучшения качества кодированного сигнала

ЗАКЛЮЧЕНИЕ

Основные результаты диссертационной работы заключаются в следующем:

1. Проведен обзор публикаций по существующим методам кодирования с устранением статистической и психоакустической избыточности звукового сигнала. На основании проведенного обзорного анализа всех существующих

современных методов кодирования сформирована тема и объекта исследования настоящей диссертационной работы.

2. Разработана блочно-модульиая структурная схема исследовательской установки, на ее основе реализованы программная модель и интерфейс на базе ПЭВМ, позволяющие проводить детальные исследования алгоритмов компрессии цифровых аудиоданных на реальных звуковых сигналах, включая и оценку эффективности процедуры объединения субполосных составляющих сигналов стереопары при их кодировании и субъективно-статистические экспертизы при оценке качества кодированных сигналов.

3. Предложен критерий объединения сигналов стереопары при их кодировании, в основе которого лежит оценка величины коэффициента корреляции субполосных составляющих, а также учет механизмов пространственного слуха человека и распределения энергии звукового сигнала по частоте.

4. С помощью исследовательской установки проведена обработку отрывков ЗС разных основных жанров (симфонический оркестр, одиночный духовой инструмент, эстрадная музыка, квартет, дикторская речь) с длительностью звучания 8,8...20,5 с при трех значениях скорости цифрового потока равных 128, 96, 64 кбит/с на канал. Анализ полученных в результате этого исследования экспериментальных данных позволяет сделать следующие выводы:

а) требуемое психоакустической моделью для прозрачного кодирования гранулы число бит не зависит от скорости цифрового потока, ибо значение психоакустической энтропии для каждого из отрывков зависит только от структуры самого звукового сигнала. При низких скоростях передачи (64 кбит/с на канал и ниже), когда число бит для кодирования явно недостаточно, неизбежно возникают искажения восстановленного сигнала и качество сигнала подвергнутого кодированию при его восприятии ухудшается;

б) снижение скорости цифрового потока при объединении субполосных составляющих сигналов стереопары сильно зависит от степени корреляции левого и правого сигналов стереопары в субполосах кодирования, от выбранных значений верхних и нижних границ объединяемых субполос и конечно, от структуры самого звукового сигнала (жанра);

в) при объединении сигналов стереопары на частотах ниже 215 Гц и выше 10465 Гц для длинных блоков и выше 11025 Гц для коротких блоков среднее значение снижения скорости цифрового потока составляет 2,8% без учета корреляции, а с ее учетом - 12,8 % при установленной скорости цифрового потока 128 кбит/с на канал. При скорости цифрового потока равной 96 кбит/с на канал, эти значения соответственно равняются 0,4% и 7,2 %. Следовательно, при данном значении скорости цифрового потока доступное для кодирования число бит уже лежит ниже или вблизи требуемого значения;

г) при установленной скорости цифрового потока равной 64 кбит/с на канал применения режима объединении сигналов стереопары для большинства стереофонических музыкальных сигналов является не эффективным и приводит лишь к искажению сигнала. Это объясняется, прежде всего, тем, что при данной скорости доступное для кодирования количество бит уже существенно ниже требуемого психоакустической моделью даже при условии объединения ряда субполосных составляющих;

д) требуемое для кодирования количество бит, приходящееся на один коэффициент МДКП, для реальных звуковых сигналов разных жанров в среднем составляет от 8 до 10 бит до частоты 0,7 кГц, от 2 до 4 бит в частотном диапазоне от 0,7 до 3,5 кГц, от 1 до 2 бит на частотах выше 3,7 кГц;

е) результаты субъективной оценки качества звукового сигнала при разных режимах его кодирования подтверждают, что:

-при установленных скоростях цифрового потока равных 128 и 96 кбит/с объединение сигналов стереопары на частотах ниже 215 Гц и выше 6847 Гц для длинных блоков и выше 6890 Гц для коротких блоков не приводах к заметным на слух искажениям, но дает вполне определенный выигрыш в скорости цифрового потока;

-дальнейшее увеличение числа объединяемых субполос кодирования в данном случае дает снижение скорости цифрового потока, но качество восприятия кодированного звукового сигнала при этом ухудшается;

-при скорости цифрового потока равной 64 кбит/с применение процедуры объединения не достаточно для улучшения качества кодированного сигнала.

5. Программная модель исследовательской установки разработана в блочно-модульном виде, где каждый блок имеет свой набор входных и выходных массивов данных. Это удобно для проведения детальных исследований алгоритмов компрессии цифровых аудиоданных, а также и для ее развития путем дополнения новыми модулями. Кроме того, такое блочно-модульное ее построение удобно и полезно для учебного процесса при изучении студентами специальностей 201100 -Радиосвязь, радиовещание и телевидение и 201400 - Аудиовизуальная техника, а также и аспирантами современных алгоритмов компрессии цифровых звуковых сигналов.

СПИСОК ПУБЛИКАЦИЙ СОИСКАТЕЛЯ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Ятагама Г.Д.П. Проблемы кодирования сигналов стереопары при их

объединении. (Тезисы) 55 -я НТК: тез. доклУСПб ГУТ. СПб, 2003.

2. Yatagama Gamage D.P., Kowalgin Ju. A. Algorithme of Digital Audio Data

Compression; Standards, Problème and Perspectives of Development. The

Proceedings of the AES 21й International conférence -1-3 June 2002, St.

Petersburg, Russia. - P. 203-212.

3. Ятагама Г. Д.П. Субъективная оценка качества кодеков с компрессией цифровых аудиоданных. (Тезисы) 54 -я НТК: тез. докл. / СПб ГУТ. СПб, 2002.

4. Ятагама Г.ДЛ, Ковалгин Ю.А. Психоакустические модели кодеков звуковых сигналов с компрессией аудиоданных. 3-я НТК Техника и Технология Связи: тез. докл. / 2001, Одесса, Украина.

5. Ятагама Г.ДЛ. Методы исследования алгоритмов кодирования звуковых сигналов с компрессией цифровых данных. (Тезисы) 55 -я НТК: тез. докл. / СПб ГУТ. СПб, 2001.

6. Ятагама Г.ДЛ. Экспериментальная установка для исследования алгоритмов компрессии цифровых аудио данных. (Тезисы) Юбилейная научная конференция связисты СПбГУТ и телекоммуникации XXI века: тез. доклУСПб ГУТ. СПб, 2000.

7. Ятагама Г.ДЛ. Проблемы объединения стереофонических сигналов при цифровой передаче. (Тезисы) 53-я НТК: тез. докл. / СПб ГУТ. СПб, 2000.

8. Ятагама Г.ДЛ Психоакустические модели систем кодирования с компрессией аудио данных. (Тезисы) 52-я НТК: тез. докл. / СПб ГУТ. СПб, 1999.

Объем 1 печл. Тираж 80 экз. Зак. 31 РИО СПБГУТ. 191186 СПб, наб. р. Мойки, 61

'-9515

РНБ Русский фонд

2006-4 6656

Оглавление автор диссертации — кандидата технических наук Ятагама Гамаге Даммика Придаршана

Список сокращений.

Список условных обозначений.

Введение.

1. СОВРЕМЕННОЕ СОСТОЯНИЕ И ПЕРСПЕКТИВЫ РАЗВИТИЯ МЕТОДОВ КОДИРОВАНИЯ ЗВУКОВЫХ СИГНАЛОВ РАДИОВЕЩАНИЯ И ТЕЛЕВИДЕНИЯ.

1.1. Общие сведения и классификация методов кодирования звуковых сигналов.

1.2.Стандарты кодирования семейства MPEG.

1.2.1. Общие сведения о стандартах семейства MPEG.

1.2.2. Алгоритм кодирования аудиосигналов стандарта MPEG-1 ISO/IEC 11172-3.

1.2.3. Алгоритмы кодирования аудиосигналов стандарта MPEG-2 ISO/IEC 13818-3.

1.2.4. Алгоритм кодирования MPEG-2 ISO/IEC 13818-7 ААС.

1.2.5. Алгоритм кодирования MPEG-4 ISO/IEC FCD 14496-3.

1.3. Кодирования звуковых сигналов в системе Dolby АС-3.

1.4. Энтропийное кодирование.

1.5. Особенности психоакустических моделей алгоритмов кодирования с компрессией цифровых аудиоданных.

1.5.1. Психоакустическая модель 1 стандарта MPEG ISO/IEC 11172-3.

1.5.2. Психоакустическая модель 2 стандарта ISO/IEC 11172-3.

1.5.3. Особенности психоакустической модели системы кодирования Dolby АС-3.

1.6. Качество кодеков с компрессией цифровых аудиоданных

1.7. Проблемы при разработке кодеков с компрессией цифровых аудиоданных.

1.8. Постановка задачи и цель диссертационной работы.

2. РАЗРАБОТКА СТРУКТУРНОЙ СХЕМЫ И УТОЧНЕНИЕ АЛГОРИТМА РАБОТЫ ЭКСПЕРИМЕНТАЛЬНОЙ УСТАНОВКИ.

2.1. Разработка и обоснование структурной схемы экспериментальной установки.

2.2. Временная и частотная сегментации звукового сигнала.

2.3. Психоакустическая энтропия звукового сигнала.

2.4. Психоакустические модели экспериментальной установки.

2.4.1. Расчет спектра выборки звукового сигнала.

2.4.2. Расчет глобального порога маскировки или отношения сигнал-маска.

2.5. Объединение сигналов стереопары при кодировании.

2.5.1. Психоакустические основы процедуры объединения сигналов стереопары.

2.5.2. Алгоритмы объединения сигналов стереопары в стандартах МРЕв и А52.

Выводы по главе 2.

3. РАЗРАБОТКА ПРОГРАМНОЙ МОДЕЛИ И ИНТЕРФЕЙСА ИССЛЕДОВАТЕЛЬСКОЙ УСТАНОВКИ.

3.1. Обобщенная структурная схема программной модели.

3.2. Обобщенная структурная схема психоакустической модели.

3.3. Блок гибридного полифазного банка фильтров.

3.4. Блок неравномерного квантования и кодирования.

3.5. Декодер.

3.6. Блок формирования стерео WAV файлов.

3.7. Блок объединения сигналов стереопары.

3.8. Блок считывания заголовок wav-файла.

3.9. Интерфейс экспериментальной установки.

3.10. Интерфейс для субъективной оценки качества звучания.

Выводы по главе 3.

РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ.

4.1. Программа исследований.

4.2. Общие сведения о процедуре проведения эксперимента.

4.3. Психоакустическая энтропия сигнала и требуемое для кодирования количество бит.

4.4. Битовый резервуар.

4.4.1. Контроль объема битового резервуара в системе кодирования MPEG-1 ISO/IEC 11172-3 Layer 3.

4.4.2. Максимально допустимый объем битового резервуара и буфера в системе кодирования MPEG-1 ISO/IEC 11172-3 Layer

4.5. Предельные значения психоакустической энтропии в зависимости от полосы частот звукового сигнала и частоты дискретизации.

4.6. Расчет числа бит, требуемого психоакустической моделью в полосах психоакустического анализа Ь, полосах кодирования п и их фактическое распределение при кодировании звукового сигнала.

4.6.1. Расчет требуемого числа бит в полосах психоакустического анализа b на основе отношения сигнал-шум, SNRb.

4.6.2. Расчет требуемого количества бит в полосах психоакустического анализа b на основе учета психоакустической энтропии.

4.6.3. Расчет требуемого количества бит в полосах кодирования п на основе учета психоакустической энтропии.

4.6.4. Расчет психоакустической моделью требуемого количества бит для каждого аудиофрейма.

4.6.5. Расчет коэффициента корреляции левого и правого сигналов стереопары.

4.6.6. Фактически потраченное количество бит до и после объединения сигналов стереопары.

4.7. Субъективная оценка качества звучания объединенного сигнала стереопары.

4.8. Представление итоговых результатов, выполненных в работе экспериментальных исследований.

Выводы по главе 4.

Введение 2005 год, диссертация по радиотехнике и связи, Ятагама Гамаге Даммика Придаршана

Представление высококачественных звуковых сигналов в цифровой форме широко используется в телекоммуникационных системах радиовещания, телевидения, в системах записи и воспроизведения звука, при реставрации старых записей с целью повышения их качества, при создании новых необычных видов звучаний, в MULTIMEDIA - приложениях, в системах виртуальной реальности.

При первичном кодировании звуковых сигналов применяется равномерное квантование с разрешением 16.24 бит/отсчет и частоте дискретизации 44,1, 48,., 192 кГц. Полоса частот кодируемого сигнала составляет 20.20000 Гц, а его динамический диапазон не более 40 дБ. Наиболее высокое качество звучания обеспечивают звуковые форматы 3/2, 5.1 и система воспроизведения типа "трапеция" (PeK.ITU-R 775). При первичном кодировании стереофонических сигналов суммарная скорость цифрового потока оказывается достаточно большой, особенно при форматах 3/2 и 5.1. Вследствие ограниченной пропускной способности каналов связи, особое значение приобретают методы их обработки с целью компрессии цифровых аудиоданных после первичного линейного кодирования. Все эти методы компрессии основаны на учете характеристик, как самого сигнала, так и слуха, в частности, таких его феноменов как маскировка, предмаскировка, и постмаскировка. С этой точки зрения наиболее эффективными являются методы кодирования группы MPEG (стандарты ISO/IEC 11172-3, 13818-3, 13818-7, 14496-3), ATRAC, ASPEC, apt=X100 и Dolby АС-3 (А/52).

Компрессия цифровых аудиоданных при малой скорости цифрового потока неизбежно сопровождается искажениями, например, при использовании метода MUSIC AM (ISO/IEC 11172-3 Layer 2) стереопанорама становится более плоской, исчезают звуковые планы, кажущиеся источники звука смещаются относительно их истинного положения, теряются индивидуальные признаки звучания, свойственные одиночным инструментам в группе, нарушается реверберационный фон каждого из них, возникает ощущение того, что отдельные инструменты записаны в помещениях с разными акустическими свойствами. Эти искажения заметны на слух уже при скорости передачи 128 кбит/с на канал (MPEG-1 ISO/IEC 11172-3 Layer 2) и 64 кбит/с (MPEG-1 ISO/IEC 11172-3 Layer 3).

Скорость цифрового потока на выходе кодера с компрессией цифровых аудиоданных обычно лежит в пределах 64.256 кбит/с на канал. С целью ее дальнейшего уменьшения в алгоритмах компрессии MPEG ISO/IEC 11172-3, ISO/IEC 13818-3 и 13818-7 ААС, а также и Dolby АС-3 (А/52) рекомендуется использовать дополнительно режим объединения сигналов стереопары («Joint Stereo»). Однако его применение на практике затруднено отсутствием критериев, при которых это объединение сигналов стереопары эффективно. Известно лишь, что при работе кодека в данном режиме могут появляться искажения в восстановленном сигнале, связанные не только с передачей пространственной информации.

Изложенное подтверждает, что изучение проблемы объединения сигналов стереопары с целью повышения эффективности алгоритмов их компрессии является актуальной научной задачей, востребованной в теории и на практике.

Проблемам компрессии цифровых аудиоданных с устранением избыточности посвящены работы ученых Scott N. Levine, Е. F. Schroeder, W. Voessing, J. Johnston, K. Brandenburg, E. Zwicker, M. Schroeder, N. Jayant, Ю. А. Ковалгина, A.M. Синильникова, A.C. Грудинина, B.A. Леонова, С. Г. Рихтера и других. Оценка качества звучания компрессированных сигналов рассмотрена в работах Gilbert A. Soulodre, Theorder Grusec, Michel Lavoie, Louis Thibault, J. Johnston.

Цель и основные задачи работы. Целью работы является оценка эффективности процедуры объединения сигналов стереопары, а также исследование того, при каких условиях и каким образом процедура объединения сигналов стереопары должна выполняться; насколько при этом возрастает сложность алгоритма компрессии и как изменяется качество кодированного сигнала с уменьшением скорости его передачи.

Для достижения поставленной цели необходимо:

1. Провести аналитический обзор существующих методов кодирования звуковых сигналов (ЗС) с компрессией цифровых данных; изучить международные стандарты и рекомендации, относящиеся к данной проблеме; детально по шагам исследовать алгоритмы и процедуры обработки ЗС, реализованные в системах кодирования с компрессией цифровых аудиоданных, включая и процедуры объединения сигналов стереопары; сформулировать требования, предъявляемые к отдельным блокам кодера;

2. Разработать алгоритм объединения сигналов стереопары, представить его в форме математической модели, в процессе исследований выбрать и уточнить критерии объединения сигналов стереопары в субполосах кодирования;

3. Разработать структурную схему исследовательской установки, позволяющей проводить исследования и оценку эффективности алгоритмов компрессии и качества кодированных ЗС, необходимые для достижения конечной цели, поставленной в данной работе;

4. Реализовать на базе программную модель исследовательской установки для проведения экспериментальных исследований, разработать удобный интерфейс, сформулировать и обосновать собственно программу экспериментальных исследований;

5. В соответствии с разработанной программой, с помощью данной установки^ исследовать реальные фрагменты ЗС, результаты вычислений записать в виде файлов, необходимых для дальнейших вычислений, создать тест-фонограммы для оценки качества кодированных сигналов путем проведения соответствующих субъективно-статистических экспертиз;

6. Массивы экспериментальных данных, полученные при проведении экспериментальных исследований, обработать с применением методов математической статистики и далее для удобства последующего анализа представить графически.

7. Оценить качество кодированных сигналов методом парных сравнений.

Методы проведения исследований. Для решения поставленных задач использовались методы цифровой обработки звуковых сигналов, имитационного моделирования с применением средств С++, MathCAD, Visual Basic, математической статистики и субъективно-статистических экспертиз.

Научная новизна и новые полученные результаты диссертационной работы заключается в следующем:

1. Исследование алгоритмов компрессии цифровых данных показывает, что используемые здесь процедуры и лежащие в их основе психоакустические модели не в полной мере отражают процессы обработки стереофонических сигналов в слуховой системе человека, не учитывают механизмы временной маскировки и, что более важно, бинауральной демаскировки звуковых образов, играющие значительную роль при слуховом восприятии; все это снижает эффективность их применения;

2. Разработана психоакустическая модель, которая является ключевой частью в любой системе кодирования с компрессией цифровых аудиоданных. Она состоит из ряда модулей, имеет гибкую, легко изменяемую структуру, включает в себя большинство существующих процедур психоакустического анализа. На ее основе может быть реализована любая базовая психоакустическая модель алгоритмов кодирования стандартов MPEG. Ряд процедур, реализуемых в этих моделях, уточнен автором с учетом результатов новейших исследований, дано полное математическое описание психоакустической модели, предложенной автором работы.

3. Разработана блочно-модульная структура и на ее основе программная модель экспериментальной установки, предназначенной для исследования алгоритмов компрессии цифровых аудиоданных. Она содержит все базовые блоки: банк фильтров, психоакустическую модель, блок квантования и кодирования, блок распределения бит, блок формирования цифрового потока.

Программная модель исследовательской установки протестирована с использованием реальных стереофонических музыкальных сигналов.

4. Предложены и обоснованы критерии объединения субполосных сигналов стереопары при их кодировании; разработаны метод оценки эффективности введения данной процедуры, а также интерфейс, необходимый для исследования алгоритмов компрессии цифровых аудиоданных и для создания тест-фонограмм, предназначенных для оценки качества эталонного и кодированного звуковых сигналов методом парных сравнений.

5. С помощью реализованной в работе исследовательской установки обработано 5 отрывков реальных ЗС разных жанров с длительностью звучания от 8 до 20,5 с. Каждый отрывок подвергнут исследованию в разных условиях объединения сигналов стереопары. Все результаты вычислений записаны в виде файлов в определенных директориях. На основе статистической обработки полученных массивов экспериментальных данных получено множество зависимостей, необходимых для последующего анализа.

5. Доказано, что объединение субполосных сигналов стереопары при их кодировании позволяет дополнительно снизить скорость цифрового потока на 5-10 % по сравнению со значением, начиная с которого искажения, вызванные компрессией цифровых данных, становятся заметными на слух; в среднем это составляет около 10. 15 кбит/с на канал.

6. Определены границы частот, начиная с которых можно начинать объедение сигналов стереопары.

Практическая значимость работы заключается в следующем:

1. Разработаны критерии, методы и программа исследований, позволяющие всесторонне оценить эффективность объединения субполосных сигналов стереопары при их кодировании, а также определить величину дополнительного снижения скорости цифрового потока за счет ее введения;

2. Разработаны программная модель и интерфейс исследовательской установки, форматы представления массивов входных и выходных данных, входящих в ее состав блоков. Это позволяет проводить всесторонние исследования алгоритмов компрессии цифровых аудиоданных на реальных звуковых сигналах, обрабатывать получаемые с ее помощью данные, используя для этой цели стандартные пакеты программ прикладной статистики. Исследовательскую установку можно использовать также и в учебном процессе. Ее использование позволяет не только выполнять широкий круг исследований алгоритмов компрессии цифровых данных, но найти компромиссное решение между эффективностью и качеством объединяемых сигналов стереопары. В результате чего, можно грамотно выбрать частотные границы объединения сигналов стереопары.

3. Найдено требуемое для прозрачного кодирования количество бит в разных субполосах и установлено, что для звуковых сигналов всех жанров существуют четкие границы требуемого количества бит, приходящееся на один коэффициент МДКП. При этом в области частот 0.700Гц это значение лежит в пределах от 8 до 10 бит; в области от 700.3500 Гц оно составляет уже от 2.4 бита, а в области частот выше 3500 Гц оно не превышает 1.2 бит.

4. Правильность предложенных в работе критериев объединения сигналов стереопары подтверждена субъективно-статистическими экспертизами; эффективность введения этой процедуры оценена на реальных звуковых сигналах, сформулированы условия ее применения.

Внедрение результатов исследований. Результаты исследований использованы в ЛОНИИС при разработке и исследовании кодеков с компрессией цифровых аудиоданных, а также в учебном процессе СПбГУТ при подготовке инженеров по специальностям 201100- Радиосвязь, радиовещание и телевидение и 2014400- Аудиовизуальная техника, что подтверждено соответствующими актами внедрения.

Положениями, выносимыми на защиту, являются:

1. Разработанные в рамках данной работы блочно-модульная структура исследовательской установки, реализованная на ее основе программная модель и интерфейс достаточны для детального исследования алгоритмов компрессии цифровых аудиоданных. Предусмотренные в ней возможности для хранения, последующего анализа и обработки теоретических и экспериментальных данных позволяют на ее основе проводить множество исследований, в том числе и всестороннюю оценку эффективности процедуры объединения субполосных сигналов стереопары.

2. Оценка коэффициента корреляции субполосных сигналов, учет механизмов пространственного слуха человека и распределения энергии звуковых сигналов по частоте - это основа для разработки критериев объединения субполосных сигналов стереопары при их кодировании.

3. Оценка эффективности процедуры объединения сигналов стереопары подтверждает, что когда ресурсы других методов снижения скорости цифрового потока уже исчерпаны, режим объединения позволяет дополнительно снизить скорость цифрового потока в среднем на 5-7% от установленного исходного значения. Это выполняется при условиях, когда объединяются субполосные составляющие сигналов стереопары ниже 215 Гц и выше 10465 Гц для длинных блоков и выше 11025 Гц для коротких блоков, а также и те субполосы, где коэффициент взаимной корреляции превышает пороговое значение.

4. Требуемое для кодирования количество бит, приходящееся на один коэффициент МДКП, в среднем составляет от 8 до 10 бит до частоты 0,7 кГц, от 2 до 4 бит в частотном диапазоне от 0,7 до 3,5 кГц, от 1 до 2 бит на частотах выше 3,7 кГц.

Апробация результатов работы и публикации. Результаты, полученные в ходе исследований, докладывались и обсуждались на научно-технических конференциях (НТК) профессорско-преподавательского состава СПбГУТ им. проф. Бонч-Бруевича в Санкт-Петербурге, на МНТК в Одессе (Украина, 2001) а также они были представлены в виде стендового доклада на 21-ой межрегиональной конференции международного общества аудиоинженеров (АЕБ, г. Санкт-Петербург, 2002).

По тематике диссертационной работы опубликовано 8 печатных работ, включая 6 публикаций в виде тезисов докладов и 2 статьи в сборниках трудов международных научно-технических конференций.

Структура и объем работы. Работа состоит из введения, четырех глав, заключения, списка принятых сокращений, списка принятых обозначений, списка литературы и трех приложений. Глава 1 является вводной. В ней кратко рассмотрены общие сведения и классификация методов кодирования звуковых сигналов, как традиционные так и новейшие методы кодирования ЗС; изложены сведения о существующих стандартах семейства MPEG (MPEG-1 ISO/IEC 11172-3, MPEG-2 ISO/IEC 13818-3, MPEG-2 ISO/IEC 13818-7 ААС, MPEG-4 ISOAEC FCD 14496-3) и ATSC Dolby АС-3 (А/52); рассмотрены психоакустические модели алгоритмов кодирования с компрессией цифровых аудиоданных; представлена оценка качества кодеков с компрессией цифровых данных, сформулированы основные проблемы, возникающие при их разработке, а также цель и задачи данного исследования. Глава 2 посвящена разработке структурной схемы и алгоритма работы экспериментальной установки. Здесь сформулированы требования к экспериментальной установке и разработана ее структурная схема. Глава 3 включает себя разработку программной модели и интерфейса исследовательской установки. В главе 4 рассматривается анализ и обработка результатов исследований, а так же условия проведения эксперимента и обработка результатов, получены предварительные результаты субъективной оценки качества звучания объединенного сигнала стереопары; итоговые результаты расчетов представлены в виде графиков.

Работа содержит 260 листов, в том числе 226 листов основного текста, 58 рисунков, 23 таблиц, 128 формул. В списке литературы 102 наименований. Приложения 1 и 2 размещены на 34 страницах, а приложения 3 - на компакт-диске, прилагаемом к работе.

Заключение диссертация на тему "Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары"

Основные результаты диссертационной работы заключаются в следующем:

1. Проведен обзор публикаций по существующим методам кодирования с устранением статистической и психоакустической избыточности звукового сигнала. На основании проведенного обзорного анализа всех существующих современных методов кодирования сформирована тема и объект исследования настоящей диссертационной работы.

2. Разработана блочно-модульная структурная схема исследовательской установки, на ее основе реализованы программная модель и интерфейс на базе ПЭВМ, позволяющие проводить детальные исследования алгоритмов компрессии цифровых аудиоданных на реальных звуковых сигналах, включая и оценку эффективности процедуры объединения субполосных составляющих сигналов стереопары при их кодировании и субъективно-статистические экспертизы при оценке качества кодированных сигналов.

3. Предложен критерий объединения сигналов стереопары при их кодировании, в основе которого лежит оценка величины коэффициента корреляции субполосных составляющих, а также учет механизмов пространственного слуха человека и распределения энергии звукового сигнала по частоте.

4. С помощью исследовательской установки проведена обработка отрывков ЗС разных основных жанров (симфонический оркестр, одиночный духовой инструмент, эстрадная музыка, квартет, дикторская речь) с длительностью звучания 8,8.20,5 с при трех значениях скорости цифрового потока равных 128, 96, 64 кбит/с на канал. Анализ полученных в результате этого исследования экспериментальных данных позволяет сделать следующие выводы: а) требуемое психоакустической моделью для прозрачного кодирования гранулы число бит не зависит от скорости цифрового потока, ибо значение психоакустической энтропии для каждого из отрывков зависит только от структуры самого звукового сигнала. При низких скоростях передачи (64 кбит/с на канал и ниже), когда число бит для кодирования явно недостаточно, неизбежно возникают искажения восстановленного сигнала и качество сигнала подвергнутого кодированию при его восприятии ухудшается; б) снижение скорости цифрового потока при объединении субполосных составляющих сигналов стереопары сильно зависит от степени корреляции левого и правого сигналов стереопары в субполосах кодирования, от выбранных значений верхних и нижних границ объединяемых субполос и} конечно, от структуры самого звукового сигнала (жанра); в) при объединении сигналов стереопары на частотах ниже 215 Гц и выше 10465 Гц для длинных блоков и выше 11025 Гц для коротких блоков среднее значение снижения скорости цифрового потока составляет 2,8% без учета корреляции, а с ее учетом - 12,8 % при установленной скорости цифрового потока 128 кбит/с на канал. При скорости цифрового потока равной 96 кбит/с на канал, эти значения соответственно равняются 0,4% и 7,2 %. Следовательно, при данном значении скорости цифрового потока доступное для кодирования число бит уже лежит ниже или вблизи требуемого значения; г) при установленной скорости цифрового потока равной 64 кбит/с на канал применения режима объединении сигналов стереопары для большинства стереофонических музыкальных сигналов является не эффективным и приводит лишь к искажению сигнала. Это объясняется, прежде всего, тем, что при данной скорости доступное для кодирования количество бит уже существенно ниже требуемого психоакустической моделью даже при условии объединения ряда субполосных составляющих; д) требуемое для кодирования количество бит, приходящееся на один коэффициент МДКП для реальных звуковых сигналов разных жанров, в среднем составляет от 8 до 10 бит до частоты 0,7 кГц, от 2 до 4 бит в частотном диапазоне от 0,7 до 3,5 кГц, от 1 до 2 бит на частотах выше 3,7 кГц; е) результаты субъективной оценки качества звукового сигнала при разных режимах его кодирования подтверждают, что:

-при установленных скоростях цифрового потока равных 128 и 96 кбит/с объединение сигналов стереопары на частотах ниже 215 Гц и выше 6847 Гц для длинных блоков и выше 6890 Гц для коротких блоков не приводит к заметным на слух искажениям, но дает вполне определенный выигрыш в скорости цифрового потока;

-дальнейшее увеличение числа объединяемых субполос кодирования в данном случае дает снижение скорости цифрового потока, но качество восприятия кодированного звукового сигнала при этом ухудшается;

-при скорости цифрового потока равной 64 кбит/с применение процедуры объединения не достаточно для улучшения качества кодированного сигнала.

5. Программная модель исследовательской установки разработана в блочномодульном виде, где каждый блок имеет свой набор входных и выходных массивов данных. Это удобно для проведения детальных исследований алгоритмов компрессии цифровых аудиоданных, а также и для ее развития путем дополнения новыми модулями. Кроме того, такое блочно-модульное ее построение удобно и полезно для учебного процесса при изучении студентами специальностей 201100 — Радиосвязь, радиовещание и телевидение и 201400 — при изучении

Аудиовизуальная техника, а также и аспирантами^современных алгоритмов компрессии цифровых звуковых сигналов.

ЗАКЛЮЧЕНИЕ

Библиография Ятагама Гамаге Даммика Придаршана, диссертация по теме Радиотехника, в том числе системы и устройства телевидения

1. Радиовещание и Электроакустика: Учебник для вузов / А.В. Выходец, М.В. Гитлиц, Ю.А. Ковалгин и др.; Под ред. М.В. Гитлица. М.: Радио и Связь, 1989.

2. Ковалгин Ю.А. Стереофония. М.: Радио и Связь, 1989.

3. Оппенгейм А.В., Шафер Р. В. Цифровая Обработка Сигналов / Пер. с англ. В.А Лексаченко, В.Г. Челланова; Под ред. С.Я. Шаца. М.: Связь, 1979.

4. Рабинер J1.P. , Шафер Р.В. Цифровая Обработка Речевых Сигналов / Пер. с англ. М.В. Назарова, Ю.Н. Прохорова.- М.: Радио и Связь, 1981.

5. Звуковое вещание /А.В. Выходец, П.М. Жмурин, И.Ф. Зорин и др.; Под ред. Ю.А. Ковалгина: Справочник М.: Радио и Связь, 1993.

6. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации (Второе переработ, и доп. изд.) Пер.с нем. Под ред Б.Г. Белкина М., М.: Связь, 1971.

7. Отчет по научно- исследовательской работе 1 Фундаментальные аспекты новых информационных и ресурсосберегающих технологий' .: СПбГУТ, 1997.2000.

8. Neil Gilchrist , Christer Grewin,: Collected Papers on Digital Audio bit Rate Reduction. Audio Engineering Society, Inc. USA 1996.

9. J. Audio Eng. Sos., Vol. 45 , No. 1/2, 1997 January / February.

10. Блейхут P. Теория и практика кодов, контролирующих ошибки: /Пер.с анг. И.И. Грушко, В.М. Блиновского; Под. ред. К.Ш. Зигангирова. М.: Мир, 1986.

11. Применение цифровой обработки сигналов. /Под ред. Э. Оппенгейма; Пер. англ. Под ред. A.M. Рязанцева. М.: Мир, 1980.

12. J. Audio Engineering Society., Vol. 45, No. 10 , 1997 October.

13. И.М. Дворецкий, И.Н. Дриацкий. Цифровая передача сигналов звукового вещания. -М.: Радио и Связь, 1987.

14. Гуревич В.Э., Лопушнян Ю.Г., Рабинович Г.В. Импульсно-кодовая модуляция в многоканальной телефонной связи. М.: Связь , 1973 .-336 с.

15. Yair Shoham, Allen Gersho, 'Efficient Bit Allocation for an Arbitrary Set of Quantizers, 'IEEE Translation on acoustics, speech, and signal processing, vol. 36 No. 9, September 1988 (ст. 1445 1453 ).

16. Raymond N.J. Veldhusis, Bit Rates in Audio Source Coding,; IEEE Journal on Selected Areas in Communications.Vol. 10, No.l January 1992 (ст. 86 96 ).

17. Larry E. Humes, Walt Jesteadt, Models of the additivity of masking., Acoustical Society of Amarica, 1989 (page 1285-1295).

18. ITU Radiocommunication Study Groups. Document 10-4/19-E : Method for objective measurements of perceived audio quality, 16 March 1998/.

19. ISO/JTC/1/SC 29 N2203: Information Technology -Very Low Bitrate Audio-Visual Coding, Part 3: Audio, ISO/IEC 14496-3 Subpart 1, 1998.

20. B.Fox , ~ Discrete optimization via marginal analysis, Manage. Sei., vol.13, No. 3 , pp.210-216, Nov 1966.

21. Лухин C.H. "Visual Basic Самоучитель для начинающих ". M.: "Диалог-МИФИ", 2001.-544 с.

22. ISO/IEC, International Standard 11172-3: «Information technology- coding of moving pictures and associated audio for digital storage media up to about 1.5 Mb/s", Part 3, ISO/IEC JTSC1/SC29/WG11, Geneva, Switzerland, 1993.

23. Karlheinz Brandenburg, Marina Bosi, Overview of MPEG Audio: Current and Future Standards for Low-Bit Rate Audio Coding. J. Audio Eng. Sos., Vol.45,No. 1/2, 1997 January/February.

24. Радиовещание и Электроакустика: Учебник для вузов / Авт.: С.И. Алябьев, A.B. Выходец, Р. Гермер и др.; Под ред. Ю.А. Ковалгина. М.: Радио и Связь, 1998.

25. John G. Beerends, Jan A. Stemerdink,: J. Audio Engineering Society., Vol. 40, No. 12 , 1992 December.

26. ISO/IEC, International Standard 13818-3: "Information technology- coding of moving pictures and associated audio information", Part 3: Audio, ISO/IEC 13818-3,1995(E).

27. ISO/IEC JTC1 /SC29/WGil. Coding of moving pictures and audio, N1200, March 1996, (MPEG-2 Audio NBC (13818-7) Working Draft 1.0,1997).

28. Document A/52. Digital Audio Compression (AC-3), ATSC

29. Robust Coding of High Quality Audio Signals: Jürgen Koller, Thomas Sporer, Lehrstuhl fur Technische Elektronik Universität Erlangen- Nürnberg,Germany.

30. Eli shoval, Meir Feder: Audio Compression using Entropy Coded Dithered Quantization; Tel Aviv University, Tel Aviv, Israel.

31. Chi-Min, Wen-Chieh Lee: A Unified Fast Algorithm for Cosine Modulated Filter Banks in Current Audio Coding Standards; Department and Institute of Computer Science and Information Engineering, National Chiao Tung University, Hsinchu, 30050, Taiwan.

32. Gilbert A. Soulodre, Theorder Grusec, Michel Lavoie, and Louis Thibault: Subjective Evaluation of State-of-the-Art Two-Channel Audio Codecs. J. Audio Eng. Sos. , Vol.46,No. 6, 1998 March.

33. Ted Painter, Andreas Spanians: A Review of Algorithms for Preceptual Coding of Digital Audio Signals, spanias@asu.edu, painter@asu.edu.

34. Макаров АЛ. Введение в теорию кодирования. М.: Наука, 1982, 192с.

35. Принципы цифровой связи и кодирования. / А.Д. Витерби, Дж.К. Омура: Пер. с англ. под ред. К.Ш. Зигангирова.- М.: Радио и связь, 1982,-535 с.

36. Zelinsky R., Noll P. Adaptive transform coding of speech signals. IEEE. Trans. Acoust., Speach, Signals Processing,Vol.ASSP-25, Aug. 1977, p.p. 299-309.

37. EBU, «Basic Audio Quality Requirements for Digital Audio Bit Rate Reduction Systems for Broadcast Emission and Primary Distribution, » CCIR Doc. 10-2/3(1991 Oct.28).

38. L. Solbach Robsut Partical Tracking and Onset Localization in Signal Channel Audio Signal Mixer: http://www.tu-harburg.de/ti6/pub/diss/soIbach/index.hml

39. M. Goodwin Adaptive Signal Models. Theary, Algorithms and Audio Applications. http://ptolem.eecs.berkeley.edu/papers/97.mgoodwinthesis.

40. International Electrotechnical Commission/ American National Standards Institute (1EC/ANSI) CEI-IEC-908, "Compact Disc Digital AUDIO System"("red book"), 1987.

41. C.Tood, "A Digital Audio System for Broadcast and Prerecorded Media, " in Proc.75th Conv. Aud. Eng. Soc., preprint #, Mar. 1984.

42. E. F. Schroder and W. Voessing, "High Quality Digital Audio Encoding with 3.0 Bits/Sample using Adaptive Transform Coding, " in Proc. 80th Conv. Aud. Eng. Soc. Preprint # 2321, Mar. 1986.

43. G. Theile, et al., "Low-Bit Rate Coding of High Quality Audio Signals,"in Proc. 82nd Conv. Aud. Eng. Soc. Preprint # 2432, Mar. 1987.

44. K. Brandenburg, "OCF-A New Coding Algorithm for High Quality Sound Signals," in Prog. ICASSP-87, pp. 5.1.1-5.1.4,May 1987.

45. J. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria," IEEE J. Sel. Areas in Comm., pp. 314-323, Feb. 1988.

46. W-Y Chan and A. Gersho, "High Fidelity Audio Transform Coding with Vector Quantization," in Proc. ICASSP-90, pp. 1109-1112, May 1990.

47. K. Brandenburg and J.D. Johnston,"Second Generation Perceptual Audio Coding: The Hybrid Coder," in Proc. 88th Conv. Aud. Eng. Soc., preprint #2937, Mar. 1990.

48. K. Brandenburg, et al., "ASPEC: Adaptive Spectral Entropy Coding of High Quality Music Signals," in Proc. 90th Conv. Aud. Eng. Soc. Preprint#3011, Feb. 1991.

49. Y.F.Dehery, et al., "A MUSICAM Source Codec for Digital Audio Broadcasting and Storage,"in Proc. ICASSP-91, pp.3605-3608, May 1991.

50. MJwadare, et al., "A 128 kb/s Hi-Fi Audio CODEC Based on Adaptive Block Size MDCT," IEEE J.Sel. Areas in Comm., pp.138-144, Jan.1992.

51. K. Brandenburg et al., "ISO-MPEG-1 Audio: A Generic Standard for Coding of High-Quality Digital Audio," J. Audio Eng. Soc., pp.780-792, Oct. 1994.

52. G.Stoll, et al., "Generic Architecture of the ISO/MPEG Audio Layer I and II: Compatible Developments to Improve the Quality and Addition of New Features," in Proc. 95th Conv. Aud. Eng. Soc., preprint #3697, Oct. 1993.

53. J.B. Rault, et al., "MUSICAM (ISO/MPEG Audio) Very Low Bit-Rate Coding at Reduced Sampling Frequency."in Proc. 95th Conv. Aud. Eng. Soc., preprint#3741, Oct. 1993.

54. G. Stoll, et al., Extension of ISO/MPEG-Audio Layer II to Multi-Channel Coding: The Future Standard for Broadcasting, Telecommunication, and Multimedia Applications,"in Proc. 94th Conv. Aud. Eng. Soc., preprint#3550, Mar. 1993.

55. J.D. Johnston, et al., "the AT & T Perceptual Audio Coder (PAC), "Presented at the AES convention, New Yore, Oct., 1995.

56. ISO/IEC JTC1 /SC29/WG11 MPEG, 1S11172-3 "Information Technology-Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to About 1.5 Mbit/s, Part 3: Audio" 1992. ("MPEG-1").

57. ISO/IES JTC1/SC29/WG11 MPEG, IS13818-3 "Information -Technology-Generic Coding of Moving Pictures and Associated Audio, Part 3: Audio" 1994.(MPEG-2").

58. F. Wylie, "Predictive or Perceptual Coding. apt-X and Apt-Q," in Proc. 100th Conv. Aud. Eng. Soc., preprint#4200, May 1996.

59. P. Craven and M. Gerzon, "Lossless Coding for Audio Discs, " J. Audio Eng. Soc., pp., 706-720, Sep. 1996.

60. J. R. Stuart, "a Proposal for the High- Quality Audio Application of High-Density CD Carriers, "Technical Subcommittee Acoustic Renaissance for Audio, http://www.meridian.co.uk/ara/araconta.html, pp. 1-26, Jun.1995.

61. NJayant, et at., "Coding of Wideband Speech," Speech Comm., pp.127-138, Jun. 1992.

62. NJayant, "High Quality Coding of Telephone Speech and Wideband Audio," in Advances in Speech Signal Processing, S. Furui and m. M. Sondhi, Eds., New York: Dekker1 1992.

63. J. Johnston and K. Brandenburg, "Wideband Coding Perceptual Considerations for Speech and Music," in Advances in Speech Signal Processing, S. Furui and M.M. Sondhi, Eds., New York: Dekker, 1992.

64. N. Javant, et at., "Signal Compression Based ON Models of Human Perception," Proc. IEEE, pp.1385-1422, Oct. 1993.

65. P. Noll, "Wideband Speech and Audio Coding, " IEEE Comm. Mag., pp.34-44, Nov. 1993.

66. P. Noll, "Digital Audio Coding for Visual Communications," Proc. IEEE, pp.925-943, Jun.

67. H. Fletcher, "Auditory Patterns," Rev. Mod. Phys., pp.47-65, Jan.1940.

68. D.D.Greenwood, "Critical Bandwidth and the Frequency Coordinates of the Basilar Mem. Brane," J. Acous. Soc. Am. ,pp. 1344-1356,Oct. 1961.

69. J. Zwislocki, "Analysis of Some Auditory Characteristics,"in Handbook of Mathematical Psychology, R. Luce, et at., EDS., New York: John Wiley and Sons, Inc., 1965.

70. B. Scharf, "Critical Bands," in Foundation of Modern Auditory Theory, New York: Academic Press, 1970.

71. R. Hellman, "Asymmetry of Masking Between Noise and Tone," Percep. And Psychphys., pp.241-246, vol.11,1972.

72. E. Zwicker and H.Fastl, Phychoacoustics Facts and Models, Springer-Verlag, 1990.

73. E. Zwicker and U. Zwicker, "Audio Engineering and Psychoacoustics: Matching Signals to the Final Receiver, the Human Auditory System," J. Audio Eng. Soc. Pp.115-126, Mar.1991.

74. M. Schroeder, et at.,m "Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear," J. Acoust. Soc. Am., pp.1647-1652, Dec. 1979.

75. J. Johnston, "Estimation of Perceptual Entropy Using Noise Masking Criteria," in Proc. ICASSP-88, pp. 2524-2527, May 1988.

76. Terhard, E., "Calculating Virtual Pitch," Hearing Research, pp.155-182, 1,1979.

77. N. Jayant, et at., "Signal Compression Based on Models of Human Perception," Proc. IEEE, pp.1385-1422, Oct. 1993.

78. P. Papamichalis, "MPEG Audio Compression: Algorithms and Implementation," in Proc. DSP 95 Int. Conf. On DSP, pp.72-77, June 1995.

79. NJayant and P. Noll, Digital Coding of Waveforms Principles and Applications to Speech and Video, Englewood Cliffs: Prentice-Hall, 1984.

80. D. Krahe, "New Source Coding Method for High Quality Digital Audio Signals," NTG Fachtagung Hoerrundfunk, Mannheim, 1985.

81. Scott N. Levine, Ph. D. Dissertation: Audio Representation for Data Compression and Compressed Domain Processing, http://www-ccrma.stanford.edu.

82. Рекомендации MKKP, 1999. Том X Часть 1. Радиовещательная служба (звуковая), ст. 149-154.

83. Ye. Wang, Leonid Yaroslavski, Mikka Vilermo. " The Impact of Relationship between MDCT and DFT on Audio Compression" E-mail: ye.wang@nokia.com.

84. D.M.Green. "Additivity of Masking " J.Acoustic. Soc.Am.41(6),Jan.l967.

85. E.Zwicker, S.Herla. "Uber die Addition von Verdeckungseffekten".Acustica Vol. 34, pp. 89-97,1975.

86. R.A.Luffi. "Additivity of simultaneous Masking ". J. Acoustic. Soc. Am. 73, pp. 262-267,

87. James D. Johnston. "Estimation of Perceptual Entropy Using Noise Masking Criteria". AT&T Bell Laboratories, 1988 IEEE.

88. И.Н. Бронштейн, K.A. Семендяев "Справочник по математике". Москва "Наука"1986 г.90111. Закс. Теория статистических выводов. -М.: Мир, 1975г.

89. Anibal Joao de Sousa Ferreira. " Spectral Coding and Post-Processing of High Quality Audio" 1998.

90. Ю. А. Коволгин, А. В. Борисенко, Г. С. Гнезел " Акустические основы стереофонии ".-М.: Связь, 1978.

91. Leakey D.M., Sayres М.А., Cherry Е.С. Binaural fusion of high and low frequency sound.-"J. Acoust. Soc. Amer.", 30, 1958 , p- 222-223.

92. Батко Б.М. "Соискателю ученой степени. Практические рекомендации (от диссертации до аттестационного дела)". М.: СИП РИА, 2002.-288с., ил.

93. Yatagama Gamage D.P., Kowalgin Ju. A. Algorithms of Digital Audio Data Compression; Standards, Problems and Perspectives of Development. The Proceedings of the AES 21st International conference -1-3 June 2002, St. Petersburg, Russia, p. 203-212.

94. R.Kapust. Qualitaetsbeurteilung codierter Audiosignale mittels einer BARKTransformation. Erlangen-Nuernberg.Universitaet (Technische Fakultaet), Dissertation, 1993.

95. Frank Baumgarte, Charalampos Ferekidis, Hendrik Fuchs. "A Nonlinear Psychoacoustic Model Applied to the ISO MPEG Layer 3 Coder" University of Hanover, Germany.

96. M. R. Schroeder, B. S. Atal, J.L.HaIl. Optimizing digital spech coders by exploiting masking properties of the human ear. J.Acoustic Sos. Am., Vol. 66,1979,S. 1647-1652.

97. EBU-SQAM Compact Disc; http://www.ebu.ch/tech t3253.pdf

98. J. Soumagne, P. Mabilleau, S. Morissette, G. Chouinard, and D. Benneett, " A comparative study of proposed high quality coding schemes for digital music," in ICASSP 1986 Proc., pp 1.6.1-1.6.4.

99. C. Todd, "A digital audio system for broadcast and prerecorded media, " presented at the 75th AES Conv. Paris, France, Mar. 1984

100. Скляр Б. Цифровая связь. Теоретические основы и практические применение. Изд.2-е., испр.: Пер. с англ.-М.: Издательский дом «Вильяме», 2003.-1104 с.