автореферат диссертации по радиотехнике и связи, 05.12.13, диссертация на тему:Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных
Автореферат диссертации по теме "Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных"
На правах рукописи
СТЕФАНОВА Ирина Алексеевна
РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ И КАЧЕСТВА КОМПРЕССИИ ЦИФРОВЫХ АУДИОДАННЫХ
Специальность 05 12 13 -Системы, сети и устройства телекоммуникаций
Автореферат диссертации на соискание ученой степени кандидата технических наук
Самара - 2007
□ОЗ1ТБ418
003176418
Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Поволжская государственная академия телекоммуникаций и информатики» (ГОУВПО ПГАТИ)
Научный руководитель
доктор технических наук, доцент Мишин Д В
Официальные оппоненты доктор технических наук,
профессор Карякин В Л
кандидат технических наук, доцент Засов В А
Ведущая организация ГОУВПО Самарский государственный технический университет (СГТУ)
Защита состоится « 7 » декабря 2007 г в 12 часов на заседании диссертационного совета Д219 003 02 при Поволжской государственной академии телекоммуникаций и информатики по адресу 443010, г Самара, ул Льва Толстого, 23
С диссертацией можно ознакомиться в библиотеке ГОУВПО ПГАТИ
Автореферат разослан « 6 » ноября 2007 г
Ученый секретарь
диссертационного совета Д219 003 02 доктор технических наук, доцент
Мишин Д В
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Важнейшие технико-экономические показатели системы цифровой обработки и передачи звуковых сигналов (ЗС) в значительной мере определяются степенью сокращения избыточности первичного цифрового сигнала Устранение избыточности на основе статистических свойств ЗС позволяет уменьшить изначально требуемую пропускную способность канала связи на 15 40 % Такое сжатие уже не может обеспечить современные требования, как по количеству, так и качеству передаваемой информации Результаты экспериментальных исследований психоакустических свойств слуха, полученные Е Zwicker, R Feldlkellei и другими, дали развитие новым более эффективным методам сжатия, основанным на учете особенностей слухового восприятия звука При этом сжатие ЗС производится не во временной, а в частотной области, для чего используются дискретные ортогональные преобразования (ДОП) В эго направление большой вклад внесли работы К Brandenburg, G Stoll и др В России следует выделить работы Ю А Ко в ал i ина и A M Синильникова
В современных цифровых технологиях для систем обработки и передачи ЗС широкое применение получили алгоритмы компрессии, реализованные в стандартах MPEG (Moving Pictures Expert Group) и в стандарте ATSC {Advanced Television System Committee) Dolby AC-3 (.4/52) Использование психоакустических моделей позволяет с высоким качеством производить компрессию сигнала без значительного ухудшения качества звука, обеспечивая цифровые скорости от 64 кбит/с для мультимедиа приложений до 384 кбит/с для цифрового стереофонического вещания При этом качество источника цифрового сигнала практически не ухудшается при сжатии цифрового потока с 768 до 128 кбит/с на моноканал Другие алгоритмы компрессии, используемые в форматах РАС, VQF, WMA, Ogg Vorbis, при том же качестве обеспечивают скорость не ниже 96 кбит/с Этого удалось добиться за счет изменения психоакустической модели соответствующих кодеров
Однако дальнейшее развитие высокоэффективных кодеков ЗС при сохранении качества источника цифрового звука сдерживается отсутствием аналитического описания основных психоакустических свойств слуха В рез>льтате отсутствует возможность, во-первых, моделировать в психоакустической модели кодера порог слышимости при маскировке Во-вторых, обоснованного выбора параметров, определяющих эффективность сжатия ЗС, в частности, длительности Т„ интервала ДОП, степени округления спектральных компонент и частоты дискретизации Fa
В связи с этим, актуальной является задача изыскания аналитического описания основных психоакустических свойств слуха и обоснованных параметров сжатия ЗС
Цель h задачи работы. Целью диссертации является повышение
эффективности и качества сжатия цифровых аудиоданных Для достижения указанной цели в диссертационной работе поставлены следующие задачи
- анализ статистических данных, полученных в результате экспериментальных исследований основных психоакустических свойств слуха человека, с целью их аналитического описания при учете рабочей полосы частот ЗС,
- исследование и установление предельно допустимых с точки зрения сохранения качества источника цифрового звука значения Тп и степени округления модуля коэффициентов ДОП для музыкальных и речевых сигналов,
- исследование и установление психоакустического аспекта механизма влияния Гд на качество субъективного восприятия звука и закономерности ее изменения в рабочей полосе частот ЗС,
- разработка методик и экспериментальное исследование эффективности сжатия цифровых аудиоданных при различных значениях параметров сжатия
Методы исследования. При решении поставленных задач использовались методы спектрального анализа, теории вероятностей и математической статистики, теории цифровой обработки сигналов, результаты экспериментальных исследований психоакустических свойств слуха и статистических свойств звуковых сигналов, а также компьютерное моделирование
Научная новизна работы заключается в следующем
- разработан алгоритм психоакустического анализа ЗС, основанный на моделировании порога слышимости при маскировке,
- сформулированы ограничения сверху на величину Г„, обеспечивающие условия для эффективного сжатия музыкальных и речевых сигналов с сохранением качества источника цифрового звукового сигнала,
- получено аналитическое выражение для оценки достаточной степени округления модуля спектральных компонент, при условии сохранения качества источника цифрового звукового сигнала,
- разработана методика оценки разрешающей способности ДОП по частоте, необходимой и достаточной для сохранения качества источника цифрового звука, позволяющая оценить соответствующую закономерность изменения /гд в заданной рабочей полосе частот ЗС,
- разработаны методики экспериментальной обработки цифровых аудиоданных средствами компьютерного моделирования
Личный вклад. Основные научные положения, теоретические выводы и рекомендации, а также методики экспериментальной обработки цифровых аудиоданных, содержащиеся в диссертационной работе, получены автором самостоятельно
Практическая ценность и реализация результатов работы. Полученные аналитические выражения и зависимости позволяют повысить производительность систем сжатия цифровых аудиоданных при сохранении высоких качественных показателей
Результаты работы могут быть использованы при разработке новых и
усовершенствовании существующих цифровых технологий передачи и обработки ЗС Разработанные методики экспериментальной обработки цифровых аудиоданных могут быть использованы для оценки эффективности новых алгоритмов сжатия
Основные теоретические и практические результаты, полученные в работе, использованы ФГУП СОНИИР и внедрены в учебный процесс ГОУВПО ПГАТИ, что подтверждено соответствующими актами
Апробация работы. Основные результаты и положения работы обсуждались на VIII - XII Российских научных конференциях (Самара, ПГАТИ, 2001 — 2005), 3 Международной конференции «Цифровая обработка сигналов и ее применение» (Москва, 2000), 5 и 7 Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Самара, 2004 и 2006), 6 и 8 Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Уфа, 2005 и 2007)
Публикации. По теме диссертации опубликовано 13 печатных работ, в том числе 2 статьи в научных изданиях, входящих в перечень ВАК, и 11 тезисов и текстов докладов на Российских и Международных конференциях
Основные положения, выносимые на защиту:
- алгоритм моделирования порога слышимости при маскировке,
- значения Гп, при которых еще обеспечиваются условия для эффективного сжатия музыкальных и речевых сигналов с сохранением качества источника цифрового звукового сигнала,
- аналитическое выражение для оценки достаточной степени округления модуля спектральных компонент, при условии сохранения качества источника цифрового звукового сигнала,
- методика оценки разрешающей способности ДОП по частоте, необходимой и достаточной для сохранения качества источника цифрового звука, учитывающей рабочую полосу частот ЗС,
- результаты экспериментальной обработки цифровых аудиоданных средствами компьютерного моделирования
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений Работа содержит 142 страницы машинописного текста, 55 рисунков, 14 таблиц Список литературы включает 111 наименований
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы исследования, сформулированы цели и задачи работы, перечислены основные научные результаты диссертации, положения, выносимые на защиту, определены практическая ценность и области применения результатов, приведены сведения об апробации работы, структуре и объеме диссертации
В первой главе с целью обеспечения анализа параметров сжатия и повышения эффективности психоакустического анализа в кодерах ЗС с сохранением качества источника цифрового звука с учетом различной частотной чувствительности слуха проводится регрессионный анализ результатов научно-экспериментальных исследований основных свойств слуха При этом графическое представление экспериментальных данных преобразуется в табличное, а в качестве критерия точности аппроксимации используются коэффициент корреляции определяющий точность приближения аппроксимирующей функции к табличным данным, и визуальный контроль совпадения по форме
Свойство частотного группообразования является фундаментальным, поскольку лежит в основе других психоакустических свойств слуха Заключается оно в возбуждении тоном не одной, а определенной группы волосковых клеток Кортиева органа слуха При этом максимум возбуждения лежит в центре группы Вследствие сопоставления таких групп с осью частот Е Zwicker ввел понятие частотной группы, центром которой является воздействующий тон
В результате анализа известных экспериментальных данных при R2 > О 99 получена функция, аппроксимирующая зависимость ширины частотной группы A.F от ее центральной частоты /„, для средней частотной чувствительности слуха
AF(fm) = 10й fj + k2fm + кЗ, Гц, (I)
где А1=-5,1, £2=0,112, £3=68. На основании (1) в данной работе предлагается интерпретировать общую совокупность экспериментальных данных как семейство парабол, каждая из которых соответствует определенной частотной чувствительности слуха Исходя из этого, получена аппроксимация bF(fm) для низкой и высокой частотных чувствительностей слуха, отличающаяся от (1) только значением коэффициентов kl, kl и кЪ
Для учета частотных ограничений чувствительности слуха в работе предлагается каждую из зависимостей ДF(fm) дополнить слагаемым
102 ifm - nXytf-fJ bm(200 - «2/„), (2)
где bin(x) = 2х, а значения и1и п2 зависят от частотной чувствительности слуха и, например, для средней чувствительности составляют, соответственно, 400 и 0,012 В результате удалось теоретически оценить границы слышимых частот для слуха различной частотной чувствительности низкой - 3 8 12010 Гц, средней - 24 16210 Гц, высокой - 16 20010 Гц Таким образом, можно сказать, что зависимости ДF(fm) учитывают эффективно передаваемую полосу частот ЗС
На основании (1) и (2) в работе рассчитаны полосные ряды (рис 1) — последовательность примыкающих друг к другу частотных групп, кото-
рые могут быть полезны при обработке цифровых аудиоданных методом
полосного деления с ортого- „ ,,
Аг, кГц
0,024- 16,2 кГц
О
0,016-20 кГц
24 32 Номер частотной группы
Рис.1. Полосные ряды для различной частотной чувствительности слуха
нальным преобразованием.
В наиболее эффективных кодеках ЗС используется также абсолютный порог слышимости (АПС) Aij), отделяющий уровни слышимых звуков от неслышимых. Сверху область слышимости ограничена болевым порогом B(f). С помощью линейной регрессии общего вида при Rz > 0,99 автором получено аналитическое выражение, описывающее АПС:
A(J) = al/f3 + a2-e?rf- а4-1п(/) + а5, дБ, (3)
где значения коэффициентов al, dl, аЗ, а4, а5 зависят от частотной чувствительности слуха и, например, для средней чувствительности составляют соответственно 1047; 5,5; 1610 5; -13,3 и 34,8.
Также с достаточной точностью (R2 > 0,99) получена функция, аппроксимирующая болевой порог слышимости:
B(J) = -36/lg(/- 6) - 1,2- lg(/) + 227/2°-00001/- 79,4; дБ.
На рис. 2 линиями показаны результаты аппроксимации порогов слышимости, а точками - соответствующие экспериментальные данные. Здесь АПС соответствует средней частотной чувствительности слуха.
Частотная избирательность слуха заключается в подавлении (маскировке) тонов меньшей интенсивности тоном большей интенсивности. Это свойство отображается в виде так называемых кривых
(4)
Порог слышимости, дБ
ПО 80 50 20 -10
Болевой
.Абсолютный
0,01 0,1 ! 10/кГц Рис.2. Пороги слышимости
маскировки (КМ). Вследствие весьма сложного характера КМ в психоакустических моделях современных кодеков ЗС они представляются двумя-тремя отрезками прямых линий и на оси частот задаются таблично, причем на основе усредненных экспериментальных данных, полученных в полосе частот 0,1 ... 12 кГц.
С целью удобства аппроксимации КМ в работе используется относительная частота, определяющая крутизну КМ данного тона в любой ее точке:
/о = Ог-/т)/^(Л). (5)
где / - текущая частота маскируемого тона, а - ширина частотной
группы, образуемой маскирующим тоном частотой /т Кроме того, ветви КМ рассматриваются раздельно
Для левой ветви с высокой точностью (Я2 > 0,99) получено выражение £км.„(/Ь) = 212,5/о + 4265 -/о) - 4070 + £т + «„(/,), дБ, (6) где ат(/т) - коэффициента маскировки, определяющий способность слуха выделять тон из шума, Еш - уровень КМ на частоте/ а £т - уровень маскирующего тона
В правой ветви КМ удобно выделить три участка Поскольку первый участок симметричен левой ветви, его аналитическое описание аналогично (6) Второй участок по форме весьма близок к прямой линии с постоянным углом наклона
п2(/о) = 3,86/о -22 + ЕТ + ат(/т), дБ (7)
Форма третьего участка, помимо всего прочего, зависит от уровня тона
„з(/о, Ет) = а(Е,) /¿Ч/Ь + 9) + Р(£т) + ЕТ + ат(/т), дБ, (8)
где а(£т) и Р(ЕТ) определяют связь £км, дБ крутизны данного участка КМ с уровнем маскирующего тона В этом случае Я2 = 0,995
На рис 3 для уровней тона 80 и 40 дБ сплошными линиями показаны функции аппроксимации, а точками - экспериментальные данные
Кроме гого, при /?' > 0,99 в ра- "2 0 2 4 6 /о
боте проведена аппроксимация за- Рис 3 Кривые маскировки тона висимости ат(/т), как одного из параметров КМ
ат(£) = т 1 с<м(/т 10'4) - т2 ^Т^З + т4, дБ, (9)
где значения коэффициентов т\, т2, тЪ, т4 зависят от эффективно передаваемой полосы частот и, например, для полосы 24 16000Гц составляют соответственно -1,9, -0,053, 300, 0,9
Во второй главе с учетом статистической модели ЗС А В Римского-Корсакова и соответствующих психоакустических свойств слуха проводится анализ параметров сжатия ЗС в базисах ДОП - интервала преобразования Т„ (временного параметра), разрешающей способности ДОП по частоте (частотного параметра) и степени округления спектральных компонент (энергетического параметра)
В соответствии с моделью А В Римского-Корсакова ЗС представляется как 4(0 = а7(<) 11 (г), где <т7(() - случайный низкочастотный процесс с распре-
делением WJx), мало изменяющимся на интервале времени 7'порядка 0,1 с, а г|(г) - стационарный гауссовский процесс с нулевым средним и единичной дисперсией Оба процесса не коррелированны, что позволяет рассматривать их раздельно В общем случае c7(i) нестационарный процесс, однако представляет интерес поведение звукового сигнала на отрезке времени Тт значительно меньшего интервала стационарности 07(/) Поэтому допустимо считать, что распределение Wa(x) на интервале Тп не зависит от времени
В ходе обработки цифровых аудиоданных каждая выборка из N временных отсчетов преобразуется в N коэффициентов ДОП Период последовательности таких преобразований равен Т„ Таким образом, Т„ может служить параметром, отвечающим за точность восстановления той из составляющих динамики изменения уровня спектральных компонент, которая определяется низкочастотным модулирующим случайным процессом Oj(l) На этом основании и с учетом теоремы отсчегов В А Котельникова величину Тп следует выбирать из условия Т„ < 1/(2 Fa), где F„ - верхняя частота спектра модулирующего случайного процесса а7(0
Согласно работам И Е Горона частоту Fa для музыкальных сигналов (за исключением синтезированной музыки) можно принять равной 65 Гц, а для речевых сигналов - 45 Гц Следовательно, ограничения на величину 7'„ можно записать в следующем виде
^ Г7,7 мс для музыкальных сигналов, " [11 мс для речевых сигналов Е Zwicker и R Feldtkeller экспериментально установили, что изменение / в пределах ±5/(минимально ощущаемой девиации частоты) на слух не ощущается Отсюда ими сделан вывод, что 25/является градацией раздражения и определяет ширину еще различимой ступени частоты Применительно же к частоте как параметру субъективного ощущения 26/определяет ширину еще различимой высоты тона на основной мембране внутреннего уха На этом основании в данной работе предлагается принять 25/" в качестве разрешающей способности ДОП по частоте, необходимой для сохранения качества источника цифрового звукового сигнала При этом частоту дискретизации относительно общепринятой (/гд) для того или иного рабочего диапазона частот ЗС придется переопределить
рщпах = ЕЯ/(К-ТП 2 о/), Гц, (11)
где К определяется видом ДОП Отсюда стал понятен механизм влияния Fa на качество субъективного восприятия звука с ее увеличением повышается степень соответствия разрешающей способности ДОП по частоте характеру различимых градаций высоты тона на основной мембране внутреннего уха
В работе на основе экспериментальных данных Е Zwicker и R Feldtkeller и с учетом (1) с высокой точностью (Л2 —»I) удалось получить ана-
литическое описание зависимости 8fifr)
M/r) ~ -0>2 lg(AF(£))- 312 bm(-12 W5 AF(£)) + 315/т -0002, Гц (12)
Таким образом, в явном виде установлена связь минимально ощущаемой на слух девиации частоты с эффективно передаваемой полосой частот Соответствующие функция для различной частотной чувствительности слуха и характерные точки исходной зависимости показаны на рис 4
В соответствии с (11) и (12) в работе gr гц рассчитана Fxmax для двух подходов к спектральному анализу ЗС с помощью ДОП и с помощью полосного деления и ДОП В зависимости от рабочего диапазона частот и вида ДОП в первом случае Fmax составляет от 0,072 до 2,5 МГц, а во втором - от 3 до ю мо ю3 10"/т,Гц 12 кГц Таким образом, актуальным стано- Рис 4 Минимально вится вопрос оценки достаточности F, ощущаемая девиация
Округление коэффициента ДОП означает округление амплитуды соответствующего тона При этом его модуль уменьшается или увеличивается относительно своего реального значения Величина этого изменения постоянна в пределах Гп, но может меняться от одной выборки к другой, причем если это происходит, то скачком С учетом понятия частотной группы такой характер изменения можно интерпретировать как прямоугольную амплитудную модуляцию с частотой/иол = 1/Тп узкополосного шума с центральной частотой/т
Зависимость коэффициента т минимально ощущаемой на слух прямоугольной амплитудной модуляции полосного шума от ширины полосы и частоты модуляции экспериментально установили Е. Zwicker и R Feldtkeller В данной работе с высокой точностью (R2 —> 1) получено аналитическое описание как каждой из этих зависимостей, так и обобщающая их зависимость ™(AFu,) = 49/lg(A/^ + 7)-9,%, '«(/мод) = 1,43 1Е(/~М0Д + я) + 0,84/lgftU + п) + 1240 [Ып(-/мод 105) - 1], т = т(АРш) 0,01 + ш(^мод)-0,155, /мод= 1/Гп Пусть модуль некоторого немаскируемого коэффициента ДОП текущей спектральной выборки представлен q значащими двоичными разрядами (без учета знакового) В результате округления q2 младших разрядов обнуляются, вследствие чего достаточно передать только q\ - q - q2 старших разрядов При этом по правилам округления данный коэффициент преобразования увеличится или уменьшится не более чем на величину А = 2(7 " ?1)/2 Согласно принятой интерпретации округления отношение А/!4 - 2~(ч{+[) определяет коэффициент модуляции Тогда искажения, вызванные округлением, не будут ощущаться на слух, если это отношение
•(13)
не превышает допустимый коэффициент модуляции, то есть если 2"<,1+1) < т. Отсюда
9l=ltoft(l/m)-ir, (14)
где 1 х Г - наименьшее целое, не меньшее х,
Как показывают расчеты, выполненные в соответствии с (13) и (14) при учете (10) для кодирования модуля каждого немаскируемого коэффициента ДОП в зависимости от Т„ в случае музыкальных сигналов достаточно от 2 до 3 двоичных разрядов, а речевых - от 1 до 3
В третьей главе формулируется условие оценки наиболее вероятного числа Nc„ ощущаемых на слух спектральных компонент, проводится анализ этого условия, разрабатывается методика оценки максимально допустимой разрешающей способности ДОП по частоте Д/доп в пределах 1-й частотной группы как субполосы полосных рядов, после чего определяются достаточные значения Fa для различных подходов к спектральному анализу ЗС
В произвольной выборке любая из спектральных компонент С, может, как превышать порог слышимости при маскировке, так и оказаться маскируемой Поскольку в течение Т„ уровень компонент постоянен, на последовательности выборок такие события можно интерпретировать как последовательность тональных импульсов (ТИ) случайной интенсивности, длительности t„ и частоты повторения/, Однако за счет усреднения по времени и исходя из наихудших условий маскировки ТИ (экспериментально исследованы Е Zwicker и R Feldtkeller) /и и /и можно считать постоянными, приняв <„ = Тп, a f„ - Рам /Г„, где использована связь вероятности события со средней частотой его повторения и Р0„, — вероятность отсутствия маскировки С, На этом основании С, будет ощущаться на слух (слышима), если ее уровень Е, не меньше порога слышимости ТИ (£т„,)
Для удобства оценки £,„., в работе получено аналитическое описание известных экспериментальных зависимостей приращения порога слышимости £км, стационарного тона частотой f, в случае маскировки ТИ, вырезанного из того же тона В этих терминах общее приращение Дпс порога слышимости ЕКМ1 определится суммой Дпс = А„с(''п) + &пс(Рш,), дБ, а порог слышимости при маскировке ТИ с частотой заполнения/ как £ти, = Е^, + Д„с Пусть известна вероятность слышимости Рсл, = Р{Е, > £т„ ,(Т„, Pou l)} любой С, /-й субполосы полосного ряда, а значит и вероятность слышимости любого числа п(1) ее компонент В течение интервала усреднения Тус с вероятностью Р{п(Г) > Nca{[)} может произойти одно или более событий п(1) > NCJ,(Í) Потребуем, чтобы средний интервал времени Т„/Р{п(Г) > AU0} между такими событиями превышал Гус Отсюда условие оценки Л'сл(/) будет иметь вид
P{n([)>KÁl)}<Tn/Tyc (15)
В работе значение Гус принято равным максимальной длительности непрерывного звучания Для музыкальны сигналов Гус = 20 мин (симфоническое произведение), а для речевых Гус = 8,66 с (средний интервал между естественными паузами)
С целью оценки вероятности Ром^ в работе с учетом полученных аппроксимаций КМ и порогов слышимости проводится анализ маскировки С, со стороны С*, в результате которого получено выражение
^Цо тп-ц 5 § п-ж*. <*.<*.>.*.»]} (16)
Затем, рассматривая С, на последовательности выборок, получено выражение для оценки вероятности ее слышимости
Р = [1-0-С,) ^ес(Дпс/20),если <Я,,
I „ V»')
[0, в противном случае,
где ёес(х) = 10х, а -эквивалентный порог слышимости С, Считая,
что Рои, и Рсп, одинаковы для любой из п(1) компонент, вероятность одновременной их слышимости будет определяться выражением
^до^сл,,)40 (18)
Поскольку Д/доп(/) = АГфШыф, задача оценки максимально допустимой разрешающей способности ДОП по частоте А/^оп(/) для 1-й субполосы сводится к оценке Суть методики вычисления Л'сл(/) можно сформулировать следующим образом
Пусть в 1-й субполосе уже определено п(1) слышимых спектральных компонент Если Р^^о —
в субполосу добавляется еще одна компонента Для и(/)Н компонент вычисляется РСпМ')^ и вновь проверяется выполнение условия (15) Процедура добавления компонент и вычисления вероятности их одновременной слышимости повторяется, пока не выполнится условие (15) В качестве Мс„{1) принимается наибольшее п(1), при котором условие (15) не выполняется
В соответствии с разработанной методикой получены закономерности распределения Д/доп Для рабочих диапазонов частот ЗС 4, 12, 16 и 20 кГц Согласно этим данным за счет учета характера изменения модуля спектральных компонент во времени наименьшее из Д/доп(0 оказалось в 5 — 6 раз больше 25/" Соответствующие закономерности изменения /^и при методе полосного деления с ДОП (К = 1 для преобразования Фурье и К = 2 для косинусного преобразования), как более перспективном, показаны на рис 5, откуда видно, что повышение частоты дискретизации относительно ее общепринятых значений (показаны точками) требуется лишь в ограниченной полосе частот В четвертой главе с помощью компьютерного моделирования и
РдлМ, кГц 6 г~
РхтМ, КГЦ
Л=_1_ К-2
К= 2
О 10 20 30 / 20-20000 Гц
Ри»А 0. «г« 6 -
О 10 20 /
30- 16000 Гц
РщпМ, кГц
___
'___2_
О 5 10
40-12000 Гц
И 1
Л1±
К-2
2 4 6 8 / 300 - 4000 Гц
Рис 5 Распределение частоты дискретизации в рабочем диапазоне частот ЗС субъективно-статистического анализа проводится проверка достоверности полученных значений параметров сжатия и целесообразности использования аппроксимаций основных психоакустических свойств слуха в психоакустических моделях кодеров ЗС Критерием достоверности является эффективность и качество ЗС на выходе психоакустической модели При этом эффективность сжатия % оценивалась отношением числа ненулевых компонент на входе этой модели к числу ненулевых компонент на ее выходе
Приводится описание используемых в моделировании средств и условий проведения субъективной оценки качества сжатого звука Во всех моделях спектр сигналов представлен модулями коэффициентов ДПФ
Суть методики моделирования округления спектральных компонент заключается в следующем Для каждой компоненты, представленной в модели в виде правильной десятичной дроби, производится двоичное взвешивание и формирование округленной десятичной дроби Согласно протоколу экспертной комиссии для тестовых сигналов в диапазоне значений Та от 3 до 160 мс без ухудшения качества звука фактическая степень округления не превышает расчетную Следовательно, последнюю действительно можно считать необходимой и достаточной для любых ЗС
Для экспериментальной оценки допустимого значения Т„ в работе предложена следующая методика Изменяя Т„, всякий раз проводится экспертная оценка качества звука при маскировке АПС С превышением Тп некоторого допустимого значения амплитуды все большего числа боковых
с
Начало 1Е
3
Вычисление частотных параметров КМ
X
колебаний, обусловленных стХО (модель ЗС А В Римского-Корсакова), станут меньше АПС, что будет ощущаться на слух как искажения звука Согласно протокола экспертной комиссии качество источника цифрового звукового сигнала не ухудшалось при Т„ <, 7 мс для музыкального сигнала иТ„<9 мс для речевого сигнала, что хорошо согласуется с расчетными результатами
Относительно частотного параметра с учетом связи между и ДГдостаточно убедиться в справедливости полученных в работе ограничений на ДГ Для этого путем интерполяции повышается до значения, обеспечивающего 2 Ъ/шп = 3 Гц для музыкального и 4 Гц для речевого сигнала В условиях маскировки АПС определяется соответствующая оценка коэффициента сжатия Хм При фиксированном Т„ для различных Д/, поддерживая найденный ум постоянным, проводится субъективная оценка качества звучания Согласно протоколу экспертной комиссии в диапазоне значений 2 Ь/т,„ < А/ < 6,5 Гц качество источника цифрового звука не ухудшалось, что хорошо согласуется с расчетными результатами - 7,3 мс для музыкального и 7,5 мс для речевого сигнала
Методика моделирования порога слышимости при маскировке в общем виде приведена на рис 6 При использовании правой ветви КМ для речевого сигнала коэффициент сжатия спектра х составил 1,4, а для музыкального — 1,1 При этом искажения звука экспертами не отмечались Применение левой ветви КМ для обоих тестовых сигналов дало % = 1
Совместное применение АПС и правой ветви КМ без ухудшения качества источника цифрового звука обеспечило % = 2,1 (Т„ = 8 мс) для речевого и х ~ 1,2 (Тп = 7 мс) для музыкального тестового сигнала Полученные результаты позволяют вычислить достижимую (без учета кодирования числа и местоположения не нулевых компонент) скорость цифрового потока для тестовых сигналов при 16-разрядном кодировании компонент При фактической степени округления модуля 2 бита на компоненту и с учетом знакового разряда полный коэффициент сжатия для речевого сигнала составляет примерно 11, а для музыкального 6,4 При этом достижимая скорость цифрового потока равна, соответственно, порядка 31 и 54 кбит/с Большой разрыв со скоростью цифрового потока на выходе лучших современных кодеков (64 и 128 кбит/с, соответственно) свидетельствует о целесообразности использования предложенных методик В заключении приведены основные результаты работы
Нормирование к уровню 96 дБ
Определение участка КМ, на частоте
Л_
Определение локально маскирующей компоненты на частоте й
Л
Определение маски-руемости к-ой компоненты
-Е--
С
Конец
3
Рис 6 Моделирование порога слышимости при маскировке
1 Получены выражения, описывающие основные психоакустические свойства слуха человека, позволяющие упростить алгоритмы сжатия цифровых аудиоданных и эффективно модепировать процессы слухового восприятия звука
2 Сформулированы ограничения сверху на величину длительности интервала ДОП, обеспечивающие условия для эффективного сжатия музыкальных и речевых сигналов с сохранением качества источника цифрового звука и рациональную задержку формирования звуковых фрагментов
3 Получено аналитическое выражение для оценки достаточной степени округления модуля спектральных компонент при условии сохранения качества источника цифрового звука, независимо от характера источника звука
4 Разработана методика оценки разрешающей способности ДОП по частоте для различной частотной чувствительности слуха, позволяющая оценить в данной полосе частот закономерность изменения частоты дискретизации, досгаточ1[ую для сохранения качества источника цифрового звукового сигнала при максимальной эффективности сжатия
5 Разработаны методики экспериментальной обработки цифровых аудиоданных средствами машинного моделирования, позволяющие оценить эффективность новых алгоритмов сжатия ЗС
6 Учет частотной чувствительности слуха позволяет привести в соответствие сложность обработки ЗС и требования к качественным показателям соответствующей системы
7 Результаты проведенных исследований могут быть полезны при разработке новых рациональных с точки зрения реализационной сложности и высокоэффективных кодеков для высококачественных систем цифровой обработки и передачи ЗС Применение их в лабораторных условиях для тестовых музыкального и речевого сигналов позволило практически без искажения исходного цифрового звука получить достижимую скорость цифрового потока порядка 54 и 31 кбит/с, соответственно
Приложение содержит протокол экспертной комиссии субъективных оценок качества сжатого ЗС и акты использования результатов диссертации Публикации по теме диссертации
1 Стефанов, А М Эффективное использование интегрирующей способности слуха при цифровой обработки сигналов / А М Стефанов, И А Стефанова // 3 Междунар науч -техн конф «Цифровая обработка сигналов» сб докладов ~М,2000 -т 3 -С. 137-139
2 Стефанова, И А О возможности использования эффекта маскировки в сжатии звуковых сигналов / И А Стефанова, А М Стефанов // VIII Российская науч конф тез докладов -Самара, 2001 -Ч 1 -С 178-179
3 Стефанова, И А К выбору ортогональных преобразований для эффективного сжатия звуковых сигналов / И А Стефанова // IX Российской науч конф тез докладов - Самара, 2002 -С 133
4 Стефанова, И А Аппроксимация основных характеристик слухового анализатора / И А Стефанова // Акустический журнал - 2003 - т 49 -№2 -С 245-249
5 Стефанов, A M Применение порогового восприятия слухом интенсивности звука в сжатии звуковых сигналов / A M Стефанов, И А Стефанова //X Российская науч конф тез докладов -Самара, 2003 -С 188-189
6 Стефанова, И А Оценка предельной эффективности сжатия спектра высококачественных звуковых сигналов / И А Стефанова, A M Стефанов // V Междунар науч -техн конф «Проблемы техники и технологии телекоммуникаций» сб докладов - Самара, 2004 - С 80-82
7 Стефанова И А Критерий оценки эффективности сжатия звуковых сигналов в базисах дискретных ортогональных преобразований / И А Стефанова, A M Стефанов // XI Российская науч конф тез докладов -Самара, 2004 -т 3 -С 188-189
8 Стефанова, И А Полное описание эффекта маскировки для новых технологий обработки звуковых сигналов / И А Стефанова, A M Стефанов // ХИ Российская науч конф «Цифровая обработка сигналов» сб докладов - Самара, 2005 - т 3 - С 248-250
9 Стефанова, И А Оптимизация временного параметра эффективности сжатия звуковых сигналов / И А Стефанова, M А Стефанов I1 6 Междунар. науч -техн конф «Проблемы техники и технологий телекоммуникаций» сб докладов - Уфа,2005.-С 38-40.
10 Стефанова, И А Оценка допустимой степени округления спектральных компонент звуковых сигналов / И А Стефанова // 6 Междунар науч -техн конф «Проблемы техники и технологий телекоммуникаций» сб докладов - Уфа, 2005 -С 36-38
11 Стефанов, A M Оптимизация частотного расстояния между спектральными компонентами звуковых сигналов / A M Стефанов, И А Стефанова // 7 Междунар науч -техн конф «Проблемы техники и технологий телекоммуникаций» сб докладов - Самара, 2006 -С 169-171
12 Стефанова, И А Повышение качества спектрального анализа звуковых сигналов / И А Стефанова, Д В Мишин // «Инфокоммуника-ционные технологии» - 2007 -т5 — №4—С 73-77
13 Стефанова, И А Математическое моделирование процесса округления модуля спектральных компонент / И А Стефанова, Д В Мишин // 8 Междунар науч -техн конф «Проблемы техники и технологий телекоммуникаций». сб. докладов. - Уфа, 2007 - С. 40-42
Подписано в печать 06 11 07 Формат 60х84'/,6 Бумага писчая № 1 Гарнитура Тайме Заказ А002 Печать оперативная Уел печ л 0,93 Физ печ л 1,00 Уч-изд л 0,5? Тираж 100 экз
Типография государственного образовательного учреждения высшего профессионального образования «Поволжская государственная академия телекоммуникаций и информатики» 443010, г Самара, ул Л Толстого, 23 Тел/факс (846)339-11-11,339-11-81
Оглавление автор диссертации — кандидата технических наук Стефанова, Ирина Алексеевна
ВВЕДЕНИЕ.
1. АНАЛИЗ РЕЗУЛЬТАТОВ НАУЧНО-ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ ОСНОВНЫХ ПСИХОАКУСТИЧЕСКИХ СВОЙСТВ СЛУХА ЧЕЛОВЕКА.
1.1 Состояние вопроса и постановка задачи.
1.2. Свойство частотного группообразования.
1.3. Границы слышимых звуков.
1.4. Свойство частотной избирательности.
Выводы по главе 1.
2. ИССЛЕДОВАНИЕ ПАРАМЕТРОВ ЭФФЕКТИВНОСТИ СЖАТИЯ ЗВУКОВЫХ СИГНАЛОВ.
2.1. Состояние вопроса и постановка задачи.
2.2. Исследование параметров длины выборки.
2.3. Анализ частотного параметра для различных подходов к спектральному анализу звуковых сигналов.
2.4. Исследование энергетического параметра.
Выводы по главе 2.
3. МИНИМИЗАЦИЯ ЧАСТОТНОГО ПАРАМЕТРА ЭФФЕКТИВНОСТИ СЖАТИЯ.
3.1. Состояние вопроса и постановка задачи.
3.2. Условие оценки наиболее вероятного наибольшего числа ощущаемых на слух спектральных компонент в пределах субполосы
3.3. Анализ условия слышимости спектральных компонент.
3.4. Метод оценки разрешающей способности ДОП по частоте в пределах субполосы.
Выводы по главе 3.
4. КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ БЛОКА ПСИХОАКУСТИЧЕСКОГО АНАЛИЗА КОДЕРА ЦИФРОВЫХ АУДИОДАННЫХ.
4.1. Состояние вопроса и постановка задачи.
4.2. Средства моделирования цифровой обработки звуковых сигналов и условия проведения субъективной оценки качества звучания.
4.3. Степень округления модуля спектральных компонент.
4.4. Ограничения на временной и частотный параметры эффективного сжатия.
4.5. Моделирование порога слышимости при маскировке.
Выводы по главе 4.
Введение 2007 год, диссертация по радиотехнике и связи, Стефанова, Ирина Алексеевна
Актуальность темы. Важнейшие технико-экономические показатели любой системы цифровой обработки и передачи звуковых сигналов в значительной мере определяются степенью сокращения избыточности первичного цифрового сигнала. При этом различают статистическую и психоакустическую избыточность. Сокращение статистической избыточности основано на учете свойств самих ЗС, а психоакустической - на учете особенностей слухового восприятия звука. Устранение статистической избыточности ЗС даже при достаточно сложных процедурах обработки позволяет в конечном итоге уменьшить изначально требуемую пропускную способность канала связи лишь на 15 . 40 % [1 - 7]. Такое сжатие уже не может обеспечить все возрастающие требования, причем не столько к количеству, как к качеству передаваемой информации. Поэтому в последнее время в нашей стране и за рубежом уделяется большое внимание [8 - 22] вопросам развития новых методов сжатия ЗС, основанных на использовании психоакустических свойств слуха человека. При этом сжатие ЗС производится не во временной, а в частотной области, для чего используются дискретные ортогональные преобразования (ДОП). Основополагающими в этой области являются работы таких авторов, как Е. Zwicker, W. Reichardt, К. Brandenburg, G. Stoll и др. В России следует выделить работы Ю.А. Ковалгина и A.M. Синильникова.
В современных цифровых технологиях для систем обработки и передачи ЗС самое широкое применение получили алгоритмы компрессии, реализованные в стандартах [23 - 26], выработанных международной экспертной группой MPEG {Moving Pictures Expert Group), и в стандарте ATSC {Advanced Television System Committee) Dolby AC-3 {A/52) [27]. Соответствующие кодеки обеспечивают цифровые скорости от 64 кбит/с [28] для мультимедиа приложений до 384 кбит/с [29] для цифрового стереофонического вещания. При этом, согласно результатам [30] экспертных оценок качества, выполненных в соответствии с [31], субъективное качество студийного цифрового сигнала сохраняется при сжатии цифрового потока с 768 кбит/с до 128 кбит/с. А по утверждению разработчиков MUSICAM [32, 33] качество источника цифрового звука сохраняется и при сжатии до 8 раз. Другие алгоритмы компрессии, используемые в форматах РАС, VQF, WMA, Ogg Vorbis, при том же качестве обеспечивают скорость не ниже 96 кбит/с. Этого удалось добиться за счет изменения психоакустической модели соответствующих кодеров. Вместе с тем дальнейшее развитие высокоэффективных (высокопроизводительных при условии сохранения качества источника цифрового звука) кодеков ЗС сдерживается рядом нерешенных проблем, основными из которых являются:
1. Известно [34], что при пропускной способности слухового аппарата в 100. 120 кбит/с человек способен осознанно воспринимать лишь порядка 100 бит/с, что значительно ниже цифровой скорости на выходе современных систем сжатия ЗС. Одной из основных причин такого различия является неэффективное использование основных свойств слухового анализатора в психоакустических моделях кодеров, что является следствием отсутствия их аналитического описания.
2. Другой причиной относительно невысокой эффективности современных систем сжатия ЗС является построение их психоакустических моделей на основе усредненных экспериментальных данных [23 - 27]. В результате высокое качество субъективного восприятия звука может быть обеспечено лишь для лиц с частотной чувствительностью слуха не выше средней (до 16 кГц). Такой подход к построению психоакустических моделей объясняется неявным отображением в имеющихся статистических данных зависимости основных психоакустических свойств слуха от его частотной чувствительности. Вследствие этого выявить необходимую зависимость можно лишь аналитическим путем.
3. Одним из основных параметров, определяющих эффективность сжатия ЗС в частотной области, является длина выборки N дискретного ортогонального преобразования. В стандартах MPEG значение N варьируется от 256 до 2048, а в стандарте Dolby АС-Ъ (Л/52) - от 256 до 512. С целью поиска рациональной величины N был проведен ряд исследований [35, 36]. При этом, по сути, оценивалась длительность Гп интервала дискретного ортогонального преобразования Тп. Однако существенный разброс в полученных результатах затрудняет выбор какого-либо из них. Экспериментальный же путь решения этого вопроса требует довольно значительных временных и финансовых затрат.
4. Другим важным параметром эффективности кодирования ЗС в базисах ДОП является энергетический параметр - степень округления (уменьшение разрядности кодирования) коэффициентов ДОП. В настоящее время среди специалистов в области обработки звуковых сигналов нет единого мнения [30,37,38] относительно интерпретации искажений, связанных с процедурой округления. Поэтому степень округления предлагается определять эмпирически [39], что обусловливает ее зависимость как от характера ЗС в целом (речь или музыка), так и от характера отдельных их фрагментов.
5. Третьим параметром эффективности сжатия цифровых аудиоданных, влияющим на качество субъективного восприятия восстановленного звука, является частота дискретизации FA. Так, с целью повышения качественных показателей в современной высококачественной аудиоаппаратуре Fa увеличивают до 96 и даже до 192 кГц [30]. Объясняют этот эффект недостаточным временным разрешением, обусловливающим неприятное звучание ошибок квантования, совершенно не учитывая психоакустический аспект. Видимо, по этой причине, по крайней мере, в общедоступных литературных источниках, отсутствуют сведения о закономерности изменения Fa в рабочем диапазоне частот ЗС, причем в зависимости от частотной чувствительности слуха.
От обоснованного решения перечисленных проблем зависят все важнейшие характеристики как существующих, так и новых высокоэффективных систем цифровой обработки и передачи ЗС. Поэтому актуальной является задача изыскания аналитического описания основных психоакустических свойств слуха, рациональных параметров эффективности сжатия и разработки эффективных методов исключения избыточных спектральных компонент.
Цель и задачи работы. Целью диссертации является повышение эффективности и качества сжатия цифровых аудиоданных. Для достижения указанной цели в диссертационной работе поставлены следующие задачи:
- анализ статистических данных, полученных в результате экспериментальных исследований основных психоакустических свойств слуха человека, с целью их аналитического описания при учете эффективно передаваемой полосы частот ЗС;
- исследование и установление предельно допустимых с точки зрения сохранения качества источника цифрового звука значения Гп и степени округления модуля коэффициентов ДОП для музыкальных и речевых сигналов;
- исследование и установление психоакустического аспекта механизма влияния Fa на качество субъективного восприятия звука и закономерности ее изменения в рабочей полосе частот ЗС;
- разработка методик и экспериментальное исследование эффективности сжатия цифровых аудиоданных при различных значениях параметров сжатия.
Объектом исследования являются новые цифровые технологии для систем обработки и передачи ЗС.
Предметом исследования является система сжатия цифровых аудиоданных.
Методы исследования. При решении поставленных задач использовались методы спектрального анализа, теории вероятностей и математической статистики, теории цифровой обработки сигналов, результаты экспериментальных исследований психоакустических свойств слуха и статистических свойств звуковых сигналов, а также компьютерное моделирование.
Научная новизна работы заключается в развитии методов цифровой обработки ЗС и состоит в следующем:
- разработан алгоритм психоакустического анализа ЗС, основанный на моделировании порога слышимости при маскировке;
- сформулированы ограничения сверху на величину Тп, обеспечивающие условия для эффективного сжатия музыкальных и речевых сигналов с сохранением качества источника цифрового звукового сигнала;
- получено аналитическое выражение для оценки достаточной степени округления модуля спектральных компонент при условии сохранения качества источника цифрового звукового сигнала;
- разработана методика оценки разрешающей способности ДОП по частоте, необходимой и достаточной для сохранения качества источника цифрового звука, позволяющая оценить соответствующую закономерность изменения в данной рабочей полосе частот ЗС;
- разработаны методики экспериментальной обработки цифровых аудиоданных средствами компьютерного моделирования.
Вклад автора в разработку проблемы. Основные научные положения, теоретические выводы и рекомендации, а также методы экспериментальной обработки цифровых аудиоданных средствами математического моделирования, содержащиеся в диссертационной работе, получены автором самостоятельно.
Практическая ценность и реализация результатов работы. Полученные аналитические выражения и зависимости позволяют повысить производительность систем сжатия цифровых аудиоданных при сохранении высоких качественных показателей.
Результаты работы могут быть использованы при разработке новых и усовершенствовании существующих цифровых технологий передачи и обработки ЗС. Разработанные методики экспериментальной обработки цифровых аудиоданных могут быть использованы для оценки эффективности новых алгоритмов сжатия.
Основные теоретические и практические результаты, полученные в работе, использованы ФГУП СОНИИР и внедрены в учебный процесс ГОУВ-ПО Поволжской государственной академии телекоммуникаций и информатики г. Самара, что подтверждается соответствующими актами.
Апробация работы. Основные результаты и положения работы обсуждались и были одобрены на VIII - XII Российских научных конференциях
Самара, ПГАТИ, 2001 - 2005), 3 Международной конференции и выставке «Цифровая обработка сигналов и ее применение» (Москва, 2000), 5 Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Самара, 2004), 6 Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Уфа, 2005), 7 Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Самара, 2006), 8 Международной научно-технической конференции «Проблемы техники и технологий телекоммуникаций» (Уфа, 2007).
Публикации. Основное содержание диссертации отражено в 13 печатных работах, в том числе 2 статьи в научных изданиях, входящих в перечень ВАК, и 11 тезисов и текстов докладов на Российских и Международных конференциях.
Достоверность полученных результатов и положений работы обосновывается корректной интерпретацией параметров эффективности сжатия ЗС и строгим использованием математического аппарата в процессе выводов аналитических выражений. Подтверждается оценками экспертной комиссии при прослушивании сжатых цифровых аудиоданных, взятых с компакт-диска EBU-SQAM, Cat. № 422 204-2, рекомендуемого для таких испытаний исследовательской группой MPEG, а также научными трудами и апробациями на представительных научных форумах.
Основные положения, выносимые на защиту:
- алгоритм моделирования порога слышимости при маскировке;
- значения Т„, при которых еще обеспечиваются условия для эффективного сжатия музыкальных и речевых сигналов с сохранением качества источника цифрового звукового сигнала;
- аналитическое выражение для оценки достаточной степени округления модуля спектральных компонент, при условии сохранения качества источника цифрового звукового сигнала;
- методика оценки разрешающей способности ДОП по частоте, необходимой и достаточной для сохранения качества источника цифрового звука учитывающей рабочую полосу частот ЗС;
- результаты экспериментальной обработки цифровых аудиоданных средствами компьютерного моделирования.
Структура и объем работы. Материал диссертации состоит из введения, четырех глав основной части, заключения, списка использованной литературы и приложений. Основная часть работы содержит 142 страницы машинописного текста, 55 рисунков, 14 таблиц. Список литературы включает 111 наименований.
Заключение диссертация на тему "Разработка и исследование методов повышения эффективности и качества компрессии цифровых аудиоданных"
Выводы по главе 4
1. Для системы MATLAB + Simulink разработаны методики компьютерного моделирования порога слышимости при маскировке и искажений, вызванных изменением длины выборки и частотного расстояния, а также округлением спектральных компонент.
2. Результаты экспериментальной проверки основных положений данной работы позволяют считать их достаточно достоверными.
3. Полученные в работе аппроксимации основных психоакустических свойств слуха за счет непосредственного их применения позволяют повысить эффективность и качество психоакустического анализа в кодерах ЗС.
В результате моделирования порога слышимости при маскировки без ухудшения качества цифрового звука получена скорость цифрового потока на выходе психоакустической модели для музыкального теста (рабочий диапазон частот 30 . 15000 Гц, частота дискретизации 44,1 кГц) 54 кбит/с, для речевого теста (рабочий диапазон частот 40 . 10000 Гц, частота дискретизации 44,1 кГц) 30,7 кбит/с.
4. Разработка новых более эффективных алгоритмов кодирования является целесообразной.
ЗАКЛЮЧЕНИЕ
Теоретические и экспериментальные исследования, выполненные в диссертационной работе, позволяют сформулировать следующие основные выводы и результаты:
1. Получены выражения, описывающие основные психоакустические свойства слуха человека, позволяющие упростить алгоритмы сжатия цифровых аудиоданных и эффективно моделировать процессы слухового восприятия звука.
2. Сформулированы ограничения сверху на величину длительности интервала ДОП, обеспечивающие условия для эффективного сжатия музыкальных и речевых сигналов с сохранением качества источника цифрового звука и рациональную задержку формирования звуковых фрагментов.
3. Получено аналитическое выражение для оценки достаточной степени округления модуля спектральных компонент при условии сохранения качества источника цифрового звука независимо от характера источника звука.
4. Разработана методика оценки разрешающей способности ДОП по частоте для различной частотной чувствительности слуха, позволяющая оценить в данной полосе частот закономерность изменения частоты дискретизации, достаточную для сохранения качества источника цифрового звука при максимальной эффективности сжатия.
5. Разработаны методики экспериментальной обработки цифровых аудиоданных средствами математического моделирования, позволяющие оценить эффективность новых алгоритмов сжатия ЗС.
6. Учет частотной чувствительности слуха позволяет привести в соответствие сложность обработки ЗС и требования к качественным показателям соответствующей системы.
7. Результаты проведенных исследований могут быть полезны при разработке новых рациональных с точки зрения реализационной сложности и высокоэффективных кодеков для высококачественных систем цифровой обработки и передачи ЗС. Применение их в лабораторных условиях для тестовых музыкального и речевого сигналов позволило без ухудшения качества источника цифрового звука получить достижимую скорость цифрового потока 54 и 30,7 кбит/с, соответственно.
Библиография Стефанова, Ирина Алексеевна, диссертация по теме Системы, сети и устройства телекоммуникаций
1. Синильников, A.M. Дифференциальная импульсно-кодовая модуляция с плавающей запятой / A.M. Синильников //Техника средств связи: Сер. ТРПА. 1983. - Вып. 1. - С. 56-61.
2. Дельта-модуляция / М.Д. Венедиктов и др. М.: Связь, 1976. - 272 с.
3. Харатишвили, Н.Г. Дифференциальная импульсно-кодовая модуляция в системах связи / Н.Г. Харатишвили. М.: Радио и связь, 1982. - 135 с.
4. Свириденко, В.А. Анализ систем со сжатием данных / В.А. Свири-денко. -М.: Связь, 1977. 184 с.
5. Гуревич, В.Э. Импульсно-кодовая модуляция в многоканальной телефонной связи / В.Э. Гуревич, Ю.Г. Лопушнян, Г.В. Рабинович. М.: Связь, 1973.-336 с.
6. Пилипчук, Н.И. Адаптивная импульсно-кодовая модуляция / Н.И. Пилипчук, В.П. Яковлев. М.: Радио и связь, 1986. - 295 с.
7. Сапожков, М.А. Вокодерная связь / М.А. Сапожков, В.Г. Михайлов. М.: Радио и связь, 1983. - 248 с.
8. Грудинин, А.С. Кодирование сигналов звукового вещания в базисе дискретного косинусного преобразования / А.С. Грудинин, A.M. Синильников // Техника средств связи: Сер. ТРПА. 1986. - Вып. 3. - С. 3-10.
9. Грудинин, А.С. Кодирование звуковых сигналов в спектральной области / А.С. Грудинин, Ю.А. Ковалгин // Техника кино и телевидения. М.: Искусство, 1987.-№7.-С. 14-19.
10. Ковалгин, Ю.А. Компрессия цифрового звука: психоакустические основы и алгоритмы / Ю.А. Ковалгин // Звукорежиссер. 2000. - №6. - С. 5663.
11. Колесников, В.М. Спектральные методы сокращения избыточности высококачественных звуковых сигналов / В.М. Колесников и др. // Радио и телевидение ОИРТ. 1989. - №1. - С. 36-39.
12. Колесников, В.М. Спектральные методы сокращения избыточностивысококачественных звуковых сигналов / В.М. Колесников и др. // Радио и телевидение ОИРТ. -1989. №2. - С. 35-39.
13. Моисеев, М.Н. Кодирование высококачественных звуковых сигналов в частотной области / М.Н. Моисеев, A.M. Синильников // Электросвязь. -1988.-№8.-С. 34-36.
14. Синильников, A.M. Полосное кодирование звуковых сигналов с ортогональным преобразованием / A.M. Синильников // Электросвязь. 1991. -№8.-С. 35-37.
15. Розенберг, Е.А. Построение аппаратуры адаптивного кодирования в спектральной области / Е.А. Розенберг, A.M. Синильников, Б.И. Шехтман // Техника средств связи: Сер. ТРПА. 1989. - Вып. 1. - С. 9-16.
16. Blesser, В.A. Digitization of Audio: A Comprehensive Examination of Theory, Implementation, and Current Practice / B.A. Blesser // Journal of the Audio Engineering Society. 1987. - №10. - Vol. 26. - P. 739-771.
17. Brandenburg, K. OCF: Coding High Quality Audio with Data Rates of 64 kbit/sec / K. Brandenburg // Proc. 85th Conv. Aud. Eng. Soc., Preprint #2723. -Mar. 1988.-P. 813-817.
18. Brandenburg, K. ASPEC: Adaptive Spectral Entropy Coding of High Quality Music Signals / K. Brandenburg et. al. // Proc. 90th Conv. Aud. Eng. Soc., Preprint #3011. Feb. 1991. - 1025-1029.
19. Brandenburg, K. Transform coding of high quality digital audio at low bitrates-algorithms and implementation / K. Brandenburg et. al. // Proc. of the 1990 Int. Conf. on Acoustics, Speech and Signal Processing ICASSP. 1990. - P. 322.2.1-322.2.5.
20. Princen, J. Subband/transform coding using filter bank desingnsbased on time domain aliasing cancellation / J. Princen, A. Johnson, A. Bradley //Proc. of the 1987 Int. Conf. on Acoustics, Speech and Signal Processing ICASSP. 1987. -P. 2161-2164.
21. Richardson, E.B. Subband coding with adaptive prediction for 56 kbit/sec audio / E.B. Richardson, N.S. Jayant // IEEE Trans. Acoust., Speech, SignalProcessing.-April. 1986.-Vol. ASSP-34.-P. 691-696.
22. Smyth, M. APT-X100: A low-delay, low bit-rate, sub-band ADPCM audio-coder for Broadcasting / M. Smyth, S. Smyth // Proceeding of the 10th International AES Conference. 1991. - P. 41-56.
23. International Standard ISO/IES 11172-3. Information technology Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s. Part 3: Audio. - 1993-08-01.
24. International Standard ISO/IES 13818-3. Information technology-Generic Coding of moving pictures and associated audio information. Part 3: Audio.- 1995-05-15.
25. International Standard ISO/IES 13818-7. Information technology-Generic Coding of pictures and associated audio information. Part 7: Advanced Audio Coding (AAC). - 1997(E).
26. ISO/IES FCD 14496-3 Subpart 1. Information Technology-Very Love Bit rate Audio-Visual Coding. Part 3: Audio. - 1998-05-10 (ISO/JTC 1/SC 29, N2203).
27. Digital Audio Compression Standard (AC-3)//Doc. A/52. 1995-12-20.
28. Musman, H.G. Kompressionsalgoritmen fuer interaktive Multimedia-System / H.G. Musman, O. Werner, H. Fuchs // Informationstechnik und Tech-nische Informatik. 1993. - N2. - S.4-18.
29. Ковалгин, Ю.А. Цифровое кодирование звуковых сигналов / Ю.А. Ковалгин, Э.И. Вологдин. СПб.: КОРОНА-принт, 2004. - 240 с.
30. ITU-R Recommendation "Method for objective Measurements of Perceived Audio Quality" (Document 10-4/19-E, 19 March 1998).
31. Theile, G. MUSICAM Surround: The universal multi-channel coding system / G. Theile, G. Stoll //17. Tonmeistertagung, Karlsruhe, Bericht. 1992.1. S.96-108.
32. Артюшенко, B.M. Цифровое сжатие видеоинформации и звука: учеб. пособие / В.М. Артюшенко, О.И. Шелухин, М.Ю. Афонин; под ред. В.М. Артюшенко. -М.: Дашков и К, 2003. 426 с.
33. Стефанов, A.M. Формирование и обработка сигналов цифрового радиовещания с целью повышения эффективности и качества: автореф. дис. . канд. тех. наук: 05.12.02: защищена 09.06.98 / A.M. Стефанов; ЛЭИС. -Ленинград, 1988. 16 с.
34. Дворецкий, И.М. Цифровая передача сигналов звукового вещания / И.М. Дворецкий, И.Н. Дриацкий. М.: Радио и связь, 1987. - 192 с.
35. Моисеев, М.Н. Кодирование высококачественных звуковых сигналов в частотной области / М.Н. Моисеев, A.M. Синильников // Электросвязь. -1988.-№9.-С. 34-36.
36. Reichardt, W. Crundlagen der Electroakustik / W. Reichardt // 3. Auflage, Leipzig. Akademische Verlagsgesellschaft. 1947. - S.88.
37. Zwicker, E. Die Eignung des dynamischen Kopfhorers zur Untersuchung Frequenzmodulierter Tone / E. Zwicker, G. Gassier //Acustica. 1952. - №2. - S. 134.
38. Zwicker, E. Uber das Freifeldubertragungsmass des Kopfhorers DT48 / E. Zwicker, D. Maiwald // Acustica. 1963. - №13. - S. 181.
39. Feldtkeller, R. Wechselbeziehungen zwischen Psychologie, Physiologieund Nachrichtentechnik / R. Feldtkeller // Aufnahme und Verarbeitung von Nachrichten durch Organismen. Stuttgart, Hirzel-Verlag, 1961. - S. 193.
40. Stevens, S.S. On the Psychophysical Law / S.S. Stevens // Psychological Review.- 1957.-№64.-P. 153.
41. Цвикер, Э. Фельдкеллер P. Ухо как приемник информации / Э. Цви-кер, Р. Фельдкеллер; пер. с нем. под ред. Б.Г. Белкина. М.: Связь, 1971. -256 с.
42. Zwicker, Е. Psychoacoustic / Е. Zwicker. Springier, Verlag, Berlin, Heidelberg, New York, 1982. - 326 p.
43. Reichardt, W. Crundlagen der Electroakustik / W. Reichardt // 3. Au-flage, Leipzig. Akademische Verlagsgesellschaft. Leipzig, 1947. - S. 44.
44. Blesser, B. A Re-examination of the S/N Question for System with Time-Varying Gain or Frequency Response / B. Blesser, F. Ives // J. Audio Eng. Soc. 1972. - Vol. 20. - № 8. - P. 638-641.
45. Блессер, Б. Цифровая обработка звуковых сигналов / Б. Блессер, Дж.М. Кейтис // Применение цифровой обработки сигналов / А. Оппенгейм; пер. с англ. под ред. A.M. Рязанцева. М.: Мир, 1980. - Гл. 2. - С.39-136.
46. Krahe, D. Ein Verfahren fur Datenreduktion bei digitalen Audiosignalen unter Ausnutzung psychoakustischer Phanomene / D. Krahe // Rundf. Mit. 1986. -№3.-S. 122-125.
47. European Telecommunication Standard ETSI EN 300401. Radio broadcast systems; Digital Audio Broadcasting (DAB) to mobile, portable and fixed receivers. Second Edition (May 1997), p. 226.
48. Freyer, Ulrich. DAB-Digitaler Hoerfunk / Ulrich Freyer. // Verlag Tech-nik GmBH. Berlin, 1997. - 132 s.
49. European Telecommunication Standard ETSI TS 101 980 VI. 1.1. (200109). Technical Specification. Digital Radio Mondiale (DRM); System Specification.
50. Stoll, G. Extension of ISO/Mpeg-Audio Layer II to Multichannel Coding: Thew Future Standard for Broadcasting, Telecommunication, and Multimedia
51. Applications / G. Stoll et. al. // Preprints AES 94th Convention International Congress Center. Berlin, 1993. - March 16-19 (№ 3550). - P.14.
52. ATSC Digital Television Standard//Doc. A/53. 1995-09-16.
53. Yoshida, T. The Rewritable MiniDisc System / T. Yoshida // Proc. IEEE Trans. Commun. 1994. - Vol. 44, № 10 - P. 1492-1500.
54. Stoll, G., MASCAM: Minimale Datenrate durch Berucksichtigung der Gehoreigenschaften bei der Codierung hochwertiger Tonsignale / G. Stoll, G. Theile // Fernseh-und Kinotechnik. 1988. - Jahrgang 42, Heft 11- S. 551-558.
55. Eberlein, E. MPEG-Audio-Layer-III System / E. Eberlein // Tonmeis-tertagung, Karlsruhe, Bericht. 1992. -№ 17. - S. 60-70.
56. Brandenburg, K. Second Generation Perceptual Audio Coding: The Hybrid Coder / K. Brandenburg, J.D. Jonston // In Proc. ICASSP-90. 1990. - May. -P. 1109-1112.
57. Дьяконов, В.П. Mathcad 7 в математике, физике и в Internet / В.П. Дьяконов, И.В. Абраменкова. М.: Нолидж, 1999. - 345 с.
58. Ферстер, Э. Методы корреляционного и регрессионного анализа / Э. Ферстер, Б. Ренц. М.: Финансы и статистика, 1983. - 302 с.
59. Дрейпер, Н. Прикладной регрессионный анализ / Н. Дрейпер, Г. Смит. -М.: Финансы и статистика, 1996. 336 с.
60. Стефанов, A.M. Эффективное использование интегрирующей способности слуха при цифровой обработки сигналов / A.M. Стефанов, И.А. Стефанова// 3 Междунар. науч.-техн. конф. «Цифровая обработка сигналов»: сб. докладов. -М., 2000. т. 3. - С. 137-141.
61. Самусев, Р.П. Атлас анатомии человека / Р.П. Самусев, В.Я. Лип-ченко. 5-е изд., перераб. и доп. - М.: ООО «Издательский дом «ОНИКС 21 век»: ООО «Мир и Образование», 2002. - 544 с.
62. Jonston, J.D. Transform Coding of Audio Signals Using Perceptual Noise Criteria / J.D. Jonston // IEEE J. Sel. Areas in Comm. 1988. - № 2. - P. 314-323.
63. Jonston, J.D. Estimation of Perceptual Entropy Using Noise Criteria / J.D. Jonston // IEEE Trans, on Commun. 1988. - №9. - P. 2524-2527.
64. Brandenburg, K. Second Generation Perceptual Audio Coding: The Hybrid Coder / K. Brandenburg, J.D. Jonston // In Proc. ICASSP-90. 1990. - № 5. -P. 1109-1112.
65. Paillard, B. Mabilleau P., Morissette S., Soumagne J. PERCEVAL: Perceptual Evaluation of the Quality of Audio Signals / B. Paillard et. al. // J. of the Audio Engineering Society. 1992. - Vol. 40. - № 1/2. - P. 21-31.
66. Kapust, R. Qualitaetsbeurteilung codierter Audiosignale mittels einer Bark-Transformation / R. Kapust // Der Technischen Fakultaet der Universitaet Er-langen-Nuernberg, zur Erlangen des Grades. Erlangen, 1993. - S. 166.
67. Стефанова, И.А. О возможности использования эффекта маскировки в сжатии звуковых сигналов / И.А. Стефанова, A.M. Стефанов // VIII Российская науч. конф.: тез. докладов. Самара, 2001. - Ч. 1. - С. 178-179.
68. Стефанова, И.А. Полное описание эффекта маскировки для новых технологий обработки звуковых сигналов / И.А. Стефанова, A.M. Стефанов // XII Российская науч. конф. «Цифровая обработка сигналов»: сб. докладов. -Самара, 2005. т. 3. - С. 248-250.
69. Стефанова, И.А. Аппроксимация основных характеристик слухового анализатора / И.А. Стефанова // Акустический журнал. 2003. - т.49. - № 2.-с. 245-249.
70. Elliot, D. Fast transform: Algorithm, analyses and applications / D. Elliot, K.R. Rao. -N. Y., Academic Press, 1982. 318 p.
71. Оппенгейм A.B. Цифровая обработка сигналов / A.B. Оппенгейм, P.B. Шафер; пер. с англ. под ред. С.Я. Шаца. М.: Связь, 1979. - 416 с.
72. Зюко, А.Г. Теория передачи сигналов: уч. для вузов / А.Г. Зюко и др. Изд. 2-е, перераб. и доп. - М.: Радио и связь, 1986. - 304 с.
73. Стефанова, И.А. К выбору ортогональных преобразований для эффективного сжатия звуковых сигналов / И.А. Стефанова // IX Российской науч. конф.: тез. докладов Самара, 2002. - С. 133.
74. Банк, М.У. Формирование выборки звукового сигнала при спектральном преобразовании / М.У. Банк, В.А. Сучилин //Электросвязь. 1990. -№1.-С. 28-29.
75. Church, S. ISDN and ISO/MPEG Layer III Audio Coding: Powerful New Tools for Broadcast Audio Production / S. Church //AES an audio engineering society preprint. The 95th Convention. New York, 1993. - October. - P. 7-10.
76. Church, S. ISDN and ISO/MPEG Layer III Audio Coding: Powerful New Tools for Broadcast Audio Production / S. Church, B. Grill, H. Popp // Preprints AES 96th Convention. Amsterdam, 1994. - February, 26-March, 01. - P. 10.
77. Theile, G. Low bit-rate coding of high-quality audio signals. An introduction to the MASCAM system / G. Theile, G. Stoll, M. Link // EBU Review-Technical. 1988. -№ 230). - P. 158-181.
78. Thiede, T. Arbeitsweise und Eigenschaften von Verfahren zur Gehoer-richtigen Qualitaetsbewertung von Bitratenreduzierten Audiosignalen / T. Thiede, G. Steinke // Rundfunktechnische Mitteilungen, Jahrgang 38. 1994. - № 3. - S. 102-114.
79. Wiese, D. Optimierung von Fehlererkennung und verschleierung fur ISO/MPEG/AUDIO Codecs / D. Wiese // Tonmeistertagung, Karlsruhe, Bericht. -1992.-№ 17.-S. 109-116.
80. Ковалгин, Ю.А. Алгоритмы компрессии цифровых аудиоданных / Ю.А. Ковалгин // Системы и средства связи, телевидения и радиовещания. -2000.-№3.-С. 17-29.
81. Грудинин, А.С. Кодирование сигналов звукового вещания в базисе дискретного косинусного преобразования / А.С. Грудинин, A.M. Синильников // Техника средств связи: Сер. ТРПА. 1986. - Вып. 3. - С. 3-10.
82. Deloraine, Е.М., The 25th Anniversary of PCM / E.M. Deloraine, A.H.
83. Reeves//El. Communication.- 1965.-Vol. 40.-№ l.-P. 169-182.
84. Римский-Корсаков, A.B. Статистические свойства радиовещательного сигнала // Акустический журнал. 1960. - т.6. - Вып. 3. - С. 360-369.
85. Richards, D.R. Statistical properties of speech signals / D.R. Richards // Proc. IEE. 1964. - Vol. 111. - № 5. - P. 941-948.
86. Величкин, А.И. Теория дискретной передачи непрерывных сообщений / А.И. Величкин. М.: Сов. Радио, 1970. - 296 с.
87. Шитов, А.В. Статистические характеристики сигналов, представляющих натуральные звучания, и их применение при исследовании электроакустических систем / А.В. Шитов, Б.Г. Белкин // НИКОИ: сб. трудов. 1976. -Вып. 56.-С. 360-369.
88. Горон, И.Е. Радиовещание / И.Е. Горон. М.: Связь, 1979. - 368 с.
89. Стефанова И.А. Критерий оценки эффективности сжатия звуковых сигналов в базисах дискретных ортогональных преобразований / И.А. Стефанова, A.M. Стефанов. // XI Российская науч. конф.: тез. докладов Самара, 2004.-т. З.-С. 188-189.
90. Ahmed, A. Discrete cosine transform / A. Ahmed, Т. Natarajan, К.Р. Rao. // IEEE Trans. Commun. Technol. 1974. - Vol. COM-25. - P. 90-93.
91. Стефанова, И.А. Оптимизация временного параметра эффективности сжатия звуковых сигналов / И.А. Стефанова, М.А. Стефанов. // 6 Между-нар. науч.-техн. конф. «Проблемы техники и технологий телекоммуникаций»: сб. докладов. Уфа, 2005. - С. 38-40.
92. Crochier, R.E. Frequency domain coding of speech / R.E. Crochier, J.M. Tribolet. // IEEE Trans. Commun. Technol. 1979. - Vol. ASSP-27. - P. 50-54.
93. Link, M. Mithorschwellen-angepab te Teilband-codierung hochwertiger Tonsignale / M. Link. // Funkcshan. 1987. - N. 13. - S. 44-48.
94. Стефанов, A.M. Применение порогового восприятия слухом интенсивности звука в сжатии звуковых сигналов / A.M. Стефанов, И.А. Стефанова. // X Российская науч. конф.: тез. докладов. Самара, 2003. - С. 188-189.
95. Стефанова, И.А. Оценка допустимой степени округления спектральных компонент звуковых сигналов / И.А. Стефанова. // 6 Междунар. на-уч.-техн. конф. «Проблемы техники и технологий телекоммуникаций»: сб. докладов. Уфа, 2005. - С. 36-38.
96. Кацнельсон, JI. Результаты сравнительных испытаний систем цифрового звукового радиовещания / JI. Кацнельсон. //Радио. 1998. - №4. - С. 68-70.
97. Финк, JI.M. Теория передачи дискретных сообщений / JI.M. Финк. М.: Сов. радио, 1970. - 727 с.
98. Гольденберг, JI.M. Цифровая обработка сигналов: справочник / JI.M. Гольденберг, Б.Д. Матюшкин, М.Н. Поляк. М.: Радио и связь, 1985. -457 с.
99. Вентцель, Е.С. Теория вероятностей и ее инженерные приложения / Е.С. Вентцель, Л.А. Овчаров. М.: Наука, 1988. - 480 с.
100. Стефанова, И. А. Повышение качества спектрального анализа звуковых сигналов / И. А. Стефанова, Д. В. Мишин // ИКТ. 2007. - т. 5. - № 4. -С. 73-77.
101. Музыкальная энциклопедия: в 6 т. / гл. ред. Ю.В. Келдыш. М.: Советская энциклопедия, 1978 - 6 т.
102. Глухов, А.А. Статистические исследования скважности сигналов программ центрального вещания / А.А. Глухов // Электросвязь. 1972. - № 6. -С. 4-11.
103. Прудников, А. П. Интегралы и ряды / А. П. Прудников, Ю. А. Брычков, О.И. Маричев. -М.: Наука, 1981.-800 с.
104. Радиовещание и электроакустика: учеб. пособие для вузов / С.И. Алябьев и др.; под ред. Ю.А. Ковалгина. М.: Радио и связь, 2002. - 798 с.
105. Дьяконов, В.П. MATLAB 6.5 SPI/7 + Simulink 5/6. Обработка сигналов и проектирование фильтров. / В.П. Дьяконов. М.: СОЛОН-Пресс, 2005. - 576 с.
106. Черных, И.В. SIMULINK: среда создания инженерных приложений / И.В. Черных; под ред. В.Г. Потемкина. М.: ДИАЛОГ-МИФИ, 2003. -496 с.
107. Subjective assessment of sound quality: CCIR Recommendation 562-3 ITU-R.-Vol. X. -1990.
-
Похожие работы
- Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах
- Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка
- Повышение эффективности алгоритмов компрессии цифровых данных при кодировании сигналов стереопары
- Разработка и исследование метода объективной оценки качества кодеков с компрессией цифровых аудиоданных
- Повышение эффективности сжатия цифровой аудиоинформации с учетом свойств слухового анализатора человека
-
- Теоретические основы радиотехники
- Системы и устройства передачи информации по каналам связи
- Радиотехника, в том числе системы и устройства телевидения
- Антенны, СВЧ устройства и их технологии
- Вакуумная и газоразрядная электроника, включая материалы, технологию и специальное оборудование
- Системы, сети и устройства телекоммуникаций
- Радиолокация и радионавигация
- Механизация и автоматизация предприятий и средств связи (по отраслям)
- Радиотехнические и телевизионные системы и устройства
- Оптические системы локации, связи и обработки информации
- Радиотехнические системы специального назначения, включая технику СВЧ и технологию их производства
