автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах

кандидата технических наук
Крашовац, Игорь Юльевич
город
Москва
год
1999
специальность ВАК РФ
05.13.13
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах»

Автореферат диссертации по теме "Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах"

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ РАДИОТЕХНИКИ, ЭЛЕКТРОНИКИ И АВТОМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

На правах рукописи

ргб оа

? 7 ДЕК 1333

Крашовац Игорь Юльевич

Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах

Специальность: 05.13.13. Вычислительные машины, комплексы,

системы и сети

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва 1999

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ

РАДИОТЕХНИКИ , ЭЛЕКТРОНИКИ И АВТОМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

На правах рукописи

Крашовац Игорь Юльевич

Разработка и исследование усовершенствованного метода компрессии звуковых данных в

мультимедийных системах

Специальность: 05.13.13. Вычислительные машины, комплексы, системы и сети.

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва 1999

Работа выполнена в Московском государственном институте радиотехники , электроники и автоматики (Техническом

университете).

Научный руководитель : доктор технических наук , профессор

Прохоров H.JI.

Научный консультант : кандидат технических наук , старший научный сотрудник Егоров Г.А.

Официальные оппоненты : доктор технических наук , профессор

Крупский A.A.

кандидат технических наук , доцент Лебедев В.И.

Ведущее предприятие : Научно-исследовательский центр

электронной вычислительной

техники (НИЦЭВТ)

Защита состоится "Vf" 7* '7< 1999 г. в часов на заседании диссертационного совета Института электронных управляющих машин (ИНЭУМ) по адресу : 117812 , Москва , ул. Вавилова , 24.

С диссертацией можно ознакомиться в библиотеке института.

Автореферат разослан 1999 г.

Ученый секретарь диссертационного совета : кандидат

технических наук , доцент Красовский В.Е.

Общая характеристика работы

Актуальность темы. В связи со стремительным развитием мультимедийных технологий и , в частности , информационной сети Internet , весьма актуальной является проблема передачи больших объемов звуковых данных в реальном масштабе времени. Увеличение объема передаваемых аудиоданных происходит в соответствии с экспоненциальной зависимостью , значительно опережая темпы роста пропускной способности имеющихся линий передач и каналов связи. Для обеспечения возможности передачи в реальном масштабе времени постоянно растущего объема аудиоинформации при сохранении высокого уровня качества звукового сигнала возможны два пути (или их комбинация). Первый - увеличение пропускной способности имеющихся каналов связи , что связано со значительными техническими и экономическими трудностями , особенно в современных условиях в нашей стране. Второй путь -предварительное сжатие передаваемых звуковых данных.

Все методы сжатия аудиоинформации можно разделить на два класса - методы сжатия без потерь и методы сжатия с частичной потерей информации. Вследствие специфических особенностей звуковых сигналов методы сжатия без потерь (метод Лемпеля-Зива-Уэлча , метод Хаффмана , метод Шеннона-Фано и др.) не позволяют получить коэффициент компрессии больше 1.5-2. Значительно более перспективными и эффективными являются методы сжатия с частичной потерей информации. Из этих методов лучшими на сегодняшний день является группа методов , основанных на использовании психоакустических особенностей слухового аппарата человека. Данные методы обеспечивают высокий уровень качества

передаваемого аудиосигнала , но их существенным недостатком является высокая скорость звукового потока. Например , для метода сжатия MPEG-1 Layer-З , который по общему признанию является наилучшим методом компрессии в настоящее время , скорость потока звуковых данных составляет 64 кбит/с на один канал. Это не позволяет использовать для передачи аудиоданных имеющуюся телекоммуникационную инфраструктуру , ориентированную на массового пользователя и включающую аналоговые телефонные сети общего пользования и стандартные аналоговые модемы с максимальной скоростью передачи данных 56 кбит/с.

Таким образом , возникает задача разработки метода сжатия звуковых данных , обеспечивающего возможность передачи аудиоинформации массовому пользователю в реальном масштабе времени при сохранении высокого уровня качества звукового сигнала и без применения дорогостоящих технологий , таких как цифровые сети ISDN , оптоволоконные линии связи и др.

Цель работы. Целью диссертационной работы является обеспечение возможности обработки и передачи аудиоинформации в мультимедийных системах в реальном масштабе времени с наименьшими возможными искажениями звукового сигнала при использовании существующей телекоммуникационной инфраструктуры. Для достижения цели в работе сформулированы и решаются следующие задачи :

исследование известных методов сжатия аудиоинформации; определение специфических требований к методам сжатая звуковой информации в мультимедийных системах на основе психоакустической модели слухового аппарата человека;

разработка усовершенствованного алгоритма компрессии аудиоданных в мультимедийных системах в реальном масштабе времени;

обоснование структуры аппаратных средств , необходимых для реализации разработанного алгоритма; разработка программного обеспечения , реализующего предложенный алгоритм компрессии аудиоданных в среде операционной системы UNIX (на примере операционной системы USIX);

экспериментальное исследование работоспособности разработанных аппаратно-программных средств реализующих предложенный метод компрессии аудиоданных.

Методы исследования. В основе исследований , выполненных в диссертационной работе, лежит психоакустическая модель слухового аппарата человека. Разработка и реализация предложенного алгоритма сжатия аудиоданных основаны на использовании математических методов цифровой обработки сигналов (быстрое преобразование Фурье) , методов кодирования данных с преобразованием (преобразование Карунена-Лоэва) , а также традиционных методов сжатия дискретной информации (метод кодирования Хаффмана).

Научная новизна настоящей диссертационной работы заключается в следующем :

1) разработан усовершенствованный алгоритм компрессии звуковых данных в мультимедийных системах в реальном масштабе времени , обеспечивающий увеличение коэффициента сжатия информации на 25 - 30 % по сравнению с известными алгоритмами;

2) обоснована возможность применения эффективного перестановочного алгоритма Нуссбаумера-Квенделла

реализующего быстрое преобразование Фурье , для представления звуковых сигналов в частотной области;

3) обоснована целесообразность использования преобразования Карунена-Лоэва , позволяющего значительно уменьшить необходимое количество обрабатываемых отсчетов для сокращения размерности вектора цифровых отсчетов звукового сигнала ;

4) разработана модифицированная версия психоакустической модели слухового аппарата человека, предполагающая разбиение всего слышимого диапазона частот на 25 поддиапазонов , в каждом из которых осуществляется отдельная обработка звуковых сигналов, что уменьшает возникающие временные задержки и повышает точность обработки;

5) предложен алгоритм расчета характеристик маскирующих звуковых сигналов ;

6) разработан алгоритм расчета параметров звуковых сигналов в психоакустической модели ;

Практическая ценность диссертационной работы заключается в обеспечении реальной возможности обработки и передачи звуковых сигналов в реальном масштабе времени в мультимедийных системах массового пользования , реализованных на базе существующей телекоммуникационной инфраструктуры , путем использования предложенного метода сжатия аудиоинформации. При этом отпадает необходимость в использовании дорогостоящих высокоскоростных линий связи (например , цифровых линий ISDN) , а также кабельных или радиомодемов. Кроме того , отсутствуют повышенные требования к аппаратной части клиентских рабочих станций.

Реализация_результатов работы._ Теоретические и

экспериментальные результаты диссертационной работы получены на кафедре «Управляющие вычислительные машины» МГИРЭА (ТУ) , а также в Институте электронных управляющих машин (ИНЭУМ) в ходе выполнения ОКР «Программное окружение операционной системы USIX» в рамках Федеральной целевой программы «Реструктуризация и конверсия оборонной промышленности (1996 -2000 гг.)».

Комплекс программных средств , обеспечивающих реализацию предложенного метода компрессии аудиоданных , в виде пакета и необходимых библиотек включен в состав коммерческой версии операционной системы USIX и может быть портирован в среды других UNIX-подобных систем.

Апробация работы. Основные результаты исследований были доложены на Второй- Международной конференции «Моделирование интеллектуальных процессов проектирования и производства» , проходившей в период с 10 по 12 ноября 1998 г. в Минске (Беларусь) , а также на XLVIII научно-технической конференции МГИРЭА (ТУ) , проходившей в период с 10 по 17 мая 1999 г. в Москве.

Публикации. Основные результаты диссертации отражены в 6 печатных работах.

Структура и объем работы. Диссертационная работа состоит из введения , четырех глав , заключения , списка литературы (47 источников) и Приложения и содержит 107 страниц основного текста, 6 таблиц и 13 рисунков , а также 50 страниц Приложения.

Содержание работы

Во введении обоснована актуальность проблемы исследования , сформулирована цель диссертационной работы , описаны задачи и методы исследования , показана практическая ценность работы.

В первой главе рассмотрены основные положения теории звуковых сигналов , даны необходимые определения. Проведен сравнительный анализ основных методов сжатия звуковой информации. Особое внимание уделено методам компрессии аудиоданных , основанных на психоакустических особенностях восприятия звука слуховым аппаратом человека. Выделены основные С проблемы , возникающие, при разработке рассмотренных методов сжатия. Проанализированы способы возможного усовершенствования существующих методов компрессии аудиоданных с точки зрения их применения к задачам исследования данной диссертации. Сформулирована основная задача настоящей работы - разработать усовершенствованный метод сжатия аудиоданных , обеспечивающий увеличение коэффициента компрессии по . сравнению с наиболее эффективными из известных методов сжатия,-

Во второй главе проведено теоретическое исследование предложенного усовершенствованного метода компрессии аудиоданных. По сравнению с методом сжатия МРЕО-1 Ьауег-З в структурную блок-схему предложенного алгоритма (рис. 1) введен дополнительный блок , реализующий преобразование Карунена-Лоэва , а в блоке психоакустической модели слухового аппарата человека использована модифицированная версия этой модели. Кроме того , для реализации быстрого преобразования Фурье (БПФ) в предложенном методе сжатия

использован эффективный перестановочный алгоритм Нуссбаумера-Квенделла , поскольку последний имеет наилучшие интегральные характеристики по числу необходимых операций сложения и умножения на точку по сравнению с другими известными методами реализации БПФ.

входной поток

вьмсаной поток

Рнс.1. Структурная блок-схема алгоритма компрессии аудиоданных.

Функциональное назначение отдельных блоков предложенного алгоритма компрессии аудиоданных состоит в следующем.

Обработка исходного звукового сигнала осуществляется поблочно. Формирователь блока цифровых отсчетов предназначен для выделения из исходной цифровой последовательности блоков по 256 отсчетов. Частота дискретизации исходного звукового сигнала составляет 44.1 кГц , разрешение - 16 бит, таким образом , каждый формируемый блок отсчетов имеет временной интервал , равный 5.8 мс.

Блок реализации модифицированного дискретного косинус-преобразования (МДКП) предназначен для осуществления 512-точечного модифицированного дискретного косинус-преобразования. Данное преобразование позволяет получить частотный спектр отдельного блока исходного звукового сигнала. Реализация МДКП осуществляется в соответствии со следующим выражением :

п-1

Х(га) = 2 Дк)х(к)со$[(л/2п)(2к + 1 + п/2)(2ш + 1)], ш = 0...п/2 (1) к-0

Здесь ВД = 8т(пк/п) - синусоидальное окно , применяемое для обработки звукового сигнала.

Блок реализации БПФ предназначен для осуществления 512-точечного быстрого преобразования Фурье. БПФ используется для представления исходного блока аудиосигнала в частотной области. Для сокращения времени , требуемого для реализации БПФ предлагается применить эффективный перестановочный алгоритм Нуссбаумера-Квенделла. Данный алгоритм имеет наилучшие

интегральные показатели по количеству операций сложения и умножения на точку по сравнению с другими известными алгоритмами реализации БПФ (Кули-Тьюки , Винограда и др.). Перестановочный алгоритм Нуссбаумера-Квенделла представляет собой алгоритм многомерного БПФ. Он строится сведением многомерного преобразования к вычислению некоторого количества одномерных преобразований Фурье. В предложенном алгоритме компрессии аудиоданных 512-точечное БПФ реализовано в виде перестановочного алгоритма Нуссбаумера-Квенделла размерностью 8x8x8 , то есть 512-точечное БПФ вычисляется путем разбиения на три 8-точечных преобразования и их вычисления.

Блок реализации преобразования Карунена-Лоэва предназначен для более компактного представления частотного спектра исходного блока аудиосигнала. Данное преобразование позволяет сократить размерность вектора отсчетов звукового сигнала. Исходный вектор звуковых отсчетов содержит 256 элементов:

У = {УО , ... , У255} (2)

Данный вектор представляет собой частотный спектр одного блока исходного звукового сигнала , полученный в результате выполнения 512-точечного МДКП. В результате линейного преобразования исходного вектора У с некоторым матричным оператором I , определяемым с учетом последовательности входных сигналов , на выходе блока получим результирующий вектор звуковых отсчетов У , содержащий меньшее количество элементов. Это обусловлено энергетическими характеристиками преобразования Карунена-Лоэва. Известно , что основная часть энергетического спектра звукового сигнала содержится в нескольких первых старших

коэффициентах МДКП. Необходимое число коэффициентов Р можно рассчитать по следующим формулам :

•1)*2>о.«Е*2)и + j—^) а

Дс=С ItsO

Р> 1.5-ianrf 141

Здесь Хк - коэффициенты МДКП-преобразования ,

band - номер поддиапазона в психоакустической модели (п = 0,..., 24)

Таким образом , при сокращении необходимого количества передаваемых коэффициентов МДКП удается снизить общее время обработки звукового сигнала примерно на 15-20 %. При этом возникающая погрешность оказывается пренебрежимо мала (коэффициент нелинейных искажений не превышает 0,03 %).

Блок психоакустической модели слухового аппарата человека реализует предложенный автором модифицированный вариант этой модели. Он предполагает -разбиение всего слышимого диапазона частот (20 Гц - 20 кГц) на 25 поддиапазонов , в каждом из которых звуковой сигнац обрабатывается отдельно. Это позволяет сократить необходимое время обработки звуковых сигналов и повысить точность обработки. По сравнению с моделью MPEG-1 Layer-3 количество поддиапазонов сокращено с 32 до 25 , что .обусловлено специфическими особенностями восприятия звука человеческим ухом. Как видно из графика кривой слышимости (рис. 2) , абсолютный порог слышимости в области очень низких (менее 200 Гц) и высоких (более 10 кГц) частот достаточно велик , то есть минимальная

амплитуда звукового сигнала , воспринимаемого ухом человека , должна быть достаточно большой в этих областях слышимого диапазона.

уромк» стала.д£

Рис. 2. Кривая слышимости.

Это позволяет увеличить интервалы поддиапазонов и , таким образом , сократить их количество. Возникающая при этом погрешность будет пренебрежимо мала (коэффициент нелинейных искажений не более 0,03 %), то есть на восприятие аудиосигналов человеческим ухом это практически не влияет. Проведенное автором экспериментальное исследование позволило установить зависимость уровня качества звукового сигнала , определяемого коэффициентам нелинейных искажений , от количества поддиапазонов психоакустической модели слухового аппарата человека. Экспериментально полученный график зависимости уровня качества сигнала от количества поддиапазонов приведен на рис.3.

*.ШФФ. шм юшаЮ. X

Рис. 3. Зависимость коэффициента нелинейных искажений от количества поддиапазонов в психоакустической модели.

Как видно из рис. 3 , значение коэффициента нелинейных искажений в интервале между 24 и 27 поддиапазонами изменяется незначительно и составляет примерно 0,03 %. Поэтому в предложенной автором модифицированной психоакустической модели число поддиапазонов равно 25 , что является некоторым компромиссом между минимально возможным количеством поддиапазонов (то есть минимальной временной задержкой) и максимально допустимой величиной коэффициента нелинейных искажений.

Разбиение слышимого диапазона частот на поддиапазоны в предложенной психоакустической модели представлено в табл. 1.

Таблица I. Разбиение слышимого частотного диапазона на поддиапазоны в модифицированной психоакустической модели.

Номер поддиапазона Центральная частота , Гц Ширина поддиапазона , Гц

1 50 20-100

2 150 100-200

3 250 200 - 300

4 350 300-400

5 450 400-510

б 570 510-630

7 700 630-770

8 840 770 - 920

9 1000 920 -1080

10 1180 1080-1270

11 1370 1270- 1480

12 1600 1480- 1720

13 1850 1720-2000

14 2150 2000-2320

15 2500 2320-2700

16 2900 2700-3150

17 3400 3150-3700

18 4000 3700-4400

19 4800 4400 - 5300

20 5800 5300 - 6400

21 7000 6400 - 7700

22 8500 7700 - 9500

и.

Таблица 1. Разбиение слышимого частотного диапазона на поддиапазоны в модифицированной психоакустической модели (продолжение).

23 10500 9500-12000

24 13500 12000-15500

25 19500 15500-20000

Кроме того , при оценке отношения сигнал / шум в предложенном алгоритме компрессии аудиоданных использован подход , отличающийся от применяемого в модели МРЕО-1 Ьауег-З. При обработке звуковых сигналов в каждом из 25 поддиапазонов сигнал считается замаскированным , если амплитуда маскирующего сигнала равна или превосходит У* амплитуды основного тона (а не Уг, как в известной модели) , что позволяет повысить точность обработки аудиосигнала. При последовательной обработке звуковых отсчетов в каждом из поддиапазонов , предусмотренной предложенным алгоритмом , сокращение числа поддиапазонов позволяет уменьшить общее время обработки аудиоблока примерно на 20 % по сравнению с моделью МРЕО-1 Ьауег-З.

Блок квантования коэффициентов осуществляет наложение управляющего цифрового потока с выхода блока психоакустической модели на цифровой поток с выхода блока преобразования Карунена-Лоэва , представляющий собой сжатый частотный спектр обрабатываемого блока цифровых отсчетов звукового сигнала. В результате такого наложения полученная цифровая последовательность характеризует сжатый частотный спеетр обрабатываемого аудиоблока с учетом специфических свойств звукового сигнала , определяемых используемой психоакустической моделью.

Блок кодирования Хаффмана предназначен для дополнительного сжатия полученного цифрового кода с помощью стандартного алгоритма Хаффмана. Работа блока основана на построении кодовых таблиц для всех имеющихся последовательностей символов. При этом более длинной последовательности присваивается более короткое значение кода и наоборот.

Предлагаемый усовершенствованный алгоритм компрессии аудиоданных позволяет повысить коэффициент сжатия звукового сигнала на 25 - 30 % по сравнению с используемыми в настоящее время алгоритмами.

Третья глава посвящена аппаратно-программной реализации-предложенного алгоритма компрессии аудиоданных.

В качестве аппаратной части аудиокодера , реализующего предложенный метод компрессии , предлагается использовать 32-разрядный процессор с быстродействием не менее 120 Мфлоп, объемом памяти не менее 512 кбит , динамическим диапазоном не менее 85 дБ и высокой точностью обработки чисел с плавающей запятой.

Всем вышеперечисленным требованиям удовлетворяет 32-разрядный цифровой процессор сигналов ADSP-21065L SHARC фирмы Analog Devices Inc. Этот процессор с архитектурой Intel обладает быстродействием 180 Мфлоп , объемом памяти 544 кбит , динамическим диапазоном 92 дБ. ADSP-21065L SHARC имеет 2 шины данных , шину адреса и шину ввода / вывода. Процессор содержит также контроллер прямого доступа к памяти (ПДП). Достоинством выбранного процессора является также его низкая стоимость.

Программа , реализующая предложенный алгоритм компрессии аудиоданных , состоит из 6 модулей. Каждый модуль выполняет отдельные блоки разработанного алгоритма.

Модуль mam является главным. Он вызывается при запуске программы. Входным аргументом данного модуля является имя файла , содержащего исходный звуковой поток. Выходным аргументом модуля является имя файла , содержащего звуковой поток после процедуры компрессии.

Модуль acoustic реализует разработанный модифицированный вариант психоакустической модели слухового аппарата человека. Данный модуль осуществляет определение характеристик основного тона звукового сигнала и параметров маскирующих сигналов для отдельного аудиоблока в каждом из предусмотренных моделью поддиапазоне. В данном модуле также осуществляется сжатие спектра обрабатываемого аудиоблока с помощью преобразования Карунена-Лоэва.

Модуль encoder осуществляет кодирование результирующего блока звуковых данных после вычисления сжатого спектра аудиоблока и отношения сигнал / шум. Используется метод линейного предиктивного кодирования.

Модуль huffman предназначен для кодирования полученного цифрового аудиопотока , используя стандартный алгоритм Хаффмана. В процессе работы данного модуля осуществляется построение кодовых таблиц и деревьев Хаффман» для имеющихся цифровых последовательностей.

Модуль fft реализует быстрое преобразование Фурье (БПФ) блока аудиосигнала , используя перестановочный алгоритм Нуссбаумера-Квенделла. 512-точечное многомерное БПФ вычисляется путем разбиения на несколько одномерных преобразований и их вычисления.

Модуль signa! выполняет необходимые процедуры , связанные с обработкой звукового сигнала - выделение отрезка сигнал;. ,

ID

копирование сигнала , сохранение аудиосигнала в виде файла , выделение необходимого количества памяти , вычисление МДКП н т.д.

Программа написана на языке С++ , откомпилирована с помощью транслятора gcc-2.7.2.3 и функционирует в среде операционной системы UNIX (USIX). При программировании использованы дополнительные библиотеки файлов для работы с процессором ADSP-21065L SHARC. Полный листинг исходных текстов программы приведен в Приложении к диссертации.

Следует отметить , что разработанный аудиокодер может функционировать и в среде других операционных систем (Windows , OS/2 , NetWare и др.) на процессорах с архитектурой Intel. Это потребует лишь изменения программного интерфейса , использования соответствующих библиотек и некоторых других изменений обусловленных спецификой конкретной операционной системы.

Четвертая глава диссертационной работы посвящена экспериментальному исследованию теоретических результатов и содержит результаты тестирования аудиокодера , реализующего предложенный метод компрессии аудиоданных.

При разработке и испытании предложенного метода сжатия звуковых данных использовался лабораторный стенд на базе ПК с центральным процессором Pentium ММХ , имеющим тактовую частоту 200 МГц, объем ОЗУ - 64 Мб. Взаимодействие с аппаратной частью рассматриваемого аудиокодера - процессором ADSP-21065L SHARC , размещенным на плате с интерфейсом PCI - , осуществлялось с использованием программного драйвера , разработанного диссертантом.

Разработанный аудиокодер был протестирован с помощью ряда потоков звуковых данных , записанных на Audio-CD и полученных

путем записи с помошью микрофона и звуковой карты Sound Blaster AWE64 Value. Аудиопотоки имели различные структуру и продолжительность. Звуковые файлы содержали речевую информацию , записанную на русском и английском языках , а также музыкальные звуки в несжатом виде. Полученные в результате сжатия аудиопотоки приведены в табл. 2.

Таблица 2. Характеристики звуковых потоков , полученных в

результате компрессии.

Аудиопоток Скорость потока , кбнт/с Режим звукового Сигнала

Mixed.wav 51 Моно

Music.wav 54 Moho

Jacob.wav 48 Moho

Speech.wav 16 Moho

Cardigans.wav .55 Moho

Strings.wav 56 Moho

Music.wav 92 Стерео

Tpd.wav 88 Стерео

Jacob.wav 84 Стерео

Castanets.wav 91 Стерео

Instruments.wav 96 Стерео

Oasis.wav 85 ■ Стерео

Speech.wav 28 Стерео

Poem.wav 31 Стерео

Как видно из табл. 2 , среднее значение скорости рассмотренных звуковых потоков составляет 50 кбит/с в режиме монофонического аудиосигнала и 90 кбит/с в режиме стереофонического сигнала. Исходя из параметров исходного несжатого звукового потока , оцифрованного с частотой дискретизации 44.1 кГц и имеющего разрешение 16 бит , можно вычислить средний коэффициент компрессии для полученных в результате сжатия аудиопотоков :

Кт = (44.1 * 16)/50 = 14.1 - в режиме моно (5)

К* = (44.1 * 16 ♦ 2 ) / 90 = 15.7 - в режиме стерео (6)

По сравнению с методом компрессии МРЕО-1 Ьауег-З выигрыш по скорости аудиопотоков и по коэффициенту компрессии составил 25 - 30 %. Полученные результаты подтверждают возможность использования предложенного аудиокодера для передачи звуковых данных как в режиме моно , так и в режиме стерео. Последний обеспечивается путем использования двух модемов стандарта У.90, двух телефонных линий и соответствующего про!раммного обеспечения , что позволяет увеличить пропускную способность линии связи до 112 кбит/с.

В заключении сформулированы основные результаты работы.

Основные результаты работы

В процессе выполнения диссертационной работы получены следующие научные и практические результаты.

1) На основе проведенного анализа определены необходимые и достаточные требования к параметрам передачи аудиоинформации в мультимедийных системах , функционирующих в реальном масштабе времени.

2) Проведен сравнительный анализ известных методов компрессии аудиоинформации , подтверждающий необходимость дальнейшего повышения степени сжатия звуковых данных в случае использования существующей телекоммуникационной инфраструктуры.

3) Предложен усовершенствованный метод компрессии аудиоданных , основанный на использовании модифицированной психоакустической модели слухового аппарата человека.

4) Разработан алгоритм реализации предложенного метода компрессии аудиоданных , использующий математический аппарат цифровой обработки сигналов (быстрое преобразование Фурье , модифицированное дискретное косинус-преобразование , преобразование Карунена-Лоэва и др.).

5) Определены требования к аппаратной части аудиокодера, реализующего предложенный метод компрессии аудиоданных.

6) Разработано программное обеспечение , реализующее предложенный метод компрессии аудиоданных в среде операционной системы UNIX (USIX).

7) Разработан и испытан аудиокодер , реализующий предложенный метод компрессии аудиоданных.

8) Показана практическая возможность повышения степени сжатия потока звуковых данных на 25 - 30 % в результате применения предложенного метода компрессии аудиоданных

по сравнению с известными методами. Тем самым подтвервдается возможность использования в мультимедийных системах , работающих в реальном масштабе времени , существующей телекоммуникационной инфраструктуры.

Публикации по теме диссертации

1. Егоров Г.А. , Крашовац И.Ю. Некоторые тенденции развития аудио- и видеотехнологий мультимедиа. "Информационные технологии и вычислительные системы" , N 4 , 1997 , с. 107-112.

2. Егоров Г.А. , Крашовац И.Ю. Стандарты мультимедиа в области аудиоинформации. "Вопросы радиоэлектроники" , Серия "Электронная вычислительная техника" , Выпуск 1 , 1999, с. 32-38.

3. Крашовац И.Ю. Некоторые методы компрессии звуковых сигналов в мультимедийных системах. // В сб. научн. тр.: Информационные технологии и системы. - М.: БиоИнформСервис, 1999 (в печати).

4. Прохоров Н.Л. , Крашовац И.Ю. Системное программное обеспечение ЭВМ. Операционная система UNIX : Методические указания по выполнению практических занятий. М.: МГИРЭА (ТУ), 1998.

5. Прохоров Н.Л. , Крашовац И.Ю. Системное программное обеспечение ЭВМ. Использование графического интерфейса X Window System в ОС UNIX : Методические указания по выполнению практических занятий. М.: МГИРЭА (ТУ), 1999.

6. Крашовац И.Ю. О методах сжатия аудиосигналов с использованием психоакустических особенностей слухового аппарата человека. «Вопросы радиоэлектроники». Серия "Электронная вычислительная техника" (в печати).

Текст работы Крашовац, Игорь Юльевич, диссертация по теме Телекоммуникационные системы и компьютерные сети

61 - Ь/191 7 "V

ИНСТИТУТ АВТОМАТИКИ

На правах рукописи

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ

РАДИОТЕХНИКИ , ЭЛЕКТРОНИКИ И (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

Крашовац Игорь Юльевич

Разработка и исследование усовершенствованного метода компрессии звуковых данных

в мультимедийных системах

Специальность: 05.13.13. Вычислительные машины, комплексы,

системы и сети.

диссертация на соискание ученой степени кандидата технических наук

Научный руководитель д.т.н., проф. Прохоров Н.Л.

Москва 1999

Содержание

Введение ........................................................................................ 5

Глава 1. Анализ проблем обработки и передачи звуковой информации в мультимедийных системах в реальном масштабе времени ........................................ 14

1.1. Основные положения теории звука ...................................... 14

1.2. Аналого-цифровое и цифро-аналоговое преобразования аудиоинформации и их особенности ....... 17

1.3. Применение методов спектрального анализа

для обработки звуковых сигналов ..................................... 29

1.4. Современное состояние развития методов сжатия звуковых сигналов. Классификация методов сжатия ...... 31

1.5. Методы сжатия звуковых сигналов , основанные на использовании импульсно-кодовой модуляции и ее разновидностей ....................................... 33

1.6. Методы сжатия звуковых сигналов , основанные на использовании линейного предиктивного кодирования ............................................... 35

1.7. Методы сжатия звуковых сигналов , основанные на использовании свойств

слухового аппарата человека .............................................. 38

1.8. Проблема повышения эффективности методов сжатия звуковой информации.

Постановка задачи исследования ....................................... 45

1.9 Выводы по первой главе .................................................... 47

Глава 2. Разработка и исследование усовершенствованного

метода сжатия звуковых сигналов .............................. 48

2.1. Основные определения. Теоретический анализ восприятия звуковых сигналов слуховым аппаратом человека. Количественные критерии оценки восприятия ............................................................................. 48

2.2. Разработка и исследование метода сжатия аудиоданных с использованием психоакустической модели слухового аппарата человека ................................ 51

2.3. Результаты и выводы по второй главе .............................. 81

Глава 3. Разработка аппаратно-программного метода

компрессии аудиоданных в мультимедийных системах в реальном масштабе времени ................... 81

3.1. Разработка алгоритма компрессии звуковых

данных в мультимедийных системах ................................ 81

3.2. Аппаратно-программная реализация метода компрессии звуковых данных , основанного

на использовании разработанного алгоритма .................. 93

3.3. Результаты и выводы по третьей главе ......................... 98

Глава 4. Разработка аудиокодера , реализующего

предложенный метод компрессии

звуковых данных .......................................................... 99

4.1. Разработка аудиокодера ...................................................... '99

4.2. Тестирование аудиокодера , реализующего предложенный метод компрессии

звуковых данных ............................................................... 100

4.3. Выводы по четвертой главе .............................................. 104

Заключение ................................................................................... 105

Приложение Список литературы

Введение

Стремительное развитие вычислительной техники в последнее десятилетие , в частности , существенное повышение быстродействия процессоров и увеличение емкости памяти (оперативной и дисковой) персональных ЭВМ , обусловило появление в этой области нового научно-технического направления - мультимедийных компьютерных технологий [1].

Под термином «мультимедиа» («multimedia») понимают интеграцию различных форм представления информации. Сюда относятся текст, графика , звук и видеоизображения. Совместное использование перечисленных форм представления информации способствует более адекватному ее восприятию. Создание интерактивных обучающих систем , организация компьютерных видеоконференций в реальном масштабе времени , проведение мультимедийных презентаций и др. - все это в значительной мере повышает эффективность восприятия процессов , происходящих в различных сферах человеческой деятельности , и выводит их на качественно иной уровень. Преимущества такого подхода очевидны. При использовании интерактивной обучающей системы значительно повышается степень усвоения материала , сокращаются сроки обучения , уменьшается количество преподавателей , снижаются общие затраты , необходимые для организации учебного процесса и т.д. Компьютерные видеоконференции позволяют участникам находящимся на расстоянии сотен или тысяч километров друг от друга , совместно решать различные проблемы в реальном масштабе времени. При этом не нужно тратить значительные средства на

командировочные расходы , не тратится время на переезды и т.д., одним словом , экономический выигрыш очевиден. Мультимедийные презентации стали неотъемлемой частью современного бизнеса. Демонстрация партнерам и клиентам своей новой продукции , проведение рекламной кампании - без этого сегодня трудно представить инфраструктуру коммерции.

Как отмечено выше , мультимедиа включает в себя текст , графику , звук и видеоизображения. Следует отметить , что деление технологии мультимедиа на четыре компонента является условным , поскольку все компоненты тесно связаны друг с другом. В настоящей работе рассматриваются вопросы и проблемы , связанные с обработкой и передачей звука (аудиоинформации) в мультимедийных системах [2].

Обработка и передача аудиоинформации являются весьма актуальными задачами современной вычислительной техники. Человеческое ухо - очень чувствительный орган , тонко реагирующий на малейшие искажения звукового сигнала в диапазоне частот от 20 Гц до 20 кГц. Основная проблема , рассматриваемая в настоящей диссертационной работе , связана с повышением эффективности метода обработки и передачи аудиоинформации в реальном масштабе времени с наименьшими возможными искажениями звукового сигнала, функционирующего в среде операционной системы UNIX (на примере операционной системы USIX).

По своей природе звук является аналоговым сигналом. Для обеспечения возможности работы со звуком на ЭВМ звуковой сигнал необходимо преобразовать в цифровую форму. Для передачи звука по коммуникационным линиям звуковой сигнал следует подвергнуть компрессии (сжатию) , так как мультимедийные файлы , содержащие

аудиоинформацию , обычно отличаются большими размерами (от сотен килобайт до нескольких мегабайт) , и передача их в исходном виде без обработки влечет за собой значительные накладные расходы и временные задержки . Под компрессией понимается сокращение объема цифровых данных , необходимых для представления звукового сигнала с заданным качеством. Эти два основополагающих принципа положены в основу известных методов обработки и передачи аудиоинформации [3]. Сравнительный анализ этих методов [41 , 44] позволил автору настоящей работы выявить основные тенденции развития принципов обработки и передачи аудиоинформации с учетом специфики технологий мультимедиа и разработать усовершенствованный алгоритм компрессии аудиоданных.

Основной тенденцией развития современных методов обработки и передачи звука является , в первую очередь , сокращение времени доставки передаваемых аудиоданных с сервера на клиентскую рабочую станцию. Это связано с бурным развитием коммуникационных и сетевых технологий , в частности, с развитием международной информационной сети 1п1егпе1, и передачей больших объемов звуковой информации. Для обеспечения возможности передачи в реальном масштабе времени постоянно растущего объема аудиоинформации при сохранении высокого уровня качества звукового сигнала возможны два пути (или их комбинация). Очевидное решение задачи сокращения времени доставки аудиоинформации пользователю связано с повышением скорости передачи данных. Однако вследствие ограниченной пропускной способности используемых в настоящее время коммуникационных каналов (особенно в нашей стране) повышение скорости передаваемого звукового потока может быть достигнуто лишь путем перехода на качественно новую

телекоммуникационную инфраструктуру , что , в свою очередь , потребует значительных материальных и трудовых затрат. Другим возможным путем сокращения времени передачи аудиоинформации является ее предварительное сжатие , что позволяет при неизменном объеме звуковых данных сохранить скорость их передачи , а в ряде случаев существенно ее снизить и тем самым использовать существующую телекоммуникационную инфраструктуру.

Наряду с задачей сокращения скорости потока аудиоданных важное значение имеет и обеспечение высокого уровня качества передаваемого звукового сигнала. В данном случае приходится идти на определенный компромисс между скоростью передачи и качеством сигнала , поскольку уменьшение скорости передачи данных (увеличение коэффициента компрессии) неизбежно ведет к ухудшению качества.

Успешное решение этих задач стало возможным благодаря разработке методов обработки и передачи аудиоданных , учитывающих специфические требования мультимедийных систем. Этим объясняется актуальность данной работы.

Целью настоящей диссертационной работы является обеспечение возможности обработки и передачи аудиоинформации в мультимедийных системах в реальном масштабе времени с наименьшими возможными искажениями звукового сигнала при сохранении качества звука , близкого к качеству записи и воспроизведения звука на компакт-диске (CD-quality).

Для достижения поставленной цели определены следующие задачи диссертации :

исследование известных методов сжатия аудиоинформации ;

определение специфических требований к методам сжатия звуковой информации в мультимедийных системах на основе психоакустической модели слухового аппарата человека; разработка усовершенствованного алгоритма компрессии аудиоданных в мультимедийных системах в реальном масштабе времени;

обоснование структуры аппаратных средств , необходимых для реализации разработанного алгоритма; разработка программного обеспечения , реализующего предложенный алгоритм компрессии аудиоданных в среде операционной системы UNIX (на примере операционной системы USIX);

экспериментальное исследование работоспособности разработанных аппаратно-программных средств реализующих предложенный метод компрессии аудиоданных.

В основе исследований , выполненных в диссертационной работе, лежит психоакустическая модель слухового аппарата человека [4]. Разработка и реализация предложенного алгоритма сжатия аудиоданных основаны на использовании математических методов цифровой обработки сигналов (быстрое преобразование Фурье) , методов кодирования данных с преобразованием (преобразование Карунена-Лоэва) , а также традиционных методов сжатия дискретной информации (метод кодирования Хаффмана).

Научная новизна настоящей диссертационной работы заключается в следующем :

1) разработан усовершенствованный алгоритм компрессии звуковых данных в мультимедийных системах в реальном

масштабе времени , обеспечивающий увеличение коэффициента сжатия информации на 25 - 30 % по сравнению с известными алгоритмами;

2) обоснована возможность применения эффективного перестановочного алгоритма Нуссбаумера-Квенделла , реализующего быстрое преобразование Фурье , для представления звуковых сигналов в частотной области;

3) обоснована целесообразность использования преобразования Карунена-Лоэва , позволяющего значительно уменьшить необходимое количество обрабатываемых отсчетов для сокращения размерности вектора цифровых отсчетов звукового сигнала ;

4) разработана модифицированная версия психоакустической модели слухового аппарата человека, предполагающая разбиение всего слышимого диапазона частот на 25 поддиапазонов , в каждом из которых осуществляется отдельная обработка звуковых сигналов, что уменьшает возникающие временные задержки и повышает точность обработки;

5) предложен алгоритм расчета характеристик маскирующих звуковых сигналов ;

6) разработан алгоритм расчета параметров звуковых сигналов в психоакустической модели ;

Практическая ценность рассматриваемой диссертационной работы заключается в реальной возможности эффективного использования предложенного метода сжатия аудиоинформации для обработки и передачи звуковых сигналов в мультимедийных системах

включающих существующую телекоммуникационную инфраструктуру-каналы передачи данных , линии связи , телефонную сеть общего пользования , аналоговые модемы стандарта V.90 со скоростью передачи данных 56 кбит/с. При этом нет необходимости в использовании дорогостоящих высокоскоростных линий связи (например , цифровых линий ISDN) , а также кабельных или радиомодемов. Кроме того , отсутствуют повышенные требования к аппаратной части клиентских рабочих станций.

Теоретические и экспериментальные результаты диссертационной работы получены на кафедре «Управляющие вычислительные машины» МГИРЭА (ТУ) , а также в Институте электронных управляющих машин (ИНЭУМ) в ходе выполнения ОКР «Программное окружение операционной системы USIX» в рамках Федеральной целевой программы «Реструктуризация и конверсия оборонной промышленности (1996 - 2000 гг.)».

Комплекс программных средств , обеспечивающих реализацию предложенного метода компрессии аудиоданных , в виде пакета и необходимых библиотек включен в состав коммерческой версии операционной системы USIX и может быть портирован в среды других UNIX-подобных систем.

По теме диссертации опубликовано 6 печатных работ [40 -45]. Основные результаты исследований были доложены на Второй Международной конференции «Моделирование интеллектуальных процессов проектирования и производства» , проходившей в период с 10 по 12 ноября 1998 г. в г. Минске (Беларусь) , а также на XLVIII научно-технической конференции , проходившей в период с 10 по 17 мая 1999 г. в МГИРЭА (ТУ). Работа осуществлялась в ходе выполнения ОКР «Программное окружение операционной системы

и БIX» в рамках Федеральной целевой программы «Реструктуризация и конверсия оборонной промышленности (1996 - 2000 гг.)».

В первой главе рассмотрены основные методы сжатия звуковой информации и проведен их сравнительный анализ. Особое внимание было уделено методам компрессии аудиоданных , основанных на психоакустических принципах восприятия звука слуховым аппаратом человека. Выделены основные проблемы , возникающие при разработке рассмотренных методов сжатия. Проанализированы способы возможного усовершенствования существующих методов компрессии аудиоданных с точки зрения их применения к задачам исследования данной диссертации.

Во второй главе проведен концептуальный анализ предложенного усовершенствованного метода компрессии звуковых данных. Предложена модифицированная психоакустическая модель функционирования слухового аппарата человека , предполагающая разбиение всего слышимого диапазона частот (20 Гц - 20 кГц) на 25 поддиапапзонов и обработку звуковых сигналов отдельно в каждом поддиапазоне , что повышает точность обработки и сокращает возникающие временные задержки. Показана целесообразность применения перестановочного алгоритма Нуссбаумера-Квенделла для реализации быстрого преобразования Фурье , а также обоснована возможность применения преобразования Карунена-Лоэва для более компактного представления вектора обрабатываемых звуковых отсчетов. Предложен алгоритм расчета характеристик маскирующих звуковых сигналов , являющийся основополагающим элементом психоакустической модели. Предложен алгоритм квантования коэффициентов , обеспечивающий возможность дополнительного сжатия исходного аудиопотока. Рассмотрены и принципиально

обоснованы преимущества предложенного автором метода сжатия аудиоданных по сравнению с рассмотренными выше методами.

В третьей главе описана программно-аппаратная реализация предложенного метода компрессии звуковых данных. Сформулированы требования к аппаратной части - цифровому процессору сигналов (DSP). Определена последовательность действий на каждом этапе предложенного во второй главе алгоритма функционирования аудиокодера , реализующего рассмотренный метод сжатия аудиоданных. Разработано программное обеспечение , реализующее предложенный метод компрессии в среде операционной системы UNIX.

Четвертая глава диссертационной работы посвящена экспериментальному подтверждению теоретических выводов. Разработан аудикодер , реализующий предложенный метод компрессии аудиоданных , и проведено его тестирование. Описана программная среда - операционная система USIX - , в рамках которой осуществлена разработка ПО , реализующего предложенный метод сжатия.

В заключении сформулированы основные результаты работы.

Глава