автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка

кандидата технических наук
Хаджинов, Александр Александрович
город
Таганрог
год
2005
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка»

Автореферат диссертации по теме "Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка"

На правах рукописи

Хаджинов Александр Александрович

РАЗРАБОТКА БЫСТРОДЕЙСТВУЮЩИХ АЛГОРИТМОВ КОМПРЕССИИ ЗВУКОВЫХ ДАННЫХ НА ОСНОВЕ ДЕЛЬТА-ПРЕОБРАЗОВАНИЙ ВТОРОГО ПОРЯДКА

Специальности: 05.13.17. - Теоретические основы информатики 05.13.11. - Математическое и программное

обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Таганрог-2005

Работа выполнена в Таганрогском г осу харственном радиотехническом университете

Научный руководитель:

доктор технических наук, профессор Кравченко П.П

Официальные оппонента: '

Директор ФГНУ НИИ "Спецвузавтоматика",

доктор технических наук, профессор Аграновский A.B.

(г. Ростов-на-Дону)

Доцент кафедры РЭС 3 С

кандидат технических наук, Котенко В.В.

(ТРТУ, г. Таганрог)

Ведущая организация:

НИИ Связи (г. Таганрог)

Защита состоится " ЗО" июня 2005г. в /6 часов на заседании диссертационного совета Д 212.259.02 в Таганрогском государственном радиотехническом университете по адресу: г. Таганрог, пер. Некрасовский 44, ауд. Д-406.

С диссертацией можно ознакомиться в библиотеке Таганрогского государственного радиотехнического университета.

Автореферат разослан "2мая 2005г.

ОБЩАЯЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность

Современные методы кодирования и сжатия звуковой информации находят применение в разнообразных областях: от передачи и хранения аудиоданных до спутниковых цифровых телекоммуникационных систем. Внимание к сжатию звуковой информации особенно возросло в последнее десятилетие в связи с появлением и доступностью цифровых телекоммуникационных систем и, в частности, систем сотовой связи, систем IP-телефонии и систем видеоконференцсвязи. '

Критерии качества преобразованного и передаваемого звука в современных системах обработки и передачи аудио достаточно высоки, и требуемое качество звука должно быть не хуже, чем при обычной телефонии. Однако, как правило, эти требования вступают в противоречие с требованиями приемлемой производительности алгоритма компрессии и стоимости арендуемой сети передачи данных. На сегодняшний день, по существу, для достижения высокого качества звука необходима пропускная способность, учитывающая наличие большого числа пользователей и обеспечивающая в пересчете на одного пользователя ту же эквивалентную скорость передачи информации, которая предоставляется при передаче звука в ISDN (64 кбит/с). Практически это означает, что при реальном трафике, совместно используемом большим числом клиентов, требуемая пропускная способность сети должна составлять не ниже единиц мегабит в секунду.

Методы и алгоритмы компрессии речевых и звуковых данных многочисленны и разнообразны по своим характеристикам, однако имеет место проблема обеспечения сочетаний низкой трудоемкости и достаточного качества преобразования при едином назначении алгоритма для обработки различных аудиоданных. Данная проблема усиливается при необходимости одновременной обработки нескольких потоков медиаданных, а так же при одновременном решении задач другого назначения. Решение данной проблемы часто оказывается возможным только с использованием дорогостоящих специализированных вычислительных средств, сигнальных процессоров.

1 Известные алгоритмы и методы аудиокомпрессии обладают либо сравнительно малым коэффициентом сжатия при низкой трудоемкости и высоком качестве кодирования, либо характеризуются высоким коэффициентом сжатия при высокой трудоемкости. Выбор между различными компрессионными алгоритмами требует поиска компромисса между желаемым коэффициентом сжатия и трудоемкостью. Достижение подобного рода компромиссного решения видится в " простых

алюритмов и методов обработки аудиопотоков, особенно в рамках систем реального времени.

Кроме того, использование алгоритмов компрессии звуковой информации в системах с динамически изменяющейся пропускной способностью сети передачи данных требует решения других сложных задач. В частности, необходимо выявление интервалов молчания (неактивности) для повышения степени сжатия и использование механизма управления скоростью выходного битового потока для более эффективного распределения полосы пропускания между множеством абонентов при условии минимизации времени, затрачиваемого на обработку.

Таким образом, актуальной проблемой является разработка алгоритмов' обеспечивающих на основе единого математического базиса решение задачи эффективного сжатия звуковых данных с низкой трудоемкостью, при достаточном уровне качества, без жесткой привязки к характеру аудиоданных, с возможностью управления скоростью выходного битового потока, со встроенной возможностью простого выявления фрагментов неактивности (пауз).

В качестве решения подобной многокритериальной задачи в данной работе рассматривается применение алгоритмов оптимизированных дельта-преобразований второго порядка. Изначально для обработки звуковых сигналов (в телефонных сетях) использовались алгоритмы дельта-преобразования первого порядка. Отличительными чертами этих алгоритмов были простота реализации и высокая скорость восстановления информации. Вместе с тем, дельта-преобразование первого порядка характеризуется низкой точностью и существенным ограничением скорости изменения преобразовываемой функции.

В связи с повышением требований к качеству аудиокодирования естественным направлением в развитии дельта-преобразований было использование дельта-преобразований второго порядка, характеризующегося также простотой реализацией и более высокими динамическими характеристиками. Вопросы построения алгоритмов дельта-преобразования второго порядка освещены в работах Р. Стила, A.B. Шилейко, Г.Г. Меньшикова и многих других. Важной проблемой для применения известных алгоритмов дельта-преобразования второго порядка долгое время оставалась нестабильность (неустойчивость) преобразований, в связи с чем, эти алгоритмы практически оказывались непригодными.

Алгоритмы дельта-преобразований второго порядка, характеризующиеся стабильностью, возможностями оптимизации по быстродействию и точности, впервые были освещены в работах П.П. Кравченко.

В данной работе исследуются вопросы адаптации алгоритмов оптимизированных дельта-преобразований второго порядка для быстродействующей компрессии оцифрованных звуковых сигналов.

( • i

i* *• 4

Применение алгоритмов оптимизированных дельта-преобразований второго порядка для компрессии оцифрованных звуковых сигналов требует решения ряда специфических задач, которые представлены в данной диссертационной работе и учитывают особенности представления звуковых сигналов в цифровом виде.

Объект исследования

Высокопроизводительные методы и алгоритмы сжатия звуковых данных на основе оптимизированных дельта-преобразований второго порядка, а так же программные средства компрессии аудиоданных.

Цель и задачи работы

Целью настоящей работы является разработка быстродействующих алгоритмов кодирования и декодирования звуковых данных на основе оптимизированных дельта-преобразований второго порядка.

Для достижения поставленной цели в диссертации решаются следующие задачи:

1. Анализ известных алгоритмов и методов компрессии звуковых данных, выявление их достоинств и недостатков;

2. Разработка быстродействующего алгоритма компрессии звуковых данных различной природы на основе единого алгоритмического подхода с использованием разностного алгоритма дельта-преобразований второго порядка;

3. Разработка алгоритмов поиска наилучших параметров кодирования фрагментов аудиоданных;

4. Разработка быстродействующего алгоритма оценки активности звуковых фрагментов;

5. Разработка алгоритма управления скоростью выходного битового потока аудиокодека;

6 Разработка формата хранения и передачи аудиоданных,

7. Разработка программной модели быстродействующего кодека звуковых данных на основе оптимизированных дельта-преобразований второю порядка с возможностью его последующей интеграции в различные •приложения операционной системы;

8. Проведение экспериментальных исследований программной модели аудиокодека

Основные научные результат!,!

1 Рафаботап быстродействующий алгоритм компрессии звуковых данных на основе дельта-преобразований второю порядка от тичающийся низкой фупоемкосгью как при декодировании так и при кодировании ¡а счет использования малого числа низко трудоемких операций,

2 Разработан алгоритм поиска оптимизированной промежуточной частоты дискретизации звукового фрагмента, обеспечивающий достаточное качество кодирования при наибольшей степени компрессии посреклвом учета значений средней второй разности

"! Разработан алгоритм нахождения веса кванта цифрового преобразования фрагмента звуковых данных, обеспечивающий минимизацию ошибки преобразования аудиоданных при заданной промежуточной частоте дискретизации;

4. Разработан алгоритм определения наилучших начальных условий, обеспечивающий стыковку аудиофрагментов с различными значениями промежуточной частоты дискретизации и веса кванта цифрового преобразования с помощью учета динамики изменения восстановленных отсчетов;

5. Предложен быстродействующий алгоритм оценки активности звуковых фрагментов, отличающийся от известных алгоритмов низкой трудоемкостью;

6. Разработанные алгоритмы выбора параметров компрессии основаны на единой методике, использующей значения средних вторых разностей звуковых фрагментов;

7. Предложен метод управления скоростью выходного битового потока аудиокодека, базирующийся на использовании разработанных алгоритмов компрессии и предназначенный для использования в системах с изменяющейся пропускной способностью сети передачи данных;

Основные положения, выносимые на защиту

1. Быстродействующий алгоритм и программная реализация алгоритма компрессии звуковых данных на основе оптимизированных дельта-преобразований второго порядка;

2. Быстродействующий алгоритм и программная реализация алгоритма классификации звуковых фрагментов:

3. Алгоритм и программная реализация алгоритма определения оптимизированной промежуточной частоты дискретизации звукового фрагмента;

4. Алгоритм и программная реализация алгоритма нахождения наилучшего веса кванта цифрового преобразования фрагмента звуковых данных;

5 Алгоритм и программная реализация алгоритма вычисления начальных условий при стыковке фрагментов аудиоданных для алгоритма компрессии на основе дельта-преобразований второго порядка,

Практическая ценность

Практическую ценность работы предегавляют: I Быстродействующий алгоритм компрессии звуковых данных;

2. Алгоритм быстрого программного декодирования звуковых данных;

3. Быстродействующий алгоритм анализа активности звукового фрагмента;

4. Алгоритм определения наилучшего значения веса кванта цифрового преобразования звукового фрагмента;

5. Формат хранения выходного потока кодирующего устройства для хранения и передачи закодированных звуковых данных;

6. Программный модуль для компрессии и декомпрессии звуковых данных;

7. Динамическая библиотека, содержащая программные процедуры компрессии и декомпрессии аудиоданных;

8 Оценки и рекомендации по выбору наилучших параметров для

кодирования звуковых данных; 9. Программная система многоточечной видеоконференцсвязи "Дельта-конференция" с функцией аудиокоференции на основе разработанных алгоритмов компрессии;

Данная работа представляет интерес для программной реализации задач быстрого сжатия и восстановления оцифрованных звуковых данных произвольной природы. Особый интерес представляет использование разработанного алгоритма в системах с одновременной обработкой нескольких потоков не только аудио, но и видеоданных. В частности, характерным примером эффективного использования практически всех полученных в диссертационной работе результатов является применение разработанного аудиокодека в действующей системе многоточечной видеоконференцсвязи "Дельта-конференция".

Методы исследования

При выполнении данной работы использовался математический аппарат теории оптимизированных дельта-преобразований второго порядка, теории кодирования информации, теории вероятностей.

Апробация работы

Результаты работы докладывались и обсуждались на Международных и Всероссийских научно-технических конференциях, в том числе на: 1 III Международной конференции "Телевидение: передача и обработка изображений", Санкт-Петербург, 2003;

2. Международной конференции научно-техническая конференция "Интеллектуальные системы (IEEE AIS'03)"h "Интеллектуальные САПР (CAD-2003)", Москва, 2003;

3. V Международной конференции ''Digital Signal Processing and its Application", Москва, 2003.

4. Международной научно-технической конференции "Informatics. Mathematical Modeling and Design, Владимир, 2004;

5. Всероссийской конференции студентов, аспирантов и молодых ученых "Технологии Microsoft в теории и на практике", Москва, 2005.

Работа выполнялась в рамках госбюджетных НИР №12443 "Разработка опытного образца программной системы конференцсвязи с алгоритмами аудио и видеокомпрессии на основе оптимизированных дельта-преобразований второго порядка для локальных IP-сетей", № 12448 "Разработка программной системы конференцсвязи с поддержкой функций документ-конференции и аудиовидеоконференции для локальных IP-сетей" совместно с ОАО ВНИИ TP (г. Москва). Результаты работы использовалась в учебном процессе в дисциплине "Цифровое управление, сжатие и параллельная обработка информации на основе алгоритмов оптимизированных дельта-преобразований".

Достоверность полученных в диссертации результатов подтверждается разработкой действующей программной библиотеки для сжатия и восстановления звуковых данных, проведенными экспериментальными исследованиями, а так же действующей программной системой ВКС "Дельта-конференция".

Публикации

Результаты, полученные в работе, нашли отражение в 24 печатных работах, среди них 6 статей и 2 свидетельства Всероссийского бюро по патентам и товарным знакам № 2004610865 "Программа компрессии звуковой информации на основе оптимизированных дельта-преобразований второго порядка" и №2004610863 "Программа многосторонней видеоконференцсвязи для корпоративных локальных IP-сетей "Дельта-конференция"

Структура работы

Материал основной части диссертационной работы изложен на 147 страницах машинописного текста. Диссертация состоит из введения, 5 разделов, заключения, списка литературы из 143 наименований, содержит 53 рисунка, и приложения на40 листах.

СОДЕРЖАНИЕ

Во введении обоснована актуальность проблемы, сформулированы цели и основные задачи, решаемые в диссертационной работе.

В первой главе выполнен аналитический обзор известных алгоритмов, методов и стандартов компрессии звуковых данных.

Задача компрессии речевых и аудиоданных не теряет своей значимости, несмотря на постоянный рост пропускных способностей сетей передачи данных. Главная задача сокращения расхода битов для представления звуковых отсчетов - необходимость минимизации стоимости их передачи или хранения и обеспечение возможности передачи такого рода данных по сетям с ограниченной и постоянно изменяющейся пропускной способностью.

Современные алгоритмы аудиокомпрессии, характеризующиеся высоким значением коэффициента сжатия, основываются на преобразованиях с фиксированными базисами (Фурье, Wavelet). В этих алгоритмах не решается задача оценки ошибки преобразования на каждом шаге в связи с применением фиксированных (базисных) функций и, соответственно, в этих алгоритмах явно не используется компенсация ошибок преобразования. В области кодирования речевых сигналов наиболее эффективные алгоритмы преобразования базируются на предположении о линейности спектра речевого сигнала. Однако в большинстве реальных случаев спектр речевого сигнала является нелинейным. Следствием этого является низкий уровень качества кодирования речевых сигналов подобными алгоритмами. Еще одной особенностью кодирования речевых сигналов является необходимость введения дополнительных условий обработки речевого сигнала при переходе от одной фонемы к другой.

В то же время, в связи с развитием распределенных систем совместной работы, где быстрое сжатие и восстановление нескольких потоков аудиоданных в режиме реального времени является обязательной функциональной составляющей, на первый план выдвигается требование низкой трудоемкости используемых алгоритмов звуковой обработки при высокой степени компрессии и достаточном уровне качества кодирования.

Альтернативным решением, учитывающим рассмотренные недостатки, является применение для кодирования звуковых данных алгоритма, особенностями которого является низкая трудоемкость, высокая точность процесса преобразования исходных данных, возможность оценки ошибки

преобразования на каждом шаге. В качестве такого алгоритма в диссертаиии рассматриваются возможности применения оптимизированных по быстродействию и точности алгоритмов дельта-преобразований второго порядка.

Для оценки качества кодирования звуковых данных в диссертационной работе предложено использовать субъективные оценки (в виду того, чго слуховая оценка качества восстановленных аудиоданных играет решающее значение) и объективные оценки, такие как значение ошибки преобразования, значение среднеквадратичной ошибки, отношение сигнал'шум, пиковое отношение сигнал/шум.

Во второй главе рассматриваются особенности кодирования звуковых данных алгоритмами дельта-преобразований второго порядка.

При восстановлении отсчетов звуковых данных базовым алгоритмом дельта-преобразований на определенных участках из-за высокой чувствительности алгоритма к резким изменениям значений исходных аудиоданных могут возникать значительные ошибки.

В предлагаемом алгоритме исходные оцифрованные аудиоданные, полученные с заданной входной частотой дискретизации, разделяются во временной области на непересекающиеся фрагменты. Каждый фрагмент классифицируется с точки зрения наличия или отсутствия активного содержания (вокализованный или пауза). В случае если фрагмент считается активным, выполняется поиск промежуточной частоты дискретизации, обеспечивающей наибольшее сжатие при достаточном качестве кодирования (значение промежуточной частоты дискретизации может жестко задаваться при необходимости адаптации к текущей пропускной способности сети передачи данных). Далее осуществляется расчет оптимизированного веса кванта цифрового преобразования, обеспечивающего наилучшую обработку. Условия стыковки и начальные условия соседних аудиофрагментов пересчитываются в зависимости от соотношения весов квантов цифрового преобразования и значений промежуточных частот дискретизации. После этого к звуковым отсчетам фрагмента применяется алгоритм оптимизированного дельта-преобразования второго порядка со сглаживанием. Полученные компрессированные данные передаются на сторону декодера. В декодере на основании полученной последовательности знаков квантов цифрового преобразования и начальных условий, выполняется декодирование значений звукового фрагмента.

Полный алгоритм компрессии аудиоданных на основе алгоритмов оптимизированных дельта-преобразований второго порядка может быть описан в следующем виде:

Кодер:

~ выделить аудиофрагмент к;

каш=Ф\(УиУъ ••• ,У/п);

если = <неактивный фрагмент> то

передать декодеру признак неактивного фрагмента;

иначе

/*= Фг^'УсркУ, ск*=Ф3(У%,ку, У\=ФА(ск*,ск.!*, У, / = 1;

обработка алгоритмом дельта-преобразования второго порядка пока 0 < (/„ - /и - 1)) выполнять г, = У,-у,',

Чу Г = (У,гт-у,) / т-V =

Р, = г, + 1.5-У/, + (0.5-(Уг',)2/ с - 0.}25-с)^п(Уг',);

УУ,н = УК, + У2У,.,;

= У, + УГН1; 1 = 1+ 1;

Декодер

(для активного фрагмента):

получить значение УК, и ск*\ / = 1; пока (/ < /„)

У2Г,+1 = с**-Д)+,; УУ,+1 = УГ, + У2Г,+1; Г,+1 = У, + УГ)+1; /' = /+ 1:

где -значение /-ого исходного отсчета звуковых данных в исходном фрагменте;

У, - значение /-ого восстановленного отсчета звуковых данных в восстанавливаемом фрагменте;

2, - погрешность дельта-преобразования /-ого отсчета звуковых данных;

Уг , - приращение погрешности;

Р. - переключающая (прогнозирующая) функция,

- вторая разность восстановленных аудиоданных; УК,-. - первая разность восстановленных аудиоданных; Чгу,Рк - средняя вторая разность исходных отсчетов аудиоданных в фрагменте А;

/¡, - значение промежуточной частоты дискретизации для аудиофрагмента:

ск* - вес кванта цифрового преобразования аудиофрагмента с номером к',

Ф0 - функция, предназначенная для вычисления средней второй

разности отсчетов звуковых данных;

Ф\ - функция классификации фрагмента аудиоданных;

функция определения промежуточной частоты дискретизации аудиофрагмента;

Ф3 - функция нахождения веса кванта цифрового преобразования аудиофрагмента;

Ф4 - функция, осуществляющая стыковку фрагментов аудиоданных.

В процессе обработки возможно снижение качества кодирования текущего аудиофрагмента, вызванное несогласованием задания приращения восстановленных отсчетов в начальных условиях. При этом, как следствие, возможно искажение всего звукового фрагмента. Для устранения этих недостатков разработан алгоритм вычисления начальных условий преобразования фрагмента звуковых данных при изменении промежуточных частот дискретизации соседних фрагментов.

Пусть _ - соотношение промежуточных частот дискретизации /п

(и- 1)-го и «-го фрагментов; у ~ последний восстановленный отсчет

п-\,ц/

аудиоданных (и-1)-го фрагмента с количеством элементов, равным !//; У ~ предпоследний восстановленный отсчет в (и-1)-ом фрагменте;

у ~ восстановленный отсчет (и-1)-го фрагмента, отстоящий от

п-\,ц/-(р

последнего элемента аудиоданных на (р шагов. Тогда для согласования процессов обработки аудиофрагментов, если промежуточная частота дискретизации п-го фрагмента аудиоданных меньше промежуточной частоты

дискретизации (л?-1)-го фрагмента аудиоданных ( /". < / ), ю значение

^ п J

уу определяется из соотношения: п, О

УК = У »

п,О п А.у/ п-\,ц/~(р

Пример рабош алгоритма представлен на рисунке 1:

Рисунок 1 - Стыковка фрагментов звуковых данных при /*„</"

Если же промежуточная частота дискретизации «-го блока данных больше

промежуточной частоты дискретизации (п-1 )-го блока данных (/">/" ), то

■>п 7 п-\

значение уу определяется следующим образом: п, О

Пример работы алгоритма представлен на рисунке 2. При переходе от фрагмента с высокой интенсивностью изменения аудиоданных и, соответственно, большим значением веса кванта цифрового преобразования к фрагменту с меньшей интенсивностью изменения аудиоданных и. соответственно, меньшей величиной веса кванта цифрового преобразования в случае отсутствия механизма "стыковки" фрагментов возникает негативный эффект типа "щелчок" при воспроизведении декодированного фрагмента.

Фрагмент п-1

Фрагмент п

Рисунок 2 - Стыковка фрагментов звуковых данных при /„> / 1

Определение начальной разности аудиофрагмента к изменению величины веса кванта цифрового преобразования выполняется на основе следующего соотношения:

*

сп-1

*

где Сп - вес кванта цифрового преобразования текущего (п-го) *

£

аудиофрагмента, - вес кванта цифрового преобразования предыдущего (п-1-го) аудиофрагмента.

Полученное соотношение и является условием стыковки фрагментов звуковых данных по начальным условиям, обеспечивающее устранение негативных эффектов.

Трудоемкость указанных вычислений для фрагмента звуковых данных сравнительно невысока и не приводит к существенным временным затратам при обработке.

Выбор веса кванта цифрового преобразования оказывает влияние на перегрузоки по крутизне и проявление гранулярного шума. Для разработанного алгоритма значение веса кванта цифрового преобразования с*.

действующею в пределах одного фрагмента звуковых данных, определяется из соотношения.

* = _ _упа\ц С = с * -(1 -«•);*■ = 0.2 ■!• 0.3 к

где У2уио, средняя Спо модулю) вторая разность отсчетов звуковою фрагмента.

Последнее условие позволяет определять значение с*, являющееся постоянным при обработке текущего фрагмента звуковых данных, и при использовании которого процесс преобразования "в среднем" был бы близок к оптимизированному с точки зрения обеспечения минимума ошибки и динамического быстродействия.

В третьей главе описывается разработка программной модели аудиокодека. Разработан формат хранения компрессированных аудиоданных. Проведен анализ трудоемкости основных процедур обработки звуковых данных Результаты оценок трудоемкостей основных процедур (на один отсчет звуковых данных) представлены в таблице 1. Следует обратить внимание на то, что полностью отсутствуют операции умножения, а действия выполняются над целочисленными отсчетами.

Таблица 1

Процедура Число операций сложения + сдвига (на один отсчет)

вычисление параметров кодирования 4

изменение частоты дискретизации (прореживание) 1

изменение частоты дискретизации (учащение в 2 раза) 3+]

изменение частоты дискретизации (учащение в 4 раза) 5+1

кодирование 6+4

декодирование 2

Рисунок 3 иллюстрирует динамику изменения времен процедур дельта-преобразования второго порядка, реализованных с использованием вычислений с фиксированной запятой (до оптимизации) и на языке ассемблера (после оптимизации), в зависимости от коэффициентов, задающих соотношение промежуточной и исходной частот дискретизации звуковых данных. По оси ординат указано время работы (в миллисекундах) процедуры компрессии - наиболее трудоемкого по результатам профилирования участка программного кода аудиокодека. Прямой линией оформлена кривая,

характеризующая неоптимизированный программный код, а пунктирной линией показана кривая времени после выполнения оптимизации программного кода

ЮО Время

Рисунок 3 - Сравнение времен работы процедуры дельта-преобразования

Полученные оценки соответствуют результатам экспериментальных исследованиям по обработке 1000 звуковых фрагментов размером по 128 двухбайтовых отсчетов (по 256 байт) на процессоре Celeron с тактовой частотой 2.5 ГГц и размером оперативной памяти 256 Мбайт.

Четвертая глава посвящена описанию экспериментальных исследований разработанной программной модели аудиокодека. Проведенные экспериментальные исследования зависимости качества кодирования от длины звукового фрагмента позволяют сделать вывод о предпочтительном значении »

длины фрагмента, равной 128 отсчетам звуковых данных. Так же, исследования показали, что наилучшее значение шага сглаживания для разработанного алгоритма компрессии является величиной постоянной и равной 3. Анализ характеристик алгоритмов и методов классификации аудиофрагментов, по результатам экспериментальных исследований, свидетельствует о простоте разработанного алгоритма классификации звуковых фрагментов с более высокими характеристиками, по сравнению с энергетическими методами, однако уступающим по показателям специализированным алгоритмам. Результаты анализа характеристик алгоритмов и методов классификации аудиофрагментов представлены на рисунке 4 (Pj - вероятность ложного срабатывания, а Рт - вероятность ошибки анализа.).

♦ Энергетические методы

■ Статистические

методы А Комбинированные

методы X ШауЫй-методы

Ж 0.729

• Спектральное вычитание

рт, о/с + Вероятностные методы — Разработанный алгоритм

Рисунок 4 - Диаграмма алгоритмов оценки активности звуковых фрагментов

Полученные экспериментальным путем для разработанного алгоритма компрессии соотношения между значениями средней второй разности и значениями веса квантов цифрового преобразования подтверждают теоретическое предположение, сделанное в главе 2.

Результаты измерения суммарного времени задержки (кодирование и декодирование, не включающего время передачи) для разработанного алгоритма компрессии звуковых данных в сравнении с программными реализациями других алгоритмов при одинаковых условиях исследований представлены на рисунке 5.

%

X

Ж

+

Разработанный алгоритм 0,024 MPEG Layer III MPEG Layer II MPEG Layer I

LD-CELP |0,655

АДИКМ (G.721) 0,131

147,3

Задержка, мс 0 20 40 60 80 100 120 140 160

Рисунок 5 - Сравнительный анализ суммарного времени задержки

Разработанный алгоритм компрессии характеризуется значительно меньшим значением времени суммарной задержки, по сравнению с существующими реализациями стандартных алгоритмов кодирования аудиоданных за счет своей простоты и отказа от использования трудоемких операций.

Пятая глава содержит примеры практического применения разработанного кодека звуковых данных в различных прикладных приложениях. Разработанный программный модуль для компрессии и декомпрессии звуковых данных позволяет решать задачи записи, хранения и последующего воспроизведения аудиоданных с использованием различных приложений-проигрывателей В качестве одного из примеров использования разработанного кодека звуковых данных в приложениях Microsoft Windows на рисунке 6 представлено окно свойств файла аудиоданных.

Рисунок 6 Использование разработанного кодека звуковых данных в Light

Alloy

Ключевым аспектом использования разработанного кодека аудиоданных является возможность его применения в системах видеоконференцсвязи (ВКС). Компьютерная видеоконференцсвязь - это средство совместной работы удаленных пользователей, отвечающее функциональным требованиям традиционных деловых встреч, совещаний и семинаров. Основным недостатком современных систем многоточечной видеоконференцсвязи является необходимость использования в рамках архитектуры данных комплексов аппаратных модулей управления сеансами конференции (Multipoint Control Unit, MCU). Применение сложных алгоритмов компрессии аудиоданных на основе вокодерного кодирования или методов частотного и временно-частотного преобразования (Фурье, Wavelet) для обеспечения достаточного быстродействия зачастую требует использования в рамках систем многоточечной видеоконференцсвязи с обработкой данных в режиме реального времени специализированных аппаратных средств или серверов преобразования мультимедийных потоков.

Альтернативным путем решения данной проблемы видится использование в многоточечных системах ВКС разработанного быстродействующего аудиокодека Низкая трудоемкость алгоритмов компрессии и, особенно, декомпрессии позволяют выполнять сжатие и одновременное восстановление нескольких потоков аудиоданных с достаточно высоким уровнем качества при работе в режиме реального

времени при одновременном кодировании и воспроизведении нескольких видеопотоков.

В заключении излагаются основные результаты диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Основными научными результатами диссертационной работы являются разработанные на основе оптимизированных дельта-преобразований второго <

порядка алгоритмы компрессии и декомпрессии звуковых данных.

Основные теоретические и практические результаты диссертационной работы заключаются в следующем: ,

1. Разработан быстродействующий алгоритм компрессии звуковых данных на основе дельта-преобразований второго порядка, отличающийся низкой трудоемкостью, как при декодировании, так и при кодировании за счет использования малого числа целочисленных операций;

2. Разработан алгоритм поиска оптимизированной промежуточной частоты дискретизации звукового фрагмента, обеспечивающий достаточное качество кодирования при наибольшей степени компрессии посредством учета значений средней второй разности;

3. Разработан алгоритм нахождения веса кванта цифрового преобразования фрагмента звуковых данных, обеспечивающий минимизацию ошибки преобразования аудиоданных при заданной промежуточной частоте дискретизации путем более точного восстановления исходных отсчетов звуковых данных;

4. Разработан алгоритм определения наилучших начальных условий, обеспечивающий стыковку аудиофрагментов с различными значениями промежуточной частоты дискретизации и веса кванта цифрового преобразования с помощью учета скорости изменения восстановленных отсчетов;

5. Предложен быстродействующий алгоритм оценки активности звуковых фрагментов, отличающийся от известных алгоритмов низкой трудоемкостью;

6. Разработанные алгоритмы выбора параметров компрессии основаны на единой методике, использующей значения средних вторых разностей звуковых фрагментов;

7. Предложен метод управления скоростью выходного битового потока аудиокодека, базирующийся на использовании разработанных алгоритмов компрессии и предназначенный для использования в системах с изменяющейся пропускной способностью сети передачи данных;

8. Разработан формат хранения выходного потока кодирующего устройства для записи и передачи закодированных звуковых данных;

9. Разработан программный модуль для компрессии и декомпрессии звуковых данных на основе предложенных в диссертационной работе алгоритмов;

10. Сформулированы оценки и рекомендации по выбору наилучших параметров для кодирования звуковых данных разработанными алгоритмами;

11. Разработана динамическая библиотека, содержащая программные процедуры компрессии и декомпрессии аудиоданных с возможностью

г интеграции в приложения операционной системы;

12. Разработана программная подсистема с функцией аудиокоференции на основе разработанных алгоритмов для системы многоточечной

.1 видеоконференцсвязи "Дельта-конференция";

Проведенные в диссертационной работе исследования показали, что разработанные алгоритмы компрессии и декомпрессии звуковых данных позволяют существенно сократить время, затрачиваемое на аудиообработку. Это позволяет использовать имеющиеся вычислительные ресурсы более эффективно и предоставляет возможность параллельного выполнения ряда других прикладных задач. Предлагаемые алгоритмы могут использоваться в самом широком спектре приложений, особенно при возникновении дефицита ресурсов и жестких требованиях по времени преобразования и восстановления, в частности для кодирования и одновременного декодирования нескольких потоков аудиоданных в системах видеоконференцсвязи.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ

1. Хаджинов A.A. Кодек звуковых данных на основе оптимизированных дельта-преобразований второго порядка. // Технологии Microsoft в теории и практике программирования. Труды Всероссийской конференции студентов, аспирантов и молодых ученых. Центральный регион. Москва 17-18 февраля, 2005 г. - М.: Издательство МГТУ им. Н.Э. Баумана, 2005.

2. Хаджинов A.A. Разработка быстродействующего алгоритма компрессии звуковых данных на основе оптимизированных дельта-преобразований второго порядка. // VII Всероссийская научная конференция студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления" КРЭС-2004. Таганрог, ТРТУ, 14-15 октября 2004г. Тезисы докладов. - Таганрог: Изд-во ТРТУ, 2004г.

3. Кравченко П.П., Хаджинов A.A., Хусаинов Н.Ш. Sound compression with second order delta-modulation. // материалы Международной научно-технической конференции "Informatics, Mathematical Modeling and Design", Владимир, 2004.

4. Хаджинов A.A. О повышении производительности кодека звуковых данных на основе алгоритма оптимизированных дельта-преобразований второго порядка. "Новые информационные технологии. Разработка и аспекты применения". Труды VII Всероссийской научной конференции с международным участием. Научное издание - Таганрог:, 2004г.

5. Хаджинов A.A. Оценка качества кодирования аудиоданных алгоритмом дельта-преобразования второго порядка. // II Всероссийская научная конференция молодых ученых, студентов и аспирантов "Информационные технологии, системный анализ и управление". 11-12 ноября 2004г., Таганрог. Тезисы докладов. - Таганрог: Изд-во ТРТУ, 2004г.

6. Хаджинов A.A. Компрессия звуковых данных на основе оптимизированных дельта-преобразований второго порядка. // Известия ТРТУ. Специальный выпуск. Материалы L научно-технической конференции профессорско-преподавательского состава, аспирантов и сотрудников ТРТУ. - Таганрог: Изд-во ТРТУ, 2004. № 8 (43).

7. Хаджинов A.A. Компрессия звуковых сигналов с использованием алгоритма дельта-преобразований второго порядка для компьютерных систем конференцсвязи. // Известия ТРТУ. Специальный выпуск "Материалы XLIX научно-технической и научно-методической конференций профессорско-преподавательского состава, аспирантов и сотрудников ТРТУ. Таганрог: Изд-во ТРТУ, 2004.

8. Кравченко П.П., Хусаинов Н.Ш., Погорелов К.В., Хаджинов А.А , Шкурко А Н. Программная система аудиовидеоконференцсвязи для локальных и корпоративных IP-сетей. // Программные продукты и системы (Software & Systems), 2004. - № 1.

9 Хаджинов А А Компрессия звуковых сигналов в системе многоточечной видеоконференцсвязи для IP-сетей. // "Новые информационные технологии. Разработка и аспекты применения" Труды VI Всероссийской научной конференции с международным участием. Научное издание. -Таганрог. ООО "Антон", 2003.

10. Кравченко П.П., Хусаинов Н.Ш., Погорелов К.В., Хаджинов A.A., Шкурко А Н. Программная система многостороннего обмена аудиовидеоинформацией для использования в системах видеонаблюдения. // Научно-практический журнал "Информационное противодействие угрозам терроризма", 2003 г., № 1.

11. Кравченко П.П., Хаджинов A.A. Алгоритм обработки звуковых сигналов на основе оптимизированных дельта-преобразований второго порядка. // Тез докл. V Всероссийской научной конференции молодых ученых и аспирантов "Новые информационные технологии. Разработка и аспекты применения", Таганрог, 28-29 ноября 2002г. - Таганрог: ООО "Антон", 2002.

В работах, выполненных в соавторстве, вклад автора диссертации состоит в разработке алгоритма компрессии звуковых данных на основе дельта-преобразований второго порядка [3, 11]; в разработке подсистемы кодирования аудиоданных [8, 10].

»11 188

РНБ Русский фонд

2006-4 7175

Заказ № 203 Тираж 100 экз.

Издательство Таганрогского государственного радиотехнического университета ГСП 17А, Таганрог, 28, Некрасовский, 44

Типография Таганрогского государственного радиотехнического университета ГСП 17А, Таганрог, 28, Энгельса, 1

Оглавление автор диссертации — кандидата технических наук Хаджинов, Александр Александрович

ВВЕДЕНИЕ. lf. 1. АНАЛИТИЧЕСКИЙ ОБЗОР ИЗВЕСТНЫХ АЛГОРИТМОВ ОБРАБОТКИ И

КОМПРЕССИИ ЗВУКОВЫХ ДАННЫХ.

1.1. Особенности компрессии звуковых данных.

1.2. Избыточности аудиосигналов.

1.3. Методы оценки качества кодирования.

1.4. Основные классы аудиосигналов.

1.5. Обзор стандартов кодирования речевых сигналов.

1.5.1. Импульсно-кодовая модуляция.

1.5.2. Адаптивная дифференциальная ИКМ (АДИКМ).

1.5.3. Дельта-преобразование первого порядка.

1.5.4. Вокодерное кодирование.

1.6. Кодирование широкополосных речевых сигналов.

1.7. Кодирование широкополосных аудиосигналов.

1.8. Методы определения активности звуковых фрагментов.

1.9. Выводы.

2. РАЗРАБОТКА БЫСТРОДЕЙСТВУЮЩИХ АЛГОРИТМОВ КОМПРЕССИИ * ЗВУКОВЫХ ДАННЫХ НА ОСНОВЕ ОПТИМИЗИРОВАННЫХ ДЕЛЬТА

ПРЕОБРАЗОВАНИЙ ВТОРОГО ПОРЯДКА.

2.1. Особенности обработки аудиосигналов алгоритмами дельта-преобразований.

2.2. Основные достоинства и недостатки известных алгоритмов дельта-преобразования.

2.3. Постановка задачи дельта-преобразования второго порядка.

2.4. Алгоритмы оптимизированных дельта-преобразований второго порядка.

2.5. Принципы обработки аудиоданных модифицированным алгоритмом оптимизированных дельта-преобразований второго порядка.

2.6. Алгоритмы кодирования аудиоданных с использованием оптимизированных дельта-преобразований второго порядка.

2.6.1. Алгоритм определения активности звукового фрагмента.

2.6.2. Алгоритм выбора веса кванта цифрового преобразования звукового фрагмента

2.6.3. Алгоритм поиска промежуточной частоты дискретизации входных аудиоданных.

2.6.4. Алгоритм стыковки фрагментов аудиоданных.

2.7. Выводы.

3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ РАЗРАБОТАННЫХ АЛГОРИТМОВ

КОМПРЕССИИ ЗВУКОВЫХ ДАННЫХ НА ОСНОВЕ ОПТИМИЗИРОВАННЫХ

ДЕЛЬТА-ПРЕОБРАЗОВАНИЙ ВТОРОГО ПОРЯДКА.

3.1. Основные требования к программной модели разработанного метода аудиокодирования.

3.2. Структурная схема кодека звуковых данных.

3.3. Формат хранения/передачи закодированных данных.

3.4. Комплексная схема программной реализации кодека звуковых данных.

3.5. Анализ трудоемкости основных процедур разработанной программной модели (+ кодека звуковых данных.

3.6. Выводы.

4. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ РАЗРАБОТАННОЙ ПРОГРАММНОЙ МОДЕЛИ АУДИОКОДЕКА НА ОСНОВЕ

ОПТИМИЗИРОВАННЫХ ДЕЛЬТА-ПРЕОБРАЗОВАНИЙ ВТОРОГО ПОРЯДКА.

4.1. Методика проведения экспериментальных исследований.

4.2. Анализ влияния длины фрагмента звуковых данных алгоритма дельта-преобразования второго порядка на качественные характеристики кодирования аудиосигналов различного типа.

4.3. Анализ влияния шага сглаживания алгоритма дельта-преобразования второго порядка на качественные характеристики кодирования аудиосигналов различного типа.

4.4. анализ влияния соотношений между средней второй разностью и весом кванта цифрового преобразования алгоритма дельта-преобразования второго порядка на качественные характеристики кодирования аудиосигналов различного типа.

4.5. Сравнение характеристик алгоритмов определения активности звуковых фрагментов.

4.6. Анализ режима компрессии с переменной скоростью выходного битового потока

4.7. Сравнительный анализ времени суммарной задержки.

4.8. Выводы.

5. ПРАКТИЧЕСКОЕ ПРИМЕНЕНИЕ КОДЕКА АУДИОДАННЫХ НА ОСНОВЕ АЛГОРИТМОВ ОПТИМИЗИРОВАННЫХ ДЕЛЬТА-ПРЕОБРАЗОВАНИЙ ВТОРОГО

ПОРЯДКА.

5.1. Реализация модуля компрессии аудиоданных в виде системного кодека.

5.2. Применение кодека аудиоданных в приложениях операционной системы.

5.3. Разработка универсального интерфейса управления параметрами аудиокодека

5.4. Применение кодека аудиоданных для системы ВКС.

5.6. Выводы.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Хаджинов, Александр Александрович

Актуальность

Современные методы кодирования и сжатия звуковой информации * находят применение в разнообразных областях: от передачи и хранения оцифрованных аудиоданных до спутниковых цифровых телекоммуникационных систем. Внимание к сжатию звуковой информации особенно возросло в последнее десятилетие в связи с появлением и доступностью цифровых телекоммуникационных систем и, в частности, систем сотовой связи, систем IP-телефонии и систем видеоконференцсвязи.

Критерии качества преобразованного и передаваемого звука в '4t современных системах обработки и передачи аудио достаточно высоки, и требуемое качество звука должно быть не хуже, чем при обычной телефонии. Однако, как правило, эти требования вступают в противоречие с требованиями приемлемой производительности алгоритма компрессии и стоимости арендуемой сети передачи данных. На сегодняшний день, по существу, для достижения высокого качества звука необходима пропускная способность, учитывающая наличие большого числа пользователей и обеспечивающая в А пересчете на одного пользователя ту же эквивалентную скорость передачи информации, которая предоставляется при передаче звука в ISDN (64 кбит/с). Практически это означает, что при реальном трафике, совместно используемом большим числом клиентов, требуемая пропускная способность сети должна составлять не ниже единиц мегабит в секунду [130].

Методы и алгоритмы компрессии речевых и звуковых данных многочисленны и разнообразны по своим характеристикам, однако имеет место проблема обеспечения сочетаний низкой трудоемкости и достаточного качества преобразования при едином назначении алгоритма для обработки различных Л аудиоданных. Данная проблема усиливается при необходимости одновременной обработки нескольких потоков медиаданных, а так же при одновременном решении задач другого назначения. Решение данной проблемы часто оказывается возможным только с использованием дорогостоящих специализированных вычислительных средств, сигнальных процессоров.

Известные алгоритмы и методы аудиокомпрессии обладают либо сравнительно малым коэффициентом сжатия при низкой трудоемкости и высоком качестве кодирования, либо характеризуются высоким коэффициентом сжатия при высокой трудоемкости. Выбор между различными компрессионными алгоритмами требует поиска компромисса между желаемым коэффициентом сжатия и трудоемкостью. Достижение подобного рода компромиссного решения видится в использовании более простых алгоритмов и методов обработки аудиопотоков, особенно в рамках систем реального времени.

Кроме того, использование алгоритмов компрессии звуковой информации в системах с динамически изменяющейся пропускной способностью сети передачи данных требует решения других сложных задач. В частности, необходимо выявление интервалов молчания (неактивности) для повышения степени сжатия и использование механизма управления скоростью выходного битового потока для более эффективного распределения полосы пропускания между множеством абонентов при условии минимизации времени, затрачиваемого на обработку.

Таким образом, актуальной проблемой является разработка алгоритмов, обеспечивающих на основе единого математического базиса решение задачи эффективного сжатия звуковых данных с низкой трудоемкостью, при достаточном уровне качества, без жесткой привязки к характеру аудиоданных, с возможностью управления скоростью выходного битового потока, со встроенной возможностью простого выявления фрагментов неактивности (пауз).

В качестве решения подобной многокритериальной задачи в данной работе рассматривается применение алгоритмов оптимизированных дельта-преобразований второго порядка. Изначально для обработки звуковых сигналов в телефонных сетях) использовались алгоритмы дельта-преобразования первого порядка. Отличительными чертами этих алгоритмов были простота реализации и высокая скорость восстановления информации. Вместе с тем, * дельта-преобразование первого порядка характеризуется низкой точностью и существенным ограничением скорости изменения преобразовываемой функции.

В связи с повышением требований к качеству аудиокодирования естественным направлением в развитии дельта-преобразований было использование дельта-преобразований второго порядка [41-43,46], характеризующегося не только простотой реализацией, но и более высокими 4 динамическими характеристиками. Вопросы построения алгоритмов дельтапреобразования второго порядка освещены в работах Р. Стила [41], А.В. Шилейко, Г.Г. Меньшикова, de Jeager F. и многих других. Важной проблемой для применения известных алгоритмов дельта-преобразования второго порядка долгое время оставалась нестабильность (неустойчивость) преобразований, в связи с чем, эти алгоритмы практически оказывались непригодными.

Алгоритмы дельта-преобразований второго порядка, характеризующиеся стабильностью, возможностями оптимизации по быстродействию и точности, впервые были освещены в работах П.П. Кравченко [43-46].

В данной работе исследуются вопросы адаптации алгоритмов оптимизированных дельта-преобразований второго порядка для быстродействующей компрессии оцифрованных звуковых сигналов.

Применение алгоритмов оптимизированных дельта-преобразований второго порядка для компрессии оцифрованных звуковых сигналов требует решения ряда специфических задач, которые представлены в данной кЩ диссертационной работе и учитывают особенности представления звуковых сигналов в цифровом виде.

Объект исследования

Высокопроизводительные методы и алгоритмы сжатия звуковых данных на основе оптимизированных дельта-преобразований второго порядка, а так же программные средства компрессии аудиоданных.

Цель и задачи работы

Целью настоящей работы является разработка быстродействующих алгоритмов кодирования звуковых данных на основе оптимизированных дельта-преобразований второго порядка.

Для достижения поставленной цели в диссертации решаются следующие задачи:

4 1) Анализ известных алгоритмов и методов компрессии звуковых данных, выявление их достоинств и недостатков;

2) Разработка быстродействующего алгоритма компрессии звуковых данных различной природы на основе единого алгоритмического подхода с использованием разностного алгоритма дельта-преобразований второго порядка;

3) Разработка алгоритмов поиска наилучших параметров кодирования фрагментов аудиоданных;

4) Разработка быстродействующего алгоритма оценки активности звуковых фрагментов;

5) Разработка алгоритма управления скоростью выходного битового потока аудиокодека;

6) Разработка формата хранения и передачи аудиоданных;

7) Разработка программной модели быстродействующего кодека звуковых данных на основе оптимизированных дельта-преобразований второго порядка с возможностью его последующей интеграции в различные приложения операционной системы;

8) Проведение экспериментальных исследований программной модели аудиокодека.

Основные научные результаты

1) Разработан быстродействующий алгоритм компрессии звуковых * данных на основе дельта-преобразований второго порядка, отличающийся низкой трудоемкостью, как при декодировании, так и при кодировании за счет использования малого числа целочисленных операций;

2) Разработан алгоритм поиска оптимизированной промежуточной частоты дискретизации звукового фрагмента, обеспечивающий достаточное качество кодирования при наибольшей степени

Jk компрессии посредством учета значений средней второй разности;

3) Разработан алгоритм нахождения веса кванта цифрового преобразования фрагмента звуковых данных, обеспечивающий минимизацию ошибки преобразования аудиоданных при заданной промежуточной частоте дискретизации путем более точного восстановления исходных отсчетов звуковых данных;

4) Разработан алгоритм определения наилучших начальных условий, обеспечивающий стыковку аудиофрагментов с различными значениями промежуточной частоты дискретизации и веса кванта цифрового преобразования с помощью учета динамики изменения восстановленных отсчетов;

5) Предложен быстродействующий алгоритм оценки активности звуковых фрагментов, отличающийся от известных алгоритмов низкой трудоемкостью;

6) Разработанные алгоритмы выбора параметров компрессии основаны на единой методике, использующей значения средних вторых разностей Л звуковых фрагментов;

7) Предложен метод управления скоростью выходного битового потока аудиокодека, базирующийся на использовании разработанных алгоритмов компрессии и предназначенный для использования в системах с изменяющейся пропускной способностью сети передачи данных;

Основные положения, выносимые на защиту

1) Быстродействующий алгоритм и программная реализация алгоритма компрессии звуковых данных на основе оптимизированных дельта-преобразований второго порядка;

2) Быстродействующий алгоритм и программная реализация алгоритма классификации звуковых фрагментов;

3) Алгоритм и программная реализация алгоритма определения оптимизированной промежуточной частоты дискретизации звукового фрагмента;

4) Алгоритм и программная реализация алгоритма нахождения наилучшего веса кванта цифрового преобразования фрагмента звуковых данных;

5) Алгоритм и программная реализация алгоритма вычисления начальных условий при стыковке фрагментов аудиоданных для алгоритма компрессии на основе дельта-преобразований второго порядка;

Практическая ценность

Практическую ценность работы представляют:

1) Быстродействующий алгоритм компрессии звуковых данных;

2) Алгоритм быстрого программного декодирования звуковых данных;

3) Быстродействующий алгоритм анализа активности звукового фрагмента;

4) Алгоритм определения наилучшего значения веса кванта цифрового преобразования звукового фрагмента;

5) Формат хранения выходного потока кодирующего устройства для хранения и передачи закодированных звуковых данных;

6) Программный модуль для компрессии и декомпрессии звуковых данных;

7) Динамическая библиотека, содержащая программные процедуры * компрессии и декомпрессии аудиоданных;

8) Оценки и рекомендации по выбору наилучших параметров для кодирования звуковых данных;

9) Программная система многоточечной видеоконференцсвязи "Дельта-конференция" с функцией аудиокоференции на основе разработанных алгоритмов компрессии;

Данная работа представляет интерес для программной реализации задач быстрого сжатия и восстановления оцифрованных звуковых данных произвольной природы. Особый интерес представляет использование разработанного алгоритма в системах с одновременной обработкой нескольких потоков не только аудио, но и видеоданных. В частности, характерным примером эффективного использования практически всех полученных в диссертационной работе результатов является применение разработанного аудиокодека в действующей системе многоточечной видеоконференцсвязи "Дельта-конференция".

Методы исследования

При выполнении данной работы использовался математический аппарат теории оптимизированных дельта-преобразований второго порядка, теории кодирования информации, теории вероятностей.

Апробация работы

Результаты работы докладывались и обсуждались на Международных, Всероссийских научно-технических конференциях, в том числе на:

1) III Международной конференции "Телевидение: передача и обработка изображений", Санкт-Петербург, 2003;

2) Международной конференции научно-техническая конференция "Интеллектуальные системы (IEEE AIS'03)"h "Интеллектуальные САПР (CAD-2003)", Москва, 2003; л

3) V Международной конференции "Digital Signal Processing and its Application", Москва, 2003.

4) Международной научно-технической конференции "Informatics, Mathematical Modeling and Design, Владимир, 2004;

5) Всероссийской конференции студентов, аспирантов и молодых ученых "Технологии Microsoft в теории и на практике", Москва, 2005.

Работа выполнялась в рамках госбюджетных НИР №12443 "Разработка опытного образца программной системы конференцсвязи с алгоритмами аудио и видеокомпрессии на основе оптимизированных дельта-преобразований второго порядка для локальных IP-сетей", № 12448 "Разработка программной системы конференцсвязи с поддержкой функций документ-конференции и аудиовидеоконференции для локальных IP-сетей" совместно с ОАО ВНИИ TP (г. Москва). Результаты работы использовалась в учебном процессе в дисциплине "Цифровое управление, сжатие и параллельная обработка * информации на основе алгоритмов оптимизированных дельта-преобразований".

Достоверность полученных в диссертации результатов подтверждается разработкой действующей программной библиотеки для сжатия и восстановления звуковых данных, проведенными экспериментальными исследованиями, а так же действующей программной системой ВКС "Дельта-конференция".

Публикации

Результаты, полученные в работе, нашли отражение в 24 печатных работах, среди них 6 статей и 2 свидетельства Всероссийского бюро по патентам и товарным знакам №2004610865 "Программа компрессии звуковой информации на основе оптимизированных дельта-преобразований второго порядка" и №2004610863 "Программа многосторонней видеоконференцсвязи для корпоративных локальных IP-сетей "Дельта-конференция".

Структура работы

Материал основной части диссертационной работы изложен на 147 страницах машинописного текста. Диссертация состоит из введения, 5 разделов, заключения, списка литературы из 143 наименований, содержит 53 рисунка, и приложения на 40 листах.

Заключение диссертация на тему "Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка"

5.6. Выводы

1) Исследованы программные классы для реализации возможностей интеграции разработанных алгоритмов в различные приложения операционной системы Microsoft Windows;

2) Разработана программная модель быстродействующего кодека звуковых данных на основе оптимизированных дельта-преобразований второго порядка в виде динамической библиотеки с возможностью интеграции в различные приложения операционной системы;

3) Разработанная подсистема взаимодействия с аудиокодеком дает возможность сторонним программным приложениям выполнять простое и удобное управление параметрами кодирования;

4) Проведенные экспериментальные исследования динамической библиотеки аудиокодека в системе видеоконференцсвязи свидетельствуют о возможности одновременного декодирования нескольких аудиопотоков в режиме реального времени без использования каких-либо дополнительных аппаратных средств.

ЗАКЛЮЧЕНИЕ

В диссертационной работе проведен обзор существующих алгоритмов и методов компрессии звуковых данных, который позволяет утверждать об отсутствии быстродействующих алгоритмов компрессии с низкой трудоемкостью и достаточно высоким коэффициентом сжатия, независящих от природы исходного аудиосигнала. Предложен алгоритм компрессии цифровых звуковых данных на основе оптимизированных дельта-преобразований второго порядка. Для повышения качества кодирования интенсивно изменяющихся звуковых данных предложен модифицированный алгоритм дельта-преобразования второго порядка со сглаживанием. Разработан алгоритм вычисления наилучших параметров компрессии и алгоритм классификации (определения активности/неактивности) звуковых фрагментов. Для повышения качества кодирования и устранения негативных эффектов обработки и искажений в рамках диссертационной работы предложен алгоритм стыковки звуковых фрагментов.

Программно реализованы алгоритмы компрессии и декомпрессии звуковых данных на основе предложенных алгоритмов. Разработан формат хранения компрессированных аудиоданных. Программная реализация алгоритмов компрессии и декомпрессии звуковых данных оформлена в виде динамической библиотеки с возможностью последующего использования в любых программных приложениях операционной системы.

С использованием программной модели проведены экспериментальные исследования характеристик разработанных алгоритмов и выявлены их зависимости от параметров алгоритма кодирования. В результате проведенных экспериментальных исследований получены оптимизированные параметры алгоритмов и доказаны теоретические посылки, представлены объективные и субъективные оценки качества кодирования при различных значениях параметров кодирования.

Простота и высокое быстродействие алгоритмов кодирования и декодирования позволяют говорить о перспективности их использования для решения задач обработки аудиоданных в рамках многоточечных систем видеоконференцсвязи без выделенного сервера преобразования мультимедийных данных. Особенности применения программной реализации представленных алгоритмов компрессии и декомпрессии опубликованы в материалах международных, всероссийских и региональных конференций.

Материалы диссертационной работы использованы при выполнении х/д работ № 12443, №12448 и в учебном процессе по курсу "Цифровое управление, сжатие и параллельная обработка информации на основе дельта-преобразований второго порядка".

По результатам диссертационной работы получены два свидетельства Всероссийского бюро по патентам и товарным знакам №2004610865 "Программа компрессии звуковой информации на основе оптимизированных дельта-преобразований второго порядка" и №2004610863 "Программа многосторонней видеоконференцсвязи для корпоративных локальных IP-сетей "Дельта-конференция".

Библиография Хаджинов, Александр Александрович, диссертация по теме Теоретические основы информатики

1. Новик Д.А. Эффективное кодирование. -М. Л.: Энергия, 1965.

2. Борзенко А.И. Методы сжатия данных //КомпьютерПресс. 1995. -№8.

3. Петелин Р.Ю., Петелин Ю.В. Музыкальный компьютер. Секреты мастерства. СПб.: БХВ - Петербург; Арлит, 2001.

4. Олдошина И.А. Слуховая маскировка // Звукорежиссер. 2000 - №2.

5. Беллами Дж. Цифровая телефония /Пер. с англ. М.:Радио и связь, 1980.

6. ITU-T Recommendation 1.350 "General Aspects of Quality of Service and Network Performance in digital Networks, including ISDNs", 1993.

7. OCT 4.202.003-84 Метод экспертной оценки качества звучания. 1984.

8. CCITT. General Aspects of Digital Transmission Systems. Terminal Equipments. Recommendation G.711. 64 kbit/s Pulse Code Modulation (PCM). Geneva, 1990.

9. Гуревич В.Э. Импульсно-кодовая модуляция в многоканальной телефонной связи. -М.: Связь, 1973.

10. Секунов Н.Ю. Обработка звука на PC. СПб.: БХВ-Петербург, 2001.

11. CCITT. General Aspects of Digital Transmission Systems. Terminal Equipments. Recommendation G.721. 32 kbit/s Adaptive Differential Pulse Code Modulation (ADPCM). Geneva, 1990.

12. Маркел Дж.Д., Грей A.X. Линейное предсказание речи. — М.: Связь, 1980.

13. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. / Под ред. М.А. Сапожникова. — М.: Радио и связь, 1987.

14. Коротаев Г.А. Линейное предсказание речи. // Зарубежная радиоэлектроника. — 1991. — № 7.

15. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под. ред. О.И. Шелухина. М.: Радио и связь, 2000.

16. Пилипчук Н.И., Яковлев В.П. Адаптивная импульсно-кодовая модуляция.-М.:Радио и связь, 1986.

17. CCITT. General Aspects of Digital Transmission Systems. Terminal Equipments. Recommendation G.723. Digital Circuit Multiplication Equipment Adaptive Differential Pulse Code Modulation (DCME-ADPCM). Geneva, 1990.

18. CCITT. General Aspects of Digital Transmission Systems. Terminal Equipments. Recommendation G.727. Embedded Adaptive Pulse Code Modulation for Speech Transmission over Packet-Oriented Transmission Networks. Geneva, 1990.

19. ITU-T Recommendation G.727 "5-, 4-, 3- and 2-bits sample embedded adaptive differential pulse code modulation (ADPCM)", 1990.

20. Любимов А., Евсиков M. Линейное предсказание речи — это просто //Монитор, 1995, №4.

21. CCITT. General Aspects of Digital Transmission Systems. Terminal Equipments. Recommendation G.728. Coding of Speech At 16 kbit/s Using Low-Delay Code Excited Linear Prediction. Geneva, 1992.

22. CCITT. General Aspects of Digital Transmission Systems. Terminal Equipments. Recommendation G.722. 48, 56, 64 kbit/s Wide-Band Audio Coding Using Sub-Band Adaptive Differential Pulse Code Modulation (SubBand-ADPCM). Geneva, 1991.

23. Hathaway G.T. A NICAM digital stereophonic encoder //Audiovisual Telecommunications. New York: Chapman and Hall, 1992.

24. Барабаш О. Аудио MPEG, http://www.vlz.ru/mp3bout/mp3mpeg.htm

25. Бризицкий Т. О современных форматах кодирования аудио. http://www.websound.ru

26. Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сигналов /Пер. с англ./Под ред. И.Б.Фоменко. М.: Связь, 1980.

27. Залманзон J1.A. Преобразование Фурье, Уолша, Хаара и их применение в управлении, связи и других областях. М,:Наука, 1989.

28. Добеши И. Десять лекций по вейвлетам. — Ижевск: НИЦ "Регулярная и хаотическая динамика", 2001.

29. Tewfik А.Н., Murtaza A. Enhanced wavelet based audio coder. Department of electrical engeneering, University of Minnesota, Minneapolis, MN 55455.

30. Srinivasan P., Jamieson L. H. High quality audio compression using an adaptive wavelet packet decomposition and psychoacoustic modeling. // IEEE Transactions on Signael Processing, vol. XX, no. V, 1999.

31. Schremmer C., Haenselmann T. Wavelets in real-time digital audio processing: a software for understanding wavelets in applied computer science. 2000. http://www.informatik.uni-mannheim.de.

32. Tonkelowitz M., Vernal M., Patel A. Lossless sound compression using the discrete wavelet transform. 2002. http://www.fas.harvard.edu.

33. Кинтцель Т. Руководство программиста по работе со звуком. М.: ДМК Пресс, 2000.

34. Bateman A., Paterson-Stephens I The DSP Handbook. Algorimth, Applications and Design Techniques. 2002.

35. Renevey P., Drygajlo A. Entropy Based Voice Activity in Very Noisy Conditions // http://www.epfl.ch

36. Sohn J, Kim N.S., Sung W. A Statistical Model-Based Voice Activity Detection // IEEE Signal Processing Letters, vol. 6, № 1, January, 1999.

37. Zhang J., Ward W., Pellom B. Phone Based Voice Activity Detection Using Online Bayesian Adaptation With Conjugate Normal Distributions // http://www.cslr.colorado.edu

38. Faneuff J.J., Brown R. Noise Reduction and Increased VAD Accuracy Using Spectral Subtraction // http://www.ece.wpi.edu

39. Hamada N., Hioka Y. Voice Activity Detection with Array Signal Processing in the Wavelet Domain // IEEE Trans. Fundamentals, vol. E861. A, № 11, November 2003.

40. Стил P. Принципы дельта-модуляции: Пер. с англ. / Под ред.

41. B.В.Маркова. М.: Связь, 1979.

42. Дельта-модуляция. Теория и применение / М.Д.Венедиктов, Ю.П.Женевский, В.В.Марков, Г.С.Эйдус. М.: Связь, 1976.

43. Кравченко П.П. Основы теории оптимизированных дельта-преобразований второго порядка. Цифровое управление, сжатие и параллельная обработка информации. Таганрог: Изд-во ТРТУ, 1997.

44. Кравченко П.П. Дельта-модуляция на основе высших разностей и глубокого прогноза // Электронное моделирование. 1984. - № 1.

45. Кравченко П.П. О дельта-модуляции на основе вторых разностей и оптимизированного переходного процесса // Электронное моделирование. 1986. - № 2.

46. Кравченко П.П. Высокопроизводительные алгоритмы дельта-модуляции, оптимизированной по быстродействию и точности // Электросвязь. 1989. - № 9.

47. Noll P. Digital Audio Coding for Visual Communications //Proceedings of the IEEE. 1995. - Vol.83, No.6.

48. Банкет В.JI., Дорофеев В.М. Цифровые методы в спутниковой связи. — М.: Радио и связь, 1988.

49. Баева Н.Н., Гордиенко В.Н. Многоканальные системы передачи. -М.:Радио и связь, 1997.50