автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка методов и алгоритмов повышенной компрессии аудиосигналов, закодированных на основе оптимизированных дельта-преобразований второго порядка

кандидата технических наук
Каграманянц, Виктор Александрович
город
Таганрог
год
2010
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка методов и алгоритмов повышенной компрессии аудиосигналов, закодированных на основе оптимизированных дельта-преобразований второго порядка»

Автореферат диссертации по теме "Разработка методов и алгоритмов повышенной компрессии аудиосигналов, закодированных на основе оптимизированных дельта-преобразований второго порядка"

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ "ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ"

на правах рукописи 00461744В ^

Каграманянц Виктор Александрович

РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ ПОВЫШЕННОЙ КОМПРЕССИИ АУДИОСИГНАЛОВ, ЗАКОДИРОВАННЫХ НА ОСНОВЕ ОПТИМИЗИРОВАННЫХ ДЕЛЬТА-ПРЕОБРАЗОВАНИЙ ВТОРОГО ПОРЯДКА

Специальность:

05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Научный руководитель: доктор технических наук,

профессор Кравченко П. П.

Таганрог, 2010 г.

1 б ПСЦ

004617448

Работа выполнена на кафедре математического обеспечения и применения ЭВМ факультета автоматики и вычислительной техники Технологического института Южного федерального университета в г. Таганроге.

НАУЧНЫЙ РУКОВОДИТЕЛЬ:

доктор технических наук, профессор Кравченко Павел Павлович

ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:

Доктор технических наук, профессор Карелин Владимир Петрович

Кандидат технических наук, с.н.с. Байлов Владимир Васильевич

ВЕДУЩАЯ ОРГАНИЗАЦИЯ:

ФГНУ НИИ "СПЕЦВУЗАВТОМАТИКА", г. Ростов-на-Дону

Защита диссертации состоится 29.12.2010 в 1420 на заседании диссертационного совета Д 212.208.21 Южного федерального университета по адресу: 347928, Ростовская область, г. Таганрог, пер. Некрасовский, 44, ауд. Д-406.

Просим Вас прислать отзыв, заверенный гербовой печатью учреждения, по адресу: 347928, Ростовская область, г. Таганрог, пер. Некрасовский, 44, Технологический институт Южного федерального университета в г. Таганроге. Ученому секретарю диссертационного совета Д 212.208.21 Чернову Николаю Ивановичу.

С диссертацией можно ознакомиться в Зональной научной библиотеке ЮФУ по адресу: 344007, Ростовская обл., г. Ростов-на-Дону, ул. Пушкинская, 148.

Автореферат разослан « 2й » 2010г.

Ученый секретарь диссертационного совета

Чернов Н. И.

Актуальность проблемы. Компрессия аудиоданных является неотъемлемой частью телекоммуникационных мультимедийных систем, систем мобильной связи, бортовых систем связи, функционирующих на основе обеспечивающих целостность передаваемых данных современных протоколов передачи данных. Такие системы функционируют в реальном времени, поэтому важнейшей характеристикой является быстродействие используемых алгоритмов компрессии. Быстродействие оказывает влияние на число одновременно обслуживаемых пользователей, время работы мобильного устройства от батареи, стоимость специализированных вычислительных средств обработки аудио, возможность кодирования аудио в фоновом режиме при использовании ресурсов вычислителя для других задач.

Алгоритмы компрессии аудиосигналов многочисленны и разнообразны по своим характеристикам. Однако известные алгоритмы компрессии аудио, как правило, обладают либо сравнительно малым коэффициентом сжатия при низкой трудоёмкости, либо характеризуются высоким коэффициентом сжатия при высокой трудоёмкости. Поэтому при выборе конкретного алгоритма компрессии производится поиск компромисса между желаемым коэффициентом сжатия и трудоёмкостью алгоритма.

Для обработки звуковых сигналов в телефонных сетях в начальный период внедрения цифровой связи активно использовались алгоритмы на основе дельта-преобразования первого порядка. Главной отличительной особенностью этих алгоритмов являлась предельная простота реализации. Вместе с тем, дельта-преобразование первого порядка характеризовалось низкой точностью и существенным ограничением скорости изменения преобразовываемого сигнала.

С повышением требований к качеству аудиокодирования стали развиваться методы компрессии, основанные на дельта-преобразованиях второго порядка, характеризующихся также простотой реализации, но более высокими динамическими характеристиками. Вопросы построения алгоритмов дельта-преобразования второго порядка освещены в работах Р. Стила, А. В. Шилейко, Г. Г. Меньшикова, с!е Jeageг Р. и многих других. Важной проблемой для практического использования известных алгоритмов дельта-преобразования второго порядка долгое время оставалась неустойчивость преобразований, в связи с чем, эти алгоритмы практически оказывались непригодными.

Дельта-преобразования второго порядка, характеризующиеся стабильностью, оптимизацией по быстродействию и точности, впервые были освещены в работах П. П. Кравченко и использованы для компрессии аудиосигналов. Данный метод компрессии, в отличие от широко используемых в настоящее время методов компрессии аудиосигналов, характеризуется предельно низкой вычислительной трудоёмкостью при кодировании и декодировании, однако уступает по степени сжатия исходного сигнала.

В связи с отмеченным выше, проблема повышения степени компрессии аудиосигнала, закодированного на основе оптимизированных дельта-преобразований второго порядка, с обеспечением существенно малой вычислительной трудоёмкости кодирования и декодирования сигнала по сравнению с известными современными методами компрессии аудиосигналов, является актуальной.

Целью работы является разработка методов и алгоритмических средств повышения степени компрессии аудиосигналов, закодированных на основе оптимизированных дельта-преобразований второго порядка. Для достижения поставленной цели в диссертации решаются следующие задачи:

1) анализ известных методов и алгоритмов компрессии звуковых данных, их достоинств и недостатков;

2) исследование дельта-последовательности с целью выявления возможностей повышения степени компрессии;

3) разработка модифицированных методов и алгоритмов компрессии аудиосигналов на основе оптимизированных дельта-преобразований второго порядка;

4) разработка программной модели и проведение экспериментальных исследований.

Объектом исследования являются методы и алгоритмы компрессии аудиосигналов.

Методы исследования опираются на математический аппарат теории оптимизированных

дельта-преобразований второго порядка, теории информации, теории вероятностей.

Научная новизна работы заключается в следующем.

1) Разработано теоретическое обоснование существования для множества цепочек дельта-битов одинаковой длины таких, которые в некотором приближении можно считать идентичными.

2) Предложен метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного введением дополнительного кодирования цепочек дельта-последовательности определенной длины. Разработаны алгоритмы компрессии и декомпрессии на основе кодирования цепочек дельта-битов длины 4, обеспечивающие гарантированно малое снижение качества Теоретический выигрыш в компрессии на основе 4-битных цепочек с использованием предложенных методов и алгоритмов составляет ~ 30 % по сравнению с базовым алгоритмом дельта-преобразования.

3) Разработано теоретическое обоснование существования для множества особых цепочек дельта-битов, соответствующих полупериодам аудиосигнала и названных минимальными сериями, таких, которые в некотором приближении можно считать идентичными.

4) Предложен метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного алгоритма введением дополнительного кодирования на основе семейств минимальных серий, соответствующих полупериодам исходного аудиосигнала. Разработаны алгоритмы компрессии и декомпрессии на основе кодирования семейств минимальных серий, обеспечивающие гарантированно малое снижение качества. Теоретический выигрыш в компрессии на основе данного метода и алгоритмов составляет ~ 45-55 % по сравнению с базовым алгоритмом дельта-преобразования.

Основные положения, выносимые на защиту:

1) Метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного алгоритма введением дополнительного кодирования цепочек дельта-последовательности фиксированной длины.

2) Алгоритмы компрессии и декомпрессии на основе дополнительного кодирования цепочек дельта-последовательности длиной 4 бита, отличающиеся возможностью повышения компрессии на -30 % по сравнению с известным алгоритмом на основе дельта-преобразований второго порядка и обеспечивающие при этом гарантированно малое снижение качества.

3) Метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного алгоритма введением дополнительного кодирования на основе кодирования семейств минимальных серий, соответствующих полупериодам исходного аудиосигнала.

4) Алгоритмы компрессии и декомпрессии на основе кодирования семейств минимальных серий, соответствующих полупериодам исходного аудиосигнала, отличающиеся возможностью повышения компрессии на 45-55 % по сравнению с известным алгоритмом на основе дельта-преобразований второго порядка и обеспечивающие при этом гарантированно малое снижение качества.

Практическая ценность диссертационного исследования состоит в применимости предложенных методов для решения актуальных задач эффективного сжатия звуковых данных. Благодаря низкой трудоёмкости разработанных методов наибольший интерес представляет их применение в многоканальных телекоммуникационных системах, в специализированных системах с одновременной интенсивной параллельной обработкой информации другого назначения, бортовых систем связи, функционирующих на основе обеспечивающих целостность передаваемых данных современных протоколов передачи данных.

Возможность повышения степени компрессии разработанных алгоритмов на ~ 30%-55% по сравнению с базовым алгоритмом на основе дельта-преобразований второго порядка сочетается с обеспечением высокого быстродействия по сравнению с другими известными аудиокодеками В частности, проведенные эксперименты с использованием широко известных оптимизированных программных кодеков и разработанных в рамках диссертации кодеков с неоптимизированным программным кодом показывают, по крайней мере, в -2-4.5 раз меньшую трудоемкость при кодировании и 3-5.5 раз при декодировании при обеспечении сходного уровня компрессии. Увеличение трудоемкости разработанных кодеков по сравнению с базовым алгоритмом, основанном на оптимизированных дельта-преобразованиях второго порядка, составляет ~ 1.1-1,3 раз при кодировании и ~ 1.1-1.5 раз при декодировании.

Предложенная методология кодирования представляет интерес для эффективного решения задачи защиты аудиосигналов от несанкционированного доступа в реальном масштабе времени.

Результаты работы использовались в учебном процессе на кафедре Математического обеспечения и применения ЭВМ Технологического института Южного федерального университета в г. Таганроге. Результаты работы внедрены в программно-аппаратном комплексе 1Р-телефонии ООО

НПП "СПЕЦСТРОЙ-СВЯЗЬ" в виде программных средств, реализующих алгоритмы компрессии аудиосигналов.

Апробация работы.

Результаты работы докладывались и обсуждались на международных, всероссийских научно-технических конференциях, в том числе на VII Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системный анализ и управление", Таганрог, 2009; VI Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, Таганрог, 2010; Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки", Таганрог, 2010; XXV Международной научно-технической конференции "Интеллектуальные САПР", Дивноморское, 2010; XI Международной научно-практической конференции "Информационная безопасность 2010", Таганрог, 2010; V Всероссийской научно-практической конференции "Перспективные системы и задачи управления", Домбай, 2010; X Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления", Таганрог, 2010.

Публикации. Результаты, полученные в работе, нашли отражение в 9 печатных работах, среди них 3 статьи в издании, рекомендованном ВАК и 1 свидетельство Федеральной службы по интеллектуальной собственности, патентам и товарным знакам № 2009611765 "Программная система компрессии речевых сигналов".

Структура работы. Материал основной части диссертационной работы изложен на 130 страницах машинописного текста. Диссертация состоит из введения, 4 глав, заключения, списка литературы из 74 наименований, содержит 72 рисунка, и 3 приложений на 42 листах.

Краткое содержание работы

Во введении обоснована актуальность проблемы, сформулированы цели и основные задачи, решаемые в диссертационной работе

В первой главе работы выполнен аналитический обзор существующих методов компрессии аудиоданных.

Рассматривается метод компрессии аудиосигналов на основе оптимизированного дельта-преобразования второго порядка со сглаживанием. Входной оцифрованный с определенной частотой дискретизации сигнал поступает в кодер в виде последовательности отсчетов в формате линейной импульсно-кодовой модуляции, которые разделяются во временной области на неперекрывающиеся фрагменты (окна). Для каждого фрагмента осуществляется расчет веса (модуля) кванта преобразования. Условия стыковки и начальные условия соседних аудио-фрагментов пере-считываются в зависимости от соотношения весов квантов преобразования и значений промежуточных частот дискретизации. После этого к звуковым отсчетам фрагмента применяется алгоритм оптимизированного дельта-преобразования второго порядка со сглаживанием. Полученные компрессированные данные передаются на сторону декодера. В декодере на основании полученной последовательности знаков квантов цифрового преобразования (дельта-последовательности) и начальных условий выполняется декодирование значений отсчетов аудио-фрагмента.

Формирование промежуточной частоты дискретизации, и, как следствие, управление качеством кодирования и скоростью выходного битового потока кодера возможно посредством учащения (добавления промежуточных отсчетов) фрагментов звуковых данных путем интерполяции или удаления отсчетов звуковых данных из аудиофрагмента (прореживание).

Полный алгоритм компрессии и декомпрессии аудио на основе оптимизированных дельта-преобразований второго порядка с расчетом промежуточной частоты дискретизации и перерасчетом веса модуля кванта преобразования приведен в диссертации. Ниже приводится упрощенный алгоритм работы кодера. Модуляция:

s

V:¡ =VYI-Vy;_l; , 0)

F = =, + 1.5 Vi,' + (O.SVr'2 /c-0.125c)sign(V:,'); &ul = -sign(F);c* > с; с > 0;

демодуляция:

rM = r,+VYM;

Упрощенный алгоритм декодера соответствует алгоритму демодуляции.

Рассматриваемый метод компрессии аудиосигналов на основе оптимизированных дельта-преобразований второго порядка со сглаживанием характеризуется низкой трудоемкостью но сравнению с другими известными методами, однако уступает им по степени сжатия исходного сигнала. Поэтому актуальной является задача повышения степени компрессии дельта-последовательности на выходе дельта-кодека.

В данной главе также приведены описания широко известных современных методов и алгоритмов кодирования аудио:

- импульсно-кодовая модуляция и адаптивная дифференциальная импульсно-кодовая модуляция (используемые, в частности, аудиокодеке ITU-T G.726);

- вокодерные методы кодирования (используемые, в частности, в AMR-кодеке, применяемом в GSM-сетях);

- методы и алгоритмы кодирования широкополосных аудиосигналов (в частности, кодек MPEG-I Layer 3).

В данной главе также были рассмотрены объективные (на основе отношения сигнал/шум) и субъективные (на основе шкал MOS) способы оценки качества сигнала.

Во второй главе работы выполнено теоретическое исследование свойств цепочек дельта-битов и разработаны методы и алгоритмы кодирования на его основе.

Проведенное исследование свойств дельта-последовательности указывает на ее невысокую информационную избыточность. Оценка условной энтропии первого и более высоких порядков показали, что отдельные сочетания дельта-битов (знаков квантов цифрового преобразования) встречаются чаще других. Участки дельта-последовательности, содержащие преобладающее число одинаковых дельта-битов, как правило соответствуют экстремумам (вершинам) в исходном аудиосигнале. Напротив, участки с приближенным к равномерному распределением дельта-битов, соответствуют более пологим участкам исходного аудиосигнала. В диссертации приведены экспериментальные статистические оценки вероятностей появлений различных сочетаний дельта-битов. При проведении экспериментальных исследований использовался набор данных из 75 аудиофайлов, включающих мужские и женские голоса, музыку. Данный анализ показал, что применение энтропийных методов сжатия не дает существенных результатов.

В рамках данной работы предлагается метод и алгоритмы повышения степени дополнительной компрессии путем модификации исходной дельта-последовательности без существенной потери качества и повышения трудоемкости. Сущность метода состоит в разбиении дельта-последовательности на цепочки дельта-битов равной длины и последующей группировки отдельных цепочек с введением специального кодирования.

Рассмотрим группу смежных дельта-битов bo bi...b„.i длиной п. При этом бит Ь, кодирует знак /-го кванта дельта-преобразования. Очевидно, что общее количество всех возможных таких цепочек равно 2". Пусть в момент времени to, соответствующий состоянию декодера перед декодированием бита bo, амплитуда декодируемого сигнала равна Уд, а его первая разность равна VYß. Тогда, в соответствии с (2), состояние декодера в момент времени to + n&t можно вычислить следующим образом:

кванта дельта-преобразования = Л, е {-1;+1}. Далее для определенности считаем, что л определяется следующим образом:

АУ„ = АУ„ + с'-£*(Ь,),

(3)

где с* - вес кванта цифрового преобразования, а функция 5(6,) преобразует бит Ь, е {О; 1} в знак /-го

i(6)=

(4)

-1, при 6 = 0, ( + 1, при 6 = 1.

Будем рассматривать величину ¿)Г = К„ - Ко, соответствующую изменению амплитуды декодированного сигнала после декодирования цепочки Ьо.-.Ь„.ь В соответствии с (3) можно записать:

£>У = г,-У* = £ V/,. =к. V К„ + с * 'ХМ ) • (и - л) = Я ■ V У0 + с • -2. (5)

1=0

Из (5) очевидно, что для данной длины цепочки п при неизменных значениях первой разности V Уо и веса кванта преобразования с* значения ОУ зависят только от I

Из (5) очевидно также, что максимально возможное по модулю значение X достигается при равенстве всех Ь,. Пусть 6, = Ь, / = О.л -1, Ь = {0; 1},тогда:

] _ /7 (и + 1)

2 ...... 2

В диссертации получено значение количества К„ различных значений, которые может принимать £ (соответственно и ОУ) для данного и с учетом 6:

о =

т-Ы--

или ± = s(b)

«•(ш-1)

(б)

К„ = + 1 =

п(п +1)

+1.

(7)

Таким образом, для данной длины цепочки и мы имеем 2" различных цепочек, которые изменяют амплитуду сигнала на К„ различных возможных величин.

При этом если две цепочки приводят к одному и тому же изменению амплитуды DY ~ Y„-Yo, это не означает, что они приводят к одному и тому же изменению первой разности амплитуды VY„-VY0.

Если кодировать все цепочки, имеющие длину л и приводящие к одному изменению амплитуды DY, одним символом, то исходя из предположения, что все символы равновероятны, экономия tin) составит:

r(n)= '°g2(2") = я

log2(£„) log2(n-(n + l) + 2)-l"

С увеличением п экономия г(п) растет. В то же время, несмотря на равенство D Y для некоторых двух цепочек, их траектории или изменение первого приращения ЛУ амплитуды сигнала могут быть существенно различны, что с увеличением я может привести к соответствующему снижению качества декодированного сигнала.

Рассмотрим значения VY„ и О У для четверок дельта-битов (п = 4). В соответствии с (7), количество различных DY равно 4*5/2 + 1 = 11 штук. Это -10, -8, -6, -4, -2, О, 2, 4, 6,8, 10 для VY0 = 0. На рисунке 1 показаны траектории декодированного сигнала, соответствующие цепочкам "ОНО" и "1001". Для цепочек длиной 4 это единственная пара цепочек, у которых при совпадении DY совпадает также и изменение первой разности VY„ - VKo = 0.

А,

Г

Рисунок 1 - Траектория сигнала при декодировании цепочек Решение задачи компрессии на основе перекодирования цепочек дельта-битов исходно связано с формированием принципов выбора длин цепочек, которые могут быть закодированы одним символом. В качестве этих принципов в рамках данной работы для выбора длины цепочки определены следующие требования: цепочки одной длины, приводящие к одинаковому изменению амплитуды, кодируются одним символом; амплитуда аппроксимирующей фуикции сигнала в начале и конце цепочек, кодируемых одним символом, должна совпадать; внутри кодируемых одним символом цепочек значения амплитуды сигнала между цепочками при декодировании должны отличаться не более, чем на 2с*; с целью обеспечения максимально возможного уровня компрес-

сии, длина цепочки должна быть максимальной (с учетом характера функции г(п)). Данным условиям удовлетворяют цепочки длины четыре.

Сгруппируем цепочки по значениям ОУ, которые они дают на конце. Результат можно видеть в таблице 1. Цепочкам с одинаковым значением ОУ на конце назначен одинаковый условный "символ".

Таблица 1 -

ЖМ' цепочек йУ ^^корр "символ"

0 -10 -4 -4 а

1 -8 -2 -2 Ь

2 -6 -2 -2 с

3,4 -4 0 и -2 -1 а

5,8 -2 Ои-2 -1 е

6,9 0 0 0 {

7, 10 2 0 и 2 1 &

11,12 4 0 и 2 1 1>

13 6 2 2 1

14 8 2 2 ]

15 10 4 4 к

Чтобы обеспечить равенство на концах цепочек, необходимо для пар цепочек, кодируемых одним символом, принудительно назначить в декодере УУ„ на конце цепочки новое, "исправленное значение ^УКОрр. С целью минимизации ошибки значение УУКОрр следует выбрать равным среднему V У„ для обеих входящих в пару цепочек. Указанное изменение имеет место одновременно и в кодере и в декодере.

Вероятности символов с учетом объединения цепочек в символы (табл. 1) и соответствующего посимвольного сложения вероятностей, показаны в таблице 2.

символ вероятность символ вероятность

Г 0.192 1 0.073

с 0.179 Ь 0.024

6 0.179 1 а 0.024

б 0.110 0.018

11 0.110 к 0.018

с 0.073

Воспользовавшись известным алгоритмом Хаффмана, с учетом приведенных вероятностей можно получить префиксный код минимальной избыточности. Дополнительная компрессия для полученного кода составит -1.298, т.е. около 30%. В диссертации предложен альтернативный префиксный код (рисунок 2), который более удобен при табличной реализации декодирования. При этом обеспечивается компрессия ~ 1.281, что сопоставимо с кодом Хаффмана.

У'-, г-/ у'

Ч V V оМ< о/Л*

Я < ГО го о

\ "у

о/ М о/

© ® П)

л

Рисунок 2 - Префиксный код для цепочек длины 4 Алгоритм кодирования с учетом вышесказанного имеет следующий вид:

1) закодировать очередные 4 отсчета из входного потока с использованием алгоритма оптимизированного дельта-преобразования второго порядка со сглаживанием (1);

2) интерпретировать закодированное значение как 4-битное целое, использовать его в качестве номера цепочки в таблице 1 вывести в выходной поток соответствующий код символа;

3) скорректировать первую разность сигнала УК в соответствии с (таблица 1);

4) если во входном потоке еще имеются данные - перейти к п. 1, иначе конец. Предлагаемый алгоритм декодирования имеет следующий вид:

1) считать 3 бита из входного потока и интерпретировать их как Зх-битное целое;

2) если прочтенное значение равно 7 (" 111" в двоичной записи) - перейти к п. 4;

3) использовать прочтенное значение как индекс в таблице 3, получив таким образом символ, и перейти к п. 5;

4) прочесть 2 бита из входного потока и интерпретировать их как 2х-битное целое;

5) использовать прочтенное значение как индекс в таблице 4, декодировать полученный символ и обновить состояние декодера, скорректировав первую разность сигнала V/ в соответствии с ЧУтрр (таблица 1);

6) если во входном потоке еще имеются данные - перейти к п. 1, иначе конец.

Таблица 3 - Декодирование первой части кода

индекс индекс (бинарное представление) символ

0 000 с

1 001 d

2 010 е

3 011 f

4 100 й

5 101 h

6 110 i

индекс индекс (бинарное представление) символ

0 00 а

1 01 Ь

2 10 i

3 И к

Таблица 4 - Декодирование второй части кода

В третьей главе рассматривается особый класс цепочек дельта-бит, названных минимальными сериями, а также метод и алгоритмы компрессии на его основе.

Рассмотрим исходный аудиосигнал, поступающий на вход дельта-кодера и представляющий собой последовательность отсчетов импульсно-кодовой модуляции. Значение приращения амплитуды сигнала при прохождении через вершину меняет знак. В алгоритме дельта-кодека (1, 2) величина приращения амплитуды сигнала V/ изменяется дискретно с шагом с*. Поэтому, если в качестве начальных условий принять То = О, УУ0 — 0, то в вершине значение УУ будет точно равно нулю. Учитывая данное заключение, можно выполнить разбиение дельта-последовательности на цепочки дельта-битов, на концах которых V / = 0. Так как Д/ принимает значения из множества {1; +1), то, согласно указанному выше равенству, это означает, что количество Д, = — I и количество Д| = +1 совпадает. Т. е. количество битов "0" и "1" в цепочке совпадает. Это, в частности, означает, что длина цепочки всегда четна.

Проявление свойства равенства количества битов "0" и "1" рассматриваемой цепочки создает исходные предпосылки для дополнительной компрессии, т. к. количество цепочек, соответствующих указанному свойству, меньше количества всех возможных цепочек, и »-1

Введем функцию5(А) = ^Д, = ^¡(Ь^,), определяющую сумму к первых знаков цепочки,

начинающейся с бита (шага) номер у. Здесь 5(6,) - функция, преобразующая на шаге номер х бит Ь, в соответствующий ему знак кванта преобразования Д, в согласно определению (4).

Будем называть "серией длины п" такую цепочку последовательности из т = 2л дельта-битов, для которой выполняется следующее условие:

1т = 2 п,

= = (8)

/.о

где у - номер бита (шага), с которого начинается серия, т = 2п- длина серии в битах. Серия состоит из п битов "0" и п битов "1".

Будем называть серию пустой, если ее длина п = 0.

Внутри непустой серии для некоторых к также может выполняться условие 5(к) = 0, к е [1; 2п -1]. Таким образом, серии могут состоять, в свою очередь, из серий меньшей длины. Будем называть серию минимальной, если наряду с условиями (8) выполняется также условие

к е[Ц2п-1]. (9)

В диссертации рассмотрены свойства дельта-последовательности, представляющие интерес для дальнейшего исследования. Показано, что знак функции 8(к) для к е [1; 2и - 1) совпадает со знаком первого бита серии $(6/) Показано также, что первый и последний биты минимальной серии всегда различны. Таким образом, если минимальная серия начинается с бита "О", она заканчивается битом " 1", и наоборот.

На основе теоретического исследования было получено следующее общее количество различных непустых минимальных серий длины п, равное

5„=2'с„-1> (10)

где С„.] - (л - 1)-ое число Каталана.

С учетом вышесказанного, появляется возможность разбить сигнал на участки, на концах которых выполняется равенство V/ = 0, и рассматривать отрезки дельта-последовательности, соответствующие этим участкам сигнала как минимальные серии. При таком подходе, вместо вывода в выходной поток входящих в минимальную серию битов, достаточно кодировать номер минимальной серии из общего количества 5„ двоичным кодом фиксированной длины и длину минимальной серии. Для кодирования длины можно воспользоваться универсальными префиксными кодами, например кодом Фибоначчи. Однако анализ показывает, что такой подход не дает значительного выигрыше в компрессии (около 2 % для кода Фибоначчи).

С целью получения дополнительного сжатия предлагаются следующие методы модификации исходной дельта-последовательности. Как уже было указано выше, У У при прохождении через вершину сигнала меняет знак, а в вершине равна нулю. Таким образом, для аудиосигнала, как правило, характерны участки с чередующимися знаками ЧУ. Если рассматривать дельта-последовательность как последовательность минимальных серий, то чередующемуся знаку УУ соответствует чередование первого бита серии. При ЧУ> 0 первый бит серии, в соответствии с (4), равен "О", а при V/ < 0 первый бит серии равен "1". Поэтому, если известен первый бит текущей серии, легко можно предсказать первый бит следующей серии.

Это обстоятельство позволяет кодировать лишь половину серий. Таким образом, общее число различных минимальных серий длины и, с учетом (10) и чередования знака У У будет равно

£

5'„ = = С„_,, а количество битов, необходимое для кодирования равно 1еп\ (л) = Г^2(£'„)].

Распределение вероятностей р(п) появления минимальной серии длины п показаны в табл. 5. Как и в главе 2, статистические данные формировались на основе экспериментальных исследований по набору данных из 75 аудиофайлов, включающих мужские и женские голоса, музыку. Величина сЦп) показывает долю минимальных серий длины л в суммарном объеме дельта-

2яс(и) V

последовательности по всем исходным данным (аудиофайлам) с учетом длин серий <!(п)

где с(п) - количество минимальных серий длины л в дельта-последовательности, Р - общая длина дельта-последовательности.

л Р(п) п Р(") т и Р(") ф7) п т ф)

1 0.80798 0.51754 11 0.00171 0.01206 21 0.00022 0.00290 31 0.00004 0.00075

2 0.09202 0.11788 12 0.00139 0.01069 22 0.00018 0.00250 32 0.00004 0.00078

3 0.03831 0.07362 13 0.00102 0.00850 23 0.00014 0.00210 33 0.00004 0.00074

4 0.01860 0.04764 14 0.00084 0.00758 24 0.00013 0.00202 34 0.00003 0.00062

5 0.01054 0.03374 15 0.00070 0.00670 25 0.00012 0.00196 35 0.00002 0.00050

6 0.00731 0.02809 16 0.00071 0.00728 26 0.00012 0.00193 36 0.00002 0.00047

7 0.00521 0.02338 17 0.00063 0.00686 27 0.00007 0.00124 37 0.00002 0.00040

8 0.00446 0.02287 18 0.00048 0.00551 28 0.00006 0.00106 38 0.00002 0.00040

9 0.00350 0.02018 19 0.00033 0.00402 29 0.00005 0.00094 39 0.00001 0.00034

10 0.00250 0.01604 20 0.00027 0.00352 30 0.00004 0.00083 40 0.00001 0.00035

Будем называть семейством множество минимальных серий, приводящих к одному и тому же изменению амплитуды сигнала ОК на интервале действия серии.

На рисунке 3 показан пример семейства из трех минимальных серий "0000111011", "0001010111" и "0010001111" с йУ = 19с*. На участках за пределами участка А-В траектории серий полностью совпадают.

В рассматриваемом примере серия "0001010111" (выделена на рисунке 3 черным цветом) об-

ладает замечательным свойством: все ее точки на участке А-В либо совпадают с точками других серий, либо отличаются на 2с* по амплитуде.

РисунокЗ - Семейство минимальных серий длины 5

Будем называть минимальную серию средней серией семейства, если все ее точки отличаются не более чем на 2с* по амплитуде от других серий семейства. Средняя серия выделена черным цветом на рисунке 3.

Предлагаемый метод модификации дельта-последовательности предполагает замену всех серий, входящих в семейство, на среднюю серию семейства. Такая модификация обеспечивает сокращение общего числа различных серий, позволяя тем самым повысить степень дополнительной компрессии, и приводит при этом к минимальным искажениям формы исходного сигнала (не более 2с* по амплитуде).

Однако задача разбиения минимальных серий данной длины на семейства не имеет однозначного решения. Оптимальным было бы такое разбиение, которое дает минимально возможное число семейств. Такое разбиение привело бы к минимальному числу различных серий, а значит к максимально возможной для предложенного метода компрессии.

Общее число всех возможных разбиений стремительно растет. Так, например, для л = 8 количество разбиений = 1.3х1063. Таким образом, задача поиска оптимального разбиения полным перебором возможных разбиений является неосуществимо трудоемкой. Разбиение серий на семейства не зависит от входных данных, поэтому его достаточно произвести однажды, на этапе создания кодека. В диссертации предложен эвристический "жадный" алгоритм построения субоптимального разбиения множества минимальных серий длины п.

Результаты работы предложенного алгоритма приведены в таблице 6, где 5"л - исходное количество минимальных серия длины п, Т„ - общее количество семейств после разбиения для всех минимальных серий длины п.

Таблица 6 -

я S'„ т„ п п п 5"» Г„ я 5; т„

1 1 1 5 14 1 1430 185 13 208012 6228

2 1 1 6 42 14 10 4862 437 14 742900 15538

3 2 2 7 132 34 И 167% 1022 15 2674440 39308

4 5 4 8 429 73 12 58786 2499

Доля минимальных серий d(n) длины п в дельта-последовательности резко падает с ростом

длины серии п (табл. 5). Величина £¡/(¿V) = ^Г d(N) суммарной доли всех минимальных серий с

i=j

длинами от 1 до N (табл. 5) быстро насыщается с ростом N.

Величина S"(n) быстро растет, поэтому хранение результатов разбиения на семейства в памяти становится проблематичным для больших значений п и потребует дополнительных вычислительных ресурсов при поиске по результатам разбиения для кодирования минимальной серии. В свете этих обстоятельств разумным компромиссом будет перекодирование лишь нескольких первых серий (серий с п < ¿V, где N - некоторая предельная длина серий, подвергающихся перекодированию, которая может быть выбрана, например, из соображений расхода памяти и трудоемкости кодирования). В этом случае для кодирования длины минимальной серии разумно использовать префиксный код. Такой код, кодирующий длину и минимальной серии, может быть построен с использованием алгоритма Хаффмана с учетом веса d(n) для каждой длины «. Для кодирования более длинных серий необходим специальный префикс (будем называть его префикс "z"), которым предваряются все такие серии. Вес d{i) префикса "z" для алгоритма Хаффмана может быть

получен как суммарный вес всех серий с длинами и > Л', т. е.: сКт) = 1 -

Кодирование номера минимальной серии для каждой длины п производится фиксированным кодом длины /спт(и) =[1о£2(71 )]. Поэтому появляется возможность кодировать табличным методом минимальную серию по числу пит, соответствующему битовому представлению минимальной серии. Пример таблицы для кодирования минимальных серий длины п = 4 кодом длины !еп](п) = 2 показан в табл. 7. Серии "00011011" и "00100111" объединены в семейство, поэтому кодируются одним и тем же кодом "¡0". Остальные серии образуют семейства из единственной серии, каждая из которых кодируется своим кодом.

пит биты минимальной серии код

15 00001111 00

23 00010111 01

27 00011011 10

39 00100U1

43 00101011 И

Таблицы для кодирования и декодирования следует рассчитать один раз на этапе построения кодека

Теоретическая оценка дополнительной компрессии г с учетом кодирования серий с и < Л' и и > N и с использованием алгоритма Хаффмана для кодирования длин серий будет равна:

d(r>) ■ (knT (и)I + /ея„ (л)) у d (л) • (2 л + /<я„ (г))

где 1епн{п) - длина кода Хаффмана для длины п, 1епн(г) - длина кода Хаффмана для префикса "г".

Вид функции г(М) (И) показан на рисунке 4. Рассматривая вид функции можно сделать вывод о том, что при N > 6 значение функции растет значительно медленнее, чем на участке N < 6 (рис. 4). В то же время количество различных минимальных серий З'(Л') для заданного значения N стремительно растет с ростом N (табл. 6). Таким образом, с ростом N увеличивается степень компрессии, но одновременно повышаются требования кодека к памяти для хранения таблиц кодирования/декодирования. Поэтому значение N целесообразно выбирать на интервале 6<№<12.

u i: и i-t J>

Рисунок 4 - вид функции г(Д)

С учетом изложенного выше, рассмотрим алгоритмы компрессии/декомпрессии.

В алгоритме используются следующие обозначения: lastbit - значение первого бита последней обработанной минимальной серии; пит - число, битовое представление которого совпадает с битами минимальной серии; ten - длина обрабатываемой минимальной серии в битах.

Алгоритм имеет следующий вид:

1) присвоить lastbit = 0, / = 0;

2) присвоить sum - 0, len - 0, пит = 0;

3) получить очередной бит дельта-последовательности b, по базовому алгоритму дельта-преобразования (1), увеличить значение len на 1; если len > 1, перейти к п. 6;

4) если b, = lastbit, то присвоить b, = 1 - lastbit-,

5) присвоить lastbit = 1 - lastbit;

6) вычислить очередное значение sum как sum = sum + s(b,), вычислить очередное значение пит как пит = пит ■ 1 + Ь,\ если sum ф 0, то увеличить i на 1 и перейти к п. 3;

7) присвоить п = len / 2; если п> N, перейти к п. 9;

8) воспользоваться л как индексом в таблице, аналогичной таблице 8 (построенной на основе кодового дерева Хаффмана), вывести в выходной поток префикс, соответствующий дачному индексу; если !епт(п) = 0, перейти к п.И, иначе перейти к п. 10;

9) вывести префикс V, скопировать биты, входящие в прочитанную серию в выходной поток и перейти к п. 11;

10) воспользоваться пит как индексом в таблице для кодирования минимальной серии длины 1еп кодом 1гт{п), аналогичной таблице 7, вывести полученный код в выходной поток;

И) если во входном потоке еще имеются данные, то увеличить / па 1 и перейти к п. 2;

и биты 1епт{п) п биты /еП7(я)

1 1 0 6 00010 4

2 ОИ 0 7 000011 6

3 0011 1 8 000010 7

4 0010 2 9 000001 8

5 00011 3 10 000000 9

Предложенный алгоритм декомпрессии имеет следующий вид:

1) присвоить index = 0;

2) считать из входного потока код; если код является префиксом "z", то перейти к п. 4

3) преобразовать считанный код в длину минимальной серии по таблице, аналогичной таблице 8; если lenj(n) = 0, то перейти к п. 7, иначе перейти к п. 6;

4) присвоить sum = 0;

5) считать бит из входного потока; вывести прочитанный бит в выходной поток; вычислить очередное значение sunt как sum= sum + s(6,); если sum Ф 0, перейти к п. 4, иначе перейти к п. 1

6) считать lenjin) битов из входного потока и интерпретировать как целое число; присвоить его в index; воспользоваться index как индексом в таблице для декодирования минимальной серии, аналогичной таблице 7;

7) декодировать биты, полученные на предыдущем шаге базовым алгоритмом дельта-преобразования (2) и вывести результат в выходной поток;

8) если во входном потоке еще есть данные - перейти к п. 1;

Четвертая глава посвящена описанию экспериментальных исследований разработанных алгоритмов кодирования аудиосигналов.

Исследование трудоемкости может быть реализовано на основе теоретических оценок и на основе экспериментальных данных. Однако получение корректных теоретических оценок трудоемкости (например, на основе количества определенных операций на один исходный отсчет) связано с рядом проблем. В частности, например декодер базового алгоритма дельта-преобразований второго порядка характеризуется трудоемкостью 2-5 операций сложения на один отсчет. В то же время для кодеков, функционирующих не на основе дельта-преобразований, трудоемкость декодирования составляет по крайней мере десятки и сотни операций. В соответствии с указанным, трудоемкость базового алгоритма дельта-преобразования второго порядка оказывается, по крайней мере, в десятки раз ниже других. Однако любая реализация на реальном процессоре вносит существенные коррективы в сравнительную оценку трудоемкости, в первую очередь в реализацию с малым количеством операций. Данный фактор обуславливается накладными расходами, связанными с системными "накладными" расходами (обращение к диску, пересылки данных в памяти и между регистрами, вызов процедур, простой конвейера процессора и т. д.).

В этой связи более адекватным является использование оценки трудоемкости на основе практических экспериментальных исследований. В этом случае оценка трудоемкости может быть получена на основе измерения времени работы кодера и декодера.

При проведении экспериментальных исследований в данной работе используются готовые реализации известных кодеков, которые, как правило, написаны на языках низкого уровня и содержат хорошо оптимизированный по быстродействию код. В данной работе в экспериментальных исследованиях используются предлагаемые кодеки, исходный код которых не оптимизирован по быстродействию и написан на языке высокого уровня. Данное обстоятельство позволяет считать результаты экспериментов по быстродействию предлагаемых кодеков по сравнению с используемыми для экспериментов известными кодеками существенно заниженными.

Для тестирования было отобрано 30 файлов с женским голосом, 30 файлов с мужским голосом и 15 музыкальных файлов. Все исходные файлы представлены в несжатом формате Microsoft

Waveform Audio (WAV) и закодированы с частотой 44кГц и 16 бит/отсчет.

Сравнение проводилось для следующих аудио-кодеков:

- базовый алгоритм на основе оптимизированных дельта-преобразований второго порядка со сглаживанием (п. 1.6 диссертации);

- модифицированный алгоритм на основе перекодирования четверок дельта-битов (глава 2 диссертации);

- модифицированный алгоритм на основе кодирования минимальных серий, для серий с длинами 1-10 (глава 3 диссертации);

- MPEG-I Layer 3 (так называемый "МРЗ"), реализованный в библиотеке LAME v3.98.4;

- кодек стандарта ITU-T G.726, используемый в цифровой телефонии (официальная эталонная реализация комитета 1TU-T);

- кодек AMR (Adaptive Multi-Rale audio codec), используемый в действующем стандарте GSM, из официальной реализации консорциума 3GPP (3rd Generation Partnership Project), занимающегося стандартизацией работы сетей сотовой связи третьего поколения.

При проведении экспериментальных исследований по сравнению разработанных алгоритмов с базовым алгоритмом дельта-преобразования второго порядка для каждой исходной частоты дискретизации (8, 6, 44 кГц), величина с* подбиралась на основе базового алгоритма дельта-преобразования экспериментально таким образом, чтобы обеспечить достаточное качество декодированного аудиосигнала. Усредненные результаты сравнения разработанных алгоритмов с базовым алгоритмом приведены в таблице 9. Относительное быстродействие характеризует отношение времени работа аналога ко времени работы разработанных алгоритмов.

Таблица 9 - Усредненные результаты сравнения разработанных алгоритмов с базовым

базовый алгоритм на основе четверок дельта-битов на основе полупериодов сигнала

компрессия, раз 6.1 7.7 8.8

отношение сигнал/шум, дБ 25.2 24.4 23 .S

относительное быстродействие компрессии 1 0.96 _ 0.86

относительное быстродействие декомпрессии 1 0.80 0.78

Таким образом, проведенные экспериментальные исследования в целом подтверждают теоретические оценки компрессии для разработанных алгоритмов, а так же подтверждают теоретически предсказанное незначительное снижение характеристики сигнал/шум после применения разработанных алгоритмов. При этом алгоритм, основанный на кодировании полупериодов сигнала, дает в среднем большую степень компрессии, чем алгоритм, основанный на перекодировании четверок дельта-битов, но одновременно приводит к несколько большему снижению качества.

Кодек С.726 рассчитан на исходные голосовые аудиосигналы с частотой дискретизации 8 кГц и 16-битными отсчетами и на постоянную скорость выходного потока 32 кбит/с, т. е. обеспечивает постоянную компрессию в 4 раза.

В таблице 10 приведены усредненные результаты сравнения разработанных алгоритмов с кодеком стандарта С 726.

Таблица 10 - Усредненные результаты сравнения разработанных алгоритмов с G.726

G.726 на основе четверок дельта-битов на основе полупериодов сигнала

компрессия, раз 4.0 4.1 4.2

отношение сигнал/шум, дБ 32.4 32.2 31.7

оценки по шкале качества MOS 4.7 4.7 4.6

оценки по шкале различий MOS 4.8 4.6 4.7

относительное быстродействие компрессии 1 2.1 2.0

относительное быстродействие декомпрессии 1 3.2 3.2

Базовое значение веса кванта преобразования с* для алгоритма дельта-преобразования настраивалось одинаковым для всех файлов таким образом, чтобы обеспечить уровень компрессии, в среднем примерно соответствующий кодеку G.726. Проведенное сравнительное тестирование показывает, что разработанные кодеки при обеспечении сопоставимого с G 726 уровня компрессии, имеют сходное качество сигнала и существенный выигрыш в скоростях кодирования и декодирования.

Кодек AMR рассчитан на исходные голосовые аудиосигналы с частотой дискретизации 8 кГц и 16-битными отсчетами. Использованная реализация кодека выдает постоянный выходной поток со скоростью 12.2 кбит/с, т.е. обеспечивает компрессию в ~ 10.5 раз.

Базовое значение веса кванта преобразования с* для алгоритма дельта-преобразования принималось одинаковым для всех файлов таким образом, чтобы обеспечить уровень компрессии, в среднем примерно соответствующий кодеку AMR. Оценки качества на основе отношения сигнал/шум для кодека AMR имеют необоснованно заниженные значения но сравнению с качественными оценками, в связи с этим оценка отношения сигнал/шум не приводится. В таблице 11 приведены усредненные результаты сравнения разработанных алгоритмов с кодеком AMR.

_______ ___Таблица И - Усредненные результаты сравнения разработанных алгоритмов с AMR

д^^ на основе четверок на основе полупе-

______дельта-битов__риодов сигнала

_компрессия, раз __10.5__10.3__10-5_

_оценки по шкале качества MOS__4J__4.3___4Л_

_оценки по шкале различий MOS__4Л__4J!__4.0 _

относительное быстродействие компрессии__1____2Ь_____2.3 _

относительное быстродействие декомпрессии__V__4.0 _4^)____

Проведенное сравнительное тестирование показывает, что разработанные кодеки при обеспечении сопоставимого с AMR уровня компрессии имеют несколько более низкое качество сигнала и существенный выигрыш в скоростях кодирования и декодирования.

Кодек MPEG-1 Layer 3 (МРЗ) является универсальным кодеком аудио. Тестируемая реализация кодека при использовании настроек по-умолчанию и исходных аудиосигналов, дискретизиро-ванных с частотой 44 кГц, выдает выходной поток со скоростью около 45 кбит/с.

Базовое значение веса кванта преобразования с* для алгоритма дельта-преобразования настраивалось одинаковым для всех файлов таким образом, чтобы обеспечить уровень компрессии, в среднем примерно соответствующий кодеку МРЗ. Сущность кодека МРЗ нацелена на качественное слуховое восприятие, поэтому оценки качества на основе отношения сигнал/шум имеют необоснованно заниженные значения по сравнению с качественными оценками, в связи с этим оценка отношения сигнал/шум не приводится. В таблице 12 приведены усредненные результаты сравнения разработанных алгоритмов с кодеком МРЗ.

Таблица 12-Усредненные результаты сравнения разработанных алгоритмов с МРЗ

МРЗ на основе четверок дельта-битов на основе полупериодов сигнала

компрессия, раз 15.6 15.7 15.8

оценки по шкале качества MOS 4.9 3.5 3.4

оценки по шкале различий MOS 4.9 3.5 3.3

относительное быстродействие компрессии 1 4.6 4.0

относительное быстродействие декомпрессии 1 5.6 5-5

Проведенное сравнительное тестирование показывает, что разработанные кодеки при обеспечении сопоставимого с МРЗ уровня компрессии, уступают в качестве сигнала, но дают значительный выигрыш в скоростях кодирования и декодирования.

В заключении излагаются основные результаты диссертационной работы.

Основные результаты и выводыПроведено теоретическое исследование свойств цепочек последовательных дельта-битов. Показано, что для множества цепочек одинаковой длины существуют цепочки, которые в некотором приближеиии можно считать идентичными.

9) Предложен метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного введением дополнительного кодирования цепочек дельта-последовательности определенной длины.

10) Разработаны алгоритмы компрессии и декомпрессии на основе кодирования цепочек дельта-битов длины 4, обеспечивающие гарантированно малое снижение качества. Теоретический выигрыш в компрессии на основе 4-битных цепочек с использованием предложенных методов и алгоритмов составляет - 30 % по сравнению с базовым алгоритмом дельта-преобразования.

11)Проведено теоретическое исследование свойств особого класса цепочек дельта-битов, названных минимальными сериями. Показано, что для каждой длины минимальной серии существуют такие множества минимальных серий (семейства), в которых входящие в них минимальные серии в некотором приближении можно считать идентичными.

12) Показана практическая нецелесообразность решения задачи оптимального разбиения множества минимальных серий проведением полного перебора в связи с чрезмерно высокой вычислительной трудоемкостью. Разработан экономичный алгоритм субоптималыюго разбиения.

13) Предложен метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного алгоритма введением дополнительного кодирования на осно-

ве семейств минимальных серий, соответствующих полупериодам исходного аудиосигнала.

14) Разработаны алгоритмы компрессии и декомпрессии на основе кодирования семейств минимальных серий, обеспечивающие гарантированно малое снижение качества. Теоретический выигрыш в компрессии на основе данного метода и алгоритмов составляет ~ 45-55 % по сравнению с базовым алгоритмом дельта-преобразования.

Основные публикации но теме работы:

1. Кравченко П. П., Каграманянц В. Л. «О компрессии аудиосигналов на основе оптимизированных дельта-преобразований второго порядка». Известия ЮФУ. Технические науки. - Таганрог: Изд-во ТТИ ЮФУ, 2010. № 2(103). С. 79-83 (входит в перечень ВАК)

2. Каграманянц В. А. «Метод повышения компрессии аудиосигналов на основе оптимизированных дельта-преобразований второго порядка». Известия ЮФУ. Технические науки. Тематический выпуск "Перспективные системы и задачи управления". - Таганрог: Изд-во ТТИ ЮФУ, 2010. № 3 (104). с.240-244 (входит в перечень ВАК)

3. Кравченко П. П., Каграманянц В. А. «Оптимизированные дельта-преобразования второго порядка и компрессия аудиосигналов». Известия ЮФУ. Технические науки. Тематический выпуск "Интеллектуальные САПР". -Таганрог: Изд-во ТТИ ЮФУ, 2010. - № 7 (108). С. 257-259 (входит в перечень ВАК)

4. Каграманянц В. А. «Метод повышения компрессии аудиосигналов на основе оптимизированных дельта-преобразований второго порядка» VI Ежегодная научная конференция студентов и аспирантов базовых кафедр Южного научного центра РАН: Тезисы докладов (19-30 апреля 2010г., г.Ростов-на-Дону). - Ростов н/Д: Изд-во ЮНЦРАН,2010. C.I68

5. Каграманянц В. А. «Компрессия аудиосигналов на основе оптимизированных дельта-преобразований второго порядка» Сборник трудов VII Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системный анализ и управление" (ИТСАиУ - 2009). - Таганрог: Изд-во ТТИ ЮФУ, 2009. с.222-226

6. Каграманянц В. А. «Метод компрессии аудиоречевых сигналов на основе оптимизированных дельта-преобразований второго порядка» Сборник трудов Всероссийской научной школы-семинара молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки". - Таганрог: Изд-во ТТИ ЮФУ, 2010. С. 18-20

7. Кравченко П. П., Каграманянц В. А. «Модификация компрессированной дельта-последовательности и защита аудиосигналов от несанкционированного доступа» Материалы XI Международной научно-праткической конференции "Информационная безопасность". 4.2. - Таганрог: Изд-во ТТИ ЮФУ, 2010. С. 261-263

8. Каграманянц В. А. «Метод повышения компрессии аудиосигналов на основе оптимизированных дельта-преобразований второго порядка» X Всероссийская научная конференция "Техническая кибернетика, радиоэлектроника и системы управления": Сборник материалов. - Таганрог: Изд-во ТТИ ЮФУ, 2010. -Т.1. С.107-108

9. Кравченко П. П., Каграманянц В. А. Хусаинов Н. Ш. «Программная система компрессии речевых сигналов»: свидетельство об офиц. регистрации программы для ЭВМ № 2009611765, Российская Федерация / Кравченко П.П., Хусаинов Н. Ш., Каграманянц В.А. - по заявке № 2008616136 от 24.12.2008. Зарегистрировано в реестре программ для ЭВМ 03.04.2009

Личный вклад автора состоит в следующем. В публикациях №№1,3 автором предложен метод модификации дельта-последовательности и показана возможность компрессии на его основе. В публикации №7 автором предложены методы модификации исходной дельта-последовательности и обсуждена целесообразность предложенных методов с точки зрения защиты кодируемого аудиосигнала от несанкционированного доступа. В публикации №9 автором разработаны и реализованы алгоритмы компрессии.

Типография ТТИ ЮФУ, ГСП 17А, Таганрог, ул. Энгельса, 1. Заказ №35 0- Тираж 100 экз.

Оглавление автор диссертации — кандидата технических наук Каграманянц, Виктор Александрович

ВВЕДЕНИЕ.

1 ОБЗОР МЕТОДОВ КОДИРОВАНИЯ АУДИОСИГНАЛОВ.

1.1 Общие сведения о кодировании аудиосигналов.

1.2 Методы оценки качества кодирования.

1.3 Импульсно-кодовая модуляция.

1.4 Дифференциальная ИКМ.

1.5 Дельта-преобразование первого порядка.

1.6 Дельта-преобразование второго порядка.

1.7 Вокодерное кодирование.

1.8 Кодирование широкополосных сигналов.

1.9 Методы определения активности звуковых фрагментов.

1.10 Выводы.

2 РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ КОМПРЕССИИ НА ОСНОВЕ ПЕРЕКОДИРОВАНИЯ ЧЕТВЕРОК ДЕЛЬТА-БИТОВ ДЕЛЬТА-ПРЕОБРАЗОВАНИЯ ВТОРОГО ПОРЯДКА.

2.1 Теоретическое исследование избыточности исходной дельта-последовательности.

2.2 Разработка методики решения задачи повышения уровня компрессии на V основе перекодирования четверок дельта-битов.

2.3 Разработка алгоритмов компрессии на основе перекодирования четверок дельта-битов.

2.4 Выводы.

3 РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ КОМПРЕССИИ НА ОСНОВЕ КОДИРОВАНИЯ ПОЛУПЕРИОДОВ АУДИОСИГНАЛА.

3.1 Теоретическое исследование свойств и получение качественных характеристик участков дельта-последовательности, соответствующих полупериодам исходного аудиосигнала.

3.2 Разработка методики решения задачи повышения уровня компрессии на основе кодирования полупериодов аудиосигнала.

3.3 Разработка алгоритма кодирования на основе минимальных серий.

3.4 Алгоритм кодирования на основе минимальных серий.

3.5 Выводы.

4 РАЗРАБОТКА ПРОГРАММНОЙ МОДЕЛИ И ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ.

4.1 Методика проведения экспериментальных исследований.

4.2 Проведение экспериментальных исследований с целью сравнения разработанных алгоритмов с базовым алгоритмом дельта-преобразований

4.3 Проведение экспериментальных исследований с целью сравнения разработанных алгоритмов с кодеком G.726.

4.4 Проведение экспериментальных исследований с целью сравнения разработанных алгоритмов с кодеком AMR.

4.5 Проведение экспериментальных исследований с целью сравнения разработанных алгоритмов с кодеком MPEG-I Layer 3.

4.6 Выводы.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Каграманянц, Виктор Александрович

Актуальность проблемы. Последнее десятилетие ознаменовано появлением доступных цифровых телекоммуникационных систем и, в частности, систем сотовой связи, систем 1Р-телефонии и систем конференц-связи.

В связи с этим ежегодно увеличивается нагрузка на телекоммуникационные каналы гражданского и военного применения, немалую часть которой составляет аудио- и видеоинформация. Поэтому особо актуально стоит задача эффективного кодирования мультимедиа-потоков.

Компрессия аудиоданных является неотъемлемой частью телекоммуникационных мультимедийных систем, систем мобильной связи, бортовых систем связи, функционирующих на основе обеспечивающих целостность передаваемых данных современных протоколов передачи данных. Такие системы функционируют в реальном времени, поэтому важнейшей характеристикой является быстродействие используемых алгоритмов компрессии. Быстродействие оказывает влияние на число одновременно обслуживаемых пользователей^ время работы мобильного устройства от батареи, стоимость специализированных вычислительных средств обработки аудио, возможность кодирования аудио в-фоновом режиме при использовании ресурсов вычислителя для других задач.

Алгоритмы компрессии аудиосигналов многочисленны и разнообразны по своим характеристикам. Однако известные алгоритмы компрессии аудио, как правило, обладают либо сравнительно малым коэффициентом сжатия при низкой трудоёмкости, либо характеризуются высоким коэффициентом сжатия при высокой трудоёмкости. Поэтому при выборе конкретного алгоритма компрессии производится поиск компромисса между желаемым коэффициентом сжатия и трудоёмкостью алгоритма:

Особенно строгие ограничения на трудоёмкость накладываются в многоканальных системах, а так же в системах, где необходимо параллельно осуществлять интенсивную обработку другой информации.

В связи с отмеченным выше, разработка новых методов и алгоритмов компрессии, характеризующихся низкой вычислительной трудоемкостью и обеспечивающих достаточно высокое для практического использования качество и компрессию аудиосигналов, является актуальной задачей.

Для обработки звуковых сигналов в телефонных сетях в первые годы внедрения цифровой связи активно использовались алгоритмы на основе дельта-преобразования первого порядка [46, 71]. Главной отличительной особенностью этих алгоритмов являлась простота реализации. Вместе с тем, дельта-преобразование первого порядка характеризовалось низкой точностью и существенным ограничением скорости изменения преобразовываемого сигнала.

С повышением требований к качеству аудиокодирования стали развиваться методы компрессии, основанные на дельта-преобразованиях второго порядка, характеризующихся также простотой реализации и более высоким динамическими характеристиками. Вопросы построения алгоритмов дельта-преобразования второго порядка освещены в работах Р. Стала [71], А. В. Шилейко [74], Г. Г. Меньшикова [67, 68], с1е Jeager Б. [9] и многих других. Важной проблемой для практического использования известных алгоритмов дельта-преобразования второго порядка долгое время оставалась неустойчивость преобразований, в связи с чем, эти алгоритмы практически оказывались непригодными [63].

Алгоритмы дельта-преобразований второго порядка, характеризующиеся стабильностью, оптимизацией по быстродействию и точности, впервые были освещены в работах П. П. Кравченко [63, 64, 65].

Известен метод компрессии аудиосигналов на основе оптимизированного дельта-преобразования второго порядка со сглаживанием [66]. Метод отличается от известных низкой вычислительной трудоёмкостью при кодировании и декодировании, однако уступает по степени сжатия исходного сигнала.

В связи с отмеченным выше, представляет интерес решение задачи повышения степени компрессии аудиосигнала, закодированного на основе оптимизированных дельта-преобразований второго порядка, с обеспечением низкой вычислительной трудоёмкости кодирования и декодирования сигнала.

Целью работы является разработка методов и алгоритмических средств повышения степени компрессии аудиосигналов, закодированных на основе оптимизированных дельта-преобразований второго порядка. Для достижения поставленной цели в диссертации решаются следующие задачи:

1) анализ известных методов и алгоритмов компрессии звуковых данных, их достоинств и недостатков;

2) исследование дельта-последовательности с целью выявления возможностей повышения степени компрессии;

3) разработка модифицированных методов и алгоритмов компрессии аудиосигналов на основе оптимизированных дельта-преобразований второго порядка;

4) разработка программной модели и проведение экспериментальных исследований.

Объектом исследования являются методы и алгоритмы компрессии аудиосигналов.

Методы исследования опираются на математический аппарат теории оптимизированных дельта-преобразований второго порядка, теории информации, теории вероятностей.

Научная новизна работы заключается в следующем.

1) Разработано теоретическое обоснование существования для множества цепочек дельта-битов одинаковой длины таких, которые в некотором приближении можно считать идентичными.

2) Предложен метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного введением дополнительного кодирования цепочек дельта-последовательности определенной длины. Разработаны алгоритмы компрессии и декомпрессии на основе кодирования цепочек дельта-битов длины 4, обеспечивающие гарантированно малое снижение качества. Теоретический выигрыш в компрессии на основе 4-битных цепочек с использованием предложенных методов и алгоритмов составляет ~ 30 % по сравнению с базовым алгоритмом дельта-преобразования.

3) Разработано теоретическое обоснование существования для множества особых цепочек дельта-битов, соответствующих полупериодам аудиосигнала и названных минимальными сериями, таких, которые в некотором приближении можно считать идентичными.

4) Предложен метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного алгоритма введением дополнительного кодирования, на основе семейств минимальных серий, соответствующих полупериодам исходного аудиосигнала. Разработаны алгоритмы компрессии и декомпрессии на основе кодирования семейств минимальных серий, обеспечивающие гарантированно малое снижение качества. Теоретический выигрыш в компрессии на основе данного метода и алгоритмов составляет ~ 45-55 % по сравнению с базовым алгоритмом дельта-преобразования.

Основные положения, выносимые на защиту:

1) Метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного алгоритма введением дополнительного кодирования цепочек дельта-последовательности фиксированной длины.

2) Алгоритмы компрессии и декомпрессии на основе дополнительного кодирования цепочек дельта-последовательности длиной 4 бита, отличающиеся возможностью повышения компрессии на--30 % по сравнению с известным алгоритмом и обеспечивающие при этом гарантированно малое снижение качества.

3) Метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного алгоритма введением дополнительного кодирования на основе кодирования семейств минимальных серий, соответствующих полупериодам исходного аудиосигнала.

4) Алгоритмы компрессии и декомпрессии на основе кодирования семейств минимальных серий, соответствующих полупериодам исходного аудиосигнала, отличающиеся возможностью повышения компрессии на 45-55 % по сравнению с известным алгоритмом и обеспечивающие при этом гарантированно малое снижение качества.

Практическая ценность диссертационного исследования состоит в применимости предложенных методов для решения актуальных задач эффективного сжатия звуковых данных. Благодаря низкой трудоёмкости разработанных методов наибольший интерес представляет их применение в многоканальных телекоммуникационных системах, в специализированных системах с одновременной интенсивной параллельной обработкой информации другого назначения, бортовых систем связи, функционирующих на основе обеспечивающих целостность передаваемых данных современных протоколов передачи данных.

Возможность повышения степени компрессии разработанных алгоритмов по сравнению с базовым алгоритмом на ~ 25%-60% сочетается с обеспечением высокого быстродействия по сравнению с другими известными аудиокодеками. В частности, проведенные эксперименты с использованием широко известных оптимизированных программных кодеков и разработанных в рамках диссертации кодеков с неоптимизированным программным кодом показывают, по крайней мере, в —2-4.5 раз меньшую трудоемкость при кодировании и 3-5.5 раз при декодировании при обеспечении сходного уровня компрессии. Увеличение трудоемкости разработанных кодеков по сравнению с базовым кодеком, основанном на оптимизированных дельта-преобразованиях второго порядка со сглаживанием, составляет ~ 1.1-1.3 раз при кодировании и ~ 1.1-1.5 раз при декодировании.

Предложенная методология кодирования представляет интерес для эффективного решения задачи защиты аудиосигналов от несанкционированного доступа в реальном масштабе времени.

Результаты работы использовались в учебном процессе на кафедре Математического обеспечения и применения ЭВМ Технологического института Южного федерального университета в г. Таганроге.

Результаты работы внедрены в программно-аппаратном комплексе 1Р-телефонии ООО НПП "СПЕЦСТРОЙ-СВЯЗЬ" в виде программных средств, реализующих алгоритмы компрессии аудиосигналов.

Акты о внедрении приведены в приложениях Б и В.

Апробация работы.

Результаты работы докладывались и обсуждались на международных, всероссийских научно-технических конференциях, в том числе на:

- VII Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системный анализ и управление", Таганрог, 2009;

- VI Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, Таганрог, 2010;

- Всероссийской научной школе-семинаре молодых ученых, аспирантов и студентов "Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки", Таганрог, 2010;

- XXV Международной научно-технической конференции "Интеллектуальные САПР", Дивноморское, 2010;

- XI Международной научно-практической конференции "Информационная безопасность 2010", Таганрог, 2010;

- V Всероссийской научно-практической конференции "Перспективные системы и задачи управления", Домбай, 2010;

- X Всероссийской научной конференции студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления", Таганрог, 2010.

Публикации.

Результаты, полученные в работе, нашли отражение в 9 печатных работах, среди них 3 статьи в издании, рекомендованном ВАК и 1 свидетельство Федеральной службы по интеллектуальной собственности, патентам и товарным знакам № 2009611765 "Программная система компрессии речевых сигналов".

Структура работы. Материал основной части диссертационной работы изложен на 130 страницах машинописного текста. Диссертация состоит из введения, 4 глав, заключения, списка литературы из 74 наименований, содержит 72 рисунка, и 3 приложений на 42 листах.

Заключение диссертация на тему "Разработка методов и алгоритмов повышенной компрессии аудиосигналов, закодированных на основе оптимизированных дельта-преобразований второго порядка"

4.6 Выводы

1) Экспериментальные исследования подтвердили теоретически обоснованное повышение степени компрессии для разработанных алгоритмов 25%-60%) по сравнению с базовым алгоритмом дельта-преобразования второго порядка при малом ухудшении качества сигнала (на 0.7—2.5 дБ отношения сигнал/шум). Увеличение трудоемкости разработанных кодеков по сравнению с базовым кодеком, основанном на оптимизированных дельта-преобразованиях второго порядка со сглаживанием, составляет ~ 1.1—1.3 раз при кодировании и ~ 1.1—1.5 раз при декодировании.

2) Анализ экспериментальных данных показал, что по сравнению с кодеком G.726 при сопоставимой компрессии и несколько более низком уровне качества разработанные алгоритмы обеспечивают выигрыш по скорости работы по крайней мере в 2 раза при кодировании и 3 раза при декорировании.

3) Анализ экспериментальных данных показал, что по сравнению с кодеком AMR при сопоставимой компрессии и несколько более низком уровне качества разработанные алгоритмы обеспечивают выигрыш по скорости работы по крайней мере в 2.5 раза при кодировании и 4 раза при декорировании.

4) Анализ экспериментальных данных показал, что по сравнению с МРЗ при сопоставимой компрессии и несколько более низком уровне качества разработанные алгоритмы обеспечивают значительный выигрыш по скорости работы по крайней мере в 4.5 раза при кодировании и 5.5 раза при декорировании. I i

ЗАКЛЮЧЕНИЕ

В диссертационной работе проведен обзор существующих алгоритмов и методов компрессии звуковых данных, который позволяет утверждать об отсутствии алгоритмов компрессии, обладающих низкой трудоемкостью и достаточно высоким коэффициентом сжатия при достаточном уровне качества сигнала, не зависящих от природы исходного аудиосигнала. Рассмотрен известный метод компрессии аудиосигналов на основе двоичного оптимизированного дельта-преобразования второго порядка со сглаживанием, отличающийся от известных низкой вычислительной трудоёмкостью при кодировании и декодировании, однако уступающий по степени сжатия исходного сигнала.

Для решения задачи повышения степени компрессии аудиосигналов, закодированных на основе оптимизированного дельта-преобразования второго порядка со сглаживанием, выполнено теоретическое исследование дельта-последовательности.

В частности, были исследованы свойства* цепочек последовательных дельта-битов. Показано, что для указанной длины цепочки существуют цепочки, которые в некотором- приближении можно считать идентичными. Предложен метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного алгоритма введением дополнительного кодирования цепочек дельта-последовательности длиной 4 бита. Разработаны алгоритмы компрессии и декомпрессии* на основе дельта-преобразований второго порядка, отличающиеся возможностью повышения компрессии на ~ 30% по сравнению с известным алгоритмом и обеспечивающие при этом гарантированно малое снижение качества.

Также был подробно исследован особый класс цепочек дельта-битов, названный минимальными сериями. Показано, что для каждой длины минимальной серии существуют такие множества минимальных серий (семейства), в которых входящие в них минимальные серии в некотором приближении можно считать идентичными. Показана практически нереализуемая вычислительная трудоемкость решения задачи оптимального разбиения множества минимальных серий проведением полного перебора и разработан экономичный алгоритм построения субоптимального разбиения множества минимальный серий на семейства. Предложен метод повышения компрессии на основе дельта-преобразований второго порядка, отличающийся от известного алгоритма введением дополнительного кодирования на основе семейств минимальных серий, соответствующих полупериодам исходного аудиосигнала. Разработаны алгоритмы компрессии и декомпрессии на основе дельта-преобразований второго порядка, отличающиеся возможностью повышения компрессии на 45-55 % по сравнению с известным алгоритмом и обеспечивающие при этом гарантированно малое снижение качества.

Предложенные алгоритмы реализованы в программной модели кодека, с которой проведены экспериментальные исследования. В ходе экспериментальных исследований проводилось сравнение разработанных алгоритмов с базовым алгоритмом двоичного оптимизированного дельта-преобразования.второго порядка, а так же с кодеками G.726, АМЯ'и МРЗ. Экспериментальные данные подтвердили теоретические оценки компрессии и снижения качества для разработанных алгоритмов. Разработанные алгоритмы в ходе тестирования показали сходный с кодеком G.726 уровень компрессии, и качества при более высокой (в 2—3 раза) их производительности. Тестирование'также выявило несколько более низкий уровень качества по сравнению с AMR при сходном уровне компрессии и более высокой (в12.5—4 раза) производительности. Сравнение с кодеком МРЗ показало более низкое качество разработанных алгоритмов, но более высокую производительность (в 4.5-5.5 раз).

Простота и высокое быстродействие алгоритмов кодирования и декодирования позволяют говорить о перспективности их использования в телекоммуникационных мультимедийных системах, системах мобильной связи, бортовых системах связи, функционирующих на основе обеспечивающих целостность передаваемых данных современных протоколов передачи данных.

Материалы диссертационной работы использованы в учебном процессе на кафедре Математического обеспечения и применения ЭВМ Технологического института Южного федерального университета в г. Таганроге и в программно-аппаратном комплексе 1Р-телефонии ООО НПП "СПЕЦСТРОЙ-СВЯЗЬ" в виде программных средств, реализующих алгоритмы компрессии аудио.

Библиография Каграманянц, Виктор Александрович, диссертация по теме Теоретические основы информатики

1. Anderson J. "Methods for Measuring Perceptual Speech Quality", Agilent Technologies-White Paper, USA, May 2001.

2. Atal B.S., The History of Linear Prediction, IEEE Signal Processing Magazine, vol. 23, no. 2, March 2006, pp. 154-161.

3. Bateman A., Paterson-Stephens I. The DSP Handbook. Algorithms, Applications and Design Techniques. Prentice Hall, 2002.

4. Benesty J. Audio signal processing for next-generation multimedia communication systems. Boston. Kluwer academic publishers, 2004

5. Conway and Guy, The Book of Numbers. New York: Copernicus, pp. 96106, 1996.

6. De Jager F. Deltamodulation A Method of PCM Transmission Using the 1-Unit Code // Philips Research Reports. 1952. V.7. № 6 pp. 442-466.

7. Self D. Self on Audio. Burmingham, Elsevier, 2006

8. Elias, Peter, Universal codeword sets and representations of the integers, IEEE Trans. Information Theory 21(2): 194-203, 1975.

9. Eric Temple Bell: Exponential Numbers, The American Mathematical Monthly 41, 1934, pp. 411—419

10. Faneuff J.J., Brown R. Noise Reduction and Increased VAD Accuracy Using Spectral Subtraction // http://www.ece.wpi.edu

11. Gardner, M. Time Travel and Other Mathematical Bewilderments, New York: W. H. Freeman and Company, pp. 253-266 (Ch. 20), 1988 ISBN 0-7167-1924-X

12. Gellens R., Singer D., Frojdh P. RFC4281: The Codecs Parameter for "Bucket" Media Types. November 2005

13. Hamada N., Hioka Y. Voice Activity Detection with Array Signal Processing in the Wavelet Domain // IEEE Trans. Fundamentals, vol. E86-A, №11, November 2003.

14. Hector P.-M. Advances in Audio and Speech Signal Processing: Technologies and Applications. Idea Group Publishing, 2007

15. Hollier M., Hawksford M., Guard D. "Error activity and error entropy as a measure of psychoacoustic significance in the perceptual domain", IEE Proc. Visual Image Signal Processing, Vol. 141, No. 3, June 1994.

16. ITU-T G.191: Software tools for speech and audio coding standardization. http://www.itu.int/rec/T-REC-G. 191/en

17. ITU-T G.711: Pulse code modulation (PCM) of voice frequencies. http://www.itu.int/rec/T-REC-G.711/en

18. ITU-T G.723: Extensions of Recommendation G.721 adaptive differential pulse code modulation to 24 and 40 kbit/s for digital circuit multiplication equipment application http://www.itu.int/rec/T-REC-G.723/en

19. ITU-T G.726: Adaptive Differential Pulse Code Modulation (ADPCM). http://www.itu.int/rec/T-REC-G.726/en

20. ITU-T G.728: Coding of speech at 16 kbit/s using low-delay code excited linear prediction. http://www.itu.int/rec/T-REC-G.728/en

21. Jaynes, E.T. (May 1957). "Information Theory and Statistical Mechanics". Physical Review 106 (4): 620-630. doi:10.1103/PhysRev. 106.620. http://bayes.wustl.edu/etj/articles/theory. 1 .pdf.

22. Koshy T. Catalan Numbers with Applications, Oxford University Press, 2008, ISBN 0-1953-3454-X

23. Renevey P., Drygajlo A. Entropy Based Voice Activity in Very Noisy Conditions // http://www.epfl.ch

24. Rix A. W., Hollier M. P., Hekstra A. P., Beerends J. G. "PESQ, the new ITU Standard for Objective Measurement of Perceived Speech Quality, Part II Perceptual model" J. Audio Eng. Soc., vol. 50, pp. 765-778, 2002.

25. Rota G.-C. The Number of Partitions of a Set. American Mathematical Monthly 71 (5): 498-504. 1964

26. Schremmer C., Haenselmann T. Wavelets in real-time digital audio processing: a software for understanding wavelets in applied computer science. 2000. http://www.informatik.uni-mannheim.de.

27. Schroeder M. R. Atal B. S., Code-excited linear prediction (CELP): High-quality speech, at very low bit rates. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 10, pp. 937-940, 1985.

28. Sjoberg J., Westerlund M., Lakaniemi A., Xie Q. RFC4867: TP Payload Format and File Storage Format for the Adaptive Multi-Rate (AMR) and Adaptive Multi-Rate Wideband (AMR-WB) Audio Codecs, April 2007

29. Sohn J, Kim N. S., Sung W. A Statistical Model-Based Voice Activity Detection // IEEE Signal Processing Letters, vol. 6, № 1, January, 1999.

30. Spanias A., Painter T., Atti V. Audio signal processing and coding. Wiley-Interscience, 2007

31. Spivey, M. A Generalized.Recurrence for Bell Numbers, Journal of Integer Sequences 11, 2008

32. Srinivasan P., Jamieson L. H. High quality audio compression using an adaptive wavelet packet decomposition and psychoacoustic modeling. // IEEE Transactions on Signael Processing, vol. XX, no. V, 1999.

33. Tewfik A. H., Murtaza A. Enhanced wavelet based audio coder. Department of electrical engeneering, University of Minnesota, Minneapolis, MN 55455.

34. The Freesound Project: collaborative database of Creative Commons licensed sounds, http://freesound.org

35. The LAME Project: a high quality MPEG Audio Layer III (MP3) encoder licensed under the LGPL. http://lame.sourceforge.net/

36. Tonkelowitz M., Vernal M., Patel A. Lossless sound compression using the discrete wavelet transform. 2002. http://www.fas.harvard.edu

37. Watkinson J., An introduction to digital audio. Oxford, Focal Press, 1995.

38. Wootton C., A Practical Guide to Video and Audio Compression. From Sprockets and Rasters to Macroblocks. Elsevier, 2005

39. Zhang J., Ward W., Pellom B. Phone Based Voice Activity Detection Using Online Bayesian Adaptation With Conjugate Normal Distributions // http://www.cslr.colorado.edu

40. Ахмед H., Pao К. P. Ортогональные преобразования при обработке циф-ровых сигналов /Пер. с англ./Под ред. И. Б. Фоменко. — М.: Связь, 1980.

41. Барабаш О. Аудио MPEG, http://www.vlz.ru/mp3bout/mp3mpeg.htm

42. Бризицкий Т. О современных форматах кодирования аудио. http://www.websound.ru

43. Венедиктов М. Д. Женевский Ю. П, Марков В. В, Эйдус Г. С. Дель-та-модуляция. Теория и приминение. М.: Связь, 1976.

44. Воробьёв Н. Н. Числа Фибоначчи. —Наука, 1978. — Т. 39

45. Гуревич В. Э. Импульсно-кодовая модуляция в многоканальной телефон-ной связи. -М.: Связь, 1973.

46. Дворецкий И. М., Дриацкий И. Н. Цифровая передача сигналов звукового вещания. -М.: Радио и связь, 1987

47. Добеши И. Десять лекций по вейвлетам. Ижевск: НИЦ Регулярная и хаотическая динамика, 2001.

48. Залманзон Л. А. Преобразование Фурье, Уолша, Хаара и их применение в управлении, связи и других областях. М,: Наука, 1989:

49. Кинтцель Т. Руководство программиста по работе со звуком. — М.: ДМК.Пресс, 2000.

50. Кравченко П. П. Дельта-модуляция на основе высших разностей и глу-бо-кого прогноза // Электронное моделирование. — 1984. № 1

51. Кравченко П. П. Основы теории,-оптимизированных дельта-преобразований второго порядка. Цифровое управление, сжатие и параллельная обработка информации. Таганрог: Изд-во ТРТУ, 1997.

52. Кравченко П П. Основы теории оптимизированных дельта-преобразований второго порядка. Цифровое управление, сжатие, параллельная обработка информации. Таганрог, 2008

53. Кравченко П. П.Оптимизированные дельта-преобразования второго порядка. Теория и применение. М.: Радиотехника, 2010

54. Меньшиков Г. Г. Исследование погрешностей двухкратной дель-та-модуляции. Кибернетика, 1966. № 6. С. 18-25.

55. Меньшиков Г. Г. Квантование в цифровых устройствах с дель-та-модуляцией. Вычислительная техника в управлении. М.: Наука, 1966. С. 81-85.

56. Пилипчук Н. И., Яковлев В. П. Адаптивная импульсно-кодовая модуляция. М.: Радио и связь, 1986.

57. Покровский Н. Б. Расчет и измерение разборчивости речи. М.: Связь-издат, 1962

58. Стил Р. Принципы дельта-модуляции: Пер. с англ. под ред. В. В. Маркова. М.: Связь, 1979.

59. Феер К. Беспроводная цифровая связь. М.: Радио и связь, 2000 -520 с.

60. Хаджинов А. А. Разработка быстродействующих алгоритмов компрессии звуковых данных на основе дельта-преобразований второго порядка: дис. к.т.н.: 05.13.17; 05.13.11 Хаджинов А. А; ТРТУ; науч. рук. П. П. Кравченко -Таганрог, 2005.

61. Шилейко А. В. Цифровые модели. М.: Л.: Энергия, 1964