Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных

Болдышев, Алексей Владимирович

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных

кандидата технических наук: Болдышев, Алексей Владимирович
город: Белгород
год: 2013
специальность ВАК РФ: 05.13.17
цена: 450 рублей

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных»

Автореферат диссертации по теме "Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных"

На правах рукописи

Болдышев Алексей Владимирович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ И АЛГОРИТМОВ СУБПОЛОСНОГО КОДИРОВАНИЯ РЕЧЕВЫХ СООБЩЕНИЙ ПРИ ХРАНЕНИИ И ПЕРЕДАЧЕ РЕЧЕВЫХ ДАННЫХ

по специальности 05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

1 4 МАР 2013

Белгород-2013

005050451

Работа выполнена в Федеральном государственном автономном образовательном учреждении высшего профессионального образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»), на кафедре информационно-телекоммуникационных систем и технологий

Научный руководитель Жиляков Евгений Георгиевич,

доктор технических наук, профессор

Официальные оппоненты: Нечаев Юрий Борисович, доктор

физико-математических наук, профессор, заслуженный деятель науки РФ, Воронежский государственный

университет, профессор кафедры информационных систем, г. Воронеж

Белов Александр Сергеевич, кандидат технических наук, ФГАОУ ВПО «Белгородский государственный

национальный исследовательский

университет», доцент кафедры прикладной информатики г. Белгород

Ведущая организация Федеральное государственное бюджетное

образовательное учреждение высшего профессионального образования

«Белгородский государственный технологический университет им. В.Г. Шухова»

Защита состоится «3» апреля 2013 года в 16 часов 30 минут на заседании диссертационного совета Д 212.015.10 на базе ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет» по адресу: 308015, г. Белгород, ул. Победы, 85, к. 15, ауд. 3-8.

С диссертацией можно ознакомиться в научной библиотеке ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет» по адресу: 308015, г. Белгород, ул. Победы, 85.

Автореферат разослан «_» февраля 2013 г.

Ученый секретарь диссертационного совета, кандидат технических наук, старший научный сотрудник Белов С.П.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность диссертационного исследования. Информационный обмен является важной и неотъемлемой частью человеческой деятельности (социальной, экономической), о чем свидетельствует постоянное развитие информационно-телекоммуникационных технологий обработки, хранения и передачи данных. В настоящее время происходит повышение интенсивности информационного обмена на основе речевых сообщений. Это обусловлено тем, что речевые сообщения являются наиболее естественной и удобной формой информационного обмена.

В информационно-телекоммуникационных системах (ИТС) передача и хранение речевых сообщений осуществляется в виде специальных кодовых комбинаций, совокупность которых естественно называть речевыми данными.

Одной из основных проблем реализации информационного обмена является ограниченность ресурсов ИТС (пропускная способность канала связи для передачи данных, объемы памяти информационных хранилищ). Поэтому, не вызывает сомнения, необходимость выбора такого способа кодирования, который обеспечивает минимум объемов битовых представлений хранимых и передаваемых речевых данных при сохранении приемлемого, с точки зрения пользователя, качества воспроизведения исходных речевых сообщений.

Решением проблемы минимизации объемов битовых представлений речевых данных занималось большое количество ученых, среди которых следует отметить: Б. Голда, Е.Г. Жилякова, Э. Оппенгейма, A.A. Пирогова, Л. Р. Рабинера, В.Г. Санникова, М.А. Сапожкова, Р.В. Шафера, О.И. Шелухина и других российских и зарубежных ученых.

На сегодняшний день известно большое количество методов кодирования речевых сообщений, которые используются в системах IP-телефонии, а также при передаче речи по сетям сотовой связи (G.729, G.723.1, G.728, AMR, FR, и т.д.). Разработчики этих кодеков достигли определенного предела в показателях эффективности кодирования (сжатие до 10 раз) при сохранении приемлемого для пользователя качества воспроизведения.

Дальнейший прогресс повышения эффективности кодирования может быть достигнут на основе оптимального учета свойства сосредоточенности энергии речевых сигналов в полосе частот, составляющих малую долю от частоты дискретизации. Методы кодирования речевых сообщений с позиции разбиения общей полосы частот на отдельные частотные интервалы представляется естественным называть субполосными.

Из известных методов субполосного кодирования можно отметить форматы МРЗ, OGG и т.д., в основе которых используется дискретное преобразование Фурье (ДПФ), в том числе дискретное косинус

преобразование Фурье (ДКПФ). Однако, они приспособлены в основном для обработки музыкальных данных, что не позволяет учитывать наличие в речевых сообщениях пауз, кроме того, они не отвечают никаким критериям оптимальности, например, минимизации ширины адаптивно определяемой полосы частот, в которой сосредоточена основная доля энергии речевого сигнала, погрешности аппроксимации в ней трансформанты Фурье исходного сигнала и погрешности квантования по уровню коэффициентов этой аппроксимации.

Поэтому разработка оптимальных субполосных методов кодирования речевой информации, позволяющих минимизировать объемы битовых представлений речевых данных при условии сохранения заданного уровня информативности восстанавливаемых речевых сообщений, является актуальной задачей.

Целью работы является совершенствование методов и алгоритмов субполосного кодирования речевой информации с точки зрения минимизации объемов битовых представлений речевых данных при условии сохранения заданного уровня информативности восстанавливаемых речевых сообщений.

Для достижения цели были сформулированы и решены следующие задачи:

1. Анализ основных направлений развития методов кодирования речевых данных при хранении и передаче речевых сообщений.

2. Разработка и исследование метода и алгоритмов многополосного кодирования и декодирования речевых сообщений, минимизирующих объемы битовых представлений речевых данных.

3. Разработка и исследование метода и алгоритмов кодирования и декодирования речевых сообщений с минимизацией объемов битовых представлений речевых данных на основе субполосной дискретизации речевых сигналов.

4. Разработка программных реализаций алгоритмов субполосного кодирования и восстановления речевых сообщений.

Методы исследований базируются на теории Фурье-анализа и синтеза сигналов, линейной алгебры, теории вероятностей и математической статистики, теории принятия статистических решений, вычислительных экспериментах.

Научную новизну работы составляет следующее:

1. Метод и алгоритм адаптивного выделения многополосных информационных компонент речевых сигналов, с минимальной суммарной шириной, которые позволяют уменьшить частотную избыточность речевых сигналов с точки зрения кодирования данных.

2. Метод и алгоритм многополосного кодирования и декодирования речевых сообщений на основе оптимальной аппроксимации трансформант Фурье в адаптивно определяемой совокупности частотных интервалов, что соответствует требованию наилучшего воспроизведения речевых сообщений.

3. Метод и алгоритм кодирования и декодирования речевых сообщений на основе субполосной дискретизации огибающих информационных субполосных компонент речевых сигналов, позволяющий сократить объемы сохраняемых данных на основе уменьшения структурной избыточности.

Практическая значимость работы определяется алгоритмами субполосного кодирования речевой информации, которые позволяют минимизировать объемы битовых представлений речевых данных.

Полученные результаты используются в ООО «НПП «Сигнал» БелГУ», что подтверждается соответствующим актом, а также в учебном процессе подготовки бакалавров и магистров факультета КНиТ ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет».

Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» (технические науки) по следующим областям исследований:

п.З. Исследование методов и разработка средств кодирования информации в виде данных. Принципы создания языков описания данных, языков манипулирования данными, языков запросов. Разработка и исследование моделей данных и новых принципов их проектирования.

п. 5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.

Связь с научными и инновационными программами.

Диссертационное исследование проводилось в рамках следующих программ фундаментальных, поисковых и инновационных исследований: ГК №14.740.11.0494 от 1 октября 2010г, ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы. Программа «У.М.Н.И.К.» Фонда содействия развитию малых форм предприятий в научно-технической сфере. Проект №10256. Программа «У.М.Н.И.К.» Фонда содействия развитию малых форм предприятий в научно-технической сфере. Проект №14228. АВЦП «Развитие научного потенциала высшей школы (2009-2011 годы)» Проект № 2.1.2/9382.

Положения, выносимые на защиту:

1. Методы и алгоритмы субполосного кодирования и декодирования речевых сообщений, позволяющие минимизировать объемы битовых представлений речевых данных.

2. Структура пакета речевых данных, закодированных на основе разработанных процедур.

3. Рекомендации по использованию разработанных алгоритмов кодирования и декодирования речевых сообщений.

4. Результаты вычислительных экспериментов, иллюстрирующие обоснованность и достоверность выводов.

Достоверность полученных результатов и выводов обусловлена корректностью математических преобразований, отсутствием противоречий

с известными теоретическими положениями и выводами, а также подтверждается результатами большого количества вычислительных экспериментов по обработке реальных речевых данных.

Личный вклад соискателя. Все изложенные в диссертационной работе результаты исследований получены либо соискателем лично, либо при его непосредственном участии.

Апробация работы. Результаты диссертационного исследования обсуждались на следующих научно-технических конференциях: Международная молодежная конференция «Прикладная математика, управление и информатика» (г. Белгород, 2012г); V Международная научно-техническая конференция «Информационные технологии в науке, образовании и производстве» (г. Орел, 2012г); 14-ая, 13-ая, 12-ая Международная конференция и выставка «Цифровая обработка сигналов и ее применение -DSPA» (г. Москва, 2012, 2011, 2010 гг.); 2-ая Международная научно-техническая конференция «Компьютерные науки и технологии» (г. Белгород, 2011г.); 14-ая Международная научно-техническая конференция «Медико-экологические информационные технологии - 2011» (г. Курск, 2011г.); XXIII - Международной научной конференции «Математические методы в технике и технологиях - ММТТ-23» (г. Саратов, 2010г.); 1-ая Международная научно-техническая конференция «Компьютерные науки и технологии» (г. Белгород, 2009г.).

Публикации. Основные положения диссертационной работы изложены в 20 печатной работе, из них 8 статей в журналах из списка ВАК. Получено 4 свидетельства Роспатента РФ об официальной регистрации программ для ЭВМ.

Объем и структура работы. Диссертация состоит из Введения, четырех глав, Заключения и Приложений. Работа изложена на 158 страницах машинописного текста, включая 30 рисунков, 37 таблиц и список литературных источников из 149 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность диссертационного исследования, формулируется основная цель и дается обзор содержания глав.

Глава 1. Информационные процессы на основе речевых сообщений, тенденции, проблемы и методы реализации. В главе основное внимание уделяется описанию областей и направлений использования информационно-телекоммуникационных систем (ИТС) для реализации информационного обмена на основе речевых сообщений. Рассматривается проблема ограниченности ресурсов ИТС (пропускная способность каналов связи и объемы памяти информационных хранилищ), требуемых для передачи и хранения речевых данных. Рассматриваются основные известные подходы к кодированию речевых сообщений с целью минимизации объемов

их битовых представлений при сохранении заданного уровня информативности.

Обработке подвергается речевой сигнал, под которым понимается результат реакции некоторых регистрирующих устройств на акустическое воздействие, генерируемое речевой системой человека. Предполагается, что они изначально дискретизируются с частотой /а =Ч, разрядность АЦП равна 8.

Можно выделить два основных направления кодирования речевых данных с целью минимизации их объема, а именно кодирование сигнала в паузах (кодирование заключается в определении начала паузы и ее длительности) и кодирование данных, которые порождены присутствием звуков речи.

Дается обоснование целесообразности использования в создаваемых методах и алгоритмах кодирования речевых сообщений вариационных методов субполосного анализа, основанных на использовании субполосных матриц вида1:

Аг={аг,}= Г е-Ж'-^а = 5'П["Г+1 ~ к)] ~ (<" Щ , (1)

где 1Гг - некоторый интервал из исходной частотной оси

IV, =[-Ог+1 ,-Пг)и[Пг,Пг+1),П0 =0, (2)

где Ог - нормированная круговая частота.

Отмечена целесообразность представления субполосных матриц (1) в

виде:

5,п[пг+1-пг (._к)] а'к = 2-хГТ)-—- =2а'к С05[£У'- - *)]'

(3)

4 ={*»} = («-*)]/*(/-*)}, (4)

где А\ - субполосноая матрица для частотного интервала, расположенного вблизи нуля частотной оси; до = Пг+1 -0.г.

(0г в (3) обозначает центральную частоту г-го частотного интервала.

аг=(Пг+1+£2г)/2. (5)

Математический аппарат субполосных матриц является эффективным инструментом для решения ряда важных задач при обработке речевых сигналов. В том числе, он позволяет осуществить вычисление точных значений долей энергий анализируемых отрезков речевых сигналов в заданном частотном интервале:

1 Жиляков Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. / Е.Г. Жиляков. - Белгород: Изд-во, 2007. - БелГУ, 2007,- 160.

Сг=^,г = 1.....Д, (6)

И

n n

= = а^х,, (7)

2я0><=аг '=1^=1

(В)

¿=1

где Рг - энергия отрезка сигнала в г-ом частотном интервале; х = (х, ,...,ху )т -отрезок (вектор) анализируемых отсчетов речевых сигналов; Т -транспонирование; ||х||2- энергия анализируемого отрезка сигнала.

На этой основе разработан2 эффективный способ кодирования пауз, который применяется и в данной работе. Основное содержание диссертационной работы заключается в разработке способов кодирования данных, порождаемых в присутствии звуков речи.

Глава 2. Разработка и исследование метода и алгоритмов многополосного кодирования и декодирования речевых сообщений.

Раздел 2.1. Теоретические основы многополосного кодирования речевых сигналов. Кодированию подвергаются отрезки речевых сигналов из их совокупности / = (/1,.••,Л.Для простоты изложения текущий отрезок анализа обозначим в виде:

х = (хи...,хм)Т ^ц-пк+Ь-Лт? ¿ = (9)

Известно, что энергия отрезков речевых сигналов сосредоточена в малой доле частоты дискретизации, т.е. выполняется:

й2 = £*,2= X Дад|2л»/2*, (Ю)

1=1 леД ¡о*еПг

где Л/ - некоторое множество непересекающихся частотных интервалов вида (2), объединение которых обозначим в виде:

[Х- (И)

геЛ,

В работе показано, что длина окна анализа должна быть связана с количеством частотных интервалов следующим соотношением:

N = 2(2Я +1) +1. (12)

Дается обоснование формирования многочастотных субполосных матриц (МСМ) Лх:

Аъ= I Аг, (13)

гей,

с элементами вида

2 Е.Г. Жиляков, Обнаружение звуков речи на фоне шумов / Е.Г. Жиляков, С.П. Белов // Научные ведомости Серия История. Политология. Экономика. Информатика. №7(126) Выпуск 22/1, 2012г.

4 = = (14)

геД, сое!Гх

Введено понятие многополосной компоненты исходного отрезка сигнала

У = АХХ, (15)

которая удовлетворяет следующему критерию оптимальности

\\Х(а)-У{сд)^ао)12л+ \\У{а))^с1а)12я = тт. (16)

ом IV£ Ш

Минимум ищется по всем трансформантам Фурье И-мерных отрезков. Определение. Если выполняется условие

Т и м 2

х Л£Х = /и£ ,т< 1, (17)

то компонента (15) называется информационной многополосной компонентой на уровне т.

МСМ в соответствии с (7) и (14) является симметричной и положительно определенной. Поэтому ее можно представить в виде

Лг = *к%чТч?Т , (1В)

;=1

X}qf=Azqf, (19)

л} >Л?+1 >0,1 =1.....iV-1, (20)

где выполняется

= (21)

здесь символ (,) означает скалярное произведение. Подстановка (18) в (15) дает представление

y=ZAfa¡qJl:=QLá, (22)

i = l

где

щ = (x,qfy, L = diag(¿! Q = til,-,tifo • (23)

Определение. Замена вектора * на вектор проекций а называется многополосным кодированием отрезков речевых сигналов, а сами «, -многополосными кодами.

В таблице 1 приведены полученные оценки квадрата относительной погрешности замены исходного отрезка многополосной информационной компонентой (в зависимости от уровня т)

е2 = ¡x-yf/\\x\\2 • (24)

í=i i=i

Таблица 1 - Величина квадрата погрешности вида (24). N = 127, Л =31

звук т=0.86 т=0.88 т=0.90 т=0.92 т=0.94 т=0.96 т=0.98

А 0,108 0,074 0,074 0,051 0,038 0,021 0,012

И 0,097 0,097 0,047 0,047 0,047 0,028 0,015

Ч 0,127 0,091 0,065 0,065 0,044 0,030 0,014

Ш 0,112 0,086 0,076 0,058 0,049 0,025 0,014

Легко заметить, что величины квадрата погрешностей сравнимы с величиной 1 -т, что говорит о том, что многополосная информационная компонента адекватно отражает сосредоточенность заданной доли энергии

Раздел 2.2 Исследование свойств собственных векторов многочастотных субполосных матриц. В разделе основное внимание уделено исследованию частотных свойств речевых сигналов и исследованию особенностей собственных векторов МСМ. Показано, что собственное число равно доле энергии соответствующего собственного вектора, попадающей в информационный частотный интервал

I |2 п \ |2

I рЧ<у)\ао)Пя< I №(а>) Ла/2/г = 1, (25)

-л

где с/"(й>)- трансформанта Фурье соответствующего собственного вектора. Отсюда следует неравенство

Д?<1. (26)

Были проведены вычислительные эксперименты по оценке отношения суммарной ширины информационных частотных интервалов (11) для всех звуков русской речи:

у = (27)

где 5ир =Да(т1{Д[}-0,51псГ>;

/«?{/?!> - мощность множества (количество учитываемых частотных

{О, когда интервал вблизи нуля не включен; 1, в противном случае;

В качестве примера, в Таблице 2 приведены усредненные результаты оценки (27) для звуков «А», «И», «Ч», «Ш».

Таблица 2 - Величина у при N = \21, Я =31.

У

звук т=0.86 т=0.88 т=0.90 т=0.92 т=0.94 т=0.96 т=0.98

А 0,19 0,22 0,22 0,25 0,28 0,34 0,41

И 0,06 0,06 0,09 0,09 0,09 0,16 0,25

Ч 0,19 0,22 0,25 0,25 0,28 0,31 0,38

Ш 0,28 0,31 0,34 0,38 0,41 0,5 0,59

Результаты проведенных вычислительных экспериментов показали, что для большинства звуков русской речи выполняется неравенство ^<0,25, и только для некоторых из них (шипящих) у ~ 0,5- 0.6.

Для каждого звука русской речи были проведены исследования по оценке количества собственных чисел МСМ, величина которых попадает в определенный интервал значений. Исследования проводились для различных значений Я из соотношения (12) и различных значений параметра т из (17).

В качестве примера в Таблице 3 для звука «Ш» приведено количество собственных чисел, величины которых попадают в определенный интервал значений.

Таблица 3 - Количество собственных чисел, попадающих в определенные интервалы значений N = 127, Л =31. Звук «Ш».

Интервал т=0.86 т=088 т=0.90 т=0.92 т=0.94 т=0.96 т=0.98

значении Г =0,28 г=0,31 у = 0,34 У = 0,38 у =0,41 у = 0,50 у =0,59

0 - 0.01 82 74 73 66 62 42 34

0.01-0.1 4 6 5 6 6 10 8

0.1-0.3 3 6 3 5 5 10 8

0.3-0.7 3 2 3 3 3 1 1

0.7-0.99 15 18 15 19 19 29 27

0.99-1 20 21 28 28 32 35 49

В таблице 4 приведены результаты вычислительных экспериментов по сопоставлению количества собственных значений больших 0.03 (параметр 3) и их оценок на основе соотношения вида:

= [4т1{/г,} - 1пс1] + 2 , (28)

где квадратная скобка означает целую часть от содержимого.

Таблица 4 - количество собственных чисел больших 0.03 и вычисленное из соотношения (28), N = 127, Л =31.

т=0.86 т=0.88 т=0.90 т=0.92 т=0.94 т=0.96 т=0.98

звук 3 3 3 3 Н 3 3 3

А 25 26 29 30 29 30 33 34 37 38 45 46 53 54

И 9 10 9 10 13 14 13 14 13 14 21 22 33 34

Ч 25 26 30 30 33 34 33 34 37 38 41 42 48 50

Ш 38 38 41 42 46 46 50 50 54 54 65 66 77 78

Экспериментально было установлено, что количество собственных чисел, определяемых соотношением (28), позволяет найти количество собственных чисел, значение которых больше чем 0.03, с точностью до 1-2 значений.

В соответствии с этим, соотношение (22) для вычисления многополосной информационной компоненты примет вид

У = 1$<*1чТ (29)

1=1

и, следовательно, многополосный код состоит из скалярных произведений вида (23).

На основе соотношения (24) были вычислены оценки погрешностей замены исходного отрезка многополосной информационной компонентой, которые приведены в Таблице 5.

Таблица 5 - Величина квадрата погрешности вида (24). N = 127, Л =31

звук т=0.86 т=0.88 т=0.90 т=0.92 т=0.94 т=0.96 т=0.98

А 0,122 0,079 0,079 0,058 0,048 0,026 0,015

И 0,098 0,098 0,048 0,048 0,048 0,029 0,015

Ч 0,133 0,094 0,068 0,068 0,049 0,034 0,015

Ш 0,115 0,091 0,078 0,061 0,050 0,029 0,016

Можно заметить, что величина квадрата погрешности замены исходного отрезка многополосной информационной компонентой из J-l значений сопоставима с погрешностью, приведенной в таблице 1.

Таким образом, в соответствии с таблицей 2, на основе соотношения (29) можно сократить количество речевых данных в 4-6 раз.

Раздел 2.3. Квантование по уровню субполосных кодов при сжатии объемов битовых представлений. Для повышения эффективности сжатия речевых данных, целесообразно использовать процедуру квантования по уровню результатов многополосного кодирования.

Квантование по уровню имеет вид

а* = с/д-, если at е Dk

где dk - уровни квантования; Dk - интервалы квантования.

В разделе приводятся результаты исследования трех видов квантования по уровню: равномерное квантование

dk+l = dk =«min +а/2, (30)

Aa = («max-amin)/M. (31)

где dk - уровни квантования; М - заранее определяемое количество уровней.

Квантование на основе минимизации квадратической нормы погрешности, когда уровни и интервалы квантования выбираются из условия минимизации евклидовой нормы погрешности представления исходных данных квантованными:

м

РМЕ = X =mmy3 = {dh...,dM)T (32)

k=\islk

и минимизации абсолютной погрешности (манхэттенская метрика)

2М

к=Ие1к

где Iк - множество индексов квантуемой величины, когда выполняется условие

а^йк,к = \,М (34)

где Вк _ некоторая область возможных значений исходной величины (интервалы квантования);

В случае использования принципа (32) уровни квантования вычисляются следующим образом:

<1к = Х>,-/т1/*, (35)

к

(36)

где г,- - упорядоченная по возрастанию последовательность исходных кодов, т.е.

2,-е {а^}Д = 1,..,Уг:,г,-<2/+1,1 = 1)...,УЕ-1. (37)

Условию (33) удовлетворяют уровни квантования

(38)

где гй - срединное значение индекса подпоследовательности е ок, / е 1к.

Для восстановления многополосных информационных компонент используется представление

(39)

1=1

где а1 - квантованные значения многополосных кодов.

С помощью вычислительных экспериментов были оценены относительные погрешности восстановления у при различных количествах уровней квантования. Погрешности вычислялись следующим образом: для квантования на основе (32)

-и 2

^ме=му-я'\у\21 (40)

для квантования на основе (33)

(n n

(41)

емм=\Ъ\У1 -У, КЕЫ и=1 1=1 .

где черта сверху означает усреднение.

Для равномерного квантования погрешность оценивалась как по выражению (40), так и по (41). Погрешности усреднялись более чем по 120 экспериментам для одного и тот же звука. Результаты этих усреднений для некоторых звуков русской речи приведены в Таблице 6 (£равнЕ,£равнМ

погрешности восстановления у при равномерном квантовании нормированные к средней и абсолютным величинам соответственно).

Таблица 6 - Погрешность восстановления у, N = 121, К = 31, Л/ = 2,4, т = 0.92

М = 2 М = 4

звук емм ^ равнМ еМЕ ^равнЕ £ММ ^ равнМ еМЕ ^ равнЕ

А 0,09 0,09 0,22 0,23 0,06 0,06 0,16 0,16

И 0,04 0,05 0,16 0,18 0,03 0,03 0,12 0,13

Ч 0,29 0,33 0,42 0,50 0,21 0,19 0,26 0,29

Ш 0,21 0,24 0,36 0,42 0,15 0,14 0,23 0,25

Проведенные вычислительные эксперименты показали целесообразность использования квантования вида (32).

Было проведено исследование по оценке минимального размера квантуемой последовательности (параметр Ja), когда целесообразно вместо равномерного квантования использовать квантование, оптимальное в смысле соотношения (32) (Таблица 7).

Таблица 7 - Минимальные размеры квантуемых последовательностей, при которых целесообразно использовать оптимальное квантование вида (32)

М М = 2 м М = 8 М = 16

■'а 8 25 55 115

Раздел 2.4 Алгоритмы многополосного

кодирования/декодирования отрезков речевых сигналов. В разделе приведено словесное описание и блок-схемы алгоритмов кодирования и декодирования речевых сообщений. Указано, какие параметры необходимо задать для начала работы алгоритма (К,т ,Л£2,"). Приводятся вычислительные эксперименты по оценке коэффициента сжатия для всех звуков русской речи.

Основные этапы алгоритма кодирования:

1) Считать отрезок речевого сигнала, предназначенный для текущего кодирования х = (хх,...,хн)Т;

2) Определить границы частотных интервалов аг =О-0.5)ЛЦг = 1,...,/?+1;

3) Вычислить субполосные матрицы для частотных интервалов, используя соотношения (3) и (4);

4) Вычислить доли энергии, попадающие в частотные интервалы, используя соотношение (6);

5) Определить множество Д, учитываемых частотных интервалов и зафиксировать вектор признаков многополосных информационных

компонент та.^ка ;

6) Сформировать многочастотную субполосную матрицу, соотношение (13);

7) Вычислить собственные вектора и числа на основе определения (19);

8) Вычислить параметр (28);

9) Вычислить многополосные коды вида (23);

10) Вычислить уровни квантования;

11) Определить двоичные коды уровней квантования для многополосных кодов

12) Записать закодированные данные, т.е. коды уровней квантования и

служебную информацию (параметры кодирования, вектор признаков тюка, значения уровней квантования ^к и сведения о паузах).

13) Перейти к следующему отрезку речевых данных и повторить п.4 -п.13, пока не исчерпаются кодируемые данные.

Декодирование отрезка речевых данных. Предполагается, что при декодировании имеется заранее сформированная матрица собственных векторов первой субполосной матрицы.

1) Считать данные из файла, относящиеся к первому отрезку;

2) По кодам уровней квантования и значениям уровней <4 восстановить субполосные коды;

3) На основании вектора признаков тазка сформировать многочастотную субполосную матрицу вида (13);

4) Вычислить собственные вектора и числа на основе определения (19);

5) Вычислить параметр (28);

6) Вычислить восстанавливаемый отрезок речевого сигнала

к=1

7) Считать данные для следующего отрезка, повторить п.2 - и.7.

8) После окончания обработки всех отрезков, сформировать вектор восстановленных речевых данных;

9) Восстановить паузы на основании сохраненных сведений;

10) Записать восстановленное речевое сообщение в память. Эффективность метода многополосного кодирования оценивалась с

точки зрения коэффициента минимизации битовых представлений при 8 разрядном коде исходных отсчетов:

МАР + NN(R +1 ) + n^Jz(i) i=i

где L - общее количество отсчетов; MAP - объем бит для кодирования пауз; NN - количество обрабатываемых отрезков без пауз; NN(R +1) - количество

бит для хранения всех векторов признаков maska', Ji (0 - количество многополосных кодов для г'-го отрезка; п - разрядность квантователя.

Было проведено более 100 вычислительных экспериментов по апробации разработанных алгоритмов. В качестве примера, в Таблице 8 приведены достигаемые показатели сжатия при обработке 20 различных

речевых сигналов. Длительность речевых сигналов в среднем составляла от 45с. до 90с.

Таблица 8 - Достигаемые коэффициенты сжатия речевых данных, при т = 0.92, М = 2.

Порядковый номер кодируемого речевого сообщения

1 2 3 4 5 6 7 8 9 10

31,90 30,10 31,01 30,61 26,13 27,80 26,80 27,00 29,90 29,90

Порядковый номер кодируемого речевого сообщения

11 12 13 14 15 16 17 18 19 20

27,65 27,43 26,22 28,51 27,42 26,05 30,72 28,60 26,92 26,41

Проведенные вычислительные эксперименты показали, что разработанный метод многополосного кодирования речевых сообщений на основе МСМ позволяет достигать 30 кратного сокращения объема битовых представлений исходных речевых данных. Оценка получаемого при этом качества воспроизведения восстановленных речевых сообщений приведена в 4 главе диссертации.

Глава 3. Разработка и исследование метода и алгоритмов кодирования и декодирования речевых сообщений на основе субполосной дискретизации речевых сигналов.

Раздел 3.1 Выделение огибающих субполосных компонент и их дискретизация. Субполосная компонента отрезка х = (х[,...,ху)Т

уг = Агх (43)

с учетом (18) может быть представлена в виде

(44)

где рг=Ь\д[тхт\ 2Г =(?1Г,...,ё5); Ь = сЛа8(Л[<...,Лг/); - количество учитываемых собственных чисел.

Для компонент собственных векторов справедливо представление

<2*-1 = со5К(/-1)]; чгт = Ч)к 5ш[^(г-1)], к = 1,2,...,У/2, / = \,...,Ы,(45)

причем Лг2к_х =Лг2к =Л}к,к = \,2,...,Л2.

Поэтому компоненты вектора (44) могут быть представлены в виде

У,г = 4- соек (/ -1)) + «¡П(£УГ () -1)) , (46)

где 2ГЫ = (х,);г^,- = (х,Цг1к). Векторы

5СГ = (2гс1,...УсМуХ$ = Й,...^) (47)

естественно называть огибающими соответствующих косинуса и синуса. Для их выделения используются преобразования вида

2Гс=&<2ХТСГсуг, г I 1Г Г <48>

где вс = <Ла^1,со5(^),...,со5(й>г(ЛГ-1)));С[ =Лая(0,8т(®г),...,5т(й>г (ТУ -1))) ;

Показана возможность осуществить дискретизацию огибающих с шагом

Ыд=л1т = И12, (49)

т.е. оставляя только две компоненты, например, первую и N12 + 1, которые и являются кодами сжимаемых отрезков речевых сигналов. Для интерполяции используются соотношения

^е'е'Ч.

~ N <50)

¿^уб'е17*;.

где компоненты векторов й£ и состоят из оставленных значений исходных кодов огибающих на соответствующих местах, и нулей для остальных индексов; коэффициент N12 позволяет компенсировать потерю энергии при дискретизации.

Восстановление субполосной компоненты осуществляется согласно соотношения

>у =Сгс7/с+С/^. (51)

В свою очередь для восстановления всего отрезка используется представление

х=Ъг- (52)

г=О

Ясно, что погрешности восстановления огибающих определяются погрешностями интерполяции собственных векторов матрицы А- Поэтому

оценка погрешностей осуществлена на основе линейных комбинаций вида

- >

(53)

(=1

т.е. когда собственные вектора вносят одинаковый вклад.

Были проведены вычислительные эксперименты по определению комбинации отсчетов собственных векторов д!4,/ = 1,./...,/2,* = 1,ЛГ,

оставление которых приведет к минимуму квадратической погрешности результата интерполяции.

-1т||2/(У/2) . (55)

1,2,..., N12 - индекс первого оставляемого значения.

Результаты показали, что целесообразно в качестве начального сохраняемого индекса использовать примерно к = Ы! 4 (остальные будут определяться как к+ N/2). В Таблице 9 приведены усредненные оценки погрешности интерполяции огибающих синуса и косинуса (для различных частотных интервалов), при использовании такой комбинации отсчетов. Эксперименты проводились для 2000 различных последовательностей.

Таблица 9 - Оценки погрешности интерполяции огибающих N = 121, Я =31, N¿=63. ___

г 1 2 3 4 5 6 7 8 9 10

0 0,052 0,027 0,021 0,018 0,017 0,015 0,015 0,015 0,015

£т(Гс) 0,082 0,065 0,033 0,024 0,021 0,020 0,019 0,018 0,018 0,018

Раздел 3.2 Квантование по уровню результатов субполосной дискретизации. В разделе приводятся вычислительные эксперименты по оценке погрешности восстановления отрезка речевых данных по квантованным отсчетам огибающих (50). Погрешности вычислялись аналогично выражениям (40) и (41). Результаты оценки погрешности для некоторых звуков русской речи приведены в Таблице 10.

Таблица 10 - Погрешности квантования, N = 1271 Я =31ЛГЙ=63_ т = 0.92

М = 2 М = 4

звук емм ^ равнМ еме ^равнЕ £мм ^равнМ £ме ^ равнЕ

А 0,09 0,10 0,23 0,25 0,06 0,07 0,16 0,16

И 0,04 0,04 0,14 0,16 0,03 0,03 0,12 0,12

Ч 0,29 0,32 0,43 0,49 0,20 0,19 0,26 0,28

Ш 0,21 0,24 0,36 0,42 0,15 0,14 0,23 0,25

Проведенные вычислительные эксперименты показали, что квантование вида (32) имеет меньшую погрешность восстановления, чем другие методы квантования.

Раздел 3.3 Алгоритмы субполосного кодирования/декодирования речевых сообщений на основе субполосной дискретизации речевых сигналов. В разделе приведено словесное описание и блок-схема алгоритма кодирования и декодирования речевых сообщений. Указано, какие параметры необходимо задать для начала работы алгоритма (Л т ,Д£2," = N12). Приводятся вычислительные эксперименты по оценке коэффициента сжатия для всех звуков русской речи.

Основные этапы алгоритма кодирования:

1) Считать отрезок речевого сигнала, предназначенный для текущей обработки х = (х|,...,л:Лг)г;

2)0пределить границы частотных интервалов £2Г = (г-0.5)ДО,г=1,...,Д + 1;

3) Вычислить субполосные матрицы для частотных интервалов, используя соотношения (3) и (4);

4) Вычислить доли энергии, попадающие в частотные интервалы, используя соотношение (6);

5) Определить множество я, учитываемых частотных интервалов и зафиксировать вектор признаков многополосных информационных компонент т^ка \

6) Вычислить субполосные компоненты, используя соотношение (46);

7) Вычислить огибающие косинуса и синуса для этих компонент, используя (48);

8) Продискретизировать огибающие с шагом N¿=N12;

9) Вычислить уровни квантования;

10) Определить двоичные коды уровней квантования для оставшихся отсчетов;

11) Записать закодированные данные, т.е. коды уровней квантования и

служебную информацию (параметры кодирования, вектор признаков тюка, значения уровней квантования <4 и сведения о паузах).

12) Перейти к следующему отрезку речевых данных и повторить п.4 -п. 12, пока не исчерпаются кодируемые данные.

Декодирование отрезка речевых данных. Предполагается, что при декодировании имеется заранее сформированная матрица собственных векторов первой субполосной матрицы.

1) Считать данные из файла, относящиеся к первому отрезку;

2) По кодам уровней квантования и значениям уровней ¿к восстановить данные;

3) Осуществить интерполяцию огибающих согласно выражению (50);

4) Восстановить субполосную компоненту, используя выражение (51);

5) Восстановить отрезок речевых данных, используя выражение (52);

6) Считать данные для следующего отрезка, повторить п.2 - п.6.

7) После окончания обработки всех отрезков, сформировать вектор восстановленных речевых данных;

8) Восстановить паузы на основании сохраненных сведений;

9) Записать восстановленное речевое сообщение в память.

Эффективность метода оценивалась с точки зрения коэффициента

минимизации битовых представлений:

МАР + NN(11 +1) + п £ 2К, ¿=1

где Ь - общее количество отсчетов; МАР - сведения о паузах; NN -количество обрабатываемых отрезков без пауз; NN(11 +1) - количество бит для

хранения всех векторов признаков тшка', 2Кт

огибающих косинуса и синуса после дискретизации; [] - целая часть от содержимого; п - разрядность квантователя.

Было проведено более 100 вычислительных экспериментов по апробации разработанных алгоритмов. В качестве примера, в Таблице 11 приведены достигаемые показатели сжатия при обработке 20 различных речевых сигналов. Длительность речевых сигналов в среднем составляла от 45с. до 90с.

Таблица 11 - Достигаемые коэффициенты сжатия речевых данных, при т = 0.92, М = 2,

N¿=N/2

N

— - количество отсчетов

№

Порядковый номер кодируемого речевого сообщения

1 2 3 4 5 6 7 8 9 10

М = 2 41,47 39,13 40,31 39,79 33,97 36,14 34,84 35,10 38,87 38,87

Порядковый номер кодируемого речевого сообщения

11 12 13 14 15 16 17 18 19 20

М = 2 35,95 35,66 34,09 37,06 35,65 33,87 39,94 37,18 35,00 34,33

Проведенные вычислительные эксперименты показали, что разработанный метод кодирования на основе субполосной дискретизации речевых сигналов позволяет достигать 35 кратное сокращение объема битовых представлений исходных речевых данных. Оценка получаемого при этом качества воспроизведения восстановленных речевых сообщений приведена

в 4 главе диссертации.

Глава 4. Разработка программных реализаций алгоритмов кодирования речевых сигналов.

Раздел 4.1 Разработка рекомендаций по использованию разработанных методов кодирования речевых данных. В разделе проведены вычислительные эксперименты по оценке качества восстановленных речевых сообщений. Оцениванию подвергались восстановленные сообщения, которые были закодированы при различных параметрах кодирования. Для оценивания качества использовалась специальная форма, в которую экспертная группа вносила оценки (от 1 до 5) для таких показателей как: уровень разборчивости, комфортность прослушивания, узнаваемость диктора. Также они могли отметить наличие каких-либо искажений в сигнале (зашумление, треск и т.д.). По результатам усреднения выставлялась итоговая оценка.

По результатам оценивания были сформированы три рекомендуемых типа параметров кодирования (Таблица 12 МК — метод многополосного кодирования, СД - метод на основе субполосной дискретизации).

Параметры кодирования Коэффициент сжатия Оценка качества

МК СД МК СД МК СД

«Максимальное сжатие» т=0.92, М= 2 т=0.92, М= 2, N„=N/2 26-31 30-40 3,5-3,9 3,2-3,5

«Среднее сжатие» т=0.94, М=4 т= 0.94, М=4, Nd=N/2 16-24 14-25 3,9-4,2 3,9-4,3

«Низкое сжатие» т=0.96, М= 8 т= 0.96, М= 8, Nà=NA3 11-14 10-12 4,3-4,6 4,3-4,6

Отсюда следует, что для достижения лучшего качества воспроизведения речевых сообщений целесообразно использовать метод МК, тогда как метод СД позволяет достичь больших степеней сжатия.

Были проведены вычислительные эксперименты по сравнению разработанных алгоритмов кодирования с известными современными аналогами (Таблицы 13-14).

Таблица 13 - Сравнение с современными аналогами.

МК СД МРЗ GSM6.10 DSP Group TrueSpeech AAC

Коэффициент сжатия 12,82 10,91 5,84 7,24 8,13 9.87

Оценка качества 4,3 4,4 4,7 4,6 4,3 4.3

Таблица 14 - Сравнение с современными аналогами.

МК СД Sound Squeezer Speex

Коэффициент сжатия 29.81 35,62 26,56 22.47

Оценка качества 3,58 3,41 3,6 3.7

В качестве вывода к разделу можно указать, что разработанные методы и алгоритмы кодирования превосходят современные аналоги по степени сжатия, при этом достигается сопоставимый уровень качества воспроизведения.

Раздел 4.2 Программно-алгоритмическая поддержка разработанных алгоритмов кодирования речевых данных. Приводится описание прототипа программной реализации разработанных алгоритмов кодирования и декодирования речевых сигналов.

Раздел 4.3 Разработка структуры пакета для хранения и передачи закодированных речевых данных. Содержание раздела посвящено разработке структуры пакета речевых данных, закодированных на основе созданных процедур кодирования. Для каждого типа данных отмечено количество бит, необходимое для хранения. В качестве примера, на рисунке 1 приведена структура пакета закодированных речевых данных для метода многополосного кодирования.

Служебная информация

Данные

Информация о паузах Параметры кодирования Вектор признаков Значения уровней квантования Закодированные речевые данные

Размер карты Начало паузы Количество отрезков паузы 4 вида возможных настроек /7т*а <** Коды уровней квантования

8, бит 8, бит 8, бит 2. бита Я, бит 2"*8 .бит пЧ2, бит

Рисунок 1 - структура пакета речевых данных для метода многополосного кодирования.

В заключении сформулированы основные результаты и выводы диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Разработаны методы и алгоритмы кодирования речевых сообщений на основе субполосного анализа и синтеза речевых сигналов, позволяющие минимизировать объемы битовых представлений речевых данных при условии сохранения заданного уровня информативности восстанавливаемых речевых сообщений, включая:

1.1. Метод и алгоритм выделения многополосных информационных компонент речевых сигналов, на основе определения частотных интервалов минимальной суммарной ширины, содержащих заданную долю энергии анализируемого отрезка.

1.2. Метод и алгоритм многополосного кодирования и декодирования речевых сообщений на основе оптимальной аппроксимации трансформант Фурье в адаптивно определяемых частотных интервалах, позволяющий сократить объем битовых представлений исходных речевых данных до 30 раз, при сохранении разборчивости воспроизводимой речи и ее тембральных характеристик.

1.3. Метод и алгоритм кодирования и декодирования речевых сообщений на основе субполосной дискретизации огибающих информационных субполосных компонент речевых сигналов, позволяющий сократить объем битовых представлений исходных речевых данных до 35 раз, при сохранении разборчивости воспроизводимой речи.

2. Разработана структура пакета речевых данных, закодированных на основе созданных процедур кодирования. Она содержит закодированные речевые данные, а также служебную информацию, которая необходима для успешного декодирования речевых сообщений. Для всех содержащихся в пакете сведений указано необходимое количество бит, которым они кодируются.

3. Создан прототип программной поддержки разработанных методов и алгоритмов и сформулированы рекомендации по его использованию. В рекомендациях содержатся сведения для пользователя, которые характеризуют параметры кодирования и пояснения, какой результат может быть получен при выборе тех или иных параметров.

4. Результаты проведенных вычислительных экспериментов, подтверждают обоснованность и достоверность выводов, а также эффективность разработанных методов субполосного кодирования речевой информации.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи в журналах из списка ВАК

1. Болдышев A.B. Оптимальное двоичное кодирование уровней речевых данных / Жиляков Е.Г., Белов С.П., Прохоренко Е.И., Болдышев A.B., Фирсова A.A. // «Вопросы радиоэлектроники», серия ЭВТ. Выпуск №1, Москва, 2013. С. 110-115.

2. Болдышев A.B., Алгоритм сжатия речевых данных на основе двумерной обработки данных. / Е.Г. Жиляков, Е.И. Прохоренко, A.B. Болдышев // Журнал «Вопросы Радиоэлектроники», серия ЭВТ. Выпуск №1, Москва, 2012. С. 27-33.

3. Болдышев. A.B. Сжатие речевых данных на основе прореживания результатов оптимальной линейной частотной фильтрации. /Е.Г. Жиляков, A.B. Болдышев, H.A. Чеканов // Научные Ведомости БелГУ серия История. Политология. Экономика. Информатика. Белгород, №7 (126) 2012, Выпуск 22/1 С. 162-i67

4. Болдышев A.B. Метод сжатия речевых данных на основе составной субполосной матрицы / Е.И. Прохоренко, A.B. Болдышев, A.B. Эсауленко // Журнал «Вопросы Радиоэлектроники», серия ЭВТ Выпуск №1, Москва 2011. С. 60-72.

5. Болдышев A.B. Метод сжатия речевых данных на основе оптимального субполосного преобразования по составным частотным интервалам / A.B. Болдышев // Научные Ведомости БелГУ серия История. Политология. Экономика. Информатика. Белгород, 2011. № 1 (96). Выпуск 17/1 С. 217-222.

6. Болдышев A.B. Сегментация речевых сигналов на основе анализа распределения энергии по частотным интервалам / Е. Г. Жиляков, Е. И. Прохоренко, А. В. Болдышев, А. А. Фирсова, М. В. Фатова // Научные Ведомости БелГУ серия История. Политология. Экономика. Информатика. Белгород, №7 (102) 2011, Выпуск 18/1 С. 187-196

7. Болдышев A.B. Об избирательном воздействии на частотные компоненты речевых сигналов в задаче сжатия / A.B. Болдышев // Научные Ведомости БелГУ серия История. Политология. Экономика. Информатика. Белгород, 2010. № 13 (84). Выпуск 15/1

8. Болдышев A.B. Метод оптимального субполосного преобразования в задаче сжатия речевых данных / Е.И. Прохоренко, A.B. Болдышев, A.A. Фирсова, A.B. Эсауленко // Журнал «Вопросы Радиоэлектроники», серия ЭВТ. Выпуск №1 Москва 2010. С. 49-55.

Публикации в научных журналах и сборниках трудов научных конференций

9. Болдышев A.B. Сжатие речевых данных на основе прореживания результатов оптимальной линейной частотной фильтрации / Е. Г. Жиляков, А. В. Болдышев // Информационные технологии в науке, образовании и производстве: сб. трудов V междунар. науч-практ конф. - г. Орел, 2012 г.

10. Болдышев A.B. Сжатие речевых данных на основе прореживания результатов оптимальной линейной частотной фильтрации /Е.Г. Жиляков, A.B. Болдышев // Прикладная математика, управление и информатика: сб. трудов междунар. молодеж. конф. - Белгород 2012г. с. 364-368

11. Болдышев A.B. Избирательное воздействие на частотные компоненты речевых сигналов в задаче сжатия /A.B. Болдышев, Е.И. Прохоренко, Е.Ю. Гарькавая // Цифровая обработка сигналов и её применение - DSPA: сб. трудов. 13 междунар. конф. - Москва, 2011 г. С. 171-175.

12. Болдышев A.B. Об избирательном преобразовании частотных компонент речевых сигналов в задаче сжатия / Е.Г. Жиляков, A.B. Болдышев, A.A. Фирсова, A.B. Курлов A.B. Эсауленко // MicroCAD-2011: сб. трудов, междунар. конф. - Харьков, Украина 2011г. С. 37-44.

13. Болдышев A.B. Эффективное использование ресурсов информационно-телекоммуникационных систем на основе нового метода сжатия речевых данных / Е.Г. Жиляков, A.B. Болдышев, A.A. Фирсова // Медико-экологические информационные технологии: сб. трудов. 14 междунар. науч.-техн. конф. - Курск 2011 г. С. 63-71.

14. Болдышев A.B. Сжатие речевых данных на основе прореживания результатов линейной оптимальной фильтрации / A.B. Болдышев, Е.И. Прохоренко // Компьютерные науки и технологии: сб. труд. 2 междунар. науч.-техн. конф. - Белгород: ООО «ГиК», 2011. С. 548-553.

15. Болдышев A.B. Об использовании особенностей распределения энергии звуков русской речи / Е.Г. Жиляков, A.B. Болдышев, A.A. Фирсова // Инновационные подходы к применению информационных технологий в профессиональной деятельности: сб. науч. труд. 2-й междунар. науч.-практ. Интернет конф. - Белгород, 2010. С. 323-327

16. Болдышев A.B. Модели распределения энергии звуков русской речи на основе частотных представлений / Е.Г. Жиляков, A.B. Болдышев, A.A. Фирсова // Математические методы в технике и технологиях (ММТТ-23): сб. трудов XXIII междунар. науч. конф. - Саратов, 2010. С. 236-239

Программы для ЭВМ

17. Свидетельство о государственной регистрации программы для ЭВМ № 2010616593 «Программная система сжатия/восстановления речевых сообщений на основе нового метода субполосного преобразования и

квантования по уровню», Жиляков Е.Г., Прохоренко Е.И., Болдышев A.B., Фирсова A.A., Эсауленко A.B. от 5 августа 2010г.

18. Свидетельство о государственной регистрации программы для ЭВМ № 2011616998 «Программная система фильтрации речевых сигналов на основе составных субполосных матриц», Жиляков Е.Г., Прохоренко Е.И., Болдышев A.B., Фирсова A.A., Курлов A.B. от 08.09.2011

19. Свидетельство о государственной регистрации программы для ЭВМ № 2011617002 «Сжатие/восстановление речевых данных на основе составного субполосного анализа/синтеза», Жиляков Е.Г., Прохоренко Е.И., Болдышев A.B., Фирсова A.A., Фатова М.В. от 08.09.2011

20. Свидетельство о государственной регистрации программы для ЭВМ № 2011617801 Программная система сжатия речевых данных за счет обнаружения и кодирования пауз», Жиляков Е.Г., Прохоренко Е.И., Болдышев A.B. от 17.08.2011

Подписано в печать 22.02.2013. Гарнитура Times New Roman Формат 60><84/16.Усл. п. л. 1,0. Тираж 100 экз. Заказ 71. Оригинал-макет подготовлен и тиражирован в ИД «Белгород» НИУ «БелГУ» 308015, г. Белгород, ул. Победы, д.85

Текст работы Болдышев, Алексей Владимирович, диссертация по теме Теоретические основы информатики

г

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«БЕЛГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ» (НИУ «БелГУ»)

На правах рукописи

Болдышев Алексей Владимирович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ И АЛГОРИТМОВ СУБПОЛОСНОГО КОДИРОВАНИЯ РЕЧЕВЫХ СООБЩЕНИЙ ПРИ ХРАНЕНИИ И ПЕРЕДАЧЕ РЕЧЕВЫХ ДАННЫХ

по специальности 05.13.17 - Теоретические основы информатики

О

о

Диссертация на соискание учёной степени Ц} $2 кандидата технических наук

со 8

Ю

О Я СМ £ тГ ^

О Научный руководитель

д.техн.н., профессор, Е.Г. Жиляков

Белгород-2013

СОДЕРЖАНИЕ

ВВЕДЕНИЕ......................................................................................................................................4

ГЛАВА 1. ИНФОРМАЦИОННЫЕ ПРОЦЕССЫ НА ОСНОВЕ РЕЧЕВЫХ СООБЩЕНИЙ, ТЕНДЕНЦИИ, ПРОБЛЕМЫ И МЕТОДЫ РЕАЛИЗАЦИИ............................................................10

1.1 Современные области и направления использования ИТС для реализации информационного обмена на основе речевых сообщений......................................................10

1.2 Особенности восприятия речи человеком...........................................................19

1.3 Методы кодирования речевых данных при хранении и передаче....................28

1.4 Субполосный анализ и синтез речевых сигналов с обнаружением и кодированием пауз......................................................................................................................39

1.5 Задачи исследования..............................................................................................49

ГЛАВА 2. РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДА И АЛГОРИТМОВ МНОГОПОЛОСНОГО КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ РЕЧЕВЫХ СООБЩЕНИЙ......50

2.1. Теоретические основы многополосного кодирования речевых сигналов.......50

2.2. Исследование свойств собственных векторов многочастотных субполосных матриц. ......................................................................................................................57

2.3. Квантование по уровню результатов субполосного кодирования при сжатии объемов битовых представлений...............................................................................................68

2.4. Алгоритмы субполосного кодирования/декодирования речевых сообщений с использованием собственных векторов многочастотной субполосной матрицы................75

2.5. Основные результаты и выводы главы................................................................87

ГЛАВА 3. РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ И АЛГОРИТМОВ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ РЕЧЕВЫХ СООБЩЕНИЙ НА ОСНОВЕ СУБПОЛОСНОЙ ДИСКРЕТИЗАЦИИ РЕЧЕВЫХ СИГНАЛОВ................................................................................89

3.1. Выделение огибающих субполосных компонент и их дискретизация.............89

3.2. Квантование по уровню результатов субполосной дискретизации................101

3.3. Алгоритмы субполосного кодирования/декодирования речевых сообщений на основе прореживания результатов оптимальной линейной частотной фильтрации..........104

3.4. Основные результаты и выводы главы..............................................................114

ГЛАВА 4. РАЗРАБОТКА ПРОГРАММНЫХ РЕАЛИЗАЦИЙ АЛГОРИТМОВ КОДИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ...............................................................................................................115

4.1. Разработка рекомендаций по использованию разработанных методов кодирования речевых данных..................................................................................................115

4.2. Программно-алгоритмическая поддержка разработанных алгоритмов кодирования речевых данных..................................................................................................124

4.3. Разработка структуры пакета для хранения и передачи закодированных

речевых данных.....................................................................................................................130

4.4. Основные результаты и выводы главы..............................................................134

ЗАКЛЮЧЕНИЕ............................................................................................................................135

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ.......................................................................137

ПРИЛОЖЕНИЕ А........................................................................................................................152

ПРИЛОЖЕНИЕ Б........................................................................................................................153

ПРИЛОЖЕНИЕ В........................................................................................................................154

ПРИЛОЖЕНИЕ Г........................................................................................................................155

ПРИЛОЖЕНИЕ Д........................................................................................................................156

ПРИЛОЖЕНИЕ Е........................................................................................................................158

ВВЕДЕНИЕ

Актуальность диссертационного исследования. Информационный обмен является важной и неотъемлемой частью человеческой деятельности (социальной, экономической), о чем свидетельствует постоянное развитие информационно-телекоммуникационных технологий обработки, хранения и передачи данных. В настоящее время происходит повышение интенсивности информационного обмена на основе речевых сообщений. Это обусловлено тем, что речевые сообщения являются наиболее естественной и удобной формой информационного обмена.

В информационно-телекоммуникационных системах (ИТС) передача и хранение речевых сообщений осуществляется в виде специальных кодовых комбинаций, совокупность которых естественно называть речевыми данными.

Одной из основных проблем реализации информационного обмена является ограниченность ресурсов ИТС (пропускная способность канала связи для передачи данных, объемы памяти информационных хранилищ). Поэтому, не вызывает сомнения, необходимость выбора такого способа кодирования, который обеспечивает минимум объемов битовых представлений хранимых и передаваемых речевых данных при сохранении приемлемого, с точки зрения пользователя, качества воспроизведения исходных речевых сообщений.

Решением проблемы минимизации объемов битовых представлений речевых данных занималось большое количество ученых, среди которых следует отметить: Б. Голда, Е.Г. Жилякова, Э. Оппенгейма, A.A. Пирогова, JI. Р. Рабинера, В.Г. Санникова, М.А. Сапожкова, Р.В. Шафера, О.И. Шелухина и других российских и зарубежных ученых.

На сегодняшний день известно большое количество методов кодирования речевых сообщений, которые используются в системах IP-телефонии, а также при передаче речи по сетям сотовой связи (G.729,

G.723.1, G.728, AMR, FR, и т.д.). Разработчики этих кодеков достигли определенного предела в показателях эффективности кодирования (сжатие до 10 раз) при сохранении приемлемого для пользователя качества воспроизведения.

Дальнейший прогресс повышения эффективности кодирования может быть достигнут на основе оптимального учета свойства сосредоточенности энергии речевых сигналов в полосе частот, составляющих малую долю от частоты дискретизации. Методы кодирования речевых сообщений с позиции разбиения общей полосы частот на отдельные частотные интервалы представляется естественным называть субполосными.

Из известных методов субполосного кодирования можно отметить форматы МРЗ, OGG и т.д., в основе которых используется дискретное преобразование Фурье (ДПФ), в том числе дискретное косинус преобразование Фурье (ДКПФ). Однако, они приспособлены в основном для обработки музыкальных данных, что не позволяет учитывать наличие в речевых сообщениях пауз, кроме того, они не отвечают никаким критериям оптимальности, например, минимизации ширины адаптивно определяемой полосы частот, в которой сосредоточена основная доля энергии речевого сигнала, погрешности аппроксимации в ней трансформанты Фурье исходного сигнала и погрешности квантования по уровню коэффициентов этой аппроксимации.

Поэтому разработка оптимальных субполосных методов кодирования речевой информации, позволяющих минимизировать объемы битовых представлений речевых данных при условии сохранения заданного уровня информативности восстанавливаемых речевых сообщений, является актуальной задачей.

Целью работы является совершенствование методов и алгоритмов субполосного кодирования речевой информации с точки зрения минимизации объемов битовых представлений речевых данных при условии

сохранения заданного уровня информативности восстанавливаемых речевых сообщений.

Для достижения цели были сформулированы и решены следующие задачи:

1. Анализ основных направлений развития методов кодирования речевых данных при хранении и передаче речевых сообщений.

2. Разработка и исследование метода и алгоритмов многополосного кодирования и декодирования речевых сообщений, минимизирующих объемы битовых представлений речевых данных.

3. Разработка и исследование метода и алгоритмов кодирования и декодирования речевых сообщений с минимизацией объемов битовых представлений речевых данных на основе субполосной дискретизации речевых сигналов.

4. Разработка программных реализаций алгоритмов субполосного кодирования и восстановления речевых сообщений.

Методы исследований базируются на теории Фурье-анализа и синтеза сигналов, линейной алгебры, теории вероятностей и математической статистики, теории принятия статистических решений, вычислительных экспериментах.

Научную новизну работы составляет следующее:

1. Метод и алгоритм адаптивного выделения многополосных информационных компонент речевых сигналов, с минимальной суммарной шириной, которые позволяют уменьшить частотную избыточность речевых сигналов с точки зрения кодирования данных.

2. Метод и алгоритм многополосного кодирования и декодирования речевых сообщений на основе оптимальной аппроксимации трансформант Фурье в адаптивно определяемой совокупности частотных интервалов, что соответствует требованию наилучшего воспроизведения речевых сообщений.

3. Метод и алгоритм кодирования и декодирования речевых сообщений на основе субполосной дискретизации огибающих

6

информационных субполосных компонент речевых сигналов, позволяющий сократить объемы сохраняемых данных на основе уменьшения структурной избыточности.

Практическая значимость работы определяется алгоритмами субполосного кодирования речевой информации, которые позволяют минимизировать объемы битовых представлений речевых данных.

Полученные результаты используются в ООО «НПП «Сигнал» БелГУ», что подтверждается соответствующим актом, а также в учебном процессе подготовки бакалавров и магистров факультета КНиТ ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет».

Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» (технические науки) по следующим областям исследований:

п.З. Исследование методов и разработка средств кодирования информации в виде данных. Принципы создания языков описания данных, языков манипулирования данными, языков запросов. Разработка и исследование моделей данных и новых принципов их проектирования.

п.5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.

Связь с научными и инновационными программами.

Диссертационное исследование проводилось в рамках следующих программ фундаментальных, поисковых и инновационных исследований: ГК №14.740.11.0494 от 1 октября 20 Юг, ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы. Программа «У.М.Н.И.К.» Фонда содействия развитию малых форм предприятий в научно-технической сфере. Проект №10256. Программа «У.М.Н.И.К.» Фонда содействия развитию малых форм предприятий в

7

научно-технической сфере. Проект №14228. АВЦП «Развитие научного потенциала высшей школы (2009-2011 годы)» Проект № 2.1.2/9382.

Положения, выносимые на защиту:

1. Методы и алгоритмы субполосного кодирования и декодирования речевых сообщений, позволяющие минимизировать объемы битовых представлений речевых данных.

2. Структура пакета речевых данных, закодированных на основе разработанных процедур.

3. Рекомендации по использованию разработанных алгоритмов кодирования и декодирования речевых сообщений.

4. Результаты вычислительных экспериментов, иллюстрирующие обоснованность и достоверность выводов.

Достоверность полученных результатов и выводов обусловлена корректностью математических преобразований, отсутствием противоречий с известными теоретическими положениями и выводами, а также подтверждается результатами большого количества вычислительных экспериментов по обработке реальных речевых данных.

Личный вклад соискателя. Все изложенные в диссертационной работе результаты исследований получены либо соискателем лично, либо при его непосредственном участии.

Апробация работы. Результаты диссертационного исследования обсуждались на следующих научно-технических конференциях: Международная молодежная конференция «Прикладная математика, управление и информатика» (г. Белгород, 2012г); V Международная научно-техническая конференция «Информационные технологии в науке, образовании и производстве» (г. Орел, 2012г); 14-ая, 13-ая, 12-ая Международная конференция и выставка «Цифровая обработка сигналов и ее применение - DSPA» (г. Москва, 2012, 2011, 2010 гг.); 2-ая Международная научно-техническая конференция «Компьютерные науки и технологии» (г. Белгород, 2011г.); 14-ая Международная научно-техническая конференция

8

«Медико-экологические информационные технологии - 2011» (г. Курск, 2011г.); XXIII - Международной научной конференции «Математические методы в технике и технологиях - ММТТ-23» (г. Саратов, 2010г.); 1-ая Международная научно-техническая конференция «Компьютерные науки и технологии» (г. Белгород, 2009г.).

Публикации. Основные положения диссертационной работы изложены в 20 печатной работе, из них 8 статей в журналах из списка ВАК. Получено 4 свидетельства Роспатента РФ об официальной регистрации программ для ЭВМ.

Объем и структура работы. Диссертация состоит из Введения, четырех глав, Заключения и Приложений. Работа изложена на 158 страницах машинописного текста, включая 30 рисунков, 37 таблиц и список литературных источников из 149 наименований.

ГЛАВА 1. ИНФОРМАЦИОННЫЕ ПРОЦЕССЫ НА ОСНОВЕ РЕЧЕВЫХ СООБЩЕНИЙ, ТЕНДЕНЦИИ, ПРОБЛЕМЫ И МЕТОДЫ РЕАЛИЗАЦИИ.

1.1 Современные области и направления использования ИТС для реализации информационного обмена на основе речевых сообщений.

Информационные процессы являются важной и неотъемлемой частью человеческой деятельности в социально-экономической сфере и государственном управлении. Под информационными процессами следует понимать совокупность таких процессов как накопление (сбор) информации, её хранение, передача, и потребление. Информационные процессы и их характеристики представлены на рисунке 1.1.

Информационные процессы

Рисунок 1.1- Основные характеристики информационных процессов.

Важность информационных процессов в деятельности человека подтверждается постоянным развитием информационно-

телекоммуникационных технологий, на основе которых создаются эффективные информационно-телекоммуникационные системы (ИТС). В рамках данного диссертационного исследования под ИТС понимается комплекс аппаратных и программных средств, предназначенных для сбора, хранения, преобразования, передачи по каналам связи и отображения в нужном для пользователя виде данных, характеризующих некоторые объекты и процессы [8,14, 95,104].

Понятие информационно-телекоммуникационных систем связано с таким периодом развития человечества, как изобретение компьютерной техники, которая позволила существенно упростить реализацию информационных процессов.

Одним из основных понятий связанных с реализацией информационных процессов, является кодирование данных. Все информационные процессы в своей основе используют кодирование данных, причем, как правило, это кодирование является специфическим. В качестве примера можно привести преобразование аналоговой формы сигнала в цифровую при сборе информации, различные алгоритмы кодирования данных при их хранении или передачи, а также алгоритмы восстановления (декодирования) формы передаваемой информации при восприятии. Таким образом, кодирование как преобразование исходных кодовых конструкций в форму наиболее благоприятную для успешной реализации информационного процесса, является основной операцией.

Общественную потребность в реализации информационных процессов можно оценить с помощью статистики, собранной Российским Фондом «Общественное Мнение» [82, 83]. Данный фонд проводит исследования, связанные с проникновением в человеческую деятельность информационно-телекоммуникационных систем и технологий. Ниже приведены некоторые результаты из отчетов ФОМ о проникновении в России глобальной сети Интернет, с помощью которой человек реализует основные информационные процессы.

Анализ результатов исследований, проведенных «Фондом Общественное Мнение (ФОМ)», показал, что в период с 2009-2011гг. аудитория пользователей глобальной сети Интернет в возрасте старше 18 лет возросла с 39,4 млн. до почти 60 млн. человек. Однако, данное исследование ФОМ не включает в себя людей в возрасте моложе 18 лет, которые как правило, являющихся одними