автореферат диссертации по радиотехнике и связи, 05.12.13, диссертация на тему:Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования

кандидата технических наук
Медведев, Олег Николаевич
город
Москва
год
2007
специальность ВАК РФ
05.12.13
цена
450 рублей
Диссертация по радиотехнике и связи на тему «Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования»

Автореферат диссертации по теме "Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования"

На правах рукописи

Медведев Олег Николаевич

РАЗРАБОТКА МЕТОДОВ ЭФФЕКТИВНОГО КОДИРОВАНИЯ РЕЧИ НА ОСНОВЕ НОВЫХ МОДЕЛЕЙ ИСТОЧНИКА РЕЧЕОБРАЗОВАНИЯ

Специальность 05 12 13 - Системы, сети и устройства телекоммуникаций

Автореферат диссертации на соискание ученой степени кандидата технических наук

ииз174В2Э

Москва - 2007

003174629

Работа выполнена на кафедре теории электрической связи Государственного образовательного учреждения высшего профессионального образования «Московский технический университет связи и информатики» (ГОУВПО МТУСИ)

Научный руководитель

кандидат технических наук, профессор Санников Владимир Григорьевич

Официальные оппоненты

доктор физико-математических наук, профессор Нечаев Юрий Борисович,

кандидат технических наук, профессор Котиков Вячеслав Иванович

Ведущая организация Федеральное государственное

унитарное предприятие «Центральный научно-исследовательский институт связи» (ФГУП ЦНИИС)

Защита состоится 08 ноября 2007 года в 15 00 часов на заседании диссертационного совета К 219.001 03 по присуждению ученой степени кандидата технических наук при ГОУВПО «Московский технический университет связи и информатики» по адресу 111024, Москва, ул. Авиамоторная, дом 8а, ауд А-455

С диссертацией можно ознакомиться в библиотеке МТУСИ Автореферат разослан 2007 г

Ученый секретарь диссертационного совета

Косичкина Т П

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность работы

Современный этап развития общества характеризуется увеличением потоков речевых сообщений, передаваемых по телекоммуникационным системам и сетям, имеющим ограниченную пропускную способность Большие трудности возникают также при решении задачи хранения речевых данных, возрастающий поток которых требует все больших объемов памяти запоминающих устройств. С другой стороны, цифровая передача или запись речевых сообщений методом импульсно-кодовой модуляции (ИКМ) со стандартной скоростью 64 кбит/с связаны с избыточным их представлением.

В различных странах мира, в том числе и в России, для решения проблемы перегрузки каналов речевой связи и устройств хранения речевых сообщений интенсивно развивается направление, заключающееся в сжатии объемов речевых данных за счет сокращения содержащейся в них избыточности. Это направление особенно привлекательно с экономической точки зрения, так как не требует создания новых дорогостоящих производственных мощностей, но предназначено для эффективного использования имеющихся ресурсов систем и сетей.

Для технического решения задачи сжатия речевых данных разработано много методов В значительной мере они представлены в трудах НН. Акинфиева, С П Баронина, А И Величкина, М Д Бенедиктова, В И. Галунова, Е Г Жилякова, Ю А Косарева, В И Куля, В Г Михайлова, В.Е Муравьева, М В. Назарова, А А Пирогова, Ю Н Прохорова, В Г Санникова, М А Сапожкова, В А Свириденко, И В Ситняковского, А.Н. Собакина, О И Шелухина, В.П Яковлева, Б.С Атала, Дж Д Гибсона, Б. Голда, А X. Грея, Н С Джайанта, Ф Итакуры, Р В Кокса, П Круна, Ж И. Макхоула, Дж Маркела, Л Р. Рабинера, Ч Рейдера, А С Спаниаса, Г Фанта, Дж. Фланагана, Р.В. Шафера, М.Р Шрёдера и других российских и зарубежных ученых.

Следует отметить, что при сжатии речевых данных остро встает проблема сохранения качества синтеза речевых сообщений по сжатым данным. Из большого многообразия методов эффективного кодирования речевых данных с повышенным качеством синтеза можно выделить методы, относящиеся к классу адаптивных кодеров с линейным предсказанием речи на основе её анализа через синтез (ЛПАС) Основной особенностью этих методов является искусственная, требующая больших вычислительных ресурсов, замена сигнала погрешности предсказания импульсным сигналом возбуждения фильтра-предсказателя Большинство этих методов построено на основе использования упрощенной модели речеоб-разования Фанта. Это приводит к тому, что с уменьшением скорости передачи резко снижается качество воспроизведения (синтеза) речи на стороне получателя

Поскольку сигнал погрешности предсказания более информативен (в нем содержится значительное количество информации о речевом сигнале), чем искусственный сигнал возбуждения, то для повышения эффективности работы ЛПАС кодеков речи встает проблема поиска новых моделей сигнала погрешности предсказания, адекватных голосовому возбуждению системы речеобразования.

Цель и задачи исследования

Разработка методов низкоскоростного кодирования речи, передаваемой по телекоммуникационным каналам с ограниченной пропускной способностью, на основе новых моделей формирования сигнала погрешности предсказания в голосовых кодеках класса ЛПАС

Для достижения поставленной цели на основе анализа состояния вопроса сформулированы и решаются следующие основные задачи

• Разработка и оптимизация параметров модели речеобразования на основе авторегрессии с динамической частотно-импульсной модуляцией

• Разработка метода спектральной оценки частоты основного тона речи на основе полиномов Чебышева

• Разработка и оптимизация методов эффективного кодирования речи с линейным предсказанием и полиномиальным синтезом сигнала погрешности предсказания

• Разработка и оптимизация методов эффективного кодирования речи с линейным предсказанием и синтезом сигнала погрешности предсказания на основе динамической частотно-импульсной модуляции.

Методы исследований

Методы теории оптимальных и адаптивных систем, сжатия данных, цифровой обработки сигналов, идентификации систем, функционального анализа и оптимизации, теории речеобразования и слухового восприятия речи, оценки качества систем передачи речи, статистического моделирования и предсказания речевых сигналов, методы машинного моделирования систем и процессов.

Научная новизна работы

• Усовершенствована модель речеобразования, состоящая из источника голосового возбуждения и голосового тракта, отличающаяся от ранее известной новым методом голосов ого возбуждения на основе динамической частотно-импульсной модуляции

• Разработан новый метод спектральной оценки частоты основного тона речи на основе сегментной интерполяции речевого сигнала ортогональными полиномами Чебышева

• Проведена оптимизация (по критерию максимума отношения сигнал/суммарная погрешность синтеза) метода рекуррентной оценки коэффициентов линейного предсказания для нестационарной речи

• Модернизирован метод расчета линейных спектральных пар по коэффициентам линейного предсказания.

• Разработан новый метод линейного предсказания с учетом сигнала управления в системе автоматического слежения за изменением речевого сигнала, доказана его устойчивость

Практическая значимость работы

Результаты исследований получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения матричных вычислений -МаЛАВ Они могут быть положены в основу разработки конкретных систем передачи речевой информации с ограниченной пропускной способностью или при ее хранении в запоминающих устройствах с ограниченной емкостью

Разработанные в диссертации способы эффективного кодирования речи в классе ЛПАС, обеспечивают в соответствии с ГОСТ Р 51061-97 первый класс качества по разборчивости на скоростях 3,5 - 16 кбит/с. Это в 4 - 16 раз меньше скорости, обеспечиваемой кодеком на основе стандартной ИКМ, ив 2-8 раз меньше скорости, равной 32 кбит/с, обеспечиваемой кодеком адаптивной дифференциальной ИКМ (АДИКМ), рекомендованного (в соответствие с Приказом Министерства РФ по связи и информатизации № 175 от 23.07.2001) в качестве основного в оборудовании службы голосовых сообщений

Изложенные в работе методы и алгоритмы низкоскоростного кодирования были использованы при проведении научно-исследовательских работ МТУСИ с ОАО «ТРАНСТЕЛЕКОМ» и Группой Телекоммуникационных Компаний «ТЕЛЕСЕТИ» («Фирма РИАЛ») и применены, в частности, при разработке и организации доступа абонентов к услугам местной и междугородной телефонной связи посредством интеллектуальной платформы речевого сопровождения.

Основные положения, выносимые на защиту

1. Модель речеобразования с возбуждением голосового тракта на основе динамической частотно-импульсной модуляции.

2 Метод спектральной оценки частоты основного тона речи на основе полиномов Чебышева

3 Методы эффективного низкоскоростного кодирования речи в классе ЛПАС

4 Результаты машинного моделирования, подтверждающие работоспособность разработанных методов

Достоверность полученных результатов

Достоверность полученных результатов обусловлена адекватностью моделей применительно к речевой тематике, корректностью математических выкладок, согласованием результатов теоретического анализа с данными вычислительного эксперимента, которые подтверждают непротиворечивость основных теоретических результатов и выводов, положительными результатами внедрения.

Личный вклад соискателя

Все разделы диссертационной работы выполнены лично автором Изложенные в диссертационной работе результаты исследований методов кодирования речи получены либо автором лично, либо при его непосредственном участии

Апробация работы

Основные результаты работы были представлены на следующих научно-технических конференциях Международные научно-практические конференции «Фундаментальные проблемы радиоэлектронного приборостроения» Intermatic -2004, Intermatic - 2005, Москва, 2004 г, 2005 г. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУСИ, Москва, 2005 г VI Международная научно-техническая конференция «Перспективные технологии в средствах передачи информации», Владимир, 2005 г. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУСИ, Москва, 2006 г. Международная научно-техническая школа-конференция «Молодые ученые - науке, технологиям и профессиональному образованию в электронике, Москва, 2006 г Московская отраслевая научно-техническая конференция «Технологии информационного общества» Москва, 2007 г. XV Межрегиональная научно-техническая конференция «Обработка сигналов в системах наземной радиосвязи и оповещения». Нижний Новгород, 2007 Г

Публикации результатов

Основные положения диссертационной работы изложены в девяти печатных работах Список публикаций приведен в конце автореферата

Объем и структура диссертации

Работа включает- введение, четыре главы, заключение, список использованных источников Она изложена на 150 страницах машинописного текста, включая 49 рисунков и 9 таблиц Список использованных источников включает 103 наименования.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность работы, определены цель и задачи исследований, указываются научная и практическая значимость работы, кратко излагается ее содержание по главам.

В первой главе проводится анализ методов эффективного кодирования речи в телекоммуникационных системах. Рассматриваются свойства речевого сигнала и его слухового восприятия Выявляются причины избыточности в цифровом представлении речи Приводятся объективные и субъективные методы оценки качества телефонной передачи. В Российской Федерации для оценки трактов речевой передачи приняты стандарты ГОСТ Р 50840-95 и ГОСТ Р 51061-97 (для систем низкоскоростной передачи речи), регламентирующие получение комплексной оценки качества передачи речи, основанной на методах измерения показателей разборчивости и качества речи. Проводится обзор методов эффективного кодирования речи и дается их сравнительная оценка по качеству синтеза речи. Выделяется класс кодеков речи, построенных по принципу линейного предсказания с анализом через синтез Этот класс кодеков по сравнению с вокодерами на низких скоростях передачи речи обеспечивает высокое качество ее синтеза. Основной

б

недостаток этих методов - высокая сложность синтеза сигнала погрешности предсказания на основе искусственного подбора импульсных последовательностей. Поэтому встает задача аппроксимации сигнала погрешности предсказания (обладающего значительной избыточностью) более простыми средствами, адекватными новым моделям голосового возбуждения Исследуется низкоскоростной кодек стандарта в 723.1.

На основании проведенного анализа и установленных несовершенств существующих процедур кодирования речи формулируются задачи диссертационного исследования, решение которых позволяет усовершенствовать методы цифрового представления речи в задачах сжатия объемов их битовых представлений в телекоммуникационных системах

Во второй главе анализируются параметрические модели речеобразования, применяемые в современных голосовых кодеках и осуществляется идентификация их параметров В начале главы рассматривается модель речеобразования Фанта, включающая источник голосового возбуждения и голосовой тракт. Приводятся различные подходы к описанию их моделей Если модель голосового тракта достаточно хорошо изучена и адекватно описывается формирующим фильтром

с переменными параметрами {йГ; ,}, / = 1, р, ' = 0,1,2,.. , на основе моделей авторегрессии и скользящего среднего, то модель источника голосового возбуждения до сих пор не имеет адекватного математического описания

В работе предлагается голосовое возбуждение синтезировать на основе системы с динамической частотно-импульсной модуляцией (ДЧИМ) Тогда новая модель речеобразования с ДЧИМ имеет следующий вид (рисунок 1).

Параметрическая Параметры

обратная связь (а1,аг 0р) 1

Рисунок 1 - Модель системы речеобразования с возбуждением на основе ДЧИМ

Структурно ДЧИМ представляет собой последовательное соединение динамического фильтра (ДФ), импульсного устройства (ИУ) с параметрической обратной связью и формозадающего фильтра (ФЗФ). В ДФ осуществляется динамическое преобразование управляющего воздействия Щ в сигнал ИУ генерирует импульс в тот момент времени, когда сигнал достигает некоторого порога и посредством параметрической обратной связи осуществляет обнуление всех накопителей энергии фильтра ДФ В ФЗФ из дельта образных импульсов <?(/-?„)> формируются импульсы голосового источника заданной формы При по-

7

стоянном входном воздействии на выходе ИУ формируется периодическая последовательность импульсов, характеризующая участки вокализованной речи типа V При случайном воздействии формируется случайная последовательность импульсов невокализованной речи типа N Описывается математическая модель системы ДЧИМ Решается задача перехода от параметрической к координатной связи, на основе которой строится система, эквивалентная системе ДЧИМ.

Затем осуществляется идентификации параметров авторегрессионной модели голосового тракта по речевому сигналу на основе последовательного регрессионного метода В результате получен рекуррентный алгоритм оценки вектора коэффициентов линейного предсказания (КЛП) а= а = (а\,аг> • ,аР)Г- На основе полученных оценок путем машинного моделирования рассчитываются КЛП, АЧХ и импульсные реакции голосового тракта, моделью которого на рисунке 1 является синтезирующий фильтр с переменными параметрами.

Далее решается задача идентификации параметров источника голосового возбуждения с ДЧИМ, к которым относятся, огибающая речевого сигнала, сигнал типа пауза (Р), вокализованный участок сигнала (У), невокализованный участок сигнала (Л) Основное внимание здесь уделяется исследованию участков типа V, характеризующихся изменением сигнала с периодом основного тона (ОТ) Проводится сравнительный анализ трех методов оценки ОТ Предпочтение отдается корреляционному методу Однако неудобство использования его в современных кодеках речи состоит в больших корреляциях при малых задержках Замечая тот факт, что корреляционная функция голосового тракта на малых задержках практически совпадает с корреляционной функцией речи, предлагается усовершенствованный метод корреляционной оценки ОТ Он основан на анализе разности функций корреляции речи и голосового тракта и реализуется так

^0Т=1/Дтг, [С/, пг] = шах(Дг,), Аг, = гк,-гт, (1)

грс, = геа/(# | # |2) / гРС 0; = геа1(0 | —^—-—— |2) / гп 0 (2)

1 -а ехр(-у<уД0 4 '

здесь пг - число интервалов дискретизации Д/ на периоде ОТ, - максимум корреляции, гРС,( и ггг,( - нормированные коэффициенты корреляции, геа1(-) - действительная часть выражения в скобках,^ и ф - алгоритмы прямого и обратного быстрого преобразования Фурье (БПФ) На основе этого метода рассчитывается интонационный портрет речи и мелодия основного тона (ОТ) речевого сигнала

Часто требуется знать оценку частоты ОТ, устойчивую к шумам Как показывают литературные источники, такая оценка возможна при использовании спектральных представлений. В работе предлагается и исследуется новый метод, базирующийся на аппроксимации речевого сигнала ортогональными полиномами Чебышева Оценка частоты ОТ осуществляется в соответствии с правилом-

^от>„ = аг8шах|#^с/Р11/(х<)]|, =/-0 5(1 + 1), Г = 0,^-1, (3)

1=0

где = = - ортогональные полиномы Чебышева, с/, /=0,1, ,п, -

коэффициенты ряда

В заключительной части главы дана методика классификации сегментов по признакам пауза - Р, вокализованный - V, невокализованный - N. Эта процедура необходима для распределения числа бит при кодировании различных сегментов речи

В третьей главе предлагаются методы эффективного кодирования речи в классе ЛПАС, особенность которых заключена в аппроксимации либо в спектральной, либо во временной области реального сигнала погрешности предсказания Кодеры содержат анализатор, синтезатор и оптимизатор.

В первом кодере по речевому сигналу в анализаторе оцениваются коэффициенты линейного предсказания, которые после квантования подаются на управляющие входы фильтров предсказателей анализатора и синтезатора Сигнал погрешности предсказания (СПП) сегментируется и для каждого сегмента на основе БПФ оцениваются спектры амплитуд и фаз Спектр амплитуд раскладывается в ряд по четным, а спектр фаз - по нечетным ортогональным полиномам Чебышева Коэффициенты спектральных разложений квантуются и передаются в синтезатор кодера и вместе с КЛП через блок дополнительного сжатия, кодирования и уплотнения поступают в цифровой канал связи В синтезаторе кодера по квантованным параметрам восстанавливается речевой сигнал, который вместе с исходным речевым сигналом поступают в блок оптимизации Здесь на основе их сравнения рассчитывается относительная среднеквадратичная погрешность (ОСКП) синтеза речи Собственно оптимизация работы кодера осуществляется через устройство управления путем такого подбора числа полиномов Чебышева и номера позиции, с которого их надо отсчитывать, которые обеспечивают минимум ОСКП синтеза речевого сигнала Данный метод при скоростях, меньших 16 кбит/с, обладает рядом недостатков не используется долговременное предсказание, не учитывается метод коррекции шума маскировки в формантном фильтре. Кроме того, здесь спектральные коэффициенты амплитуд и фаз имеют разную структуру и требуют разных методов квантования Поэтому в работе рассмотрен модернизированный (второй) метод разностного кодирования речевого сигнала

Во втором кодере используется двухступенчатое предсказание- кратковременное, аналогичное первому кодеру, и долговременное. Для работы кратковременных фильтров предсказателей (ФП) анализатора и синтезатора по речевому сигналу оцениваются коэффициенты линейного предсказания (КЛП), которые затем преобразуются в более помехозащищенные коэффициенты линейных спектральных пар (ЛСП) Для работы долговременных фильтров (фильтров основного тона) оцениваются период основного тона и максимальный коэффициент корреляции в соответствии с соотношениями (1) и (2). В результате двухступенчатого предсказания формируется СПП, который сегментируется и для каждого сегмента строится оценка путем разложения СПП по полиномам Чебышева во временной области Коэффициенты данного разложения вместе с параметрами кратковременного и долговременного ФП кодируются и через блок дополнительного ежа-

тия и уплотнения подаются в цифровой канал связи. Одновременно они поступают в синтезатор кодера, где происходит процедура восстановления (синтеза) речевого сигнала (РС). Работа оптимизатора аналогична работе оптимизатора первого кодера, за тем исключением, что здесь дополнительно использована фор-мантная фильтрация разности исходного и синтезированного речевых сигналов.

Далее в главе решается задача оптимизации процедуры оценки КЛП для нестационарной речи. Для этого в алгоритм оценки вводится "множитель забывания" V такой, чтобы текущие значения РС обладали большей значимостью, чем более старые. Поэтому минимизируется взвешенная СКП идентификации вида:

= (4)

1=0 1=0

2

Рекуррентные оценки КЛП, минимизирующие , определяются так:

а, = а,_х к, = (5)

Р, + (6)

где 50 =0, Рй —ЪЕр- начальные условия, 6>100, Ер - единичная рхр матрица.

Эффективность работы ФП зависит не только от изменения СПП, но и от изменения КЛП Ай( = а{ -а,_|. Вводя величину:

— / I

Ся О^Х^мДЯ/)2' ' (7)

/=0 1=0 для определения оптимального параметра уор, в качестве критерия оптимальности предсказания введем отношение сигнал/суммарная погрешность:

кр =101ё(ст?/(0_а)ств +астя))> (ДБ). (8)

На рисунке 2 при а = 0,5 приведены экспериментальные зависимости величины кр от V. Для фиксированного р они имеют экстремум. Проекция максиму-. ма /?г2пах на ось абсцисс дает оптимальную величину уор, множителя забывания.

0.82 о.вл О ее о.вв О в 0.92 О ОЛ О.

Рисунок 2 - Зависимости отношения сигнал/суммарная погрешность идентификации модели линейного предсказания РС от множителя забывания 10

Затем исследуется задача преобразования КЛП в коэффициенты линейных спектральных пар (ЛСП). Существующие методы их оценки достаточно сложны. В работе предлагается конструктивный метод получения ЛСП. Суть его в следующем. ЛСП (это частоты или фазы) представляют собой нули передаточной

функции А(г = е; ') кратковременного ФП. При дискретном представлении

фаз: (р„ = <и„Д/ = иДа>Д* = 2т/N, п = 0,^-1, на основе метода преобразования

частотной модуляции в частотно-импульсную модуляцию получаем:

с„ = ¡¡^{со&[2т IN + пг/Щ}, п = 0,ЛГ-1,

——--(9)

=$г'^{8т[2яи/Лг+иг/АгП, и = 0,М-1.

Здесь с„ и - знаковые последовательности. Затем осуществляя дискретное дифференцирование, искомые нули или ЛСП системной функции ФП равны:

' = ЪР/2> 1 = 1р/2. (10)

В заключительных разделах главы проводится анализ и синтез сигнала погрешности двухступенчатого предсказания на основе его аппроксимации полиномами Чебышева. Результаты моделирования работы кодека представлены на рисунке 3, где даны зависимости СКП синтеза РС и СКП синтеза СПП от номера позиции в матричном представлении полиномов Чебышева.

Рисунок 3 - Зависимости СКП синтеза РС и СПП от номера позиции полиномов Чебышева

Анализ данных эксперимента позволяет сделать следующие выводы: СКП синтеза РС при постоянном числе полиномов Чебышева уменьшается с увеличением числа параметров ФП; при фиксированном числе параметров ФП СКП синтеза РС изменяется от номера позиции и числа используемых при синтезе полиномов Чебышева так, что эта зависимость имеет экстремум. Например, на рисун-

11

ке 3 при п = 18 и общем числе полиномов т = 8 (из 32) СКП синтеза РС принимает минимальное значение при любом порядке р ФП

Для оптимизации характеристик кодера вводится относительная СКП синтеза

/-У,2 , где Ш(г) - системная функция формантного фильтра

речи 8 — (.У, Щг) =

' /

. *=1

к=1

(И)

ак,к = \,р - КЛП, у, и у2- параметры фильтра, определяющие степень перераспределения энергии погрешности синтеза по спектру частот Величина 8 является функционалом, зависящим от различных параметров кодера Очевидно, передаваемые параметры должны обеспечивать минимум ОСКП синтеза речи

В работе на основе метода статистического моделирования применена методика оценки слоговой разборчивости речи 5* = /(А2) по известной ее взаимосвязи с сегментным отношением сигнал/шум /¿г. Данный подход позволяет оперативно оценивать качество синтеза речи и избежать дорогих и сложных процедур организации субъективно-статистической экспертизы На рисунке 4 показаны реализации речевого сигнала и показателей качества работы кодера.

Рисунок 4 - Реализации речевого сигнала и показателей качества работы кодера

Используя результаты статистического моделирования, для конкретных условий работы приводятся оценки скоростей передачи и показателей качества синтеза, обеспечиваемые при использовании разработанного метода кодирования Показано, что на скоростях 8-12 кбит/с он обеспечивает слоговую разборчивость

12

в диапазоне 57 - 74 %, что соответствует первому классу качества (понимание передаваемой речи без затруднений) в соответствии с ГОСТ Р 51061-97

В четвертой главе разрабатывается и исследуется метод эффективного ЛПАС кодирования речи в системе автоматического слежения с учетом ДЧИМ модели голосового возбуждения Функциональная схема кодера, построенная на основе данного метода, изображена на рисунке 5.

(ОПТИМИЗАТОР)

оскп А

ПОиВФ УУ КД

СИСТЕМА СЛЕЖЕНИЯ С 1Р ЕДСКАЗ А Н И Е^ ДК

ЛСП

оог

кд

ВЫЧИСЛИТЕЛЬ

полиномов

ЧЕБЫШЕВА

ОЧОТ2

ОЧОТ1

КД

КД

ОКЛП

КД ЛСП

(АНАЛИЗАТОР)

■ ИСХОДНЫЙ РЕЧЕВОЙ СИГНАЛ

СИНТЕЗИРОВАННЫЙ

РРЧГ'ПОЙ СИ! НАЛ *

СЖАТИЕ УПЛОТНЕНИЕ

дк ФП

ЛСП

ДК

А>

дк

ДК

дк

ИУ

Дф

БА ДФ

ч

т

(СИНТЕЗАТОР)

В ЦИФРОВОЙ КАНАЛ СВЯЗИ

Рисунок 5 - Функциональная схема ЛПАС кодирования речи на основе синтеза сигнала погрешности предсказания в системе динамической частотно-импульсной модуляции

В анализаторе кодера по речевому сигналу (РС) оцениваются КПП а] = (ах,аъ ,ар),, период {Г,},/= 0,1,2,. (частота = 1/7}> основного тона, частота ОТ {Рср1}, сигнал погрешности предсказания (СПП) е/; огибающая ^ Ввиду взаимосвязи ^ и РСр,( передаче подлежит их разность А/7, = Р, - Рср>,

Сформированные в анализаторе параметры квантуются, кодируются и через блок дополнительного сжатия и уплотнения подаются в цифровой канал связи и в синтезатор В синтезаторе вначале на основе системы динамической частотно-импульсной модуляции (ДЧИМ), синтезируется оценка сигнала погрешности

предсказания {е,} Сигнал {е,}, суммируясь с предсказанным сигналом {^р.Л,

* ♦ «

формируемым ФП синтезатора, образует восстановленный РС- = \е, +

В оптимизаторе кодера формируется разность Е, = — 5*}, воспринимаемая слуховой системой как шум маскировки (ШМ) Собственно оптимизация работы кодера осуществляется здесь путем подбора таких параметров блоков ФЗФ

и НП синтезатора, которые обеспечивают минимум ОСКП 5 = (л, - Д2

Далее в главе анализируется математическая модель кодера, которая включает оценку: 1) КЛП (рассматривается обобщение данного алгоритма на основе модели авторегрессии скользящего среднего), 2) СПП с учетом особенности работы системы слежения с предсказанием; 3) текущая частота основного тона, 4) вторая (средняя) частота основного тона, 5) огибающая СПП.

Затем на основе модели авторегрессии скользящего среднего синтезируется система автоматического слежения за РС с предсказанием, в которой вводится сигнал управления Предполагается, что математическая модель РС, подлежащего идентификации, представляется стандартной канонической формой Коши

= А^*., +В*иц, к = 0,1,2. , (12)

с заданными начальными условиями, где - наблюдаемый (их1) вектор РС, им -задержанный (их 1) вектор управления, А* и В* - вещественные (ихи) матрицы.

Задача, которую требуется решить, заключается в отыскании такого адаптивного алгоритма оценки матриц А** который позволяет проверить, обладает ли система слежения требуемыми свойствами устойчивости и при каких условиях Для решения этой задачи строится система автоматического слежения, относящаяся к классу замкнутых систем с обратной связью по сигналу погрешности идентификации ек Математическая модель системы принимает вид

= А** в*., + В** и4.1 +8*. (13)

где управляющее воздействие зависит от вектор прогноза р*, и ищется в виде

Иы =(В**.,)-1(р*-А*Ы8,.1) (14)

В работе показано, что данная система слежения асимптотически гиперустойчива по Попову, если матрицы А** и В** оцениваются так.

А*А = А*ы+еЛУ*, В ** = В **.!+ б* игы V*. (15)

Здесь V* - диагональная (в простейшем случае единичная) весовая матрица Находится взаимосвязь между погрешностями идентификации и прогноза е* = с*е*, с* = (1+|Ы|2к+||иы1|2и)''. (16)

Доказывается сходимость матричных параметров А** и В** системы слежения к параметрам А* и В* модели (12) на основе теоремы о сходимости систем при выборочных средних Рассмотрены функциональная схема системы и режимы ее работы.

Работоспособность данной системы иллюстрируется на рисунке 6, где приведены зависимости отношения сигнал/погрешность идентификации и сигнал/погрешность прогноза от порядка модели. Из рисунка видно, что величина отношения сигнал/погрешность идентификации с увеличением порядка модели синтеза монотонно увеличивается с 16,1 до 23,2 дБ. Отношение сигнал/погрешность прогноза постоянно и равно 14,3 дБ.

11 ОСП прогноза ОСП идентификации И

\...........1__________!. !......А.. 1

1

1 1 ............ — 1

16 18 20 22

Рисунок 6 - Зависимости погрешностей идентификации и прогноза от порядка модели

Важным элементом синтезатора является система ДЧИМ, используемая в качестве источника голосового возбуждения модели синтеза речи. Она предназначена для выработки импульсной последовательности, с частотой, соответствующей частоте ОТ речи. Динамический фильтр (ДФ) системы ДЧИМ находится под управляющим воздействием Я, , формируемым в блоке адаптации (БА ДФ) и определяемого по соотношению

Х,=(2 + (17)

где А/7, = ^, - , и Ри - частоты формируемые блоками ОЧОТ1 и ОЧОТ2,

~2 2 л0- пороговое напряжение импульсного устройства, ) функция от СКП е, ,

выбираемая по минимуму СКП синтеза речи.

При цифровой реализации ДФ в виде апериодического звена первого порядка нетрудно получить его отклик на воздействие Лк, к = 1,2,3,..., дДгЯ^

Ук =•

1-д

- (1 - ехр^иот.Кд,!^ ■ к)), к = 1,2,3,..., д = ехр(-/гдфДО.

(18)

Из данного соотношения следует, что отклик ДФ - экспоненциально нарастающий сигнал с модуляцией сигналом управления Лк,к= 1,2,3,.... Сравнение это-

15

го сигнала с пороговым напряжением щ определяет момент формирования импульса на выходе импульсного устройства (ИУ) ДЧИМ (рисунок 1). Следовательно, порог ИУ зависит от иот или периода (частоты) ОТ. Его величину можно оценить из условия: УПт = Яд. Откуда получаем

тг0 = дЫЛпот (1 - ехр(-и£т^дфДО /(I - <?). (19)

Поскольку Як, к = 1,2,3,... - медленно изменяющаяся последовательность, то и порог ИУ изменяется, адаптивно подстраиваясь под статистику Як, к = 1,2,3,....

При сделанных предположениях, с учетом соотношения (19), получаем функциональную схему системы ДЧИМ, изображенную на рисунке 7.

Р2., \

дя

БА ДФ

<хЬф4

1

и = V);(с1)

ФЗФ

П.

Рисунок 7 - Функциональная схема системы ДЧИМ

Проведено машинное моделирование системы ДЧИМ, результаты которого показаны на рисунке 8.

10 0.02 0.04 0.06 0.08 01 0.12 0.14 0.16 0.18 0.2

400 200 г

Л

О 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

0.4 г-0.2 г

О 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

1.5;-;--г-

ипиип

О 0.02 0.04 0.06 0.08 0,1 0.12 0.14 0.16 0.16 0.2

Рисунок 8 - Реализации сигналов в различных сечениях системы ДЧИМ

Здесь верхний график - речевой сигнал (звук - Э), ниже - график изменения частоты ОТ. Еще ниже график изменения отклика ДФ. На последнем графике показана импульсная последовательность, вырабатываемая ИУ, период ее следования совпадает с периодом вокализованных участков обрабатываемого РС

В заключительном разделе рассматриваются особенности работы оптимизатора кодера и производится оценка качества синтеза речи Оптимизатор через устройство управления осуществляет задачу изменения параметров синтезатора так, чтобы минимизировать ОСКП синтеза РС К таким параметрам относятся смещение периодической последовательности импульсов в ДФ, параметры фор-мозадающего фильтра ФЗФ

Особенность данного метода кодирования состоит еще в том, что наряду с формантной фильтрацией с передаточной функцией (11), здесь учтено также свойство порога слышимости человека, что позволило повысить субъективное восприятие качества синтезированной речи Оценка качества проводилась по показателю разборчивости, вычисляемой оперативно на основе машинного моделирования статистической обработки наблюдаемых данных С целью получения достаточно большого статистического материала выбирались различные комбинации квантования параметров кодера При частоте дискретизации 8000 Гц и числе отсчетов на сегменте анализа N-256 исследовались отрезки фраз речевого сигнала длительностью в 1,8 - 3,9 секунды В результате общее число сегментов составило N — 600

Скорость передачи, обеспечиваемая кодером, определяется количеством бит, отводимых на передаваемые параметры, и длиной сегмента анализа. Здесь длина сегмента анализа, равная 32 мс, определяет задержку в кодере Исследовались два варианта кодирования вариант 1 без дополнительного сжатия передаваемых параметров (скорость передачи составила 4 кбит/с), вариант 2 с учетом такого сжатия (скорость передачи составила 3,5 кбит/с). В работе приведены результаты исследования разработанного метода кодирования Из них следует, что кодер относится к классу низкоскоростных с допустимой задержкой. Учитывая то, что в соответствии с ГОСТ Р 51061-97, для работы в телефонных сетях общего пользования допускается использовать кодеки, обеспечивающие класс качества по разборчивости не ниже первого (понимание передаваемой речи без затруднений), когда 5=56-80%, заключаем, что разработанный метод кодирования удовлетворяет и этому условию Здесь при скорости передачи 4 кбит/с, обеспечивается процент разборчивости - 70 %, при скорости 3,5 кбит/с - 63 %.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

В ходе выполнения диссертационной работы были получены следующие основные результаты

1 Разработана новая авторегрессионная (АР) модель речеобразования с возбуждением на основе динамической частотно-импульсной модуляции, позволяющая более адекватно описывать процесс синтеза речевого сигнала при создании современных голосовых кодеков В рамках этой модели оптимизирован метод

оценки параметров АР модели речи на основе рекуррентного метода наименьших квадратов и усовершенствован корреляционный метод оценки основного тона (ОТ) речевого сигнала.

2 Разработан новый метод спектральный оценки частоты ОТ речи на основе интерполяции речевого сигнала ортогональными полиномами Чебышева Достоинство метода - простота реализации и повышенная помехоустойчивость

3. Разработаны новые методы эффективного кодирования речи в классе линейного предсказания с анализом через синтез (ЛПАС), основанные на синтезе сигнала погрешности предсказания ортогональными полиномами Чебышева как в спектральной, так и во временной областях. На скоростях 8-16 кбит/с данные методы кодирования обеспечивают первый класс качества по разборчивости в соответствии с ГОСТ Р 51061-97 Повышенное качество синтеза речи здесь обеспечивается за счет оптимизации (по критерию максимума отношения сигнал/суммарная погрешность синтеза) метода рекуррентной со взвешиванием оценки коэффициентов линейного предсказания для нестационарной речи Получены оптимальные оценки множителя забывания

4 Разработан конструктивный метод оценки линейных спектральных пар по коэффициентам линейного предсказания, основанный на цифровом представлении нулей системной функции фильтра предсказателя

5 Разработан новый метод низкоскоростного кодирования речи в классе ЛПАС на основе модели голосового возбуждения с динамической частотно-импульсной модуляцией (ДЧИМ) На скоростях 3,5 - 4 кбит/с он обеспечивает первый класс качества по разборчивости в соответствии с ГОСТ Р 51061-97. По сравнению с адаптивной дифференциальной ИКМ (АДИКМ), здесь достигается сжатие цифрового представления речи в 8 и более раз.

6 Разработан новый метод линейного предсказания с учетом сигнала управления в системе слежения за речевым сигналом, позволивший при порядке фильтра предсказателя, равным 10, увеличить отношение сигнал/погрешность идентификации по сравнению с отношением сигнал/погрешность предсказания на 6,2 дБ.

7 На основе математической модели ДЧИМ разработаны новые алгоритм и функциональная схема подсистемы ДЧИМ, состоящей из динамического фильтра, блока адаптации динамического фильтра и импульсного устройства.

8. Усовершенствована методика и алгоритм текущей оценки качества синтеза речи на основе машинного моделирования. Новизна заключена в учете характеристики порога слышимости при весовой формантной фильтрации в оптимизаторе кодера. Это позволило повысить качество синтеза речевого сигнала.

9 Все результаты получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения математических матричных вычислений -МагЬАВ.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1 Санников В Г , Медведев О Н Исследование метода синтеза речи через ее анализ в системе автоматического слежения // Международная научно-практическая конференция «Фундаментальные проблемы радиоэлектронного приборостроения» Intermatic-2004 Матер конф - М • МИРЭА, ЦНИИ «Электроника» -2004 -Часть2 -С 67-71

2 Медведев О Н , Санников В Г Методы текущей оценки мелодии основного тона речи // Научная конференция профессорско-преподавательского, научного и инженерно-технического состава. Тез докл - М . МТУ СИ - 2005. -Книга 1 -С. 97.

3 Медведев О Н, Санников В.Г. Оценка мелодии основного тона речи в шумах И VI Международная научно-техническая конференция «Перспективные технологии в средствах передачи информации». Матер конф - Владимир РОСТ.-2005 -С 216-218

4 Медведев О.Н, Санников В Г. Сегментный анализ основного тона речи на основе аппроксимации спектра многочленами Чебышева // Деп в ЦНТИ «Информсвязь» от26 05 06 №2279св 2006 -С 15-20

5 Санников В Г, Медведев О Н Спектральный анализ основного тона речи на основе многочленов Чебышева // Международная научно-техническая конференция «Фундаментальные проблемы радиоэлектронного приборостроения» Intermatic-2005' Матер конф - М • МИРЭА - 2006 - Часть 2 -С.13-15.

6 Медведев О.Н , Санников В Г Оптимизация метода кодирования речевых сигналов на основе адаптивной дифференциальной ИКМ // Международная научно-техническая школа-конференция «Молодые ученые - науке, технологиям и профессиональному образованию в электронике» Молодые уче-ные-2006 Матер конф. - М • МИРЭА -2006 - Часть 1 -С 172-174

7 Санников В Г, Медведев О Н Эффективный голосовой кодер с полиномиальным синтезом спектра погрешности предсказания речевого сигнала // Мобильные системы - 2007. -№ 3 - С 38-42

8 Санников В Г , Медведев О Н Кодер речи с линейным предсказанием и импульсным возбуждением на основе ДЧИМ // Московская отраслевая научно-техническая конференция «Технологии информационного общества» Тез докл -М Инсвязьиздат -2007 -С. 194

9 Санников В Г., Медведев О Н Анализ кодера речи с линейным предсказанием и импульсным возбуждением на основе ДЧИМ // XV Межрегиональная научно-техническая конференция «Обработка сигналов в системах наземной радиосвязи и оповещения» Труды конф. - Нижний Новгород -2007 - С. 225-227.

Подписано в печать 25.09.07. Формат 60x84/16 Объем 1,2 уел п л.

_Тираж 100 экз. Заказ 176_

ООО «Инсвязьиздат» Москва, ул. Авиамоторная,8

Оглавление автор диссертации — кандидата технических наук Медведев, Олег Николаевич

Условные обозначения (сокращения).

Введение.

Глава 1 Анализ методов эффективного кодирования речи в телекоммуникационных системах.

1.1 Речевой сигнал и слуховое восприятие речи.

1.2 Качество телефонной передачи и его оценка

1.3 Методы эффективного кодирования речи.

1.4 Сравнительная оценка качества методов эффективного кодирования речи.

1.5 Выводы и постановка задач исследования.

Глава 2 Модели и идентификация параметров источника речеобразования.

2.1 Анализ известных моделей речеобразования.

2.2 Разработка новой модели речеобразования на основе динамической частотно-импульсной модуляции.

2.3 Идентификация параметров авторегрессионной модели голосового тракта по речевому сигналу.

2.4 Идентификация параметров источника голосового возбуждения с динамической частотно-импульсной модуляцией.

2.5 Основные результаты.

Глава 3 Методы эффективного кодирования речи в классе ЛПАС с полиномиальным синтезом сигнала погрешности предсказания.

3.1 Принципы кодирования.

3.2 Оптимизация метода линейного предсказания на основе рекуррентного МНК со взвешиванием.

3.3 Исследование метода преобразования коэффициентов линейного предсказания в коэффициенты линейных спектральных пар.

3.4 Анализ работы долговременного фильтра основного тона.

3.5 Анализ и синтез сигнала погрешности предсказания на основе ортогональных полиномов Чебышева.

3.6 Анализ работы оптимизатора кодера и оценка качества синтеза речи.

3.7 Основные результаты.

Глава 4 Метод эффективного ЛПАС кодирования речи в системе автоматического слежения с учетом ДЧИМ модели голосового возбуждения

4.1 Принцип функционирования кодера.

4.2 Математическая модель кодера.

4.3 Линейное предсказание с учетом сигнала управления в системе слежения за речевым сигналом.

4.4 Структурная схема и исследование системы адаптивного слежения за речевым сигналом.

4.5 Структурная схема и исследование системы ДЧИМ.

4.6 Анализ работы оптимизатора кодера и оценка качества синтеза речи.

4.7 Основные результаты.

Введение 2007 год, диссертация по радиотехнике и связи, Медведев, Олег Николаевич

Современный этап развития общества характеризуется увеличением потоков речевых сообщений, передаваемых по телекоммуникационным системам и сетям, имеющим ограниченную пропускную способность [4]. Большие трудности возникают также при решении задачи хранения речевых данных, возрастающий поток которых требует все больших объемов памяти запоминающих устройств. С другой стороны, цифровая передача или запись речевых сообщений методом импульсно-кодовой модуляции (ИКМ) со стандартной скоростью 64 кбит/с связаны с избыточным их представлением.

В различных странах мира, в том числе и в России, для решения проблемы перегрузки каналов речевой связи и устройств хранения речевых сообщений интенсивно развивается направление, заключающееся в сжатии объемов речевых данных за счет сокращения содержащейся в них избыточности. Это направление особенно привлекательно с экономической точки зрения, так как не требует создания новых дорогостоящих производственных мощностей, но предназначено для эффективного использования имеющихся ресурсов систем и сетей [11,15,31,61,99].

Для технического решения задачи сжатия речевых данных разработано много методов. В значительной мере они представлены в трудах Н.Н. Акин-фиева, С.П. Баронина, А.И. Величкина, М.Д. Бенедиктова, В.И. Галунова, Е.Г. Жилякова, Ю.А. Косарева, В.И. Куля, В.Г. Михайлова, В.Е. Муравьева, М.В. Назарова, А.А. Пирогова, Ю.Н. Прохорова, В.Г. Санникова, М.А. Сапожкова, В.А. Свириденко, И.В. Ситняковского, А.Н. Собакина, О.И. Шелухина, В.П. Яковлева, Б.С. Атала, Дж. Д. Гибсона, Б. Голда, А.Х. Грея, Н.С. Джайанта, Ф. Итакуры, Р.В. Кокса, П. Круна, Ж.И. Макхоула, Дж. Маркела, JI. Р. Рабинера, Ч. Рейдера, А.С. Спаниаса, Г. Фанта, Дж. Фланагана, Р.В. Шафера, М.Р. Шредера и других российских и зарубежных ученых.

С целью повышения качества кодеков с линейным предсказанием для передачи речевых сигналов на скоростях 4-16 (кбит/с) Международным Союзом Электросвязи (МСЭ) и другими организациями разрабатываются кодеры, относящиеся к классу адаптивных кодеров с линейным предсказанием на основе анализа через синтез (ЛПАС) (linear prediction analysis-by-synthesis (LPAS) coders) [61,76,78,81,91]. При данном методе обработки в кодере по параметрам долговременного и кратковременного фильтров-предсказателей производится синтез PC, сравнение его с исходным PC и минимизация взвешенной разности между ними подбором структуры сигнала голосового возбуждения фильтра-предсказателя. Основной особенностью указанных методов кодирования речи является искусственная замена сигнала погрешности предсказания импульсным сигналом возбуждения фильтра-предсказателя.

Поскольку сигнал погрешности предсказания более информативен (в нем содержится значительное количество информации о речевом сигнале), чем искусственный сигнал возбуждения, то для повышения эффективности работы ЛПАС кодеков встает проблема поиска новых моделей сигнала погрешности предсказания, адекватных голосовому возбуждению системы речеобразования.

Цель работы

Разработка методов низкоскоростного кодирования речи, передаваемой по телекоммуникационным каналам с ограниченной пропускной способностью, на основе новых моделей формирования сигнала погрешности предсказания в голосовых кодеках класса ЛПАС.

Для достижения поставленной цели на основе анализа состояния вопроса сформулированы и решаются следующие основные задачи:

• Разработка и оптимизация параметров модели речеобразования на основе авторегрессии с динамической частотно-импульсной модуляцией.

• Разработка метода спектральной оценки частоты основного тона речи на основе полиномов Чебышева.

• Разработка и оптимизация методов эффективного кодирования речи с линейным предсказанием и полиномиальным синтезом сигнала погрешности предсказания.

• Разработка и оптимизация методов эффективного кодирования речи с линейным предсказанием и синтезом сигнала погрешности предсказания на основе динамической частотно-импульсной модуляции.

Методы исследований

Методы теории оптимальных и адаптивных систем; методы сжатия данных; методы статистического моделирования и предсказания речевых сигналов; методы оценки качества систем передачи речи; методы цифровой обработки сигналов; методы теории речеобразования и слухового восприятия речи; методы машинного моделирования.

Научная новизна работы

• Усовершенствована модель речеобразования, состоящая из источника голосового возбуждения и голосового тракта, отличающаяся от ранее известной новым методом голосового возбуждения на основе динамической частотно-импульсной модуляции.

• Разработан новый метод спектральной оценки частоты основного тона речи на основе сегментной интерполяции речевого сигнала ортогональными полиномами Чебышева.

• Проведена оптимизация (по критерию максимума отношения сигнал/суммарная погрешность синтеза) метода рекуррентной оценки коэффициентов линейного предсказания для нестационарной речи.

• Модернизирован метод расчета линейных спектральных пар по коэффициентам линейного предсказания.

• Разработан новый метод линейного предсказания с учетом сигнала управления в системе автоматического слежения за изменением речевого сигнала; доказана его устойчивость.

Практическая значимость работы

Результаты выполненных исследований получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения математических матричных вычислений - MatLAB. Они могут быть положены в основу разработки конкретных систем передачи речевой информации с ограниченной пропускной способностью или при её хранении в запоминающих устройствах с ограниченной емкостью.

Разработанные в диссертации способы эффективного кодирования речи в классе ЛПАС, обеспечивают в соответствии с ГОСТ Р 51061-97 первый класс качества по разборчивости на скоростях 3,5 - 16 кбит/с. Это в 4 - 16 раз меньше скорости, обеспечиваемой кодеком на основе стандартной ИКМ, и в 2 - 8 раз меньше скорости, равной 32 кбит/с, обеспечиваемой кодеком адаптивной дифференциальной ИКМ (АДИКМ), рекомендованного (в соответствие с Приказом Министерства РФ по связи и информатизации № 175 от 23.07.2001) в качестве основного в оборудовании службы голосовых сообщений.

Изложенные в работе методы и алгоритмы низкоскоростного кодирования речи были использованы при проведении научно-исследовательских работ МТУ СИ с ОАО «ТРАНСТЕЛЕКОМ» и Группой Телекоммуникационных Компаний «ТЕЛЕСЕТИ» («Фирма РИАЛ») и применены при разработке и организации доступа абонентов к услугам местной и междугородной телефонной связи посредством интеллектуальной платформы речевого сопровождения.

Апробация работы

Основные результаты работы были представлены на следующих научно-технических конференциях:

1. Международные научно-практические конференции «Фундаментальные проблемы радиоэлектронного приборостроения». INTERMATIC-2004, INTERMATIC-2005, Москва, 2004 г., 2005 г.

2. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУСИ, Москва, 2005 г.

3. VI Международная научно-техническая конференция «Перспективные технологии в средствах передачи информации», Владимир, 2005 г.

4. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУСИ, Москва, 2006 г.

5. Международная научно-техническая школа-конференция «Молодые ученые - науке, технологиям и профессиональному образованию в электронике, Москва, 2006 г.

6. Московская отраслевая научно-техническая конференция «Технологии информационного общества», Москва, 2007 г.

7. XV Межрегиональная научно-техническая конференция «Обработка сигналов в системах наземной радиосвязи и оповещения», Нижний Новгород, 2007 г.

Краткое содержание работы

Диссертационная работа содержит: введение, четыре главы, заключение и список использованных источников.

Заключение диссертация на тему "Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования"

3.7. Основные результаты

• Разработан новый метод низкоскоростного кодирования речи в классе ЛПАС на основе модели голосового возбуждения с динамической частотно-импульсной модуляцией (ДЧИМ).

-• Па скоростях 3,5 - 4 и более кбит/с он обеспечивает первый класс качества по разборчивости в соответствии с ГОСТ Р 51061 -97.

• На основе разработанной математической модели метода кодирования получены алгоритмы его функционирования, реализованные на ПЭВМ.

• Разработан новый метод линейного предсказания с учетом сигнала управления в системе слежения за речевым сигналом, позволивший при порядке фильтра предсказателя, равным 10, увеличить отношение сигнал/погрешность идентификации по сравнению с отношением сигнал/погрешность прогноза на 6,2 дБ.

• Разработан новый метод анализа и синтеза сигнала погрешности предсказания на основе ортогональных полиномов Чебышева.

• Разработана функциональная схема и алгоритм работы, реализованный на ПЭВМ, подсистемы ДЧИМ, состоящей из динамического фильтра, блока адаптации динамического фильтра и импульсного устройства.

• Усовершенствован метод весовой формантой фильтрации с учетом кривой порога слышимости слуховой системы, позволяющий повысить качество синтеза речевого сигнала.

ЗАКЛЮЧЕНИЕ

В ходе выполнения диссертационной работы были получены следующие основные результаты:

1. Разработана новая авторегрессионная (АР) модель речеобразования с возбуждением на основе динамической частотно-импульсной модуляции, позволяющая более адекватно описывать процесс синтеза речевого сигнала при создании современных голосовых кодеков. В рамках этой модели оптимизирован метод оценки параметров АР модели речи на основе рекуррентного метода наименьших квадратов и усовершенствован корреляционный метод оценки основного тона (ОТ) речевого сигнала.

2. Разработан новый метод спектральной оценки частоты ОТ речи на основе интерполяции речевого сигнала ортогональными полиномами Чебышева. Достоинство метода - простота реализации и повышенная помехоустойчивость.

3. Разработаны новые методы эффективного кодирования речи в классе линейного предсказания с анализом через синтез (ЛПАС), основанные на синтезе сигнала погрешности предсказания ортогональными полиномами Чебышева как в спектральной, так и во временной областях. На скоростях 8-16 кбит/с данные методы кодирования обеспечивают первый класс качества по разборчивости в соответствии с ГОСТ Р 51061-97. Повышенное качество синтеза речи здесь обеспечивается за счет оптимизации (по критерию максимума отношения сигнал/суммарная погрешность синтеза) метода рекуррентной со взвешиванием оценки коэффициентов линейного предсказания для нестационарной речи. Получены оптимальные оценки множителя забывания.

4. Разработан конструктивный метод оценки линейных спектральных пар по коэффициентам линейного предсказания, основанный на цифровом представлении нулей системной функции фильтра предсказателя.

5. Разработан новый метод низкоскоростного кодирования речи в классе ЛПАС на основе модели голосового возбуждения с динамической частотно-импульсной модуляцией (ДЧИМ). На скоростях 3,5-4 кбит/с он обеспечивает первый класс качества по разборчивости в соответствии с ГОСТ Р 51061-97. По сравнению с адаптивной дифференциальной ИКМ (АДИКМ), здесь достигается сжатие цифрового представления речи в 8 и более раз.

6. Разработан новый метод линейного предсказания с учетом сигнала управления в системе слежения за речевым сигналом, позволивший при порядке фильтра предсказателя, равным 10, увеличить отношение сигнал/погрешность идентификации по сравнению с отношением сигнал/погрешность предсказания на 6,2 дБ.

7. На основе математической модели ДЧИМ разработаны новые алгоритм и функциональная схема подсистемы ДЧИМ, состоящей из динамического фильтра, блока адаптации динамического фильтра и импульсного устройства.

8. Усовершенствована методика и алгоритм текущей оценки качества синтеза речи на основе машинного моделирования. Новизна заключена в учете характеристики порога слышимости при весовой формантной фильтрации в оптимизаторе кодера. Это позволило повысить качество синтеза речевого сигнала.

9. Результаты экспериментальных исследований получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения математических матричных вычислений - MatLAB.

Библиография Медведев, Олег Николаевич, диссертация по теме Системы, сети и устройства телекоммуникаций

1. Адаптивные фильтры: Пер. с англ. / Под ред. К.Ф.Н. Коуэна, П.М. Гранта -М.: Мир, 1988.-392 с.

2. Архипов И.О., Гитлин В.Б. Оценка точности выделения основного тона методом GS // Современные речевые технологии. Сборник трудов IX сессии РАН. М.: ГЕОС, 1999. - С. 38-42.

3. Артюшенко В.М., Шелухин О.И., Афонин М.Ю. Цифровое сжатие видеоинформации и звука. М.: ИТК «Дашков и К0», 2003. - 426 с.

4. Беллами Дж. Цифровая телефония: Пер. с англ. / Под ред. А.Н. Берлина, Ю.Н. Чернышова. М.: Эко-Трендз, 2004. - 640 с.

5. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, ГР ФМЛ, 1983.-416 с.

6. Величкин А.И. Передача аналоговых сообщений по цифровым каналам связи // Статистическая теория связи Вып. 19. М.: Радио и связь. - 240 с.

7. Вемян Г.В. Передача речи по сетям электросвязи. М.: Радио и связь, 1985.-272 с.

8. Вокодерная телефония. / Под ред. А.А. Пирогова. М.: Связь, 1974. -536 с.

9. Гибсон Дж. Д. Адаптивное предсказание в системах дифференциального кодирования речи. // ТИИЭР. 1980. - № 4. - С. 65-110.

10. ГОСТ Р 50840-95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. 200 с.

11. ГОСТ Р 51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. 21 с.

12. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. М.: Наука, ГР ФМЛ, 1971. - 1108 с.

13. Громаков Ю.А. Стандарты и системы подвижной радиосвязи. М.: ЭКО -ТРЭНЗ, 1998.-240 с.

14. Жиляков Е.Г., Белов С.П., Прохоренко Е.И. О сжатии речевых сигналов // Вестник Национального технического университета «ХПИ». Харьков.: Изд-во НТУ «ХПИ». - 2005. - Вып. 56. - С. 32 - 41.

15. Зюко А.Г., Банкет B.JL, Лехан В.Ю. Методы низкоскоростного кодирования при цифровой передаче речи. // Зарубежная радиоэлектроника. 1986. -№11.-С. 53-69

16. Исаев А.Н., Раков А.С., Дотолев В.Г. Актуальные вопросы развития техники звукового радиовещания в деятельности исследовательской комиссии 10 Международного Союза Электросвязи. // Труды НИИР. 1995. - № 6. -С. 33-38.

17. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. М.: Радио и связь, 1991.-220 с.

18. Ковалгин Ю.А., Вологодин Э.И. Цифровое кодирование звуковых сигналов. СПб.: КОРОНА-принт, 2004. - 240 с.

19. Коротаев Г.А. Эффективный алгоритм кодирования речевого сигнала на скорости 4,8 кбит/с и ниже. // Зарубежная радиоэлектроника. 1996. - № 3.

20. Ли Р. Оптимальные оценки, определение характеристик и управление. М.: Наука, ГР ФМЛ, 1966. - 176 с.

21. Льюнг Л. Идентификация систем. Теория для пользователя: Пер с англ. / Под ред. Я.З. Цыпкина. М.: Наука, ГР ФМЛ, 1991. - 432 с.

22. Маркел Дж., Грей А.Х. Линейное предсказание речи: Пер. с англ. / Под ред. Ю.Н. Прохорова, B.C. Звездина. М.: Связь, 1980. - 308 с.

23. Мартин-Санчес X. Новое решение задачи адаптивного управления. //ТИИЭР.- 1976.-Том 64.- № 8.-С. 106-117.

24. Медведев О.Н., Санников В.Г. Оценка мелодии основного тона речи в шумах // VI международная НТК: «Перспективные технологии в средствах передачи информации»: Матер, конф. Владимир.: РОСТ, 2005. - С. 216218.

25. Медведев О.Н., Санников В.Г. Оптимизация метода кодирования речевых сигналов на основе адаптивной дифференциальной ИКМ // Международная НТШС «МОЛОДЫЕ УЧЕНЫЕ»-2006: Матер, конф. М.: МИРЭА, 2006. -С. 172-174.

26. МСЭ-R. Рекомендация BS.1196. Кодирование звука в наземном цифровом телевизионном вещании. -1995.

27. МСЭ-Т. Рекомендация G.701. Общие аспекты цифровых систем передачи. Названия терминов по цифровой передаче, цифровому группообразованию и импульсно-кодовой модуляции (ИКМ). 1993.

28. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. -М.: Радио и связь, 1985. 176 с.

29. Немчинов B.C. Полиномы Чебышева и математическая статистика. М.: СХА им. К.А. Тимирязева, 1946. - 146 с.

30. Нехаев А.Л., Перцева В.А., Ситняковский И.В. Результаты исследования адаптивных речевых кодеков // ЭЛЕКТРОСВЯЗЬ. 1984. - № 1. - С. 37-39.

31. Орищенко В.И., Санников В.Г., Свириденко В.А. Сжатие данных в системах сбора и передачи информации. / Под ред. В.А. Свириденко. М.: Радио и связь, 1985.- 184 с.

32. Пилипчук Н.И., Яковлев В.П. Адаптивная импульсно-кодовая модуляция // Статистическая теория связи Вып. 25. М.: Радио и связь, 1986. - 296 с.

33. Покровский Н.Б. Расчет и измерение разборчивости речи. М.: Связьиз-дат, 1962.-391 с.

34. Попков Ю.С., Ашимов А.А., Асаубаев К.Ш. Статистическая теория автоматических систем с динамической частотно-импульсной модуляцией. М.: Наука, ГР ФМЛ, 1988. - 256 с.

35. Прокис Дж. Цифровая связь. Пер. с англ. / Под ред. Д.Д. Кловского. М.: Радио и связь, 2000. - 800 с.

36. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов //Статистическая теория связи Вып. 20. М.: Радио и связь, 1984.-240 с.

37. Рабинер JT.P., Шафер Р.В. Цифровая обработка речевых сигналов: Пер с англ./ Под ред. М.В. Назарова, Ю.Н. Прохорова М.: Радио и связь, 1981. -496 с.

38. Санников В.Г. Теоретический анализ заметности искажений речевых сигналов по громкости их слухового восприятия // ЭЛЕКТРОСВЯЗЬ. 2002. -№ 12.-С. 38-42.

39. Санников В.Г., Медведев О.Н. Исследование метода синтеза речи через её анализ в системе автоматического слежения // Международная НПК 1NTERMATIC-2004: Матер, конф. М.: МИРЭА, ЦНИИ «Электроника». -2004.-Часть2.-С. 67-71.

40. Санников В.Г. Статистический анализ методов формирования речевых сигналов. М.: МТУ СИ, 2005. - 140 с.

41. Санников В.Г., Медведев О.Н. Сегментный анализ основного тона речи на основе аппроксимации спектра многочленами Чебышева // Деп. в ЦНТИ «Информсвязь» от 26.05.06 № 2279 св. 2006. С. 15-20.

42. Санников В.Г., Медведев О.Н. Спектральный анализ основного тона речи на основе многочленов Чебышева // Международная НТК INTERMATIC-2005: Матер, конф. -М.: МИРЭА. 2006. - Часть 2. - С. 13-15.

43. Санников В.Г., Медведев О.Н. Эффективный голосовой кодер с полиномиальным синтезом спектра погрешности предсказания речевого сигнала // МОБИЛЬНЫЕ СИСТЕМЫ. 2007. - № 3. - С. 38-42.

44. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.-452 с.

45. Сапожков М.А., Михайлов В.Г. Вокодерная связь. М.: Радио и связь, 1983.-248 с.

46. Сейдж Э., Меле Дж. Теория оценивания и ее применение в связи и управлении: Пер с англ./ Под ред. Б.Р. Левина. М.: Связь, 1976. - 496 с.

47. Ситняковский И.В., Мейкшан В.И., Маглицкий Б.Н. Цифровая сельская связь / Под ред. М.Д. Бенедиктова. М.: Радио и связь, 1994. - 248 с.

48. Ситняковский И.В., Порохов О.Н., Нехаев А.Л. Цифровые системы передачи абонентских линий. М.: Радио и связь, 1987. - 216 с.

49. Скляр Б. Цифровая связь. Теоретические основы и практическое применение.: Пер. с англ. -М.: ИД «Вильяме», 2003. 1104 с.

50. Соболев В.Н. Сокращение объёма передаваемой информации о мелодическом параметре в вокодерных системах // Телекоммуникации.-2002.-№ 12. -С. 11-13.

51. Сэломон Д. Сжатие данных, изображений и звука: Пер. с англ. М.: Техносфера, 2006. - 365 с.

52. Технология кодирования речи в высококачественных цифровых телефонных системах // CHIP NEWS. 1996. - № 5. - С. 8-10.

53. Уидроу Б., Стирнз С. Адаптивная обработка сигналов: Пер. с англ. М.: Радио и связь, 1989. - 440 с.

54. Устойчивость адаптивных систем: Пер. с англ. / Б. Андерсон, Р.Битмид, К. Джонсон и др. М.: Мир, 1989. - 263 с.

55. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. - 283 с.

56. Фланаган Дж. JT. Анализ, синтез и восприятие речи: Пер. с англ. / Под ред. А.А. Пирогова М.: Связь, 1968. - 396 с.

57. Фомин А.Ф., Прохоров Ю.Н., Неклюдов Ю.Н., Нго Куанг Минь. Сравнение адаптивных линейных устройств предсказания для кодеков речи с АДИКМ и АДМ // ЭЛЕКТРОСВЯЗЬ. 1994. - № 10. - С. 27-29.

58. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. М.: «Связь», 1971.-255 с.

59. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. -М.: Радио и связь, 2000.-456 с.

60. Шеннон К.Э. Работы по теории информации и кибернетике: Пер. с англ./ Под ред. Р.А. Добрушина, О.В. Лупанова. М.: ИЛ, 1963. - 830 с.

61. Ярлыков М.С. Применение Марковской теории нелинейной фильтрации в радиотехнике. М.: Советское радио, 1980. - 360 с.

62. Abut Н., Gray R.M., Reboledo G. Vektor Quantization of Speech and Speechlike Waveform // IEEE Tr, ASSP. 1982. - V. 30. - № 3. - P. 423-435.

63. Atal B.S. Predictive Coding of Speech at Low Bit Rates // IEEE Tr., COM. 1982.-V.30.-№4. -P. 600-614.

64. Atal B.S. et all. Spectral Quantization and Interpolation for CELP Coders // ICASSP. 1989. -V. 1. - P. 211- 220.

65. Bertorello L., Copperi M. Design of a 4,8 / 9,6 kbps Base Band LPC Coder using Split-Band and Vector Quatization // ICASSP. 1983. -V. 3. - P. 13121315.

66. Campbell J.P. et all. An Expandeble Errorprotected 4800 bps CELP Coder (U.S. Federal Standart 4800 Voice Coder) // ICASSP. 1989. -V. 2. - P. 1111-1200.

67. Casajus-Quiros F.J., Hernandes-Gomes L.A., Carcia-Mateo C. Analysis and Quantization Procedures for a Real-Time Implementation of a 4,8 kbps CELP Coder // ICASSP. 1990. - V. 1. - P. 221-225.

68. Castellano P.J., Sridharm S., Boland S. Effects of speech coding on speaker verification // Electron Lett. 1996. - 32 - № 6. - P. 517-518.

69. Chiu K.M., Ching P.C. Quan-band excitation for low bit rate speech coding. // J. Acoust. Sot. Amer. 1996. - 99, № 4. Pt.l. - P. 2365-2369.

70. CC1TT. Recommendation G.711 .Red Book,VIII.3. 64 kbps PCM.

71. CCITT. Recommendation G.721. Red Book. VIII. 3. 32 kbps Adaptive Differential Pulse Code Modulation (ADPCM).

72. CCITT. Recommendation G.726. -40, 32, 24, 16 kbps Adaptive Differential Pulse Code Modulation (ADPCM).

73. CCITT. Recommendation G.727. -5-, 4-, 3-, and 2 bits Sample Embedded Adaptive Differential Pulse Code Modulation (ADPCM).

74. CCIR GSM Rec T/L/03/11. A 13 kbps Regular Pulse Excitation Long Term Predic- tion-Linear Predictive Coder for the Pan-European Digital Mobile Radio System, 1988.

75. Cox R.V. Draft Recommendation G.723.1 Dual Rate Speech Coder for Multimedia Telecommunication Transmitting at 5,3 and 6,4 kbps. - ITU, Telecomm. Standartization Sector, LBC95- 085, - 1995. - P. 1-24.

76. Cox R.V., Kroon P. Low bit-rate Speech Coders for Multimedia Communication //IEEE Communications Magazine. December 1996.-P. 34-41.

77. Draft Recommendations G.726, G.727. CCITT Group XV Report 38, 1990.

78. Hasib A., Hacioglu K. Source combined linear predictive analysis in pulse-based speech coders // IEE Proc. Vision, Image and Signal Process.-1996.-№ 3.

79. Federal Standard 1016. Telecommunications: Analog to Digital Conversion of Radio Voice by 4800 bps Code Excited Linear Prediction (CELP). General Serv. Adm., Office oflnf. Resources Mangm., Febr.,14,1991. -P.1-12.

80. Gallard C., Rosso M. et all. MPE/LPE Speech Coding for Mobile Radio Applications//Speech Communication. 1988.-V. 7.-№2.-P. 167-178.

81. Gersho Allen. Advances in speech and audio compression // Proc. IEEE. 1994. -82.-№6. -P. 900-918.

82. Guyader A., Manaloux D., Zureher. A Robust and Fast CELP Coder at 16 kbps // Speech Communication. 1988. - V. 7. - № 2. - P. 217-226.

83. Haagen J., Nielsen H., Hansen S.D. A 2,4 kbps High-Ouality Speech Coder // ICASSP, S9. 1991.-V. 5. -P. 589-592;

84. Itakura F. Minimum prediction residual applied to speech recognition // IEEE Trans. ASSP.- 1975.-V. 23.- №1.-P. 67-72.

85. International Standard ISO/IEC 15938-4. Information technology Multimedia content description interface - Part 4: Audio, 2002.

86. ISO/IEC FCD 14496-3. Subpart 1. Information technology Very Lov Bitrate Audio-Visual Coding. - Part 3: Audio, 1998-05-10 (ISO/JTC 1/SC 29. - N 2203).

87. Kabal P., Ramachandar R.P. Joint Optimization of Linear Predictors in Speech Coders // IEEE J., ASSP. 1989. - V. 37. - P. 642-650.

88. Kleijn W. B. On the periodicity of speech coded with linear-prediction based analysis coders // IEEE Trans. Speech and Audio Process. 1994. -V. 2. - № 4. -P. 136-138.

89. Kroon P., Deprettere F. A Class of Analyses by Synthesis Predictive Coders for High Quality Speech Coding of Rates Between 4,8-16 kbs // IEEE J., SAC. -1988.-V. 6.- №2.-P. 9-14.

90. Levine S. Audio Representation for Data Compression and Compressed Domain Processing // Departament of Electrical Engineering and the Committee on Graduate Studies of Stanford University. Dezember. - 1998.-215 p.

91. Lox R., Kleugn В., Kroon P. Robust CELP Coders for Noisi Backgrounds and Noisy Channels // ICASSP. 1989. - V. 1. - P. 310-314.

92. Mc Aulay R.J., Quantieri T.F. Multirate Sinusoidal Transform Coding at Rate from 2,4 to 8 kbps // ICASSP. -1987. V. 3. - P. 744-754.

93. Musman H.G., Werner O., Fuchs H. Kompressions algoritmen fuer interactive Multimedia Systeme // Informationstechnik und Technische Informatik. -1993.-№2. -P. 4-18.

94. Painter Т., Spanias A. Perceptual Coding of Digital Audio // Proceedings of the IEEE. 2000. - V. 88. - № 4. - P. 451-513.

95. Spanias A.S. Speech Coding: A Tutorial Review // Proc. of the IEEE. 1994. -V. 82.-№10. -P. 1539-1994.

96. Tavatia S., Porayath R., Doherty J F. Lattice CELP for low bit rate speech coding //Mil. Commun. Global Inf. Age: Synergies, Innov. and Monmouth Chapter Symp., Fort Monmouth, N. J. 1994. - V. 3. - Piscataway (N. J.). - 1994. -P.703-707.

97. The Past, Present and Future of Speech Processing // IEEE Signal Processing Magazine. May 1998. -P. 24-48.

98. Verpek P., Scordilis M.S. Analysis, enhancement and evaluation of five pitch determination techniques // Speech Communication. 2002. -№ 3. - P. 249270.

99. ITU-T Recommendation P.800. Methods for Subjective Determination of Speech Quality. 1996.

100. Picovici D., Mahdi A.E. and Murphy T. Ah Enhanced Single-Ended Method for Objective Speech Quality Assessment for Telephony Systems // SPECOM 2005. Proceedings 10th International Conference SPEECH and COMPUTER. 2005. Patras, Greece. - P. 633-636.

101. Rabenstein R., Spors S. and Steffen P. Wave field Synthesis Techniques for Spatial Sound Representation // Acoustic Echo and Noise Cancellation / E. Han-sler and G. Schmidt eds. Springer Verlag. 2006. - P. 1-15.