автореферат диссертации по радиотехнике и связи, 05.12.13, диссертация на тему:Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет
Автореферат диссертации по теме "Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет"
На правах рукописи
РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ НИЗКОСКОРОСТНОГО КОДИРОВАНИЯ РЕЧИ НА ОСНОВЕ СЛУХОВЫХ ВЕЙВЛЕТ
Специальность 05.12.13 - Системы, сети и устройства телекоммуникаций
Автореферат диссертации на соискание ученой степени кандидата технических наук
Москва-2008
003453092
Работа выполнена на кафедре теории электрической связи Государственног образовательного учреждения высшего профессионального образован Московский технический университет связи и информатики (ГОУВПО МТУ СИ)
Научный руководитель
кандидат технических наук, доцент Санников Владимир Григорьевич
Официальные оппоненты: доктор технических наук, профессор
Венедиктов Михаил Дмитриевич
кандидат технических наук, профессор Котиков Вячеслав Иванович
Ведущая организация
ОАО «Концерн «Созвездие»
Защита состоится 04 декабря 2008 года в 13-00 часов на заседании диссерт ционного совета Д 219.001.03 по присуждению ученой степени кандидата техн ческих наук при ГОУВПО «Московский технический университет связи и и форматики» по адресу: 111024, Москва, ул. Авиамоторная, дом 8а, ауд. А-448.
С диссертацией можно ознакомиться в библиотеке МТУСИ.
Автореферат разослан
Ученый секретарь диссертационного совета
Косичкина Т.П.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы
Прогресс науки и техники во всем мире стимулирует широкое использование цифровой обработки, передачи (хранения) постоянно увеличивающихся потоков разнородной информации, значительный объем которой составляет речевая информация. В связи с тем, что существующие телекоммуникационные системы передачи (хранения) речевой информации обладают ограниченной пропускной способностью (емкостью памяти), встает задача исследования проблемы повышения их эффективности. Такие исследования позволили выявить тот факт, что речевые сообщения несут избыточные, либо несущественные для получателя сведения. Поэтому возникла задача сокращения (сжатия) объема передаваемых (запоминаемых) данных цифрового представления речевых сообщений в голосовых кодерах путем устранения их естественной избыточности.
При эффективном кодировании речи наибольшее распространение находят методы кодирования с линейным предсказанием, среди которых видное место на низких скоростях передачи (3+16 кбит/с) занимают методы адаптивного кодирования с линейным предсказанием на основе анализа через синтез (ЛПАС). Наряду с методами ЛПАС кодирования часто применяются также методы адаптивного кодирования речи с преобразованием.
Большой вклад в решение задач эффективного кодирования речи внесли многие ученые и инженеры, среди которых следует выделить: Атала Б. С., Барн-велла Т.П., Берторелло Л., Бенедиктова М.Д., Викерхаусера М.В., Голда Б., Гершо
A., Гибсона Дж. Д., Итакуры Ф., Кампбелла Дж. П., Кириллова С.Н., Кокса Р.В., Круна П., Левина С., Макхоула Ж.И., Назарова М.В., Пирогова A.A., Прохорова Ю.Н., Пейинтера Т., Рабинера Л. Р., Рейдера Ч., Роса Р.К., Санникова В.Г., Са-пожкова М.А., Свириденко В.А., Ситняковского И.В., Спаниаса A.C., Сэломона Д., Хаагена Дж., Чиу K.M., Шафера Р.В., Шелухина О.И., Шредера М.Р., Яковлева
B.П. и других российских и зарубежных ученых.
Эффективные голосовые кодеки широко используют модели речеобразова-ния и слухового восприятия речи, рассматриваемые в работах авторов: Альтмана Я.А., Бибикова Н.Г., Вартаняна И.А., Галунова В.И., Грея А.Х., Дубровского H.A., Клатта Д., Лабутина В.К., Маркела Дж., Молчанова А.П, Ржевкина С.Н., Санникова В.Г., Соболева В.Н., Сорокина В.Н., Сиберта У., Фанта Г., Фельдкеллера Р., Фланагана Дж., Цвикера Э., Чистович Л.А., Шуплякова B.C. и др.
Анализ методов низкоскоростного кодирования речевых сигналов показывает, что наиболее эффективны те методы, которые в полной мере учитывают как модели речеобразования, так и модели слухового восприятия речи. Если модели речеобразования практически полностью реализованы в кодеках речи, относящихся к классу ЛПАС, то модели слухового восприятия речи в них слабо отражены. Кроме того, при кодировании речи с преобразованием в настоящее время используются базисы, не согласованные с нестационарной структурой речи. Используемые же новые базисы на основе вейвлет представлений не согласуются со свойствами слуховой системы, которая адекватно воспринимает не-
3 . ь
стационарную речь. Поэтому проблему повышения эффективности цифровых систем передачи речи необходимо решать в двух направлениях. Первое направление связано с проведением анализа модели преобразования речи в слуховой системе человека, разработкой адекватных слуховому восприятию слуховы вейвлет и использованием их в задачах компрессии цифрового представления речевых сигналов. Второе направление связано с оптимизацией метода ЛПАС кода рования речевых сигналов с более полным учетом психоакустической модел слухового восприятия речи.
Цель и задачи исследования
Разработка и исследование методов цифрового представления и низкоскоро стного кодирования речевых сигналов, передаваемых по телекоммуникационны каналам с ограниченной пропускной способностью, на основе усовершенствован ной психоакустической модели слухового восприятия речи.
Для достижения поставленной цели сформулированы и решены следующи основные задачи:
• Произведен анализ основных закономерностей преобразования речевого сиг нала на периферии слуховой системы человека с целью усовершенствован психоакустической модели слухового восприятия речи.
• Произведен анализ пороговых зависимостей слухового восприятия речи и по лучены аналитические соотношений для различных характеристик слуховы фильтров, а на их основе построены ортогональные базисы, согласованные с спектральными свойствами слуховой системы в выделенных полосах частот.
• Разработан слуховой материнского вейвлет.
• Разработан новый метод линейного предсказания речи.
• Разработан новый критерий оптимизации голосовых кодеров по кригерр громкости погрешности синтеза речи.
• Оптимизированы методы низкоскоростного кодирования речи в классе линей ного предсказания с анализом через синтез (ЛПАС) и представлением сигнал погрешности предсказания в ортогональном базисе слуховых фильтров.
Методы исследований
Методы теории оптимальных и адаптивных систем; методы сжатия данных методы оценки качества систем передачи речи; методы вейвлет обработки сигна лов; методы теории речеобразования и слухового восприятия речи; методы стати стического машинного моделирования и предсказания речевых сигналов.
Научная новизна работы
• Исследована радиотехническая модель и получены аналитические соотнош ния для различных характеристик преобразования речи на периферии слух вой системы, составляющие основу её психоакустической модели.
• Впервые получены аналитические соотношения для пороговых зависимосте слышимости тона при его маскировке стационарным белым, равномерно ма кирующим и узкополосным шумами; на основе анализа пороговых зависим
стей впервые получены аналитические соотношения для комплексных коэффициентов передачи эквивалентных слуховых фильтров.
• На основе исследования слуховых фильтров получен новый математический объект - слуховой материнский вейвлет; доказано условие его допустимости; получено новое представление речевого сигнала в согласованном с ним базисе слуховых вейвлет; разработан новый метод кодирования речи на основе адаптивного кратномасштабного базиса слуховых вейвлет.
• Разработан новый метод представления речевого сигнала в оптимальном ортогональном базисе слуховых фильтров, для которых рассчитаны канальные матрицы и соответствующие им собственные векторы.
• Разработана и исследована новая АР-АРСС модель линейного предсказания речевого сигнала.
• Разработан новый алгоритм текущей оценки громкости речи, в полной мере учитывающий свойства её слухового восприятия.
• Разработаны и оптимизированы методы низкоскоростного ЛПАС кодирования речи с повышенной эффективностью.
Практическая значимость работы
Результаты выполненных исследований могут быть положены в основу разработки конкретных систем передачи речевой информации с ограниченной пропускной способностью или при её хранении в запоминающих устройствах с ограниченной емкостью. Разработанные в диссертации способы эффективного кодирования речи в классе ЛПАС, обеспечивают в соответствии с ГОСТ Р 51061- 97 первый класс качества по разборчивости на скоростях до 3,2 кбит/с. Это значительно меньше скорости, обеспечиваемой кодеком с АДИКМ, рекомендованного (в соответствии с Приказом Министерства РФ по связи и информатизации № 175 от 23.07.2001) в качестве основного в оборудовании службы голосовых сообщений. При равном качестве синтеза речи разработанные методы кодирования, по сравнению кодером стандарта GSM на скорости 13 кбит/с, обеспечивают скорость передачи на 38% меньшую, а именно 8 кбит/с.
Изложенные в работе методы и алгоритмы низкоскоростного кодирования речи были использованы при проведении научно-исследовательских работ МТУСИ с Группой Телекоммуникационных Компаний «ITNT Group» (ЗАО «Компания ИНТЕНТ», ЗАО «СПРОС ИТ», г. Москва) ООО «Теле.ру» и применены при разработке и организации доступа абонентов к услугам местной, междугородней и международной связи посредством интеллектуальной платформы речевого сопровождения, а также при предоставлении абонентам телефонной сети дополнительной услуги - «голосовая почта», при организации речевого управления информационными ресурсами интеллектуальной сети «Ольга».
Основные положения, выносимые на защиту
1. Радиотехнический подход к преобразованию речи на периферии слуховой системы, как основа психоакустического модели её слухового восприятия.
/VS
2. Методы представления речевого сигнала в согласованном с речью базисе слуховых вейвлет и в ортогональном базисе слуховых фильтров.
3. Методы низкоскоростного кодирования речи с преобразованием и в классе ЛПАС с повышенной эффективностью.
4. Результаты машинного моделирования, подтверждающие работоспособность разработанных методов.
Достоверность полученных результатов
Достоверность полученных результатов обусловлена адекватностью моделей применительно к речевой тематике, корректностью математических выкладок, согласованием результатов теоретического анализа с данными вычислигельног эксперимента, которые подтверждают непротиворечивость основных теоретиче ских результатов и выводов, положительными результатами внедрения.
Личный вклад соискателя
Все разделы диссертационной работы выполнены лично автором. Изложен ные в диссертационной работе результаты исследований методов кодироваш речи получены либо автором лично, либо при его непосредственном участии.
Апробация работы
Основные результаты работы были представлены на следующих научно технических конференциях: международные научно-практические конференщ «Фундаментальные проблемы радиоэлектронного приборостроения» 1ЫТЕ1ШАТ1С-2005 и МГЕКМАТ1С-2007, Москва, 2005 г. и 2007 г. Научная кон ференция профессорско-преподавательского, научного и инженерно технического состава МТУСИ, Москва, 2005 г. Международная научно техническая школа-конференция «Молодые ученые - науке, технологиям и про фессиональному образованию в электронике», Москва, 2006 г. Московская отрас левая научно-техническая конференция «Технологии информационного общест ва», МТУСИ, Москва, 2007 г. Международная научно-техническая конференщ «Фундаментальные проблемы радиоэлектронного и оптоэлектронного приборо строения», Москва, 2008 г. XIV международная научно-техническая конференщ «Радиолокация, навигация, связь» (1Ш^С*2008), Воронеж, 2008 г.
Публикации результатов
Основные положения диссертационной работы изложены в десяти печатны работах. Список публикаций приведен в конце автореферата.
Объем и структура диссертации
Работа включает: введение, четыре главы, заключение, список использован ных источников. Она изложена на 153 страницах машинописного текста, включ 39 рисунков и 19 таблиц. Список использованных источников включает 103 на именования.
/уу-
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность работы, определены цель и задачи исследований, указываются научная и практическая значимость работы, кратко излагается её содержание по главам.
В первой главе дается общая характеристика цифровых систем передачи речи (ЦСПР). Обращается внимание на то, что повышение эффективности современных ЦСПР достигается в основном путем совершенствования моделей рече-образования и в меньшей степени моделей слухового восприятия речи. Полагая этот подход односторонним, так как слуховое восприятие речи осуществляется не только на приёмном, но и на передающем конце ЦСПР, в работе анализируется ЦСПР, в которой источник речеобразования учитывает слуховую обратную связь. Проводится анализ принципов преобразования речевого сигнала на периферии слуховой системы, необходимых для построения адекватной психоакустической модели слухового восприятия речи. Отмечается, что повышение эффективности существующих методов кодирования речи можно достичь при учете не только информации о моделях речеобразования, но и, что очень важно, при информации о слуховом восприятии речи. Далее в главе дается краткий обзор методов низкоскоростного кодирования речи, учитывающих в той или иной степени модели речеобразования и слухового восприятия речи человеком. Определяются критерии верности восстановления (синтеза) речи. Отмечаются недостатки существующих кодеров речи и ставятся задачи диссертационного исследования.
Во второй главе развивается радиотехнический подход к преобразованию речевого сигнала на периферии слуховой системы; исследуются аналитические и цифровые модели периферии слуха; рассматриваются вопросы аппроксимации нелинейных зависимостей периферии слуха, заданных графически, аналитическими соотношениями; выводятся пороговые зависимости слышимости тона при его маскировке стационарными шумами. Данные исследования служат основой для формирования психоакустической модели слухового восприятия речи, используемой в низкоскоростных кодерах речи с повышенной эффективностью.
Согласно современным представлениям слуховая система человека - это сложная биологическая нейросенсорная система, отображающая одномерное пространство входного сигнала .$■(/) в многомерное пространство ощущений с выделением условных уровней. На первом уровне, характеризующем работу наружного и среднего уха, речевой сигнал ) подвергается низкочастотной фильтрации. АЧХ этого фильтра кй(/) = кйю~°05я1(Л определяется частотной зависимостью уровня затухания аь (/) звукового сигнала на участке до внутреннего уха:
где уровень аь определяется в дБ, а частота / в кГц.
На втором уровне моделируется распространение звуковой волны, создаваемой ударами стремечка о мембрану овального окна, вдоль базилярной мембраны (БМ) улитки внутреннего уха. Этот процесс хорошо моделируется многоотводной1 линией задержки, отклики которых суммируются с внутренними (сенсорными) шумами. Частотная зависимость уровня п£(/) шума определяется так:
+
1 +
~т
(2>
На третьем уровне осуществляется преобразование сигналов в некоторой радиотехнической системе, содержащей: линейную резонансную систему (слуховой1 фильтр (СФ)), нелинейный преобразователь и ФНЧ. СФ определяется амплитуд-1 но-высотно-частотной характеристикой вида (рисунок 1):
к(гт,/) = 1 +
1
4ао
ШЬп! /
-р/2
т=Ут1
бм '
(3)
где резонансная частота и полоса частот СФ определяются соотношениями
/г ) = ^ зЬ [Ъ2т], Д/(2т) = Ъ[Ъ2 т], (4),
2т = ткг - высота тона в барках, Ъ = 0,1654 (1/барк), = 0,579 (кГц), Р = 0,04 (кГц) - постоянные слуха, тбм - число внутренних волосковых клеток БМ.
Рисунок 1 - Амплитудно-высотно-частотная характеристика СФ
Рисунок 2 - Пороговые зависимости слышимости тона при маскировке его узкополосным шумом
Далее на третьем уровне нелинейный преобразователь и ФНЧ образуют ам плитудный (слуховой) детектор, отклик которого, отображает электрический по тенциал, возникающий в синаптических окончаниях нейронов слухового нерва. ( Четвертый уровень характеризует работу нейронов слухового нерва, моде лью которых является система с динамической частотно-импульсной модуляции
(ДЧИМ), содержащая сумматор, динамический фильтр Фт,т = 1 ,ты , и импульсное устройство с параметрической обратной связью. Выход импульсного устройства моделирует действие аксона нейрона, генерирующего импульсный поток сШт (/), т = 1 ,ты , с частотой следования, зависящей нелинейно от уровня звукового давления сигнала на выходе его сумматора.
Характерной особенностью слуха является его пороговая чувствительность. Реакции слушателя возникают только тогда, когда уровень стимула на заданной частоте находится выше порога слухового ощущения. Учет эффектов слуховой маскировки при проектировании ЦСПР позволит снизить требования к величине возникающих в них искажений и в результате улучшить их качественные показатели. В виду того, что известные пороговые зависимости заданы только графически, в работе получены их аналитические выражения:
¿„(г) = /бш + 26,5 + 1А (г) +101§ ¡1 + юМм^-г^дЮ]}, (5)
1рвш(2) = 16ш-1д(г) = /6ш+26,5, (6)
Ъл (г) = с + ЬтоЛ + Ж%к>{г,/Х) + 101В[1 + 10° Ч^Л^/о-ы^ (7)
которые с высокой точностью описывают экспериментальные зависимости психоакустических экспериментов. Здесь Ьп(г) и ¿рвш(г)- пороговые зависимости
при воздействии на слуховую систему белого и цветного шумов с уровнем /бщ, 1п1(г) - пороговые зависимости (рисунок 2) при воздействии на слуховую систему узкополосного шума на частоте 1 кГц с уровнем ¿тонЬ с = -2 дБ и р = 10 - постоянные. В (5) и (6) 1д(2г) = Ю^Д/ОО - уровень маскирующей составляющей, зависящий от полосы пропускания слуховых фильтров, 10 (/)=аь (/) + п, (/) -кривые порога слышимости в тишине (нижняя зависимость на рисунке 2).
Третья глава посвящена разработке и исследованию методов представления речевых сигналов в базисах слуховых вейвлет и слуховых фильтров. Вначале проводится теоретический анализ эффекта обострения слухового восприятия речи на основе изучения порогов слышимости тона узкополосным шумом. На основе данного анализа показывается, что пороговые кривые на рисунке 2 соответствуют экспериментальным кривым только, если в соотношении (7) показатель степени /т=10. Показывается, что амплитудно-частотные характеристики и импульсные реакции слуховых фильтров локализованы во временной и частотной областях, и удовлетворяют известным свойствам таких математических объектов, как вейвле-ты. Делается заключение о том, что слуховая система осуществляет не спектральный, как это принято считать, но более совершенный - вейвлет анализ речевых сигналов. Проводится сравнение графиков динамических спектров Фурье и вейвлет изображений речевого сигнала. Показывается, что слуховые спектрограммы (вейвлет изображения) более информативны.
Используя принятую в психоакустике методику определения параметров (например, громкости в фонах) на стандартной частоте, равной 1 кГц, формируется слуховой материнский вейвлет (СМВ) - как нормированная импульсная реакция слухового фильтра следующего вида:
г( 9 \ / 9 \
|Л'=1 / 41=0 )
где а =0,50754. Остальные параметры в (8) сведены в таблицу 1.
Таблица 1 - Числовые параметры слухового материнского вейвлета (СМВ)
Уо 3.009395706877356 10""" ¿0 2.277599514320464 10"""
С1 -2.277599514320464 10™и -1.522461019835360 10™°°
С2 1.522461019835360 10"™°" $2 4.921064672914718 10™'
Сз -1.251306305398293 10™° ■УЗ 3.734457169873918 Ю4"1
С4 1.340412896243949 Ю4"' «4 -3.902753001944929 Ю4*"
Съ -7.744012414539296 Ю4*" «5 8.101688457136727 10^
Сб -2.503987589116556 10™ «6 -4.806865264221888 КГ"1"
С7 -1.037184529196510 Ю4*" 4.875119600673430 10™
С8 4.910529191268836 104" 6.500886448020754 10™
С9 1.250071567453494 Ю4"3 ¡9 -1.309614462960622 Ю4"5
Спектр СМВ ищется в виде
, до- (9)
где II Ьр=1о 11= 0.2168905, <2\ = 6.18984.
Далее в работе формируется семейство растянутых (с масштабом л) и сдвинутых во времени на и слуховых вейвлет, а также дается представление речи в полученном базисе на основе прямого и обратного вейвлет преобразований:
1Гх{и,В)=] Х^^1—V 40-—]] (10
^ л/Х У 5 ) Су л/Л1 V 5 / •У
оо
Представления (8)-ь(10) допустимы при условии су = || \2 V~хсЫ < +оо.
о
Расчет этой величины для слухового вейвлета дает с¥ = 8,4514787 • 10~23.
Для соотношений в (10) получены алгоритмы быстрых дискретных вейвле преобразований речи. Степень отличия исходного и синтезированного сигнало определялась по отношению сигнал/погрешность синтеза вида
Ис!В = тё(Пх/Ве), дБ, __(11
где Ох - дисперсия исходной выборки речи хк ,к = 0, N -1,2?е (/„, 5) - дисперсия по грешности синтеза гк (/0, $) = [хк - хк (10, .?)],к = 0, N -1.
Реализация соотношений в (10) иллюстрируется рисунком 3. Здесь показг график фонограммы слова «Эти» (верхний график) и его вейвлет изображени (средний график). На нижнем графике изображен синтезированный сигнал.
Показано, что оптимальная задержка, которая вносится алгоритмом синтез речи, равна 10 = 2.у. В таблице 2 представлены расчеты кйВ для различных 5.
/■УГ
5 0,32 0,38 0,45 0,62 0,72 0,85 1,05 1,18 1,32 1,37 1,52 1,65 1,85 1,98
Ш 33,2 52,3 52,3 44,9 47,9 42,3 31,3 24,0 17,6 15,8 10,8 9,16 13,4 6,95
Речевой сигнал: фонограмма слова "ЭТМ"
1 -г-1-1-1-I-1-I-
О 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Синтез речевого сигнала посредством обратного ДВП
1 — 1
'ЩЩ 11ТР 1
1 _]__I_[_I_)_I_I_I_1_
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Время (сек.)
Рисунок 3 - Речевой сигнал, его прямое вейвлет преобразование и синтезированный речевой сигнал, полученный на основе обратного вейвлет преобразования
Анализируя таблицу 2 заключаем: синтез речевого сигнала в базисе слуховых вейвлет осуществляется при любом масштабе у (на любой характеристической частоте >1 = 1/5), но с разным качеством. В соответствии с ГОСТ Р 51061-97 [6], здесь высший класс качества по разборчивости, соответствующий ОСШ >25 дБ, обеспечивается при 0.30<5<1.15 мс (0,87 < 'к < 3,4 кГц), первый класс (ОСШ 8-н25 дБ) при 1.15<у<1.95мс (0,51<Х<0,87 кГц).
При обработке речи часто требуется выделить только отдельные её компоненты в той или иной области частот. С этой целью в работе введен кратномас-штабный базис вейвлет с ^ =а2-7,у = 0,1,2,... Величина а = 3,2 выбрана из условия, чтобы спектры слуховых вейвлет в (9) располагались в области слышимых частот 0+4 кГц. Тогда на г - ом сегменте анализа представление выборки речи в кратно-масштабном базисе {\\)и (0} слуховых вейвлет описывается так
*,.(0 = 1Е(сля), = (12)
] П ] П ^JSj Sj
Показано, что в базисе (г)} речь определяется только малой частью коэффициентов в разложении (12). Так на стандартной фразе «Эти жирные сазаны
11
ушли под палубу» при разбиении её на сегменты по 32 мс, на каждом сегменте среднем вместо 256 отсчетов достаточно учесть только 8, что обеспечивает коэф фициент сжатия ксж = 256/8 = 32 (битовую скорость 2 кбит/с). Однако в соответ ствии с ГОСТ Р 51061-97 качество по разборчивости здесь соответствует тольк второму классу. Для повышения качества синтеза речи не ниже первого требуете оптимизировать этот базис. Поэтому в работе предложен комбинированный ба зис, включающий базис {ч/Ия (/)} и составляющую, адаптивно изменяющуюся
соответствии с изменением периода основного тона речи, следующего вида:
4Vjt(0 = sk*,/cos(2ti^) + blxl cos(2t^0j' = 0,2,-1. (13
/=i
Формирование оптимальной, приспособленной к текущему сегменту реч базисной функции (13) осуществляется определением на i - ом сегменте парами ров F, opl, a,,opt и b,i0pь обеспечивающих максимум величины (11). Здесь а, ор/ и Ь,,0 определяются как параметры ряда Фурье.
Разработан и исследован адаптивный кодер, работающий по принципу ан лиза через синтез и кодирования с преобразованием в кратномасштабном базис слуховых вейвлет. На скорости 4 кбит/с кодер обеспечивает качество речи по pi борчивости, соответствующее первому классу.
На основе анализа энергии
N-1N-1 °°
Ey(z) = £ XvJvC - nAt,z)xV(t - mAt,z)dt = x"H(z)x, (1
n=0«=0 о
отклика слухового фильтра с импульсной реакцией (8) на выборку реч х„, я = 0,jV-1, проводится расчет канальной матрицы H(z)=Q(z)JI(z)Q(z)'r, г Q(z) - ортонормированная матрица, вектор-столбцы которой собственные вект ры матрицы H(z), JI(z) = [7-к (z)], Л = 0,iV — 1, - диагональная матрица, составле ная из собственных чисел матрицы H(z).
С учетом факторизации матрицы H(z) любой вектор речевого сигнала на том сегменте анализа может быть представлен в следующем виде
x,=Q(z)y,(z), y,(z) = Q(z)4 _(1
Экспериментально показано, что дисперсии коэффициентов ук,к = 0,N -представления речи в ортогональном базисе слуховых фильтров распределе резко неравномерно; между различными компонентами этих коэффициентов н блюдается значительная корреляция. Учет этих факторов позволяет повысить э фективность обработки речи при её компактном представлении путем примен ния процедуры декорреляции и порогового отбора наиболее информативных ко понент ук,к = 0,N-1 вектора y,(z).
В четвертой главе разрабатываются и исследуются новые методы эффе тивного кодирования речи в классе линейного предсказания с анализом чер синтез (ЛПАС). Вначале анализируется метод низкоскоростного ЛПАС кодир
вания речи, основанного на двух процедурах. В соответствии с первой процедурой осуществляются кратковременное и долговременное предсказания, основу которых составляют авторегрессионные (АР) модели формирования речи и сигнала основного тона. Эта процедура названа АР-АР моделью линейного предсказания речи. Вторая процедура связана с представлением результирующего сигнала предсказания в усеченном ортогональном базисе слуховых фильтров вида (24). Проводится экспериментальное исследование кодера, в результате которого рассчитываются зависимости отношения сигнал/шум маскировки (ОСШ) от коэффициента сжатия сигнала погрешности предсказания. Установлено (таблица 3), что использование дополнительной фильтрации шума маскировки приводит к увеличению ОСШ на 2 - 3 дБ и, как следствие, к повышению субъективного восприятия качества синтезированной речи.
Таблица 3 - Значения ОСШ при сжатии сигнала погрешности предсказания в 8 раз
N Гг (кГц) 0.2 | 0.3 | 0.4 | 0.5 0.2 | 0.3 | 0.4 | 0.5
р С фильтрацией шума Без фильтрации шума
8 2 3,498 3,155 2,623 1,897 2,591 2,337 1,943 1,405
4 8,999 8,574 7,715 6,333 6,667 6,351 5,715 4,691
8 14,579 14,205 13,166 11,128 10,799 10,522 9,753 8,243
16 2 8,729 7,889 2,288 - 6,467 5,844 1,695 -
4 9,597 5,795 1,548 - 7,1086 4,293 1,147 -
8 9,330 9,821 2,962 - 6,912 7,276 2,194 -
16 12,780 14.480 4,847 - 9,467 10,726 3,590 -
Анализируя работу кодера, установлены его недостатки: АР модель долговременного предсказания (как показывает эксперимент) приводит к незначительному увеличению качества синтеза речи; оптимизатор кодера функционирует в соответствии с критерием минимума среднеквадратической погрешности синтеза, который неадекватен слуховому восприятию речи человеком. В связи с указанными замечаниями, для повышения качества синтеза кодированной речи (при фиксированной скорости передачи), ставится задача разработки двух новых моделей: 1) формирования сигнала погрешности предсказания и 2) оценки погрешности синтеза речи, более сходного с критерием её слухового восприятия.
На рисунке 4 представлена структурная схема новой АР-АРСС модели линейного предсказания и синтеза речевого сигнала.
А(2)
В{г)
аЬ,к
Анализатор
н1®
Синтезатор
Рисунок 4 - АР-АРСС модель линейного предсказания и синтеза речи
Здесь сигнал погрешности предсказания (в анализаторе) ищется в виде ек=ек~ек= як*к-1 - = хР,к ~ х'р*, (16
где и як=(а1к,...др1) -ьек
торы параметров, соответственно, АРСС и АР моделей речеобразования, опреде ляемых известным образом. Показано, что при т=\ по последовательности {е*}
синтезаторе восстанавливается задержанная последовательность сигнала:
( р* 1 ^ ■ -1ха-. +ек
Л '=2 У
1
хк-1 ~"
(17
где параметры модели синтезатора определяются так сх = Да, - / = 1,
• с, = Да, + V,-!, ' = 2>А Д«/ = а, ~ (1
?р+\=ь\ар> / = р + 1.
В таблице 4 приведены экспериментальные значения отношения а нал/погрешность предсказания (ОСПП) для АР-АР и АР-АРСС моделей при о ном и том же общем числе параметров предсказания д. Причем дА?сс =2р + дА¥ = р + 2, где р - порядок АР модели речеобразования. Выигрыш от использ вания АР-АРСС модели с увеличением д возрастает от 7 до 16,8 дБ.
Таблица 4 - Зависимость ОСПП и выигрыша от числа параметров моделей предсказания
ч 3 | 5 | 7 | 9 | 11 | 13 | 15
Модель Отношение сигнал/погрешность предсказания (ОСПП) (дБ)
АР-АРСС 24,5 31,5 36,3 38,2 39,0 40,2 41,2
АР-АР 17,5 20,0 21,1 21,9 22,6 23,7 24,4
Выигрыш Г|е 7,0 11,5 15,2 16,3 16,4 16,5 16,8
Далее в работе рассматривается новый поэтапный алгоритм оценки громк ста речи. 1) На ¿-ом сегменте анализа, содержащего N отсчетов сигнала
формируется выборка хк-{хц,1 = 0,И-I}. 2) Посредством БПФ определяет амплитудный спектр данной выборки Х^ =|®{х*}\={Х„_к,п = 0,7^-1}. 3) Опр деляется выборка средних мощностей в частотной облает Р„ к = 0.5Х1к,п = 0,// -1. 4) По АВЧХ (3) находится выборка мощностей в высо
ной области = к ■ г = 0,Ы - \. 5) С учетом уровня порога слышимост
л=0
¿0 (г), формируется выборка уровней звукового давления (УЗД) следующего в да:
где Р0 = 10"12 Вт/м2 - стандартная величина интенсивности звукового давления, Ьххк =10^Ргд/Р0- УЗД речи без учета слухового порога восприятия. Так как УЗД Ьх , меньшие порога восприятия Ь0 г, не воспринимаются слухом, то должно выполняться неравенство
| (Ас,г,* - )> > >
О,
6) Рассчитывается распределение громкостей:
-1)
>0,2 = 0,^-1.
(196)
(20)
40(10"-1)
7) Осуществляется расчет средней громкости
2 а'-1 •<» г=0
Работоспособность метода проверена экспериментально. В заключительном параграфе главы разработан модернизированный метод ЛПАС кодирования речи с повышенной эффективностью (рисунок 5).
(21)
Психоакустическая модель слухового восприятия речи
. ИСХОДНЫЙ РЕЧЕВОЙ СИГНАЛ
В ЦИФРОВОЙ КАНАЛ СВЯЗИ
Рисунок 5 - Модернизированный ЛПАС кодер речи с повышенной эффективностью
В анализаторе кодера вначале формируется сигнал погрешности предсказания е, на основе новой АР-АРСС модели предсказания. Для этого на основе двух фильтров ФП-АР (фильтр предсказатель АР типа) и ФП-АРСС (фильтр предска-
затель АРСС типа) формируются предсказанные сигналы xpJ и х*р1 , разност
которых, получаемая на основе соотношения (16), образует искомый сигнал по грешности предсказания. В блоках ОП АР и ОП АРСС по речевому сигнал х, осуществляется оценка параметров авторегрессии а, и авторегрессии скользя щего среднего аь,. В блоке БОП на основе ортогонального базиса слуховы фильтров сигнал погрешности предсказания е, преобразуется в вектор Ь,. Кван тованные параметры а? ,, ab ,, bq,, поступают в синтезатор.
В блоке БИВ синтезатора по квантованным параметрам Ь?, с использовани ем ортогонального базиса слуховых фильтров восстанавливается сигнал погреш ности предсказания е*. Далее на основе квантованных параметров а? ,, abg J
сигнала е* в блоке ФС АРСС (фильтр синтеза авторегрессии скользящего средне го) на основе соотношения (17) восстанавливается задержанная на один такт дис кретизации последовательность речевого сигнала {s^}, t = 1,2,3,....
В оптимизаторе кодера формируется сигнал погрешности синтеза речи (шу маскировки) = - £*_,), t = 1,2,3,..., которая затем фильтруется с помощь форматного фильтра. Однако в оптимизаторе данного кодера, по сравнению известными кодерами, в блоке ОГИ оценивается не относительная среднеквадр тическая погрешность, но громкость G погрешности синтеза речи. Для этого блоке психоакустической модели слухового восприятия речи хранятся цифровы данные: 1) кривой порога слышимости в тишине и, связанной с ней, дисперси эквивалентного внутреннего шума; 2) амплитудно-высотно-частотной характер стики (3) слуховой системы; 3) элементы канальной матрицы H(z), необходимы для вычисления ортогональных матриц и собственных чисел слуховых фильтро Собственно, оптимизация работы кодера осуществляется через устройство упрг ления (УУ) путем такого подбора числа и вида базисных векторов слуховы фильтров, а также правила пороговой обработки и (или) квантования параметро а? ,, аь? ,, Ь? (, которые обеспечивают минимум громкости G погрешности су теза речи.
Проведен сравнительный анализ разработанных методов ЛПАС кодирован речи по показателю информационной эффективности. На скоростях 3,2-И 6 кбит разработанные методы обеспечивают первый класс качества по разборчивости соответствии с ГОСТ Р 51061- 97. При равном качестве синтеза речи разработг ный метод кодирования, по сравнению кодером стандарта GSM на скорости 1 кбит/с, обеспечивает скорость передачи 8 кбит/с (меньшую на 38%).
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ
1. Разработана и исследована новая радиотехническая модель, а также получ ны аналитические соотношения для следующих характеристик преобразов ния речи на периферии слуховой системы: зависимости между частотой, п
риной частотной группы и высотой тона; амплитудно-высотно-частотные характеристики полосовой фильтрации; пороговые зависимости слышимости тона в тишине, при его маскировке стационарным белым, равномерно маскирующим и узкополосным шумами.
2. На основе исследования свойства маскировки тона узкополосным шумом впервые получена амплитудно-высотно-частотная характеристика эквивалентного слухового фильтра, на основе которой разработан новый математический объект - слуховой материнский вейвлет (СМВ); доказано условие его допустимости; получено новое представление речевого сигнала в согласованном с ним базисе слуховых вейвлет; экспериментально показано, что в при изменении масштаба СМВ от 0,35 до 0,8 мс отношение сигнал/погрешность синтеза максимально и лежит в диапазоне от 45 до 53 дБ..
3. Разработан новый метод представления речевого сигнала в оптимальном ортогональном базисе слуховых фильтров; рассчитаны канальные матрицы и соответствующие им собственные векторы, компоненты которых распределены существенно неравномерно, что при пороговом отборе наиболее информативных компонент с большой точностью осуществляется синтез речевого сигнала.
4. Усовершенствован и экспериментально исследован метод низкоскоростного кодирования речи в классе линейного предсказания с анализом через синтез (ЛПАС) с представлением сигнала погрешности предсказания в ортогональном базисе слуховых фильтров; на скоростях 6+16 кбит/с данный метод обеспечивают первый класс качества по разборчивости в соответствии с ГОСТ Р 51061-97.
5. Разработана и исследована новая АР-АРСС модель линейного предсказания речи, более эффективная чем АР-АР модель; выигрыш по величине отношения сигнал/погрешность предсказания при изменении числа параметров предсказания от 3 до 15 составляет от 7 до 16.8 дБ.
6. Разработан и экспериментально исследован новый алгоритм текущей оценки громкости речи, учитывающий свойства её слухового восприятия.
7. Модернизирован метод ЛПАС кодирования речи, отличающийся новой АР-АРСС моделью предсказания речи и использующий новый критерий оптимизации кодера по величине громкости погрешности синтеза речи; первый класс качества по разборчивости в кодере достигается на скоростях от 3,2 кбит/с; при равном качестве синтеза речи разработанный метод кодирования, по сравнению кодером стандарта GSM на скорости 13 кбит/с, обеспечивает скорость передачи на 38% меньшую, а именно 8 кбит/с.
8. Все экспериментальные результаты получены на ПЭВМ в среде компьютерной системы проведения матричных вычислений - MATLAB.
w
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Санников В.Г., Коробанов A.B. Слуховые фильтры и вейвлет анализ ре> Тез. докл. НТК МТУ СИ. Книга 1. -М.: «Инсвязьиздат», 2005. - С.97-98.
2. Санников В.Г., Коробанов A.B. Пороговые кривые маскировки и слуховы вейвлеты // Международная научно-техническая конференция «Фундамен тальные проблемы радиоэлектронного приборостроения» INTERMATIC 2005: Матер, конф. - М.: МИРЭА. - 2006. - Часть 2. - С. 65-66.
3. Коробанов A.B., Санников В.Г. Анализ пороговых зависимостей маскиров ки тона узкополосным шумом и расчет слуховых вейвлет // Сборник «Тех ника и технологии связи». Деп. в ЦНТИ «Информсвязь» от 26.05.06 № 227 св. 2006.-С. 21-27.
4. Коробанов A.B. Метод представления речевого сигнала на основе слуховог вейвлета // Международная научно-техническая школа-конференция «М лодые ученые - науке, технологиям и профессиональному образованию электронике». Часть 1. Матер. конф.-М.: МИРЭА. -2006-С. 212-214.
5. Санников В.Г., Коробанов A.B. Получение материнского слухового вейвл та в задаче компактного представления речи // Московская отраслевая н учно-техническая конференция «Технологии информационного общества) Тез. докл. - М.: Инсвязьиздат. - 2007. - С. 195.
6. Коробанов A.B., Санников В.Г. Метод низкоскоростного кодирования реч в классе ЛПАС на основе аппроксимации сигнала погрешности предсказ ния слуховыми вейвлетами // Международная научно-техническая конф ренция «Фундаментальные проблемы радиоэлектронного приборостро ния» INTERMATIC-2007: Матер, конф. - М.: МИРЭА. - 2007. - Часть 2. С. 218-221.
7. Санников В.Г., Коробанов A.B. Анализ и синтез речевого сигнала на основ слухового материнского вейвлета // XV Межрегиональная научн техническая конференция «Обработка сигналов в системах наземной ради связи и оповещения»: Матер, конф. - Нижний Новгород - Москва - 2007. С. 224-227.
8. Коробанов A.B. Свойства и особенности слухового материнского вейвле // Международная научно-техническая конференция «Фундаментальнь проблемы радиоэлектронного и опгоэлектронного приборостроения»: М тер. конф. - М.: МИРЭА. - 2008. - Часть 2. - С. 267 - 270.
9. Санников В.Г., Коробанов A.B. Цифровое представление речи на осно слуховых вейвлет и посредством ортогонального базиса слуховых фильтр // XIV международная научно-техническая конференция «Радиолокац] навигация, связь» (RLNC*2008): Матер, конф. - Воронеж.: НП «САКВОЕЕ» ООО. - 2008. - С. 1043 - 1052.
10. Санников В.Г., Коробанов A.B. Кодер речи в классе ЛПАС с представлег ем сигнала погрешности предсказания в ортогональном базисе слуховь фильтров // Естественные и технические науки. - № 3. - 2008. - С. 303 - 30
Подписано в печать 30.10.08. Формат 60x84/16. Объем 1,2 усл.п.л. Тираж 100 экз. Заказ 145. ООО «Инсвязьиздат». Москва, ул. Авиамоторная, 8.
Оглавление автор диссертации — кандидата технических наук Коробанов, Алексей Владимирович
Условные обозначения (сокращения).
Введение.
Глава 1 Общая характеристика цифровых систем передачи речевых сообщений с повышенной эффективностью. ^ ^
1.1 Структурная схема цифровой системы передачи речи. ДО ЛЪ
1.2 Принцип речеобразования со слуховой обратной связью .Д-7 /[С
1.3 Особенности слухового восприятия речи.J23 2.
1.4 Методы низкоскоростного кодирования речи.
1.5 Выводы и постановка задач исследования.
Глава 2 Модели и основные характеристики периферии слуховой системы. " '
2.1 Анализ радиотехнических моделей преобразования речи на периферии слуховой системы. „48' 4S
2.2 Аппроксимация нелинейных зависимостей периферии слуховой системы. 54' 5"
2.3 Математические модели преобразования речи на периферии слуховой системы. j50 С
2.4 Анализ пороговых зависимостей слышимости тона при его маскировке стационарными шумами. ,65* СЗ
2.5 Основные результаты.ЦЧ
Глава 3 Методы представления речи в базисах слуховых вейвлет и слуховых фильтров.
3.1 Эффект обострения слухового восприятия звукового тона и слуховые фильтры.78 и
3.2 Формирование слухового материнского вейвлета. „84" $ 2.
3.3 Представление речи в базисе слуховых вейвлет.J
3.4 Представление речевого сигнала посредством оптимального базиса слуховых фильтров. .93"
3.5 Основные результаты. ,95" -}оН
Глава 4 Разработка новых методов эффективного кодирования речи в классе линейного предсказания с анализом через синтез ^ '
4.1 Метод ЛПАС кодирования речи с представлением сигнала погрешно- JA-3' ста предсказания в ортогональном базисе слуховых фильтров.JU-6" -/0?
4.2 Новая АР-АРСС модель линейного предсказания речи.
4.3 Разработка метода оценки громкости речи.|20 <-|2,5Г
4.4 Модернизированный метод ЛПАС кодирования речи с повышенной эффективностью.Д-20* АЪО
4.5 Анализ эффективности ЛПАС кодеров.Д28" ^/ЗЬ
4.6 Основные результаты. ДЗЗ
Введение 2008 год, диссертация по радиотехнике и связи, Коробанов, Алексей Владимирович
Современный этап развития общества характеризуется увеличением потоков разнородной информации, передаваемой по телекоммуникационным системам и сетям. Значительный объем, порядка 90 %, этой информации составляет речевая информация [2]. В виду того, что речевые сигналы как носители речевой информации, обладают значительной избыточностью, существует проблема их компактного цифрового представления с целью снижения требований к пропускной способности телекоммуникационных каналов.
В различных странах мира, в том числе и в России, для решения проблемы перегрузки каналов речевой связи и устройств хранения речевых сообщений интенсивно развивается направление, заключающееся в сжатии объемов речевых данных за счет сокращения содержащейся в них избыточности. Это направление особенно привлекательно с экономической точки зрения, так как не требует создания новых дорогостоящих производственных мощностей, но предназначено для эффективного использования имеющихся ресурсов систем и сетей.
Для технического решения задачи сжатия речевых данных разработано много методов. В значительной мере они представлены в трудах Н.Н. Акин-фиева, С.П. Баронина, А.И. Величкина, М.Д. Бенедиктова, В.И. Галунова, Е.Г. Жилякова, Ю.А. Косарева, В.И. Куля, В.Г. Михайлова, В.Е. Муравьева, М.В. Назарова, А.А. Пирогова, Ю.Н. Прохорова, В.Г. Санникова, М.А. Са-пожкова, В.А. Свириденко, И.В. Ситняковского, А.Н. Собакина, О.И. Шелу-хина, В.П. Яковлева, Б.С. Атала, Дж. Д. Гибсона, Б. Голда, А.Х. Грея, Н.С. Джайанта, Ф. Итакуры, Р.В. Кокса, П. Круна, Ж.И. Макхоула, Дж. Маркела, JI. Р. Рабинера, Ч. Рейдера, А.С. Спаниаса, Г. Фанта, Дж. Фланагана, Р.В. Шафера, М.Р. Шрёдера и других российских и зарубежных ученых.
С целью повышения качества кодеков с линейным предсказанием для передачи речевых сигналов на скоростях 4-16 (кбит/с) Международным
Союзом Электросвязи (МСЭ) и другими организациями разрабатываются кодеры, относящиеся к классу адаптивных кодеров с линейным предсказанием на основе анализа через синтез (ЛПАС) (linear prediction analysis-by-synthesis (LPAS) coders) [61,76,78,81,91]. При данном методе обработки в кодере по параметрам долговременного и кратковременного фильтров-предсказателей производится синтез PC, сравнение его с исходным PC и минимизация взвешенной разности между ними подбором структуры сигнала голосового возбуждения фильтра-предсказателя. Основной особенностью указанных методов кодирования речи является искусственная замена сигнала погрешности предсказания импульсным сигналом возбуждения фильтра-предсказателя.
Одной из основных причин избыточности речевого сигнала считается наличие статистических (корреляционных) взаимосвязей между его отсчетами, взятыми в дискретные моменты времени [2]. С целью повышения эффективности цифрового представления речевых сигналов используют методы их кодирования с преобразованием, основное назначение которых состоит в разрушении (декорреляции) указанных взаимосвязей и как следствие сокращении избыточности речи [1,28,33,36,41,52,60].
Полное сокращение избыточности при обработке стационарного сигнала обеспечивает базис, построенный на основе собственных векторов корреляционной матрицы сигнала. Такое оптимальное преобразование найдено и известно в литературе как преобразование Карунена-Лоэва-Пугачева [28,36]. Однако, из-за отсутствия «быстрого» алгоритма его реализации, в практике компактного цифрового представления сигналов оно используется очень редко. Чаще используют дискретные «быстрые» преобразования: Фурье, косинусное, Адамара, Хаара и другие [1,4,19,33,36,66,85,89,93,96]. Следует отметить, что названные преобразования справедливы при обработке стационарных сигналов. Речевой же сигнал, как известно, относится к классу нестационарных сигналов [2,27,51,61]. Следовательно, для его компактного цифрового представления более рационально использовать другие базисы.
Математическая теория аппроксимации предполагает выбор такого базиса, который с помощью линейной комбинации небольшого числа векторов из этого базиса дает возможность представить сигнал с минимальной погрешностью. Проблема состоит в нахождении критерия для выбора такого базиса, который по внутренней своей сути хорошо приспособлен для представления заданного класса сигналов. Известно, что для класса нестационарных сигналов оптимальным является базис, построенный на основе их вейв-лет представлений [11,28,58,68,84,102].
Поскольку сигнал погрешности предсказания более информативен (в нем содержится значительное количество информации о речевом сигнале), чем искусственный сигнал возбуждения, то для повышения эффективности работы ЛПАС кодеров следует искать новые модели представления сигнала погрешности предсказания, адекватные как голосовому возбуждению модели речеобразования, так и учитывающие психоакустические особенности слухового восприятия речи человеком. Следует также отметить, что при низких * скоростях среднеквадратическая погрешность синтеза не адекватна слуховому восприятию. Следовательно, требуется использовать критерий качества синтеза речи, более схожий с критерием человеческого восприятия.
Цель работы
Разработка и исследование методов представления и низкоскоростного кодирования речевых сигналов, передаваемых по телекоммуникационным каналам с ограниченной пропускной способностью, на основе новой психоакустической модели слухового восприятия речи.
Для достижения поставленной цели на основе анализа состояния вопроса сформулированы и решаются следующие основные задачи: • Анализ основных закономерностей преобразования речевого сигнала на периферии слуховой системы человека с целью разработки психоакустической модели слухового восприятия речи.
• Анализ пороговых зависимостей маскировки речи узкополосными сигналами и получение аналитических соотношений для слуховых фильтров, а на их основе построение ортогональных базисов, согласованных со спектральными свойствами слуховой системы в выделенных полосах частот.
• Разработка слухового материнского вейвлета и исследование вейвлет представления речевого сигнала.
• Разработка нового критерия верности синтеза речи на основе громкости погрешности восстановления речевого сигнала.
• Разработка и оптимизация новых методов низкоскоростного кодирования речи в классе линейного предсказания с анализом через синтез (ЛПАС) и представлением сигнала погрешности предсказания в ортогональном базисе слуховых фильтров.
Методы исследований
Методы теории оптимальных и адаптивных систем; методы сжатия данных; методы оценки качества систем передачи речи; методы вейвлет обработки сигналов; методы теории речеобразования и слухового восприятия речи; методы статистического машинного моделирования и предсказания речевых сигналов.
Научная новизна работы
• Исследована новая радиотехническая модель и получены аналитические соотношения для различных характеристик преобразования речи на периферии слуховой системы.
• Впервые получены аналитические соотношения для пороговых зависимостей слышимости тона при его маскировке стационарным белым, равномерно маскирующим и узкополосным шумами; на основе анализа пороговых зависимостей впервые получены аналитические соотношения для комплексных коэффициентов передачи эквивалентных слуховых фильтров.
• На основе исследования свойств эквивалентных слуховых фильтров разработан новый математический объект - слуховой материнский вейвлет (СМВ); доказано условие его допустимости; получено новое представление речевого сигнала в согласованном с ним базисе слуховых вейвлет.
• Разработан новый метод представления речевого сигнала в оптимальном ортогональном базисе слуховых фильтров, для которых рассчитаны канальные матрицы и соответствующие им собственные векторы.
• Разработана и исследована новая АР-АРСС модель линейного предсказания речи.
• Разработан новый алгоритм текущей оценки громкости речи, в полной мере учитывающий свойства её слухового восприятия.
• Разработаны и оптимизированы методы низкоскоростного ЛГТАС кодирования речи с повышенной эффективностью.
Практическая значимость работы
Результаты выполненных исследований получены путем машинного моделирования на ПЭВМ в среде компьютерной системы проведения математических матричных вычислений - MatLAB. Они могут быть положены в основу разработки конкретных систем передачи речевой информации с ограниченной пропускной способностью или при её хранении в запоминающих устройствах с ограниченной емкостью.
Разработанные в диссертации способы эффективного кодирования речи в классе ЛПАС, обеспечивают в соответствии с ГОСТ Р 51061- 97 первый класс качества по разборчивости на скоростях от 3,2 до 16 кбиг/с и выше. Это в 2 — 10 раз меньше скорости, обеспечиваемой кодеком на основе стандартной адаптивной дифференциальной ИКМ (АДИКМ), рекомендованного (в соответствие с Приказом Министерства РФ по связи и информатизации № 175 от 23.07.2001) в качестве основного в оборудовании службы голосовых сообщений. При равном качестве синтеза речи разработанные методы кодирования, по сравнению кодером стандарта GSM на скорости 13 кбит/с, обеспечивают скорость передачи 8 кбит/с (на 38% меньше).
Изложенные в работе методы и алгоритмы низкоскоростного кодирования речи были использованы при проведении научно-исследовательских работ МТУ СИ с Группой Телекоммуникационных Компаний «ITNT Group» (ЗАО «Компания ИНТЕНТ», ЗАО «СПРОС ИТ», г. Москва) ООО «Теле.ру» и применены при разработке и организации доступа абонентов к услугам местной, междугородней и международной связи посредством интеллектуальной платформы речевого сопровождения, а также при предоставлении абонентам телефонной сети дополнительной услуги - «голосовая почта», при организации речевого управления информационными ресурсами интеллектуальной сети «Ольга».
Апробация работы
Основные результаты работы были представлены на следующих научно-технических конференциях:
1. Международная научно-практическая конференция «Фундаментальные проблемы радиоэлектронного приборостроения». INTERMATIC-2005, Москва, 2005 г.
2. Научная конференция профессорско-преподавательского, научного и инженерно-технического состава МТУ СИ, Москва, 2005 г.
3. Международная научно-техническая школа-конференция «Молодые ученые - науке, технологиям и профессиональному образованию в электронике», Москва, 2006 г.
4. Международная научно-практическая конференция «Фундаментальные проблемы радиоэлектронного приборостроения». INTERMATIC-2007, Москва, 2007 г.
5. Московская отраслевая научно-техническая конференция «Технологии информационного общества», МТУСИ, Москва, 2007 г.
6. Международная научно-техническая конференция «Фундаментальные проблемы радиоэлектронного и оптоэлектронного приборостроения», Москва, МИРЭА, 2008 г.
7. XIV международная научно-техническая конференция «Радиолокация, навигация, связь» (RLNC*2008), Воронеж, НПФ «САКВОЕЕ», 2008 г.
Краткое содержание работы
Диссертационная работа содержит: введение, четыре главы, заключение и список использованных источников.
Заключение диссертация на тему "Разработка и исследование методов низкоскоростного кодирования речи на основе слуховых вейвлет"
4.6. Основные результаты
Усовершенствован метод и математическая модель низкоскоростного кодирования речи в классе ЛПАС на основе представления скорректированного сигнала погрешности предсказания с помощью ортогонального базиса слуховых фильтров. Введение корректирующего фильтра позволило увеличить на !!!
Разработана и исследована новая АР-АРСС модель линейного предсказания речи, более эффективная чем АР-АР модель; выигрыш по величине отношения сигнал/погрешность предсказания при изменении числа параметров предсказания от 3 до 15 составляет от 7 до 16.8 дБ. Разработан новый алгоритм практической оценки громкости речи, в полной мере учитывающий свойства её слухового восприятия; экспериментально подтверждена его работоспособность. Разработан модернизированный вариант метода ЛПАС кодирования речи с повышенной эффективностью, отличающийся новой АР-АРСС моделью предсказания речи и использующий новый критерий оптимизации кодера по величине громкости погрешности синтеза речи. Проведен сравнительный анализ разработанных методов ЛПАС кодирования речи по показателю информационной эффективности. На скоростях 3,2 - 16 и более кбит/с разработанные методы ЛПАС кодирования речи обеспечивают первый класс качества по разборчивости в соответствии с ГОСТ Р 51061- 97.
На основе разработанных математических моделей методов ЛПАС кодирования речи получены алгоритмы их функционирования, реализованные на ПЭВМ.
ЗАКЛЮЧЕНИЕ
138 h'f]
В ходе выполнения диссертационной работы были получены следующие основные результаты:
• Анализ основных закономерностей преобразования речевого сигнала на периферии слуховой системы человека с целью разработки психоакустической модели слухового восприятия речи.
• Анализ пороговых зависимостей маскировки речи узкополосными сигналами и получение аналитических соотношений для слуховых фильтров, а на их основе построение ортогональных базисов, согласованных со спектральными свойствами слуховой системы в выделенных полосах частот.
• Разработка слухового материнского вейвлета и исследование вейвлет представления речевого сигнала.
• Разработка нового критерия верности синтеза речи на основе громкости погрешности восстановления речевого сигнала.
• Разработка и оптимизация новых методов низкоскоростного кодирования речи в классе линейного предсказания с анализом через синтез (ЛПАС) и представлением сигнала погрешности предсказания в ортогональном базисе слуховых фильтров.
• Исследована новая радиотехническая модель преобразования речи на периферии слуховой системы.
• Получены аналитические соотношения: усредненной зависимости порога слышимости в тишине, зависимостей между частотой, шириной частотной группы и высотой тона, характеристик полосовой фильтрации в частотных каналах, амплитудной характеристики подсистемы «волосковая клетка».
Разработаны цифровые модели преобразования речи в различных подсистемах периферии слуховой системы, а также получена обобщенная модель периферии слуха в пространстве состояний. Впервые получены аналитические соотношения для пороговых зависимостей слышимости тона при его маскировке стационарным белым, равномерно маскирующим и узкополосным шумами. На основе анализа пороговых свойств слухового восприятия звукового тона на фоне маскирующего узкополосного шума впервые получены аналитические соотношения для комплексных коэффициентов передачи эквивалентных слуховых фильтров в каждом высотном канале слухового пути.
На основе исследования свойств эквивалентных слуховых фильтров разработан новый математический объект — слуховой материнский вейвлет (СМВ). Доказано условие его допустимости. Получено новое представление речевого сигнала в согласованном с ним базисе слуховых вейвлет.
Разработаны алгоритмы вычисления прямого и обратного дискретного вейвлет преобразования сигналов. На основе этих алгоритмов осуществлен анализ и синтез речевого сигнала по его слуховому вейвлет представлению.
Исследованы зависимости отношения сигнал/погрешность синтеза речи от величины задержки и масштаба слухового вейвлета. Разработан метод представления речевого сигнала в оптимальном ортогональном базисе слуховых фильтров. Рассчитаны канальные матрицы слуховых фильтров и соответствующие им собственные векторы. Усовершенствован метод и математическая модель низкоскоростного кодирования речи в классе ЛПАС на основе представления скорректированного сигнала погрешности предсказания с помощью ортогонального базиса слуховых фильтров. Введение корректирующего фильтра позволило увеличить на !!!
Разработана и исследована новая АР-АРСС модель линейного предсказания речи, более эффективная чем АР-АР модель; выигрыш по величине отношения сигнал/погрешность предсказания при изменении числа параметров предсказания от 3 до 15 составляет от 7 до 16.8 дБ. Разработан новый алгоритм практической оценки громкости речи, в полной мере учитывающий свойства её слухового восприятия; экспериментально подтверждена его работоспособность. Разработан модернизированный вариант метода ЛПАС кодирования речи с повышенной эффективностью, отличающийся новой АР-АРСС моделью предсказания речи и использующий новый критерий оптимизации кодера по величине громкости погрешности синтеза речи. Проведен сравнительный анализ разработанных методов ЛПАС кодирования речи по показателю информационной эффективности. На скоростях 3,2 - 16 и более кбиг/с разработанные методы ЛПАС кодирования речи обеспечивают первый класс качества по разборчивости в соответствии с ГОСТ Р 51061- 97.
На основе разработанных математических моделей методов ЛПАС кодирования речи получены алгоритмы их функционирования, реализованные на ПЭВМ.
Библиография Коробанов, Алексей Владимирович, диссертация по теме Системы, сети и устройства телекоммуникаций
1. Артюшенко В.М., Шелухин О.И., Афонин М.Ю. Цифровое сжатие видеоинформации и звука. М.: ИТК «Дашков и К0», 2003. - 426 с.
2. Беллами Дж. Цифровая телефония: Пер. с англ. / Под ред. А.Н. Берлина, Ю.Н. Чернышова. -М.: Эко-Трендз, 2004. 640 с.
3. Блаттер К. Вейвлет анализ. Основы теории // Перевод с нем. Т. Э. Кренкеля / Под ред. А.Г. Кюркчана. - М.: Техносфера, 2006. - 272 с.
4. Вокодерная телефония /Под ред. А.А. Пирогова. -М.: Связь, 1974 536 с
5. ГОСТ Р 50840-95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. 200 с.
6. ГОСТ Р 51061-97. Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. 21 с.
7. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. М.: Наука, ГР ФМЛ, 1971. - 1108 с.
8. Громаков Ю.А. Стандарты и системы подвижной радиосвязи. М.: ЭКО -ТРЭНЗ, 1998.-240 с.
9. Дворецкий И.М., Дриацкий И.Н. Цифровая передача сигналов звукового вещания. -М.: Радио и связь, 1987. 192 с.
10. Добеши И. Десять лекций по вейвлетам / Пер. с англ. Е.В. Мищенко // Под ред. А.П. Петухова. Москва-Ижевск.: PXD, 2001. - 110 с.
11. Дьяконов В.П. Вейвлеты. М.: СОЛОН-Р, 2002. - 580 с.
12. Ефимов А.П. Психофизиология вещания. М.: МТУ СИ, 2004. - 196 с.
13. Защищенные радиосистемы цифровой передачи информации / П.Н. Сердюков, А.В. Бельчиков, А.Е. Дронов и др. -М.: ACT, 2006.-403 с.
14. Зверев Б.В., Зелевич Е.П. Социально ориентированные услуги связи. -М.: Радио и связь, 2005. 128 с.
15. Зюко А.Г., Банкет В.Л., Лехан В.Ю. Методы низкоскоростного кодирования при цифровой передаче речи // Зарубежная радиоэлектроника. -1986. -№ 11.-С. 53-69.
16. Исаев А.Н., Раков А.С., Дотолев В.Г. Актуальные вопросы развития техники звукового радиовещания в деятельности исследовательской комиссии 10 Международного Союза Электросвязи // Труды НИИР. 1995. -№6. -С. 33-38.
17. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. М.: Радио и связь, 1991.-220 с.
18. Кириллов С.Н., Лоцманов А.А. Адаптивный дифференциальный им-пульсно-кодовый модулятор с нелинейным фильтром предсказателем // ЭЛЕКТРОСВЯЗЬ. 2004. - № 5. - С. 36-38.
19. Ковалгин Ю.А., Вологодин Э.И. Цифровое кодирование звуковых сигналов. СПб.: КОРОНА-принт, 2004. - 240 с.
20. Колинько Т. Измерения в цифровых системах связи. Практическое руководство. К.: ВЕК+, НТИ, 2002. - 320 с.
21. Коробанов А.В., Санников В.Г. Анализ пороговых зависимостей маскировки тона узкополосным шумом и расчет слуховых вейвлет // Сборник «Техника и технологии связи». Деп. в ЦНТИ «Информсвязь» от 26.05.06 №2279 св. 2006. -С. 21-27.
22. Коротаев Г.А. Эффективный алгоритм кодирования речевого сигнала на скорости 4,8 кбит/с и ниже // Зарубежная радиоэлектроника. 1996. - № З.-С. 16-19.
23. Льюнг Л. Идентификация систем. Теория для пользователя: Пер с англ. / Под ред. Я.З. Цыпкина. М.: Наука, ГР ФМЛ, 1991.-432 с.
24. Мак-Квери С., Мак-Грю К, Фой С. Передача голосовых данных по сетям Cisco Frame Relay, ATM и IP. Москва-Санкт-Петербург.-Киев: Издательский дом «Вильяме», 2002. - 512 с.
25. Малла С. Вэйвлеты в обработке сигналов. М.: Мир, 2005. - 671 с.
26. Мардер Н.С. Современные телекоммуникации.-М.: ИРИАС, 2006.-384 с
27. Марковская теория оценивания в радиотехнике // Под редакцией М.С. Ярлыкова. -М.: «Радиотехника», 2004. 504 с.
28. Маркел Дж., Грей А.Х. Линейное предсказание речи: Пер. с англ. / Под ред. Ю.Н. Прохорова, B.C. Звездина. -М.: Связь, 1980. 308 с.
29. МСЭ-R. Рекомендация BS.1196. Кодирование звука в наземном цифровом телевизионном вещании. 1995. - 120 с.
30. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь, 1985. - 176 с.
31. Невдяев Л.М. Мобильная связь 3-го поколения. М.: МЦНТИ, ООО «Мобильные коммуникации. - 2000. - 208 с.
32. Невдяев Л.М. Телекоммуникационные технологии. М.: МЦНТИ, ООО «Мобильные коммуникации. - 2002. - 592 с.
33. Оршценко В.И., Сашшков В.Г., Свириденко В.А. Сжатие данных в системах сбора и передачи информации / Под ред. В.А. Свириденко. М.: Радио и связь, 1985. - 184 с.
34. Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещания. М.: Горячая линия - Телеком, 2007. - 341 с.
35. Прокис Дж. Цифровая связь. Пер. с англ. / Под ред. Д.Д. Кловского. -М.: Радио и связь, 2000. 800 с.
36. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов // Статистическая теория связи. Вып. 20. -М.: Радио и связь, 1984.-240 с.
37. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов: Пер с англ. / Под ред. М.В. Назарова, Ю.Н. Прохорова. М.: Радио и связь, 1981. -496 с.
38. Ричардсон Я. Видеокодирование. Н.264 и MPEG-4 стандарты нового поколения. -М.: ТЕХНОСФЕРА, 2005.-368 с.
39. Санников В.Г. Теоретический анализ заметности искажений речевых сигналов по громкости их слухового восприятия // ЭЛЕКТРОСВЯЗЬ. -2002.-№ 12.-С. 38-42.
40. Санников В.Г. Статистический анализ методов формирования речевых сигналов. -М.: МТУСИ, 2005. 140 с.
41. Санников В.Г., Коробанов А.В. Получение материнского слухового вейвлета в задаче компактного представления речи // Московская отраслевая научно-техническая конференция «Технологии информационного общества»: Тез. докл. -М.: Инсвязьиздат. -2007. С. 195.
42. Савинков В.Г., Медведев О.Н. Эффективный голосовой кодер с полиномиальным синтезом спектра погрешности предсказания речевого сигнала // Мобильные системы. 2007. - № 3. - С. 38-42.
43. Санников В.Г. Слуховая томография новое направление в области обработки речевых сигналов // ЭЛЕКТРОСВЯЗЬ. - 2007. - № 5. - С. 52-56.
44. Санников В.Г., Коробанов А.В. Кодер речи в классе ЛПАС с представлением сигнала погрешности предсказания в ортогональном базисе слуховых фильтров // Естественные и технические науки. № 3. - 2008. - С. 21-31.
45. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.-452 с.
46. Сапожков М.А., Михайлов В.Г. Вокодерная связь. М.: Радио и связь, 1983.-248 с.
47. Сейдж Э., Меле Дж. Теория оценивания и её применение в связи и управлении: Пер. с англ./ Под ред. Б.Р. Левина -М.: Связь, 1976. -496 с.
48. Сиберт У. Преобразование стимула в периферической слуховой системе. В сб. «Распознавание образов». М.: Мир, 1970. - С. 134-169.
49. Ситняковский И.В., Порохов О.Н., Нехаев А.Л. Цифровые системы передачи абонентских линий. М.: Радио и связь, 1987. - 216 с.Г
50. Скляр Б. Цифровая связь. Теоретические основы и практическое применение.: Пер. с англ. М.: ИД «Вильяме», 2003. - 1104 с.
51. Слуховая система / Ред. Я.А. Альтман. JL: Наука, 1990. - 620 с. - (Основы современной физиологии).
52. Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в MATLAB. М.: ДМК Пресс, 2008. - 448 с.
53. Соболев В.Н. Информационные технологии в синтетической телефонии. -М.: ИРИАС, 2007. 360 с.
54. Сэломон Д. Сжатие данных, изображений и звука: Пер. с англ. М.: Техносфера, 2006. - 365 с.
55. Тимченко О.В. Методи р1зницевого кодування форми сигнаив в системах передач! mobhoI шформацй. Льв1в: Вид. УАД, 2006. - 320 с.
56. Уэлстед С. Фракталы и Вейвлеты для сжатия изображений в действии. — М.: Триумф, 2003. 320 с.
57. Фланаган Дж. JI. Анализ, синтез и восприятие речи: Пер. с англ. / Под ред. А.А. Пирогова М.: Связь, 1968. - 396 с.
58. Хайкин С. Нейронные сети: полный курс, 2-е изд.: Пер с англ. М.: Издательский дом «Вильяме», 2008. - 1104 с.
59. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. М.: «Связь», 1971. -255 с.
60. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. -М.: Радио и связь, 2000. 456 с.
61. Шеннон К.Э. Работы по теории информации и кибернетике: Пер. с англ./ Под ред. Р. А. Добрушина, О.В. Лупанова. М,: ИЛ, 1963. - 830 с.
62. Штарк Г. Г. Применение вейвлетов для ЦОС // Перевод с англ. Н. И. Смирновой / Под ред. А.Г. Кюркчана. -М.: Техносфера, 2007. - 192 с.
63. Электродное протезирование слуха. Л.: Наука, 1984. - 215 с. - (Фундаментальные науки - медицине).
64. Atal B.S. Predictive Coding of Speech at Low Bit Rates // IEEE Tr., COM. 1982. - V.30. -№ 4. -P. 600-614.
65. Benvenuto N., Corvaja R., Erseghe Т., Laurenti N. Communication Systems. Fundamentals and Design Methods. Jon Wiley & Sons, 2007. - 516 p.
66. Bertorello L., Copperi M. Design of a 4,8/9,6 kbps Base Band LPC Coder using Split-Band and Vector Quatization // ICASSP. 1983. -V. 3. - P. 1312-1315.
67. Besruk V.M. Autoregression methods of signals recognition // Telecommunications and Radio Engineering. 2003. 56(12-14). - P. 12-18.
68. Besruk V.M. Autoregression methods of the preset signals recognition in the presence of the unknown signals" class // Radioelectronics & Informatics. -2003.-№3.-P. 187-191.
69. Campbell J.P. et all. An Expandeble Errorprotected 4800 bps CELP Coder (U.S. Federal Standart 4800 Voice Coder ) // ICASSP. 1989. -V. 2. - P. 1111-1200.
70. Casajus-Quiros F.J., Hernandes-Gomes L.A., Carcia-Mateo C. Analysis and Quantization Procedures for a Real-Time Implementation of a 4,8 kbps CELP Coder//ICASSP. 1990. -V. 1. -P. 221-225.
71. Chiu K.M., Ching P.C. Quan-band excitation for low bit rate speech coding. // J. Acoust. Soc. Amer. 1996. - 99. -№ 4. Pt.l. -P. 2365-2369.
72. CCITT. Recommendation G.727. -5-, 4-, 3-, and 2 bits Sample Embedded Adaptive Differential Pulse Code Modulation (ADPCM ). P. 1-22.
73. CCIR GSM Rec. T/L/03/11. A 13 kbps Regular Pulse Excitation Long Term Prediction-Linear Predictive Coder for the Pan-European Digital Mobile Radio System, 1988.-P. 1-15.
74. Cox R. V. Draft Recommendation G.723.1 Dual Rate Speech Coder for Multimedia Telecommunication Transmitting at 5,3 and 6,4 kbps. - ITU, Tele-comm. Standartization Sector, LBC95- 085, - 1995. - P. 1-24.
75. Cox R.V., Kroon P. Low bit-rate Speech Coders for Multimedia Communication //IEEE Communications Magazine. December 1996.—P. 34-41.
76. Haagen J., Nielsen H., Hansen S.D. A 2,4 kbps High-Ouality Speech Coder// ICASSP, S9.-1991.-V. 5. -P. 589-592.
77. Federal Standard 1016. Telecommunications: Analog to Digital Conversion of Radio Voice by 4800 bps Code Excited Linear Prediction (CELP). General Serv. Adm., Office of Inf. Resources Mangm., Febr.,14, 1991. -P.l-12.
78. Frazier M.W. An Introduction to Wavelets Through Linear Algebra. New York.: Springer-Verlag, 1999. - 487 p.
79. Gersho Allen. Advances in speech and audio compression // Proc. IEEE. -1994. 82. - № 6. -P. 900-918.
80. Guyader A., Manaloux D., Zureher. A Robust and Fast CELP Coder at 16 kbps // Speech Communication. 1988. - V. 7. - № 2. -P/217-226.
81. International Standard ISO/IEC 15938-4. Information technology Multimedia content description interface - Part 4: Audio, 2002.
82. ISO/IEC FCD 14496-3. Subpart 1. Information technology Very Lov Bi-trate Audio-Visual Coding. Part 3: Audio, 1998-05-10 (ISO/JTC 1/SC 29. -N 2203).
83. Jayant N. Signal compression: technology targets and research directions // IEEE J. on Sel. Areas in Commun., № 10(5), June 1992. P. 796-818.
84. Kabal P., Ramachandar R.P. Joint Optimization of Linear Predictors in Speech Coders // IEEE J., ASSP. 1989. - V. 37. -P. 642-650.
85. Kleijn W. B. On the periodicity of speech coded with linear-prediction based analysis coders // IEEE Trans. Speech and Audio Process. 1994. -V. 2. -№4.-P. 136-138.
86. Kroon P., Deprettere F. A Class of Analyses by Synthesis Predictive Coders for High Quality Speech Coding of Rates Between 4,8-16 kbs // IEEE J., SAC. 1988. - V. 6. - № 2. - P. 9-14 .
87. Levine S. Audio Representation for Data Compression and Compressed Domain Processing // Departament of Electrical Engineering and the Committee on Graduate Studies of Stanford University. -Dezember. 1998.-215 p.
88. Mc Aulay R.J., Quantieri T.F. Multirate Sinusoidal Transform Coding at Rate from 2,4 to 8 kbps // ICASSP. -1987. V. 3. - P. 744-754.
89. Musman H.G., Werner O., Fuchs H. Kompressions algoritmen fuer interactive Multimedia Systeme // Informationstechnik und Technische Informatik. -1993.-№2. -P. 4-18.
90. Painter Т., Spanias A. Perceptual Coding of Digital Audio // Proceedings of the IEEE. 2000. -V. 88. -№ 4. - P. 451-513.
91. Picovici D., Mahdi A.E. and Murphy T. An Enhanced Single-Ended Method for Objective Speech Quality Assessment for Telephony Systems // SPECOM 2005. Proceedings 10th International Conference SPEECH'and COMPUTER. -2005. Patras, Greece. -P. 633-636.
92. Rose R.C., Barnwell T.P. Design and Performance of an Analysis-by-Synthesis Class of Predictive Speech Coders // Proc. of the IEEE Trans. On ASSP. 1990. -V. 38. -P. 1489-1503.
93. Spanias A.S. Speech Coding: A Tutorial Review // Proc. of the IEEE. 1994. - V. 82. - № 10. - P. 1539-1994.
94. Tavatia S., Porayath R., Doherty J F. Lattice CELP for low bit rate speech coding // Mil. Commun. Global Inf. Age: Synergies, Innov. and Monmouth Chapter Symp., Fort Monmouth, N. J. 1994. - V. 3. - Piscataway (N. J.). -1994. -P.703-707.
95. The Past, Present and Future of Speech Processing // IEEE Signal Processing Magazine. May 1998. -P. 24-48.
96. Wickerhauser M.V. Acoustic signal compression with wavelet packets. -New York: Academic Press, 1998. 211 p.
97. Woyd I. Speech Codec for the Skyphone Aeronautical Telephone Service. British TELECOMMUNICATION engineering. 1989. - V. 8. - 120 p.
-
Похожие работы
- Применение диадических вейвлетов для цифровой обработки сигналов
- Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений
- Методы и алгоритмы вейвлет-кодирования зашумленных изображений в радиотехнических системах
- Методика анализа и синтеза элементов тракта речепреобразования для низкоскоростных систем связи
- Алгоритмы вейвлет-анализа и беспороговой фильтрации при SPIHT-кодировании радиолокационных изображений
-
- Теоретические основы радиотехники
- Системы и устройства передачи информации по каналам связи
- Радиотехника, в том числе системы и устройства телевидения
- Антенны, СВЧ устройства и их технологии
- Вакуумная и газоразрядная электроника, включая материалы, технологию и специальное оборудование
- Системы, сети и устройства телекоммуникаций
- Радиолокация и радионавигация
- Механизация и автоматизация предприятий и средств связи (по отраслям)
- Радиотехнические и телевизионные системы и устройства
- Оптические системы локации, связи и обработки информации
- Радиотехнические системы специального назначения, включая технику СВЧ и технологию их производства