автореферат диссертации по радиотехнике и связи, 05.12.13, диссертация на тему:Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов

кандидата технических наук
Бабкин, Владимир Владиславович
город
Санкт-Петербург
год
2003
специальность ВАК РФ
05.12.13
цена
450 рублей
Диссертация по радиотехнике и связи на тему «Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов»

Автореферат диссертации по теме "Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов"

На правах рукописи

Бабкин Владимир Владиславович

ПОМЕХОУСТОЙЧИВЫЕ ВЫДЕЛИТЕЛИ ОСНОВНОГО ТОНА ДЛЯ НИЗКОСКОРОСТНЫХ ВОКОДЕРОВ И ЦИФРОВЫХ СЛУХОВЫХ АППАРАТОВ

Специальность 05.12.13 Системы, сети и устройства телекоммуникаций

Автореферат диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2003

Работа выполнена на кафедре цифровой обработки сигналов в государственном университете телекоммуникаций имени профессора М. А. Бонч-Бруевича.

Научный руководитель:

доктор технических наук, профессор Ланнэ Артур Абрамович

Официальные оппоненты:

доктор технических наук, профессор Путилин Алексей Николаевич кандидат технических наук, доцент Кузнецов Михаил Алексеевич

Ведущая организация:

ОАО НПП «РАДУГА», г. Санкт-Петербург.

Защита диссертации состоится «лЗ>> 2003 г. в уд на

заседании диссертационного совета К 219.004'.01 в государственном университете телекоммуникаций им. проф. М. А. Бонч-Бруевича по адресу: 191065, Санкт-Петербург, наб. р. Мойки, д. 61.

С диссертацией можно ознакомиться в библиотеке университета.

Отзыв на автореферат в двух экземплярах, заверенный печатью уче-реждения, просим выслать по адресу: 191065, Санкт-Петербург, наб. р. Мойки, д. 61 на имя ученого секретаря диссертационного совета.

Автореферат разослан

Ученый секретарь диссертационного с кандидат технических наук, доцент

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время цифровая обработка речевых сигналов занимает ключевое место в стремительно развивающейся области науки и техники, называемой речевыми технологиями. При решении задач анализа, синтеза, компрессии и распознавания речи широко используется основанное на классической модели речеобразования параметрическое описание речевых сигналов, в котором частота основного тона (ОТ) вокализованной речи, характеризующая высоту голоса, является одной из основных характеристик источника голосового возбуждения речевого тракта.

Задача автоматической оценки частоты ОТ и ее траектории во времени на основе анализа текущей речи (задача выделения ОТ) является классической и активно обсуждается в мировой научной литературе многие десятилетия. Однако, на практике она далека до окончательного решения в силу того, что предлагаемые алгоритмы выделения ОТ либо отличаются слишком большой вычислительной сложностью и представляют чисто научный интерес, либо хорошо работают при анализе широкополосной речи без шума и дают неудовлетворительные результаты в других условиях, например, в присутствии шума или при ограничении частотного диапазона речи в телефонных каналах.

Выбранная тема исследования представляет научный и практический интерес по следующим причинам:

• Прогресс в области вычислительной техники позволяет в настоящее время практически реализовать в реальном масштабе времени на цифровых процессорах обработки сигналов (ЦПОС) новые вычислительно сложные алгоритмы выделения ОТ. На первый план при сравнении алгоритмов оценки ОТ выходит качество их работы, а не простота реализации.

• Качество работы устройств низкоскоростной компрессии речи (вокодеров) и цифровых слуховых аппаратов (СА) напрямую зависит от точности оценки траектории ОТ при обработке речи.

• Расширение сферы применения устройств цифровой обработки речевых сигналов предъявляет новые требования к характеристикам и условиям работы устройств выделения ОТ (выделителей ОТ), входящих в их состав, в том числе, требование надежной работы в сложной акустической обстановке, например, в устройствах громкоговорящей связи и цифровых СА.

• Существующие выделители ОТ работают на зашумленных речевых сигналах неудовлетворительно, даже при отношениях сигнал/шум (ОСШ) порядка 0 дБ, однако, природные возможности слуховой системы человека по оценке высоты зашумленных гласных звуков сохраняются вплоть до значений ОСШ минус 10 - минус 12 дБ. Это позволяет надеяться, что задача автоматической . оценки ОТ в шумах с уровнем ОСШ порядка 0 дБ может бьггь удовлетворительно решена.

Таким образом, разработка методов помехоустойчивого выделения ОТ речи в шумах и на этой основе создание цифровых выделителей ОТ на базе ЦПОС по мнению автора представляет собой актуальную научную задачу, востребованную для нужд теории и практики. г Я>с. национальная !

Цель и задачи исследования. Объектом нятвЯМв&ШЬвляиггся выделители

5^)7

ОТ, применяемые в низкоскоростных вокодерах и цифровых СА. Целью работы является повышение помехоустойчивости существующих выделителей ОТ по критерию минимизации количества грубых ошибок в оценке траектории ОТ для зашумленной речи, и, тем самым, повышение потребительского качества работы перечисленных устройств. Основными научными и практическими задачами диссертации являются исследование методов оценки частоты ОТ речи в присутствии шума, разработка способа помехоустойчивого выделения ОТ и реализация цифровых выделителей ОТ, предназначенных для применения в низкоскоростных вокодерах и цифровых СА, построенных на основе ЦПОС. Для решения основных задач в работе ставятся и решаются следующие частные задачи:

1. Проведение аналитического обзора существующих методов выделения ОТ речи, формирование обобщенной блок-схемы построения помехоустойчивых выделителей ОТ и формулировка требований к его отдельным узлам.

2. Разработка методики оценки помехоустойчивости выделителей ОТ, отражающей особенности их применения в данных устройствах.

3. Построение тестовых речевых сигналов с размеченной траекторией ОТ и различными значениями ОСШ.

4. Создание необходимых программных инструментов для организации исследований помехоустойчивости выделителей ОТ методом моделирования на персональной электронно-вычислительной машине (ПЭВМ).

5. Моделирование выделителя ОТ на ПЭВМ.

6. Исследование различных способов формирования функциональных отображений речевых сигналов для оценки ОТ. Разработка структуры решающего правила выделителя ОТ и экспериментальная оптимизация его параметров. Исследование влияния на помехоустойчивость выделителя ОТ различных методов предварительной обработки сигнала и сглаживания траектории ОТ.

7. Сравнение помехоустойчивости разработанного выделителя ОТ с известными выделителями ОТ, используемыми в международных стандартах низкоскоростной компрессии речи.

8. Реализация разработанных выделителей ОТ на ЦПОС для работы в реальном масштабе времени в составе оконечных устройств - вокодера с линейным предсказанием речи (Linear Predictive Coding (LPC) вокодер) и цифрового СА. Методы проведенного исследования. Для решения поставленных задач использовались методы цифровой обработки сигналов, методы численного моделирования алгоритмов на ПЭВМ, методы спектрального анализа, математической статистики, проектирования микропроцессорных систем.

Научная новизна полученных результатов. Определяется тем, что полученные результаты позволяют повысить помехоустойчивость выделения ОТ для зашумленной речи. Предложена совокупность методов и алгоритмов, позволяющих в 1.5-2,0 раза снизить количество грубых ошибок выделения ОТ для текущей речи, предъявляемой в белом шуме, со значением ОСШ 0 дБ, по сравнению с существующими алгоритмами выделения ОТ, реализованными в международных стандартах низкоскоростной компрессии речи.

Практическая ценность полученных результатов. Предложенная совокупность методов и алгоритмов выделения ОТ реализована в виде конкретных про-

граммных моделей для ПЭВМ и на платформе ЦПОС.

Реализация результатов работы. Разработанный выделитель ОТ реализован в LPC вокодере на ПЭВМ и в цифровом СА на ЦПОС ADSP-2183. Основные положения диссертации, выносимые на защиту:

1. Метод и алгоритм выделения ОТ для зашумленной речи, имеющий помехоустойчивость выше, чем у существующих стандартных выделителей ОТ.

2. Методика сравнения эффективности использования различных функциональных преобразований сигнала для оценки ОТ речи в шумах на основе оценки контрастности отображения периодических сигналов в белом шуме.

3. Практическая реализация выделителей ОТ в виде программной модели для ПЭВМ, в составе LPC вокодера 1200 бит/с, реализованного на ПЭВМ, и в цифровом СА, реализованном на ЦПОС ADSP-2183.

Личный вклад соискателя. Все новые результаты, изложенные в работе, получены автором самостоятельно. В публикациях с соавторами вклад соискателя определяется рамками излагаемых в диссертации результатов.

Апробация результатов работы и публикации. Результаты, полученные в ходе выполненных исследований, докладывались и обсуждались на 4-м международном конгрессе "Sound and Vibration" (Санкт-Петербург, 1996), на 12-м международном симпозиуме "Transport Noise and Vibration" (Санкт-Петербург, 1996), на 52-й, 53-й, 54-й научно-технической конференциях (НТК) Санкт-Петербургского Государственного университета Телекоммуникаций им. проф. М.А. Бонч-Бруевича (Санкт-Петербург, 1999, 2000, 2001), на 2-й международной НТК «Техника и Технология Связи» (Санкт-Петербург, 2000), на 2-й и 3-й международных конференциях «Цифровая Обработка Сигналов и ее применения» (Москва, 1999, 2000), на международной конференции "3rd European DSP Education and Research Conference" (Париж, 2000).

По тематике диссертационной работы опубликовано 14 печатных работ, включая 3 публикации в виде тезисов докладов, 1 отчет по научно-исследовательской работе, 3 статьи в научно технических журналах и 7 публикаций в отчетах конференций.

Структура и объем диссертации. Диссертационная работа состоит из 5 разделов. Она содержит 210 листов, включая 191 лист текста с 60 рисунками, 11 листов списка использованных источников, включающего 122 наименования.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Глава 1 является вводной. В ней кратко рассмотрены области применения алгоритмов оценки частоты ОТ речи, такие как задачи идентификации дикторов, устройства низкоскоростной компрессии речи, системы очистки речи от шумов, синтеза речи и слухопротезирования. Обоснована актуальность выбранной темы исследования, её научная новизна и практическая ценность. Сформулирована цель работы и приведена структура диссертации.

В Главе 2 проводится аналитический обзор существующих методов выделения ОТ и ставятся конкретные задачи исследования.

Проведена постановка задачи оценки частоты ОТ, учитывающая особенности применения выделителей ОТ в низкоскоростных вокодерах и в цифровых СА с

непрерывной обработкой сигнала по кадрам фиксированной длины.

Рассмотрены факторы, затрудняющие оценку частоты ОТ, такие как широкий частотный диапазон поиска оценки ОТ (50-500 Гц), формантная структура спектра вокализованных звуков, ограничение частотной полосы сигнала в телефонных каналах связи, присутствие мешающего шума, и т. д.

Рассмотрены методы предварительной обработки сигналов: линейная фильтрация, обогащение спектра гармониками частоты ОТ путем нелинейных преобразований, выравнивание формантной структуры частотного спектра методами кдиппирования сигнала во временной области, методами линейного предсказания (ЛП) или нелинейного искажения спектра в частотной области.

Проведен анализ методов принятия решения и сглаживания траектории ОТ, а также связанных с ними методов оценки степени вокализации текущих фрагментов речи, используемых в классификаторах тон/шум.

В обзоре рассмотрены основные существующие методы оценки частоты ОТ, которые разделяются на два широких класса - методы, основанные на анализе сигналов непосредственно во временной области, и методы, использующие для анализа различные отображения сигналов, получаемые на основе функциональных преобразований для выборок сигнала.

К первой группе относятся методы частотной селекции, с использованием фильтрации и реконструкции первой гармоники ОТ, методы амплитудной селекции, анализирующие форму сигнала, его огибающей или остатка ЛП, а также многоканальные схемы построения выделителей ОТ, объединяющие анализ нескольких признаков, использующие различные методы предварительной обработки или различные частотные полосы анализа.

Во второй группе рассмотрены корреляционные методы, использующие кратковременные оценки функций автокорреляции и взаимной корреляции сигнала, методы расчета разностей сигналов, методы ЛП высокого порядка; кепст-ральный и другие методы, основанные на модификации спектра сигнала; методы максимального правдоподобия на основе гребенчатой фильтрации сигнала во временной области; методы анализа через синтез во временной области; метода поиска гармоник ОТ в частотной области: спектральной компрессии, гребенчатой фильтрации, корреляционного анализа спектров и спектрального подобия.

На основании выбранной цели работы и проведенного обзора существующих методов выделения ОТ поставлены конкретные задачи диссертационного исследования. Основные выводы по второй главе заключаются в следующем:

1. Проблема создания помехоустойчивых выделителей ОТ для зашумленной речи до сих пор не решена, а в отечественной и зарубежной литературе этой теме уделено недостаточно внимания. По мнению автора, добиться повышения помехоустойчивости выделения ОТ речи в шумах можно применив совокупности различных методов обработки и анализа речевого сигнала после тщательной экспериментальной оптимизации всех не поддающихся формализации параметров.

2. Создание помехоустойчивых выделителей ОТ целесообразно проводить на основе анализа функциональных отображений сигналов, построенных с использованием различных кратковременных преобразований, усредняющих влияние шума. Анализ сигнала непосредственно во временной области дает

неудовлетворительные результаты.

3. Выделители ОТ, использующие анализ функциональных отображений сигналов, имеют обобщенную структурную схему, изображенную на рис. 1. Помехоустойчивость таких выделителей ОТ в целом определяется выбором способа предварительной обработки сигналов, свойствами используемого отображения сигналов и решающим правилом, на которое ложится основная нагрузка в обеспечении надежности текущей оценки ОТ и сглаживания траектории ОТ.

Рис. 1. Структура выделителей ОТ

4. В условиях низкого ОСШ входного сигнала, неизвестной спектральной огибающей полезного сигнала и мешающего шума и при априорной неопределенности величины ОТ для предварительной обработки речевых сигналов целесообразнее всего использовать линейную полосовую фильтрацию. Перспективными являются адаптивные методы предварительной фильтрации в частотной области, улучшающие интегральное ОСШ на входе отображения в большей степени, чем полосовые фильтры с фиксированной АЧХ. Применение для анализа сигнала остатка ЛП или нелинейных методов обработки сигнала целесообразно только для незашумленных речевых сигналов с ограниченной частотной полосой.

5. Среди функциональных отображений речевых сигналов наиболее подходящими для создания помехоустойчивых выделителей ОТ являются отображения, используемые в корреляционных методах и в методах максимального правдоподобия во временной и частотной областях. Длину окна анализа целесообразно выбирать порядка 40-50 мс, а оценку ОТ проводить каждые 5-15 мс с перекрытием окон анализа. Этим достигается компромисс между спектральным разрешением, усреднением влияния шума и слежением за быстрыми изменениями траектории ОТ.

6. При построении выделителей ОТ необходимо разделять задачи сглаживания траектории ОТ и проведения классификации тон/шум во избежании влияния ошибок классификации тон/шум на оценку ОТ. Наиболее типичными ошибками при оценке траектории ОТ являются переходы на гармоники и субгармоники основной частоты ОТ. Принятие окончательного решения о текущей оценке ОТ необходимо проводить с учетом информации об оценках ОТ на предыдущих и желательно последующих речевых кадрах.

7. Наиболее совершенными методами сглаживания траектории ОТ являются статистические методы принятия решения, в частности, методы динамического программирования (ДП), осуществляющие выбор наиболее вероятной траектории ОТ из набора возможных траекторий на нескольких смежных кадрах. В Главе 3 проводится исследование методов помехоустойчивого выделения

ОТ и разработка алгоритма выделителя ОТ.

Разработана и обоснована методика количественной оценки помехоустойчивости выделителей ОТ путем расчета процента грубых ошибок в оценке периода

ОТ (Great Pitch Errors - GPE) от общего числа выдаваемых оценок ОТ для заданных тестовых сигналов:

к ti\o, earn \NPEk\<$y k pk

где К - количество измерений ОТ, NPEk - нормированная ошибка оценки ОТ, д -порог разделения грубых ошибок и малых отклонений в оценке ОТ, выбранный равным 0,1, NPk - нормированная оценка ОТ, рк - оценка периода ОТ на выходе выделителя ОТ, рк - контрольное значение периода ОТ для ¿-той точки измерения ОТ, известное заранее. Показано, что данная методика оценки помехоустойчивости учитывает особенности применения выделителей ОТ в низкоскоростных вокодерах и цифровых СА и отражает субъективное восприятие качества работы указанных устройств. Распределение нормированных ошибок в оценке ОТ носит многомодальный характер. Ошибки с NPEh< £не учитываются, т. к. они влияют на естественность тембра и узнаваемость голоса говорящего, но не приводят к резкому ухудшению качества и разборчивости речи на выходе вокодеров иСА.

Для экспериментального исследования помехоустойчивости выделителей ОТ созданы два набора тестовых сигналов, представляющие собой длительные последовательности изолированных гласных звуков (набор "V") и чтения текста (набор "S"), записанные различными дикторами, мужчинами и женщинами. Использовались широкополосные сигналы без шума (сигналы V и S) и в смеси с белым шумом со значениями ОСШ 0, минус 3, минус 6 и минус 9 дБ (сигналы V0, V3, V6, V9 и SO, S3). Сигналы записаны с частотой дискретизации 8 кГц и разрядностью 16 бит. Траектории ОТ для сигналов V и S размечены вручную. Оценка ОСШ проводилась по всей длине сигналов N, исключая паузы:

SNR = 101og„

(2)

1>2(»)/5>2(») ,

_п-0 / ляО

где я(п) - сигнал без шума, е(п) - шумовой сигнал. Для формирования частотно-ограниченных тестовых сигналов (наборы "У_СН" и "Э_СН "), моделирующих речь в телефонных каналах связи, использовался полосовой фильтр 300-3400 Гц (сигналы У_СН, У0_СН, УЗ_СН, У6_СН, У9_СН и 3_СН, 30_СН, 33_СН).

Методом программного моделирования на ПЭВМ рассмотрены свойства двух функциональных отображений сигналов - на основе расчета выборочной оценки функции нормированной взаимной корреляции (ФНВК) К(р) и на основе расчета функции энергии на выходе перестраиваемого гребенчатого БИХ фильтра (ФЭГФ) с изображениями сигналов на выходе фильтра Е(р)\

Н-р (У-1/Л/-1

/„.Г <3>' = -(4),

-1 »=i

Я(г) = 1/(1-я,г-'). (5)

где /V - общая длина выборки входного сигнала х(п), р - величина сдвига между

сравниваемыми сигналами, выбранная как гипотеза о величине периода ОТ, М=ш(М/р), ар - коэффициент обратной связи БИХ фильтра, с передаточной функцией Н(г) (5). Примеры отображений, построенных на основе функций (3) и (4) для периодического сигнала (гласная "а") без шума и для одного белого шума, приведены на рис. 2 «а» и 2 «б» {N=320, ар~0,7).

Рис. 2. Примеры отображения сигналов: а - ФНВК; б - ФЭГФ; 1 - периодический сигнал без шума; 2 - белый шум

Полезная информация о периодичности сигнала заключена либо в максимумах взаимокорреляционной функции, либо в максимумах функции энергии на выходе перестраиваемого гребенчатого фильтра, зависящей от параметра настройки р. Для смеси периодического сигнала с белым шумом с заданным ОС1Н максимумы отображений (3) и (4) для периодической части сигнала уже не столь выражены. Они содержат случайную составляющую «фона» отображения, изменяющуюся от измерения к измерению, которую создает шумовая компонента сигнала. Естественно предположить, что чем сильнее зашумлены максимумы отображения, тем более затруднено их обнаружение и сравнение их величин для различных значений параметра р. Поэтому для экспериментального сравнения качества отображения зашумленных периодических сигналов, получаемых различными способами на основе расчета выражений (3) и (4), для отображения максимумов, соответствующих периодической части сигнала введена оценка качества, названная по аналогии с видеотехникой контрастностью. Под контрастностью С(ртш) понимается отношение среднего значения амплитуды максимумов отображения, несущих информацию о периоде ОТ, к среднеквадратичному значению случайных компонент фона в точке максимума ртах:

(6), = (7), <7,00 = ЛЕ^(р)-^АР) (8),

ая (Р) л. ы у Л

где К-лу(р) ~ выборочное среднее значение функции отображения И(р), рассчитанная на К выборках, а сгк(р) - среднеквадратичная оценка случайной компоненты отображения, ртах - точка, соответствующая локальному максимуму в районе оценки периода ОТ тестового сигнала. Величина контрастности зависит от типа используемого отображения, от длины выборки N и от ОСШ входного сигнала. Она позволяет количественно сравнить различные способы отображений сигналов с целью определения предпочтения между ними для использования в выделителях ОТ на этапе до построения решающих правил.

Для стационарных гласных звуков в белом шуме была проведена экспериментальная оценка контрастности для отображений (3) и (4) при различных ОСШ в зависимости от длины окна анализа. Результаты, представленные на рис. 3, показывают, что для сигналов с ОСШ < -3 дБ при одинаковой длине окна анализа ис-

пользование ФЭГФ имеет небольшое преимущество в сравнении с ФНВК, однако уступает ему в стабильности контраста для сигналов с ОСШ > -3 дБ в силу того, что энергия гласных звуков, в отличии от шума, распределена по периоду неравномерно, что влияет на величину максимумов отображений при нормировании у ФЭГФ сильнее, чем у ФВНК при различных положениях окна анализа относительно периодов ОТ.

oj—.—--1—.—--,—,—,—,—. oj—.—,——,—,—.—,—,—,-,—

100 200 300 400 300 6М 7Н L 100 200 300 400 500 600 700 L

а) б)

Рис. 3. Зависимость контраста отображения С(р) от длины окна анализа Ь: а - в широкой полосе частот; б - после ФНЧ 1000 Гц; сплошные линии - ФЭГФ; пунктирные линии - ФНВК

Для отображений (3) и (4) проведено сравнение помехоустойчивости выделения ОТ для различных решающих правил и методов предварительной обработки сигналов. Для анализа причин возникновения ошибок строились гистограммы распределения нормированных оценок ОТ ЛГР* (1) на выходе выделителя ОТ, приведенные на рис. 4.

Рис. 4. Гистограммы распределения нормированных оценок ОТ NP (I) на выходе выделителя ОТ на для различных решающих правил: а - выбор глобального максимума отображения, б - отбор кандидатов по правилу (9)

Рассмотрены следующие способы анализа отображений для одной выборки сигнала: использование в качестве опенки ОТ положения глобального максимума отображения (рис. 5 «а»); использование различных методов взвешивания отображения; сортировки локальных максимумов {рт} отображения R(p) с выбором кандидатаpcand на оценку ОТ по следующему правилу (рис. 5 «б»):

p:z = p.. if R(pm) > RiptLУс, Ра< Рт+1 (9)

Параметр с правила (9) экспериментально оптимизирован по критерию минимума числа GPE (1) на выходе выделителя ОТ при работе на зашумленных тестовых сигналах с использованием схемы, показанной на рис 5.

Рис. 5. Схема экспериментальной оценки и минимизации числа СРЕ

Экспериментальная зависимость количества СРЕ от величины параметра с в решающем правиле (9) для различных тестовых сигналов приведены на рис. 6.

а) б)

Рис. 6. Зависимость числа СРЕ от параметра "с" решающего правила (9) для различных тестовых сигналов: а - гласные звуки; б - речь

Для широкополосных сигналов оптимальное значение параметра "с" лежит в районе 1,2, а для сигналов с ограниченной частотной полосой - в районе 1,05. При сравнении гистограмм на рис. 5 «а» и «б» видно, что при использовании решающего правила (9) наряду с общим уменьшением числа ошибок СРЕ произошло их перераспределение между ошибками удвоения периода ОТ и ошибками удвоения частоты ОТ в сторону увеличения последних.

Рассмотрено влияние на уровень СРЕ для зашумленных сигналов следующих методов предварительной обработки сигналов: предварительная фильтрация с помощью ФНЧ с частотами среза 500, 800 и 1000 Гц; использование сигнала остатка модели ЛП различных порядков. Результаты показали, что применение для оценки ОТ речи сигнала остатка ЛП дает наибольший выигрыш для речевых сигналов без шума, взятых в полосе частот телефонного канала. Для широкополосных сигналов без шума выигрыш не велик. Для сигналов с ОСШ 0 дБ и менее, применение инверсной фильтрации в любой последовательности с ФНЧ ухудшает результат, по сравнению с применением одного ФНЧ. Это связано как с ошибками в оценке параметров ЛП для речи в широкополосном шуме, так и с ухудшением общего ОСШ для сигнала остатка из-за подавления формантных пиков речевых сигналов. Поэтому при работе с зашумленными речевыми сигналами данный режим предварительной обработки должен отключаться.

Рассмотрены следующие методы сглаживания траектории ОТ на смежных

речевых кадрах: медианное сглаживание одиночных оценок ОТ и выбор оценки ОТ для текущего кадра с использованием информации о прошлых и будущих кадрах методами динамического программирования (ДП). Результаты использования медианного сглаживания приведены на рис. 7. Для тестовых сигналов показана зависимость количества ОРЕ от длины медианы т.

вРЕ, % 70г.

60 50 40 30 20 10 0

СРЕ, % 70

vв сн

сн

г

, - -« .уо 2н

Ь V СН

кУо"

13 5 7 9т

60 50 40 30 20 10 О

. 33_СН

■ -. "" " -30_СН""-

э_сн .33

■ - . -Ш__

а)

1 3 5 7 9т

б)

Рис. 7. Зависимость числа грубых ошибок ОРЕ от длины медианы т при медианном сглаживании траектории ОТ: а - гласные звуки; б - речь

Задача поиска траектории ОТ методом ДП сформулирована следующим образом: для речевого кадра с номером / у функционального отображения Я-,(р) ищутся все положительные локальные максимумы, образующие набор {рО)} из кандидатов на оценку периода ОТ для данного кадра. Наборы кандидатов для Ь смежных кадров с номерами образуют таблицу, через узлы которой

вероятней всего пролегает траектория ОТ. Столбцы таблицы представляют собой наборы претендентов {р@)} на оценку ОТ для каждого кадра, число столбцов равно числу анализируемых совместно смежных кадров Ь. Стоимость узла таблицы для кадра г и кандидата рО) выбирается пропорциональной величине локального максимума отображения для данного кандидата:

(*•>/•)=аду,» (ю)

Стоимость пути перехода траектории ОТ между узлами решетки от кандидата для кадра г к кандидату р0,+1) для кадра ¡+1 учитывает расстояние между кандидатами для смежных кадров и отражает вероятность изменения траектории ОТ, которая для вокализованных звуков считается плавной линией. В данном случае используется прямоугольная функция стоимости пути, задающая относительные границы поиска отклонения траектории ОТ для смежных кадров:

А Гг, ; V; л.. ; ^ / гСШ ИлЬЯ/ж)! ¿«'Л пп

йг10>у,Х1 + 1>./1+1)Ы | ... ,. ', (10

[-00, если |/>0,)-р0,+,)|>«-Р* Скачки траектории ОТ, выходящие за границы интервала допустимого отклонения траектории ОТ а=0,1, не рассматриваются. Оценка наиболее вероятной траектории ОТ на протяжении Ь кадров осуществляется выбором оптимального пути между узлами таблицы (¡¡, ..._/',+/../), максимизирующего функционал общей

стоимости пути вида:

1.-2

о, 0,, У, „ ) = ХК(< + Ум) + '/г [(' + Л.»). (< + * +1. У,**.)]) + (12)

+ + и,

где / - индекс кадра,у'/ - индекс кандидата р(Ц) на оценку периода ОТ для кадра /, I - количество смежных кадров, участвующих в сглаживании траектории ОТ. Структурная схема решающего правила выделителя ОТ приведена на рис. 8.

I ^(р)

Поиск локальных

максимумов отображения для слоя т+2

Обновление памяти для 5 последних слоев Р Р гп-2' т 1

1

Расчет максимальной стоимости произвольного пути в слоях т,ш+1 для всех максимумов из слоя т+2 Расчет стоимости фиксированного пути в слоях т-2,т-1 для всех максимумов из слоя т

4 (0'т.2) 1 г (О".}

Выбор пути в слоях т,т+1,т+2 по правилу Выбор пути в слое т с максимальной стоимостью

Р< , а

Выбор оценки ОТ для слоя т

Рис. 8. Структурная схема решающего правила

Особенностями разработанного метода оценки траектории ОТ на основе ДП, позволяющими повысить точность оценки ОТ в шумах и снизить вычислительную сложность решения задачи поиска сглаженной траектории ОТ по сравнению с существующими решениями, являются:

• Ограничение поиска траектории ОТ конечным числом точек локальных максимумов отображений.

• Прямоугольная функция стоимости, задающая только границы поиска.

• Поиск пути, максимизирующего стоимость (12), методом последовательной оптимизации.

• Использование комбинированного метода независимой оценки траектории ОТ по прошлым и будущим кадрам с последующим выбором лучшего результата, эффективно снижающего ошибки выделителя ОТ в начале и в конце вокали-

зованных звуков.

• Использование для поиска траектории ОТ ее сглаженных значений, найденных на прошлых кадрах.

• Окончательный выбор наилучшей траектории ОТ по правилу (9), примененному для стоимости (12).

• Отсутствие в алгоритме принятия решения детектора тон/шум. Результаты сглаживания траектории ОТ различными вариантами построения

решающего правилами на основе ДП приведены на рис. 9, показана зависимость СРЕ от выбора параметров решающего правила: 1 - сглаживание по трем прошлым кадрам, 2 - сглаживание по трем будущим кадрам, 3 - комбинированный способ сглаживания по пяти кадрам, 4 - комбинированный способ по пяти кадрам с фиксацией траектории ОТ на двух прошедших кадрах при поиске текущей оценки ОТ, границы поиска а=0,05,5-10 -тоже самое для а равных 0,075; 0,09; 0,1; 0,1!; 0,125; 0,15.

2.

вРЕ, % 70 г

60 50 40 30 20 10

У6_СН

СРЕ, % 70 г

^ vз сн . а* \га_сн

А А -А -А >А А

А* V СН

•А ~

-Или!

■^-■-■-■-■-Ш-И'

У*

У

60 50 40 30 20 10

■ эз сн - \ эо сн

Ч Э СН

— эз

3 1

■ ......... -' ■' ■' •' ■1

012345678910 номер правила

012345678910 номер правила

а) б)

Рис. 9. Зависимость числа грубых ошибок СРЕ от способа реализации сглаживании траектории ОТ методом ДП: а - гласные звуки; б - речь

В третьей главе работы получены следующие наиболее важные результаты: Разработана методика оценки помехоустойчивости выделителей ОТ, отражающая особенности их работы при построении низкоскоростных вокодеров и цифровых СА. Сформулирован количественный критерий ошибки в оценке ОТ для заданного тестового сигнала, интегрирующий отдельные ошибки в оценке траектории ОТ на протяжении всего тестового сигнала. Создан необходимый набор инструментов в виде программ для ПЭВМ, осуществляющих автоматическое сравнение определяемой выделителем ОТ траектории ОТ с известной траекторией ОТ для тестовых сигналов и расчет ошибок по выбранному критерию.

Подготовлен речевой материал - составлена звуковая база тестовых сигналов, проведена контрольная разметка траектории ОТ, получены зашумленные тестовые сигналы с различным отношением сигнал/шум и сигналы с ограниченной частотной полосой, моделирующие речь в телефонных каналах связи.

4. Модель выделителя ОТ реализована на ПЭВМ на языке Си в арифметике с плавающей точкой в виде консольной программы с файловым вводом-выводом сигналов.

5. Исследованы несколько способов формирования отображений сигналов на основе корреляционных методов и вариантов метода максимального правдоподобия, с использованием функций нормализованной взаимной корреляции и энергии на выходе перестраиваемых гребенчатых фильтров.

6. Разработана методика оценки контрастности отображения зашумленных периодических сигналов. Проведено сравнение контрастности отображений на основе ФЭГФ и ФНВК, что позволило сравнить помехоустойчивость выделителей ОТ, построенных на их основе, до реализации решающих правил.

7. Исследованы различные способы оценки периода ОТ на основе анализа отображений сигналов для одного речевого кадра. Предложено нескольких решающих правил и проведено их сравнение. Экспериментально оценены параметры решающих правил, обеспечивающие наименьшее число грубых ошибок в оценке ОТ для зашумленных тестовых сигналов.

8. Выполнено сравнение помехоустойчивости оценки ОТ при различных способах предварительной фильтрации сигнала на основе сочетания ФНЧ и адаптивных обеляющих фильтров, рассчитанных методами ЛП.

9. Исследованы различные способы сглаживания оценок ОТ для смежных кадров. На основе метода ДП разработано и реализовано правило сглаживания траектории ОТ, учитывающее вес отдельных кандидатов на оценку ОТ и поведение траектории ОТ на смежных кадрах.

10.На основании проведенных исследований разработан и реализован алгоритм помехоустойчивого выделения ОТ, а его параметры экспериментально оптимизированы.

В главе 4 приводятся результаты сравнения помехоустойчивости разработанного выделителя ОТ с существующими выделителями ОТ, применяемыми в низкоскоростных вокодерах. Структурная схема разработанного выделителя ОТ представлена на рис. 10. Блок адаптивного обеляющего фильтра (АОФ) является опциональным.

Речевой сигнал

х(п)

з(п)

г(п)

У(п)

Рм

а)

б)

Рис. 10. Структурные схемы обработки сигнала в выделителе ОТ (а) и в блоке адаптивного обеляющего фильтра (АОФ) (б).

Оценка помехоустойчивости выделителей ОТ велась согласно разработанной методике на основе расчета (1) на тестовых речевых сигналах с известным значением ОСЫ (2) по схеме, изображенной на рис. 6. Выбор для сравнения вы-

делителей ОТ, взятых из международных рекомендаций, гарантирует качество эталонных выделителей ОТ. А их стандартная реализация в виде программных моделей для ПЭВМ, опубликованная вместе с рекомендациями, обеспечивает повторяемость и однозначность трактовки полученных результатов. Были использованы следующие стандарты: ITU-T G729A 8 кбит/с (1996), ITU-T G723.1 5.3/6.3 кбит/с (1996), FS-1017 MELP 2400 бит/с (1998), FS-1015 LPC-10e 2400 биг/с (1977), ISO MPEG-4 HVXC 2000 бит/с (1998). Результаты сравнения представлены на рис. 11.

2.

1234567 1234567

номера сравниваемых номера сравниваемых

выделителей ОТ выделителей ОТ

а) б)

Рис. 11. Зависимость числа грубых ошибок GPE сравниваемых выделителей ОТ для тестовых сигналов с различным значением ОСШ: а -гласные звуки; б - текущая речь. Алгоритмы: 1 - G.729AB; 2 - G.723.1 ; 3 - MELP; 4 - LPC10E; 5 - HVXC; 6 - разработанный выделитель ОТ без блока АОФ; 7 - разработанный выделитель ОТ с блоком АОФ.

Основные выводы по четвертой главе заключаются в следующем: 1. Разработанный выделитель ОТ при работе с речевыми сигналами без шума по количеству GPE не уступает лучшим известным образцам выделителей ОТ, а при работе с широкополосными речевыми сигналами в белом шуме с ОСШ порядка 0 дБ - превосходит их в 1,5-2 раза.

Применение блока АОФ эффективно для речевых сигналов без шума с ограниченным снизу частотным диапазоном, например для телефонной речи в полосе частот 300-3400 Гц. В этом случае такой фильтр может значительно понизить количество GPE выделителя ОТ, приблизив их количество к уровню GPE для широкополосной речи. Для зашумленной речи использование данного фильтра ухудшает показатели GPE. Решение вопроса о включении данного блока в цепь обработки сигнала должно приниматься исходя из характера источника речевого сигнала на входе вокодера. Если вокодер работает с сигналом, взятым непосредственно с микрофона (например, в КВ радиостанции), тогда целесообразнее отказаться от использования АОФ в пользу большей надежности выделения ОТ при работе в шумах. Если планируется, что воко-

дер должен использоваться в каналах магистральной связи с подключением абонента через телефонную сеть общего пользования, тогда целесообразнее использовать АОФ. Включение/выключение данного блока может быть осуществлено оперативно в процессе работы вокодера.

В главе 5 формулируются правила перехода от моделей алгоритмов цифровой обработки сигналов (ЦОС), реализованных на ПЭВМ в арифметике с плавающей точкой, к их реализациям на основе ЦПОС с целочисленной арифметикой. Разработка и реализация складывается из следующих этапов:

• Функциональное моделирование алгоритма ЦОС на ПЭВМ на языке высокого уровня в арифметике с плавающей точкой.

• Разработка набора тестовых сигналов для оценки качества работы алгоритма.

• Прототипное моделирование алгоритма на ПЭВМ на языке высокого уровня в арифметике с фиксированной точкой с учетом особенностей арифметики ЦПОС с сохранением основных качественных показателей.

• Реализация алгоритма на ЦПОС на языке ассемблера с учетом особенностей архитектуры процессора. Оптимизация вычислительных ресурсов ЦПОС.

• Организация многоканальной работы алгоритма на одном ЦПОС в составе законченной системы.

Рассмотрены особенности каждого из этапов, проведено сравнение способов многоканальной реализации алгоритмов на одном ЦПОС.

Осуществлена реализация двух выделителей ОТ, построенных на основе разработанного алгоритма и применяемых в составе LPC вокодера 1200 бит/с и в составе алгоритма адаптивной фильтрации цифрового СА, повышающего помехоустойчивость восприятия речи для пациентов с нейросенсорной тугоухостью.

Модель вокодера реализована на ПЭВМ в виде программы, написанной на языке Си в арифметике с плавающей точкой, работающей в реальном масштабе времени под управлением ОС WINDOWS-95/NT с использованием для ввода-вывода сигналов полнодуплексной звуковой платы Sound Blaster PCI-128 фирмы Creative Labs.

Слуховой аппарат реализован в виде автономного устройства, собранного на основе 16-ти разрядного ЦПОС ADSP-2183 и звукового кодека AD73311 фирмы Analog Devices. Рассмотрены особенности архитектуры данного семейства ЦПОС, позволяющие эффективно организовать вычисления и минимизировать количество тактов процессора, требуемых для реализации данного алгоритма. В пятой главе работы получены следующие наиболее важные результаты:

1. Изложены общие принципы и этапы перехода от моделей алгоритмов ЦОС выполненных в арифметике с плавающей точкой к их практической реализации на основе применения ЦПОС с арифметикой с фиксированной точкой в составе оконечных устройств для работы в реальном масштабе времени.

2. Рассмотрены способы построения и особенности реализации многоканальных алгоритмов на базе одного ЦПОС, позволяющие эффективно организовать вычисления и снизить стоимость аппаратной части устройств ЦОС.

3. Дано описание двух реализаций разработанного выделителя ОТ, примененных в составе LPC вокодера на скорость 1200 бит/с и цифрового СА и работающих в реальном масштабе времени.

ЗАКЛЮЧЕНИЕ

Основные результаты диссертационной работы заключаются в следующем:

1. Проведен аналитический обзор современных методов выделения ОТ речи и на его основе сформулированы принципы построения помехоустойчивых выделителей ОТ и обозначены требования и к его отдельным узлам.

2. Разработана методика оценки помехоустойчивости выделителей ОТ, отражающая особенности их применения в низкоскоростных вокодерах и цифровых CA и связанная с потребительскими показателями качества работы данных устройств.

3. Созданы программные инструменты для исследования помехоустойчивости выделителей ОТ методом моделирования на ПЭВМ. Построены тестовые речевые сигналы с различными ОСШ и с размеченной траекторией ОТ.

4. Предложена методика сравнения эффективности использования различных функциональных преобразований сигнала для оценки ОТ речи в белом шуме. Проведено сравнение нескольких способов формирования функциональных отображений речевых сигналов на основе корреляционных методов и методов максимального правдоподобия и выбрано наиболее эффективное.

5. Исследованы различные способы оценки ОТ при анализе отображений вокализованной речи. Исследовано влияние на помехоустойчивость выделителя ОТ различных вариантов предварительной обработки сигнала и сглаживания траектории ОТ. Разработана структура решающего правила выделителя ОТ и экспериментально оптимизированы его параметры при работе в шумах.

6. На основе проведенных исследований разработан алгоритм помехоустойчивого выделения ОТ и создан выделитель ОТ, реализованный в виде программной модели на ПЭВМ.

7. На основе разработанной методики проведено количественное сравнение помехоустойчивости разработанного выделителя ОТ с известными выделителями ОТ, используемыми в международных стандартах низкоскоростной компрессии речи. Сравнение показало, что предложенный алгоритм выделения ОТ имеет лучшую помехоустойчивость. Он позволяет снизить в 1,5-2 раза количество грубых ошибок в оценке ОТ для речи в белом шуме с ОСШ 0 дБ и тем самым повысить качество работы низкоскоростных вокодеров и цифровых CA в целом.

8. Проведена оптимизация вычислительной сложности алгоритма, осуществлен перевод алгоритма в арифметику с фиксированной точкой для реализации на 16-ти разрядных ЦПОС, разработана стратегия многоканальной реализации алгоритмов ЦОС для обработки нескольких каналов на одном ЦПОС.

9. Разработанный выделитель ОТ реализован для работы в реальном масштабе времени в составе двух устройств - в вокодере с линейным предсказанием речи со скоростью 1200 бит/с на ПЭВМ и в цифровом CA на ЦПОС ADSP-2183.

СПИСОК ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ РАБОТ

I. Andreyev I.V., Babkin V.V., Fouks V.A., Kondroutski A.V., Lanne A.A., Zaborovski V.S., Znamerovski A.E. DSP Units for IP-Teiephony Systems. Proc. of the 3rd European DSP Education and Research Conference, 20-22 September 2000, Paris.

2. Babkin V.V.. Babkina L.N., Dombrovsky R.V., Molchanov A.P. The ways of improvement of perception of Speech on a Noise Background with help of the Hear-ing-aids.// Proceeding of the 12-th International Fase Symposium «Transport Noise and Vibration», St.-Petersburg, Russia, 1996, Sept.23-25, p. 269-273.

3. Babkin V.V., Dombrovsky R.V., Molchanov A.P. About the Mechanism of extraction the Speech elements from Noise in the Hearing System of men. // Proceeding of the 4-th International Congress on Sound and Vibration, St.-Petersburg, Russia, 1996, June 24-27, p. 1439-1444.

4. Андреев И.В., Бабкин B.B., Знамеровский A.E. Реализация многоканальных речевых кодеков на цифровых процессорах обработки сигналов с фиксированной точкой. // Труды учебных заведений связи сб. № 165. СПб ГУТ, -СПб.,

1999.

5. Андреев И.В., Бабкин В.В., Знамеровский А.Е. Реализация многоканальных шлюзов IP-телефонии. // 2-я межд. конф. Цифровая Обработка Сигналов и ее применения: докл. т. 2.-Москва, 1999. -с. 432-435.

6. Андреев И.В., Бабкин В.В., Знамеровский А.Е. Реализация многоканальных речевых CELP кодеков на DSP TMS320c548. // 2-я межд. конф. Цифровая Обработка Сигналов и ее применения: докл. т. 2., -Москва, 1999. -с. 283-287.

7. Бабкин В.В. LPC вокодер 1000-1200 бит/с. // Труды 3-ей межд. конф. Цифровая Обработка Сигналов и ее Применение (DSPA-2000) -Москва, 2000.

8. Бабкин В.В. Архитектура модуля обработки сигналов двухканального шлюза IP-телефонии. // 2-я межд. НТК Техника и Технология Связи. ГУТ, -СПб.

2000. (опубликована в журнале "Электросвязь" №7, 2000)

9. Бабкин В.В. Карманный цифровой слуховой аппарат на ADSP-2183. // Cheep News. -1999. - № 9 (42). - С. 35-39.

Ю.Бабкин В.В. Обзор методов обработки сигналов в цифровых слуховых аппаратах (Тезисы) 53-я НТК: тез. докл. / СПб ГУТ, -СПб, 2000.

11.Бабкин В.В. Реализация двухскоростного CELP вокодера на цифровом сигнальном процессоре ADSP-2181. (Тезисы) 52-я НТК: тез. докл./ СПб ГУТ, -СПб., 1999.

12.Бабкин В.В. Сравнение помехоустойчивости различных алгоритмов оценки периода основного тона речи. (Тезисы) 54-я НТК: тез. докл. / СПб ГУТ, -СПб,

2001.

13.Бабкин В.В., Бабкина JI.H., Довжиков А.А., Молчанов А.П. Реализация карманного цифрового слухового аппарата на ADSP-2183. // 2-я межд. конф. Цифровая Обработка Сигналов и ее применения: докл. т. 2. -Москва, 1999, с. 386-390.

14.Отчет по НИР: Вокодер 1200 бит/с. // СПб ГУТ, кафедра ЦОС, 2000.

Отпечатано в ООО «АкадемПринт» С-Пб ул Миллионная, 19 Тел.: 315-11-41 Подписано в печать 21.07.03. Тираж 100 экз.

Ä« 1 5 2 3 7

Оглавление автор диссертации — кандидата технических наук Бабкин, Владимир Владиславович

1 Введение.

1.1 Задача оценки частоты основного тона вокализованной речи и ее место в цифровой обработке речевых сигналов.

1.2 Область применения алгоритмов оценки частоты ОТ вокализованной речи.Ю

1.3 Актуальность темы исследования.

1.4 Цель работы.

1.5 Структура диссертации.

2 Обзор существующих методов оценки частоты ОТ вокализованной речи.

2.1 Постановка задачи оценки частоты ОТ вокализованной речи.

2.2 Факторы, затрудняющие оценку частоты ОТ.

2.3 Требования к точности оценки частоты ОТ в вокодерах.

2.4 Общая структура построения выделителей ОТ.

2.5 Методы предварительной обработки речевых сигналов.

2.5.1 Линейная фильтрация.

2.5.2 Выравнивание формантной структуры спектра.

2.5.3 Нелинейные методы обогащения спектра гармониками частоты ОТ.

2.6 Методы принятия решения.

2.7 Общая классификация методов оценки частоты ОТ.

2.8 Методы оценки частоты ОТ на основе анализа речевых сигналов во временной области.

2.8.1 Методы частотной селекции.

2.8.2 Методы амплитудной селекции.

2.8.3 Многоканальные схемы построения выделителей ОТ.

2.8.3.1 Использование нескольких признаков для анализа.

2.8.3.2 Использование различных методов предварительной обработки.

2.8.3.3 Использование различных частотных полос.

2.9 Методы оценки частоты ОТ на основе анализа функциональных отображений речевых сигналов.

2.9.1 Корреляционные методы и методы линейного предсказания.

2.9.1.1 Автокорреляционный метод.

2.9.1.2 Разностные методы (AMDF и MSDF).

2.9.1.3 Метод, использующий функцию нормированной взаимной корреляции.

2.9.1.4 Методы линейного предсказания высокого порядка.

2.9.2 Методы, основанные на модификации спектра сигнала.

2.9.2.1 Кепстральный метод.

2.9.2.2 Другие методы модификации спектра.

2.9.3 Методы максимального правдоподобия.

2.9.4 Методы анализа через синтез.

2.9.5 Методы поиска гармоник частоты ОТ в частотной области.

2.9.5.1 Методы спектральной компрессии.

2.9.5.2 Обнаружение гармоник ОТ с помощью гребенчатого фильтра.

2.9.5.3 Корреляционный анализ спектров.

2.9.5.4 Методы спектрального подобия.

2.10 Методы классификации тон/шум.

2.10.1 Общие подходы к классификации тон/шум для речевых сигналов.

2.10.2 Подходы к классификации тон/шум в низкоскоростных вокодерах.

2.10.3 Признаки, используемые при классификации тон/шум.

2.10.4 Способы принятия решения тон/шум.

2.11 Постановка задач исследования.

2.12 Выводы.

3 Исследование методов оценки частоты ОТ вокализованной речи в присутствии шума и разработка помехоустойчивого выделителя ОТ.

3.1 Разработка методики оценки помехоустойчивости выделителей ОТ.

3.1.1 Требования к тестовым сигналам.

3.1.2 Количественная оценка помехоустойчивости.

3.1.3 Формирование тестовых сигналов.

3.2 Выбор функционального отображения и исследование его свойств .106 3.2.1 Корреляционные отображения.

- в .2.2 Отображения на основе гребенчатых фильтров.

3.2.2.1 Гребенчатые КИХ и Б ИХ фильтры.

3.2.2.2 Варианты построения отображений на основе гребенчатых фильтров.

3.2.3 Сравнение свойств отображений на основе ФВНК и ФЭГФ.

3.2.3.1 Качественное определение контрастности отображений.

3.2.3.2 Количественное сравнение контрастности отображений.

3.3 Исследование методов оценки периода ОТ для одного речевого кадра.

3.3.1 Выделение глобального максимума отображения.

3.3.2 Выделение глобального максимума взвешенного отображения.

3.4 Сравнение методов предварительной фильтрации.

3.5 Сглаживание траектории ОТ для нескольких кадров.

3.5.1 Медианное сглаживание траектории ОТ.

3.5.2 Сглаживание траектории ОТ методами динамического программирования

3.6 Выводы.

4 Исследование помехоустойчивости разработанного выделителя ОТ.

4.1 Описание алгоритма разработанного выделителя ОТ.

4.2 Постановка эксперимента по измерению помехоустойчивости.

4.3 Краткая характеристика сравниваемых выделителей ОТ.

4.4 Полученные результаты.

4.5 Выводы.

5 Реализация разработанного выделителя ОТ.

5.1 Особенности реализации алгоритмов цифровой обработки сигналов на цифровых процессорах обработки сигналов.

5.1.1 Функциональное моделирование алгоритмов.

5.1.2 Перевод алгоритмов в арифметику с фиксированной точкой.

5.1.3 Разработка набора тестовых векторов.

5.1.4 Реализация на ассемблере.

5.1.5 Особенности многоканальной реализации.

5.1.5.1 Метод раздельного программного кода.

5.1.5.2 Метод переключения страниц памяти.

5.1.5.3 Метод копирования контекстов.

5.1.5.4 Метод переключения дескрипторов.

5.2 Реализация разработанного выделителя ОТ в LPC вокодере.

5.2.1 Общее описание реализованного вокодера.

5.2.2 Особенности построения выделителя ОТ в LPC вокодере.

5.3 Реализация разработанного выделителя ОТ в цифровом слуховом аппарате.

5.3.1 Общее описание реализованного цифрового СА.

5.3.2 Особенности построения выделителя ОТ в цифровом С А.

5.3.3 Особенности реализации выделителя ОТ на процессорах семейства ADSP-218x

5.4 Выводы.

Введение 2003 год, диссертация по радиотехнике и связи, Бабкин, Владимир Владиславович

1.1 Задача оценки частоты основного тона вокализованной речи и ее место в цифровой обработке речевых сигналов

Речь является основным каналом обмена информацией между людьми. С момента изобретения фонографа и телефона технические средства, работающие с речевыми сигналами, постоянно совершенствовались и расширяли сферу своего применения. В настоящее время одним из наиболее перспективных и стремительно развивающихся направлений в этой области является цифровая обработка речевых сигналов, под которой понимается преобразование аналогового электрического сигнала в цифровую форму с последующей его обработкой вычислительными методами.

Речевой сигнал в цифровой форме может рассматриваться с позиций волнового, спектрального или параметрического описания. Последнее, в силу своей компактности, широко используется при решении задач анализа, синтеза, компрессии и распознавания речи. В его основе лежит классическая модель ре-чеобразования [120](Фланаган, 1968), [115](Рабинер, 1981), состоящая в первом приближении из пассивного речевого тракта с переменными во времени параметрами и источника возбуждения в нем акустических колебаний (рис. 1.1).

Частота основного Усиление

Рис. 1.1. Классическая модель речеобразования

Текущие параметры речевого тракта и сигнала возбуждения выбираются так, чтобы синтезированный на выходе модели сигнал был близок к оригинальному речевому сигналу в смысле какого-либо критерия. Основной задачей при использовании параметрического описания речевых сигналов является оценка параметров выбранной модели на основе анализа текущей речи.

Одним из важнейших параметров сигнала возбуждения колебаний в речевом тракте является частота основного тона (ОТ) речи, характеризующая высоту голоса при произнесении вокализованных звуков речи. Задача автоматической оценки частоты ОТ и ее траектории во времени (называемая часто задачей выделения ОТ) является классической и активно обсуждается в мировой научной литературе многие десятилетия. Человек легко определяет частоту ОТ на слух или на глаз при анализе осциллограмм или спектрограмм речи, однако, построить устройство (выделитель ОТ), автоматически определяющее частоту ОТ с малой ошибкой и малой задержкой во времени, даже при относительно низком уровне помех, довольно трудно [ 100](Пирогов, 1974).

Диссертационная работа посвящена исследованию методов оценки частоты ОТ речи в присутствии белого шума и разработке помехоустойчивых выделителей ОТ, предназначенных для применения в низкоскоростных вокодерах и цифровых слуховых аппаратах.

Заключение диссертация на тему "Помехоустойчивые выделители основного тона для низкоскоростных вокодеров и цифровых слуховых аппаратов"

Основные результаты диссертационной работы заключаются в следующем:

1. Проведен аналитический обзор современных методов выделения ОТ речи и на его основе сформулированы обобщенная блок-схема построения помехоустойчивых выделителей ОТ и обозначены требования и к его отдельным узлам.

2. Разработана методика оценки помехоустойчивости выделителей ОТ, отражающая особенности их применения в низкоскоростных вокодерах и цифровых СА.

3. Созданы программные инструменты для исследования помехоустойчивости выделителей ОТ методом моделирования на ПЭВМ. Построены тестовые речевые сигналы с различными отношениями сигнал/шум и с размеченной траекторией ОТ.

4. Предложена методика сравнения эффективности использования различных функциональных преобразований сигнала для оценки ОТ речи в шуме. Проведено сравнение нескольких способов формирования кратковременных функциональных отображений речевых сигналов на основе корреляционных методов и методов максимального правдоподобия и выбрано наиболее эффективное.

5. Исследованы различные способы оценки признаков периодичности сигналов при анализе отображений вокализованной речи. Исследовано влияние на помехоустойчивость выделителя ОТ различных вариантов предварительной обработки сигнала и сглаживания траектории ОТ. На основе метода динамического программирования разработана структура решающего правила выделителя ОТ, а его параметры экспериментально оптимизированы при работе в шумах по критерию минимума грубых ошибок в оценке ОТ.

6. На основе проведенных исследований разработан алгоритм помехоустойчивого выделения ОТ и создан выделителя ОТ, реализованный в виде программной модели на ПЭВМ.

7. На основе разработанной методики проведено количественное сравнение помехоустойчивости разработанного выделителя ОТ с известными выделителями ОТ, используемыми в международных стандартах низкоскоростной компрессии речи. Сравнение показало, что предложенный алгоритм выделения ОТ имеет лучшую помехоустойчивость. Он позволяет снизить в 1,5-2 раза количество грубых ошибок в оценке ОТ для речи в белом шуме с отношением сигнал/шум 0 дБ и тем самым повысить качество работы низкоскоростных вокодеров и цифровых СА в целом .

8. Проведена оптимизация вычислительной сложности алгоритма, осуществлен перевод алгоритма в арифметику с фиксированной точкой для реализации на 16-ти разрядных ЦПОС, разработана стратегия многоканальной реализации алгоритмов ЦОС для одновременной обработки нескольких каналов на одном ЦПОС.

9. Разработанный выделитель ОТ реализован для работы в реальном масштабе времени в составе двух оконечных устройств - в модели вокодера с линейным предсказанием речи со скоростью 1200 бит/с на ПЭВМ и в цифровом СА на ЦПОС ADSP-2183.

6 Заключение

Библиография Бабкин, Владимир Владиславович, диссертация по теме Системы, сети и устройства телекоммуникаций

1. Ahmadi S., Spanias A.S. Cepstrum-based Pitch Detection Using a New Statistical V/UV Classification Algorithm, 1.EE Transactions on Speech and Audio Processing, vol. 7, No. 3, May 1999.

2. Ahmadi S., Spanias A.S. New Techniques for Sinusoidal Coding of Speech at 2400 bps. Proc. of ASILOMAR-96, Nov. 1996.

3. Andreyev I.V., Babkin V.V., Fouks V.A., Kondroutski A.V., Lanne A.A., Zaborovski V.S., Znamerovski A.E. DSP Units for IP-Telephony Systems. Proc. of the 3rd European DSP Education and Research Conference, 20-22 September 2000, Paris.

4. Babkin V.V., Dombrovsky R.V., Molchanov A.P. About the Mechanism of extraction the Speech elements from Noise in the Hearing System of men. // Pro- ceeding of the 4-th International Congress on Sound and Vibration, St.-Petersburg,

5. Russia, 1996, June 24-27, p. 1439-1444.

6. Bagshaw P.C., Hiller S.M., Jack M.A. Enhanced Pitch Tracking and the processing of F0 Contours for Computer Aided Intonation Teaching. Proc. of EUROSPEECH-93, Berlin, 1993, vol. 2, pp. 1000-1003.

7. Barnwell III Т., Unno Т., Truong K. An Improved Mixed Excitation Linear Prediction (MELP) Coder. Proc. of ICASSP-99, pp. 245-248.

8. Bauer W.R., Blankinship W.A. Patent US4004096: Process for extracting pitch information. Jan. 18, 1977.

9. Cai J., Liu Z., Robust Pitch Detection of Speech Signals Using Steerable Filters. Proc. of ICASSP- 97, pp. 1427-1430.

10. Chazan D., Stettiner Y., Malah D. Optimal Multi-Pitch Estimation Using the EM Algorithm for Co-channel Speech Separation. Proc. of ICASSP-93. Vol. П, pp. 728-731.

11. Chen P., Ando S., Pitch from Zeros of Bank Filtered Signals. Proc. of ICASSP-93, vol. П, pp. 530-533.

12. Cho Y. D., Kim M. Y., Kim S. R., A Spectrally Mixed Excitation (SMX) Vocoder with Robust Parameter Determination. Proc. of 1С AS SP- 98, pp. 601-604.

13. Deller J., Hansen J., Proakis J. Discrete-Time Processing of Speech Signals. IEEE press, New York, 2000.

14. Doddington G.R., Secrest B.G., An Integrated Pitch Tracking Algorithm for Speech Systems. Proc. of ICASSP-83, Boston, pp. 1352-1355.

15. Doddington G.R., Secrest B.G., Patent US4696038: Voice messaging system with unified pitch and voice tracking. Sept. 22, 1987.

16. Doddington G.R., Secrest B.G., Patent US4731846:Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal. March 15, 1988.

17. Droppo J., Acero A. Maximum Aposteriori Pitch Tracking. Proc. of ICSLP-98, pp. 943-946.

18. ETS 300-580-2. GSM: Digital cellular telecommunications system (Phase 2); Full rate speech; Part 2: Transcoding (GSM 06.10 version 4.1.1), March 1998.

19. ETS 300-726 ed. 2 (draft) GSM: Digital cellular telecommunications system (Phase 2+); Enhanced Full Rate (EFR) speech transcoding (GSM 06.60 version 5.2.1), June 1998.

20. ETS 300-969 ed. 2 GSM: Digital cellular telecommunications system (Phase 2+); Half rate speech. Half rate speech transcoding (GSM 06.20 version 5.1.1), May 1998.

21. FS-1016 CELP Speech Coding at 4800 bps. NCS Technical Information Bulletin. 1993.

22. GaiIlard F., Berthommier F., Feng G., Schwartz J.-L. A Reliability Criterion for Time-Frequency Labeling Based on Periodicity in an Auditory Scene. Proc. of EUROSPEECH-99, pp. 2603-2606.

23. Geoffrois E. The Multi-Lag-Window Method for Robust Extended-Range Fo Determination. Proc. of ICSPL-1996, pp. 2239-2242.

24. Gersho A. Advances in Speech and Audio Compression. Proc. of the IEEE, vol. 82, No. 6, June 1994.

25. Gersho A., Cuperman V., Li C. Robust Closed-loop Pitch Estimation for Harmonic Coders by Time Scale Modification. Proceedings of IEEE ICASSP-99, pp. 257-260.

26. Gersho A., Gottesman O. Encanced Analysis-by-Synthesis Waveform Interpolate Coding at 4 kbps. Proc. of EUROSPEECH-99.

27. Gersho A., Kumar A., Erzin E. Natural Quality Variable-Rate Spectral Speech Coding below 3.0 kbps. Proc. of ICASSP-97, pp. 1579-1582.

28. Griffin D. W. Patent US5826222: Estimation of excitation parameters, Oct. 20,1998.

29. Griffin D. W., Lim J. S. Patent US5715365: Estimation of excitation parameters, Feb. 3,1998.

30. Hanzo L., Brooks F.C.A. A Multiband Excited Waveform-Interpolated 2.35-kbps Speech Codec for Bandlimited Channels. IEEE Transactions On Vehicular Technology, Vol. 49, No. 3, May 2000.

31. Hardwick J. C., Lim J. S. Patent US5216747: Voiced/unvoiced estimation of an acoustic signal. June 1, 1993.

32. Hardwick J. C., Lim J. S. Patent US5226108: Processing a speech signal with estimated pitch, July 6, 1993.

33. Hardwick J. С., Lira J. S. Patent US5581656: Methods for generating the voiced portion of speech signals, Dec. 3,1996.

34. Hess W. Pitch determination on Speech Signals with Special Emphases on Time-Domain Methods. Proc. of NCVS Workshop on Voice Analysis, The Center of Performing Arts, Denver, February 1994.

35. Hess W. Pitch determination on Speech Signals. Springer-Verlag. New York, USA, 1983.

36. Huang H. C., Seide F. Pitch Tracking and Tone Features for Mandarin Speech Recognition. Proc. of ICASSP-2000, pp. 1523-1526.

37. Huang X., Acero A., Hon H. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall, 2001.

38. Ireton M., Bartkowiak J. Patent US6047254: System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation. April 4,2000.

39. ISO/IEC 14496-3 Subpart 2. Information Technology Very Low Bitrate AudioVisual Coding, Part 3: Audio, Subpart 2: Parametric Coding. 1998-03-20.

40. ITU-T Recommendation G.723.1. Dual Rate Speech Coder For Multimedia Communications Transmitting at 5.3 and 6.3 kbit/s. March 1996.

41. ITU-T Recommendation G.729 Annex A. Coding of Speech at 8 kbit/s Using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP). Annex A: Reduced complexity 8 kbit/s CS-ACELP speech codec. November 1996.

42. ITU-T Recommendation G.729. Coding of Speech at 8 kbit/s Using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP). March 1996.

43. Janer L., Bonet J. J., Lleida-Solano E., Pitch Detection and Voiced/Unvoiced Decision Algorithm based on Wavelet Transforms. Proc. of ICSLP-96, pp. 12091212.

44. Kabal P., Zad-Issa M. A New LPC Error Criterion for Improved Pitch Tracking. Proc. of IEEE Workshop on Speech Coding for Telecom. Sept. 1997.

45. Karjalainen M., Tolonen Т. A Computationally Efficient Multipitch Analysis Model. IEEE Transactions On Speech And Audio Processing, Vol. 8, No. 6, November 2000.

46. Karjalainen M., Tolonen T. Multi-pitch and Periodicity Analysis Model for Sound Separation and Auditory Scene Analysis. Proc. of ICASSP-99, pp. 929-932.

47. Kenzo I., Mizushima M. Environmental noise reduction based on speech/non-speech identification for hearing aids. Proc. of ICASSP-97, pp. 419-422.

48. Kleijn B. Continuous Representations in Linear Predictive Coding. Proc. of ICASSP-91, pp. 201-204.

49. Kleijn B. W. Encoding Speech Using Prototype Waveforms. IEEE Transactions on Speech and Audio Processing, vol. 1, No. 4, October 1993, pp. 387-399.

50. Kobayashi H., Shimamura T. A Weighted Autocorrelation Method for Pitch Extraction of Noisy Speech. Proc. of ICASSP-2000, pp. 1307-1310.

51. Koch S. R., Patent US5127053: Low-complexity method for improving the performance of autocorrelation-based pitch detectors. June 30, 1992.

52. Kondoz A. M. Digital Speech: Coding for Low Bit Rate Communication Systems, John Wiley & Sons Ltd, 1994.

53. Kondoz A., Yeldener S., Atkinson I. High Quality Split Band LPC Vocoder Operating at Low Bit Rates. Proc. of ICASSP-97, pp. 1559-1562.

54. Krubsack D., Niederjohn R. Comparision of Pitch Tracking Methods in Additive White Gaussian Noise. // Proc. of the 30th Midwest Symposium on Circuits and Systems, Elsevier Science Publishing Co., 1988, pp. 1262-1265.

55. Kunieda N., Shimamura Т., Suzuki J. Robust Method of Measurement of Fundamental Frequency by ACLOS Autocorrelation of Log Spectrum. Proc. of ICASSP-96, pp. 232-235.

56. Laflamme C., Salami R., Matmti R., Adoul J-P. Harmonic-Stochastic Excitation (HSX) Speech Coding Below 4 kbit/s. Proc. of ICASSP-96, pp. 204-207.

57. Martino J. D., Laprie Y. An Efficient Fo Determination Algorithm Based on the IMPLICIT Calculation of the Autocorrelation of the Temporal Excitation Signal. Proc. of EUROSPEECH-99, pp. 2773-2776.

58. McCree A. V., Supplee L. M., Cohn R. P., Collure J. S., MELP: The New Federal Standard at 2400 bps. Proceedings of ICASSP-97.

59. McCree A. V., Truong K., George E. В., Barnwell T. P. and Viswanathan V. A 2.4 kbit/s MELP Coder Candidate for the New U.S. Federal Standard. Proceedings of IEEE ICASSP 1996, pp. 200-203.

60. МсСгее A.V., De Martin J. С. A 1.7 kb/s MELP Coder with Improved Analysis and Quantization. Proc. of ICASSP-98, pp. 593-596.

61. Medan Y., Yair E., Chazan D. Super Resolution Pitch Determination of Speech Signals. IEEE Transactions on Signal Processing, vol. 39, No. 1, January 1991.

62. Noll A. M. Patent US3555191: Pitch detector. Jan. 12,1971.

63. N0II A. M., Schroeder M. R. Patent US3566035: Real Time Cepstrum Analyzer. Feb. 23,1971.

64. Papamichalis P. E., Practical Approaches to Speech Coding. Prentice-Hall, Inc., Englewood Cliffs, New Jersey, USA, 1987.

65. Picone J. W., Sukkar R. A., LoCicero J. L., Design and Implementation of a Robust Pitch Detector Based on a Parallel Processing Technique. IEEE journal on selected areas in communications, vol. 6, No. 2, February 1988.

66. Picone J., Doddington G. R., Secrest B. G. Robust Pitch Detection in a Noisy Telephone Environment. Proc. of ICASSP-87, pp. 1442-1445.

67. Picone J., Prezas D., Patent US4879748: Parallel processing pitch detector. Nov. 7,1989.

68. Quin X., Kumaresan R., A Variable Frame Pitch Estimator and Test Results. Proc. of ICASSP-96, pp. 228-231.

69. Rabiner L. R., Schafer R.W., Dubnowski J.J. Patent US4015088: Real-time speech analyzer. March 29,1977.

70. Salami R. at al. Design and Description of CS-ACELP: A Toll Quality 8 kb/s Speech Coder. IEEE Transactions on Speech and Audio Processing, vol. 6, No. 2, March 1998, pp. 116-130.

71. Sen Z., Shirai K. Visual Approach for Automatic Pitch Period Estimation. Proc. of ICASSP-2000, pp. 1339-1342.

72. Sercov V., Petrovsky A., The Method of Pitch Frequency Detection on the Base of Tuning to its Harmonics. EUSIPCO-98, Sept. 1998, pp. 1137-1140.

73. Sondhi M. M. Patent US3381091: Apparatus for Determining the Periodicity and Aperiodicity of a Complex Wave. April 30,1968.

74. Speech In Noise (SIN) Test, Audtitec of St. Louis, 1993.

75. The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus (TIMIT), ISBN: 1-58563-019-5, 1990.

76. Tuan V. N., d'Alessandro C. Robust Glottal Closure Detection Using the Wavelet Transform. Proc. of EUROSPEECH-99, pp. 2805-2808.

77. Veeneman D., Mazor B. Patent US4852169: Method for enhancing the quality of coded speech. July 25, 1986.

78. Wang C., Seneff S., Robust Pitch Tracking for Prosodic Modeling in Telephone Speech. Proc. of ICASSP-2000, vol. 3, pp. 1343-1346.

79. Wang Т., Tang K., Feng C. A high Quality MBE-LPC-FE Speech coder at 2.4 kbps and 1.2 kbps. Proc. of ICASSP-96, pp. 208-211.

80. Wei J., Smith K., SiVo-3: A new type of speech-pattern hearing aid for profoundly hearing impaired people. Speech, Hearing and Language, Work in Progress, Dept. Of Phonetics and Linguistics, University College London, 1996.

81. Wendt C., Petropulu A.P., Pitch Determination and Speech Segmentation Using the Discrete Wavelet Transform. Proc. of IEEE International Symposium on Circuits and Systems, 1996, vol. 2, pp. 45-48.

82. Wolnowsky et al. Patent: US 4091237: Bi-Phase Harmonic Histogram Pitch Extractor. May 23, 1978.

83. Yeldener S., A 4 kb/s Toll Quality Harmonic Excitation Linear Predictive Speech Coder. Proc. of ICASSP- 99, pp. 481-484.

84. Yeldener S., De Martin J. C., Viswanathan V., A Mixed Sinusoidally Excited Linear Prediction Coder at 4 kb/s and Below. Proc. of ICASSP- 98, pp. 589-592.

85. Ying G.S., Jamieson L.H., Michell C.D. A Probabilistic Approach to AMDF Pitch Detection. Proc. of ICSLP-96, pp. 1201-1204.

86. Андреев И.В., Бабкин В.В., Знамеровский А.Е. Реализация многоканальных речевых кодеков на цифровых процессорах обработки сигналов с фиксированной точкой. // Труды учебных заведений связи сб. № 165. СПб ГУТ, -СПб., 1999.

87. Андреев И.В., Бабкин В.В., Знамеровский А.Е. Реализация многоканальных шлюзов ЕР-телефонии. // 2-я межд. конф. Цифровая Обработка Сигналов и ее применения: докл. т. 2.-Москва, 1999. -с. 432-435.

88. Андреев И.В., Бабкин В.В., Знамеровский А.Е. Реализация многоканальных речевых CELP кодеков на DSP TMS320c548. // 2-я межд. конф. Цифровая Обработка Сигналов и ее применения: докл. т. 2., -Москва, 1999. -с. 283-287.

89. Бабкин В.В. LPC вокодер 1000-1200 бит/с. // Труды 3-ей межд. конф. Цифровая Обработка Сигналов и ее Применение (DSPA-2000) -Москва, 2000.

90. Бабкин В.В. Архитектура модуля обработки сигналов двухканального шлюза ЕР-телефонии. // 2-я межд. НТК Техника и Технология Связи. ГУТ, -СПб. 2000, (опубликована в журнале "Электросвязь" №7, 2000)

91. Бабкин В.В. Карманный цифровой слуховой аппарат на ADSP-2183. // Cheep News. -1999.-№9(42).-С. 35-39.

92. Бабкин В.В. Обзор методов обработки сигналов в цифровых слуховых аппаратах (Тезисы) 53-я НТК: тез. докл. / СПб ГУТ, -СПб, 2000.

93. Бабкин В.В. Реализация двухскоростного CELP вокодера на цифровом сигнальном процессоре ADSP-2181. (Тезисы) 52-я НТК: тез. докл./ СПб ГУТ, -СПб., 1999.

94. Бабкин В.В. Сравнение помехоустойчивости различных алгоритмов оценки периода основного тона речи. (Тезисы) 54-я НТК: тез. докл. / СПб ГУТ, -СПб, 2001.

95. Бабкин В.В., Бабкина Л.Н., Довжиков А.А., Молчанов А.П. Реализация карманного цифрового слухового аппарата на ADSP-2183. // 2-я межд. конф. Цифровая Обработка Сигналов и ее применения: докл. т. 2. -Москва, 1999, с. 386-390.

96. Бендат Д., Пирсол А. Измерение и анализ случайных процессов: Пер. с англ. / Под ред. И.Н. Коваленко М.: Мир, 1971. - 408 е., ил.

97. Вокодерная телефония. / Под. ред. А. А. Пирогова. М.: Связь, 1974. 535 е., ил.

98. Галушкин А. И. Теория нейронных сетей. Кн. 1: Учебн. Пособие для вузов / Общая ред. А. И. Галушкина. М.: ИПРЖР, 2000. - 416 е., ил.

99. ГОСТ В 20775 75. Передача речи по трактам связи, оборудованным аппаратурой засекречивания. Требования к разборчивости речи. Метод измерения.

100. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения. Том 1 / Пер. с англ. В.Ф. Писаренко. М.: Мир, 1971. - 316 е., ил.

101. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-та математики, 1999. - 270 е., ил.

102. Иванов В.Н. Вычисление линейных спектральных частот // Электросвязь. -1997.-№6.-С. 25-27.

103. Каппелини В., Константинидис А. Дж., Эмилиани П. Цифровые фильтры и их применение: Пер. с англ. / Под. ред. Н.Н. Слепова. М.: Энергоатомиз-дат, 1983. - 360 е., ил.

104. Коваленко И. Н., Филиппова А.А. Теория вероятностей и математическая статистика: Учеб. Пособие. — 2-е изд., перераб. и доп. — М.: Высш. школа, 1982.-256 е., ил.

105. Маркел Дж. Д., Грей А. X. Линейное предсказание речи: Пер. с англ. / Под. ред. Ю. Н. Прохорова, В. С. Звездина. М.: Связь, 1980. 308 е., ил.

106. Методы автоматического распознавания речи: В 2 т./ Под ред. У. Ли. Пер. с англ. М.: Мир, 1983. - 234 е., ил.

107. Отчет по НИР: Вокодер 1200 бит/с. // Санкт-Петербугский государственный университет телекоммуникаций, кафедра цифровой обработки сигналов, 2000.

108. Применение цифровой обработки сигналов. / Под. ред. А. Оппенгейма. Пер. с англ. / Под. ред. А. М. Рязанцева. М.: Мир, 1980. - 552 е., ил.

109. Рабинер Л., Голд Б. Теория и применение цифровой обработки сигналов: Пер. с англ. / Под. ред. Ю.Н. Александрова. М.: Мир, 1978. - 848 е., ил.

110. Рабинер Л. Р., Шафер Р. В. Цифровая Обработка Речевых Сигналов: Пер. с англ. / Под. ред. М. В. Назарова и Ю. Н. Прохорова. М.: Радио и связь, 1981.- 496 е., ил.

111. Сапожков М. А., Михайлов В. Г. Вокодерная связь. М.: Радио и связь, 1983.-248 е., ил.

112. Слуховая система / Ред. Я. А. Альтман. Л.: Наука, 1990. - 620 с. - (Основы современной физиологии).

113. Соболев В.Н. Выделение основного тона методом гребенчатой фильтрации. Тезисы докладов и сообщений 12-го Всесоюзного семинара "Автоматическое распознавание слуховых образов"АРСО-12. Киев-Одесса, 1982., стр. 141-143.

114. Таланов А.О. EDSW пакет для обработки и анализа цифровых сигналов. Центр Цифровой Обработки Сигналов при Санкт-Петербургском Государственном университете Телекоммуникаций им. проф. М. А. Бонч-Бруевича, URL: www.dsp-sut.spb.ru;www.dsp.sut.ru, 2001.

115. Фланаган Дж. Л. Анализ, синтез и восприятие речи: Пер. с англ. / Под ред. А. А. Пирогова. М.: Связь, 1968. - 392 е., ил.

116. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации: Пер. с нем. / Под ред. Б.Г. Белкина. М.: Связь, 1971. - 255 е., ил.

117. Цифровая обработка сигналов: Справочник / Гольденберг Л. М., Мапош-кин Б. Д., Поляк М. Н. М.: Радио и связь, 1985. - 312 е., ил.