автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Теоретико-информационные принципы компрессии речевого сигнала на основе его квазипериодических свойств

доктора технических наук
Шалимов, Игорь Анатольевич
город
Москва
год
2005
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Теоретико-информационные принципы компрессии речевого сигнала на основе его квазипериодических свойств»

Автореферат диссертации по теме "Теоретико-информационные принципы компрессии речевого сигнала на основе его квазипериодических свойств"

На правах рукописи

Шалимов Игорь Анатольевич

Теоретико-информационные принципы компрессии речевого сигнала на основе его квазипериодических

свойств

Специальность: 05.13.17 - теоретические основы информатики

Автореферат диссертации на соискание ученой степени доктора технических наук

Москва 2005

Работа выполнена в Институте криптографии, связи и информатики.

Научный консультант - доктор технических наук, академик РАЕН, доцент Никонов В.Г.

Официальные оппоненты:

доктор технических наук, профессор, Горелов Георгий Владимирович

доктор физико-математических наук, профессор, Грушо Александр Александрович

доктор технических наук, профессор, Дворянкин Сергей Владимирович

Ведущая организация - ФГУП «НПО «Астрофизика»

Защита состоится «?%> ¿У 2006 года в ч.й^мин. на заседании диссертационного совета Д 217.031.01 в Государственном учреждении «Российский научно-исследовательский институт информационных технологий и систем автоматизированного проектирования» по адресу: 129090, Москва, ул. Щепкина, д. 22.

С диссертацией можно ознакомиться в библиотеке Рос НИИ

ИТ и АП.

Автореферат разослан « 2005 года

Ученый секретарь

диссертационного совета Д 217.031.01 к.т.н.

М.М. Виньков

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы. В последние годы наблюдается значительный рост исследований и разработок в области анализа, кодирования и синтеза речи. Это объясняется, прежде всего, возросшим использованием информационных речевых технологий в различных областях деятельности человека, автоматизацией процессов информационного обмена и широким применением технологий человеко-машинного общения.

Залогом успешного развития и все более широкого применения технологий речевого обмена, а также расширения речевого сервиса современных сетей связи является обеспечение эффективного кодирования речевой информации. Это требует совершенствования алгоритмов компрессии речи. Факторами, определяющими интерес к системам компрессии с повышенными требованиями к качеству речевого сигнала, являются:

- потребности организации закрытой связи с сохранением натуральности звучания, например, в гражданской и военной авиации для реализации возможности определения эмоционального состояния летчика по голосу,

- потребности создания систем экономного хранения речи, автоматизированных электронных, речевых справочных служб,

- быстрый рост компьютерных сетей требует создания мультимедиа ориентированной системы коммуникации, что требует повышения качества речи при скоростях передачи приблизительно 2-4 кбит/с,

- потребность организации связи типа "электронной речевой почты" с закрытием доступа к информации по каналам диапазонов сверх длинных и длинных волн.

Проведенный анализ современных методов кодирования речи показал, что их применение на скорости 4 кбит/с и ниже приводит к снижению натуральности речи ниже требований коммерческой передачи и возможности определения эмоционального состояния диктора. Параметрическое компандирование, минимизируя объем параметрического описания речевого сигнала для систем, не требующих высокого качества звучания, обеспечивает предельное сжатие и передачу речи со скоростью 1,2-2,4 кбит/с. При этом речь лишается натуральности звучания, несмотря на достаточно высокую разборчивость (слоговая разборчивость 85-90%).

Современные системы параметрического кодирования обеспечивают требуемое качество на скоростях передачи 416 кбит/с. Актуальной потребностью, как свидетельствуют выше приведенные данные, является снижение скорости передачи до 2-4 кбит/с с сохранением высокой натуральности звучания речи, включающей возможность определения диктора и его эмоционального состояния.

Достижения в области создания высокопроизводительных процессоров привели к усложнению алгоритмов кодирования речи, стимулировали появление новых моделей, развитие методов анализа через синтез и векторного кодирования. Потребность создания низкоскоростных систем речевого обмена привела к появлению целого ряда частных, эмпирических алгоритмов кодирования. Основное ограничение этих алгоритмов состоит в их зависимости от эмпирического подбора конкретных параметров и процедур обучения. Кроме того, большинство современных систем обработки и кодирования речи рассматривает ее с позиций сигнала. Вместе с тем речь является средством информационного обмена и характеризуется информационными при-

знаками и особенностями. Использование этих особенностей расширяет возможности компрессии речи.

Таким образом, актуальной является проблема повышения эффективности параметрического кодирования речи. Под этой проблемой понимается широкий круг задач моделирования отдельных функций механизма речеобразо-вания, параметрического компандирования речи, автоматического оценивания ее качества. Решение этих задач базируется на информационном подходе к речевому сигналу, математических методах его анализа и цифровой обработке, обеспечивающих создание низкоскоростных систем кодирования речи с сохранением высокой натуральности ее звучания. Высокая натуральность речи предполагает возможность идентификации диктора и определения его эмоционального состояния.

Таким образом, существует насущная необходимость формулировки и разработки совокупности задач, входящих в проблему повышения эффективности кодирования речи. Анализ работ, посвященных кодированию речи, позволяет сделать вывод, что в общей проблеме можно выделить ряд частных проблем, имеющих в отдельных случаях самостоятельное значение. К ним относятся следующие проблемы.

1. Построение математической модели эффективного параметрического кодирования речи.

2. Использование принципов кодирования, базирующихся на корреляциях параметров речи и их кластерном анализе, что уменьшает объем параметрического описания.

3. Использование априорных сведений о параметрах речевых сигналов для интерполяции значений при синтезе речи.

4. Формулировка и формализация критериев эффективного кодирования.

Объектом диссертационного исследования является речевой сигнал и системы его кодирования.

Многообразие систем кодирования речи имеет общие черты и особенности, которые в диссертации формализованы и математически определены в виде теоретико-информационных моделей параметрического кодирования речи. Применение информационного подхода к речевому сигналу, математических, нейросетевых методов анализа, позволило сформулировать, обосновать и реализовать эффективные алгоритмы кодирования на основе квазипериодических свойств вокализованной речи.

Предмет диссертационного исследования — это модели, методы и алгоритмы параметрического компандиро-вания речи и оценки ее качества, обеспечивающие максимальную компрессию на основе информационного подхода к речевому сигналу и его кластерного анализа.

Кластеризация параметров речи, в том или ином виде, использовалась в различных системах кодирования, разрабатываемых с начала 90-х годов 20-го века. Информационный подход к анализу речевого сигнала заключается в представлении речи в виде конечного множества элементов, находящихся в определенных статистических и фонетических зависимостях. Этот подход выдвигает на первый план задачу кластерного анализа параметров речевого сигнала, используемых в системах параметрического командирования и автоматической оценки качества речи.

Геометрическая близость двух или нескольких векторов параметров из множества векторов параметров модели речеобразования может рассматриваться как их принадлежность к некоторому кластеру, характеризующему определенные элементы речевого сигнала.

С целью минимизации объема параметрического описания речи в диссертации использованы квазипериодические свойства речевых сигналов. В связи с этим потребовалась разработка новых методов и алгоритмов выделения параметров, их предварительной обработки перед применением процедур кластеризации.

Цель диссертационного исследования заключается в разработке теоретико-информационных принципов компрессии речи на основе параметрической модели речеобра-зования, квазипериодических свойств вокализованной речи и применение их для создания эффективных систем параметрического компандирования речи. Под теоретико-информационными принципами понимается использование информационного подхода к речевому сигналу, основанному на представлении его в виде последовательности элементов из конечного множества, и математических, нейро-сетевых методов его анализа.

Полученные результаты позволили разработать методы компрессии обеспечивающие коммерческое качество синтезированной речи и удовлетворяющие современным требованиям к скорости передачи (2-4 кбит/с).

Задачи исследования. Для достижения поставленной цели в диссертации решаются следующие основные задачи.

1. Анализ и формализация общих характеристик систем кодирования речи, формулировка теоретико-информационных принципов кодирования.

2. Разработка системы автоматического оценивания качества русской речи для оптимизации кластерного анализа параметров при кодировании.

3. Разработка метода компрессии на основе квазипериодических свойств вокализованной речи и алгоритмов выде-

ления и преобразования параметров, адаптированных к нему.

4. Векторное кодирование параметров, выделяемых на периоде основного тона вокализованной речи.

5. Практическая реализация разработанных методов и алгоритмов, оценка их эффективности.

Методы исследования. Для решения поставленных задач в работе использован аппарат теории вероятностей и математической статистики, теории множеств и теории информации, нейронных сетей, методы цифровой обработки сигналов, структурного программирования, численного анализа, компьютерного моделирования и экспертных оценок.

Научная новизна диссертационного исследования состоит в том, что разработаны и обоснованы новые модели, методы и алгоритмы кодирования, анализа и синтеза речи, автоматического оценивания ее качества, позволяющие осуществить эффективное параметрическое компандирова-ние речи. Научная новизна полученных результатов заключается в следующем.

1. Развита теория кодирования речи: произведен расчет минимальных скоростей кодирования и передачи речи, формализован критерий эффективности кодирования на основе определения кластерной принадлежности вектора параметров и показана его эквивалентность, в условиях удовлетворяющих большинству реальных систем, критерию минимизации энергии ошибки синтеза.

2. Разработан нейросетевой алгоритм автоматического оценивания качества речи по разностному сигналу, использованный для оптимизации кластерного анализа при построении кодовых книг векторного кодирования сигналов возбуждения.

3. Предложен и обоснован метод снижения объема параметрического описания речи на основе квазипериодических свойств вокализованной речи.

4. Предложены методы выделения и нормализации сигнала многоимпульсного возбуждения и сигнала погрешности предсказания на периоде основного тона, обнаруживающие имеющиеся в них корреляции, обеспечивая повышение эффективности их векторного кодирования.

5. На основе нейросетевой кластеризации множеств нормированных сигналов возбуждения на периоде основного тона (многоимпульсного и от погрешности предсказания) осуществлено их векторное кодирование.

6. Разработан и реализован кодер переменной скорости с векторным кодированием многоимпульсного возбуждения на периоде основного тона и средней скоростью передачи менее 3,5 кбит/с, обеспечивающий коммерческое качество речи и обладающий повышенной стойкостью к фоновому шуму.

7. Сформулированы и обоснованы принципы построения низкоскоростного кодера речи с векторным кодированием сигнала возбуждения от погрешности предсказания на периоде основного тона, обеспечивающего коммерческое качество речи.

Теоретическая значимость результатов диссертации заключается в развитии теории кодирования речи и расчете минимальных скоростей ее кодирования и передачи; исследовании корреляционных свойств различных параметров речи; разработке методов и алгоритмов обработки, анализа и синтеза речи, обеспечивающих создание эффективных систем кодирования на основе ее квазипериодических свойств и автоматического оценивания качества.

Практическая ценность результатов состоит в том, что разработанные принципы, методы и алгоритмы обеспечивают создание низкоскоростных кодеров с высокой натуральностью речи (коммерческое качество), удовлетворяющих требованиям к скорости передачи 2-4 кбит/с. Повышенная стойкость к фоновым шумам предложенных алгоритмов может быть использована в системах связи для железнодорожного, воздушного, морского транспорта. Созданные методы и алгоритмы могут быть использованы в различных практических задачах, связанных с выделением и оценкой параметров речевого и акустического сигнала, в том числе для систем акустической связи и аппаратуры акустического самонаведения, верификации и идентификации диктора. Они доведены до практической реализации в виде пакетов прикладных программ, для которых получены экспертные оценки эффективности функционирования.

Достоверность результатов. Разработанные в диссертации методы и алгоритмы базируются на данных статистического анализа речи длительностью достаточной для получения статистически достоверных данных. Экспертные оценки, продемонстрировавшие эффективность разработанных систем кодирования-декодирования речи, проведены в соответствии с методиками, регламентированными соответствующими ГОСТами России. Достоверность полученных данных минимальных скоростей кодирования речи подтверждена приближением к ним сверху экспериментальных результатов других авторов, работающих в этой области.

Реализация и апробация результатов диссертации. Основные результаты опубликованы в 25 публикациях, в том числе в журналах: «Вестник ИКСИ», «Вестник связи», «Информационные технологии», «Специальная техника»,

«Телекоммуникации», «Электросвязь», в трех учебно-методических пособиях и в одном учебном пособии для вузов всероссийского издания.

Основные результаты диссертации доложены в 28 докладах на отечественных и международных конференциях в том числе: III Международной научно-технической конференции «Перспективные технологии в средствах передачи информации» (Владимир, 1999), X межрегиональной конференции «Обработка сигналов в системах телефонной связи и вещания» (Москва, 2000), X межвузовской научно-проблемной конференция (Санкт-Петербург, Петродворец, 2000), IV межведомственной конференции «Научно-техническое и информационное обеспечение деятельности спецслужб» (Москва, 2002), V межведомственной конференции «Научно-техническое и информационное обеспечение деятельности спецслужб» (Москва, 2004), Межвузовской научно-методической конференции «Проблемы образования в области информационной безопасности» (Москва, 2004), IV Всероссийской научной конференции «Проблемы совершенствования и развития специальной связи и информации, предоставляемых государственным органам» (Орел, 2005), межвузовской научно-практической конференции «Проблемы обеспечения безопасности в системах связи и информационно-вычислительных сетях» (Голицино, 2005), VI Международной научно-технической конференции «Перспективные технологии в средствах передачи информации» (Владимир, 2005), Международной научно-практической конференции INTERMATIC-2005 «Фундаментальные проблемы радиоэлектронного приборостроения» (Москва, 2005), Международном форуме информатизации «Телекоммуникационные и вычислительные системы» (Москва, 2005).

В работах, написанных в соавторстве, результаты, включенные в диссертацию, принадлежат лично автору.

Результаты диссертационного исследования использованы в научно-исследовательских работах, проводимых в ИКСИ Академии ФСБ РФ «АКАЦИЯ», «СВИРЕЛЬ», «ПРОГНОЗ», «Листва-Ф» и «ПРОГНОЗ-СИ», «Поиск-И» использованы и внедрены в практическую деятельность в/ч 34016, в/ч 49766, ЦКБ №1 ОАО «РЖД». Кроме того, результаты диссертационного исследования широко использованы и внедрены в учебный процесс ИКСИ Академии ФСБ РФ, МТУСИ и ряда других высших учебных заведений.

Диссертационное исследование, являющееся продолжением кандидатской диссертации автора, проводилось в период с 1999-2005 гг. инициативно и в плановом порядке по договорам о научно-техническом сотрудничестве с рядом организаций, проводимых в Институте криптографии, связи и информатики Академии ФСБ России.

Положения., выносимые на защиту.

1. Теоретико-информационные модели кодирования речи и расчет минимальных скоростей ее передачи на их основе.

2. Алгоритм автоматического оценивания качества синтезированной речи, основанный на нейросетевой кластеризации и классификации разностного сигнала между исходным и тестируемым.

3. Метод компрессии на основе квазипериодических свойств речи и сегментно-трансформационной модели кодирования, обеспечивающий снижение объема параметрического описания речи.

4. Методы выделения сигнала возбуждения на периоде основного тона и его нормализации для случая многоимпульсного возбуждения и возбуждения от погрешности

предсказания, обеспечивающие эффективное их векторное кодирование.

5. Нейросетевые методы векторного кодирования нормированных сигналов многоимпульсного возбуждения и возбуждения от погрешности предсказания на периоде основного тона.

6. Алгоритм кодера переменной скорости с векторным кодированием многоимпульсного возбуждения на периоде основного тона и средней скоростью менее 3,5 кбит/с, обеспечивающий коммерческое качество и повышенную стойкость к фоновому шуму.

Структура и объем работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы, приложений. Диссертация содержит без приложений 210 страниц, 13 таблиц, 55 рисунков, список литературы содержит 156 источников.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность выбранной темы, формулируется цель и раскрывается содержание поставленных задач, указываются методы исследования, представляются данные теоретической значимости, прикладной ценности полученных результатов и их достоверности, отмечаются положения, выносимые на защиту. Приводится характеристика работы по главам.

Первая глава посвящена анализу современного состояния и тенденций развития систем кодирования речи.

В первом параграфе первой главы представлен общий обзор методов преобразования и кодирования речи, используемых в современных системах и сетях связи. Эти методы делятся на три группы: кодирование формы волны речевого сигнала, параметрическое компандирование (вокодеры и

гибридные кодеры), речеэлементное кодирование (фонетическое и лингвистическое). Отмечается, что единственный способ достижения значительного уменьшения скорости передачи в настоящее время состоит в том, чтобы использовать гибридные методы, объединяющие параметрическое компандирование и метод кодирования формы волны. При этом базовой является модель параметрического кодирования на основе линейного предсказания.

Сложность реализации методов компрессии на основе линейного предсказания требует применения высокопроизводительной элементной базы и вызывает задержки при обработке, поэтому по-прежнему находят применение методы кодирования формы волны. Их краткий обзор представлен во втором параграфе, где приводятся характеристики методов регламентированных международным союзом электросвязи. Отмечается, что, несмотря на высокое качество речи и минимальные задержки, эти алгоритмы не могут быть использованы во многих приложениях сетей и систем связи из-за высоких скоростей передачи 16-64 кбит/с.

Третий параграф посвящен анализу систем гибридного кодирования речи. Наряду с алгоритмами кодирования речи на основе линейного предсказания проведен анализ кодирования с частотным разбиением (многополосное кодирование - SBC (Sub-Band Coding), кодирование с адаптивным преобразованием - АТС (Adaptive Transform Coding)) и с многополосным возбуждение МВЕ (Multiband Excitation Coding). Отмечается, что гибридное кодирование складывается из двух основных процессов:

- параметрическое представление речевого сигнала минимальным набором параметров, характеризующих источник возбуждения и акустический артикуляторный фильтр,

- дискретизация и кодирование выделенных речевых параметров для их передачи по каналу связи с минимальной скоростью.

Высокое качество речи, достигаемое в алгоритмах многоимпульсного и кодового возбуждения, при относительно невысоких скоростях передачи, обеспечило их широкое распространение в системах и сетях связи для хранения, обработки и передачи речи. Однако, при использовании этих методов для передачи речи со скоростью 4 кбит/с и меньше, качество речи снижается ниже коммерческого уровня требований. Одна из возможностей снижения скорости передачи при сохранении высокого качества — это переход к переменной скорости передачи. Анализ показывает, что информация, необходимая для точного представления речевого сигнала, зависит от его типа и изменяется во времени. Это является основой для применения переменной скорости передачи в технике кодирования речи. Анализ таких систем представлен в четвертом параграфе.

Предельное сжатие речи может быть достигнуто в системах речеэлементного кодирования, обзор которых представлен в пятом параграфе. Первым шагом в этом направление является создание фонемного вокодера. Минимальной единицей речевого сообщения является фонема. Поэтому создание устойчивого метода распознавания фонем позволит снизить скорость кодирования речевой информации до 0,1-0,2 кбит/с, что соответствует средней информационной скорости текста, формируемого человеком.

Следующим этапом компрессии речи является создание системы автоматического распознавания слов и возможно целых фраз. В этом случае по каналу связи может быть передан только их код, по которому на приемном кон-

це из некоторого ограниченного словаря с помощью синтезатора формируется речевой сигнал. Отмечается, что существенным недостатком речеэлементных систем является утрата индивидуальных особенностей речи диктора.

Кодирование речи на основе линейного предсказания

I

М

Модель функционирования источника возбуждения и синтезирующего фильтра

Независимая

Зависимая

Кодирование параметров

> Скалярное

» Векторное

Н Векторное с интерполяцией

етоды выделе-

ния параметров

Непосредственно по сигналу

Анализ через синтез

—►

Представ- —

ление —^

сигнала

возбуж- —►

дения

-->

Возбуждение от тона

Выборка из фиксированной таблицы

> Возбуждение от ошибки предсказания

Многоимпульсное возбуждение

Регулярное возбуждение

Кодовое возбуждение

Представление параметров синтезирующего фильтра

► Коэффициенты линейного предсказания

Коэффициенты отражения

Коэффициенты отношения площадей

» Линейные спектральные пары

Рис. 1 Классификация технологий линейного предсказания.

В шестом параграфе сделаны общие выводы. Отмечается, что наиболее перспективным направлением кодирования речи является создание гибридных систем с учетом информационной избыточности сегментов речи. Базовой является модель на основе линейного предсказания, для которой

осуществлена систематизация применяемых технологий в виде представленном на рис. 1.

Исходя из актуальной потребности повышения качества речи при ее кодировании и передачи на скорости 2-4 кбит/с, формулируется проблема повышения эффективности параметрического кодирования речи. Под этой проблемой понимается широкий круг задач моделирования отдельных функций механизма речеобразования, параметрического компандирования речи, автоматического оценивания ее качества. Методологической базой решения задач является теоретико-информационный подход, основанный на информационном определении речевого сигнала, заключающемся в его представлении в виде последовательности элементов из конечного множества, и применении математических, нейросетевых методов его анализа. Решение задач, составляющих проблему, должно обеспечивать создание низкоскоростных систем кодирования речи с сохранением высокой натуральности ее звучания.

Широкий круг задач, составляющих проблему эффективного кодирования речи, вызывает необходимость рассмотреть основные условия, на которые следует обратить внимание. В первую очередь это требования к математическому аппарату и к принципам выделения параметров для систем кодирования речи. Эти требования следует положить в основу модели, которая отражает основные черты процесса кодирования.

Во-первых, как следует из проведенного анализа, математическая модель кодирования должна быть параметрической.

Во-вторых, модель эффективного кодирования предполагает наличие априорных сведений о параметрах рече-

вого сигнала. Это позволяет использовать эффективные методы векторного кодирования и адаптивные процедуры анализа и синтеза для обеспечения максимальной компрессии речи.

В-третьих, модель эффективного кодирования должна основываться на информационном подходе к речевому сигналу. При этом предполагаются три информационные составляющие: смысловое содержание, индивидуальные признаки и эмоциональное состояние диктора.

Учитывая изложенное, задача эффективного кодирования кратко формулируется следующим образом:

1. цифровыми методами осуществить выделение параметров речевого сигнала, характеризующихся конечным числом значений,

2. произвести экономное их кодирование при априорно известных вероятностях значений параметров и корреляций между ними,

3. осуществить декодирование параметров и синтез речи с учетом априорных сведений об их изменении.

В общей проблеме повышения эффективности кодирования выделяется ряд частных проблем, имеющих в отдельных случаях самостоятельное значение и которые входят составными частями в задачи, решаемые в ходе диссертационного исследования.

Во второй главе развиваются принципы кодирования речи, которые формализуются в виде соответствующих теоретико-информационных моделей. В первом параграфе представлены общие принципы параметрического кодирования речи в виде параметрической модели. В общем случае они заключаются в разбиение речи на сегменты, выделении на каждом сегменте параметров, их квантовании (формиро-

вание вектора квантованных параметров в] — \0{у),

кодировании и передачи. На приеме они декодируются и по ним осуществляется синтез речи.

Во втором параграфе, используя математический подход, совокупность всевозможных векторов квантованных параметров рассматривается как множество, которое является дискретным и конечным, хотя и очень большим:

© = {<9^.}, |©| = Ь. Каждому квантованному вектору параметров однозначно соответствует определенный синтезированный отрезок ¿¡(т), т= 0,1, ...,N-1. Синтез сегмента по вектору квантованных параметров представляется в виде преобразования Н: = Совокупность всевозможных синтезированных отрезков рассматривается как множество:

Используя введенные обозначения определяется сег-ментно-аппроксимационная модель кодирования в виде аппроксимации речевого сигнала последовательностью отрезков, выбираемых из множества синтезированных отрезков:

Т.к. между вектором квантованных параметров и синтезируемым отрезком существует однозначное соответствие, эта модель может быть представлена в виде:

0 = &(г)},|П| = Г.

s(n) » 5(«) = 5/г (п ШО(1 ы)

целое\п!

3ге0, гг е {0,1,..., Г-1}

Символ V обозначает объединение в последовательность (конкатенацию). Для предложенной модели формулируется критерий эффективности кодирования, основанный на минимизации энергии ошибки аппроксимации: е{п) = s(n)-st (п mod N\ г = целое[п / N]

или ег(т) = 5г(г)-5/г(г),

Л r=0

Используя введенные обозначения, критерий точности аппроксимации для r-го сегмента имеет вид:

*г{т)-3,,{т),где Slr(t)= н(в,Х и в.:

E,Jr=min{Er}, V в, ев .

На основе построенной модели, можно оценить требуемую для передачи скорость информационного потока I [бит/с]:

(lo g2L + b)Fd N

где Fd — частота дискретизации, а Ъ — количество бит

синхронизации и проверочных бит в кадре.

Отсюда видно, что прогресс, в смысле уменьшения требуемой скорости информационного потока, возможен за счет исключения зависимостей между используемыми в модели речеобразования параметрами, что приведет к уменьшению L. При этом минимально возможный размер формируемого множества параметров, например, за счет применения векторного кодирования параметров, составляет: L=V. Мощность же множества синтезируемых отрезков V должна быть такой, чтобы обеспечить заданную величину ошибки

аппроксимации реального сегмента речевого сигнала с помощью соответствующего синтезированного. Это можно записать в виде выражения:

_ _ (log; V+b)Fd

maхе,<£, /е{0,1,...,И-1} ДГ

где £ - допустимая величина ошибки аппроксимации.

Осуществив информационную оценку мощности множества векторов параметров, определяются минимальные скорости передачи. Оценка этой мощности произведена исходя из информационного подхода к речи. В каждом языке имеется присущее ему множество фонем - Nf. Так в

русском выделяют 41 фонему. Каждая фонема, прежде всего, характеризуется изменением своего спектрального рисунка, и в ней можно выделить начальный участок, средний и конечный. Исходя из этого, количество спектральных рисунков сегментов речевого сигнала можно определить как число всевозможных комбинаций этих участков фонем с учетом взаимных переходов равным числу фонем в кубе. При этом в качестве длины сегмента анализа Ts используется длительность самой короткой фонемы «п» - 20 мс. Тогда минимальная скорость:

/ = У + ъ = N/ + + b = 3 log2 Nf+Na+b

ПИП rrt m m *

s s

Для русской речи, при Nf - 41 и 6=7, положив количество бит кодирования интенсивности сигнала Nc равным

5 (что широко используется в современных алгоритмах кодирования), получаем минимальную скорость приблизительно 1,1 кбит/с. Данный результат согласуется с реально

существующими скоростями передачи кодеров, удовлетворяющих сегментно-аппроксимационной модели параметрического кодирования речи.

В третьем параграфе на основе теоретико-информационного (ТИ) подхода разрабатывается математическая модель, названная сегментно-трансформационной моделью кодирования речи, обосновывающая возможность снижения скорости передачи речи до 0,65 кбит/с и ниже.

В основу модели, при заданной точности аппроксимации, полагается кластеризация множества векторов параметров и выборка множества характерных векторов параметров: Ф = где ф] = |Ф| = А, ЫГ<А<У.

Для расширения множества синтезируемых отрезков, аппроксимирующих речевой сигнал, определяется преобразование обеспечивающее непрерывную трансформацию

параметров синтеза в ходе самого синтеза: = где

>У>

ф] — последовательность изменяющихся на сегменте синтеза векторов параметров.

Синтез сегмента определяется в виде преобразования

последовательности векторов параметров: $(г) = где

£(г) - синтезированный сегмент, т=0...Ы-1.

Используя введенные обозначения, сегментно-транс-формационная модель кодирования определяется в виде:

целое[п/Ы] \

г=0

ф1ге Ф

Т.е. речевой сигнал аппроксимируется последовательностью отрезков, каждый из которых формируется преобразованием последовательности векторов параметров, полученной трансформацией вектора из множества характерных.

Для сегментно-трансформационной модели формализуются два критерия точности аппроксимации. Один, аналогично предыдущему случаю, основан на минимизации энергии ошибки аппроксимации. Второй - на определении кластерной принадлежности выделенного по исходному речевому сегменту зг(п) вектора параметров фг:

*г(и)*Ч(и),где ф)г еФ и ф]г:

\фл-фг\ = тт\ф;-фг\\ V I € {0,1,...,Л-1}, ф,еФ.

Для случая независимой модели функционирования источника возбуждения и синтезирующего фильтра при кодировании с кластеризацией параметров возбуждения, без интерполяции при синтезе, показана эквивалентность обоих критериев точности аппроксимации.

Критерий минимизации энергии ошибки имеет вид: 5г(и)«5г(л), = фк еФ и ф(г:

Ег4г = шш {¿У, V ф,еФ, ЕЫг = >

** л-0

ег(п) = 5г(п)-\(п).

Синтезируемый сегмент, опуская его индекс, для случая аппроксимации без интерполяции можно записать:

где ф,еФ(1).

Для случая независимой модели функционирования возбуждения и синтезирующего фильтра можно записать:

ф. = (ф!,ф[(и,,h(), где м, - параметры, определяющие сигнал возбуждения (СВ) (вектор параметров СВ из множества характерных СВ); й,- параметры, задающие синтезирующий фильтр (из множества характерных). При независимой модели щ можно рассматривать как принадлежащие

множеству характерных векторов параметров СВ в пространстве всевозможных векторов параметров СВ. Т.к. параметры ht определяют преобразование над сигналом возбуждения, то (1) можно записать в виде:

|(г)= н(ф,)= л[(«Д)]= Ям(«,) (2).

Кодирование осуществляется без интерполяции параметров, поэтому преобразование, реализуемое синтезирующим фильтром, является линейным и инвариантным к сдвигу. Тогда (2) можно записать в виде дискретной свертки импульсной характеристики hi (однозначно определяемой параметрами fy) и СВ и. (однозначно определяемого параметрами ui): s(n) — ht * иi.

Критерий минимизации энергии ошибки можно представить в виде минимизации расстояния между векторами в пространстве векторов сигналов. Элементами этих векторов являются отсчеты сигналов. Тогда критерий минимизации можно записать: min |s(n)-£(и)|, или: min |ht *u-hi*ui|, где и — это определенный непосредственно по речевому сигналу СВ, при предварительно найденном ht, а и. - один из множества характерных СВ, определяемый соответствующим вектором параметров ui.

Т.к. синтезирующий фильтр является линейной инвариантной к сдвигу системой, то

Л,. * и — А,. * м/ = А,. *(м — .

Поэтому минимизация расстояния между двумя векторами сигналов (энергии сигнала ошибки) эквивалентна минимизации расстояния между СВ. В данном случае это сводится к определению кластерной принадлежности вектора СВ и в пространстве векторов СБ или определению кластерной принадлежности однозначно его определяющего вектора параметров и в пространстве векторов параметров, что доказывает сформулированное выше утверждение.

Аналогично сегментно-аппроксимационной модели произведена оценка минимальной скорости кодирования и передачи. Применение интерполирующего преобразования параметров при синтезе позволяет исключить передачу параметров одной части фонемы. Поэтому мощность множества параметров уменьшается до числа фонем в квадрате. В результате минимальная скорость уменьшается до 0,8 кбит/с. Если же учесть тот факт, что 60-70 % речи представляют собой вокализованные, протяженные звуки, то можно применить интерполяцию параметров текущего сегмента на последующие, при условии не превышения порога точности аппроксимации на них. В этом случае средняя скорость передачи может быть снижена до 0,65 - 0,6 кбит/с.

В четвертом параграфе, содержащем общие выводы, отмечается, что системы параметрического кодирования речи еще полностью не исчерпали своих возможностей по ее компрессии. Решение проблемы повышения эффективности параметрического кодирования может быть осуществлено на базе сегментно-трансформационной модели за счет:

- использования квазипериодической структуры речи на вокализованных сегментах,

- учета информационной избыточности различных сегментов речи,

- построения взаимозависимых систем возбуждения и модели голосового тракта,

- кластеризации выделяемых параметров для осуществления эффективного векторного кодирования на передающей стороне,

- интерполяции параметров на приемной стороне при синтезе речевого сигнала.

Основными результатами главы являются:

1. формализация в виде обобщенной математической модели систем параметрического кодирования речи,

2. разработка математической модели эффективного кодирования речи на основе ТИ подхода к речевому сигналу,

3. математическая формализация критериев эффективного кодирования речи на основе ТИ подхода,

4. расчет минимальных скоростей низкоскоростного кодирования речи на основе ТИ подхода,

5. конкретизация задач, составляющих проблему повышения эффективности кодирования речи.

Третья глава посвящена важнейшей задаче современных сетей, систем связи и процесса разработки алгоритмов кодирования речи - оценке качества речевого сигнала. Традиционное решение в виде экспертной оценки требует значительных экономических и временных затрат. В связи с этим в настоящее время созданы и продолжают разрабатываться системы автоматического оценивания качества. В настоящее время существует несколько систем автоматической оценки качества, лидером из них является система

РЕБС^, рекомендованная в 2001 году международным союзом электросвязи. Анализ системы РЕ Б (2 представлен в первом параграфе. К ее недостаткам можно отнести сложность реализации связанную с использованием модели человеческого уха и отсутствием данных корреляции с результатами оценки качества для русского языка.

Задача оценки качества речи является нелинейной. Одним из инструментариев решения таких задач является математический аппарат нейросетей (НС). Кроме того, используемое в алгоритме РЕБС) преобразование речевого сигнала с целью моделирования восприятия речи человеком, в общем случае перераспределят энергию сигнала по частотному диапазону. Это реализуется с помощью некоторого фильтра взвешивания. Задача фильтрации сигналов успешно решается НС методами. Поэтому применение НС технологии позволяет упростить схему алгоритма. Анализ аппарата НС проведен во втором параграфе, в результате чего для решения задачи выбран аппарат двухслойных, самоорганизующихся ЬУС^-сетей. Они являются развитием самоорганизующихся сетей Кохонена и предназначены не только для кластеризации, но и для классификации.

Применение НС позволяет автоматически учесть эффект слухового восприятия речи человеком при ее обучении. Это связано с тем, что обучение для принятия решения об оценке качества производится по тестовым сигналам с известными оценками по шкале качества. При этом акцент в алгоритме смещается к формированию самого тестового сигнала.

При формировании тестового сигнала отправным был тот факт, что человеческое ухо реагирует при восприятии речи, во-первых, на положение формантных максимумов в

спектре речевого сигнала а, во-вторых, на изменение их положения во времени. В связи с этим, для обучения НС, а затем для принятия решения о качестве тестируемого сигнала был разработан следующий алгоритм формирования тестового (разностного) сигнала.

1. Выделение /-тых сегментов s¡(n) - исходного, и s¡ (п)

— синтезированного сигнала с известной экспертной оценкой качества (и=0,7, ...,255).

2. Вычисление S¡(k) и St (к) - соответствующие дискретные преобразования Фурье, с использованием окна Хемминга.

3. К полученным последовательностям коэффициентов Фурье применяется процедура низкочастотной фильтрации F, для получения гладкого спектра: S{(k) = F(St(k)) и

4. Последовательности прореживаются: S?np(k) = S{(dk)

и Sf"p (к) = Sf (dk), где d — коэффициент прореживания,

к=0,1, ...,255/d.

5. Формируется первая часть обучающего сигнала:

Л л (*) = Sf Ск) - Sf (к), к = 0,1,...,^

а

6. Для получения второй части обучающего сигнала

сначала находится разность гладких спектров на /-ом и i-1-

t fnp пР 255

ом сегментах: Л' ^ = № ~ к =

А; (к) = Sf (к) - Sf (А:), к = 0,1,...,— ^ и затем вычисляех. ся разность между полученными разностями:

д,2 (к) = а; {к) - а; (к), к = од**.

а

7. Разностные сигналы нормируются по амплитуде.

8. Тестовый сигнал с известной экспертной оценкой качества формируется из двух нормированных разностных

255

сигналов: Л< = *«(*>•Д"<*>• к = °>1>~*Т.

Для проверки работоспособности алгоритма в качестве тестовых сигналов были использованы ИКМ сигналы различной значности кода при равномерном квантовании и частоте дискретизации 8000 Гц в соответствии с тестовой шкалой оценок, представленной в таблице 1. Таблица 1. Тестовая шкала оценок.

Значность ИКМ 2-3 4-5 6-8 9-12 13-16

Тестовая оценка 1 2 3 4 5

После обучения НС должна распознавать принадлежность тестового сигнала к тому или иному классу тестовой оценки. Для реализации НС использованы стандартные средства пакета MatLab 7.0. После обучения НС (обучающие сигналы длиной 180 с, 80 нейронов в первом слое, 12500 эпох) тестовые испытания показали результаты точности оценки представленные в таблице 2.

Таблица 2. Результаты тестов ых испыта 1НИЙ.

Значность ИКМ 2 3 4 5 6 7 8 9 10

Оценка 1 1,0 2,1 2,3 3,1 3,2 3,2 4,0 4,1

Значность ИКМ 11 12 13 14 15 16

Оценка 4,1 4,2 5 5 5 5

Примечание: длина тестовых сигналов составляла 60 с, итоговая оценка вычислялась как среднее арифметическое оценок всех сегментов тестовых сигналов.

В третьем параграфе делаются выводы по результатам разработки и тестовых испытаний реализованной системы автоматической оценки качества синтезированной речи. Полученные результаты свидетельствуют о высокой точности полученных оценок для выбранной шкалы и возможности применения предложенного подхода для автоматического контроля качества при оптимизации алгоритмов кодирования-декодирования речи при соответствующем обучении НС (например, при обучении НС на высокое качество синтезированной речи (без квантования параметров), текущее и плохое (с возбуждением от тона)). Разработанная система является составной частью комплексного решения проблемы эффективного кодирования речи. Она была использована в качестве критерия точности аппроксимации при осуществлении кластерного анализа векторов параметров сигнала возбуждения.

В четвертой главе рассмотрены вопросы разработки кодеров речевой информации, использующих квазипериодические свойства речи и основанных на ТИ подходе.

В первом параграфе проведен анализ квазипериодических свойств вокализованной речи и предложен метод параметрического компандирования речи, использующий эти свойства на базе сегментно-трансформационной модели и обеспечивающий снижение объема парметрического описания речи. Решение задачи минимизации объема параметрического описания речи требует использования методов выделения параметров, позволяющих выявить и исключить значительные корреляции между ними. Анализ показал, что вокализованные звуки практически без потери качества могут быть аппроксимированы своими сигналами на

периоде основного тона (ПОТ) в начале, середине и конце звука. Исходя из полученных результатов анализа, предложен метод использования квазипериодических свойств вокализованной речи для ее компрессии. Вместо передачи информации о всем сегменте речевого сигнала (20-30 мс), достаточно передать информацию об одном сигнале на ПОТ (2,8-16 мс). По принятым параметрам синтезировать сигнал на ПОТ и, затем, используя интерполяцию параметров периодически повторить его на всем интервале синтеза. На основе предложенного метода кодирования разработана структура кодера переменной скорости (КПС), представленная на рис. 2.

Алгоритм

Речевой сигнал

£ Е

В

я 4> О «

II

Пауза

кодирования паузы___

Параметры I паузы

Невокализ, сегмент

Вокализован, сегмент

7йго]рйтм кодирования речи_

Параметры

речевого

сегмента

Алгоритм кодирования вок. сегмента

Параметры

вокализ.

сегмента

Поток

переменной

скорости

Рис. 2. Структура кодера речи переменной скорости.

Как следует из структуры кодера, важным его элементом является блок классификации типа сегмента. Это потребовало его дополнительных исследований применительно к решаемой задаче.

Во втором параграфе проведено исследование и осуществлен выбор набора характеристик речи и параметров алгоритмов для решения задачи классификации типа речевых сегментов. Анализ показал, что наиболее критическими в условиях задачи являются ошибки классификатора сег-

мента следующих типов: принятие вокализованного или не-вокализованного сегмента за паузу, принятие невокализо-ванного сегмента за вокализованный.

С целью минимизации этих ошибок был разработан алгоритм классификации, использующий три параметра: энергию сегмента, число переходов через нуль и признак вокализованный-невокализованный формируемый модифицированным алгоритмом оценки ПОТ. В этом алгоритме кратковременная функция средней разности, по которой осуществляется оценка ПОТ, вычисляется не на всем интервале анализа, а только на его части:

= ¿1 еп{т)-еп(т-к)\,для к = 20...147 ,

т=О

\А1если \А1<Ы-\-к

где 0=

', ТУ - длина интервала анализа, Л^—I—к,иначе

е„(т) — сигнал погрешности предсказания (ПП).

Это позволило повысить точность и надежность оценки ПОТ. Так, вероятность принятия невокализованного за вокализованный составила 0,01, вокализованного за нево-кализованный - 0,03, вероятность неправильного оценивания ПОТ-0,04.

В третьем параграфе решается задача минимизации множества векторов параметров вокализованного сигнала на ПОТ при их векторном кодировании (ВК). Основной объем передачи современных кодеров составляет информация о сигнале возбуждения. Задача минимизации параметрического описания сегмента при использовании квазипериодических свойств, решается за счет того, что ПОТ меньше длины интервала анализа. Но, кроме того, анализ сигнала многоимпульсного возбуждения (МИВ) на ПОТ во-

кализованных сегментов показал, что распределение положений импульсов возбуждения имеет не равновероятный характер, что имеет место в случае анализа всего интервала, а частота встречаемости различных импульсов различна. Для выделения сигнала на ПОТ предложен следующий метод: если сегмент вокализованный, то вычисляется ПОТ, на отрезке от начала интервала до величины ПОТ ищется максимум, первый переход через нуль перед ним считается началом отрезка на ПОТ. Наличие локальных максимумов в полученном распределении нормированных векторов возбуждения свидетельствует о наличии определенных зависимостей и, что в этом множестве можно выделить наиболее характерные, которые могут быть использованы для построения кодовой книги ВК сигналов МИВ на ПОТ.

Кластеризация множества нормированных по амплитуде и длительности сигналов МИВ на ПОТ и определение характерных (векторов-лидеров) в каждом кластере были осуществлены с помощью НС. Из речевого сигнала длительностью 13 минут выбирались только вокализованные сегменты в соответствии с разработанным алгоритмом классификации. Для кластеризации использована НС Кохо-нена с 512 нейронами, реализованная в пакете МаЛаЬ 7.0. После обучения, эта НС использована для определения кластерной принадлежности произвольного нормированного вектора МИВ на ПОТ.

Для определения функции преобразования параметров, используемой при синтезе в соответствии с сегментно-трансформационной моделью кодирования, в четвертом параграфе проведено исследование изменения энергетических параметров и ПОТ на интервале анализа. Как показали полученные распределения параметров, величина их измене-

ния за интервал анализа незначительна, что свидетельствует о возможности применения линейной интерполяции между соседними сегментами.

Выводы по результатам исследования представлены в пятом параграфе. Полученные результаты обеспечивают возможность построения КПС базирующегося на сегмент-но-трансформационной модели кодирования, квазипериодических свойствах вокализованной речи и использующего автоматическую оценку качества синтезированной речи при оптимизации кодовых книг СВ. Отмечается, что базовым является подход, использующий значительную корреляцию параметров квазипериодической речи, позволяющий выявить и исключить избыточности параметрического описания речи и тем самым минимизировать мощность множества характерных параметров.

В ходе исследований, представленных в четвертой главе, разработаны и широко использованы программы статистической обработки параметров речи, которые реализованы на языке Си-н- в операционной среде Windows.

Пятая глава посвящена практической реализации разработанных методов и алгоритмов при построении кодера речи переменной скорости с ВК сигнала МИВ на ПОТ — первый параграф, и с ВК возбуждения от ПП на ПОТ — второй параграф. В качестве стандартного алгоритма с МИВ рассмотрен алгоритм LPC-LTP-MPE системы связи Inmarsat Aeronautikal (8,9 кбит/с), а с возбуждения от ПП - алгоритм RPE-LTP стандарта GSM 06.10 (13 кбит/с), обеспечивающие коммерческое качество.

Для системы с ВК МИВ на ПОТ, в соответствии с разработанными в четвертой главе алгоритмами, реализованы: - классификация типа кодируемого сегмента,

- ВК нормированного сигнала МИВ на ПОТ вокализованного сегмента на основе НС кластеризации,

- линейная интерполяция параметров синтеза.

Кроме того, осуществлена адаптация таблиц кодирования коэффициентов отражения к русской речи. Таблицы рассчитаны по гистограммам распределения вероятностей появления этих коэффициентов полученным в результате анализа русской речи общей длительностью 16 минут. Формирование таблиц кодирования производилось разбиением диапазона значений параметра, в соответствии с полученным для него распределением вероятностей их появления, на отрезки различной длины, число которых определяется значностью кода. Длина этих отрезков выбиралась так, что вероятность попадания значения параметра в каждый отрезок является постоянной величиной. Т.е. если Д - диапазон значений /-го коэффициента отражения (&,), а -значность кода его кодирования, то £>/ разбивается на

Ni= 2Ь' отрезков: Dt - Di X u Di 2 u... u Di Nj, так, что в соответствии с гистограммой распределения вероятностей появления этого коэффициента, вероятности:

Р(к, бDn)=p(k, 6Z>.2)=... = Р[к, e D,Wi).

При этом получается, что наиболее вероятные значения параметра разбиваются на отрезки меньшей длины и, наоборот, наименее вероятные - на отрезки большей длины. В качестве декодированного значения для коэффициента, попавшего в j'-ый отрезок, используется математическое ожидание значений коэффициента отражения данного отрезка в соответствии с гистограммой распределения вероятностей появления этого коэффициента.

Для сравнения точности кодирования коэффициентов отражения в стандартном алгоритме и кодирования с помощью адаптированных к русской речи таблиц использовался критерий, основанный на степени близости значений коэффициентов выделенных анализатором к значениям, полученным в результате их кодирования-декодированния. Степень близости значений коэффициентов оценивалась по следующей величине:

1 ^ J L

&МРЕ ~ у/. &МРЕ (О ' R-CTAT = &СТАТ (О ' ГДв

ryps (0 = rctat (0 = №{1)-ъ?сглт<!)\ >

где Z — число интервалов анализа, &.(/) - значение /-го коэффициента отражения (£,), выделенного анализатором на /ом интервале анализа, kiMPE(l) — значение /-го коэффициента

отражения на 1-ом интервале, кодированного и затем декодированного по стандартным таблицам кодера с МИВ, kiCTAT(l) — значение /-го коэффициента отражения на 1-ом

интервале, кодированного и затем декодированного по статистическим таблицам.

В результате тестовых испытаний для русской речи в 75% случаях точность кодирования - декодирования коэффициентов отражения по рассчитанным таблицам выше, чем по стандартному алгоритму: Rctat^Rmpe-

КПС с ВК МИВ на ПОТ и адаптированными к русской речи таблицами кодирования реализован в виде прикладной программы на языке Си++ в операционной среде Windows 98, 2000 и осуществляет кодирование с максимальной скоростью 8,9 кбит/с (стандартный алгоритм) для случая пере-

дачи невокализованных сегментов, со скоростью 3,2 кбит/с

- для вокализованных сегментов, и 1,4 кбит/с - для пауз. Средняя скорость составляет 3,4 кбит/с, что в 2,5 раза меньше стандартного алгоритма.

Результаты тестовых испытаний показали, что время обработки файла речевого сигнала длительностью 9 минут 22 секунды на персональном компьютере Pentium 4 (2,4 ГГц) для стандартного алгоритма составило 15 с (алгоритмическая задержка 0,5 мс на сегмент), а для разработанного

- 22 с, (алгоритмическая задержка 0,8 мс на сегмент).

Результаты испытаний слоговой разборчивости в соответствии с ГОСТ Р 51061-97 и ГОСТ Р 50840-95 представлены в таблице 3. Разработанный кодер продемонстрировал более высокую шумостойкость, чем стандартный алгоритм. Методом парных сравнений показал, что качество речи разработанного кодера не хуже стандартного алгоритма, имеющего коммерческое качество.

Таблица 3.

Отношение сигнал / фоновый шум Слоговая разборчивость, %

Стандартный кодер LPC-LTP-MPE Разработанный КПС с ВК сигнала МИВ на ПОТ

48 дБ 90 90

15 дБ 85 85

8 дБ 75 76

4 дБ 63 70

1 дБ 43 51

Для построения КПС с ВК возбуждения от ПП на ПОТ аналогично случаю МИВ был так же применен метод с использованием квазипериодической структуры вокализованной речи, для чего осуществлено:

- выделение сигнала ПП на ПОТ вокализованных сегментов,

- нормализация его по длительности и амплитуде,

- НС кластеризация множества нормированных сигналов ПП на ПОТ, для речи длительностью 7 минут,

- построение кодовой книги из характерных нормированных сигналов ПП на ПОТ.

Для разработанного кодера минимальная скорость (на вокализованных сегментах) составляет 3 кбит/с, т.е. в 4,3 раза меньше стандартного алгоритма GSM с возбуждение от ПП. Кодер реализован в виде прикладной программы на языке Си++ в операционной среде Windows 98, 2000. Оценка качества, полученная методом парных сравнений, показала, что качество синтезированной речи разработанного кодера не хуже качества речи стандартного. Время обработки файла речевого сигнала длительностью 9 минут 22 секунды на персональном компьютере Pentium 4 (2,4 ГГц): для стандартного алгоритма GSM составило 12 с (алгоритмическая задержка 0,42 мс на сегмент) для разработанного — 17 с, (алгоритмическая задержка 0,6 мс).

В третьем параграфе представлено исследование параметров синтезирующего фильтра, демонстрирующее возможность дальнейшего снижения скорости передачи. Для этого проведено исследование статистических и корреляционных свойств LSF-коэффициентов русской речи. Кроме того исследована возможность их ВК. Эффективность ВК оценивалась по величине суммарной среднеквадратической погрешности кодирования. Для j-ro вектора LSF-коэффициентов она вычислялась по формуле:

где LSF/ - значение /-го ^^-коэффициента у-го вектора, а

- значение /-го ¿¿^-коэффициента вектора из кодовой книги, ближайшего к у'-му. Кодовая книга строилась на основе НС кластеризации векторов ¿^-коэффициентов тестовых сигналов длительностью около 7 минут для числа нейронов 128, 256, 512, 1024.

Полученные результаты свидетельствуют о целесообразности использования кодовых книг для ВК коэффициентов русской речи размером 128 или 256 векторов. Это связано с тем, что дальнейшее увеличение размера кодовой книги не приводит к значительному уменьшению среднеквадратической ошибки ВК, увеличивая при этом временные затраты на обработку.

В четвертом параграфе, содержащем выводы, отмечается, что результаты экспертной оценки эффективности разработанных кодеров продемонстрировали сохранение качества синтезированной речи при уменьшении скорости передачи в 2,5-3 раза по сравнению со стандартными алгоритмами. Разработанный кодер с ВК сигнала МИВ на ПОТ показал более высокую стойкость к фоновому шуму, чем стандартный алгоритм. Таким образом, результаты испытаний демонстрируют, что применение разработанных принципов, методов и алгоритмов обеспечивает решение проблемы повышения эффективности параметрического кодирования речи.

В заключении представлены основные результаты работы и сформулированы перспективы дальнейших исследований.

1. Проведен анализ современного состояния, направлений и тенденций развития систем кодирования речевой информации, осуществлена классификация используемых

технологий компрессии, отмечены недостатки эмпирических подходов к созданию кодеров речи.

2. Разработаны теретико-информационные модели параметрического командирования речи, для которых рассчитаны минимальные скорости кодирования: 1,1 кбит/с для сегментно-аппроксимационной модели, 0,8 кбит/с для сегментно-трансформационной модели при постоянной скорости и до 0,65 кбит/с при переменной скорости кодирования. Для сегментно-трансформационной модели сформулирован критерий эффективности кодирования на основе определения кластерной принадлежности векторов параметров и показана его эквивалентность, в условиях, удовлетворяющих большинству реальных систем, критерию минимизации энергии ошибки синтеза.

3. Разработан и исследован нейросетевой алгоритм автоматической оценки качества синтезированной русской речи. При этом:

- показано, что применение нейросетевой технологии позволяет упростить схему алгоритма автоматического оценивания качества синтезированной речи,

- предложен метод формирования разностного сигнала для автоматического оценивания качества, основанный на особенностях восприятия речи человеком,

- в ходе экспериментальных исследований реализованного алгоритма показана его эффективность и возможность применения для оптимизации алгоритмов параметрического компандирования речи.

4. Разработан и исследован метод компрессии речи, использующий ее квазипериодические свойства и обеспечивающий снижение объема ее параметрического описания. Применительно к нему обоснованы и разработаны: метод

оценки периода основного тона на основе модифицированной кратковременной функции средней разности, повысивший точность оценки на 2%, и адаптивный алгоритм выделения пауз и невокализованных сегментов речи, повысивший точность оценки на 3%. Кроме того, в ходе исследования параметров русской речи показано, что при синтезе на длине интервала анализа около 20 мс может быть применена линейная интерполяция параметров.

5. Предложен и обоснован метод векторного кодирования сигнала многоимпульсного возбуждения на периоде основного тона на основе нейросетевой кластеризации обеспечивающий снижение объема параметрического описания сигнала возбуждения в 6 раз по отношению к его скалярному кодированию. При этом:

- предложен метод выделения сигнала многоимпульсного возбуждения на периоде основного тона вокализованного сегмента речи и его нормализации, выявляющий присутствующие в нем корреляции,

- осуществлена нейросетевая кластеризация множества нормированных сигналов многоимпульсного возбуждения на периоде основного тона вокализованных сегментов речи, оптимизированная с помощью разработанного алгоритма автоматической оценки качества речи,

- реализован нейросетевой алгоритм определения кластерной принадлежности произвольного нормированного сигнала многоимпульсного возбуждения на периоде основного тона.

6. Реализован и исследован кодер переменной скорости с векторным кодированием сигнала многоимпульсного возбуждения на периоде основного тона, основанный на разработанных теоретико-информационных принципах кодиро-

вания. В ходе разработки создан комплекс программ, реализующий кодер переменной скорости, использующий квазипериодические свойства вокализованной речи, построена кодовая книга нормированных сигналов многоимпульсного возбуждения на периоде основного тона, осуществлена адаптация системы кодирования коэффициентов отражения к русской речи. Тестовые испытания разработанного кодера переменной скорости показали, что при средней скорости менее 3,5 кбит/с он обеспечивает качество речи не хуже стандартного кодера Inmarsat Aeronautikal с многоимпульсным возбуждением, имеющего коммерческое качество, при скорости передачи 8,9 кбит/с. При этом установлено, что разработанный кодер более устойчив к фоновым шумам.

7. Реализован и исследован кодер речи с векторным кодированием возбуждения от погрешности предсказания на периоде основного тона на базе разработанных теоретико-информационных принципов кодирования. При этом:

- предложен алгоритм выделения и нормализации сигнала погрешности предсказания на периоде основного тона вокализованного сегмента речи, выявляющий присутствующие в нем корреляции,

- на основе нейросетевой кластеризации построена кодовая книга нормированных сигналов погрешности предсказания на периоде основного тона,

- проведена экспертная оценка разработанного кодера, показавшая качество синтезированной речи не хуже кодера GSM 06.10 с возбуждением от погрешности предсказания, имеющего коммерческое качество, при скорости 13 кбит/с. При этом, около 60% сегментов тестовых сигналов было классифицировано как вокализованные, скорость передачи параметров которых в разработанном кодере 3 кбит/с.

8. Проведено исследование распределения вероятностей значений параметров линейных спектральных пар русской речи и возможности их векторного кодирования на основе нейросетевой кластеризации. Результаты продемонстрировали возможность снижения скорости кодирования и передачи на вокализованных сегментах до 2,5 кбит/с. Оценка качества речи требует проведения дополнительных исследований.

Главным итогом диссертационного исследования является то, что на основе выполненных исследований и разработок осуществлено решение актуальной научной проблемы повышения эффективности параметрического кодирования речи, имеющей важное экономическое значение.

Приложения содержат результаты проведенных статистических исследований значений параметров русской речи, использованные для построения таблиц кодирования коэффициентов отражения кодера переменной скорости с векторным кодированием сигнала многоимпульсного возбуждения на периоде основного тона. Также приложения содержат результаты исследования статистических и корреляционных свойств ЬБР-коэффициентов русской речи и результаты исследования их векторного кодирования на основе нейросетевой кластеризации.

ОСНОВНЫЕ ПУБЛИКАЦИИ

1. Шалимов И.А. Модификация алгоритма ЬРС-ЬТР-МРЕ. // Перспективные технологии в средствах передачи информации / Материалы III международной НТК, Владимир 1999. - Владимир: ВлГУ 1999. - с. 199-202.

2. Шалимов И.А. Снижение объема параметрического описания речи // «Вестник связи», М: 1999 № 8. - с. 32-33.

3. Шалимов И.А. Алгоритм классификации вокализованных, невокализованных сегментов и пауз речевого сигнала применительно к проблеме создания кодера переменной скорости. // «Вестник ИКСИ», серия «Р», № 3 (17), М: Академия ФСБ РФ, 1999. - с. 125-133.

4. Шалимов И.А. Анализ системы кодирования параметров вокодера. // «Вестник ИКСИ», серия «Р», № 3 (17), М: Академия ФСБ РФ, 1999. - с. 100-106.

5. Шалимов И.А., Венедиктов М.Д. Методические аспекты освоения компьютерной телефонии. // Обработка сигналов в системах телефонной связи и вещания/ Тезисы докладов X межрегиональной конференции Московского НТОРЭС им. A.C. Попова. - М.: МТУСИ, 2000 - с. 103-107.

6. Шалимов И.А. Некоторые вопросы методологии дистанционного образования в области цифровой обработки речи.//«Информационные технологии», М: 2000 № 5.— с.52-54.

7. Шалимов И.А. Современные методы передачи речи. Курс лекций. М: Типография Академии ФСБ РФ, 2000, -132с.

8. Шалимов И.А., Быков С.Ф. Передача речи в современных сетях связи. // «Специальная техника», М: 2000 № 6. - с. 20-25.

9. Шалимов И.А. Методические аспекты изучения некоторых разделов компьютерной телефонии. // «Телекоммуникации», М: 2000 № 5. - с. 2-5.

10. Шалимов И.А. Передача речи с переменной скоростью. // «Телекоммуникации», М: 2001 № 1. - с. 13-17.

11. Шалимов И.А., Журавлев В.И. Методы передачи речи по сетям связи.//«Телекоммуникации», М: 2002№4.-с.13-24.

12. Шалимов И.А. Алгоритм кодера речи на периоде основного тона и переход к переменной скорости кодирования. // «Телекоммуникации», М: 2002 № 11. — с. 11-15.

13. Шалимов И.А., Силкин О.В. Кодирование речи на периоде основного тона. // Научно-техническое и информационное обеспечение деятельности спецслужб / Материалы IV межведомственной конференции, Том IV, Москва 2002. - М: Академия ФСБ РФ, 2003. - с. 194-196.

14. Шалимов И.А. Модификация кодера речи с многоимпульсным возбуждением. // «Электросвязь», М: 2002 № 12.-с. 45-46.

15. Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония. Учебное пособие. М: 2003. Радио и связь, - 146с.

16. Шалимов И.А., Гаранин М.В. Цифровая демодуляция сигналов многопозиционной частотной манипуляции. // «Телекоммуникации», М: 2003 № 2. - с. 8-11.

17. Шалимов И.А., Петров A.B., Быков С.Ф. Обзор тенденций развития методов передачи речи по сети Frame Relay. // Научно-техническое и информационное обеспечение деятельности спецслужб / Материалы V межведомственной конференции, Том III, Москва 2004. - М: Академия ФСБ РФ, 2004 - с. 144-146.

18. Шалимов И.А., Гайдадин А.Н. Разработка практикума по курсу «Цифровая телефония» на базе класса сетевых технологий. // Научно-техническое и информационное обеспечение деятельности спецслужб / Материалы V межведомственной конференции, Том III, Москва 2004. - М: Академия ФСБ РФ, 2004 - с. 147-149.

19. Шалимов И.А., Гуменюк А.Д. Направления использования класса сетевых технологий в рамках специальности 075600-«ИБ телекоммуникационных систем». // Проблемы образования в области ИБ / Сборник трудов межвузовской научно-методической конференции, 2004, - М: ИКСИ Академия ФСБ РФ, 2004.- с. 170-174.

20. Шалимов И.А. О подходе к использованию класса цифровой обработки сигналов в рамках дисциплины «Специализированные микропроцессоры телекоммуникационных систем». // Проблемы образования в области ИБ / Сборник трудов межвузовской научно-методической конференции, 2004, - М: ИКСИ Академия ФСБ РФ, 2004.-с.175-179.

21. Шалимов И.А., Гайдадин А.Н. О подходе к использованию класса сетевых технологий в рамках дисциплины «Цифровая телефония». // Проблемы образования в области ИБ / Сб. трудов межвузовской научно-методической конференции, 2004,-М:ИКСИ Академия ФСБ РФ,2004.-с.179-184.

22. Шалимов И.А. Теоретико-информационные модели кодирования речи. // Проблемы совершенствования и развития специальной связи и информации, предоставляемых государственным органам / Мат. IV всероссийской НК, часть 2, Орел 2005. - Орел: Академия ФСО РФ, 2005. - с. 201-203.

23. Шалимов И.А. Нейросетевой подход к автоматическому оцениванию качества телефонных передач. // Проблемы совершенствования и развития специальной связи и информации, предоставляемых государственным органам / Материалы IV всероссийской НК, часть 2, Орел 2005. -Орел: Академия ФСО РФ, 2005. - с. 207-208.

24. Шалимов И.А., Петров A.B. Проблемы передачи речевой информации по сети Frame Relay. // Проблемы обеспечения безопасности в системах связи и информационно-вычислительных сетях / Материалы межвузовской НПК, Голицино: ГПИ ФСБ РФ, 2005. - с. 57-58.

25. Шалимов И.А. Сегментно-аппроксимационная и сег-ментно-трансформационная модели параметрического кодирования речи. // Перспективные технологии в средствах

передачи информации / Материалы VI международной НТК, ВлГУ 2005. - Владимир: РОСТ, 2005. - с. 282-284.

26. Шалимов И.А. Автоматическое оценивание качества речи на основе нейросетевой классификации. // Перспективные технологии в средствах передачи информации / Материалы VI международной НТК, ВлГУ 2005. - Владимир: РОСТ, 2005.- с. 284-286.

27. Шалимов И.А. Модели параметрического кодирования речи // «Вестник связи», М: 2005 № 10. - с. 78-84.

28. Шалимов И.А. Кодер речи переменной скорости на основе квазипериодических свойств вокализованной речи. // «ШТЕЯМАТ1С-2005» / Материалы международной НПК, Москва 2005. - М.: МИРЭА, 2005.

29. Шалимов И.А. Кодирование сигнала погрешности предсказания на периоде основного тона. // «ШТЕЯМАТЮ-2005» / Материалы международной НПК, Москва 2005. -М.: МИРЭА, 2005.

30. Шалимов И.А. Исследование векторного кодирования коэффициентов линейных спектральных пар русской речи. // Телекоммуникационные и вычислительные системы / Материалы международного форума информатизации, Москва 2005. -М.: МТУ СИ, 2005.-с. 154-155

31. Шалимов И.А. Критерий точности аппроксимации речевого сигнала на основе определения кластерной принадлежности векторов параметров. // Телекоммуникационные и вычислительные системы / Материалы международного форума информатизации, Москва 2005. - М.: МТУСИ, 2005. - с. 156-157.

Всего пронумеровано 47 с. (47-я стр. отпечатана на 3-й стр. обложки) Подписано в печать 07.12.2005 г.

Авт. л. 1,96 Усл. печ. л. 2,94 Заказ № 662ф/05 г. Тираж 95 экз.

Спецтипография Академии ФСБ России

Оглавление автор диссертации — доктора технических наук Шалимов, Игорь Анатольевич

ВВЕДЕНИЕ.

ГЛАВА 1. АНАЛИЗ СИСТЕМ КОДИРОВАНИЯ РЕЧИ И ФОРМУЛИРОВКА ПРОБЛЕМЫ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ПАРАМЕТРИЧЕСКОГО КОДИРОВАНИЯ.

1.1. Методы кодирование речевого сигнала.

1.2. Кодирование формы волны речевого сигнала.

1.3. Кодирование речи в гибридных кодерах.

1.3.1. Рекомендация ITU-T G.723 (MP-MLQ).

1.3.2. Рекомендация ITU-T G.728 (Long-Delay CELP).

1.3.3. Рекомендация ITU-T G.729 (CS-ACELP).

1.3.4. Алгоритмы кодирования с частотным разбиением (SBC,ATC).

1.3.5. Алгоритм кодирования с многополосным возбуждением (МВБ, IMBE, АМВЕ).

1.4. Принципы передачи речи с переменной скоростью.

1.4.1. Кодирование речи с переменной скоростью на основе фонетической классификации.

1.4.2. Кодирование речи с переменной скоростью на основе энергетической классификации.

1.4.3. Кодирование речи с переменной скоростью, обеспечивающее постоянное качество синтезируемой речи.

1.5. Речеэлементное кодирование.

1.6. Выводы по главе, формулировка и декомпозиция проблемы повышения эффективности параметрического кодирования речи.

ГЛАВА 2. ПОСТРОЕНИЕ МАТЕМАТИЧЕСКОЙ МОДЕЛИ ЭФФЕКТИВНОГО КОДИРОВАНИЯ РЕЧИ.

2.1. Описание обобщенной модели параметрического кодирования речи.

2.2. Построение сегментно-аппроксимационной модели параметрического кодирования речи и формулировка критериев эффективности.

2.2.1. Критерий точности аппроксимации.

2.2.2. Оценка минимальной скорости передачи в сегментно-аппроксимационной модели кодирования.

2.2.3. Достоинства и недостатки сегментно-аппроксимационной модели кодирования.

2.3. Математическое определение модели параметрического кодирования речи на основе теоретико-информационного подхода.

2.3.1. Критерий точности аппроксимации.

2.3.2. Оценка минимальной скорости передачи в сегментно-трансформационной модели кодирования.

2.4. Выводы по главе.

ГЛАВА 3. РАЗРАБОТКА АВТОМАТИЧЕСКОЙ СИСТЕМЫ ОЦЕНКИ КАЧЕСТВА СИНТЕЗИРОВАННОЙ РЕЧИ.

3.1. Анализ проблемы автоматического оценивания качества телефонных передач.

3.2. Применение математического аппарата нейронных сетей для автоматической оценки качества синтезированной речи.

3.2.1. Анализ нейросетевых технологий.

3.2.2. Применение нейронных LVQ-сетей для автоматической оценки качества синтезированной речи.

3.2.3. Формирование обучающих сигналов для принятия решения об оценке качества речевого сигнала.

3.2.4. Реализация системы автоматической оценки качества синтезированной речи.

3.3. Выводы по главе.

ГЛАВА 4. РАЗРАБОТКА ПРИНЦИПОВ КОДИРОВАНИЯ, ИСПОЛЬЗУЮЩИХ КОРРЕЛЯЦИОННЫЕ СВОЙСТВА КВАЗИПЕРИОДИЧЕСКОЙ СТРУКТУРЫ РЕЧИ.

4.1. Анализ квазипериодических свойств речевых сигналов на вокализованных сегментах и формулировка метода j параметрического компандирования речи на базе сегментнотрансформационной модели кодирования.

4.2. Классификация вокализованных, невокализованных v сегментов и пауз речевого сигнала применительно к проблеме j кодирования на основе квазипериодических свойств речевых сигналов.

4.2.1 Особенности задачи классификации типа сегмента применительно к проблеме кодирования на основе квазипериодических свойств речевых сигналов.

4.2.2. Классификация вокализованных сегментов и оценка периода основного тона.

4.2.3. Решение задачи классификации невокализованных сегментов и пауз речи.

4.3. Минимизация множества векторов параметров сигнала на периоде основного тона в соответствии с сегментно-трансформационной моделью.

4.3.1. Метод выделения сигнала на одном периоде основного тона в начале интервала анализа.

4.3.2. Выбор модели параметрического кодера для синтеза речевого сигнала на периоде основного тона.

4.3.3. Анализ корреляционных свойств сигнала возбуждения для сигнала на одном периоде основного тона.

4.3.4. Применение нейронных сетей для кластеризации множества векторов параметров.

4.3.4.1. Кластеризация множества векторов возбуждения.

4.3.4.2. Поиск вектора - лидера.

4.3.4.3. Определение класса произвольного вектора.

4.4. Анализ функции преобразования параметров при синтезе речи на базе сегментно-трансформационной модели.

4.4.1. Исследования изменения величины периода основного тона за интервал анализа.

4.4.2. Исследования изменения энергии сигнала на периоде основного тона за интервал анализа.

4.4.3. Интерполяция параметров предсказания.

4.5. Выводы по главе.

ГЛАВА 5. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ ТЕОРЕТИКО-ИНФОРМАЦИОННЫХ ПРИНЦИПОВ КОДИРОВАНИЯ НА ОСНОВЕ КВАЗИПЕРИОДИЧЕСКИХ СВОЙСТВ РЕЧИ.

5.1. Реализация разработанных принципов кодирования в кодерах с многоимпульсным возбуждением.

5.1.1. Анализатор кодера переменной скорости с векторным кодированием сигнала многоимпульсного возбуждения на периоде основного тона.

5.1.2. Синтезатор кодера переменной скорости с векторным кодированием сигнала многоимпульсного возбуждения на периоде основного тона.

5.1.3. Результаты тестовых испытаний кодера переменной скорости с векторным кодированием сигнала многоимпульсного возбуждения на периоде основного тона.

5.2. Реализация разработанных принципов кодирования в кодерах с возбуждением от остатка предсказания.

5.2.1. Анализ кодера речи RPE-LTP.

5.2.2. Исследование остаточных сигналов алгоритма RPE-LTP и разработка метода кодирования с использованием квазипериодических свойств речи.

5.2.3. Реализация кодера переменной скорости с векторным кодированием сигнала погрешности предсказания на периоде основного тона.

5.2.4. Результаты тестовых испытаний кодера переменной скорости с векторным кодированием сигнала погрешности предсказания на периоде основного тона.

5.3. Кодирование параметров синтезирующего фильтра модели речеобразования.

5.4. Выводы по главе.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Шалимов, Игорь Анатольевич

Актуальность темы. Речь является неотъемлемой составляющей понятия «человек». Это не только средство общения между людьми. Речь - инструмент информационного взаимодействия в различных аспектах человеческого существования. С помощью речи происходит эмоциональное взаимодействие между людьми. В речевой форме происходят мыслительные процессы человека. По речи однозначно идентифицируется человек [109]. С помощью амплитудной модуляции речевого сигнала можно осуществлять гипнотическое воздействие на человека, с помощью фазовой модуляции спектральных составляющих - влиять на его подсознание [105]. Процессы формирования и восприятия речи человеком являются чрезвычайно сложными, глубокими и полностью не изучены. Создаваемые информационные технологии [83] позволяют глубже исследовать речь, выявлять специфические особенности и использовать их в различных технических системах информационного обмена и управления.

В последние годы наблюдается значительный рост исследований и разработок в области анализа, кодирования и синтеза речи. Это объясняется, прежде всего, возросшим использованием информационных речевых технологий в различных областях деятельности человека, автоматизацией процессов информационного обмена и широким применением технологий человеко-машинного общения.

Залогом успешного развития и все более широкого применения технологий речевого обмена, а также расширения речевого сервиса современных сетей связи является обеспечение эффективного кодирования речевой информации, что требует совершенствования алгоритмов компрессии и кодирования речи. Это актуально, в первую очередь, для цифровых сетей интегрального обслуживания (ISDN), сетевых технологий пакетной коммутации, таких как TCP/IP, ATM, Frame Relay [110,119,81,114,91,51,94].

Особую актуальность эта задача приобретает в условиях интенсивного развития и все более широкого применения систем компьютерной телефонии (Computer-Telephony Integration - CTI) [65,63,74]. Эта технология предназначена для расширения сервиса и функциональных возможностей услуг телефонной связи на базе специализированных компьютерных приложений, реализованных и функционирующих на оборудовании пользователя сети [75,89,113,23].

Предоставление речевого сервиса является одной из основных функций непрерывно развивающихся и широкомасштабно внедряемых ISDN (Integrated Services Digital Network) - цифровых сетей интегрального обслуживания [36,117,73,72].

Другим интенсивно развивающимся направлением внедрения речевых технологий являются сети Frame Relay. В протоколе Frame Relay реализованы принципы доступа к сетям быстрой коммутации пакетов [94,85,121,18]. Это позволяет эффективно передавать крайне неравномерно распределенный во времени трафик и обеспечивает высокие скорости передачи информации через сеть, малые времена задержек и рациональное использование полосы пропускания. Отмеченные достоинства сети Frame Relay обеспечивают интенсивное внедрение и развитие технологий речевого обмена и позволяют экономически эффективно осуществлять интегрированную транспортировку речи и данных, реализовывать разнообразный речевой сервис [153,93,19,79].

Наиболее перспективной технологией построения высокоскоростных сетей связи, с точки зрения внедрения речевых приложений, является сеть ATM (Asynchronous Transfer Mode) [101,100]. ATM обеспечивает возможность максимально эффективного использования полосы пропускания каналов связи при передаче информации различной природы, в том числе речи [61,62].

Другими факторами, определяющими интерес к системам компрессии с повышенными требованиями к качеству речевого сигнала, являются:

1. потребность в уменьшении скорости передачи для организации закрытой связи в военной области и других ведомствах,

2. потребности организации закрытой связь с сохранением натуральности звучания (например, в гражданской и военной авиации для реализации возможности определения эмоционального состояния летчика по голосу),

3. потребности создания систем экономного хранения речи, автоматизированных, электронных, речевых справочных служб,

4. быстрый рост компьютерных сетей требует создания мультимедиа ориентированной системы коммуникации, что требует улучшения качества речи при скоростях передачи приблизительно 2-4 кбит/с.

5. потребность организации связи типа "электронной речевой почты" с закрытием доступа к информации по каналам диапазонов сверх длинных и длинных волн.

Современные достижения в области создания высокопроизводительных процессоров для обработки сигналов позволяют практически неограниченно совершенствовать методы и алгоритмы цифровой обработки речевых сигналов, что обеспечило возможность создания высококачественных цифровых систем связи с разнообразным речевым сервисом [12]. При этом с каждым годом усилиями ученых и инженеров снижается требуемая для передачи по каналам связи емкость речевых сигналов, что приводит к постоянному удешевлению предоставляемых информационных услуг и услуг телефонной связи.

В современной технике кодирования речи базовой является модель линейного предсказания с кодовым возбуждением [148,152]. Высокое качество речи, достигаемое в алгоритмах многоимпульсного и кодового возбуждения, при относительно невысоких скоростях передачи, обеспечило их широкое распространение в различных системах и сетях связи для хранения, обработки и передачи речи. Проведенный анализ современных методов кодирования речи показал, что их применение на скорости 4 кбит/с и ниже приводит к снижению натуральности и качества речи ниже требований коммерческой передачи и возможности определения эмоционального состояния диктора. Это требует проведения дополнительных исследований направленных на повышение качества речи. Одна из возможностей дальнейшего снижения скорости передачи с сохранением высокого качества - это переход к переменной скорости кодирования, учитывающей информационные избыточности сегментов речевых сигналов [140]. Реализация таких систем обеспечивается в современных системах и сетях связи использованием техники коммутации пакетов, переходом к протоколам с переменными скоростями (VBR), применением высокоскоростных мультиплексоров потоков с переменной скоростью. Другим направлением снижения скорости передачи является создание систем речеэлементного кодирования (фонетические вокодеры) [111,118,120,68,8,46], которое связано со значительными техническими трудностями.

Параметрическое компандирование, минимизируя объем параметрического описания речевого сигнала для систем, не требующих высокого качества звучания, обеспечивает предельное сжатие и передачу речи со скоростью 1200-2400 бит/с. При этом речь лишается натуральности звучания, несмотря на достаточно высокую разборчивость (слоговая разборчивость составляет 85-90%).

Развитие и совершенствование сетевых технологий, как было отмечено выше, повышает требования к качеству речевого сервиса, предоставляемого пользователю. Качество передачи речи из конца в конец является главной мерой качества обслуживания при передаче речевой информации. Оценка этого параметра существенно влияет на выбор оборудования, на телеметрию системы и поиск неисправностей, на применение сервисного обслуживания на определенном уровне и на оптимизацию сети в целом. Качество речи остается открытой проблемой, пока полоса передачи и скорость обработки сигнала ограничены.

Современные системы параметрического кодирования обеспечивают требуемое качество на скоростях передачи 4000-16000 бит/с. Как свидетельствует проведенный анализ, актуальной потребностью является обеспечение качественного кодирования и передачи речи на скорости 2-4 Кбит/с. При этом требуется обеспечение натуральности звучания речи включающей возможность определения диктора и его эмоционального состояния, в том числе для военных приложений.

Насущная необходимость создания низкоскоростных систем кодирования речи привела к появлению целого ряда частных, эмпирических, алгоритмов кодирования речи. Основное ограничение этих алгоритмов состоит в их зависимости от эмпирического подбора значений конкретных параметров и процедур обучения отдельных составляющих кодера-декодера. Кроме того, большинство современных систем обработки и кодирования речи рассматривает ее с позиций сигнала, в то время как речь, являясь средством информационного обмена, характеризуется информационными признаками и особенностями.

Современные системы передачи речи характеризуются усложнением алгоритмов кодирования речи, появлением новых моделей, развитием методов анализа через синтез и векторного кодирования. Это все делает актуальной задачу обобщения достигнутых результатов и их математической формализации.

Таким образом, актуальной является проблема повышения эффективности параметрического кодирования речи. Под этой проблемой понимается широкий круг задач моделирования отдельных функций механизма речеобразования, параметрического компандирования речи, автоматического оценивания качества телефонных передач. Решение этих задач базируется на информационном подходе к речевому сигналу, математических методах его анализа и цифровой обработке, обеспечивающих создание низкоскоростных систем кодирования речи с сохранением высокой натуральности ее звучания. Высокая натуральность речи предполагает возможность идентификации диктора и определения его эмоционального состояния.

Таким образом, существует насущная необходимость формулировки и разработки совокупности задач, входящих в проблему повышения эффективности кодирования речи. Анализ работ, посвященных кодированию речи, позволяет сделать вывод, что в общей проблеме можно выделить ряд частных проблем, имеющих в отдельных случаях самостоятельное значение. К ним относятся:

1. Построение математической модели эффективного параметрического кодирования речи.

2. Формулировка принципов кодирования, базирующихся на корреляциях параметров речевого сигнала и их кластерном анализе.

3. Использование априорных сведений о параметрах речевых сигналов для интерполяции их значений при синтезе речи.

4. Формулировка критериев эффективного кодирования.

Объектом диссертационного исследования является речевой сигнал и системы его кодирования.

Теория и методы параметрического кодирования речи начали активно развиваться в тридцатые годы двадцатого века. Основы теории кодирования речи были заложены в трудах таких ученых как Д. Фланаган, Г. Фант, М.А. Сапожков, А.А. Пирогов. Второе дыхание эти исследования получили в 70-е годы [12]. Это было обусловлено главным образом следующими причинами: развитием цифровых методов обработки речевых сигналов, достижениями микроэлектроники, созданием и развитием высокопроизводительной элементной базы цифровой обработки сигналов, потребностями передачи речи цифровыми системами и сетями связи. Была развита теория кодирования, построена модель параметрического кодирования на основе линейного предсказания, сформулированы методы повышения качества синтезированной речи. Основная заслуга принадлежит таким ученым как JI.P. Рабинер, Р.В. Шафер, Дж.Д. Маркел, Б.С. Атол, Д. Раймд, Ф. Итакура, М.Р. Шредер и др.

Достижения микроэлектроники конца 80-х - 90-х годов (развитие направления цифровых процессоров обработки сигналов) и труды таких ученых как Б.С. Атол, Д. Серено, JI. Селарио, А. Гершо, Е. Пайксоу, Д.Г. Рове, Т. Ванг и др. привели к усложнению алгоритмов, появлению новых моделей, развитию методов анализа через синтез. Это делает актуальной задачу обобщения полученных результатов и математической их формализации.

Наиболее распространенной в современной технике кодирования речи является модель речеобразования на основе линейного предсказания (LPC). Доминирующее положение этот подход получил в различных приложениях цифровых сетей пакетной коммутации, мобильной связи. Другими подходами являются кодирование с частотным разбиением: многополосное кодирование - SBC (Sub-Band Coding) и кодирование с адаптивным преобразованием - АТС (Adaptive Transform Coding) и кодирование с многополосным возбуждением МВБ (Multi-Band Excitation). Основными областями применения этих систем являются стандарты спутниковой связи, коммерческой телефонии самолета и цифрового мобильного радио. Они также широко используются во многих других приложениях типа безопасной связи, экономного хранения речи и др. Выбор того или иного подхода определяется особенностями прикладных задач, для решения которых предназначены разрабатываемые на их основе алгоритмы.

Многообразие систем кодирования речи имеет общие черты и особенности, которые в диссертации формализованы и математически определены в виде теоретико-информационных моделей параметрического кодирования речи. Применение информационного подхода к речевому сигналу, математических, нейросетевых методов анализа, позволило сформулировать, обосновать и реализовать эффективные алгоритмы кодирования на основе квазипериодических свойств вокализованной речи.

Предмет диссертационного исследования -это модели, методы и алгоритмы параметрического компандирования речи и оценки ее качества, обеспечивающие максимальную компрессию на основе информационного подхода к речевому сигналу и его кластерного анализа.

Кластеризация параметров речи и векторное кодирование, в том или ином виде, использовалась в различных системах кодирования. Это, например, алгоритмы CELP, VSELP и другие системы, разрабатываемые с начала 90-х годов 20-го века.

Информационный подход к анализу речевого сигнала заключается в представлении речи в виде конечного множества элементов, находящихся в определенных статистических и фонетических зависимостях. Этот подход выдвигает на первый план задачу кластерного анализа параметров речевого сигнала, используемых в системах параметрического компандирования и автоматической оценки качества речи.

Геометрическая близость двух или нескольких векторов параметров из множества векторов параметров модели речеобразования может рассматриваться как их принадлежность к некоторому кластеру, характеризующему определенные элементы речевого сигнала. Задача кластерного анализа состоит в выделении из анализируемого множества подмножеств близких (то есть однородных) объектов (векторов параметров) образующих кластеры (cluster - гроздь, пучок, скопление элементов, характеризуемых какими-либо общими свойствами).

С целью минимизации объема параметрического описания речи в диссертации использованы квазипериодические свойства речевых сигналов [144,133,126]. В связи с этим потребовалась разработка новых методов и алгоритмов выделения параметров, их предварительной обработки перед применением процедур кластеризации, в том числе при решении задач автоматического оценивания качества синтезированной речи при оптимизации алгоритмов низкоскоростного кодирования речи.

Цель диссертационного исследования заключается в разработке теоретико-информационных принципов компрессии речи на основе параметрической модели речеобразования, квазипериодических свойств вокализованной речи и применение их для создания эффективных систем параметрического компандирования речи. Под теоретико-информационными принципами понимается использование информационного подхода к речевому сигналу, основанному на представлении его в виде последовательности элементов из конечного множества, и математических, нейросетевых методов его анализа.

Используя полученные результаты, предлагаются методы компрессии, обеспечивающие коммерческое качество синтезированной речи и удовлетворяющие современным требованиям к скорости передачи (2-4 кбит/с). Кроме того, проведенные исследования позволили сформулировать подход и создать систему автоматической оценки качества речевого сигнала, использованную для оптимизации алгоритмов кодирования.

Задачи исследования. Для достижения поставленной цели в диссертации осуществляется решение следующих основных задач.

1. Анализ и формализация общих характеристик систем кодирования речи, формулировка теоретико-информационных принципов кодирования.

2. Разработка системы автоматического оценивания качества русской речи для оптимизации кластерного анализа параметров при кодировании.

3. Разработка метода компрессии на основе квазипериодических свойств вокализованной речи и алгоритмов выделения и преобразования параметров, адаптированных к нему.

4. Векторное кодирование параметров, выделяемых на периоде основного тона вокализованной речи.

5. Практическая реализация разработанных методов и алгоритмов, оценка их эффективности.

Методы исследования. Для решения поставленных задач в работе использован аппарат теории вероятностей и математической статистики, теории множеств и теории информации, нейронных сетей, методы цифровой обработки сигналов, структурного программирования, численного анализа, компьютерного моделирования и экспертных оценок.

Научная новизна диссертационного исследования состоит в том, что разработаны и обоснованы новые модели, методы и алгоритмы кодирования, анализа и синтеза речи, автоматического оценивания ее качества, позволяющие осуществить эффективное параметрическое компандирование речи. Научная новизна полученных результатов заключается в следующем.

1. Развита теория кодирования речи: произведен расчет минимальных скоростей кодирования и передачи речи, формализован критерий эффективности кодирования на основе определения кластерной принадлежности вектора параметров и показана его эквивалентность в условиях, удовлетворяющих большинству реальных систем, критерию минимизации энергии ошибки синтеза.

2. Разработан нейросетевой алгоритм автоматического оценивания качества речи по разностному сигналу, использованный для оптимизации кластерного анализа при построении кодовых книг векторного кодирования сигналов возбуждения.

3. Предложен и обоснован метод снижения объема параметрического описания речи на основе квазипериодических свойств вокализованной речи.

4. Предложены методы выделения и нормализации сигнала многоимпульсного возбуждения и сигнала погрешности предсказания на периоде основного тона, обнаруживающие имеющиеся в них корреляции, обеспечивая повышение эффективности их векторного кодирования.

5. На основе нейросетевой кластеризации множеств нормированных сигналов возбуждения на периоде основного тона (многоимпульсного и от погрешности предсказания) осуществлено их векторное кодирование.

6. Разработан и реализован кодер переменной скорости с векторным кодированием многоимпульсного возбуждения на периоде основного тона и средней скоростью передачи менее 3,5 кбит/с, обеспечивающий коммерческое качество речи и обладающий повышенной стойкостью к фоновому шуму.

7. Сформулированы и обоснованы принципы построения низкоскоростного кодера речи с векторным кодированием сигнала возбуждения от погрешности предсказания на периоде основного тона, обеспечивающего коммерческое качество речи.

Теоретическая значимость результатов диссертации заключается в развитии теории кодирования речи и расчете минимальных скоростей ее кодирования и передачи; исследовании корреляционных свойств различных параметров речи; разработке методов и алгоритмов обработки, анализа и синтеза речи, обеспечивающих создание эффективных систем кодирования на основе ее квазипериодических свойств и автоматического оценивания качества.

Практическая ценность результатов состоит в том, что разработанные принципы, методы и алгоритмы обеспечивают создание низкоскоростных кодеров с высокой натуральностью речи (коммерческое качество), удовлетворяющих требованиям к скорости передачи 2-4 кбит/с. Повышенная стойкость к фоновым шумам предложенных алгоритмов может быть использована в системах связи для железнодорожного, воздушного, морского транспорта. Созданные методы и алгоритмы могут быть использованы в различных практических задачах, связанных с выделением и оценкой параметров речевого и акустического сигнала, в том числе для систем акустической связи и аппаратуры акустического самонаведения. Они доведены до практической реализации в виде пакетов прикладных программ, для которых получены экспертные оценки эффективности функционирования.

Достоверность результатов. Разработанные в диссертации методы и алгоритмы базируются на данных статистического анализа речи длительностью достаточной для получения статистически достоверных данных. Экспертные оценки, продемонстрировавшие эффективность разработанных систем кодирования-декодирования речи, проведены в соответствии с методиками, регламентированными соответствующими ГОСТами России. Достоверность полученных данных минимальных скоростей кодирования речи подтверждена приближением к ним сверху экспериментальных результатов других авторов, работающих в этой области.

Реал изаци я и апро б ация результатов диссер т а ц и и. Основные результаты опубликованы в 25 публикациях, в том числе в журналах: «Вестник ИКСИ», «Телекоммуникации», «Информационные технологии», «Специальная техника», «Электросвязь», «Вестник связи», использованы в трех учебно-методических пособиях и в одном учебном пособии для вузов по специальности «информационная безопасность телекоммуникационных систем» всероссийского издания.

Основные результаты диссертации доложены в 24 докладах на отечественных и международных конференциях: Основные результаты диссертации доложены в 28 докладах на отечественных и международных конференциях, в том числе: III Международной научно-технической конференции «Перспективные технологии в средствах передачи информации» (Владимир, 1999), X межрегиональной конференции «Обработка сигналов в системах телефонной связи» (Пушкинские горы, 2000), X межвузовской научно-проблемной конференция (Санкт-Петербург, Петродворец, 2000), IV межведомственной конференции «Научно-техническое и информационное обеспечение деятельности спецслужб» (Москва, 2002), V межведомственной конференции «Научно-техническое и информационное обеспечение деятельности спецслужб» (Москва, 2004), Межвузовской научно-методической конференции «Проблемы образования в области информационной безопасности» (Москва, 2004), IV Всероссийской научной конференции «Проблемы совершенствования и развития специальной связи и информации, предоставляемых государственным органам» (Орел, 2005), межвузовской научно-практической конференции «Проблемы обеспечения безопасности в системах связи и информационно-вычислительных сетях» (Голицино, 2005), VI Международной научно-технической конференции «Перспективные технологии в средствах передачи информации» (Владимир, 2005).

В работах, написанных в соавторстве, результаты, включенные в диссертацию, принадлежат лично автору.

Результаты диссертационного исследования использованы в научно-исследовательских работах, проводимых в Институте криптографии, связи и информатики Академии ФСБ России

АКАЦИЯ», «СВИРЕЛЬ», «ПРОГНОЗ», «ЛИСТВА-Ф», «ПРОПЮЗ-04» и «ПОИСК-И», использованы и внедрены в практическую деятельность в/ч 34016, в/ч 49766, ЦКБ №1 ОАО «РЖД». Кроме того, результаты диссертационного исследования широко использованы и внедрены в учебный процесс ИКСИ Академии ФСБ РФ и ряда других высших учебных заведений.

Диссертационное исследование, являющееся продолжением кандидатской диссертации автора, проводилось в период с 1999-2005 гг. инициативно и в плановом порядке по договорам о научно-техническом сотрудничестве с рядом организаций, проводимых в Институте криптографии, связи и информатики Академии ФСБ России.

Положения выносимые на защиту.

1. Теоретико-информационные модели кодирования речи и расчет минимальных скоростей ее передачи на их основе.

2. Алгоритм автоматического оценивания качества синтезированной речи, основанный на нейросетевой кластеризации и классификации разностного сигнала между исходным и тестируемым.

3. Метод компрессии на основе квазипериодических свойств речи и сегментно-трансформационной модели кодирования, обеспечивающий снижение объема параметрического описания речи.

4. Методы выделения сигнала возбуждения на периоде основного тона и его нормализации для случая многоимпульсного возбуждения и возбуждения от погрешности предсказания, обеспечивающие эффективное их векторное кодирование.

5. Нейросетевые методы векторного кодирования нормированных сигналов многоимпульсного возбуждения и возбуждения от погрешности предсказания на периоде основного тона.

6. Алгоритм кодера переменной скорости с векторным кодированием многоимпульсного возбуждения на периоде основного тона и средней скоростью менее 3,5 кбит/с, обеспечивающий коммерческое качество и повышенную стойкость к фоновому шуму.

Структура и объем работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы, приложений. Диссертация содержит без приложений 210 страниц, 13 таблиц, 55 рисунков, список литературы содержит 156 источников.

Заключение диссертация на тему "Теоретико-информационные принципы компрессии речевого сигнала на основе его квазипериодических свойств"

9. Основные результаты опубликованы в 25 публикациях, доложены в 24 докладах на отечественных и международных конференциях, использованы в учебном пособии для вузов по специальности «информационная безопасность телекоммуникационных систем» всероссийского издания. Результаты диссертационного исследования использованы в научно-исследовательских работах, проводимых в Институте криптографии, связи и информатики Академии ФСБ России «АКАЦИЯ», «СВИРЕЛЬ», «ЛИСТВА-Ф», «ПРОГНОЗ», «ПРОГНОЗ-СИ» и «ПОИСК-И». Кроме того, результаты диссертационного исследования широко использованы в учебном процессе ИКСИ Академии ФСБ РФ и ряде других высших учебных заведений [64,141,131,130,136,146,149,151,137,150].

Направления дальнейших исследований.

Представляется перспективным продолжить исследования алгоритма кодирования, провести исследование возможности кластеризации множества векторов параметров линейного предсказания с целью их векторного кодирования, а также провести анализ помехозащищенности и тандемного режима передачи.

Использованные в данной работе нейронные сети были реализованы в среде MatLab и, таким образом, представляют собой собранный «конструктор». Однако в MatLab'e не рассматриваются вопросы применения нейросетевых технологий для решения задач, посвященных исключительно проблеме сжатия речи, а, как известно, любая попытка унификации метода решения задачи неизбежно вносит погрешность в решение каждой конкретной задачи. По этой причине весьма перспективной выглядит возможность разработки специализированного типа нейросетей, направленного на решение исключительно вопросов классификации векторов данных. При этом в качестве базового алгоритма целесообразно оставить алгоритм «сетей без учителя» - сетей Кохонена.

Так же планируется проведение дальнейших исследований системы автоматического оценивания качества речи с целью обучения системы на кодеках с известными оценками по шкале MOS.

ЗАКЛЮЧЕНИЕ

В диссертационной работе на основе выполненных исследований и разработок осуществлено решение актуальной научной проблемы повышения эффективности параметрического кодирования речи, имеющей важное экономическое значение.

В том числе получены следующие результаты:

1. Проведен анализ современного состояния, направлений и тенденций развития систем кодирования речевой информации, осуществлена классификация используемых технологий компрессии, отмечены недостатки эмпирических подходов к созданию кодеров речи.

2. Разработаны теретико-информационные модели параметрического компандирования речи, для которых рассчитаны минимальные скорости кодирования: 1100 бит/с для сегментно-аппроксимационной модели, 800 бит/с для сегментно-трансформационной модели при постоянной скорости и до 650 бит/с при переменной скорости кодирования. Для сегментно-трансформационной модели формализован критерий эффективности кодирования на основе определения кластерной принадлежности векторов параметров и показана его эквивалентность, в условиях, удовлетворяющих большинству реальных систем, критерию минимизации энергии ошибки синтеза.

3. Разработан и исследован нейросетевой алгоритм автоматической оценки качества синтезированной русской речи. При этом:

- показано, что применение нейросетевой технологии позволяет упростить схему алгоритма автоматического оценивания качества синтезированной речи,

- предложен метод формирования разностного сигнала для автоматического оценивания качества, основанный на особенностях восприятия речи человеком,

- в ходе экспериментальных исследований реализованного алгоритма показана его эффективность и возможность применения для оптимизации алгоритмов параметрического компандирования речи.

4. Разработан и исследован метод компрессии речи, использующий ее квазипериодические свойства и обеспечивающий снижение объема ее параметрического описания. Применительно к нему обоснованы и разработаны: метод оценки периода основного тона на основе модифицированной кратковременной функции средней разности, повысивший точность оценки на 2%, и адаптивный алгоритм выделения пауз и невокализованных сегментов речи, повысивший точность оценки на 3%. Кроме того, в ходе исследования параметров русской речи показано, что при синтезе на длине интервала анализа около 20 мс может быть применена линейная интерполяция параметров.

5. Предложен и обоснован метод векторного кодирования сигнала многоимпульсного возбуждения на периоде основного тона на основе нейросетевой кластеризации обеспечивающий снижение объема параметрического описания сигнала возбуждения в 6 раз по отношению к его скалярному кодированию. При этом:

- предложен метод выделения сигнала многоимпульсного возбуждения на периоде основного тона вокализованного сегмента речи и его нормализации, выявляющий присутствующие в нем корреляции,

- осуществлена нейросетевая кластеризация множества нормированных сигналов многоимпульсного возбуждения на периоде основного тона вокализованных сегментов речи, оптимизированная с помощью разработанного алгоритма автоматической оценки качества речи,

- реализован нейросетевой алгоритм определения кластерной принадлежности произвольного нормированного сигнала многоимпульсного возбуждения на периоде основного тона.

6. Реализован и исследован кодер переменной скорости с векторным кодированием сигнала многоимпульсного возбуждения на периоде основного тона, основанный на разработанных теоретико-информационных принципах кодирования. В ходе разработки создан комплекс программ, реализующий кодер переменной скорости, использующий квазипериодические свойства вокализованной речи, построена кодовая книга нормированных сигналов многоимпульсного возбуждения на периоде основного тона, осуществлена адаптация системы кодирования коэффициентов отражения к русской речи. Тестовые испытания разработанного кодера переменной скорости показали, что при средней скорости менее 3500 бит/с он обеспечивает качество речи не хуже стандартного кодера Inmarsat Aeronautikal с многоимпульсным возбуждением, имеющего коммерческое качество, при скорости передачи 8900 бит/с. При этом установлено, что разработанный кодер более устойчив к фоновым шумам.

7. Реализован и исследован кодер речи с векторным кодированием возбуждения от погрешности предсказания на периоде основного тона на базе разработанных теоретико-информационных принципов кодирования. При этом:

- предложен алгоритм выделения и нормализации сигнала погрешности предсказания на периоде основного тона вокализованного сегмента речи, выявляющий присутствующие в нем корреляции,

- на основе нейросетевой кластеризации построена кодовая книга нормированных сигналов погрешности предсказания на периоде основного тона,

- проведена экспертная оценка разработанного кодера, показавшая качество синтезированной речи не хуже кодера GSM 06.10 с возбуждением от погрешности предсказания, имеющего коммерческое качество, при скорости 13 кбит/с. При этом, около 60% сегментов тестовых сигналов было классифицировано как вокализованные, скорость передачи параметров которых в разработанном кодере 3 кбит/с.

8. Проведено исследование распределения вероятностей значений параметров линейных спектральных пар русской речи и возможности их векторного кодирования на основе нейросетевой кластеризации. Результаты продемонстрировали возможность снижения скорости кодирования и передачи на вокализованных сегментах до 2,5 кбит/с. Оценка качества речи требует проведения дополнительных исследований.

Библиография Шалимов, Игорь Анатольевич, диссертация по теме Теоретические основы информатики

1., Natarajan Т., Rao K.R. Discrete Cosine Transform. 11 1.EE Transactions on Computers. JANUARY 1974. P. 90-93.

2. Alan Мс. Cree. A 2.4 Kbit/s Melp Coder Candidate for the new U.S. Federal Standart. Proc. ICASSP, 1996.

3. Andermo P. G. CODIT. ICUPC. Ottawa, 1993.

4. Atal B. S. and Schroeder M. R. Stochastic coding of speech signals at very low bit rates. Proc ICC'84, Part 2, pp 1610—1613 (May 1984).

5. Atal В., Remde J. A New Model of LPC excitation for producing natural sounding speech at low bit rates. Proc. ICASSP, pp. 614-617, 1982.

6. Atal B.S. High quality speech at very low bit rates: multipulse and stochastically excited linear predictive coders. // Proc. of the Int. Conf. on ASSP, 1986, pp. 1065-1069.

7. Berruto E., Sereno D. Variable-rate for the basic speech service in UMTS. / VTC. Secaucus № J 1993, p. 520-523.

8. Carlson R. Models of Speech Synthesis. // Colloquium on Human-Machine Communication by Voice. Irvine, California, 1993, February 8-9.

9. Cellario L et al. A VR-CELP codec implementation for CDMA mobile communications. Proc ICASSP'94, p 1-281 (1994).

10. Cellario L., Sereno D. CELP Coding at Variable Rate. // ETT, Vol.5, № 5 September-October 1994, pp. 603-613.

11. Chen J.H., Cox R.V. Lin Y.C., Jayant N., Melchner M.J. A low-delay CELP coder for the CCITT 16 kbit/s speech coding standart. IEEE J SAC (июнь, 1 1992), 10, № 5, pp. 830-848.

12. Cox R V et al. Sub-band speech coding and matched convolutional channel coding for mobile radio channels. // IEEE Trans on Signal Processing, 39, No 8, pp 1717—1731 (August 1991).

13. European Patent Application. Adaptive Transform Coding. // EP 0 725 384 A2. Date of Publication 07.08.1996 Bulletin 19996/32.

14. European Telecommunications Standards Institute: European digital cellular telecommunication system (phase 2); GSM Full Rate Speech Transcoding (GSM 06.10, Version 4.0.0,October 1992).

15. Extensible Markup Language (EXML) 1.0. // Bray et al. W3C Recommendation, http://www. w3 .org/TR/2000/REC-xml-20001006.

16. Federal Standard FED-STD-1015. Telecommunications: Analog-to-Digital Conversion of Voice by 2400 Bits/Second Linear Predictive Coding. Nov. 1984.

17. FRF. 1.1. Frame Relay User-to-Network Implementation Agreement, http ://www. frforum .com.

18. FRF. 11. Voice over Frame Relay Implementation Agreement, http ://www. frforum .com.

19. Gersho A., Paksoy E. Variable rate speech coding for cellular networks. / Speech and Audio Coding for Wireless and Network Application. Kluwer Academic Publishers. 1993, p. 77-84.

20. Inmarsat Aeronautikal System Definition Manual. Module 5: 9,6 kbit/s Voice Coding Algorithm. British Telecommunications 1989.

21. Itakura F., "Line Spectrum Representation of Linear Predictive Coefficients of Speech Signals", J. Acoust. Soc.Amer., vol 57, S35, 1975.

22. ITU-T Recommendation П.323. Packet based multimedia communication systems. Geneva, 1998.

23. ITU-T Recommendation G.107. The E-model, a computational model for use in transmission planning.

24. ITU-T Recommendation G. 113. Transmission impairments. 1996.

25. ITU-T Recommendation G. 114. One-way transmission time. 1996.

26. ITU-T Recommendation G.723.1. Dual rate speech coder for multimedia communications transmitting at 5.3 AND 6.3 kbit/s, 1996.

27. ITU-T Recommendation G.726. 40, 32, 24, 16 kbit/s Adaptive Differential Pulse Code Modulation (ADPCM), 1990.

28. ITU-T Recommendation G.728. Coding of Speech at 16 kbit/s Using Low-Delay Code Excited Linear Prediction, 1992.

29. ITU-T Recommendation G.729. Coding of speech at 8 kbit/S using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP), 1996.

30. ITU-T Recommendation P.800. Methods for subjective determination of transmission quality.

31. ITU-T Recommendation P.830. Subjective performance assessment of telephone-band and wideband digital codecs. 1996.

32. ITU-T Recommendation P.861. Objective quality measurement of telephone-band (300-3400 Hz) (PSQM). 1998.

33. ITU-T Recommendation P.862. Perceptual Evaluation of Speech Quality (PESQ). 2001.

34. ITU-T Recommendation Q.1211, Intelligent Network-Introduction to Intelligent Network Capability Set 1, 1993.

35. Kroon P. and Deprettere E.F. A Class of Analysis-by-Synthesis Predictve Coders for High Quality Speech Coding at Rates Between 4.8 and 16 kbit/s. IEEE Journal on Selected Areas in Communications, 6, pp. 334-363, February 1988.

36. Lyon Dr.D. Voice Compression Techniques. PCSI, 1992. - p. 8

37. Multimedia Signal Processing. Lecture 11: "Speech Coding Using Sinusoidal Methods" Andrea Spanias Arizona State University, 01.2001 // http://www.eas.asu.edu/~spanias.

38. Paksoy E., Srinivasan K., Gersho A. Variable Bit-Rate CELP Coding of Speech with Phonetic Classification. // ETT, Vol.5, № 5 September-October 1994, pp. 591-602.

39. PESQ: Measuring speech quality over network. // Psytechnics Limited, 2001. //http:www.psytechnics.com.

40. Q4401 Variable Rate Vocoder. General Description. QUALCOMM Incorporated, ASIC Products 6455 Lusk Boulevard, San Diego, 1997.

41. Rainer Zelinski, Peter Noll. Adaptive Transform Coding of Speech Signals. // IEEE Transactions on Acoustics, Speech, and Signal Processing, VOL.ASSP-25, N0.4, AUGUST 1977. P. 299-309.

42. Rainer Zelinski, Peter Noll. Approaches to Adaptive Transform Speech Coding at Low Bit Rates. // IEEE Transactions on Acoustics, Speech, and Signal Processing, VOL.ASSP-27, NO.l, FEBRUARY 1979. P. 89-95.

43. Ribeiro C., Trancoso I., Caseiro D. Phonetic Vocoder Assessment. // INESC, Rua Alves Redol, 9, 1000 Lisbon, Portugal.

44. Robert Rudolph Eddie Yu. IMBE and AMBE Speech Compression. // International 1С 1999 Conference Proceedings. P. 232-234.

45. Schroeder M.R. and Atal B.S. Code-excited linear prediction (CELP): High quality speech at very low bit rates. Proc. ICASSP-85, pp. 937940.

46. Soong F., Juang В., "Line Spectrum Pair (LSP) and Speech Data Compression", IEEE, Int. Conf. Acoust., Speech, Signal Processing, 1.10.1-1.10.4, 1984.

47. Stalings W. ISDN and Broadband ISDN with Frame Relay and ATM. -Prentice Hall, 1995.

48. Techniques for Harmonic Sinusoidal Coding by David Grant Rowe, Bachelor of Engineering in Electronic Engineering School of Physics and Electronic Systems Engineering Faculty of Information Technology 07.1997.

49. Tremain, T. The Government Standard Linear Predictive Coding Algorithm: LPC-10. Speech Technology, April 1982, pp. 40-49.

50. Tribolet J. Frequency Domain Coding of Speech. // IEEE Transactions on Acoustics, Speech, and Signal Processing, VOL.ASSP-27, N0.5, OCTOBER 1979. P. 512-530.

51. Voice activity detection. ETSI/GSM. Recommendation 06.32.

52. Voice extensible Markup Language 1.0. // Boyer et al, W3C Note, May 2000. http://www.w3.org/TR/2000/NOTE-voicexml-20000505.

53. Wang Tian, Tang Kun, Feng Chongxi. A High Quality MBE-LPC-FE Speech Coder at 2,4 Kbps and 1,2 Kbps. // Tsinghua University 1996.

54. Wong W.T.K., Mack R.M., Cheetham B.M.G. and Sun X.Q. Low rate speech coding for telecommunications. // ВТ Technol J Vol 14 No 1 January 1996.

55. Алексеев В. Услышь меня, машина. // Компьютерра . 1997. № 49.

56. Беллами Дж. Цифровая телефония. Пер. с англ. М.: Эко-Трендз, 2004.

57. Бессарабский А. Ю. Передача голоса по сетям ATM (часть I). // Сети и системы связи. 1998, - №2 (24)

58. Бессарабский А. Ю. Передача голоса по сетям ATM (часть II). // Сети и системы связи. 1998, - №3 (25) - С. 92-97.

59. Борисова Г.В., Вязникова М.В. и др. Концепция CTI: возможности и перспективы. // CTI. Компьютерная телефония. 1999. - № 1. -С.18-21.

60. Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония. Учебное пособие. М: 2003. Радио и связь. С-146.

61. Введение в компьютерную телефонию. М.: ГП "МОРСВЯЗЬСПУТНИК", 1997. - С. 22.

62. Вемян Г.В. Качество телефонной передачи и его оценка. М.: Связь, 1970, - С. 224.

63. Вемян Г.В. Передача речи по сетям электросвязи. М.: Радио и связь, 1985,-С. 272.

64. Вокодерная телефония. Методы и проблемы. Под. ред. А.А. Пирогова. -М.: Связь, 1974, С. 536.

65. Ворсано Д. Кодирование речи в цифровой телефонии. // Сети и системы связи , 1996, - № 1.

66. Галунов В.И., Викторов А.Б. Аналитический обзор по проблеме кодирования речевых сигналов, http://www.auditech.ru.

67. Галунов В.И., Кутуков Г.П., Матюнин С.Н. Состояние исследований в области речевых технологий и задачи выдвигаемые государственными заказчиками. http://www.auditech.ru.

68. Гольдштейн Б.С. Протоколы сети доступа. Том 1., М.: Радио и связь, 1999.

69. Гольдштейн Б.С. Сигнализация в сетях связи. Том 1., М.: Радио и связь, 1998.

70. Гольдштейн Б.С., Пинчук А.В., Суховицкий A.JI. IP-Телефония. -М.: Радио и связь, 2001. -336 с.

71. Гордиенко И., IP-телефония: прогулка по новому рынку.// Компьютерра, 2 июня 1998. - № 21. - С.28,43-45.

72. ГОСТ Р 51061-97 «Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений».

73. Дельта-модуляция. Теория и применения. / Венедиктов М.Д., Женевский Ю.П., Марков В.В., Эйдус Г.С. М.: Связь, 1976. - С. 271.

74. Джил Байрен. Передача речи по сетям Frame Relay. // Сети и системы связи, 1996, - № 7.

75. Дьяконов В.Н. Математические пакеты расширения MATLAB. Специальный справочник. СПб.: Питер, 2001. 480с.

76. Захаров Г.П., Яновский Г.Г., Широкополосные цифровые сети интегрального обслуживания. СПбГУТ им. проф. М.А. Бонч-Бруевича. Санкт-Петербург, 1994.

77. Иванов П. Измеряемый голос // Сети, 2004, № 08.

78. Информатика. Базовый курс/Симонович С.В. и др. СПб: «Питер», 2000. - 640 с.

79. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. М.: Радио и связь, 1991, - С. 220.

80. Каплан В.В., Кузнецов С.Б. Построение сети передачи данных с интеграцией услуг на основе технологии Frame Relay. // Корпоративные территориальные сети связи. Сборник статей, под редакцией Купермана М.Б. -М.: Информсвязь, 1997, С. 42-48.

81. Каппелини В., Константинидис А. Дж., Эмилиани П. Цифровые фильтры и их применение.: Пер. с англ. М: Энергоатомиздат, 1983. -с.360.

82. Комашинский В.И., Смирнов Д.А. Нейронные сети и их применение в системах управления и связи. М.: Горячая линия-Телеком, 2003.-c.94.

83. Крейнес А., Компьютерная телефония в приложениях // Открытые системы, 1996. - № 2. - С.43-47.

84. Кулаков В.Г., Гаранин М.В., и др. Информационная безопасность телекоммуникационных систем. (Технические аспекты). Учебное пособие. М.: Радио и связь, 2004.

85. Куперман М.Б., Лясковский Ю.К. Технологии и протоколы территориальных сетей связи. // Корпоративные территориальные сети связи. Сборник статей, под редакцией Купермана М.Б. М.: Информсвязь, 1997, С. 13-20.

86. Лазарев Ю.Ф. MatLab 5.x. К.: Издательская группа BHV, 2000 -384с.

87. Лейсер-Рааб И., Суконник М. Оборудование для интеграции речи в каналах Frame Relay корпоративных сетей. // Сети, 1997, -№ 6.

88. Лясковский Ю.К. Frame Relay путь к цифровой суперсети связи, уже сегодня доступный каждому. // Корпоративные территориальные сети связи. Сборник статей, под редакцией Купермана М.Б. -М.: Информсвязь, 1997, С. 32-41.

89. Маркел Дж.Д., Грэй А.Х. Линейное предсказание речи. Пер. с англ./ Под ред. Ю.Н. Прохорова и B.C. Звездина. М.: Связь, 1980, -С. 308.

90. Маркюс Ж. Дискретизация и квантование. М.: Энергия, 1969. -С.144.

91. Медведев B.C., Потемкин В.Г. Нейронные сети. MatLab 6. М.: Диалог МИФИ, 2002 - с. 496.

92. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи./ Под ред. М.А. Сапожкова. М.: Радио и связь, 1987. - С. 168.

93. Муравьев В.Н. О современном состоянии и проблемах вокодерной техники. Материалы IX сессии «Российского акустического общества»-М.: 1999, С. 22-27.101102103104105106107108109110111112113114

94. Назаров A.H., Симонов М.В. ATM: Технология высокоскоростных сетей. М.: ИТЦ «Эко-Трендз», 1997. - С. 234.

95. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь, 1985, - С. 176.

96. Омату С., Халид М., Юсоф Р. Нейроуправление и его приложения. М.: ИПРЖРБ, 2000. 272 с.

97. Оппенгейм А.В., Шафер Р.В. Цифровая обработка сигналов. Пер. с англ. / Под ред. С .Я. Шаца. М.: Связь, 1979, - С. 416.

98. Петелин Р.Ю., Петелин Ю.В. Cool Edit Pro 2. Секреты мастерства. СПб: БХВ-Санкт-Петербург, Арлит, 2002. 432 с.

99. Потемкин В.Г. Введение в MatLab. М.: Диалог МИФИ, 2000.

100. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. -М.: Радио и связь, 1984, С. 240.

101. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ./ Под ред. М.В. Назарова и Ю.Н. Прохорова. М: Радио и связь, 1981. -496 с.

102. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. -М.: Радио и связь, 1981. С. 224.

103. Самуйлов К.Е. Введение в архитектурную концепцию интеллектуальной сети. // Открытые системы, 1996. - № 2. -С.25-31.

104. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963. - с. 452.

105. Сапожков М.А., Михайлов В.Г. Вокодерная связь. М.: Радио и связь, 1983,-С. 248.

106. Синепол B.C., Цикин И.А. Системы компьютерной видеоконференцсвязи. М.: ООО «Мобильные коммуникации», 1999.- 166 С.

107. Сорокин В.Н. Теория речеобразования. М.: Радио и связь, 1985. -С. 312.

108. Стил Р. Методы дельта-модуляции. Пер. с англ./ Под ред. В.В. Маркова. -М.: Связь, 1979, С. 368.

109. Убайдуллаев P.P. Технологии волоконно-оптических сетей. М.: ИТЦ «Эко-Трендз», 1998, - С. 282.

110. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. -с. 284.

111. Филюшин Ю.И. Концепция и принципы построения интеллектуальных сетей связи. -М.: ЦНТИ «Информсвязь», 1995.

112. Фланаган Д. Анализ, синтез и восприятие речи. М.: Связь, 1968, -С.396.

113. Хендерсон JI. Frame Relay. Межсетевое взаимодействие. Пер. с англ. М.: Горячая линия-Телеком, 2000. 320 с.

114. Чистович JI.A., Кожевников В.А., Алякринский В.В. и др. Речь. Артикуляция и восприятие / Под ред. Кожевникова В.А. и Чистович JI.A. М.: Наука, 1965.-241 с.

115. Шалимов И.А. Автореферат диссертации на соискание ученой степени кандидата технических наук. М: 1999, типография в/ч 33965 с.20

116. Шалимов И.А. Алгоритм классификации вокализованных, невокализованных сегментов и пауз речевого сигнала применительно к проблеме создания кодера переменной скорости. // «Вестник ЖСИ», серия «Р», № 3 (17), М: Академия ФСБ РФ, 1999.-с. 125-133.

117. Шалимов И.А. Алгоритм кодера речи на периоде основного тона и переход к переменной скорости кодирования. // «Телекоммуникации», М: 2002 № 11. с. 11-15.

118. Шалимов И.А. Анализ метода оценивания периода основного тона по кратковременной функции средней разности. // «Вестник ЖСИ», серия «Р», № 1 (15), М: Академия ФСБ РФ, 1998. с. 142146.

119. Шалимов И.А. Анализ системы кодирования параметров вокодера. // «Вестник ЖСИ», серия «Р», № 3 (17), М: Академия ФСБ РФ, 1999.-с. 100-106.

120. Шалимов И.А. Выбор алгоритма выделения основного тона для вокодерных систем на основе линейного предсказания. // «Вестник ЖСИ», серия «Р», № 1 (15), М: Академия ФСБ РФ, 1998. с. 134141.

121. Шалимов И.А. Лабораторные работы по обработке речи. В сборнике «Практические вопросы». Под редакцией Шурупова А.Н. -М: Типография в/ч 33965, 1997.

122. Шалимов И.А. Методические аспекты изучения некоторых разделов компьютерной телефонии. // «Телекоммуникации», М: 2000 №5.-с. 2-5.

123. Шалимов И.А. Модели параметрического кодирования речи // «Вестник связи», М: 2005 № 10. с. 78-84.

124. Шалимов И. А. Модификация алгоритма LPC-LTP-MPE. // Перспективные технологии в средствах передачи информации / Материалы III международной НТК, Владимир 1999. Владимир: ВлГУ 1999.-с. 199-202.

125. Шалимов И.А. Модификация кодера речи с многоимпульсным возбуждением // Электросвязь. 2002. № 12. С. 45-46.

126. Шалимов И.А. Некоторые вопросы методологии дистанционного образования в области цифровой обработки речи. // «Информационные технологии», М: 2000 № 5- с. 52-54.

127. Шалимов И.А. Передача речи с переменной скоростью // Телекоммуникации. 2001. № 1. С. 13-17.

128. Шалимов И.А. Сборник лабораторных работ по курсу «Цифровая телефония». Учебно-методическое пособие. М: Типография в/ч 33965,1997 С. 76.

129. Шалимов И.А. Сегментно-аппроксимационная и сегментно-трансформационная модели параметрического кодирования речи. // Перспективные технологии в средствах передачи информации / Материалы VI международной НТК, ВлГУ 2005. Владимир: РОСТ, 2005.-с. 282-284.

130. Шалимов И.А. Снижение объема параметрического описания речи // «Вестник связи», М: 1999 №8. с. 32.

131. Шалимов И.А. Снижение скорости вокодерной передачи. // «Обработка сигналов в системах телефонной связи». Восьмая межрегиональная конференция. Тезисы докладов. Москва-Пушкинские горы, 1998, - с. 105-108.

132. Шалимов И.А. Снижение скорости передачи речи в алгоритме LPC-LTP-MPE. // «Вестник ИКСИ», серия «Р», № 2 (16), М: Академия ФСБ РФ, 1999.-е. 195-201.

133. Шалимов И.А. Современные методы передачи речи. Курс лекций. М: Типография Академии ФСБ РФ, 2000, -132 с.

134. Шалимов И.А., Быков С.Ф. Передача речи в современных сетях связи. // «Специальная техника», М: 2000 № 6. с. 20-25.

135. Шалимов И.А., Журавлев В.И. Методы передачи речи по сетям связи. // Телекоммуникации М: 2002 № 4. с. 13 24.

136. Шалимов И.А., Силкин О.В. Кодирование речи на периоде основного тона. // Научно-техническое и информационное обеспечение деятельности спецслужб / Материалы IV межведомственной конференции, Том IV, Москва 2002. М: Академия ФСБ РФ, 2003. - с. 194-196.

137. Шелухин О.Н., Лукьянцев Н.Ф. Цифровая обработка и передача речи. М.: Радио и связь, 2000. - с. 456.

138. Шеннон К. Связь при наличии шума. В сборнике переводов: Теория информации и ее приложения. Под ред. А.А. Харкевича. М.: Гос. Изд. Физико-математической литературы, 1959. - с. 328.