автореферат диссертации по радиотехнике и связи, 05.12.13, диссертация на тему:Исследование и разработка методов обработки речевых сигналов с использованием векторного квантования в системах информационного обмена

кандидата технических наук
Фабричный, Сергей Юрьевич
город
Владимир
год
2003
специальность ВАК РФ
05.12.13
Диссертация по радиотехнике и связи на тему «Исследование и разработка методов обработки речевых сигналов с использованием векторного квантования в системах информационного обмена»

Автореферат диссертации по теме "Исследование и разработка методов обработки речевых сигналов с использованием векторного квантования в системах информационного обмена"

На правах рукописи

I ФАБРИЧНЫЙ СЕРГЕЙ ЮРЬЕВИЧ

I

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ С ИСПОЛЬЗОВАНИЕМ ВЕКТОРНОГО КВАНТОВАНИЯ В СИСТЕМАХ ИНФОРМАЦИОННОГО ОБМЕНА

I

(

05.12.13 - Системы, сети и устройства телекоммуникаций

Автореферат <г

диссертации на соискание учёной степени кандидата технических наук

Владимир 2003

Работа выполнена на кафедре «Радиотехника» Муромского института (филиала) Владимирского государственного университета

Научный руководитель:

доктор технических наук, профессор, лауреат премии Международной академической издательской компании «Наука-Интерпериодика» Костров Виктор Васильевич

Официальные оппоненты:

доктор технических наук, доцент Кошелев Виталий Иванович

кандидат технических наук, доцент Левин Евгений Калманович

Ведущая организация:

КБ «Радиосвязь», г. Владимир

Защита состоится «54 » 40 2003 года в час. на заседании диссертационного Совета Д212.025.04 при Владимирском государственном университете по адресу: 600000, г. Владимир, ул. Горького, 87, ауд. 211, корпус 1.

С диссертацией можно ознакомиться в библиотеке Владимирского государственного университета.

Автореферат разослан 2003 г.

Ученый секретарь

диссертационного Совета Д212.025.04 доктор технических наук, профессор А.Г. Самойлов

-3-

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Динамика развития систем информационного обмена, систем и сетей телекоммуникаций показывает, что возрастает потребность в передаче речевых сигналов (РС) в реальном масштабе времени. Пропускная способность подавляющего большинства каналов передачи информации является недостаточной, что обуславливает необходимость обработки исходного РС с целью его сжатия.

Загруженность каналов связи, интенсивно увеличивающееся число пользователей систем информационного обмена, особенно систем мобильной связи, и постоянно возрастающие требования к качественным характеристикам систем приводят к необходимости исследования потенциальных возможностей существующих методов и разработки новых методов сжатия речевых сигналов.

Широкий спектр задач, возникающих при кодировании информации, содержащейся в РС, стимулировал появление разнообразных теоретических методов и подходов, среди которых наиболее эффективным показал себя метод идентификации параметров РС: огибающей спектра (ГТОС) и функции возбуждения (ПФВ) методом линейного предсказания. Этот вопрос исследовался Б.С. Аталом, М.Р. Шредером, Л.Р. Рабинером, Р.В. Шафером, Дж.Д. Маркелом, А.Х. Греем. Большой вклад в развитие методов оценивания параметров речевых сигналов внесли М.В. Назаров, Ю.Н. Прохоров, Е.П. Пономарев, Г.А. Коротаев.

Невозможность повышения степени сжатия информации в РС при сохранении необходимого уровня показателей качества ниже битовых скоростей передачи 4,8 - 9,6 килобит в секунду в рамках теории линейного кодирования привело к активному развитию методов блочного или векторного квантования параметров представления РС. Этот вопрос исследовался И. Линдом, А. Бузо, Р.М. Греем, Дж. Макхоулом, Г. Гишем, А. Гершо, а также рядом исследователей в Японии, Китае и Корее.

Основной темой исследований являлось создание параметрической модели представления функции возбуждения, что позволило получить высокий уровень естественности синтезированного речевого сигнала. Однако работы по исследованию характеристик векторных квантователей не прекращались. Дальнейшее развитие этого направления, которому посвятили свои труды М.О. Дунхам, Р.М. Грей, а также другие исследователи, расширило область приложения автоматов с конечным числом состояний к различным задачам обработки речевых сигналов и привело к созданию алгоритмов г.иггл^има ^ш-ишш

РОС. национальная!

БИБЛИОТЕКА 1 С. Петербург Д

РЭ Ш^ьжгРбУ^

числом состояний (ВККЧС). Однако достаточно полный анализ работы таких алгоритмов практически отсутствует.

Подключение к системам информационного обмена, системам и сетям телекоммуникаций традиционных средств передачи информации систем мобильной связи и цифровых систем передачи данных приводит к увеличению требований по компактности представления информации. Это приводит к увеличению требований к эффективности сжатия РС в речепреобразующих устройствах (РПУ). Повысить коэффициент сжатия РС в РПУ позволяют методы, основанные на использовании параметров функции возбуждения в качестве управляющих при векторном квантовании спектральных параметров РС. Необходимость обеспечения реального масштаба времени при кодировании и векторном квантовании РС накладывает жесткие требования по быстродействию на микропроцессорные устройства в составе РПУ. Однако разработке методов снижения вычислительных затрат при векторном квантовании ПОС и быстрых алгоритмов поиска эталонного вектора в последнее десятилетие уделяется недостаточное внимание.

Использование в качестве управляющих сигналов параметров функции возбуждения при векторном квантовании позволяет более точно описывать долговременные корреляционные зависимости в РС, и повысить коэффициент сжатия. Построение систем кодирования речевого сигнала, имеющих в составе векторные квантователи с управлением параметрами функции возбуждения (ФВ), анализ их работы являются актуальными задачами, так как решение подобных задач позволяет реализовать в реальном масшгабе времени РПУ с высокими показателями качества синтезированного РС без увеличения битовой скорости передачи.

Цель диссертационной работы заключается в разработке и исследовании методов обработки речевого сигнала с использованием параметров фуйкции возбуждения в качестве управляющих сигналов векторных квантователей в составе кодирующих систем с низкой битовой скоростью передачи для повышения качества синтезированного речевого сигнала.

Для достижения поставленной цели предполагается решение следующих задач:

1. Исследование эффективности использования параметров функции возбуждения в качестве управляющих сигналов при векторном квантовании речевых сигналов;

2. Разработка способа обработки речевых сигналов, основанного на векторном квантовании с использованием параметров функции возбуждения в качестве управляющих;

3. Синтез структурных схем устройств, реализующих теоретические концепции векторного квантования, и проведение анализа качества их работы;

4. Исследование и разработка алгоритмов построения структурированных кодовых книг векторных квантователей, обеспечивающих снижение уровня вычислительных затрат на процедуру векторного квантования;

5. Разработка пакета программ для анализа характеристик разработанных алгоритмов векторного квантования речевых сигналов;

6. Оценивание вычислительных затрат, необходимого объема памяти и проведение анализа средств, реализующих процедуру векторного квантования РС в реальном масштабе времени при различных вариантах реализации.

Методы исследования. При проведении исследований в диссертационной работе использовались математический аппарат теории случайных процессов, методы функционального анализа и математической статистики, теории статистических решений, а также методы локальной оптимизации в многомерных пространствах. Анализ полученных решений проводился с использованием методов вычислительной математики и статистического моделирования на ЭВМ.

Научная новизна. В рамках диссертации были получены следующие новые научные результаты.

1. Показана возможность использования параметров функции возбуждения в качестве управляющего сигнала при векторном квантовании речевых сигналов.

2. Разработан и исследован способ кодирования речевого сигнала на основе векторного квантования с конечным числом состояний спектральных параметров с использованием параметров функции возбуждения в качестве управляющих.

3. Модернизирован метод определения совокупности эталонных векторов путем нахождения локального оптимального разделения на кластеры в многомерном пространстве.

4. Разработан алгоритм поиска эталонного кодового вектора на основе инвариантного относительно метрики преобразования входного вектора и эталонов.

5. Проведено моделирование различных вариантов построения векторных квантователей РС на ЭВМ и оценена их эффективность.

Достоверность научных положений, полученных результатов и выводов базируется на применении адекватного математического аппарата и подтверждается результатами моделирования на ЭВМ и экспериментальными акустическими тестами предпочтения.

Практическая ценность полученных результатов заключается в следующем:

1. Определен параметр функции возбуждения, являющийся наиболее эффективным с точки зрения использования в качестве управляющего сигнала векторного квантователя;

2. Предложены и исследованы способы построения векторных квантователей РС, а также векторных квантователей РС с конечным числом состояний с управлением сигналом тон-шум;

3. Разработаны структурные схемы речепреобразующих устройств и векторных квантователей, реализующие предложенные способы обработки РС;

4. Разработан и исследован алгоритм построения структурированных кодовых книг векторных квантователей сигналов, а также произведена оценка снижения вычислительных затрат на процедуру векторного квантования РС;

5. Разработан и исследован быстрый алгоритм классификации эталонного кодового вектора в структурированной кодовой книге векторного квантователя, произведена оценка снижения вычислительных затрат,

6. Разработан пакет программ, позволяющий провести сравнительный анализ показателей качества различных структур векторных квантователей и эффективности предложенных способов.

На защиту выносятся результаты теоретических и экспериментальных исследований:

1. Способ построения векторных квантователей РС, а также векторных квантователей РС с конечным числом состояний с управлением сигналом тон-шум, позволяющий снизить ошибки квантования ПОС;

2. Алгоритм построения структурированных кодовых книг векторных квантователей ПОС, снижающий вычислительные затраты при определении эталонных векторов кодовой книги векторного квантователя;

3. Алгоритм классификации эталонного кодового вектора в структурированной кодовой книге векторного квантователя, обеспечивающий снижение вычислительных затрат в процессе векторного квантования ПОС в реальном масштабе времени;

4. Результаты анализа различных способов построения векторных квантователей PC.

Внедрение результатов. Результаты диссертационной работы внедрены в ОКР ОАО «Муромский завод РИП», ОАО «НПП «Звукотех-ника», а также в учебный процесс Муромского института (филиала) ВлГУ. Исследования и практические разработки по теме диссертации были использованы при выполнении госбюджетной НИР «Исследование и разработка методов и аппаратуры обработки сигналов» (19952000 гг., № гос. per. 01910036569).

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на Всероссийской научно-технической конференции «Новые информационные технологии. Информационное, программное и аппаратное обеспечение» (Таганрог, 1995); Международной научно-технической конференции «Актуальные проблемы анализа и обеспечения надежности и качества приборов, устройств и систем» (Пенза, 1996); Международной научно-технической конференции «Направления развития систем и средств связи» (Воронеж, 1996); Международной научно-технической конференции «Актуальные проблемы анализа и обеспечения надежности и качества приборов, устройств и систем» (Пенза, 1997); Молодежной научно-технической конференции «XXIII Гагаринские чтения» (Москва, 1997); Международной научно-технической конференции «К.Э.Циолковский -140 лет со дня рождения. Космонавтика. Радиоэлектроника. Геоинформатика» (Рязань, 1997); II Международной научно-технической конференции «Перспективные технологии в средствах передачи информации» (Владимир, 1997); научно-технической конференции студентов и аспирантов вузов России «Радиотехника и электроника в народном хозяйстве» (Москва, 1998); Молодежной международной научно-технической конференции «XXIV Гагаринские чтения» (Москва, 1998); Молодежной международной научно-технической конференции «XXVI Гагаринские чтения» (Москва, 2000); на конференциях Муромского института Владимирского государственного университета и научных семинарах кафедры радиотехники МИ ВлГУ (1995 - 2000 гг.).

Публикации. По теме диссертации опубликовано 19 печатных работ, включая 7 статей, 4 доклада, 7 тезисов докладов и 1 патент РФ. Часть материалов изложена в научно-технических отчетах по НИР.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка используемой литературы и приложений. Общий объем работы составляет 127 страниц машинописного текста. Диссертация содержит 34 рисунка и 4 таблицы. Библиография

содержит 85 наименований, в том числе 19 работ автора. В приложении представлены документы, подтверждающие внедрение результатов работы и перечень разработанных программ.

СОДЕРЖАНИЕ РАБОТЫ

Во введении дается краткая характеристика работы, заключающаяся в исследовании существующих и разработке новых методов кодирования речевых сигналов. Обосновывается актуальность работы, формулируются цель и задачи проводимых исследований. Определяется научная новизна и практическая ценность полученных результатов, а также обосновывается структура диссертации.

В первой главе приведен анализ подходов при построении рече-преобразующих устройств с низкой битовой скоростью передачи, включающих в себя кодер с линейным предсказанием и векторный квантователь параметров представления речевых сигналов. Обобщенная структурная схема системы связи с использованием РПУ приведена на рисунке 1. Здесь и далее: КЛП и ДКЛП - кодер и декодер с линейным предсказанием, ВК и ВДК - векторный квантователь и деквантователь, S{t) - речевой сигнал, а - вектор параметров огибающей спектра, с - битовый канальный символ, Fv - вектор параметров функции возбуждения. Звездочкой отмечены параметры с выхода линий связи и определенные на их основе сигналы. Проведен сравнительный анализ • различных представлений ПОС с точки зрения применимости к процедуре векторного квантования. На основании анализа выбраны два представления ПОС: коэффициенты отражения и линейные спектральные пары. Определенны направления развития векторного квантования параметров линейного предсказания речевого сигнала. Рассмотрены аспекты построения векторных квантователей речевых сигналов.

Рисунок 1

Во второй главе проводится анализ РПУ на базе векторных квантователей с использованием параметра функции возбуждения в качестве управляющего. Обоснованы предпосылки использования параметров функции возбуждения в качестве управляющих сигналов и выбор сигнала тон-шум в качестве управляющего.

Разработаны различные структуры ВК с управлением сигналом тон-шум, и проведен сравнительный анализ их показателей качества.

Разработан способ преобразования речи на основе векторного квантователя с конечным числом состояний (ВККЧС). Предлагаемый способ преобразования речевого сигнала осуществляют следующим образом. В процедуры векторного квантования и векторного декванто-вания в качестве управляющего параметра вводят значение сигнала тон-шум - Т/Ш и T/III соответственно. Таким образом, процедуры векторного квантования и векторного деквантования имеют вид c = ä(a,S„,TIw) и а" = Д(с*,5*,Т/Ш*) соответственно. Кроме того, функция следующего состояния приобретает вид: = fcc(Sn,c,Tllll) и 5*+1 = /„.(s'.c'.T/IH*) для процедуры векторного квантования и процедуры векторного деквантования соответственно, где а — процедура векторного квантования;

а - вектор параметров огибающей спектра речевого сигнала; S„ - номер текущего состояния векторного квантования, 5=1,2,..., iV;

N - число состояний; п - номер рассматриваемого кадра; Т/Ш - сигнал тон/шум при векторном квантовании; с - канальный символ на входе линии связи; ß - процедура векторного деквантования; с - канальный символ на выходе линии связи; S'„ — номер текущего состояния векторного деквантования: а' - вектор восстановления параметров огибающей речевого сигнала;

Т/Ш* - сигнал тон/шум при векторном деквантовании; fcc ~ Функция следующего состояния векторных квантователя и деквантователя;

S„-1 — номер следующего состояния векторного квантователя; S*„-1 - номер следующего состояния векторного деквантователя. Использование сигнала тон-шум в качестве дополнительного управляющего параметра при векторном квантовании и деквантовании позволяет разделить множество эталонных кодовых векторов восстановления для вокализованных и невокализованных фрагментов

речевого сигнала, что обеспечивает возможность вдвое увеличить общее количество эталонных кодовых векторов восстановления без увеличения битовой скорости передачи. Это позволяет приблизить показатели качества РПУ к показателям качества более высокоскоростных кодеров, например, РБ 1016. Использование сигнала тон-шум в качестве дополнительного управляющего параметра в функции следующего состояния позволяет разделить фонемные переходы с вокализованного и фонемные переходы с невокализованного фрагментов речевого сигнала, что позволяет более точно описать последовательности фонемных переходов речевого сигнала.

На основе данного принципа разработана структурная схема ВККЧС, приведенная на рисунке 2. Данная структура является автоматом с конечным числом состояний, каждое из которых характеризуется использованием соответствующего векторного квантователя состояния (ВКС), имеющего в своем составе соответствующие кодовые книги. Организация потока данных осуществляется двумя решающими устройствами (РУК 1 и РУК 2), на которые подается сигнал номера текущего состояния Номер текущего состояния вырабатывается в блоке определения номера следующего состояния (БОС) на основе значений сигнала 5„, канального символа с, и значения сигнала тон-шум с последующей задержкой на длительность кадра (в блоке Т) для синхронизации потока данных.

Рисунок 2

Структурная схема г'-го векторного квантователя состояния приведена на рисунке 3. Векторный квантователь состояний содержит два векторных квантователя для вокализованных и невокапизованных эталонов векторов параметров огибающей спектра ВКВ и ВКНВ соответственно. Организация потока данных осуществляется двумя решающими устройствами (РУКС 1 и РУКС 2) под управлением сигналом тон-шум. Решающее устройство РУКС 2 в зависимости от значения сигнала тон-шум передает на выход либо канальный символ с выхода ВКВ, либо символ енв с выхода ВКНВ.

Т/Ш

Рисунок 3

Методика синтеза ВККЧС с управлением сигналом тон-шум состоит из двух этапов: итерационная процедура построения кодовых

книг векторных квантователей состояний и определение меток переходов состояний для блока памяти БОС в процессе итерационного стохастического алгоритма.

Проведен сравнительный анализ показателей качества синтезированного речевого сигнала, необходимых для осуществления способа в реальном масштабе времени, вычислительных затрат, требований к объему памяти и вычислительных затрат на построение ВК.

Характеристики искажений, вносимых процедурой векторного квантования, в зависимости от скорости кодирования Л бит на параметр приведены на рисунке 4. Значение СКО нормировано к ВК ЛБГ при Я = 0,7 бит на параметр, что при размерности вектора ПОС равным 10 соответствует кодовой книге размерностью 128 эталонных векторов. Кривая 1 соответствует классическому ВК Линда-Бузо-Грея (ЛБГ), кривая 2 - ВККЧС с управлением сигналом тон-шум с пятью состояниями. Выигрыш при использовании ВККЧС с управлением сигналом тон-шум с пятью состояниями составляет 6 дБ в диапазоне скоростей 0,7...1,1 бит на параметр. Вычислительные затраты на реализацию ВККЧС в реальном масштабе времени превышают ВК ЛБГ на 2...3 %, а затраты на память возрастают в 5,5 раз, так при Я = 1,0 бит на параметр они составляют 113,5 кбайт. Вычислительные затраты на построение ВККЧС по сравнению с ВК ЛБГ увеличиваются в 24. ..30 раз.

В третьей главе проведены исследования методов построения кодовых книг (КК) векторных квантователей. Исследовано влияние модуля вектора разделения на величину искажений, вносимых кодовой книгой, а также на скорость сходимости итерационного алгоритма формирования кодовой книги.

Проведена модернизация классического алгоритма формирования кодовой книги Линда-Бузо-Грея (ЛБГ). Алгоритм ЛБГ имеет, по крайней мере, два существенных недостатка. Во-первых, вносимые различными кластерами ошибки квантования, обладают различным уровнем величины дисперсии. Причиной этого служит использование метода равномерной дихотомии при разделении обучающей последовательности на кластеры. Во-вторых, требуется большое время на обучение и построение кодовой книги. При формировании начальной кодовой книги задается вектор разделения эталонных кодовых векторов е с фиксированной длиной. Выбор длины вектора е осуществляется на основании компромисса между двумя противоречивыми требованиями. Выбор маленького значения длины вектора г. приводит к увеличению количества итераций, необходимых для достижения требуемого уровня сходимости алгоритма. При большом значении длины вектора ё векторы у, + е или у,- £, а то и оба могут оказаться принадлежащими другому кластеру, что приводит к неоптимальному разделению множества обучающих векторов и ухудшению характеристик итоговой кодовой книги.

Таким образом, в процессе разделения обучающей последовательности на 2, 4, 8, 16, 32 и так далее до 2я, где В - целое число кластеров, величину вектора разделения можно трактовать как изменяющуюся от-

носительно среднего значения размеров кластеров от слишком маленькой до слишком большой относительно размера кластера.

Предложено применение «скользящего» относительно размера кластера вектора разделения. Модернизированный алгоритм, адаптированный к цифровой реализации, имеет следующий вид

Итерационный алгоритм нахождения эталонов

1. Инициализация:

Задаются величины: Lr; £ > 0; p;n;D' = со, где Aj- - заданное количество эталонных векторов, е - точность сходимости алгоритма, р - размерность векторов,

п - количество векторов обучающей последовательности. Формируются: X = {*(/),1 < /" < п}, Sp = {^(i), 1 < / < п}, Y0 = {y„l<i<Lr},

где X - множество векторов обучающей последовательности; Sp — множество признаков принадлежности вектора к кластеру, то есть если s'' (г) = к, то г-ый вектор из обучающей последовательности принадлежит к к-щ кластеру; ГУ - среднее значение искажений на предыдущем шаге итерационного процесса разделения кластера; Y0 - начальная кодовая книга.

2. Задание начальных значений: /= 1,М=0,£> = 0.

3. Разделение множества векторов обучающей последовательности на кластеры

х, е Sj, если d(x,;уj)< d(x,;ук)для всех к,

Sp(i)=j, D = D + d{x„y]).

4. Если / < LT, то / = /+1 и идти к пункту 3.

5. D = D/n.

6. Если \D'-D<e\, то остановка с Y = YM.

7. М = М +1, затем определение центроидов кластеров, являющихся векторами кодовой книги: у, =centr(S,), например у, =(3?^, | xeS,)

для всех /, если в качестве меры расстояния выбрана средняя или среднеквадратическая ошибка

YM={y,; 1 <i<LT). Перед запуском алгоритма проводится определение начального разделения Y0.

Определение У0

1 ,М= 1.

Формируется кодовая книга ЦМ)= сепф'0) = {у„\<1<М}.

2. Увеличение вдвое количества кластеров М = Мх2.

Производится формирование новой начальной кодовой книги с удвоенным количеством эталонных кодовых векторов

Цм)={у1+£„ у,-в„ 1 <1<м],

где для среднеквадратической ошибки

= к " -£,Р I £.1 =£,2 ='" • = ЩР ■

3. Запуск итерационного алгоритма нахождения эталонов с Г0=Г0(М).

4. Если М <Ь7, то идти к пункту 2.

5. Остановка с У0 = (м).

Проведено исследование показателей качества векторных квантователей с кодовыми книгами, построенными различными способами. Показано, что при использовании «скользящего» вектора разделения СКО уменьшается на величину от 0,25 до 0,9 дБ, а количество итераций, необходимых для сходимости алгоритма, снижается на 7... 16 % в диапазоне скоростей квантования от 0,7 до 1,1 бит/параметр.

Рисунок 5:

Ь - вектор порогов классификации, Vе и - текущая пара &-го и £+1-го векторов в дихотомической структуре кодовой книги

Разработан метод быстрого поиска эталонного вектора на основе инвариантных относительно метрики преобразованиях в структурированных кодовых книгах. Основной вклад в вычислительные затраты при векторном квантовании параметров огибающей спектра вносит вычисление меры расстояния между входным и эталонными векторами кодовой книги для определения номера ближайшего эталонного вектора. Так как величина расстояния сама по себе не нужна и нигде не используется, то этот факт послужил отправной точкой при разработке метода классификации эталонного вектора итерационной последовательной процедурой. Все вектора при практической реализации представлены в целочисленных форматах. Классификация производится последовательно в пространстве значащих разрядов. При этом после анализа каждого разряда принимается решение о классификации на основании сравнения полученных результатов с порогом. Структурная схема классификатора приведена на рисунке 5.

Таким образом, снижается количество бит, необходимых для классификации входного вектора, что приводит к снижению вычислительных затрат при поиске эталонного вектора.

Предлагаемый алгоритм по сравнению с поиском по методу полного перебора кодовой книги требует постоянного запоминающего устройства (ПЗУ) большей емкости. Однако требуемая емкость ПЗУ увеличивается не более чем на 3 %, а емкость ОЗУ возрастает примерно на 10 %. Время поиска кодового вектора уменьшается в у = 2,5 раза при вероятности правильного определения роп = 1. При снижении уровня вероятности правильного обнаружения роп величина у увеличивается, например прироп = 0,93 у = 3,65.

В четвертой главе проведена оценка необходимого объема памяти и вычислительных затрат при различных вариантах построения ВК, а также временных затрат при построении векторных квантователей.

Зависимость требуемого объема памяти для реализации векторных квантователей от скорости кодирования бит на параметр приведена на рисунке 6. Зависимость 1 соответствует векторному квантователю ЛБГ, 2 - векторному Квантователю, структурированному по методу неравномерной дихотомии, 3 - ВККЧС с пятью состояниями, 4 -ВККЧС с пятью состояниями с управлением сигналом тон-шум. Для реализации векторных квантователей на скорости 1,1 бит/параметр для хранения кодовых книг для обычного ВК ЛБГ требуется 20,48" кбайт ПЗУ, для структурирования кодовой книги по методу дихотомии - 44,0 кбайт, для ВККЧС с пятью состояниями - 225,28 кбайт, а для ВККЧС с управлением сигналом тон-шум - 450,56 кбайт.

Время построения векторных квантователей зависит от типа используемой вычислительной техники, быстродействия ее составных частей (ОЗУ, ПЗУ, микропроцессора) и для ВК ЛБГ (вариант 1) и ЭВМ на базе Intel Pentium 200 МГц, 64 Мб ОЗУ и дисковым накопителем Quantum 4,6 Гб составляет 138,5 часов, для векторного квантователя, структурированного по методе неравномерной дихотомии (вариант 2) - 117,7 часа, для ВККЧС с пятью состояниями (вариант 3) - 1204,5 часа, для ВККЧС с пятью состояниями с управлением сигналом тон-шум (вариант 4) - 2396 часов.

В заключении сформулированы основные результаты диссертационной работы:

1. Показана целесообразность использования параметров функции возбуждения в качестве управляющих сигналов при векторном квантовании речевых сигналов.

2. Разработанный способ обработки речевых сигналов, основанный на векторном квантовании с использованием параметров функции возбуждения в качестве управляющих позволяет получить более высокие показатели качества без увеличения битовой скорости передачи, либо снизить битовую скорость передачи при сохранении на том же уровне показателей качества синтезированного речевого сигнала. Векторный квантователь с управлением сигналом тон-шум имеет на 3,91 дБ меньшее значение вносимой среднеквадратической ошибки при скорости кодирования 1,1 бит на параметр, чем обычный векторный квантователь. ВККЧС с пятью состояниями с управлением сигналом тон-шум имеет на 1,04 дБ меньшее значение вносимой среднеквадратической ошибки при скорости кодирования 1,1 бит на параметр, чем обычный ВККЧС с пятью состояниями.

3. Исследованы и разработаны алгоритмы построения структурированных кодовых книг векторных квантователей, обеспечивающие снижение уровня вычислительных затрат на процедуру векторного квантования.

Рисунок 6

4. Модернизирован метод определения совокупности эталонных векторов путем нахождения локального оптимального разделения на кластеры в многомерном пространстве методом «скользящего» относительно размеров кластера вектора разделения при дихотомическом разделении обучающей последовательности. Применение скользящего вектора разделения позволяет получить выигрыш в диапазоне битовых скоростей передачи от 0,7 до 1,1 бита на параметр на уровне 0,35 дБ.

5. Разработан метод поиска эталонного кодового вектора на основе инвариантных относительно метрики преобразованиях входного вектора и эталонов. Время поиска кодового вектора уменьшается в 2,5 раза при вероятности правильного определения эталонного вектора роп= 1, а при снижении вероятности р0„ до 0,93 у увеличивается до 3,65.

Публикации по теме диссертации

1. Фабричный С.Ю. Гомоморфная обработка речевых сигналов // Новые информационные технологии. Информационное, программное и аппаратное обеспечение: Тез. докл. Всерос. НТК студентов и аспирантов. - Таганрог: ТГРТУ, 1995. - С. 196. / Соавт. Костров В.В.

2. Фабричный С.Ю. Быстрый алгоритм поиска при векторном квантовании речевых сигналов // Обработка сложных сигналов с применением цифровых устройств и функциональной электроники: Межвуз. сб. науч. тр. - Рязань: РГРТА, 1996. - С. 10-15.

3. Фабричный С.Ю. Векторное квантование речевого сигнала с уменьшенным поиском кодового вектора И Актуальные проблемы анализа и обеспечения надежности и качества приборов, устройств и систем: Сб. докл. междунар. НТК. 4.1. - Пенза, 1996. - С. 89-92. / Соавт. Костров В.В.

4. Фабричный С.Ю. Быстрый алгоритм поиска кодового вектора при векторном квантовании речевых сигналов // Направления развития систем и средств связи: Сб. докл. НТК. - Воронеж, 1996. - С. 864-870. / Соавт. Костров В.В.

5. Фабричный С.Ю. Исследование методов формирования начальной кодовой книги ЛБГ-алгоритма проектирования векторного квантователя // Актуальные проблемы анализа и обеспечения надежности и качества приборов, устройств и систем: Сб. докл. междунар. НТК / Под ред. A.M. Тартаковского, А.В. Блинова. - Пенза: Изд-во Пенз. гос. техн. ун-та, 1997. - С. 75-76. / Соавт. Костров В.В.

6. Фабричный С.Ю. Векторное квантование авторегрессионных параметров речевых сигналов // XXIII Гагаринские чтения: Тез. докл. Всерос. междунар. молодежной науч. конф. 8-12 апреля 1997 г. Ч.З. -М.: МАТИ-РГТУ, 1997.-С. 19-20.

7. Фабричный С.Ю. Показатели качества векторных квантователей с конечным числом состояний при обработке речевых сигналов // К.Э. Циолковский - 140 лет со дня рождения. Космонавтика. Радиоэлектроника. Геоинформатика.: Тез. докл. междунар. НТК.— Рязань: РГРТА, 1997. - С. 113-114. / Соавт. Костров В.В.

8. Фабричный С.Ю. Особенности построения векторных квантователей речевых сигналов // Научные труды муромских ученых: Сб. науч. тр. МИ ВлГУ. - Владимир: ВлГУ, 1997. - С.167-171.

/ Соавт. Костров В.В. ■

9. Фабричный С.Ю. Алгоритм снижения вычислительных затрат при векторном квантовании сигналов // Перспективные технологии в средствах передачи информации: Материалы докл. 2-ой междунар. НТК / Под ред. А.Г. Самойлова. — Гаврилов-Посад: Ин-т оценки земли, 1997. - С. 143-146. / Соавт. Костров В.В.

10.Фабричный С.Ю. Построение векторных квантователей по нескольким критериям // Радиоэлектроника и электроника в народном хозяйстве: Тез. докл. НТК студентов и аспирантов ВУЗов России. Т.1. -М.: МЭИ, 1998.-С. 58-59.

11. Фабричный С.Ю. Векторное квантование параметров нестационарных сигналов // XXIV Гагаринские чтения: Тез. докл. Всерос. междунар. молодежной науч. конф. - М.: МГАТУ, 1998. - С. 147. / Соавт. Назаров A.C.

12. Фабричный С.Ю. Применение неэвклидовых расстояний при эффективном кодировании нестационарных сигналов // Научные труды муромских ученых: Сб. науч. трудов Ми ВлГУ. - Владимир: ВлГУ, 1999.-С. 112-113. /Соавт. Костров В.В.

13. Фабричный С.Ю. Кодирование нестационарных сигналов при наличии межкадровых корреляционных связей // Научные труды муромских ученых: Сб. науч. тр. МИ ВлГУ. - Владимир: ВлГУ, 1999. — С. 125-127.

14. Фабричный С.Ю. Исследование ВККЧС с маркировкой переходов с учетом параметров функции возбуждения // XXVI Гагаринские чтения: Тез. докл. Всерос. междунар. молодежной науч. конф. Т.1. -М.: МГАТУ, 2000. - С. 290. / Соавт. Дубиневич Р.В.

15. Фабричный С.Ю. Исследование характеристик ВККЧС с быстрым поиском эталонов при учете параметров функции возбуждения // XXVI Гагаринские чтения: Тез. докл. Всерос. междунар. молодежной науч. конф. Т.1. - М.: МГАТУ, 2000. - С. 432. / Соавт. Зайцев Д.С.

16. Фабричный С.Ю. Построение структурированной кодовой книги векторного квантователя сигналов // Методы и устройства передачи

и обработки информации: Межвуз. сб. науч. тр. - СПб.: Гидрометео-издат, 2001. - С. 148-154. / Соавт. Костров В.В.

17. Фабричный СЮ Построение векторных квантователей речевых сигналов с управлением сигналом тон-шум // Методы и устройства передачи и обработки информации: Межвуз. сб. науч. тр. - СПб.: Гидрометеоиздат, 2001. - С. 155-156. / Соавт. Костров В.В.

18. Фабричный С.Ю Структура векторного квантователя речевых сигналов с конечным числом состояний с управлением сигналом тон-шум // Методы и устройства передачи и обработки информации: Межвуз. сб. науч. тр. - СПб.: Гидрометеоиздат, 2001. - С. 157-159.

/ Соавт. Костров В.В.

19. Патент № 2166804. РФ. МКИ 7 С 10 Ь 13/02. Способ преобразования речи и устройство для его осуществления / В.В. Костров, Ю.В. Дыранов, С.Ю. Фабричный; ОАО «НПП»Звукотехника»; Заявка № 99107178; 05.04.1999; Бюллетень изобретений. - 2001. - № 13.

На правах рукописи

ФАБРИЧНЫЙ СЕРГЕЙ ЮРЬЕВИЧ

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ С ИСПОЛЬЗОВАНИЕМ ВЕКТОРНОГО КВАНТОВАНИЯ В СИСТЕМАХ ИНФОРМАЦИОННОГО ОБМЕНА

Автореферат диссертации на соискание учёной степени кандидата технических наук

Подписано в печать 22.09.2003. Формат 60x84/16. Бумага для множит, техники. Гарнитура Times. Печать офсетная. Усл.печ. л. 1,16. Уч.-изд. л. 1,19.Тираж 100экз.Заказ№560. Муромский институт (филиал) Владимирского государственного университета Издательско-полиграфический центр Адрес: ул. 602264, Владимирская обл., г. Муром, ул. Орловская, 23

^lÏTÏS™

P147 18

Оглавление автор диссертации — кандидата технических наук Фабричный, Сергей Юрьевич

ВВЕДЕНИЕ.

1 НИЗКОСКОРОСТНЫЕ КОДИРУЮЩИЕ СИСТЕМЫ ДЛЯ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА 12 Вводные замечания

1.1 Структура и методы сокращения избыточности в низкоскоростных кодирующих систем речевого сигнала.

1.1.1 Кодеры с линейным предсказанием.

1.1.2 Векторные квантователи.'.

1.2 Направления развития применения векторного квантования параметров представления речевого сигнала.

Выводы.

2 УЧЕТ МЕЖКАДРОВЫХ ЗАВИСИМОСТЕЙ В РЕЧЕВОМ СИГНАЛЕ ПРИ ВЕКТОРНОМ КВАНТОВАНИИ.

2.1 Предпосылки использования параметров функции возбуждения в качестве управляющих сигналов.

2.2 Разработка способа обработки речевого сигнала на основе векторного квантования с управлением сигналом тон/шум.

2.2.1 Разработка векторных квантователей речевых сигналов с управлением сигналом тон-шум.

2.2.2 Разработка векторных квантователей с конечным числом состояний речевых сигналов с управлением сигналом тон-шум.

2.2.3 Разработка алгоритма построения векторного квантователя с конечным числом состояний с управлением сигналом тон-шум.

2.2.4 Алгоритм построения функции следующего состояния

2.3 Моделирование.

Выводы.

3 ИССЛЕДОВАНИЕ И РАЗРАБОТКА ВЕКТОРНОГО

КВАНТОВАТЕЛЯ НИЗКОСКОРОСТНОЙ КОДИРУЮЩЕЙ СИСТЕМЫ РЕЧЕВОГО СИГНАЛА.

3.1 Влияние модуля вектора разделения на формирование кодовой книги.

3.2 Формирование кодовых книг векторных квантователей и исследование характеристик.

3.3 Разработка быстрого алгоритма поиска эталонного вектора на основе инвариантных относительно метрики преобразованиях и исследование характеристик.

Выводы.

4 ОЦЕНКА ВЫЧИСЛИТЕЛЬНЫХ ЗАТРАТ И ТРЕБОВАНИЙ К ПАМЯТИ ПРИ ПОСТРОЕНИИ ВЕКТОРНЫХ КВАНТОВАТЕЛЕЙ РЕЧЕВЫХ СИГНАЛОВ.

4.1 Оценка затрат на память при построении ВК.

4.2 Оценка вычислительных затрат при построении ВК.

4.3 Оценка затрат на память при реализации ВК

Выводы.

Введение 2003 год, диссертация по радиотехнике и связи, Фабричный, Сергей Юрьевич

Актуальность темы. Динамика развития систем информационного обмена, систем и сетей телекоммуникаций показывает, что возрастает потребность в передаче речевых сигналов (PC) в реальном масштабе времени. Пропускная способность подавляющего большинства каналов передачи информации является недостаточной, что обуславливает необходимость обработки исходного PC с целью его сжатия.

Загруженность каналов связи, интенсивно увеличивающееся число пользователей систем информационного обмена, особенно систем мобильной связи, и постоянно возрастающие требования к качественным характеристикам систем приводят к необходимости исследования потенциальных возможностей существующих и разработки новых методов сжатия речевых сигналов.

Широкий спектр задач, возникающих при кодировании информации, содержащейся в PC стимулировал появление разнообразных теоретических методов и подходов, среди которых наиболее эффективным показал себя метод идентификации параметров PC: огибающей спектра (ПОС) и функции возбуждения (ПФВ) методом линейного предсказания. Этот вопрос исследовался Б.С. Аталом, М.Р. Шредером, JI.P. Рабинером, Р.В. Шафером, Дж.Д. Маркелом, А.Х. Греем. Большой вклад в развитие методов оценивания параметров речевых сигналов внесли М.В. Назаров, Ю.Н. Прохоров, Е.П. Пономарев, Г.А. Коротаев.

Невозможность повышения степени сжатия информации в PC при сохранении необходимого уровня показателей качества ниже битовых скоростей передачи порядка 4,8 - 9,6 килобит/секунду в рамках теории линейного кодирования привело к активному развитию методов блочного, или векторного квантования параметров представления PC. Этот вопрос исследовался И. Линдом, А. Бузо, P.M. Греем, Дж. Макхоулом, Г. Гишем, А. Гершо, а также рядом исследователей в Японии, Китае и Корее.

Основной темой исследований являлось создание параметрической модели представления функции возбуждения, что позволило получить высокий уровень естественности синтезированного речевого сигнала. Однако работы по исследованию характеристик векторных квантователей не прекращались. Дальнейшее развитие этого направления, которому посвятили свои труды М.О. Дунхам, P.M. Грей а также другие исследователи, расширило область приложения автоматов с конечным числом состояний к различным задачам обработки речевых сигналов и привело к созданию алгоритмов векторного квантования с конечным числом состояний (ВККЧС). Однако достаточно полный анализ работы таких алгоритмов практически отсутствует.

Подключение к системам информационного обмена традиционных средств передачи информации, систем мобильной связи и цифровых систем передачи данных приводит к увеличению требований по компактности представления информации. Это приводит к увеличению требований к эффективности сжатия PC в речепреобразующих устройствах (РПУ). Повысить коэффициент сжатия PC в РПУ позволяют методы, основанные на использовании параметров функции возбуждения в качестве управляющих при векторном квантовании спектральных параметров PC. Необходимость обеспечения реального масштаба времени при кодировании и векторном квантовании PC накладывает жесткие требования по быстродействию на микропроцессорные устройства в составе РПУ. Однако, разработке методов снижения вычислительных затрат при векторном квантовании ПОС и быстрых алгоритмов поиска эталонного вектора в последнее десятилетие уделяется недостаточное внимание.

Использование в качестве управляющих сигналов параметров функции возбуждения при векторном квантовании позволяет более точно описывать долговременные корреляционные зависимости в PC и повысить коэффициент сжатия. Построение систем кодирования речевого сигнала, имеющих в составе векторные квантователи с управлением параметрами функции возбуждения (ФВ) анализ их работы, являются актуальными задачами, так как решение подобных задач позволяет реализовать в реальном масштабе времени РПУ с высокими показателями качества синтезированного PC без увеличения битовой скорости передачи.

Цель диссертационной работы заключается в разработке и исследовании методов обработки речевого сигнала с использованием параметров функции возбуждения в качестве управляющих сигналов векторных квантователей в составе кодирующих систем с низкой битовой скоростью передачи для повышения качества синтезированного речевого сигнала.

Для достижения поставленной цели предполагается решение следующих задач:

1. исследование эффективности использования параметров функции возбуждения в качестве управляющих сигналов при векторном квантовании речевых сигналов;

2. разработка способа обработки речевых сигналов, основанного на векторном квантовании с использованием параметров функции возбуждения в качестве управляющих;

3. синтез структурных схем устройств, реализующих теоретические концепции векторного квантования, и проведение их анализа;

4. исследование и разработка алгоритмов построения структурированных кодовых книг векторных квантователей, обеспечивающих снижение уровня вычислительных затрат на процедуру векторного квантования;

5. разработка пакета программ для анализа характеристик разработанных алгоритмов векторного квантования речевых сигналов;

6. оценивание вычислительных затрат, необходимого объема памяти и проведение анализа средств, реализующих процедуру векторного квантования PC в реальном масштабе времени при различных вариантах реализации.

Методы исследования. При проведении исследований в диссертационной работе использовались математический аппарат теории случайных процессов, методы функционального анализа и математической статистики, теории статистических решений, а также методы локальной оптимизации в многомерных пространствах. Анализ полученных решений проводился с использованием методов вычислительной математики и статистического моделирования на ЭВМ.

Научная новизна. В рамках диссертации были получены следующие новые научные результаты.

1. Показана возможность использования параметров функции возбуждения в качестве управляющего сигнала при векторном квантовании речевых сигналов.

2. Разработан и исследован способ кодирования речевого сигнала на основе векторного квантования с конечным числом состояний спектральных параметров с использованием параметров функции возбуждения в качестве управляющих.

3. Модернизирован метод определения совокупности эталонных векторов путем нахождения локального оптимального разделения на кластеры в многомерном пространстве.

4. Разработан алгоритм поиска эталонного кодового вектора на основе инвариантных относительно метрики преобразованиях входного вектора и эталонов.

5. Проведено моделирование различных вариантов построения векторных квантователей PC на ЭВМ и оценена их эффективность.

Достоверность научных положений, полученных результатов и выводов базируется на применении адекватного математического аппарата и подтверждается результатами моделирования на ЭВМ и акустическими тестами.

Практическая ценность полученных результатов заключается в следующем:

1. Определен параметр функции возбуждения, являющийся наиболее эффективным с точки зрения использования в качестве управляющего сигнала векторного квантователя.

2. Предложены и исследованы способы построения векторных квантователей PC, а также векторных квантователей PC с конечным числом состояний, с управлением сигналом тон/шум.

3. Разработаны структурные схемы речепреобразующих устройств и векторных квантователей, реализующие предложенные способы обработки PC.

3. Разработан и исследован алгоритм построения структурированных кодовых книг векторных квантователей сигналов, а также произведена оценка снижения вычислительных затрат на процедуру векторного квантования PC.

4. Разработан и исследован быстрый алгоритм классификации эталонного кодового вектора в структурированной кодовой книге векторного квантователя, произведена оценка снижения вычислительных затрат.

5. Разработан пакет программ, позволяющий провести сравнительный анализ показателей качества различных структур векторных квантователей и эффективности предложенных способов.

На защиту выносятся результаты теоретических и экспериментальных исследований:

1. Способ построения векторных квантователей PC, а также векторных квантователей PC с конечным числом состояний, с управлением сигналом тон/шум, позволяющий снизить ошибки квантования ПОС.

2. Алгоритм построения структурированных кодовых книг векторных квантователей ПОС, снижающий вычислительные затраты при определении эталонных векторов кодовой книги векторного квантователя.

3. Алгоритм классификации эталонного кодового вектора в структурированной кодовой книге векторного квантователя, обеспечивающий снижения вычислительных затрат в процессе векторного квантования ПОС в реальном масштабе времени.

4. Результаты анализа различных способов построения векторных квантователей PC.

Внедрение результатов. Результаты диссертационной работы внедрены в ОКР ОАО «Муромский завод РИП», ОАО «НПП «Звукотехника», а также в учебный процессе Муромского института (филиала) ВлГУ. Исследования и практические разработки по теме диссертации были использованы при выполнении госбюджетной НИР «Исследование и разработка методов и аппаратуры обработки сигналов» (1995-2000 гг., № гос. per. 01910036569).

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались следующих конференциях и семинарах:

1. Всероссийской научно-техническая конференции «Новые информационные технологии. Информационное, программное и аппаратное обеспечение» (Таганрог, 1995);

2. Международной научно-техническая конференции «Актуальные проблемы анализа и обеспечения надежности и качества приборов, устройств и систем» (Пенза, 1996);

3. Международной научно-технической конференции «Направления развития систем и средств связи» (Воронеж, 1996);

4. Международной научно-технической конференции «Актуальные проблемы анализа и обеспечения надежности и качества приборов, устройств и систем» (Пенза, 1997);

5. Молодежной научно-технической конференции «XXIII Гагарин-ские чтения» (Москва, 1997);

6. Международной научно-технической конференции «К.Э. Циолковский - 140 лет со дня рождения. Космонавтика. Радиоэлектроника. Геоинформатика» (Рязань, 1997);

7. II Международной научно-технической конференции «Перспективные технологии в средствах передачи информации» (Владимир, 1997);

8. Научно-технической конференции студентов и аспирантов вузов России «Радиотехника и электроника в народном хозяйстве» (Москва, 1998);

9. Молодежной международной научно-технической конференции «XXIV Гагаринские чтения» (Москва, 1998);

10. Молодежной международной научно-технической конференции «XXVI Гагаринские чтения» (Москва, 2000);

11. Конференциях Муромского института Владимирского государственного университета и научных семинарах кафедры радиотехники МИ ВлГУ (1995 -2003 г.г.).

Публикации. По теме диссертации опубликовано 19 печатных работ, включая 7 статей, 4 доклада, 7 тезисов докладов и 1 патент РФ. Часть материалов изложена в научно-технических отчетах по НИР.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и списка используемой литературы. Общий объем работы составляет 127 страниц машинописного текста. Диссертация содержит 34 рисунка и 4 таблицы. Библиография содержит 85 наименований, в том числе 19 работ автора. В приложении представлены документы, подтверждающие внедрение результатов работы и перечень разработанных программ.

Заключение диссертация на тему "Исследование и разработка методов обработки речевых сигналов с использованием векторного квантования в системах информационного обмена"

Основные результаты диссертационной работы:

1. Показана целесообразность использования параметров функции возбуждения в качестве управляющих сигналов при векторном квантовании речевых сигналов.

2. При переходе от обычного векторного квантователя к векторному квантователю с управлением сигналом тон-шум снижение средней величины ошибки квантования составляет 3,9 дБ в диапазоне скоростей от 0,7 до 1,1 бит на параметр, а при переходе от квантователя с управлением сигналом тон-шум к квантователю с управлением сигналом тон-шум текущего и предыдущего кадра выигрыш в средней величине ошибки квантования составил 1,6 дБ в диапазоне скоростей от 0,7 до 1,1 бит на параметр, несмотря на вдвое увеличившуюся сложность устройства. При построении систем связи среднего уровня качества целесообразно использовать векторный квантователь с управлением сигналом тон-шум, так как именно он обеспечит оптимальное соотношение качества и сложности реализации.

3. Выигрыш в средней величине ошибки квантования при использовании ВККЧС с пятью состояниями по сравнению с обычным ВК составляет 6,7.7,2 дБ в диапазоне скоростей 0,7-1,1 бит на параметр, а выигрыш при использовании разработанного ВККЧС с управлением сигналом тон-шум с пятью состояниями по сравнению с обычным ВК составляет 7,7.8,1 дБ в диапазоне скоростей 0,7—1,1 бит на параметр. Здесь также наблюдается снижение выигрыша с увеличением длительности учета межкадровых корреляционных зависимостей в речевом сигнале. Построение ВККЧС с управлением сигналом тон-шум текущего и предыдущего кадра из-за огромных вычислительных затрат не проводилось, но все остальные результаты позволяют предположить, что данная динамика сохранится и величина выигрыша составит примерно 0,5-1,0 дБ. Проведенные акустические тесты предпочтения в целом подтвердили полученные результаты. Однако при их анализе проявился ряд интересных особенностей субъективных оценок предложенных структурных схем речепреобразующих устройств на базе векторных квантователей речевых сигналов. При сравнении обычного векторного квантователя и векторных квантователей с управлением сигналом тон-шум и с управлением сигналом тон-шум текущего и предыдущего кадра выявленная тенденция снижения темпов выигрыша сохранилась. Однако, при непосредственном сравнении векторных квантователей с управлением сигналом тон-шум и с управлением сигналом тон-шум текущего и предыдущего кадра разница между ними в показателях качества была нивелирована и составила всего 10 %. При сравнительном анализе ВККЧС и разработанного ВККЧС с управлением сигналом тон-шум при сохранении общей тенденции разница в акустических тестах предпочтения составила всего 16%, в то время как при непосредственном сравнительном анализе обычного ВК и ВК с управлением сигналом тон-шум разница составляла 40%. Это, скорее всего, обусловлено особенностью ВККЧС, так как он уже при проектировании учитывает межкадровые корреляционные зависимости в речевых сигналах при оптимизации функции следующего состояния и при переходе к учету вокализованности речевого фрагмента при векторном квантовании ПОС дополнительный выигрыш не так велик.

4. Показано, что использование скользящего относительно размера кластера вектора разделения позволяет получить выигрыш в величине средней ошибки квантования в диапазоне битовых скоростей передачи от 0,7 до 1,1 бита на параметр на уровне 0, 35 дБ. Сравнительные акустические тесты обычного ЛБГ-векторного квантователя, векторного квантователя по методу равномерной дихотомии с применением скользящего вектора разделения и векторного квантователя по методу неравномерной дихотомии на скорости 1,0 бит на параметр, что соответствует кодовой книге размерностью 1024 эталонных вектора, показали, что при сравнении векторного квантователя ЛБГ с векторным квантователем с применением скользящего вектора разделения по методу неравномерной дихотомии число слушателей, которые определили улучшение во втором случае превышает в 1,83 раза число слушателей выбравших обычный ВК ЛБГ. Сравнительный анализ векторного квантователя по методу равномерной дихотомии с использованием скользящего вектора разделения и векторного квантователя по методу неравномерной дихотомии показал практическую идентичность показателей качества - число слушателей, которые не определились, какой из фрагментов лучше составили 72 %.

5. Предлагаемый алгоритм быстрого поиска эталонного вектора требует ПЗУ большей емкости. Однако требуемая емкость ПЗУ увеличивается не более чем на 3 %, а емкость ОЗУ возрастают примерно на 10 %. Время поиска кодового вектора уменьшается в 2,5 раза при роп = 1, а при снижении вероятности роп - ^увеличивается, например при /?о„=0,93 у=3.65.

Несмотря на усложнение алгоритма обработки и незначительное увеличение количества компонентов, уменьшившееся в 2,5 раза время поиска эталонного вектора, позволит при реализации данного алгоритма применение менее быстродействующих, а следовательно, более дешевых комплектующих (микросхем ОЗУ, ПЗУ, микропроцессора), что повышает экономические показатели кодера речевого сигнала в целом.

ЗАКЛЮЧЕНИЕ

В представленной работе проводилось исследование актуальной проблемы: повышение качество синтезированного речевого сигнала в низкоскоростных кодерах речевого сигнала. Рассмотрены основные проблемы при построении векторных квантователей речевых сигналов в составе ре-чепреобразующих устройств: определение представления параметров огибающей спектра, подвергающихся процедуре векторного квантования, выбор метрики пространства параметров или определение типа меры расстояния между векторами, метод определения совокупности эталонных кодовых векторов, выбор метода поиска эталонного кодового вектора при реализации РПУ в реальном масштабе времени.

Библиография Фабричный, Сергей Юрьевич, диссертация по теме Системы, сети и устройства телекоммуникаций

1. G.Davidson, M.Yong Real-Time Vector Excitation Coding of Speech at 4800 BPS // ICASSP, DALLAS, 1987, pp.2189-2192.

2. J.M. Tribolet and R.E. Crochiere, Frequency Domain Coding of Speech // IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-27, no. 5, pp. 512-530, Oct. 1979.

3. M. Berouti, J. Makhoul An Adaptive-Transform Baseband Coder // Speech Communication Papers: 97th Meeting of the Acoustical Society of America, J.J. Wolf and D.H. Klatt, Eds. Cambridge, MA, June 1979, pp.377-380.

4. B.S. Atal Predictive Coding of Speech at Low Bit Rates // IEEE Trans. Commun., vol. COM-30, no. 4, pp. 600-614, Apr. 1982.

5. Chong Kwan Un, Won Yong Sung A 4800 BPS LPC Vocoder with Improved Excitation // ICASSP, DENVER, 1980, pp.142-145.

6. D.P.Prezas, J.Picone Fast and Accurate Pitch Detection Using Pattern Recognition and Adaptive Time-Domain Analysis //ICASSP, TOKYO, 1986, pp. 109-112.

7. F.J.Charpentier Pitch Detection Using the Short-Term Phase Spectrum // ICASSP, TOKYO, 1986, pp.l 13-116.

8. D.G.Childers, H.T.Hu Speech Synthesis By Excited Line AR Prediction // Journal of acoustic soc. of America, V.96, № 4, Okt.1994, pp.2026-2036.

9. S.Narayan, J.P.Burg Spectral Estimation of Quasi-Periodic Data // ICASSP, DALLAS, 1987, pp.944-947.

10. J.P.Adoul, P.Mabillean Fast CELP Coding Based on Algebraic Codes // ICASSP, DALLAS, 1987, pp.1957-1960.

11. Дж. Макхоул. Векторное квантование при кодировании речи /ТИИЭР, 1985, т.73, N11, стр.19-61.

12. H.Koyama, A.Gersho Fully Vector-Quantized Multipulse LPC at 4800 BPS // ICASSP, TOKYO, 1986, pp. 445-448.

13. A.Le Guyader, P.Combesure A Robust 16 kbits/s Vector Adaptive Predictive Coder for Mobile Communications // ICASSP, TOKYO, 1986, pp. 857-860.

14. K.Ganesan, M.Marlot Efficient Algorithm for Combining Vector Quantization and Stochastic Modeling for Speaker-Independent Speech Recognition // ICASSP, TOKYO, 1986, pp. 1069-1071

15. Satorie, Kazunari 8 Kb/s Speech Coder with Pitch Adaptive Vector Quantizer//ICASSP, TOKYO, 1986, pp. 1697-1700.

16. P.Zheng, H.J.Zhang A New Idea of Code Book Design in Vector Quantization of Speech // ICASSP, DALLAS, 1987, pp. 1352-1353.

17. J.Picons, G.R.Doddingtor Low Rate Speech Coding Using Contour Quantization//ICASSP, DALLAS, 1987, pp. 1653-1656.

18. Y.Shobam Vector Predictive Quantization of the Spectral Parameters for Low Rate Speech Coding // ICASSP, DALLAS, 1987, pp. 2181 -2184.

19. J.H.Chen, A.Gersho Real-Time Vector APC Speech Coding at 4800 BPS with Adaptive Postfiltering// ICASSP, DALLAS, 1987, pp. 2185-2188.

20. R.Garcia-Gomez Vector Quantized Multipulse-LPC //ICASSP, DALLAS, 1987, pp. 217-2200.

21. B.S. Atal Predictive Coding of Speech at Low Bit Rate // IEEE Trans. Commun., vol. COM-30, no. 4, Apr. 1982, pp. 600-614.

22. B.S. Atal, S.L. Hanauer Speech Analysis and Synthesis by Linear Prediction of Speech Wave // J. Acoust. Soc. Amer., vol. 50, no. 2, Aug. 171, pp. 637-655.

23. Linde Y., Buzo A., Gray R.M. An Algorithm for Vector Quantizer Design //IEEE Transaction on Communication, vol. COM-28, January 1980, pp.84-95.

24. Патент РФ 2166804. МКИ 7 G 10 L 13/02. Способ преобразования речи и устройство для его осуществления /В.В. Костров, Ю.В. Дыранов, С.Ю. Фабричный//Б.И. 2001. -№ 13.

25. Фабричный С.Ю. Особенности построения векторных квантователей речевых сигналов // Научные труды муромских ученых: Сб. науч. трудов Ми ВлГУ. Владимир: ВлГУ, 1997. - С. 167-171. / Соавт. Костров В.В.

26. Фабричный С.Ю. Кодирование нестационарных сигналов при наличии межкадровых корреляционных связей // Научные труды муромских ученых: Сб. науч. трудов Ми ВлГУ.- Владимир: ВлГУ, 1999.- С. 125-127.

27. Фабричный С.Ю. Исследование ВККЧС с маркировкой переходов с учетом параметров функции возбуждения // XXVI Гагаринские чтения: Тезисы докладов Всерос. междун. молодежной науч. конф. Т.1. — МГАТУ, 2000. С. 290. / Соавт. Дубиневич Р.В.

28. Фабричный С.Ю. Исследование характеристик ВККЧС с быстрым поиском эталонов при учете параметров функции возбуждения // XXVI Гагаринские чтения: Тезисы докладов Всерос. междун. молодежной науч. конф. Т.1. — МГАТУ, 2000. С. 432. / Соавт. Зайцев Д.С.

29. Foster J., Gray R.M., Dunham M.O. Finite-State Vector Quantization for Waveform Coding// IEEE Transactions on Information Theory, vol.-31, № 3, May 1985, pp. 348-359.

30. Satoshi Imai, Yashiharu Abe Cepstral Synthesis of Japanese from CV Syllable Parameters // ICASSP, DENVER, 1980, pp. 557-560

31. Masakasu Imai, S.Inokuchi Frequency Identification by Complex Spectrum // ICASSP, TOKYO, 1986, pp. 117-120.

32. J.Hansen, S.Nandkumar Objective speech quality assessment and the RPE-LTP coding algorithm in different noise and language conditions // Journal Of Acoustic Soc. Of America, V.97, № 1, Jan. 1995, pp. 609-627

33. F.K.Soong, M.M.Soudhy A Frequency-Weighted Itakura Spectral Distortion Measure and its Application to Speech Recognition in Noise // ICASSP, DALLAS, 1987, pp. 625-628.

34. F.Itakuba, T.Umezaki Distance Measure for Speech Recognition Based о the Smoothed Group Delay Spectrum // ICASSP, DALLAS, 1987, pp. 1257-1260

35. D.H.Friedman Formulation of Vector Distanse Measure for the Instantaneous-Frequency Distribution of Speech // ICASSP, DALLAS, 1987, pp. 1748-1751

36. N.Kitawaki, H.Nagabuchi Objective Quality Evaluation for Low-Bit-Rate Speech Coding Systems // IEEE Jour. Sel. Areas In Communication, V.2, FEB. 1988, pp. 242-248.

37. Фабричный С.Ю. Построение структурированной кодовой книги векторного квантователя сигналов // Методы и устройства передачи и обработки информации: Межвузовский сборник научных трудов. — СПб: Гидрометеоиздат, 2001. С. 148-154. / Соавт. Костров В.В.

38. T.C.Chen A Fast Algorithm for Uniform Vector Quantization // ICASSP, DALLAS, 1987, pp. 1344-1347

39. V.Ramamoorthy, S.Abdul-Jabbar A Reduced Search Vector Quantizer for Speech // ICASSP, TOKYO, 1986, pp.3035-3038.

40. M.R.Soleymani, S.D.Morgeraff A High-Speed Search Algorithm for Vector Quantization // ICASSP, DALLAS, 1987, pp.1946-1948.

41. A.Lowty S.Hossein Binary Search Trees for Vector Quantization // ICASSP, DALLAS, 1987, pp.2205-2208.

42. R.M.Schwartz., S.E.Roucos. A Comparison of Methods for 300-400 B/S Vocoders // BBN, 10 Moulton St., Cambridge, MA 22038. C.69.

43. Фабричный С.Ю. Построение векторных квантователей по нескольким критериям // Радиоэлектроника и электроника в народном хозяйстве: Тезисы докладов НТК студентов и аспирантов ВУЗов России. Т.1. -МЭИ, 1998. -С.58-59.

44. Фабричный С.Ю. Векторное квантование параметров нестационарных сигналов // XXIV Гагаринские чтения: Тезисы докладов Всерос. междун. молод, научн. конф. МГАТУ, 1998. - С. 147. / Соавт. Назаров А.С.

45. Фабричный С.Ю. Применение неэвклидовых расстояний при эффективном кодировании нестационарных сигналов // Научные труды муромских ученых: Сб. научн. трудов Ми ВлГУ. Владимир: ВлГУ, 1999. -С.112-113./Соавт. Костров В.В.

46. Фабричный С.Ю. Быстрый алгоритм поиска кодового вектора при векторном квантовании речевых сигналов // Направления развития систем и средств связи: Сборник докладов НТК. Воронеж, 1996. С. 864870. / Соавт. Костров В.В.

47. Фабричный С.Ю. Быстрый алгоритм поиска при векторном квантовании речевых сигналов // Обработка сложных сигналов с применением цифровых устройств и функциональной электроники: Межвузовский сборник научных трудов. — Рязань: РГРТА, 1996. — С. 10-15.

48. Дж.Д.Маркел, А.Х.Грей Линейное предсказание речи. -М.: Связь, 1980.-308 с.

49. F. Itakura, S. Saito Analysis Synthesis Telephony Based Upon the Maximum Likelihood Method.// Report of 6yh Int. Cong. Acoust. ed. By Y.Kohasi, Tokyo, C-5-5, C. 17-20, 1968.

50. Коротаев Г.А. Эффективный алгоритм кодирования речевого сигнала на скорости 4.8кбит/с и ниже //Зарубежная радиоэлектроника 1996.-N3.

51. Леусенко А.Е., Цупрев Н.И., Сычев И.В., Шапиро Д.А. Выбор интервала анализа речевого сигнала // Науч. техн. прогресс в пищ. промети.: Междунар. науч. техн. конф. Могилёв, 22-24 ноября, 1995: Тез. докл. -Могилёв, 1995.

52. Nakata Kazuo, Tanaka Katsunori An Efficient Coding of Speech by Recursive and Adaptive AR Process Identification // J.Acoust. Soc. Jap. E.-1994.- 15, N6.

53. Горьков И.Л. Аппаратно-програмный комплекс для анализа речевых сигналов // Вопр. повыш. качества упр. движ. объектами.- Спб, 1995.

54. Леусенко А.Е., Цупрев Н.И., Сычев И.В., Шапиро Д.А. Сегментация речевых сигналов//Соврем. пробл. радиотехн., электрон, и связи.: Науч. техн. конф., Минск, 4-5 мая, 1995.- Минск,1995.

55. Yang Н., Koh S.N., Sivaprakasapillai P. Speech Coding Based on Multi-Band Excitation and Lenear Prediction Coefficient // J. Elec. and Electron. Eng. Austral.- 1994.- 14, N2.

56. Rosenberg Aaron E., Soong Frank K.P. Technique for Modifying Reference Vector Quantized Speech Feature Signals// Пат. 5377301 США, МКИ G 10 L 9/00/ AT and T Corp.- N184768; Заявл. 21.1.94; Опубл. 27.12.94; НКИ 395/2.31

57. Behme Holger, Brandt Wolf Pieter, Strube Hans Werner Speech Processing by Hierarchical Segment Classification // Proc. Int. Jt. Conf. Neural Networks, Nagoya, Oct. 1993: IJCNN'93 -Nagoya. Vol. 1. C. 279-282.

58. Zhao Heming, Zhou Xudong A New Acoustic Perceptual Model //J. Electron. (China). 1995.- 12, N1.

59. Hermes Dik J., Rump H. H. Perception of Prominence in Speech Information Induced by Rising and Falling Pitch Movement // J. Acoust Soc. Amer.- 1994. 96, N1.

60. Hou Zezhang, Pavlovic Chaslav V. Effects of Temporal Smearing on Temporal Resolution, Frequency Selectivety, and Speech Intelligibility //J.Acoust. Soc. Amer.- 1994.- 96, N3.

61. Kitamura Tatsuya, Akagi Masato Speaker Individualities in Speech Envelopes // J. Acoust. Soc. Jap. E.- 1995.- 16, N5.

62. Watkins Anthony J., Makin Simon J. Perceptual Compensation for Spesker Sdifferences and for Spectral-envelope Distortion // J. Acoust. Soc. Amer.- 1994.-96, N3.

63. Кругликов С.Ю. Оценка формантной разборчивости речи на основе автокорреляционной функции // Моск. техн. ун-т связи и инфор-мат.- М., 1995.- Рус.- Деп. в ЦНТИ "Информсвязь." 23.8.95, 2058-св95.

64. Assmann Peter F., Summerfield Quentin The Contribution of Waveform Interactions to the Perception of Concurrent Vowels // J. Acoust. Soc. Amer.- 1994.- 95, N1.

65. Волкова Ю.В. Компактное представление речевых сигналов на основе точного кепстрального анализа // Моск. техн. ун-т связи и инфор-мат.- М., 1994.: ил.- Библиограф.: 3 назв.- Рус.- Деп. в ЦНТИ "Информсвязь" 11.11.94,2029.

66. Волкова Ю.В., Попов О.Б. Малопараметрическое описание речевого сигнала // Обраб. сигналов в системах двухсторон. телефон, связи.:

67. Межрегион, конф. и выст. интеллект, продуктов, Москва Пушкино, 1721 окт., 1994: Тез. докл. и кат. выст.- М., 1994.

68. Erkelens J.S., Broersen Р. М. Т. Equivalent Distortion measures for Quantization of LPC model // Electron. Lett.- 1995.- 31, N17.

69. Воеводин B.B., Тыртышников E.E. Вычислительные процессы с теплицевыми матрицами — М.: Наука, гл. ред. физ.-мат. лит., 1987. — 320 с.

70. Сапожков A.M., Михайлов В.Г. Вокодерная связь. -М.: Радио и связь, 1983.-248 с.

71. Д. Даджион, Р. Мерсеро Цифровая обработка многомерных сигналов / Под. ред. Л.П. Ярославского. М.: Мир, 1988 г. - 488 с.

72. Применение цифровой обработки сигналов / Под. ред. Э. Оппен-гейма. М.: Мир, 1980 г. - 552 с.

73. Воробьёв В.И. Стамбулов Т.Т. Оценка возможных путей сопряжения среднескоростных и высокоскоростных речепреобразующих устройств// Сб. науч. тр. / Воен. ин-т правительств, связи.- 1994.- N1.

74. Журавлев В.И., Шалимов И.А. Методы передачи речи по сетям связи// Телекоммуникации. 2002, № 4, с. 13-24.

75. Омельченко А.В., Пресняков А.И. Статистический синтез алгоритмов оценивания периода основного тона речевых сигналов.// Радиоэлектрон. и информат. 1999, № 1, с. 22-25.

76. Крашенников В.Р., Калинов Д.В. Авторегрессионная модель квазипериодического сигнала с флуктуирующей продолжительностью квазипериодов. // LVI Научная сессия, посвященная Дню радио, Москва, 16-17 мая, 2001: Труды. Т. 2. М.: ИПРЖР. 2001, с. 321-322.

77. Главный конструктор ОАО МЗ РИП ^/^^-^В.В. Блохин

78. Нач отдела № 3 ^ е.М. Маминов

79. Начал!.ник учебного отдела

80. Заведующий кафедрой радиотехники д.т.н., профессорС

81. За веду ю щ и й л аборато р и я м и кафедры радиотехники1. Т.Н. Педя1. В.В. Ромашов1. В.В. Синев