автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Разработка и моделирование на ЭВМ эффективных методов компрессии речевых сигналов для низкочастотных вокодеров

кандидата технических наук
Викторов, Андрей Борисович
город
Санкт-Петербург
год
1993
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Разработка и моделирование на ЭВМ эффективных методов компрессии речевых сигналов для низкочастотных вокодеров»

Автореферат диссертации по теме "Разработка и моделирование на ЭВМ эффективных методов компрессии речевых сигналов для низкочастотных вокодеров"

pre oa

- 1GD3 РОССИЙСКАЯ АКАДЕМИЯ НАУК

САНКТ-ПЕТЕРБУРГСКИЙ ИНСТИТУТ ИНФОРМАТИКИ И АВТОМАТИЗАЦИИ

На правах рукописи

ВИКТОРОВ Андрей Борисович

УДК 621.391

РАЗРАБОТКА И МОДЕЛИРОВАНИЕ НА ЭВМ ФФЕКТИВНЫХ МЕТОДОВ КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ НИЗКОСКОРОСТНЫХ ВОКОДЕРОВ

05.13.16 - применение вычислительной техники, математичоского моделирования и математических методов в научных исследованиях

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

САНКТ-ПЕТЕРБУРГ-1993

Работа выполнена в научно-производственном предприятии «Дальняя связь».

Научный руководитель — доктор технических наук, профессор, академик РАЕН

АЛЕКСАНДРОВ В. В.

Официальные оппоненты:

доктор технических наук, профессор ЛАБУТИН В. К.,

кандидат технических наук,

старший научный сотрудник ДИДЕНКО В. Д.

Ведущая организация: Санкт-Петербургский электро-техни-чсскпй университет имени В. Я. Ульянова (Ленина).

Защита состоится « » 1993 г. в часов

на заседании специализированного совета Д. 003. 62. 01 при Санкт-Петербургском институте информатики и автоматизации РАН по адресу: Санкт-Петербург, 14 линия ВО, д. 39.

I

С диссертацией можно ознакомиться в библиотеке специализированного совета.

Автореферат разослан « » 1993 г.

Ученый секретарь специализированного совета кандидат технических наук

МАРЛЕЙ В. Е.

ОБЩАЯ характеристика работы

Актуальность темы. Речевая связь является одним из самих

удойных для человека и эффективных способов коммуникации. Однако большая избыточность речивого сигнала является одной из основных причин снижения реальной пропускной способности систем речевой связи. Для устранения этой избыточности используются различные способы, обычно основанные на дискретной передаче не самого речевого сигнала, а его характеристических параметров, изменение которых во времени протекает гораздо медленнее, чем изменение самого сигнала. Зтот принцип применяется и в вокодерах - системах связи с выделением и параметрической компрессией спектра речевого сигнала, при отдельном кодировании и передаче импульса возбуждения.

Для современного состояния проблемы компрессии речевых сигналов характерно большое количество предлагаемых методов. Существует много разработанных и даже серийно выпускаемых вокодеров с сохранением узнаваемости, использующих полосу 100-200 Гц, что соответствует 15-30-кратной компрессии спектра и такому же увеличению дополнительного числа каналов в уплотненных линиях. Однако для всех таких устройств присущ основной недостаток - относительно низкое качество синтезированного речевого сигнала и его слабая помехоустойчивость .

Таким образом, при компрессии речевого сигнала актуальными остаются задачи улучшения разборчивости, качества и натуральности восстанавливаемой речи, а также минимизации скорости передачи параметров при сохранении приемлемого качества.

Цель работы. Цель предлагаемой работы заключается в разработке и проверке алгоритмов работы основных узлов цифрового вокодера для передачи речевого сигнала по каналу связи со скоростью ¿400 бит/с и ниже при удовлетворении заданных требований на качество синтезированного сигнала. В работе решаются следующие задачи:

- разработка и исследование оптимальных скалярных методов кодирования параметров вокодера на основе авторегрессионной модели (модели линейного предсказания) для повышения компрессии речевого сигнала;

- разработка эффективного метода решения задач векторного квантования параметров спектра речевого сигнала для дальнейшего увеличения компрессии речевого сигнала;

- разработка способа получения надежной оценки параметров

Формантннх траекторий речевого 1 игнала н.1 основе коэффициентов ли нейного предсказания.

Метод» исследований. В диссертационной работе сочетаются теоретические и экспериментальные методы следующих дисциплин: акустическая теория речеобразования. теория цифровой обработки сигналов, прикладные методы анализа случайных процессов, теория множеств и статистическая теория распознавания образов. Экспериментальные исследования проводились на универсальных ЭВМ, типа Г'С АТ/ХТ, с дополнительным набором аппаратных и программных средств ввода-вывода и соответствующих программ анализа и синтеза речевого сигнала, написанных на языке "С".

Научная новизна результатов, полученных в работе, связана с дальнейшим развитием методов анализа, синтеза и компрессии речевых сигналов и заключается в следующем:

- разработан и исследован использующий только целочисленную арифметику оригинальный алгоритм быстрого поиска корней полиномов высокого порядка для решения задачи скалярного квантования параметров огибающей спектра речевого сигнала методом линейной спектральной пары;

- предложен надежный и простой метод оценивания параметров Формант на основе коэффициентов линейного предсказания, что позволяет эффективно использовать получаемые оценки для визуального представления речевого сигнала в различных системах анализа:

- впервые определены условия, которым должны удовлетворять коэффициенты линейного предсказания, чтобы фильтры на передаче и на приеме канала связи оставались минимально фазовыми функциями;

- предложен и исследован оригинальный алгоритм векторного квантования параметров спектра речевого сигнала, являющийся модификацией процедуры выделения связных компонент структуры данных задачи кластер-анализа, основанной на отображении многомерного пространства на числовую ось с помощью заполняющих пространство кривых Пеано (кривых Гильберта).

Практическая ценность. Создан комплекс программ на алгоритмическом языке "С" для моделирования систем анализа-синтеза речевого сигнала на универсальной ЭВМ. Разработанные целочисленные алгоритмы компрессии могут быть эффективно использованы при реализации вокодеров низкоскоростной связи на основе применения современных ЦПОС. Кодирование коэффициентов линейного предсказания на основе метода линейных спектральных пар позволяет значительно уменьшить

инфпрмационный объем при передаче параметров в вокодерах без ухудшения качества синтезированной речи. Разработанные алгоритмы определения коэффициентов линейных спектральных пар и оценивания параметров Формант могут быть использовали в системах идентификации диктора и для дальнейшего совершенствования устройств компрессии и передачи речевого сигнала с низкими скоростями. Определены условия для коэффициентов линейного предсказания, позволяющие легко следить за устойчивой работой синтезирующего фильтра при практическом использовании метода линейного предсказания. Создан набор прикладных программ, позволяющий эффективно решать задачу векторного квантования параметров речевого сигнала. Разработанный алгоритм векторного квантования может быть применен для решения проблем автоматического распознавания и сегментации речевого сигнала.

Реализация результатов работы. Настоящая диссертационная работа является частью общих работ по исследованию речевых сигналов, проводимых на научно-производственном предприятии "Дальняя связь" ir. Санкт-Петербург) в рамках НИ ОКР "Разбег" и в соответствии с разработанной на 1У tí В — 1 990 гг. научно-технической программой "Камертон". Алгоритмы и программные средства для компрессии речевых сигналов использовались при конструировании низкогкоростного цифрового вокодера, работа по созданию которого проводилась в ТОО "Центр речевых технологий" (ЦРТ) по теме "Нейтрон-РПУ". Разработанная процедура выделения формантних траекторий используется в системе спектрографического анализа речевых сигналов, созданой в ЦРТ пи теме "Идентификация-1", заказ ЭКЦ МВД Российской Федерации.

Публикации. Основное содержание работы освещено в 5 опубликованных работах.

Апробация работы. Представление в диссертации результаты докладывались и иосуждались на 15-ой и 17-ой Всесоюзных школах-семинарах "Автоматической распознавание слуховых образов" (Таллинн, Г.1Ь8; Ижевск, Ш;"!).

1!бгем работы. Диссертация состоит из введения, четырех глав с выводами и заключения, изложенных на >/40 страницах машинописного текста, списка литературы, включающего Ifiü наименований, списка основных сокращений и приложения. Оощий опт,ем работы -У^С?страниц.

.¡ащищаемне положения:

- рекурсивный алгоритм определения коэффициентов линейной

i центральной пары на основе процедуры пыстрого поиска корней полиномов высокого порядка для задачи эффективного кодирования коэффи-

-И -

циентов линейного предсказания;

- метод получения оценок параметров формантних траекторий на основе решения полиномов, состоящих из коэффициентов линейного предсказания, для задачи визуализации речевого сигнала;

- процедура векторного квантования параметров спектра речевого сигнала для повышения компрессии при сохранении качества синтезированной речи.

СОДЕРЖАНИЕ РАБОТЫ

Во введении показана актуальность выбранной темы, практическая и научная ценность работы, определены вопросы, исследованию которых посвящена диссертация.

Б первой главе проведен анализ литературы по параметрическим

методам компрессии речевого сигнала 1РС). Представлена классификация и сравнительная оценка наиболее, перспективных методов компрессии. Отмечается, что в настоящее время наиболее эффективным способом компрессии РС является метод линейного предсказания (ЛИ). По сравнению с другими методами он обеспечивает хорошее качество синтезированной речи при скорости передачи 2400 бит/с и ниже, характеризуется относительной простотой вычислений, сравнительно легко реализуется на микропроцессорах. Однако синтезированная на основе метода ЛП речь, особенно при малых скоростях передачи, имеет ряд недостатков. Анализируются причины невысокого качества звучания, методы улучшения синтезированной речи.

При моделировании речевых систем на ЭВМ важной проблемой является проведение оценки качества синтезированной речи. Обычно это осуществляется субъективно-статистическими методами, которые чрезвычайно громоздки и дают достоверные результаты лишь при большом объеме речевого материала. В работе для большей оперативности результатов были выбраны следующие объективные критерии, определяющие статистическую близость спектров исходного и синтезированного РС и для получения которых требуется сравнительно малый объем вычислений: спектральное расстояние (СР). коэффициент корреляции спектров (ИКС) и кепстральное расстояние (КР).

Во время анализа РС для каждого кадра определяются коэффициенты ЛП, признак тон-шум IТ/111), период основного тона (Тот-1 и коэффициент усиления. Для более компактного представления коэффициентов ЛП и, тем самым, для увеличения степени компрессии РС, необ-

XIIдимы методы их эффективного кодирования. Последние работы в области построения цифровых вокодеров убедительно указывают на предпочтительное использование для этих целей метода линейной спектральной пары (ЛСП). Наряду с этим, обращается внимание на то, что наилучшие результаты компрессии также могут быть достигнуты при Фмрмантном описании РС, так как он (как и метод ЛП) опирается на модель речеобразования и может обеспечивать теоретически предельную компрессию, а также при применении метода векторного квантования, дающего наилучшую степень сжатия пространства данных при минимизации степени искажения.

Вторая глава посвящена исследованию свойств коэффициентов ЛСП для более компактного кодирования коэффициентов ЛП и сравнительному влиянию методов кодирования на качество речи, синтезированной методом ЛП. На основе модели ЛП каждое текущее значение отсчета оцифрованного речевого сигнала 5 (п) может быть предсказано с помощью взвешенных значений предшествующих отсчетов:

В(п) = 5 *(п)ч-£(п) = 21 Л, ¿7П-1) у. е(п) ( ( п

с - /

*

где 5(п)- предсказанное значение РС, а<- - весовые коэффициенты или коэффициенты ЛП,^ - порядок модели, £(п) - значение отсчета исходного РС, £(п) - ошибка предсказания.

Переходя в (1) к £ -преобразованию, получаем выражения для анализирующего и синтезирующего фильтров соответственно:

А(1) , им

где 2 ''соответствует задержке РС на на один отсчет, & - коэффициент усиления.

Коэффициенты ЛП находятся путем минимизации среднеквадрати-ческого значения ошибки предсказания £(г>)£. Из-за изменчивости свойств РС во времени коэффициенты ЛП оцениваются на кадрах длительностью порядка 10-30 мс в предположении, что в пределах такого интервала процесс стационарен. При синтезе вокализованных звуков речи модель (3) обычно возбуждайся импульсами, следующими с частит ий основного тона и)'П, а для получения невокализованных звуков пна возбуждается последовательностью случайных чисел.

Коэффициенты ПП обладают широким динамичег.ким диапазоном, что затрудняет их квантование, так как появившиеся при этом ошибки могут служить причиной нестабильной раоотн синтезирующего фильтра. Другим множеством параметров, которые в математическом смысле полностью эквивалентны коэффициентам ЛП. является множество коэффициентов частных корреляций, которые соответствуют коэффициентам отражения для модели голосового тракта в виде акустической трубы оеч потерь, состоящей из нескольких секций разного сечения. Для устранения неравномерной чувствительности спектра РС к изменениям коэффициентов отражения используют отношение площадей двух соседних секций голосового тракта (2 (. и/^/которое определяется как:

<?,- - (/-¿¿)/(/'*;) . (4)

Логарифм этого отношения является оптимальным представлением для проведения равномерного скалярного квантования параметров

Дальнейшим совершенствованием параметров ЛП является выделение коэффициентов линейных спектральных пав (ЛСГ1). Коэффициенты ЛСП получаются из коэффициентов ЛП разложением импульсной характеристики анализирующего фильтра (2) на сумму двух полиномов. Для анализирующего фильтра /)(1) модели ЛП передаточная Функция обратного фильтра £>(1) имеет вид

б а) - А (г-') . (5)

Определим два полинома: суммарный О-(^) и разностный Р(^) \

О. (г) - Д(£)+ б{£) = / * 2- (Ач- а. „-и,] г'1 * , (б)

. м .

Р(г) = А (г.) -е>(1) = АИ (<и - ам 17)

¿- /

Тогда анализирующий фильтр представляется полусуммой:

А(*) = (&(*) + Р{г)) ■ <»>

Пусть корни полинома2р1 = ехрР^сО^), а полинома

Щш)-

• Частотные параметры и «^¿образуют линейную спектральную пару (один из полинома Р(г) и один и л 0.(1) ).

Коэффициенты ЛСП в математическом смысле полностью эквива-

ленгны всем другим параметрам ЛП (коэффициентам ЛП, коэффициентам отражения и пр.), но обладают по сравнению с ними целым рядом полезных свойств, которые делают метод ЛСП наиоолее эффективным для анализа PC. Это связано, во-первых, с упорядоченностью коэффициентов ЛСП (¿-ый коэффициент выше по частоте, чемi*/-ый), во-вторых, в виду простого соответствия коэффициентов ЛСП реальному частотному диапазону слуха возможно использование различной значимости частей полного диапазона для восприятия речи, в-третьих, корреляционные связи коэффициентов ЛСП от одного спектрального среза с коэффициентами ЛСП соседних срезов достаточно велики, в-четвертых, коэффициенты ЛСП соответствуют только одному легальному участку спектра сигнала, что обеспечивает хорошую помехоустойчивость вокодеров, в-пятых, все коэффициенты ЛСП в равной степени реагируют на искажения при квантовании, что допускает их кодирование с одинаковой точностью, используя меньше битов по сравнению с другими способами кодирования параметров ЛП при сохранении субъективного качества синтезированной речи.

Был разработан простой алгоритм поиска корней полиномов Pfi) и O-(i) и их обратной трансформации в A(i) для произвольного порядка модели М , позволяющий проводить вычисления в целочисленной арифметике и требующий малого числа арифметических операций. В основу алгоритма положено свойство симметричности полиномов P(l), которых попарное произведение корней равно единице, откуда следует, что их комплексно-сопряженные корни лежат на единичной окружности. Пусть, например, M-W и 2. ,Z - комплексно-сопряженная пара корней полинома P(t), т.е. сои (")) <ч i'in(co). г* cos(cu)-j sin(«>). Разделив P(t) на двучлен /+ Yz + Z . гд&Y= 2 cos f^o).

и приравняв остаток нулю, получаем уравнение относительно Y

Ф(Т)~- Г -f,ГЧр 'I') &&-3/г +5) Y-(f;-2f} = О, t 9 )

L

где = /1- (tij -d „у. fj t ds'

которое должно иметь 5 действительных корней в интервале J-2.+21. Так как все корни ложат в ограниченном интервале, то для их поиска можно воспользоваты я простой процедурой, использующей метод половинного деления. Предложенный в диссертации метод позволяет определять коэффициенты ЛСП в виде удвоенного значения действительной части комплексных корней суммарного и разностного полиномов, что

Появляется особенно удобным для процедуры восстановления коэффициентов ЛП на этапе синтеза с помощью теоремы Виета.

Уравнение (3) позволяет получить условия для коэффициентов ЯП, удовлетворение которых гарантирует устойчивость синтезирующего фильтра (корни Д(г) лежат внутри единичного круга). Эти условия получаются из существования действительных корней уравнения (3) только внутри интервала 1-2,+21. Тогда должно выполняется правило Ньютона, согласно которому значения -2 и +2 должны быть соответственно нижней и верхней границами его действительных корней. Однако полученные в диссертации условия являются лишь достаточными, поскольку уравнение (9) помимо действительных корней может теоретически иметь и комплексные корни.

Исследования статистических свойств коэффициентов ЛСП для порядка модели ЛП А7--/О проводились на универсальной машине IВН РС АТ-386 с речевым материалом (.изолированные слова и связный текст), записанным без искажений на магнитофон в диапазоне частот до 4 кГц. Изолированные слова (всего 200 слов) являлись словесными артикуляционными таблицами, а связный текст использовался как дополнение этих таблиц до полностью фонетически сбалансированного речевого материала. Запись осуществлялась 5-ю дикторами-мужчинами и 3-мя дикторами-женщинами. Общая длительность звучания всего речевого материала - примерно 40 мин. Речевой материал был введен в память ЭВМ через 12-разрядный АЦП с частотой квантования 8 кГц. Длительность речевого кадра составляла 23 мс (184 отсчета) Таким образом, для статистических исследований использовалось порядка 100000 кадров.

На основе проведенных исследований было установлено, что гистограммы частот коэффициентов ЛСП близки к гауссовскому распреде-позволяет использовать для эффективного скалярного квантования коэффициентов ЛСП их полусуммы и полуразности:

/¡Л (сО^ + 1 /■. ~= - и)^)!г .

(10)

Проверка эффективности методов кодирования коэффициентов ЛП проводилась на том же речевом материале с помощью объективных показателей ИР. СР. ККС, которые усреднялись для всего речевого материала. Выло проведено сравнение следующих методов :

1) Кодирование на основе логарифма отношения площадей (4).

2) Кодирование с помощью коэффициентов ЛСП (10) одинаковым

'Габлица 1

Номер Методы кодирования

коэффициента ------------------------------------------

ЛП 12 3

1 5 4 4

и 5 4 4

3 4 4 4

4 4 4 4

5 4 4 4

б 4 4 4

1 1 4 4- 4

8 4 4 4

'! 3 4 2

10 3 4 1

Всего битов 40 40 35

Таблица 2

Метод Критерии

кодирования Диктор ________ ___ . _______________________

КР СР ИКС

1 Мж. 3.44 5,21 0,691

«н. 3.37 5.11 0,682

- Мж. 3,08 4,29 0,693

Юн. 3,12 4,31 0,689

3 Мж. 3,13 5,02 0,632

Мн. 3,26 5,03 0,687

числом битов для каждого значения

3) Кодирование как в 2), но разным числом битов. Распределение битов для каждого метода кодирования представлено в табл. 1. .¡начения объективных оценок качества синтезированной речи в зависимости от метода кодирования коэффициентов ЛП показано в табл. 2. Наилучшие результаты получены для метода кодиро-

вания 2). Однако для метода 3| опъиктивные оценки лцчше, чем для 1 ) при наименьшем числе битов для кодирования коэффициентов ЛИ (примерно на 13'/. меньше по сравнению с методами 1) и 2>). В ра боте для кодирования ОТ и Т/Ш использовалось 7 битов,для - 5 битов, для синхронизации - 1 бит. Таким образом, при длине кадра РГ 23 мс общая скорость передачи для метода 3) составляет 2100 бит/с.

В третьей главе представлена и исследована процедура оценивания параметров формант через коэффициенты ЛСП и показано, что та кое оценивание обладает рядом полезных качеств: простотой, незначительным объемом вычислений, высокой точностью. Под формантой речевого сигнала принято подразумевать затухающую гармоническую составляющую акустического отклика голосового тракта на импульсное воздействие. В выбранной модели речи этому определению соответ-с I в у еI понятие форманты как пары комплексных полюсов передаточной Функции голосового тракта (3). Отклик цифровой модели голосового тракта на импульсное возбуждение состоит только из комплексных экспонент. Для произвольной пары корней полинома (2) ширина и частота форманты выражаются соотношениями:

3= - (£п Г , (И)

¿.■ГССОЯ (со) , 112)

где Рс - частота дискретизации (Гц).

Основные трудности прямого оценивания параметров формант Р(. для модели ЛИ связаны с проблемой быстрого поиска корней полиномов высокого порядка. Число формант Л однозначно определяется через порядок модели линейного предсказания М как Поэтому в дис-

сертации сначала решается задача определения порядка модели ЛИ на каждом кадре РС с точки зрения соответствия истинному числу фор-мантных траекторий. Для решения этой задачи были разработаны три различнх правила оценки порядка модели А/;

- на основе анализа временных рядов с помощью вычисления Финальной ошибки предсказания (ФОП) йкаике. По существу процедура определения порядка сводится к подгонке авторегрессионной модели в направлении возрастания порядка, вычислению для каждой из моделей соответствующих оценок ФОП и выбору той из них, для которой значение ФОП минимально. ФОП определяется как дисперсия ошибки предсказания на один шаг вперед при использовании для предсказания оценок

! ,

II'I MI'гид1! наименьших КВадраТоВ Параметров M и Д i л 11 fill;

- un 111 llllRH определения ! !a K>< 111 M , П >' Д11 '11' 11 К i ' н|.фП I [ I! e H T. I П Моде ЛИ ПП порядка M , OTpHUâTf'.ni. IIIIH -ЩаЧеПИе Которого Пи :|-о II JI'T ЦГВер-54Д-ЧTЬ . ЧТО ПОЛИНММ A(i) ИМеет Пи Крайний Мере llapo Дею твиТелЬПЫХ Корней, а ЧТИ ЯКВИВаленТНО Тому, ЧТИ ЧИСЛО фирм.MIT II" Крайней мере на одну меньше, чем М/2 ;

- на основе оценивания ширин фпрмант Чере-: 11.1 : M111 TI. Кп чффицн-е н Т О В ЛСП.

Определение частот форМаНТНЫХ траекторий В раОиГе ПредлагаетСЯ проводить С ПОМОЩЬЮ приравнивая КО •мрфИЦИент OB при одинаковых степенях в полиноме ij), представленном в виде произведения i воих корней 11= exp (iJ^L), ¿=/. М/2 :

/¡(i) = П ( 1-2n cos (^О,) ¿~'+ rL zi~n . ! .'. «

¿4 / '

_Покажем ятот вывод для M'fO в предположении, что - /-- Si

L~ j , где достаточно малая величина, чтопн для вг ex L вы-

полнялись условия Si « Si f С.-25,.. . Получим систему уравнений:

■i, = -г№(¿cos(со), /)

¿г'¿в = 2RV(2COS(ш), г)+m

âs râ7 -- -2R Vf2 со s (из),3J-8RW2tos(cv,), /) ,,4

âv râc = 2RV(2cos(eu), M,2) +2DR

2às = -2ßY(2cos(cu), 5)-4RY(2cosM, $)-/2RV(2cosH, I)

5

<3/0 = Si . ( 15 )

где

¿--/ R--/-ZL

L-/

s

X i' Xj ....

ZI

« rf

/V

Выразив R через d/o , можно записать другую систему уравнений:

-1ч-

Рис.1. Траектории а) формант, б) коэффициентов ЛСП для речевого сигнала в) "Я у ивы".

V(2cOs(uj),t)^ ~(á.l +d ?)/(/ rd/o)

Y (¿cos(u>), 2) = fd¿ *¿l8)/(t>3Lm)-5

Y(2cos(uj). 3) - (4 U/ (A3 +d7))/(/ rdfo) , ,,,,

V(icosM, if) --(Í4 -5(аг *ae))/'(/* dio) + 5 Y(2tos(cü), 5) = Zfd^d?-d5

Так как t16) есть формулировка теоремы Виета, тп величины z2cOS (<¿l), L-/ M/2. . ЯВЛЯЮТСЯ корнями чравнетн пятой степени

фСР) - У ^ ЙУ, СУ2'DY+L --О.

коэффициенты которого соответствуют правым чагтям i lfi).

Решениями этого уравнения являются пять действительных корней, лежащих внутри интервала ]-<?; ьК , поиск которых можно проводить с помощью процедуры, разработанной во второй главе. В работе сделано обобщение этого метода на случай произвольного порядка модели ЛП и для приближенного определения ширин формант. На Риг. 1 показаны результаты работы построенных алгоритмов, определяющих траектории формант и коэффициентов ЛСП для участка речи.

В четвертой главе анализируется вопросы векторного квантования (ВК), связанные с применением этого метода для компрессии РС и рассматривается оригинальное решение задачи кластер анализа, основанное на рекурсивной процедуре отображения многомерного пространства на числовую ось.

В наиболее общем смысле суть ВК состоит в отображении произвольного входного вектора X, параметры которого являются действительными случайными величинами с непрерывным распределением амплитудных значений, в действительный вектору с дискретными значениями амплитуд. Обычно у называется эталонным вектором или эталоном. Множество эталонов называется кодовой книгой (КК). Каждому эталону приписывается двоичное слово - номер. Кодирование входного вектора с помощью RK заключается в назначении ему номера вектора КК, определяющего максимальную с ним похожесть. Декодирование есть простое восстановление эталонного вектора из КК с использованием двоичного слова в качестве индекса или адреса. Проблема построения КК (задача кластер-анализа) заключается в создании алгоритма, раз-

Побивающего множестви векторов исходного пространства признаков множество непустых и непересекающихся классов (кластеров>, cocí ящих из векторов, являющихся в каком-либо смысле похожими к близкими между собой.

В работе предполагается, что РС представляется в виде исхо

ной выборки состоящей из М -мерных векторов признаков, о

ределяющих некую структуру данных (СД), адекватно отражают

структуру самого РС. Тогда исследование РС сводится к анали

рм

пространственной структуры множества точек в Д , поскольку отнош ния между векторами ИВ реализуются через значения их координат пространстве признаков. В диссертации исследуются пути решения з дачи "дообучения" КК, заключающейся не только в корректировке у найденных кластеров и эталонов, но и в порождении новых класс векторов, слабо или вовсе не представленных первоначально в ИВ.

Необходимость дообучения КК в речевых исследованиях ctoi особенно остро в задачах синтеза и построения низкоскоростных bi кодеров. Специфика РС такова, что некоторые редкие звуки язш статистически настолько слабо представлены в ИВ, что не будут bi делены в отдельный кластер никаким автоматическим алгоритмом клас сификации. Поэтому необходимо построение автоматизированной прощ дуры кластер анализа с возможностью ручной корректировки КК. Эт задачу предлагается решать в рамках стуктурного метода путем пс полнения КК за счет векторов, не укладывающихся в уже найденнс структуру РС. Желание решать задачи такого рода делает невозможна использовании классических процедур кластер-анализа, которые обло дают свойством неинвариантности получаемой КК от начальных данни и порядка просмотра векторов ИВ. Необходима процедура, спосоона пс ущи! тиля'1 ь класс ификацию на основании информации о расположени i fia всех векторов ИВ в пространстве признаков и одновременн ппмнить m ю преды! торию своей раооты. Поэтому для реализации стук турнигп метода ь раьоте пыл выбран иерархический алгоритм.

Трудности применения иерархических алгоритмов кластер-анализ для речевых' сигналов свя laiiu с неооходимостью задания вида метрик iipoi трат.тва при uiaiuiB , а также со сложностями организации вычислительной процедуры и большим объемом требуемой памяти. В связи чтим пыла предпринята попытка то,троения алгоритма кластеризации близкого rio своим CBoílcTBaM I". ИерарХИЧесКпму, НО Не ТребуЮЩсЧ введения метрики и* следователем и способного работать с. достаточн большой ИВ. В т.Ниву пыл положен алгоритм выделения связных КОМПп

Н>'ЦТ СТРУКТУРЫ ДОННЫХ, р, I фаГо I т. ПНИ) И I; ПН X I ИД.1Х ПпД р Ч К "П м Д г Т!: и М р| . В . Александрова , пгНПВНОР П[!I■ иМчШ1'1 Пю Которого перед траДИЦИОН НИМИ методами заКЛЮЧаетг Ч И тем. ЧТИ N11 Ц| Пиль :1|ет адекватное принципам работы ЧЦМ ДИГ Кретине Пред! ТнМЛеНЦе И1 Ходиий информации I Н нашем случае речевого сигнала ) П ЛИ1|еИШ|Ю организацию 'адреса цию) г. последняя тельным ппт.нПпм к.иг п|»'Д|. мклишч, тлк п пчр.чгтт-ки данных.

Этот алгоритм строится на т.новации Процедуры рекурсивного

отображения многомерного пространства на числовую ги ь 1У~т Я —^

при помощи многомерных аналогов приближений кривых Пеано I кривых

о ^

Гильберта). В результате каждому вектору ич ИВ в прш трансгве А ставится в соответствие рекурсивный номер Н~ и... ¿т или 2 - ичная дробь Ь-О,!./... 1т , где , С~1,т номер приплижения

кривой Пеано, .

_Отобразив ИВ в одномерный массив X/рекурсивных номеров ,

/И (/V- число векторов в ИВ), и упорядочив его в соответствии с возрастанием значений номеров так, что ^Н^/ , получим новую организацию исходных данных:

- адресу -го вектора из X! есть функция его рекурсивного номера Н^ . определяемого значениями признаков этого вектора;

в силу квазинепрернвности отображенияблизким номерам на Я соответствуют близкие векторы ъ ЯМ. причем два кванта, соседние в/?', имеют общую грань вЯМ. а группа квантов, образующих цепочку в /?', образуют в у?Л7компактное множество.

Таким образом, отображение Жп сохраняет в одномерном пространстве Я' свойства, существенные для решения задачи кластеранали-

лЛ?

за, сформулированной на языке исходного пространства признаков л . Известро, что используя два одномерных массива X/ и Х2. ( где упорядоченный по возрастанию массив рекурсивных номеров, полученных с помощью И^л преобразования ИВ, значения признаков каждого вектора которой увеличены на 2 ), можно эффективно решить эту задачу с помощью последовательного выполнения четырех программ (0!)-(А4), для которых максимальная вычислительная сложность равна 0(М?о<]М).

В сравнении с другими иерархическими кластер-процедурами рассмотрений метод наиболее близок по своим характеристикам к алгоритму "ближайшего соседа", т.е. ориентирован на выявление групп эллипсоидальной или сложной формы. Число векторов ИВ ограничивается лишь объемом памяти ЭВМ, необходимым для хранения двух массивов координат векторов в одномерном пространстве fXft)(2J .

Рис. 2. Общая схема решения задачи кластер-анализа РС.

X

С А1) Отображение .

(А2) Упорядочение векторов на оси р^

(ЙЗ) Определение связных компонент структуры данных в П^

ипределение связных компонент структуры данных в р^ м

Выбор пути

С А5 > Объединение выделенных кластеров

(06) Дробление выделенны кластеров

(А?) Построение КК

Анализ результатов

КК

-П -

Общая схема построения КК, исноль^иющ.• •-! .спгпритм выделения связных компонент СД и реализующая принятий в работе стрчктурный метод анализа рС,. представлена на Г'иг.. ,!.

Получаемое в результате выполнения программ I |] 1 1 | П4 ' число кластеров зависит от номера приближения кривой Пеанет и может варьироваться от / ( при т~/ ) до А/ ( > , где 5

■пило битов, необходимое для представления при«н.нм. имеющего максимальное значение. Ввиду ограниченного диапазона изменения величины^ (на практике, обычно, З^-п^З*, не удается сразу получит!, удовлетворительное разбиение ИВ на кластеры, соответствующее представлению исследователя п структуре РС: встают задачи дрполе ния слишком крупных кластеров на более мелкие, пересечение которых, по-видимому, не является пустым множеством в пространстве и устранения слишком мелких кластеров, не являющихся достаточно информативными.

Для решения этих задач были разработаны алгоритмы и написаны дополнительные программы (05) и (00), которые лежат строго в рамках идеологии основных программ (01)-(04>. Программа (05) позволяет по выбранному принципу ("ближайший сосед", "дальний сосед", "центр тяжести") объединять любые выделенные кластеры Iпручнцю или автоматически: по порогу близости или по числу век,торов в кластере. если оно меньше заданного порога). Программа (00) позволяет с помощью увеличения номера приближения т кривой Пеано дробить любые выделенные кластеры (вручную или по числу векторов в кластере, если оно больше заданного порога) на более мелкие.

Имея весь набор программ (01)-(06), исследователь может осуществить сколь угодно тонкий анализ ИВ и разбить ее на любое заданное число кластеров в соответствие с. его представлением об исследуемом РС. Главная причина, по которой это можно сделать, заключается в том, что работа программ (01)-(.06) не приводит к потере информации, содержащейся в ИВ. Происходит лишь преобразование этой информации в удобную для хранения и обработки на ЭВМ форму.

Непосредственное построение КК осуществляется программой (07) путем определения для каждого кластера 1--{ Ь всех векторов из ИВ, входящих в этот кластер, и вычисления эталонного вектора. Так как кластеры для речевого сигнала представляют собой чаще всего группы векторов сложной формы, то для таких кластеров в программе (0? ) предусмотрена возможность определять несколько эталонных векторов (вручную или по признаку компактности ъЯ' ). В работе пока-

■Лизано , что использование отображения позволяет сократить вр1 выоора эталона КК. ближайшего ко входному вектору, до оез существенного увеличения треоуемой памяти, в отличии от мете дихотомии.

На основе полученной КК можно решать задачу распознавания I вого предъявляемого для классификации вектора, сводя ее к пот места этого вектора в уже определенной структуре данных. Этот пс ход был применен при создании программы дообучения КК (ОВ), кот рая основана на процедуре принятия решения по "прецеденту", с I пользованием того Факта, что в силу свойства сходимости по разб! ниям кгг1 = 1,2у.. \ информация о более "грубых" приближениях крш

праНО ( - / ) МI.) Ж с Т иЫТЬ ПОЛуЧСНи ИЗ СС ТОПКИХ ПрИбЛИЖС!

ш-т^^т/ простым округлением координат образов на оси /?'. В пр( рамме (ПК) решающее правило по желанию исследователя может модис цироваться в процессе принятия решения включением новых классис цированных векторов или строиться только по ИВ; предусмотрена в( можность построения новых кластеров вручную > прямым заданием но торов г, периодически осуществляется автоматическое удаление из кластеров, обращение к которым особенно редки, и не обладающих : щитой от удаления, что заранее устанавливается исследователем.

В проведенных экспериментах использовалось представление Р1 виде векторов, составлении из коэффициентов ДСП (10), для кото] прозрачное соответствие формантам показано в предыдущих главах, результате пыла построена КК, ооеспечивающая заданное качес I.и11те ¡ированной речи для вокоднра с общей информационной скорос передачи речевого сигнала - 10'т0 бит/с.

.1 И К Л 10 Ч Е Н И Е

1. р.) .умом г,01 и ю I лодован оригинальный алгоритм поиска

| КаЛЧрНоГо |,|:,1|| I ов.шия КочффИЦИеНТОВ ЛИНеПНОЙ сПиКТралЬНоЙ Пар рамках рI■ шо11И'■! -¡аДаЧИ чффЮЛИВНОГО Кодирования коэффициентов 11 о Й! 1 о г 11 Нр1'(1.| 1.а :а!П1'-|. Ио|',а;а11о, ЧТО о|| ГЫзВиЛЯеТ На 132 умеНЬШ Т р 1111 у 11 м' о' ДЛЯ |1|о'Д| Та в ЛоПИЯ |т>М'1:иГи I И ГНаЛа ЧИСЛО битов 1111 1р НнНИЮ ' .111[¡|I■ И :1ао 1 ПЫМП М'ЧоДаМИ Кодирования без ухудшения КаЧСч 1.ШП О .Ирпваннии речи. При ЧТИМ о Кир ос Т Ь Передачи речи 101'ТаВЛ

.' 1 1.01 ОМ Г I .

Впервые получены про: тыо до1 таточные условия, КОТО

Должны ЧДЩ.Лс'ПифЯ I I. Со гффициопти /НШеШЮГи 1ф0Д1 Ка:а!1И'.(, 41

• интичирчюкий фильтр п i л , 11,,) я i Ч МИНИМ.11Ц.Ц11 -|м :м|:и|| функцией.

'I. Ир'-ДЛиЯННЛ И |«1 Г Л>'Л"Н'МЬ< "|фф''К I [1 fгц. 14 ||рн|р-лчр.1 ИЦПИП-ЛМИЧ ГIМ р ч Д Г. ■ I Модели ЛИННЙИИГП lipедг ка ill ll'-l И ЦоШГа l'.iiplli'II ■ 11Ь i Л И : И p У10 ЩГЧ'П фИЛЬГра ДЛЯ надежного ШфеДеДецИЧ '¡ai I и Г И ШПрИП фи р Ma 111 MM X траекторий. Показано 1НППЛ1. ЗеВацЦе данной Ир и II е ДЧр и При решении

задачи ЧДОМНОГе для щ i ЛеДОВаНИ',1 П1ПуаЛМ1п1 п ПреД| [аПленПЧ [ i е ч е fa i I n i пгнала и указано на Возможно: ТЬ ее применения ДЛЯ мДаЧИ I:"IМ11 реп.ни огибающей спектра в шпкмгкмрш тннх кикид^р.ж.

'1. Разработан комнлркг прикладных программ для моде пиринанич

на ЭВМ решения задач кластер-анализ рпмпрмги ■ ш и.«ли и.....ноге

рекурсивной процедуры отображения Многомерного llpoi Грац* гг.а Ш Ход НЫХ признаков на числовую ось, ТбИВОЛЯЮЩИЙ ■чффеКТПВИн lllo трепуе-МОЙ памяти И Времени I проводит!, достаточно Т"НК11Й анали ; исходной выборки. Чказано, что в этом глучае наибопее нффектиппым являетгя представление речевого сигнала через значения ч."о тот и ширин фор мант или коэффициенты линейной спектральной пары. 1'ешение задачи векторного квантования позволило построить цифровой вокодер i нищей скоростью передачи речи 1050 бит/с.

Основное содержание диссертации изложено в i ледующих рапптах: 1. Викторов А. В.. ¡Иаков М.Л., Форш П. II. Система parпо ¡цапания дискретной речи до 1000 слов для персонального компьютера// Автоматическое par.no знавание слуховых поразив. Таллинн, IГШЧ. -г..

?.. Викторов A.fi. Линейные спектральные пары как параметры метода линейного предсказания анализа и синтеза речевогп сигнала//Тех-пика средств связи, 'ГПС, Вып.а- С.-Петербург. ГГЦ, - с. fi'l-f/i. ''i. Викторов A.Fi. Оценка параметров формант через коэффициенты линейной спектральной пары// Техника средств связи, ТИС. Вып.а. С.-Петербург, ПИ. - с. fifí-72. 4. Викторов А.П., Коваль С.Л. Эффективный алгоритм вычисления коэффициентов линейной спектральной пары// Автоматическое распознавание слуховых образов,- Ижевск, 1412, - с. 171-\7Г>. И. Викторов А.П., Коваль С. Í1. Оценка формант для вокодеров, осип ванных на методе линейного предсказания// Автоматическое распознавание слуховых образов. - Ижевск, 1ПЧГ!,- с. 1 fifi-170.

oi4 31П.

САНКТ-ПЕТЕРБУРГСКИЙ ИНСТИТУТ ИНФОРМАТИКИ И АВТОМАТИЗАЦИИ РАН ВИКТОРОВ АНДРЕИ БОРИСОВИЧ

РАЗРАБОТКА И МОДЕЛИРОВАНИЕ НА ЭВМ ЭФФЕКТИВНЫХ МЕТОДОВ КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ НИЗКОСКОРОСТНЫХ ВОКОД Подписано к печати . Заказ . Тираж

Формат бумаги 60x64 1/16, 1.0 печ. л. -Бесплатно. Отпечатано ротапринтом в типографии АО "Пролетарский 193171, Санкт-Петербург, пр. Дудко, 3.