автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Разработка методики анализа и синтеза речевых сигналов на основе линейного предсказания

кандидата технических наук
Нгуен Ким Хань
город
Минск
год
1991
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Разработка методики анализа и синтеза речевых сигналов на основе линейного предсказания»

Автореферат диссертации по теме "Разработка методики анализа и синтеза речевых сигналов на основе линейного предсказания"

'о о Л Я

" 'БЕЛОРУССКИЙ ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ В.й. ЛЕНИНА

На правах рукописи

НГУЕН КИМ ХАНЬ

УДК 681.327.12

РАЗРАБОТКА МЕТОДИКИ АНАЛИЗА И СИНТЕЗА РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ

Специальность 05.13.16 - применение вычислительной . техники, математического моделирования и математических методов в научных исследованиях

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Минск - 1991

rf "/¿'As,

w v t f / / /

Работа выполнена в Белорусском ордена Трудового Красного Знамени государственном университете" им.В.И.Ленина.

Научные руководители

Официальные оппоненты

Ведущее предприятие

член-корреспондент АН БССР, доктор технических наук, профессор ШИРОКОВ A.M.

кандидат технических наук

куач тан нгок

доктор технических наук, профессор ГОРЕЛИК А.Л.

кандидат технических наук, доцент СПИРКОВ С.Н.

Институт технической кибернетики АН БССР

Защита диссертации состоится "27 " сентября ГЭГ года в 10 час, на заседании специализированного Совета К 056.03.14 в Белорусском государственном университете иыени В.И.Ленина по адресу: 220080, г.Минск, Ленинский проспект, 4.

с диссертацией можно ознакомиться в бибилиотекэ Белорусского государственного университета им.В.И.Ленина.

Автореферат разослан 1991 года.

В.М.СКРЙШШК

т - оезая характеристика, работы

; Актуальность темы. Появление новых средств вычислительной 'техниш'шозволяег использовать широкие возможности цифровой обработки сигналов при построении систем речевой связи. Современные системы охватывают и системы обработки, хранения и передачи речевых сигналов, устройства распознавания речи, синтеза речи и специальные информационные системы речевого общения человека и эвм.

Первая задача обработки речевых сигналов представляет собой стремление к совершенствованию системы анализа и синтеза речи. Целью анализа речевых оигнадов является получение удобного и компактного представления содержащейся в них информации. С точки зрения акустической теории анализ речевых сигналов обычно сводится к задачам разделения характеристик модели речеобразова-ния и определения параметров этой модели. Синтез речевых сигналов представляет собой процесс восстановления речи из данных, полученных при анализе.

В литературе, посвященной акустической теории речеобразова-ния, используются различные способы моделирования речи. Однако, моделью, которая имеет наиболее широкое применение, является линейная модель. В соответствии с этой моделью разрабатывается много разнообразных методов анализа и синтеза речевых сигналов, например, метод спектрального анализа, метод форыантного синтеза, метод линейного предсказания, гомоморфный иетод,...

Одним из наиболее эффективных методов обработки речевых сигналов является метод линейного предсказания. Его возможности очень, удачно согласуются с характеристиками речевых сигналов и обеспечивают точные и быстрые вычисления. Первое применение предсказания случайных процессов к речевым сигналам было опубликовано в 1957 году. Далее исследования проводились в двух направлениях: с.позиций теории рекуррентной линейной фильтрации и с позиций классического регрессивного анализа. Первое направление развива-ьгся в основном в работах советских специалистов. Второе направление развивается особенно интенсивно в США и Японии и используется в настоящей диссертационной работе. Во втором направлении существуют различные постановки задачи линейного предсказания при обработке речевых сигналов. Эти постановки отличаются исходными предполоиениями и сводятся к различным методам. Так, применитель-

3

ко к речевым сигналам существуют следующие методы вычисления: максимального правдоподобия, оценки спектра, ковариационный, автокорреляционный, лестничного фильтра, частной корреляции, линейной спектральной пары.

Применение метода линейного предсказания при построении практических систем анализа и синтеза речевых сигналов требует дополнительного и тщательного изучения для совершенствования алгоритмов и для выбора оптимальных условий анализа и синтеза. •

Цель работы. Целью диссертационной работы является исследование методов линейного предсказания и разработка методики анализа и синтеза речевых сигналов.

Основными задачами, определяемыми поставленной целью, являются:

1. Исследование образования речи и цифровых моделей речевых сигналов.

2. Исследование теории линейного, предсказания в обработке речевых сигналов.

3. Анализ и синтез речевых сигналов на основе линейного предсказания в пряном и обратном направлениях.

Оценка основных характеристик речевых сигналов с помощью линейного предсказания.

5. Разработка методики анализа и синтеза речевых сигналов на основе линейного предсказания.

Методы исследования. В работе применяются методы теории цифровой обработки сигналов и цифровых фильтров, теории случайных й^Ьцёссов. При имитации системы используется техника программирован йя на микрокомпьютере.

Йаучная новизна. Научная ноЕизна работы заключается в еле-дуЩеы:

1; Уй основе условия равенства энергии сигнала изложена простая й^бЦе^Й вычисления коэффициента усиления модели линейного пред-

¿»„ Метода наименьших квадратов впервые разработан

йвЬЙЦешфй^рдх^Д, к решению задачи линейного предсказания в пря-Ш й сбра^к^.ц^авлениях.

Йсслёдовады й созданы алгоритш анализа е синтеза.речевых сй£йайЬв на ^онввё {ШЙёйного предсказания для обеспечения возкое-МЬсЙ! времени.

4« Й^Шдвна ¿¿енка й£1ШаЛьных условий анализа и синтеза рече-

4

вых сигналов на основе линейного предсказания.

5. Разработано программное обеспеченно для имитации анализа и синтеза речевых сигналов на основе линейного предсказания.

Практическая ценность работа. Результаты, полученные в работе, могут быть использованы при построении систем анализа и сйнтеза речевых сигналов. Настоящая работа является составной частью государственной исследовательской программы Ханойского политехнического института: "Анализ и синтез вьетнамской речи".

Научные положения, выносимые на защит.у:

1. Анализ линейной модели речеобразования и общей модели линейного предсказания в обработке речевых сигналов.

2. Анализ и синтез речевых сигналов на основе линейного предсказания в прямом и обратном направлениях.

3. Оценка основных характеристик речевого сигнала на основе линейного предсказания.

4. Оценка оптимальных условий анализа и синтеза речевых сигналов на основе линейного предсказания,

Публикации. Материалы исследования докладывались и обсуждались на семинарах кафедры 'ладеасности и опубликованы в трех работах.

Структура и обьем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы, включающего 84 наименования, ~л приложения. Диссертационная работа изложена на 183 'страницах, в том числе содержит 28 страниц иллюстраций, 10 страниц списка литературы и 41 страницу приложения.

СОДЕРЖАНИЕ РАБОТЫ

Во введении показана актуальность теыы, установлены цель и задачи исследования, определены научная новизна и практическая ценность работы, кратко описывается содержание работы и сформированы основные защищаеиые положения.

В первой главе изложены исследования акустической модели образования речи и общей модели линейного предсказания в обработке речевых сигналов. Показано, что образование речи является сложным процессом. Однако линейная модель позволяет получить достаточно точное описание почти для всех звуков. В линейной модели источник возбукдения и голосовой тракт рассматривается как отдельные системы. Источник возбуждения формирует сигнал либо в

5

виде последовательности импульсов (для вокализованной речи), либо в форме случайного шума (для невокализованной речи). Голосовой тракт с учетом излучения представлен линейной системой с переменными параметрами. Эта система отображает резонансные явления в голосовом тракте.

■ Передаточная функция модели голосового тракта, которая широко применяется на практике, имеет только полюсы:

^ ¿¿и*-'

а)

где О и {сц , I = 1,2,...,М) являются параметрами модели. В соответствии с этой моделью анализ речевых сигналов на основе линейного предсказания рассмотрен для двух случаев сигнала: детерминированного и случайного. Показано, что задача линейного предсказания монет быть постановлена во временной области или в частотной области. Основная идея метода линейного предсказания заключается в том, что любой заданный отчет речевого сигнала мон-но аппроксимировать линейной комбинацией предыдущих отчетов:

М

Э(п) = - X «Ц5(п-1) , (2)

1=4

где $(«) - предсказанное значение речевого сигнала, а; - коэффициенты линейного предсказания, М - порядок предсказателя.

Ошибка предсказания определяется разностью между истинным значением и предсказанный значением сигнала:

М

«(") = 3(п)-5(п) = 5(п)+ <Ч5(п-1). (3)

Описание выражения (3) в виде z -преобразования позволяет получить модель анализа

Е(г) = 5(*)А« (А)

и модель синтеза речевого сигнала

5(г)= Е(2)/А(г). <5>

б

Коэффициенты линейного предсказания <Х1 находятся-путем ■ минимизации среднеквадратичного значения ошибки предсказания е(п) . Для этого берутся частные производные функции ёг(п) по а; и приравниваются к нулю. При этом получается следующая система линейных уравнений:

М

= _ С0} , ^ = 2, М, (б)

Ь — 1

где

Сц = X 5(п-1) 5 (н-П

И — и

(V)

п = п0

Минимальное среднеквадратичное значение ошибки предсказания имеет. вид:

М

а1со1 ■ (8)

1=»

С учетом интервала анализируемого сигнала рассмотрены два метода линейного предсказания: автокорреляционный и ковариационный. Для получения коэффициентов линейного предсказания мокно использовать эффективные алгоритмы, например, алгоритм Дарбина-Левинсона для автокорреляционного метода, алгоритм Холецкого для ковариационного метода.

Коэффициент & называется коэффициентом усиления модели линейного предсказания. В диссертации предложена простая процедура определения коэффициента усиления на основе условия равенства энергий входного сигнала и ошибки. Результат получается в виде.

й2 - «тт • (9)

Таким образом, при анализе полутени коэффициенты линейного предсказания сц и коэффициент усиления О

В первой главе также описан синтезатор речевых сигналов по коэффициентам линейного предсказания. Основным достоинством этого синтезатора является простота технической реализации. Существен-

ный недостаток заключается в том, что синтезатор представляет собой прямую форму рекурсивного цифрового фильтра, что требует высокой точности при вычислении коэффициент , так как прямая форма программирования весьма чувствительна к изменениям коэффициентов.

. Вторая глава посвяцена исследованию анализа и синтеза речевых сигналов с помощью линейного предсказания в двух направлениях. Здесь разработан обобщенный подход к решению задачи линей-' ного предсказания в прямом и обратном направлениях на основе метода наименьших квадратов и созданы алгоритмы анализа и синтеза речевых сигналов.

Предполагается, что имеется последовательность из N отсчетов дискретного речевого сигнала {S(n)} ~ {S(о), S(Y), • ■ • S(N - 4) . Здесь используются не один, а М линейных предсказателей в прямом и М в обратном. Ошибка прямого предсказания определяется разностью между исходным сигналом в момент п и предсказанным его значением на основе линейной комбинации предыдущих m отсчетов речевого сигнала, т.е.

rrv

eUn) = S(п) - s(w) = Sfo) + X am- s(n-i), (Ю)

t— i

где (Xrno = I и m - 1,2,..., M .

Ошибка обратного предсказания определяется разность» между исходным сйгналои в момент (n - m - и предсказанный значением на основе последующих т отсчетов:

т-

eín.(n) = S(n-m-<) - s(n- т.- s(n-m-4) + ]Е bmts(n-iX (II)

tri

где =1и m ss 1,2,.,.,., M .

, Суммарные квадратические ошибки прямого и обратного предска- . зан.и^. я корреляция ыеквд этими ошибками описываются соответственно следуюгйшй соотношениями:

> n« 2

= S [eUvо] , (12)

W. 2 Но

р

= 2- [соо], • (и)

ПГПо

>г<

(14)

При использовании ыетода наименьших квадратов для минимизации ошибок 11т и получаются следующие системы линейных уравнений:

UO m+4

am¡, cVj - О , amo Г í a j - ^ 2, ... m; * (15)

^b„ilC¡j-0/ bWV/m+4=1 u j - . . yYTi.)

Дв Су определяется выракенйвм (7). С учетом (15) и (16) ыини-альныё значения U.m и vm и значение корреляции w*,, ринимают в виде vv»

umr ¿Lew Coi/, (17).

i-o

m + <

~ \>mi C^m+4y i > (16)

i- — 1

rrv " m+4

Wwv = X bwí Col • (19)

v=o i.-1

Параметры прямого линейного предсказания определяются рвкур-вяой процедурой

о — 1 ,

atu-H,L ~ + kw+í bm¿ t Ir (20)

&m + . ^ — ^rrv J

где

Параметры обратного предсказания определяются следующим образом;

С

гти<

Ьт;, = - ^упк Ь^; .

к = (22)

где

^тп- — ~ ¿Е. Ь^ . (23)

Ьт/т+4 = ь

т+1

X

** .¡ = )

Ошибка и.т+4 вычисляется по формуле:

= ит+ кт+,, , (24)

Полученный рекурсивный алгоригн является обобщенным для автокорреляционного и ковариационного методов. При вычислений для автокорреляционного метода получаются результаты, совпадающие с результатами метода частной корреляции.

Коэффициенты к т. , полученные в автокорреляционном алгоритме, называются коэффициентами частной корреляций или коэффициентами отражения. Модули этих коэффициентов ограничены единице! В ковариационном алгоритма получены обобщенные коэффициенты отражения. При этом случае для получения истинных коэффициентов отражения используется рекурсивное преобразование параметров.

Далее в этой главе рассмотрены два алгоритма анализа речевых сигналов на основе лестничного фильтра. Первый алгоритм описывается следующими уравнениями

= е^./п) 4- кт , (25а)

(п) =

(п-0 + ^т-Дп-О, (25б).

где

ю

( -.

е+(л) = s(n) , e¡(n) = s(w-0

N-)

И — /■! ' v ^

L - _n=o_

Vy» ' ............................................ "-------------------------------.-i- «

. N-l ' л2 K-' -.2

2 [<&.«(n)] + z ¡>^,0)]

П=0 П:0

Во втором алгоритме для лестничного фильтра используются следующие рекурсивные формулы:

U= "1Ü77T > (27а)

Х*ло — Хуп-к, о + t<mXm-«,nv) (276)

*m¡, — X m -1, ¿ 4- Xm.4/m.i, ; i = m + w + 2,..., M, M+ (27в)

Xm,nv-v = vm_1/m.i+ ^mX^.^i; i- +

где

™ N-4

x^j = iLa^i R(i--j) и xei=R(i,)= Zs(n)s&ui).№)

iro ' n=o

Алгоритмы на основе лестничного фильтра просто реализуются технически, так как в них используются одинаковые звенья фильтра.

Во второй главе описан синтезатор по коэффициентам частной корреляции. Этот синтезатор реализуется на основе соотношений:

ет-<(>) = e+m(n) - е™. Д yv) ; (28а)

ет(п) г <28б>

где

е+м Сн) - е(п) и ef0(n.) = sCn) .

Необходимым и достаточном условием устойчивости синтезатора по коэффициентам частной корреляции является ограничение этих коэф-

JI

фициентов единицей по модулю. Таким образом, в этом случае получается устойчивый синтезатор.

Последним методом анализа и синтеза речевых сигналов, рассмотренным в этой главе, является метод линейной спектральной пары. Недостаток этого метода связан со сложность» вычислений, Его достоинство заключается в том, что количество параметров значительно уменьшается.

В третьей главе проведена оценка основных характеристик речевого сигнала, состоящих из параметров источника возбуждения и формант, на основе линейного предсказания. Далее исследован ряд вопросов в разработке методики анализа и синтеза речевых сигналов. Эти вопросы состоят из кодирования параметров линейного предсказания, практического использования алгоритмов линейного предсказания, выбора частоты дискретизации, порядка фидьтра-пред' сказателя, интервала анализируемого сигнала, выбора типа функции временного окна.

Показано, что при оценивании источника возбукдекия речевых сигналов необходимо определить два параметра: период основного тона для вокализованных звуков и признак "тон-шум". Здесь рас-GüCipS"" два метода выделения этих параметров на основе линейног предсказания, Один называется методом обратной фильтрации, второ - методом фильтра-предсказателя основного тона. Метод обратной фильтрации выделяет основной тон в диапазоне 50-250 Гц. Линейное предсказание здесь используется для выравнивания спектра с целью .облегчения оценивания основного тона. Метод обратной фильтрации дает точные оценки периода основного тона до тех пор, пока сяект сигнала выравнивается достаточно хорошо. Однако для голосов с малым периодом основного тона этот метод приводит к плохим резул татам. Второй метод выделения параметров источника возбуждения выполняется долговременным предсказателем, который размещается за кратковременным предсказателем.

Формантами речевых сигналов являются резонансные частоты голосрвого тракта. Показано, что метод линейного предсказания ыоасет быть использован для получения точных оценок формант. Форманты можно оценить по коэффициентам линейного предсказания дву» способами. Первый состоит в факторизации полинома предсказания A(ss) на основе полученных корней и вынесении решения о том, какие из корней описывают форманты, а какие форму спектра. Друп способ заключается в оценке спектра и использовании метода

выделения максимумов. Описана процедура оценки частот и полос формант на основе параболической интерполяции спектра модели линейного предсказания.

Параметрами линейного предсказания могут быть: коэффициенты линейного предсказания, полюсы передаточной функции,-коэффициенты отражения., параметры линейной спектральной пары. На основе анализа свойств этих параметров показано, что коэффициенты отражения и параметры линейной спектральной пары обеспечивают оптимальное кодирование и устойчивость синтезирующего фильтра.

Проведено сравнение количества операций умножения алгоритмов анализа, рассмотренных в главо 2. Отмечено, что автокорреляционный алгоритм и второй алгоритм лестничного фильтра являются наиболее эффективными.

Теоретические исследования и анализ имитационных результатов позволяют сформулировать условия работы системы анализа и синтеза речевых сигналов на основе линейного предсказания:

- частота дискретизации = 10 кГц для вокализованного звука; Рг = 20 кГц для всего диапазона речевых сигналов;

- з случае = Ю кГц, порядок предсказателя составляет N = 13 * 14; в случае р5 = 20 кГц, М = 20;

- длина интервала анализируемого сигнала N = 100 + 450 отсчетов;

- эффективны« временный окном является окно Ханнинга. ' '

В приложении представлен комплект программ имитации системы

анализа и синтеза речевых сигналов на основе линейного предсказания и несколько результатов вычислений на персональном компьютере. Эти программы составлены на языкз Паскаля м включают следующие :

- программа формантного синтеза речевых сигналов, (используется в формировании исходных речевых сигналов);

- программа анализа и синтеза речевых сигналов;

- программа оценки основного тона;

- программа оценки формант.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

В соответствии с поставленной целью и задачами диссертации э процессе теоретических исследований и имитации на ЭВМ получены следующие основное результаты:

13

1. При исследовании характеристик речевого тракта и основных моделей образования речи было отмечено, что линейная модель, передаточная функция которой имеет только полюсы, позволяет получить достаточно точное описание речевых сигналов.

2. Линейное предсказание представляет собой мощное средство для цифровой обработки речевых сигналов. Его возможности очень удачно согласуются с характеристиками речевых сигналов. Использование метода линейного предсказания позволяет значительно уиеньшать избыточность в речевом сигнале. В сущности, анализ методом линейного предсказания представляет собой операцию сжатия данных.

3. На основе условия равенства энергий входного сигнала и ошибки предлокена простая процедура вычисления коэффициента усиления модели линейного предсказания.

Коэффициенты линейного предсказания могуг быть вычислены простыми алгоритмами, которые приведены в первой главе. Однако синтезатор речевых сигналов по коэффициентам линейного предсказания является неустойчивым.

5. На основе метода наименьших квадратов впервые разработан обобщенный подход к решению задачи линейного предсказания в прямом и обратном направлениях. Из полученных результатов созданы,рекурсивные алгоритмы анализа речевых сигналов по автокорреляционному и ковариационному методам.

6. Показано, что наиболее аффективными параметрами, полученными при анализе речевых сигналов,-являются коэффициенты частной

1 корреляции или коэффициенты отражения. Эти коэффициенты использованы в построении алгоритмов анализа речевых сигналов на осно-16 лестничного фильтра, достоинством этих алгоритмов является простота технической реализации. Синтезатор речевых сигналов по коэффициентам частной корреляции обеспечивает устойчивую работу. Коэффициенты частной корреляции также являются наилучшими с точки зрения оптимального кодирования.

7. Параметры источника возбувдения и форманты речевых сигналов могут6быть определены на основе алгоритмов линейного лредсказани

8. Для повышения скорости вычисления можно использовать некоторые методы уменьшения количества операций умножения при вычислении автокорреляционной функции.

9. Показан выбор оптимальных условий анализа и синтеза речевых сигналов на основе линейного предсказание.

I'»

10. Анализ и синтез речевнх сигналов реализована программна " обеспечением. Полученные результаты могут быть использованы з системах, работающих в реальном времени.

1. Нгуен Ким Хань, Куач Гуан Нгок. Методы и алгоритмы линейного предсказания// Журнал военной информатики Вьетнама (в печати).

2. Нгуен Ким Хань, Куач Туак Нгок. Имитация анализа и синтеза речевых сигналов методом линейного предсказания// Сборник научных работ Ханойского политехнического института. - Ханой 1989.

• 3. Нгуен Ким Хань. Определение формант речевых сигналов на основе параметров линейного предсказания// Сборник научных работ „ Ханойского политехнического института - Ханой 1989.

СПИСОК НАУЧНЫХ ТРУДОВ