автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Артикуляторно-формантный синтез речи

кандидата технических наук
Миллер, Александр Генрихович
город
Москва
год
1992
специальность ВАК РФ
05.13.01
Автореферат по информатике, вычислительной технике и управлению на тему «Артикуляторно-формантный синтез речи»

Автореферат диссертации по теме "Артикуляторно-формантный синтез речи"

РОССИ-СКЛЯ АКАДЕМИЯ НАУК ИНСТИТУТ ПРОБЛЕМ ПЕРЕДАЧИ ИНФОРМАЦИИ

На правах рууоьиои

МИЛЛЕР АЛЕКСАНДР ГЕНРИХОВИЧ

УДК 621.3'.'

АРТИКУЛЯТОРНО-ФОРМАНТНЫИ СИНТЕЗ РЕЧИ

Специальность 05. 111. 01 Управление в технических системах

АШОРЕФЕРАТ

диссертации на сснсканив умений степени кандидата технических наук

МОСКВА -

кюогл выполнена в Институте проблем передачи информации

Роогийоксш Акалекир Наук

Научной руководитель:

доктор физико-математических наук

В. Н. Сорокин

ОЛшшалыше оппоненты:

доктор технических наук,

профессор

Ю.'I. Прохоров

кандидат технических наук В. Я. Чучупал

Ведущая организация:

Институт прикладной физики РАН (г. Н.Новгород)

Защита состоится "_"____ 1992 г. в_часов

на заседании специализированного совета Л. 003. 29. 01 в Институте проблем передачи информации РАН по адресу 101Ф17. Москза, ГСП-4, ул. Ермоловой,

С диссертацией г.ожио ознакомиться в библиотеке ИП1Ш РАН.

Автореферат разослан "______1992 г.

Учений секретарь специализированного совета доктор технических наук

С. Н. Степенов

ОБЩЛЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Синтез речи, обеспечивая получение информации в речевой форме от различных источников, является одним из важных элемептон систем речевой связи. Яял грименения таких систем в ряде областей, например, в информационно-справочных системах, автоматизированных системах управления, для категории лчдей с растроПстэамм и речедвигателыюн аппарате и нарушениями зрения, при обучении иностранному языку, необходимо располагать синтезатором речи по произвольному тексту. Среди применяемых методов синтеза речи по тексту артикуляторный подход привлекает внимание разработчиков возможностью создания синтезатора, позволяющего гийко управлять свойствами синтезированного голоса посредством имитации многообразия явлений системы речеобразования. В силу автоматической лонтроли• руемости характеристик речевого сигнала, артикуляторный синтеза "ор потециально способен обеспечить качество синтезированной речи, достаточно Слизко напоминаюиее естественную.

За последние примерно 25 лет был предложен ряд вариантов систем зртикуляторного синтеза, которые в различной стопени реализовали часть потенциальных возможностей артикуляторного подхода. Широкому распространению артикуляторных синтезаюров препятствуют два основных фактора, а иминно, отсутствие критерием управления синтезатором и огрочные вычислительные затрать, необходимые для расчета речевой волны. В силу этих трудностей предметом исследований систем синтеза до сих пор были, :<ак правило, стационарные звуки. Известные системы артикуляторного синтеза делятся на две категории: артикуляторно-волновые. в которых речевая волна определяэтея во временной ссНасти и артикуляторко-формантные, выполняюда'.е расчет речевою сигнала чер<чз параметры частотного описания. Первый тип сшзичеекк более ачекнатен акустике рочеобраэопания, чеч второй, но вычислительно трудоемок, а гохе время артчкуляторно-формантный синтез может иыть значительно экономичнее при приецлэмой для си1|тезатора точности описания ак> ;тнки голосообпазования, если :пРти соогнетствугкии "кса^нн.«1 подола процессии в тракт о. Система счите^а речи. ор1;о1-.гипо1/1м:а I *а применение в лртнкулчгорним синтезаторе дол*ич кочпромн :с:>о гочегать точность описания процесс.-: рочепятасьа.шя с цюОог.'.нчя-

мп вычислительной эффективности. В этом отношении развитие арти-куляюрно-Тормашной системы синтеза речи представляется в насто-врочл актуальным направлением в разработке аргикупяторнсго синтезатора.

заключается в развитии модели речеобразования прионтироьчниой на применение а артикуляторном сингезг оро речи и разработке система управ isühh синтезатором.

Д<к пжение этрй цепи предполагает решение следующей совокупности з.иич:

- ('заработку эффектнвиых вычислительных алгоритмов для расчета p..v?oiiaiH-!iwx параметров речевого тракта;

- создание системы синтеза речи, позволяющей воспроизводить все классы зцую1< в слитном произнесении;

- проведении аудиторских тестон с целью отбора параметров, сущес-тв'чших длл качества синтезированной реч!\

На/ чн а я _i (с видна

1. Разработени и исслодоианн четыре метода решения уравнения речевого тракта нл собственные значения.

2. С поыодыи метода эффективной скорости звука исследовано влия-ине податливости стенок тракта. Построен алгоритм, использующий эффективную скорость звука в численной схеме поиска резонансных частот.

3. Разработана относительно простая модель юлосового источника, обладающего высокой натуральностью.

4. Разработана модель системы управления динамикой артикуляции в цяпя:< синтеза слитной рочи.

Лолохенкя, зынссмныо ия защиту

1. Алгоритмы вычисления резонансных параметров речевого тракта, основанные па методах акаивалетной Задачи Коик, монотонной прою-нкл, встречной прогонки с сшиванием и фазсво(' функшш. J. Результаты иссхедппаянл влияния поцатлпьости cil-нэк тракта на час тс типе характеристики роче"'>го сигнала ü качество звучания синтезированной речи.

Ъ. г,чдоо.овсй источник для синтезатора печи.'.

4. Кмперии. хйрактемкз;.щии свойства системы управления артику-лл::иа!': ъ симгемлторлх рочи.

1рактическая значимость работы Разработана эффектиш'ая полечь синтоза речи, чвляюааяся оснопоп синтезатора речи по тексту.

Установлены параметры зршкуляторноД модели, необходимее ллл :интеза разборчивой речи.

Проведены аудиторские испытания натуральности зеучамия м шшил юны оценки фонетической и слоговой различимости пипсзиропашшх шуков.

Синтезирована с.читнат речь..

Практическая значимость работы подтверждена актами о ннвдре-

[Ш1.

.пробацпя работы

Результаты работы догладывались на 16-й и i7-й Ворсопнрх :онференциях "Аитоматическое распознавание слуховых оЗиалоъ" (Су-|даль-1990, Ижеьск-1992',, на xxvii-ïi конференции молодых ст-ши-.четов на баге Института проблем передачи информации (Мое;м 992;. на Международно« симпозиуме по пеПроинформ.шгико и nefl;io-:омпьютерам (Росгон-на-Дону-1942 ).

¡убликации

По темо диссертации Оыло опубликовано 7 печатных раоот.

труктура диссертации

Диссертация состоит из введения, четырех глав, заключения, лиска основных источников и приложения.

"№АТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во вчеден.т обоснована актуальность раиоты. Сфсрмулнропас.ч ели и за чачи исследования, привеланы осночные научный пезулмь и, Еыносимие на заапту, дан крзпеий обзир соцорьанил дпг^ерта-ии.

Первая гл.1ьа ни.;иг и оснош:."м псстагоночный .vjp.ii юр. Р и, -але глары обит аано грипеноние .фтикуллторч огс подход i и ^тлз1;«-

ОСТрпРИИЯ СИ01Ч; Ч| ПО П|ч/.1ЯЬ0ЛЬ(!чМУ T.VOiy. 3 ¡J 1С-:: lu < (.?

на пводитс.! .з^Ллча разработки <■..". семь uo/ii-iu.ii .[рощи< г ч ре o;i0 азонапия, орисл'.'ирокаштй >ui рр^."'Шиша в .--ыис* ат■>;•> речи. I»

качостье основного критерия в выборе конфигурации системы и методов моделирования ее элементов установлено требование приемлемого качестса (натуральности и разборчивости) синтезированной речи при доступной для реализации вычислительной сложности алгоритмов обработки. Выделены следуюдие основные элементы системы артикуля-торного синтеза:

- геометрия речевого тракта;

- ьол.ювые процессы;

- и .очники возбуждения;

- система управления артикуляцией.

Представлен развернутый анализ существующих систем артикуляторно-гс синтеза. Известные модели артикуляторных синтезаторов основываются, как правило, на вычислении формы тракт.1 и функции площади поперечного сечения с последующим расчетом речевого сигнала но входным артикул/1торно-фонетическим параметрам. В зависимости от методов моделирования волновых процессов и источников возбуждения, артккуляторный синтез может быть реализован методами вре-нешого анализа, методами частотного анализа и гибридными методами. Анализ существующих систем артикуляторного синтеза показал, что используемые з них модели речеобразования требуют модификации при разработке системы, ориентированной на синтезатор речи по тексту. Установлено [1], что для разработки системы синтеза речи, удовлетворяющий поставленному выло критерию, необходимо:

- реализовать артикуляторно-формантную схему синтеза, основанную на расчете амплитудно-частотных характеристик речевого тракта для управления формантным синтезатором;

- применить кокг.чно-разностные методы для решения уравнения речевого тракта относительно резонансных частот;

- использовать аэродинамическую модель источника голосового возбуждения с параметрическим заданием функции плоиаки голосовой щели;

- ввести параметрическое описание ряда явлений в акустике голосового тракта существенных для восприятия;

- использовать мкогопарэметрнческу» модель артикуляции с квазине-заянспмьм управлением отдельными артикуляторами ъ соответствии с заданной 11рограм?юй.

Рчорая глана посвящена построению акустической модели голосового тракта и ез реализации в ьиде схемы артику.ляторно-Оормантного синтеза. Р этой главе проводится анализ системы ураа-

ений речевого тракта с помощью метода эффективной скорости :?ву а; выполняется сравнительный анализ альтернативных методов учи га лияния податливости стенок тракта; исследуются методы численного «пения уравнения разветвленного и иоразвегвлешюго речевого jpa-;та; рассматривается модель акустики речевого тракта, разрабатн-1ается автоматическая процзлура контроля неносрыпности парапет|ю" правления формантными фильтрами: проводится оценка вычислито.чьим затрат схемы артикуляторно-формантиого синтеза.

Речевой тракт описняается в виде акустической грубы перомел-юго сечения, б которой в диапазона частот до -1 кГц распростри [яются плоские акустические волны. В зависимости от состоят: i I ртикуляционной системы к речевому тракту могут прнсоединять-:я носовая и нодсвязочпые иолостл. Предполагая, что линейные провесы в тракте доминируют, часто пользуются эффективным аппара-'ом спектрально['о анализа дифференциальных уравнений речевого ■ракта для вычисления спектральных параметров - резонаненьх час-гот, амплитудных коэффициентов и коэффициентов затухания. Зти ■араметрц используются далеэ для управления формантными фпльтра-ш, сумма откликов которых представляет собой речевой сигнал.

При создагши частотной модели акустики речооого тракта обыч-ю возникают следующие проблемы. Исходное ураытнио рочвього траста получено в предположении абсолютно жестких стенок тргхта, i го время как стенки тракта являются податливыми. Пппии.и учесть юдатливость стенок тракта в вило эквивалентных сосредоточенных юделей приводят к значительным погрешностям в оценке резонансных ¡астот. По этой причине необходим анализ акустики тракiа с цзльш юиока более адекватной формы учета распределенного импеданса :тенск. Следующая проблема связана с быстрым расчетом резонансных (астот по "равнению.речевого тракта. Известны пчпы'.кн применить 1ля решения этой задачи коночио-разностние коюш, котирыи приникают вычисли гелыюА экономичностью. Ppoft.iei.in в ixnobv.mi .,,u:.i ?тих методов свкзаны с нс-аыполнрнпом ycj.ojnn, rapai.i группах устойчивость .1лгор1 тюь. иго трсбуог их эксгэрнконт.! и,нос ырс:* .-ркп 1 модификации дна '•члучиния устойчивых чисюнних с/им расщ м зезонасныу часка в заданной оОлэстп артикул^тг,рны:: состомш.Ч 1ри управлении параметрами фосшч: : фильтров ijojmi.k.iijt за.и ч . «онтроля непренп.юоти парамогр^н и üohpi.i j л,- ооис.впоьия. нескольку нарушении порялк.1 следоч.«т:я pt зонзнио:. ¡-.риио.мт к onv нчм 1скаж<?ниям рентного ci' нала. Инф' рнацил и .к cj'.'jioi.a i слы.о. ти *оп

мантных колебаний не нохет быть получена из анализа акустики тракта ввилу разнообразия возможных состояний. Тем не менее автоматическая процедура контроля является необходимым элементом ар-тикуляторно-формантной системы синтеза, ориентированной на применение в синтезаторе.

Акустика голосового тракта описывается известкой системой уравнений в частных производных относительно переменные давления и объемгой скорости. Вследствии податливости стенок тракта и дав-лои"ч и объемная скорость являются функциями двух переменных -продольной г поперечной координат тракта. Для того, чтобы исключить зависимость от поперечной координаты, иыло предложено ис-логьз^вать параметр распределенной эффективной скорости звука [21, учитывающий изменение сжимаемости среди в результате подат-лчвссти стсноч гракм. Эффективная скорости звука определяется следующим выражением

с2

с2 (и,*) =-----------------

, . 2Г-<В'*){£ р0

■¡йаТх)

где (и,х) - проводимость стенок тракта, а',х) - линейный размер поперечного сечения тракта, с - скорость звука в свободной среде, ро - плотность зоздуха, х - координата вдоль оси тракта, о - круговая частота. Параметр г (и,х) отражает влияние формы тракта и импеданса стенок вдоль пространственной координаты, что отличает данный метод от сосредоточенных моделей, в которых используются усреднение оценки импеданса стенок и формы тракта. После проведения преобразований уравнение речевого тракта приобретает следующий вид:

с ( х) г

Т~ПП 3£<*„<«> Л ■ т!г (1>

о о с

где Аа(х) - площадь тракта, р\х,Ь) - распределений давления вдо'ь

грэкга, ь - время. Уравнение (1) соотвествует традиционной форме записи уравнения тракта с жесткими степками с тем отличием, что ьмосто параметра скорости звука в свободной среде использован параметр эффективной распределенной скорости звука. Параметр с (и-,*) автоматически контролирует возникновение эффекта запирания. который имеет место при достаточно малой площади сужения в трате. В этом случае отсутствие распространения звуковых воли наблюда'тся, если выполняется неравенство:

I 2У"'х)Со ро I < 1

| ;|иа(х) |

В результате моделирования найдено , чго применения могола распределенной эффективно!! скорости звука позволяет повысить точность расчета резонансных частот по сравнению с сосредоточенными моделями в среднем на 10/.. а в ряде случаев - более, чем ча 20% 12].

С помощью метода разделение переменных (метода Фурье) осуществляется переход от (1) к системе обыкновенных дифференциальных уравнений, п которой уравнение пространстпинноЛ моды давления есть

д

<Ло*' )' --= 0. (2)

с

*

Частота резонансных колебаний в тракте г = и}/2л определяется решением задачи Штурма-Лиувилля (2) относительно собственных чэс-~от Расчет резонансных частот уравнения (2) было пречлоэепо осуществлять методом пристрелки 13,4], .заключающимся з интлти.ро-Еании (2) я заданном диапазоне частот и поиске такого наЗора частот, при котором решение удовлетворяет поставленным краевым у. но-виям. Формально пристрелка сводится к минимизации функции ненязм. граничного условия л(ы,х), которая на голосовой щели имеет вид

л(и,0) » (<■>,о)-ф' (о; (з) '

где - производная от давления при те.сущой частоте и,

$'(0) - производная от данкения, заданная 13 краевом условии, поскольку на голосовой щели принято, ч.о ф' (0) - 0, то резонанс.та частоты определяются из уравнения

<Г' (и> 0) . о

Невязка граничного условия вычисляется на постоянен лаге 141 тонирования (2). Для построения устойчивых схел поиска резона,¡сны:: частот в работе проведено исслодиван;:е гледуюких методов: -.»кит.-лентноТ задачи с начальными условиями (злглчи Коши). мочотичноЛ прогонки, фазовой Функции, а т?|;:го разработана модификация алгоритма прогонки сь ивлчнем решен ш в точкч ¡мзрига ф'.тк'^и пг.о:ч..-

ДИ. Об'НИМ НОДО.П.ГГКОМ ЬЛ'ИХ МЧГОД-1П Я1')1Я;',СЛ чу ВС ГЬИ1.-.,.г;К'СГЬ шчния к разрыв.1.м Функции Лц (*)/„•" (.х). &1ш оиюг.ны--: тчпг.ч артн.у лягормых состо |.:.:й окг,-.'юсь ("мм. ::ным н ,йги у-юЛ'ць':;'; .и гор.пни 13). В общем с.Т'ае псиск ре:.с.|| 11:сних г> Э|-л пит ¡.лепною

речевого тракт.I принято ¡млкооог ч. вчпопнягь мчи'/ои .11ч:.:1|«»-

лки на основе фазовой функции. Этот метод нечувствителен к скачкам функции а^ {х)/сг (х) при расчете резонанс них частот. Кроме того, метод фазовой функции не требует вычислений собственный Функций на каждой итерации по частоте при поиске собственных частот, что является источником дополнительной экономии вычислительного рессурса. Метод прогонки с сшиванием в точке разрыва необходим в случае излома функции л (х)/с2(х), который зсгда имеет

О 9

место при координате в тракте в фарингиальной полости. Для поиска езонанснш: частот разветвленной акустической систми был найлон алгоритм, минимизирующий функцию невязки непрерывности потока на небной занавеске

Л(х .и) - Ф' 1х )а'-7■ и М „-«>' <Х )л*.

V V О V N V О

где , и <р' - производные собственных функций соответственно фар:шги?льноР., носовой и ротовой полостей: а'о, ли и л* - площад» в окрестности носоглоточного прохода, х - координата носоглоточ-

и

ного г.рохода. В качестве вычислительных процедур для разветвленного тракта применялись метод прогонки с сшивании в фарингиально! полости, метод Коши в ротовой полости и метод монотонной прогонк! в носовой полости. Такая конфигурация методов обеспечивает устойчивость и минимальные вычислительные затраты.

Рассчитанные частотные параметры речевого тракта использовались для управления формантными фильтрами с целью сборки речево{ полни. Ввицу разнообразия артикуляторно-акустических состояний, возникающих при артикуляции различных звуков,' число резонансны} частот в моменты обновления параметров формантных фильтров может оить различно. При этом возникает задача контропя соответствш вноьь рассчитанной резонансной частоты определенному формантном! Фильтру. В данной работе был- разработан алгоритм автоматическое контроля последовательности резонансных колебаний (11.

Рассмотрим кратко структуру алгоритма. В момент времени соотносятся два набора частот . где Э - номер частоты ;

текущий момент вречепи, к - номер какала в предыдущий монзнг времени. После пооведения попарного сравнения двух наборов частот составляется функция переключения й(А> » устанавливающая, соответствие между к-м каналом и ¿-м резонансом. Функции 1>1к] присваивается следующие значения:

| 0. если л-Я канал закрывае/ся

" | э. если у л резонансная частота присваиг.ается к-у ( каналу

Если по окончании сравнения h^k)*j по всем к, то открывается новый канал из числа молчащих. Канал фильтра считается молчащим, если относительная амплитуда сигнала в нем менее 40 дБ.

Оценка вычислительных затрат на синтез речевой волны показала, что около 90'/. вычислительного времени необходимо для расчета собственных частот уравнения (2). Без применения оптимизации процедуры поиска резонансных параметров общие вычислительные затраты составляют около 5 млн. операций умножения .с плаваний запятой. Время вычислений может быть значительно уменьшено, если использовать сведения о динамике формы тракта, что позцолит управлять частотой обращений к процедуре поиска резонансных частот. Другой путь заключатся е примениеиии структур нейроподобных сетей £2].

Третья глава посвящена разработке параметрической модели голосового источника. В данной главе описывается интерактивная модель аэродинамического источника голосового возбуждения, учитывающая девиации спектральных параметров на периоде основного тона; рассматриваются модели фрикативного и аспиративного источников возбуждения; строится модель динамических вариаций импульса основного тона; приводятся результаты аудиторского тестирования синтезированных гласных на натуральность.

Голосовой источник, вообще говоря, неразделим с речевым трактом вследствии нелинейности процессов возбуждения акустических колебаний. Однако исследование нелинейных параметрических уравнений в частных производных, описывающих колебания б речевом тракте, является чрезвычайно сложной задачей. Известно, что для целей синтеза речи достаточно располагать линейной модель«' возбуждения, в которой тракт и источник рассматриваются как раздельные, хотя взаимозависимые системы. Качество

синтезированной речи в значительной мере определяется аэродинамическими явлениями в системе тракт/источник, поэтому возникает задача разработки модели аэродинамики голосового источника, имитирующей эффекты взаимодействия источника с голосовым тргктом.

В системе формирования импульса голосового возбуждения принимают участив процессы, носящие шумовой характер. Эти процессы существенно влияют на натуральность синтезированной речи, что вызывает необходимость их имитации в модели голосового «источника.

Оценка характеристик голосого источника требует проведения аудиторского теста с целью определения качества синтезированных гласных по сравнению с естественными.

За основу модели голосового источника взята аэродинамическая модель с параметрическим заданием площади голосовой щели [5). Возбуждение тракта осущестртяется первой производной объемной скорости воздушного потока в голосовой щели. Объемная скорость

ЩЬ) получается как результат решения известного аэродинамическо-

«

го уравнения голосовой дели:

• . к р г

.аи . , ъ о и . „.

Р ¡Кпг- * к.и * — о ■ 1М ,

го ас / А 2 и»

V*

где и - объемная скорость, А - площадь голосовой дели, л

глубина юлосовой дели, ьр - разность подсвязочного и надсвязоч-

ного давлений, к и к - соответственно коэффициенты динамическо-ь ./

го сопротивления и вязкого трения. Форма плочади голосовой вели задается следующим соотношением:

0.5А [1 -созЫЬ/сЬ )], если t(ct

тах эр ор

п(<>сЬ )

0.5А (1+со5-т—г,—^—1. если Ь>сЬ

та ж С V I -С) ор.

ар

где I - время открытой голосовой щели, с < 1 - параметр "пере-

ор

коса'.

На интервале открытой голосовой щели ротовая и подсвязочная полости объединяются в единую акустическую систему. Это явление сопровождается девиацией формантных частот и затуханий резонан-соа. Расчет девиаций резонансных частот выполнялся с помощью метода переносного импеданса 16]. Для этого входной импеданс речевого тракта со стороны голосовой щели был определен как сумма переносного импеданса легких и собственно импеданса голосовой щели как тонкой диафрагмы в акустической трубе. 3 результате получено следующее выражение для входного импеданса тракта:

2 - С х

и* О « vo

А С - и V ь /с )

# л. ^ 7 Ъ »' л'

( Л » * * * ЛЬ А Г •

' » и V + С А ¿дг(и> Ь ¡С*У

ти- - плопадь поперечного сечения трахеи, V - оЗг.ем ле! ких, л. - длит трахеи. И ;ходя из (3). ф/нкция невязки приобретает вил

ди.о, - А,,

С О V в

Как и рлпое, резонансные частоты получаются в результата рышения

уравнения

л(и, 0) - о

Расчет девиаций, выполненный на подели показал достаточно близкое совпадение результатов с экспериментальными данными. Девиация формантных частот в реальной речи происходит непрерыпно по мере раскрытия голосовсй шели. Однако расчет резонансных частот синхронно с периодом основного тона потребовал бы значительного повышения времени вычислений. В тоже время эксперименты по анализу михрозариаций частоты резонансов на периоде основного тона показали. что форма девиаций во времени хорошо аппроксимируется формой аолнн объемной скорости. Поэтому в предлагаемой вычислительной схеме (6) резонансные частоты находятся для двух состояний голосовой щели - открытой и сомкнутой. Промежуточные значения резонансов интерполируются функцией w(t), пропорциональной объемной скорости голосового источника, а именно

F <t> - F'°4 (К - Fl0' )wlt)

М М Я to

где F*0) и F - резонансные частоты в тракте при закрытой и от крытой голосовой дели соответственно.

На протекание воздушной массы через голосовую щель оказывают влияние сопротивление легких и голосового тракта. Особенно заметно это влияние при артикуляции взрывных и фрикативных звуков. Для моделирования этого явления была использована эквивалентная схема речевого тракта а виде последовательного соединения нелинейного сопротивления легких, голосспой щели и речевого тракта, что привело к следующему уравнению потока в голосовой цели

L и + (Я * R )и « Р t ft bt г,

где Lt, я и я - суммарные по тракту индуктивность, сопротивление вязкому тренп» и динамическое сопротивлние. р - давление в легких. Исследования на модели показали появление характерных деформаций импульса голосового возбуждения при наличии сужения в тракте [5].

На интервале раскрытия голосовой щели наблюдается увеличение затухания резонансных частот, которое по экспериментальным наблюдениям может изменяться в несколько десятков раз. Это явление объясняется в основном аэродинамическими процессами. Из эквивалентной схемы тракта получено 16], что коэффициент затухания, вносимого трактом и голосовой щелью есть

г а

в - ' ,

о 6 + в от с

где

4 "Я / Ь И5 .Л/1

V» V» и в с I С ,

ах . ь и к , л - индуктивности и динамические сопроти-

К* ( V» (

('линии соответственно в голосовой щели и речевом тракте.

Частота основного тона г подвержена флюктуационным изменениям Центральная частота флюктуация составляет 5-20 Гц. Модалиро-шипя Флюктуация р выполнено с помощью фильтрации белого шума в контура второго порядка [5]:

х" ♦ 2г х'♦ ы2 х - Г / оу о

гци ^(1) - мнгновешше значения белого шума, - мгновенные

значинин частоты г - коэффициент затухания, и^-г«*-. Л -экспериментально подбираемый коэффициент, регулирующий диапазон флюм уацнй.

Для оценки качества рассмотренного голосового источника был проведен аудиторский тест на натуральность синтезированных гласных 15]. Синтезированные гласные были получены на артикуляторно-форманпюй схомо синтеза с учетом динамики и шумов голосового источника. Бригаде аудиторов из 16 человек попарно предъявлялись синтезированные и естественные гласные, которые предлагалось оценивать по критерию "лучше" или "равно" относительно друг друга. Результаты аудиторского тестирования показали, что степень натуральности синтезированных гласных составляет 85%. Ввиду применения процедуры аудирования, чувствительной к малым различиям между синтезированными и естественными гласными, достигнутую степень натуральности мокно считать достаточно Еысоьой.

Четвертая глава посвящена разработке модели управления динамикой артикуляции в слитном потоке речи. В данной главе анализируются свой!на системы управления артикуляций; строится модель управления динамикой артикуляции; определяются критерии управления арижулнторноА моделью; обсуждается структура артикуляторной подоли ддл синтеза речи по произвольному тексту; приводятся результаты аудиторского теста на оцзнку фонемной и слоговой различимости.

В зависимости от ц«ли речевого сообдениа аргикуляторная система д'-лжн 1 исноп.поьать различные тактики управления артикуля-КФпини движениями. Для сшпмзд речи но Не'.грлш ¡еннону слопар»'

необходим поиск таких критериев управления артикуляторной моделью, которые были бы достаточно общими для поставленной цели речевого сообщения и типа артикулируемого звука. В известных моделях артикуляции речевой процесс представлялся последовательностью дискретных статических целей, которые на артикуляторном уровне оценивались по рентгенограммам статических форм тракта. В наших экспериментах было показано [7], что модель статических целей не удовлетворяет требованию синтеза разборчивой речи. Поэтому необходим анализ свойств системы управления артикуляцией с цельр поиска критериев управления динамикой движений.

Следующая проблема связана с реализацией полученных критериев на используемой артикуляторной модели. Описывая форму тракта п среднесаггитальном сечении, артикуляторная модель опускает ряд естественных' ограничений артикуляторного аппарата. Это приводит к тому, что прямая реализация какой-либо тактики требует генерации команды управления сложной структуры. Для того, чтобы избежать этого эффекта необходима организация такого контура управления, который позволил бы сохранить простую структуру управляющей команды.

За основу построения динамической модели тракта взята известная многопараметрическая артикуляторная модель. Форма тракта в процессе артикуляции в этой модели является результатом движения отдельных артикуляторов, каждый из которых описывается сосредоточенной моделью с следующим уравнением

+ + < V -1.»«)

где х - координата артикулятора, а - коэффициент затукания, »> -

л ь

циклическая частота, - целевая координата, г(е) - единичная функция, ы - число артикуляторов. Форма тракта вычисляется как функционал от вектора целевых координат х « [ х^ ,...,* 1, которому ставится в соответствии некоторая лингвистичекая единица (фонема или аллофон). Последовательность векторов х реализует некоторую программу, заключавшуюся в обновлении этого вектора через заданные промежутки времени в соответствии с длительностью лингвистической единицы.

Как показали эксперименты на этой модели, фонетическое качество последовательности звуков определяется как параметрами Формы тракта в статическом положении для отдельных звуков, так и динамическими свойствами артикуляторных переходов. Влияние различных тактик управления артикуляторными движениями па изменение

перцонтивного качества синтезированных звуков оыло отмечено в результате аудиторского тестирования стимулов, синтезированных с помощью описываемой системы, проведенного в лаборатории В. В. Люблинской Института физиологии им. И.П.Павлова. В частности Оыло замочено, что затягивание формант.шх переходов приводит к изменению фонетического качества вукосочетаний.

Длительность перехода между соседними целевыми положениями отдельных артикуляторов определяется коэффициентами уравнения (4). Воспринимаемая длительность перехода между соседними звуками определяется длительностью формаитних переходов от одного статического состояния к другому, и эта длительность неявно связана со временом перестройки речевого аппарата.

Динамические свойства артикуляции звуков в данной модели определены в терминах функции площади поперечного сечения тракта. Стационарному звуку ставится в соответствии т^кая форма тракта, при которой установлена требуемая площадь в окрестности места артикуляции. При этом длительность перехода определяется временем достижения функцией площади гранта заданного значения в месте артикуляции.

В общем случае, форма тракта есть результат совместного действия нескольких артикуляторов, объединенных в связанную систему. Однако, часто в системе артикуляторов можно выделить артикулятор, вносящий наибольший вклад в образовании места артикуляции. Назовем такой артикулятор главным артикулятором. Для губных в качестве главного артикулятора выступают нижняя губа, для переднеязычных - кончик языка, для небных - корень языка. Подобная классификация достаточно условна и предполагает движение артикулятора только вблизи от песта сужения. Скорость изменения плоцааи п месте артикуляции оценивается по скорости смещения главного артикулятора в окрестности сужения. Управление скоростью главного артикулятора осуществляется либо заданием команды с перерегулированием при движении к цели, либо установкой соответствующих начальных. условий по скорости при удалении от цели.

Найдено, что критерий управления цинагикой артикуляторной модели состоит в обеспеченич определенной скорости изменения площади я место артикуляции при деформации тракта в направлении ит-раба плмемэй циЛ1;- Для реализации этого критерия минимальная пло-»¡ааь А ннеден; и модчл». н качестве саносгоятслмтго параметра, юторнй принимается и расчет системой управления, В результате в

Еекторе артикуляторных параметров х, кроме коорлинат артнкуляю-ров добавляется параметр Время, в течении которого цель по

площади должна быть достигнута, зависит от контекста. Лля каждой комбинации целевых векторов длительность переходных процессов по площади тракта считаются известными. Зная эту длительность т^, а также коордннаты тракта в двух последовательных состояниях

" ', нетрудно рассчитать требуемую для главного артикула юра

и

команду х

1

1---

елр(-а^т^)

(5)

где 1 - дискретный момент времени.

Управление динамикой артикуляторннх переходов представляется следующей схемой (7). форм тракта. Речевой поток описывается последовательностью целевых векторов, компоненты которых вкл^чаит набор целевых координат статических форм тракта миниммаль-

ную площадь и скорость в окрестности места артикуляции V.

Блок-схема контура управления показана на рис. 1.

Рис. 1 Блок-схема контура управления переходным процессом.

Команда управления к-н артикулятором при переходе от гласного к согласному есть

х'*'. если артикулятор не является главным

с »

' • ' *1 »1

xi'i • если артикулятор главный

где i • ноиер вектора артикуляторных параметров. Ее пи переход осуществляется от согласного к гласному, то по всем

к. а для главного артикулятора устанавливается начальная скорость

V .

I

Приведенная схема управления динамикой артикуляции была использована для синтеза коротких фраз, которые продемонстрировали достаточно хоровую разборчивость синтезированной речи. Одним кз обьекишных показателей качества синтезированной речи является Фонетическая и слоговая различимость звуков, которая была оценена в ходе аудиторского тестирования. Речевой материал состоял из 24 стимулов в виде слогов типа гласный - согласный - гласный. Стимулы и выборке появлялись по три раза и были перемешаны в случайном порядке. Бригаде аудиторов, состоящей из 14 человек последовательно преъявлялись синтезированные стимулы и предлагалось назвать распознанный слог. Тест проводился без предварительного обучения аудиторов на речевом материале. Средняя величина Фонетической различимости оказалась близкой к 89%, а слоговой - к 80Х, что представляется достаточно высоким для систем синтеза речи по правилам.

Б Д Г П Т

Ф С X U1 н в

Б 99

Д

94

И 88

t

1 98 2

1 4 2 25 68

1 ?

X Ш 11 6

98 8 76

90

15

100

52

Л Ч I!

44

90

1

6

Рис. 2 Иатрицо перепутыэаний синтезированных согласных в слог ах(Х).

Матрица перепутываний в восприятии фонетических символов показана на рис. 2. Характер перепутываний символов в этой матрицы Оли ton к характеру перепутываний, наблюдаемых в реальной речи, чго сим дательствует об адекватности применяемой модели рочеобраяования.

Заключение

В диссертационной работе разраоотана модель артикуляторно формантного синтеза речи, ориентированная на применение п синтеза торе речи с неограниченным словарем.

К наиболее существенным результатам относятся следующие:

1. Сформулирована структура системы артикуляторно-формантно:о синтеза, обеспечивающая воспроизведение наиболее важных процессов речеобразования при приемлемых вычислительных затратах.

2. Предложен способ учета податливости стенок тракта в уравнении речевого тракта, сохраняющий стандартную форму уравнения.

3. Разработаны эффективные алгоритмы поиска резонансных частот речевого тракта, устойчивые для любых функций площади сечения тракта.

4. Разработана интерактивная параметрическая модель голосового источника, обладающая высокой натуральностью.

5. Предложен алгоритм управления частотными параметрами речевого тракта, позволяющий провести автоматическую сортировку резонансных параметров по каналам формантных фильтров.

6. Получены критерии управления моделью динамики артикуляции и предложена схема управления моделью артикуляцией в ели гном потоке речи.

7. Проведены аудиторские тесты артикуляторно-формантной системы синтеза, показавшие ьысокую натуральность и различимость синтезированных звуков.

Основное содержание диссертации отражено в следующих публикациях :

1. Миллер А. Г.. СорокинВ. Н. Артикуляторно-формантньй синтезатор речи// Труды XXVII конференции молодых ученых ИППИ РАН. Москва. 1992. -с. 3-6.

2. Sorokin V.N., Miller A.G. An articulator/ fornant speech synthesizer via a neural network// Proc. of Int. Conf. on

Ncurocybernatlcs. - Rostov, 1S92. -p.12-24

Ми п.'юр A. I. . Сорокин В. H. Быстрые методы расчтеа собственных ■!vhi цип речевого тракта// Акустический журнал. - М: - 1991. - W 1-367.

I I 11,мкин В Н., Миллер А.Г. Метод пристрелки в решении уравнения i--'i.'ji'i[ о тракта// Литсматическое распознавание слуховых оОразог (ЛЬ;' Hi): Ь'зиси докладов 16-го всесоюзного семинара. - Москва,

|Ч'М -C.9S-96.

и>. Счрокин В. 11. . Киллер А. Г. Голосовой источник для синтезатора [и-'чи// Вопросы специальной радиоэлекториники. - И: - 1991. № 3.

г 1G 7-170

ь Миллер А. Г. , Сорокин В. Н. Акустичоские процессы в лртикулнюрно-фпрмантном синтезаторе// В сб. Автоматизация распознавания и оОрабожи образов. - Донецк, 19S2, с. 13 - 26 7. Миллер А. Г., Сорокин В. Н. К вопросу об управлении динамикой нрм'чуиягорной модели// Автоматическое распознавание слуховых iidjuDOH (АРСО-17): Тезисы докладов 17-го семингра. - Ижевск. 1УРг -с. 127-131.

'top-to юн <ч .!.»,11'н-:г'| tibifu ,3

i'v i' П<:!) ,\|рач . 70