автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математические модели образования звучной речи

кандидата технических наук
Коцубинский, Владислав Петрович
город
Томск
год
2004
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Математические модели образования звучной речи»

Автореферат диссертации по теме "Математические модели образования звучной речи"

На правахфукописи

Коцубинский Владислав Петрович

МАТЕМАТИЧЕСКИЕ МОДЕЛИ ОБРАЗОВАНИЯ ЗВУЧНОЙ РЕЧИ

Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Томск 2004

Работа выполнена в Томском университете систем управления и радиоэлектроники.

Научный руководитель:

Доктор технических наук, Бондаренко Владимир Петрович

Официальные оппоненты:

Доктор технических наук, профессор Параев Юрий Иванович;

кандидат технических наук, доцент Пеккер Яков Семенович

Ведущая организация

Томский политехнический университет

Защита состоится «17» июня 2004 года в 1500 часов на заседании

диссертационного совета Д.212.268.02 в Томском университете систем управления и радиоэлектроники по адресу: 634034, г. Томск, ул. Белинского, 53.

С диссертацией можно ознакомиться в библиотеке Томского государственного университета систем управления и радиоэлектроники по адресу: г. Томск, ул. Вершинина, 74.

Автореферат разослан «7» мая 2004 года

Ученый секретарь

Специализированного совета Д.212.268.02

доктор технических наук

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Несмотря на достигнутые успехи в синтезе (Д. Клатт 1986, Б.М. Лобанов 1991, 2001 - Fonemafon, SocramentTTS, клуб Речевых Технологий МГУ - Голосовая мышь, Агафья и Агофон), распознавании речи (Dragon Dictate и Горыныч), идентификации диктора по речевому сигналу, построении моделей артикуляции (Сорокин В Л.) и стратифицированного представления речи (Потапова Р.К.), в настоящее время нерешенными проблемы являются:

не установлена связь между параметрами речеобразующей системы и характеристиками речевого сигнала;

нет адекватных моделей речеобразования не только нормальной, но и патологически измененной (т.е. фарингеальной и пищеводной) речи; не решена проблема синтеза речи по правилам.

Кроме того, является актуальной задача изучения механизмов образования пищеводной речи. Пищеводная речь является заменой нормальной речи и позволяет реабилитировать онкологических больных после полного удаления гортани, т.е. практически инвалидов вернуть к нормальной жизни.

Восстановление звучной речи у больных, перенесших ларингэктомию, находится на стыке физиологии, клинических дисциплин, специальной педагогики, так писала в 1985 году доктор биологических наук Таптапова С.Л. В книге «Восстановление звучной речи после резекции или удаления гортани» были даны оценки эффективности комплексных методов восстановления речи. Восстановление голоса после полного удаления гортани наблюдается в 88 % случаев.

Предложенные и усовершенствованные Балацкой Л.Н., Кицманюк З.Д., Бондаренко В.П. в 2001 году методики восстановления звучной речи и голоса, позволяют сократить сроки реабилитации и повысить эффективность голосообразующей функции. Это дает возможность вернуть к прежнему социальному статусу 67,6 % пациентов после ларингэктомии, 78,2 % - после резекции гортани, 86,9 % - перенесших органо-сохранные операции органов полости и ротового отдела глотки, 98 % - с парезами и параличами гортани.

Основными проблемами, с которыми сталкиваются онкологи, при восстановлении звучной речи после хирургического лечения рака гортани являются: преодоление больным психологического стресса в послеоперационном периоде, необходимость адаптации к новому типу дыхания через трахеостому, формирование нового компенсаторного фонационного органа в первом физиологическом сужении пищевода. Эта задача решается комплексно при совместной работе онколога, логопеда, психотерапевта или психолога и инструктора по лечебной физкультуре

Для интенсификации процесса обучения больных пищеводной речи необходимо определить, какого объема и где образуется воздушный пузырь, псевдоголосовая щель. Изучить особенности механизма звучной речи. Эта информация позволяет уточнить методику

Поставленные вопросы можно решить путем математического моделирования процессов в речеобразующей системе человека при образовании нормальной и пищеводной речи.

В настоящее время все созданные модели речеобразования базируются на результатах научных исследований, проведенных более 50 лет назад Г.Фантом, миоэластической теории, сформулированной Ferrem в 1741 году, нейрохронаксической теории, обоснованной Husson в 1950 году, заслуживает внимания и мукоондуляторная теория фонации, выдвинутая J. PereUo в 1962 году. Основополагающим в названных теориях является положение о независимости источника возбуждения (голосовых складок) от процессов, происходящих в голосообразующей системе. Эти положения привели к появлению формантной теории голосообразования и были использованы при создании форматных вокодеров и синтезаторов голоса по правилам. Огромное количество экспериментальных исследований, проведенных в этом направлении, показало, что речевой сигнал на входе формантных вокодеров и формантных синтезаторов голоса резко отличается от естественного сигнала. Все это, в частности, привело к тому, что в мультимедийных системах синтеза голоса применяется метод компиляции.

Использование этих теорий ведет к тому, что исследователи не достаточно уделяли внимание влиянию некоторых органов речеобразующей системы на процесс образования звучной речи. Поэтому для создания адекватной модели работы системы синтеза речи следует отказаться от каких-либо ограничений и в то же время избегать чрезмерного внимания к каждому органу в отдельности. Настоящая работа основана на трудах Галунова В.И. (1973), который первый, используя экспериментальные данные, показал, что речевой сигнал уже сформирован на выходе трахеи. Изданная в 2002 году книга Морозова В.П., в которой обсуждается необходимость рассмотрения голосообразующей системы целиком (не только от голосовых складок до рта), объясняет важность исследований в данном направлении.

Таким образом, диссертационная работа посвящена решению актуальной проблемы разработки моделей фонации, использование которых для синтеза речевого сигнала приведет к генерации всего многообразия звучной речи и позволит более эффективно подходить к реабилитации больных после резекции или удалении гортани. Это определяет актуальность диссертационной работы и ее соответствие современным тенденциям развития систем синтеза речи по правилам.

Цель работы и задачи исследования. Основной целью диссертационной работы является построение и исследование моделей образования нормальной и пищеводной звучной речи, на основе которых возможно выявление механизмов генерации речевых сигналов с учетом работы голосовых складок или их эквивалентов. Для достижения поставленной цели в диссертационной работе были сформулированы следующие задачи:

1) построение электроакустических аналогов и соответствующих им математических моделей образования нормальной и пищеводной речи;

2) анализ моделей с целью установления связи между электрическими,

механическими и акустическими параметрами речеобразующей системы;

3) исследование процессов, возникающих в моделях речеобразования, и определение условий генерации речевого сигнала при образовании нормальной и пищеводной речи;

4) генерация речевых сигналов вокализованных звуков речи и сравнение их с реальными речевыми сигналами.

Методы исследования. Для решения поставленных задач в работе используются математический анализ, теория дифференциальных уравнений, теория электрических цепей, теория управления, методы теории информации, теории восприятия и разборчивости речи, методы спектрального, синхронного с частотой основного тона анализа речи. Научная новизна диссертации.

1. Построены математические модели образования нормальной и пищеводной речи, позволяющие исследовать процессы генерации вокализованных звуков.

2. Определены границы возникновения устойчивых колебаний в речеобразующей системе при генерации гласных звуков, результаты исследования процессов образования нормальной и пищеводной звучной речи.

3. Обсуждены результаты сопоставительного анализа сгенерированных в моделях речевых сигналов с реальным.

Тезисы, выносимые на защиту.

1. Математические модели образования нормальной и пищеводной речи, рассматриваемые в общей речеобразующей системе в целом: легкие, бронхи, трахея, речеобразующий тракт.

2. Модели устойчивых колебательных движений голосовых складок в полной речеобразующей системе.

3. Модели генерации речевых сигналов вокализованных звуков. Практическая ценность работы. В данной работе были разработаны следующие алгоритмы и модели:

1) алгоритмы синтеза по правилам естественных речевых сигналов гласных звуков;

2) акустические модели голосообразования нормальной, пищеводной, фарингеальной речи;

3) алгоритмы численного моделирования процессов образования нормальной и пищеводной речи;

4) методы оценки параметров анатомии, физиологии и нейродинамики процессов голосообразования и результаты их сопоставления с результатами моделирования;

5) уточненные теоретические модели по результатам клинических исследований;

6) результаты исследований поведения системы голосообразования (возникновение устойчивых колебаний голосовых складок или их эквивалентов, возникновение хаотичных колебаний в особых точках пространства состояния).

б

Реализация результатов работы. Алгоритмы и отдельные методики, разработанные в диссертационной работе, внедрены в НИИ онкологии Томского научного центра СО РАМН, в учебный процесс на факультете вычислительных систем кафедры КСУП Томского государственного университета систем управления и радиоэлектроники.

Материалы второй и третьей главы диссертации составили основу пособия для студентов вуза по курсу «Передача данных в информационно управляющих системах».

Апробация результатов работы. Основные положения и результаты диссертационной работы представлялись на международных семинарах «Речь и Компьютер» SPECOM (Санкт-Петербург, 2000; Москва, 2001; Санкт-Петербург, 2002), на международных научно-практических конференциях «Природные и интеллектуальные ресурсы Сибири» (Сибресурс) (Новосибирск, 1996; Красноярск, 1997; Барнаул, 1998; Омск, 1999; Тюмень, 2000; Барнаул,

2001), на конференциях «Теория и практика речевых исследований» (АРСО), проходивших в МГУ им. М.В. Ломоносова (1999 и 2001), на XI и XIII сессиях акустического общества (Москва, 2001 и 2003), на Нижегородской акустической научной сессии (Нижний Новгород, 2002), на конференциях «Управляющие и вычислительные системы. Новые технологии» (Вологда, 2000) и «Системные проблемы качества, математическое моделирование информационных, электронных и лазерных технологий» (Сочи, 2002).

Большая часть работы опубликована в сборниках научных статей «Методы и алгоритмы автоматизации технологических процессов» (Томск: Изд-во ТГУ, 1995), «Автоматизация проектирования, идентификация и управление в сложных системах» (Томск: Изд-во НТЛ, 1997), «Автоматическое и автоматизированное управление сложными системами» (Томск: Изд-во ТГУ, 1998), «Интеллектуальные автоматизированные системы проектирования, управления и обучения» (Томск: Изд-во ТГУ, 2000) под ред. проф., д.т.н. Тарасенко В.П. Также статьи были опубликованы в сборниках «Интеллектуальные системы в управлении, конструировании и образовании» издаваемых (Томск: Изд-во STT, 2000-2004) под ред. проф., д.т.н. Шелупанова АА, «Измерения, автоматизация и моделирование в промышленности и научных исследованиях» (Бийск: изд-во АлтГТУ, 2001 и

2002) под ред. проф., д.т.н. Леонова ГЗ.

Публикации. По материалам диссертации опубликовано 34 печатных работах, из которых 18 докладов и 16 статей.

Структура и объем работы. Диссертация, объемом 152 машинописные страницы, содержит введение, четыре главы и заключение, список литературы (173 наименования), 22 таблицы, 97 рисунков, два приложения.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована важность и актуальность темы диссертации, сформулированы цели работы и основные задачи, которые необходимо решить для ее достижения, характеризуется научная новизна и практическая ценность работы, кратко излагаются основные результаты работы.

В первой главе диссертации* проводится краткий анализ анатомии и физиологии системы речеобразования и приводится сопоставление системы речеобразования нормальной и пищеводной речи (таблица 1). Формируются их акустические схемы, где V- объем легких , УП -объем воздуха в пищеводе, ¥ш -объем воздушного пузыря, 1т - обобщенная длина трахеи, /РОт - обобщенная длина речеобразующего тракта (РОТ), 1м - длина морганьевого желудочка, /вп -длина воздушного пузыря, 11 - длина неподвижной части пищевода, I -длина ротовой полости, кГЩ -высота голосовой щели, к - высота излучателя, Ро — подсвязочное давление, Р -надсвязочное давление.

Из таблицы 1 следует, что особенностью акустической схемы фонации нормальной речи является наличие особого образования сразу после связок -гортанного (морганьевого) желудочка.

Строятся электроакустические аналоги как наиболее распространенный метод моделирования.

Формулируется постановка задачи, которая концентрируется относительно двух гипотез:

1. Нейрохроноксическая гипотеза, в которой движение складок объясняется нейронной активностью, т.е. процесс фонации управляется

нервными импульсами, и движение голосовых складок не зависит от разности давлений в трахее и речеобразующем тракте.

2. Миоэластическая теория, которая объясняет колебательные движения голосовых складок на этапе раскрытия подскладочным давлением, а на этапе смыкания - силами Бернулли.

Исследование механизмов образование речи на основе этой схемы предполагает совместное рассмотрение процессов, происходящих в легких Сл, трахее 2Т, ГОЛОСОВЫХ складках Ья, надгортанной области В этом

случае формантная структура речи формируется сразу во всей системе.

Рисунок 1 Схема электрического аналога речеобразующей системы

Порция воздуха втягивается в легкие и накапливается в их акустической емкости Сх. Уменьшение Сш повышает легочное давление, которое распространяется по бронхам и трахее до голосовых складок. Таким образом, создается разность давлений в трахее и морганьевом (гортанном) желудочке. Разность давлений ит - ии, В СВОЮ очередь, вызывает ток воздуха 1е через относительно узкое отверстие между голосовыми складками. Под воздействием изменений местного давления в голосовой щели складки, обладающие определенной массой и эластичностью, приходят в колебательное движение. Квазипериодические размыкания и смыкания складок приводят к колебаниям импеданса и модулируют воздушный поток. Поэтому поток

воздуха, проходящий в голосовой тракт, имеет форму дискретных импульсов.

В модели Фанта считается, что изменение импеданса голосовой щели обратно пропорционально площади раскрытия голосовых складок, т.е. проводимость щели изменяется от нуля до максимального значения, и что колебания складок не зависят от свойств последующих органов. Однако следует ожидать, что существенное влияние на колебания голосовых складок оказывает входной импеданс голосообразующего тракта. Необходимо отметить, что есть экспериментальные данные (Галунов В.И., 1973), которые говорят о том, что речевой сигнал полностью оформлен на выходе голосовой щели. Это подтверждает существование связи колебаний складок с входным импедансом речеобразующего тракта. Возможность использования стандартной модели речеобразования, предложенной Фантом, существует, но необходимо учитывать самовозбуждение системы речеобразования на участке голосовых складок и Ь, структура которой приведена на рис. 1.

На рис. 1 использована простейшая модель легких и трахеи, рассмотренная в работе (Сорокин В.Н., 1985) и построенная с учетом наших работ, где ЯТ, ЬТ и СТ - потери, индуктивность и емкость электрического аналога трахеи и легких в модели; Ьт, Сми ДМ - индуктивность, емкость и

потери электрического аналога морганьевого желудочка; 2- входной импеданс речеобразующего тракта.

Из этой модели следует, что

Г/'Л

О)

(2) (3)

В формуле (1) квадратичная компонента тока в левой части уравнения учитывает влияние сил Бернулли, Л — коэффициент пропорциональности. Зависимость индуктивности и емкости голосовых складок от ее площади раскрытия описывается выражениями:

£ я -Р

(5)

5'

где 5- площадь раскрытия голосовых складок;

- коэффициенты пропорциональности.

Таким образом, колебания связок, т.е. характер зависимости Я,, Ьг от времени, будет определяться разностью ит-им, что может привести к автосинхронизации колебаний голосовых складок с процессами, происходящими в трахее и голосообразующем тракте. Необходимо учитывать, что характер движения складок, т.е. вид функций К({) и Ь((), описывается нелинейным уравнением второго порядка в частных производных (Сорокин В.Н., 1992) с правой частью, определяемой величиной ит - ии, которая зависит от входного импеданса 2. В простейшем случае движение голосовых складок в модели рис. 2 можно описать дифференциальными уравнениями второго порядка:

ит-ии-ц]

2„

—г+<5— + <а 5 = ¿и А

(6)

где 5 - потери в голосовых складках;

О)- собственная частота колебаний голосовых складок; у- коэффициент пропорциональности, учитывающий силы Бернулли;

- коэффициент пропорциональности.

Таким образом, для исследования модели, представленной на рис. 2, необходимо получить аналитическое выражение для 2. За основу 2т, в первом приближении, можно использовать модели, рассмотренные в работе (Сорокин В.Н., 1986), в частности модель, представленную электрическими аналогами цепи второго порядка. Кроме того, представленная модель требует дополнительного анализа с целью определения условий возникновения устойчивых колебаний, т. к. в ней в явном виде присутствует обратная связь.

Во второй главе формируются электроакустические аналоги речеобразующего тракта, основой которых является уравнение Вебстера.

Показывается, что электрические модели речеобразующего тракта, основанные на цепях с распределенными параметрами и с сосредоточенными

параметрами в диапазоне частот до 5 кГц, являются эквивалентными. Это позволяет моделировать речеобразующий тракт цепной схемой из пяти Т-образных звеньев. На основе данных по формантной структуре речевого сигнала, с учетом известных сечений речеобразующего тракта (приведенных в книге Сорокина В. Н., 1992), были определены параметры этих цепей.

По результатам анализа, проведенного в первой главе, было показано, что при аппроксимации коэффициентов передачи речеобразующего тракта, в первом приближении, можно ограничиться учетом частот первых пяти формант. Тем более что достоверных данных по частотам более высоких формант практически нет, а уровень речевого сигнала для более высоких частот очень низок.

Анализ резонансных свойств модели входного импеданса речеобразующего тракта показывает, что он приближается по своим характеристикам к реактивному двухполюснику. В этом случае задача аппроксимации заданного импеданса сводится к синтезу соответствующего реактивного двухполюсника.

Показано, что в качестве модели речеобразующего тракта может использоваться электрический аналог на сосредоточенных параметрах. Это позволяет свести задачу к решению системы обыкновенных дифференциальных уравнений.

Предложен подход к оценке параметров электрического аналога речеобразующего тракта. Выбрана топология электрического аналога схемы замещения, и проведена оценка значений элементов этой схемы.

Построены математические модели голосообразования для нормальной и пищеводной речи с учетом различных механизмов возникновения колебаний голосовых складок. Выявлены качественные различия в процессах голосообразования нормальной и пищеводной звучной речи. Показано, что следует ожидать существенного повышения уровня высокочастотных компонент в пищеводной речи, а также существенную нестабильности частоты основного тона.

В третьей главе производится оценка параметров речеобразующей системы и устанавливаются соотношения между акустическими и электрическими параметрами. Определяются их размерности (см. табл 2.)

Выявляется роль объема гортанного желудочка, показывается, что он может оказывать существенное влияние на движение голосовых складок (рис.2.) При этом в нем возникает дополнительный резонанс, который приводит к стабилизации колебаний голосовых складок (рис. 2), и смещение формантных частот. Это косвенно подтверждается сравнением рисЗ и 4.

Проводится анализ начальных условий и поведения системы речеобразования в стационарном режиме. Показывается, что при определенных условиях возможно возникновение воздушного потока в обратном направлении. Это позволило определить граничные значения между потерями в трахее, речеобразующем тракте и сопротивлением голосовой щели, при котором воздушный поток направлен от легких к выходу. Проводится оценка параметров модели речеобразования с учетом известных данных по площади

раскрытия голосовой щели, устанавливаются связи между этими параметрами. Сопоставление результатов моделирования с экспериментальными данными других авторов показывает, что площадь раскрытия голосовых складок совпадает. Это косвенно подтверждает адекватность модели.

Таблица 2

Наименование параметра Обозначение Размерность Производная единица СИ

Площадь раскрытия голосовой щели I2 М1

Постоянная времени раскрытия голосовых складок *ГС 6 т С

Масштабный коэффициент реактивных параметров речеобразующего тракта А ь2мт* г1

Коэффициент соответствия между площадью голосовой щели и ее индуктивностью а 1?МГ2Г2 Гнм2

Коэффициент соответствия между площадью голосовой щели и ее сопротивлением Р ь'мг'г2 Омм2

Коэффициент соответствия между давлением на голосовые складки и напряжением а м т1 г1 В-с2 мг

Коэффициенты, учитывающие влияние сил Бернулли гЛ 1}МТ} г* кг-м2 с3-А3

Рисунок 2. Изменение частоты формант в зависимости от индуктивности морганьевого (гортанного) желудочка для звука «А»

А э и у ы о Звук

Рисунок 4 Частота основного тона для разных типов голосов

—£.-0 002 | —¿.-0 004 | ¿.-0006 | —¿.-0 00« | —¿.-0010 | —¿.4)011 | —¿.-ООН | — ¿.-0014 ^

А Э И У Ы О Звук

Рисунок 3 Частота основного тона в зависимости от индуктивности Ьи (ГН)

В результате численного моделирования определены области возникновения устойчивых колебаний для нормальной и пищеводной речи в зависимости от параметров легких, трахеи, гортанного желудочка, речеобразующего тракта, воздушного пузыря и псевдоголосовой щели. Определены граничные условия для коэффициентов, учитывающих влияние сил Бернулли, что позволило синтезировать речевые сигналы произвольной длительности в четвертой главе.

Анализ устойчивости проводился численными методами. Определялись собственные значения соответствующих матриц, и анализировались их действительные части. При этом считалось, что если все действительные части собственных значений отрицательны, то система имеет устойчивые колебательные решения.

На рис. 5 приведены области устойчивых решений для моделей образования звучной нормальной речи в зависимости от постоянной времени трахеи и звеньев речеобразующего тракта при разных значениях постоянной времени голосовой щели Тс- Расчеты проводились для следующих параметров:

Д= 10"; /М,25-10"3;Л=107; а=0,08; <р=0,5; /?=150 Гц; Гс= 150 Гц; Сг 1; ¿А/=Ю'9.

параметров А И у в диапазоне их значений от 1 до 104. Из рис. 4 следует, что при Тс<103 с в заданном диапазоне изменений Тг И Iза система полностью устойчива. Это хорошо коррелируется с данными по постоянной времени голосовой щели, приведенными в работах (Сорокин В.Н., 1992; Фант Г., 1964).

На рис. 6 приведены зоны устойчивых решений в зависимости от постоянных времени Г^И Тзв при *с=0,25,10:!с для различных значений емкости тракта Ст. При этом было обнаружено, что эти зоны не зависят от значений индуктивности Ьи. Из этого рисунка следует, что при значениях Тзд>0,01 с, а ГГХ),01 с колебания в системе становятся устойчивыми практически в широком диапазоне изменений параметров

характеризуется устойчивыми колебаниями при изменении параметров Р? И Ст в широких пределах.

Проведенный анализ показывает, что оценки, данные в работе, соответствуют устойчивым режимам работы модели образования звучной нормальной речи. При этом необходимо учитывать, что значения Тзв следует выбирать не менее 0,02-0,03 с, а 1с=0,25'10'3 с, это также соотношениями известным данным (Сорокин В.Н., 1992).

На рис. 8 приведены зависимости собственных, т.е. резонансных, частот модели речеобразующей системы при раскрытых голосовых складках от резонансной частоты трахеи при двух значениях емкости трахеи для звука «А».

В таблице 3 эти резонансные частоты приведены для всех звуков при значениях Травных 100 и 600 Лц, и емкости трахеи - 5,5 и 45,5 Ф.

Сравнение данных, приведенных в таблицах (Фанте Г., 1964), с данными в таблицы 3 показывает, что эти резонансные частоты коррелированы с частотами формант, но появляются дополнительные резонансные частоты. По-видимому, этим обстоятельством объясняются появления так называемых ложных формант.

Таблица 3

Звук Рг Ст Г, Я Г, Ъ

Л 100 5,5 165,0 310,8 763,5 1172 2657 2510 3587 4057

100 45,5 162,2 нет 780,0 112 2654 2512 3587 4057

600 5.5 162,5 564 807,1 1178 2649 3009 3587 4058

600 45,5 162,5 593 783 1163 2654 2589 3587 4057

О 100 5,5 164,9 285,1 649,5 1103 2525 2679 3580 4008

100 45,5 165,3 150,7 635,5 1045 2541 2673 3581 4011

600 5,5 162,8 512,5 670,4 1135 2632 3045 3581 4013

600 45,5 163,0 575,7 647,8 1053 2657 2627 3581 4011

У 100 5,5 164,9 235,2 479,5 854,2 2453 2580 3450 4027

100 45,5 166.8 147,1 413,2 777,2 2426 2579 3450 4028

600 5,5 163,7 348,1 571,1 911,0 2561 2933 3451 4028

600 45,5 164,7 389,4 590,8 795,8 2574 2509 3450 4028

и 100 5,5 165,1 нет 619,7 2268 3209 3337 3585 4425

100 45,5 169,8 нет 376,9 2267 3208 3582 3556 4426

600 5,5 163,8 286.4 813.2 2270 3209 3578 3928 4426

600 45,5 165,4 325,6 636,8 2268 3208 3580 3654 4426

э 100 5.5 165,3 355,4 646,1 1824 2571 2581 3430 4179

100 45,5 170,4 нет 530,7 1821 2570 2601 3430 4179

600 5.5 162 451,4 779,3 1826 2567 3059 3430 4179

600 45,5 160,1 494,8 641,8 1822 2574 2674 3430 4179

и 100 5,5 169,3 251,6 590.8 1517 2360 2311 3226 4239

100 45,5 163,4 0 430,6 1512 2361 2240 3227 4239

600 5,5 164,5 337,1 731,5 1521 2355 2757 3227 4239

600 45,5 160,1 385,9 629,0 1513 2359 2304 3227 4239

Четвертая глава посвящена результатам моделирования процессов в

речеобразующем тракте в виде диаграмм токов и напряжения. Проводится анализ реальных речевых сигналов на разработанном программном комплексе.

Кратко описан комплекс для исследования структуры речевого сигнала. Данный комплекс был разработан аспирантом кафедры КИБЭВС ТУСУР Пономаревым А.А., но основные требования на его технические параметры были сформулированы исходя из задач, связанных с моделированием

процессов образования звучной речи на основе моделей речеобразования, рассмотренных в данной диссертации.

Рисунок 8. Зависимость резонансной частоты речеобразующей -системы от частоты Р-? (а - при Ст=5 Ф; б- при Ст=45,5 Ф)

Проведено исследование структуры речевых сигналов, в частности его основной характеристики - частоты основного тона.

Измерения частоты основного тона на слогах реальных речевых сигналов косвенно подтверждают гипотезу, положенную в основу моделей речеобразования, о том, что колебания голосовой щели определяются разностью давлений в трахее и ротовой полости (рис. 9 и 10).

Рисунок 9. Слог «БИ», диктор - мужчина Рисунок 10. Слог «БИ», диктор -женщина

Исследование структуры различных речевых сигналов, как реальных, так и синтезированных, позволяет утверждать, что предложенные модели адекватны, в первом приближении соответствуют реальным механизмам речеобразования.

Сравнение синтезированных и реальных речевых сигналов позволяет сделать вывод, что исследованные модели речеобразования адекватны реальным системам Это подтверждается субъективным восприятием синтезированных сигналов, а также качеством их динамических спектрограмм (рис.11).

Рисунок 11. Звук «А», нормальная и синтезированная речь, одновременная и последовательная маскировка

Дальнейшее совершенствование моделей должно быть связанно, по-видимому, с введением обратных связей по управлению собственной частоты колебаний голосовых складок, высотой гортани, давлением в легких в зависимости от генерируемого звука, его качества и т п

По результатам анализа был проведен синтез речевых сигналов (результаты на рис. 12 и 13). Субъективно данный речевой сигнал является вполне естественными. Это дает основание полагать, что предложенная модель движения голосовых складок наиболее полно соответствует реальным механизмам фонации.

Данный вывод позволяет считать, что и для пищеводной речи механизм фонации аналогичен.

Рисунок 13. Формы сигналов на различных участках речеооразующего тракта для звука «И». Последовательно: площадь раскрытия голосовых складок, ток через голосовые складки (/у), напряжение в глоточном желудочке, разность давлений (надскладочного и подскладочного), напряжение на выходе речеобразующего тракта

Выводы:

В результате моделирования механизмов речеобразования с большой долей уверенности можно заключить:

процесс речеобразования характеризуется согласованным взаимодействием всех частей речсобразующей системы;

речевой сигнал практически полностью сформирован на выходе голосовых складок;

главное значение при формировании формантной структуры имеет не коэффициент передачи речеобразующего тракта, а его входной импеданс.

ЗАКЛЮЧЕНИЕ

На основе анализа анатомии и физиологии системы речеобразования и анализа существующих гипотез фонации предложена новая постановка задачи

механизма фонации, основанного на том, что движение голосовых складок вызывается разностью давлений.

Показано, что модели речеобразования, а следовательно, и голосообразования, могут быть представлены в виде электрических аналогов с сосредоточеными параметрами. Это позволяет построить математические модели на основе системы дифференциальных уравнений.

Проведена оценка параметров моделей образования звучной речи, определены границы устойчивости движения голосовых складок в зависимости от параметров системы речеобразования. Полученные результаты по площади раскрытия голосовой щели, влиянию объема глоточного желудочка косвенно подтвердили адекватность моделей.

Моделирование процессов фонации на примере синтеза гласных звуков подтвердило, что нейрохронаксическая гипотеза не отражает реального механизма голосообразования, наиболее адекватно отражает этот механизм предложенная модель.

Сравнительный анализ спектрограмм, структур реальных и синтезированных речевых сигналов для нормальной и пищеводной речи показал, что предложенная модель фонации отражает основные свойства реальных систем и поэтому является адекватной. Результаты сравнительного анализа синтезированных сигналов с реальными, устанавливающие их адекватность, подтверждают достоверность проведенных исследований.

Таким образом, исследован, предложен и внедрен новый механизм фонации, который позволил изменить методику обучения пищеводной речи пациентов проходящих реабилитацию в НИИ онкологии томского научного центра СО РАМН.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Бондаренко В.П., Коцубинский В.П., Маркивский И.О. Исследование структуры речевых сигналов гласных звуков // Методы и алгоритмы автоматизации технологических процессов. Сб.статей/ Под ред. В.П.Тарасенко. Томск: Изд-во ТГУ, 1995. С.72-81.

2. Бондаренко В.П., Безхондаров И.В., Коцубинский В.П. Анализ и синтез речи в системах человеко-машинного взаимодействия // 2-я международная научно-практическая конференция «Природные и интеллектуальные ресурсы Сибири (Сибрссурс-2-96)»: Тезисы докладов. Новосибирск, 1996. С. 116-117.

3. Бондаренко В.П., Коцубинский В.П. Синтез речи по печатному тексту // 3-я международная научно-практическая конференция «Природные и интеллектуальные ресурсы Сибири (Сибресурс-3-97)»: Тезисы докладов. Красноярск, 1997, С.156-157.

4. Бондаренко В.П., Коцубинский В.П., Маркивский И.О. Модель синтеза речевых сигналов // Автоматизация проектирования, идентификация и управление в сложных системах. Сб.статей/ Под ред. В.П.Тарасенко. Томск: Изд-во НТЛ, 1997. С. 88-102.

5. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Управление просодией при синтезе речи // Управляющие и вычислительные системы. Новые технологии: Материалы межвузовской научно-технической конференции: Вологда: ВоГТУ, 2000. С.211-213.

6. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Иерархическая система синтеза речи по правилам/ Сборник: Автоматическое и автоматизировашюе управление сложными системами: Сб. статей / Под. Ред. В.П.Тарасенко. Томск: Изд-во ТГУ, 1998. С.218-227.

7. Бондаренко В П., Коцубинскяй В.П., Мещеряков Р.В. Иерархические структуры распознавания и синтеза речи // Интеллектуальные автоматизированные системы проектирования, управления и обучения. Сб статей/ Под ред. В ПТарасенко. Томск: Изд-во ТГУ,2000. С. 115-125.

8. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Модель управления просодией при синтезе речи // Теория и практика речевых исследований (АРСО-99). Материалы конференции. Москва.: МГУ им. М.В. Ломоносова, 1999, С.37-38.

9. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Нелинейные механизмы в работе голосового источника // Системные проблемы качества, математическое моделирование информационных, электронных и лазерных технологий. // Материалы международной конференции и Российской научной школы: ч. 2. М: Радио и связь, 2002. С. 93-95.

10. Бондаренко ВН., Коцубинский В.П., Мещеряков Р.В. Нелинейные механизмы в образовании звучной речи // Труды Нижегородской акустической научной сессии. / Под. ред. С.Н. Гурбатова. Нижний Новгород: Часть 3. ТАЛАМ, 2002. С. 200-204.

11. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Распознавание и синтез речи в структуре диалоговых систем // 2-я всероссийская конференция «Теория и практика речевых исследований». Материалы конференции. Москва.: МГУ им. М.В. Ломоносова,

2001. С. 142-150.

12. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Синтез речевого сигнала по печатному тексту // Автоматическое и автоматизированное управление сложными системами. Сб.статей/ Под ред. В.П.Тарасенко. Томск: Изд-во ТГУ, 1998. С.204-218.

13. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Формирование просодии при синтезе речевых сигналов // Интеллектуальные автоматизированные системы проектирования, управления и обучения. Сб.статей/ Под ред. В.П.Тарасенко. Томск: Изд-во ТГУ, 2000. С.126-130.

14. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В., Климович М.К. Моделирование и прогнозирование коммуникационной составляющей диалога // Измерения, автоматизация и моделирование в промышленности и научных исследованиях: Межвузовский сборник / Под ред. Г.В. Леонова - Бийск Изд-во АлтГТУ,

2002. С.61-66.

15. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В., Пономарев А.А., Климович М.К. Проблемы понимания речи в задачах анализа и синтеза // Интеллектуальные системы в управлении, конструировании и образовании. Выпуск 2 / Под ред. А.А. Шелупанова. -Томск: STT, 2002. С. 44-52.

16. Коцубинский В.П. Особенности машинного и программного обеспечения обработки речи // 4-я международная научно-практическая конференция «Природные и интеллектуальные ресурсы Сибири (Сибресурс-4-98)»: Тезисы докладов, Барнаул, 1998, 230с. с. 131-132.

17. Коцубинский В.П. Особенности формирования звучной речи // Интеллектуальные системы в управлении, конструировании и образовании / Под ред. А.А. Шелупанова. Томск: STT,2001.C. 33-41.

18. Коцубинский В.П. Технические аспекты синтеза речи // Сибирская школа молодого ученого: Труды научно-практической конференции студентов, аспирантов и молодых ученых: Тезисы докладов, т.4. Томск, 1999. С. 17-19.

19. Коцубинский В.П., Мещеряков Р.В. Модель системы речеобразования // Измерения, автоматизация и моделирование в промышленности и научных исследованиях: Межвузовский сборник //Под. ред. Г.В. Леонова. Бийск: Изд-во АлтГТУ, 2001. с.48-52.

20. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Определение характеристик акустического фильтра для формирования гласных звуков // 6-я международная научно-практическая конференция «Природные и интеллектуальные ресурсы Сибири (Сибресурс-6-2000)»: Тезисы докладов. Тюмень, 2000. С.75-76.

21. Бондаренко В.П., Коцубинский В.И., Мещеряков Р.В. звучной речи в норме и патологии // 7-я международная научно-практическая конференция «Природные и интеллектуальные ресурсы Сибири (Сибресурс-7-2001)»: Тезисы докладов. Барнаул, 2001.4.2. С.189-191.

22. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Речевая диалоговая система // 7-я международная научно-практическая конференция «Природные и интеллектуальные ресурсы Сибири (Сибресурс-7-2001)»: Тезисы докладов, Барпаул. 2001. 4.2. С.191-192.

23. Боцдаренко В.П., Коцубинский В.П., Мещеряков Р.В. Влияние легких на колебания голосовых связок при генерации вокализованных звуков // Сборник трудов XI сессии российского акустического общества. Москва: ГЕОС, 2001. Том 3. С.56-59.

24. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Выделение особенностей структуры речевого сигнала // Сборник трудов XIII сессии российского акустического общества. Москва.: ГЕОС, 2003. Том 3. С.63-68

25. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Влияние акустической емкости гортанного желудочка на процесс образования звучной речи // Сборник трудов XIII сессии российского акустического общества. Москва.: ГЕОС, 2003. Том 3. С.61-63

26. Коцубинский В.П., Удалов Д.В. Форматный синтезатор речевого сигнала // Интеллектуальные автоматизированные системы проектирования, управления и обучения. Сб.статей/ Под ред. В.П.Тарасенко. Томск: Изд-во ТГУ, 2000. С.131-136

27. Бондаренко В.П., Коцубинский В.П. Модель генерации речевого сигнала // Журнал Вычислительные технологии. Новосибирск.: ИВТ СО РАН, 2003. Том 8. С.92-101.

28. Бондаренко В.П., Коцубинский В.П., Клус Е.Н. Модель генерации звуков // Интеллектуальные системы в управлении, конструировании и образовании. Выпуск 3 / Под ред. АЛ. Шелупанова. Томас STT, 2004. С. 62-69.

29. Бондаренко В.П., Коцубинский В.П., Семенов М.С. Модель генерации шумных звуков // Интеллектуальные системы в управлении, конструировании и образовании. Выпуск 3 / Под ред. А.А. Шелупанова. Томск: STT, 2004. С. 70-75.

30. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Адаптивный анализ речевого сигнала // Интеллектуальные системы в управлении, конструировании и образовании. Выпуск 3 / Под ред. АА. Шелупанова. Томск: STT, 2004. С. 58-61

31. Bondarenko V.P., Kotsubinsky V.P., Metharykov R.V. Physiological processes lungs model at speech formation // Processing 'SPECOM'2000'. International workshop Speech & Computer. -St. Petersburg. 2000. 102c. c79-82.

32. Bondarenko V.P., Kotsubinsky V.P., Metharykov R.V. Speech signal synthesis model // Processing 'SPEC0M'2001'. International workshop Speech & Computer. -Moscow.: MSLU 2001.262р. pp.251-254.

33. Bondarenko V.P., Kotsubinsky V.P., Metharykov R.V., Ponomarev A.A. Speech synthesis in dialog systems // Processing 'SPECOM'2002'. International workshop Speech & Computer. -St. Petersburg. 2002. 124p. pp. 103-105

34. Bondarenko V.P., Kotsubinsky V.P., Metharykov R.V., Ponomarev АЛ. The speech signal analysis and problems of speech understanding // Processing CSPEC0M'2002\ International workshop Speech & Computer. -St Petersburg. 2002. 124c. c73-74

Ocode

noSi Q>pJLp!lLi

Тираж 100. Заказ 364 Томский государственный университет систем управления и радиоэлектроники пр. Ленина, 40

Оглавление автор диссертации — кандидата технических наук Коцубинский, Владислав Петрович

ВВЕДЕНИЕ.

ГЛАВА 1. МОДЕЛИ ГЕНЕРАЦИИ ВОКАЛИЗОВАННЫХ ЗВУКОВ РЕЧИ.

1.1 Анатомия органов речеобразования при формировании нормальной и пищеводной речи.

1.2 Акустические схемы процессов голосообразования.

1.3 Диафрагма, легкие, бронхи, трахея, воздушный пузырь.

1.4 Гортань, голосовые складки, псевдоголосовая щель.

1.5 Модели голосообразования.

1.6 Постановка задачи исследования.

1.7 Адекватность модели.

Выводы по главе:.

ГЛАВА 2. МОДЕЛЬ ОБРАЗОВАНИЯ НОРМАЛЬНОЙ И ПИЩЕВОДНОЙ РЕЧИ.

2.1 Входной импеданс речеобразующего тракта.

2.2 Аппроксимация входного импеданса речеобразующего тракта.

2.3 Модель фонации для нормальной речи.

2.4 Модель фонации для пищеводной речи.

Выводы по главе:.

ГЛАВА 3. ИССЛЕДОВАНИЕ МОДЕЛЕЙ ОБРАЗОВАНИЯ ЗВУЧНОЙ РЕЧИ.

3.1 Оценка параметров моделей образования звучной речи.

3.2 Параметры и роль гортанного желудочка в процессе образования звучной речи.

3.3 Начальные условия.

3.4 Стационарные решения.

3.5 Исследование устойчивости процессов образования звучной речи . 91 Выводы по главе:.

ГЛАВА 4. ИССЛЕДОВАНИЕ СТРУКТУРЫ СИГНАЛОВ ЗВУЧНОЙ РЕЧИ.

4.1 Комплекс для исследования структуры речевых сигналов.

4.2 Исследование влияния разности давлений в трахее и ротовой полости на частоту основного тона.

4.3 Синтез речевых сигналов гласных звуков.

4.4 Исследование спектральных характеристик.

Выводы по главе:.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Коцубинский, Владислав Петрович

Исследование процессов речеобразования, а также попытки построения синтезаторов речи (говорящих машин) имеют достаточно продолжительную историю. Наиболее полно во второй половине прошлого века эти исследования были представлены в монографиях Сапожкова М.А., Фанта Г., Фланагана Дж., Сорокина В.Н. [108,116,117,125,127]. В начале работы носили в основном теоретический характер, при этом модели пытались строить на электрических аналогах цепей с сосредоточенными параметрами. С развитием цифровой вычислительной техники на основе предыдущих исследований начали интенсивно использовать численное моделирование как процесса речеобразования, так и речевосприятия. Наиболее полно эти цифровые модели и алгоритмы обработки, распознавания и синтеза речи представлены в работах [104,105].

С самого зарождения речевых исследований основное внимание уделялось компактному представлению речевого сигнала для передачи его по низкоскоростным линиям связи. Эти наработки привели к созданию ряда вокодеров, использующих в тот или иной способ сжатия речевого сигнала, описания которых приводятся в работах Мясникова JLJL [86].

С 60-х годов прошлого столетия начались интенсивные исследования по созданию синтезаторов и распознавателей речи [4, 11, 12 40, 50, 53, 64, 66, 82, 92,97,106, 107, 132]. По этой проблеме с 1965 года в СССР действовал семинар по автоматическому распознаванию слуховых образов (АРСО), а затем в РФ этот семинар получил название «Теория и практика речевых исследований», который проводится ежегодно в МГУ им. М.В. Ломоносова.

Одним из перспективных направлений является синтез речевого сигнала. Здесь можно выделить следующие направления: кодирование - восстановление речевого сигнала (вокодеры) [29,33]; компилятивный синтез речи (формантный вокодер) [49,67,68,73,74]; синтез речи по правилам (на основе моделей речеобразования) [1, 24, 33,

45, 49, 65, 67, 69, 75, 77].

Многие ученые создавали и создают синтезаторы речи. На каждом этапе развития науки и техники превалировали разные способы. Например, в 1983 году Лобановым Б.М. был создан синтезатор человеческой речи 15КС200-014 (УРМ3.852.035), в котором на аналоговых элементах был смоделирован речеобразующий тракт. В синтезаторе использовалось несколько источников для генерации различных типов звуков. Для того времени это был первый в мире синтезатор речи, использующий синтез по правилам, который выпускался серийно. Слоговая разборчивость речевого сигнала [25, 26, 96] на выходе синтезатора удовлетворяла оценке "хорошо". Однако речевой сигнал данного синтезатора имел низкую естественность, поэтому его разборчивость резко падала при наличии внешних акустических шумов, что существенно суживало области его применения. Это объясняется тем, что существовавшие в то время, да и в настоящее, модели только в общих чертах соответствуют реальным речеобразующим системам человека.

Поэтому уже в версиях для ЕС ЭВМ и IBM PC Фонемофон 4 и Fonemafon автор использовал компилятивный синтез. В дальнейших разработках модуль Sakrament text-to-text engine на основе Microsoft Speech API технологии Лобанов Б.М. использовал компилятивный синтез речи.

Актуальность темы диссертации. Несмотря на достигнутые успехи в синтезе (Д. Клатт 1986[149, 150], Б.М. Лобанов [73-77] 1991, 2001 - Fonemafon, Sokramento, клуб Речевых Технологий МГУ - Голосовая мышь, Агафья и Агофон), распознавании речи (Dragon Dictate и Горыныч), а также идентификации диктора по речевому сигналу, в настоящее время нерешенными остаются следующие проблемы [11,12,16,17,19]: не установлена связь между параметрами речеобразующей системы и характеристиками речевого сигнала; нет адекватных моделей речеобразования не только нормальной, но и патологически измененной (т.е. фарингеальной и пищеводной) речи; не решена проблема синтеза речи по правилам.

Кроме того, является актуальной задача изучения механизмов образования пищеводной речи [2, 59, 121]. Пищеводная речь является заменой нормальной речи и позволяет реабилитировать онкологических больных после полного удаления гортани, т.е. практически инвалидов вернуть к нормальной жизни.

Восстановление звучной речи у больных, перенесших ларингэктомию или резекцию гортани, находится на стыке физиологии, клинических дисциплин, специальной педагогики - так писала в 1985 году доктор биологических наук Таптапова C.J1. [121]. В книге «Восстановление звучной речи после резекции или удаления гортани» автором дана оценка эффективности комплексных методических подходов к восстановлению речи. Восстановление голоса после резекции гортани наблюдается в 88 % случаев.

Предложенные и усовершенствованные Балацкой Л.Н., Кицманюк З.Д. [2], при участии автора [59] совместно с Бондаренко В.П., в 2001 году методики восстановления звучной речи и голоса позволяют сократить сроки реабилитации и повысить эффективность голосообразующей функции. Это дает возможность вернуть к прежнему социальному статусу 67,6% пациентов после ларингэктомии, 78,2% - после резекции гортани, 86,9% после органо-сохранных операций органов полости и ротового отдела глотки, 98% - с парезами и параличами гортани.

Основными проблемами, с которыми сталкиваются онкологи, при восстановлении звучной речи после хирургического лечения рака гортани являются: преодоление больным психологического стресса в послеоперационном периоде, необходимость адаптации к новому типу дыхания через трахеостому, формирование нового компенсаторного фонационного органа в первом физиологическом сужении пищевода. Эта задача решается комплексно при совместной работе онколога, логопеда, психотерапевта или психолога и инструктора по лечебной физкультуре.

Для интенсификации процесса обучения больных пищеводной речи необходимо определить, какого объема и где образуется воздушный пузырь, то есть целенаправленно определять методику обучения. Частично эти вопросы можно решить путем математического моделирования процессов в речеобразующей системе человека при образовании нормальной и пищеводной речи.

В настоящее время все созданные модели речеобразования базируются на результатах научных исследований, проведенных более 50 лет назад Г.Фантом, миоэластической теории, сформулированной Ferrein в 1741 г, нейрохронаксической теории обоснованной Husson в 1950 г. Заслуживает внимания и мукоондуляторная теория фонации, выдвинутая J. Perello (1962). Основополагающим в названных теориях является положение о независимости источника возбуждения (голосовых складок) от процессов, происходящих в голосообразующей системе. Эти положения привели к появлению формантной теории голосообразования, которая была использована при создании формантных вокодеров и синтезаторов речи по правилам. Огромное количество экспериментальных исследований, проведенных в этом направлении, показало, что речевой сигнал на входе формантных вокодеров и формантных синтезаторов голоса резко отличается от естественного сигнала. Все это, в частности, привело к тому, что в мультимедийных системах синтеза голоса используется метод компиляции.

Использование этих теорий ведет к тому, что исследователи не достаточно уделяли внимание влиянию некоторых органов речеобразующей системы на процесс образования звучной речи. Поэтому для создания адекватной модели работы системы синтеза речи следует отказаться от каких-либо ограничений и в тоже время избегать чрезмерного внимания к каждому органу в отдельности. Данная работа основана на исследованиях (1973) Галунова В.И. [30], который впервые экспериментально показал, что речевой сигнал сформирован уже на выходе голосовой щели. Вышедшая в 2002 году книга Морозова В.П. [84], в которой обсуждается необходимость рассмотрения голосообразующей системы целиком (не только от голосовых складок до губ), объясняет важность исследований в данном направлении. При этом он для обоснования своего подхода использовал и результаты исследований, полненные автором [55-57].

Таким образом, данная работа посвящена решению актуальной проблемы, а именно созданию моделей, использование которых для синтеза речевого сигнала приведет к генерации всего многообразия звучной речи и позволит более эффективно подходить к реабилитации больных после резекции гортани. При этом основное внимание уделяется моделям образования звучной речи, то есть той речи, которая формируется с участием голоса при работе голосовых складок. Необходимо учитывать, что более 60-70% (по времени) речевого сигнала формируется с участием голоса, эти части определяют естественность и узнаваемость речи, и поэтому очень важно, чтобы реабилитируемые больные овладели звучной речью. Это определяет актуальность диссертационной работы и ее соответствие современным тенденциям развития перспективных систем синтеза речи по правилам.

Цель работы и задачи исследования. Основной целью диссертационной работы является построение и исследование моделей образования нормальной и пищеводной звучной речи, выявление механизмов генерации речевых сигналов с учетом работы голосовых складок. Для достижения поставленной цели в диссертационной работе были сформулированы следующие задачи:

1) построение электроакустических аналогов и соответствующих им моделей образования нормальной и пищеводной речи;

2) анализ моделей с целью установления связи между электрическими, механическими и акустическими параметрами речеобразующей системы;

3) исследование процессов, возникающих в моделях речеобразования, и определение условий устойчивой генерации речевого сигнала при образовании нормальной и пищеводной речи;

4) генерация речевых сигналов вокализованных звуков речи и сравнение их реальными речевыми сигналами.

Методы исследований Для решения поставленных задач в работе используются математический анализ, теория дифференциальных уравнений, теория электрических цепей, теория управления, методы теории восприятия и разборчивости речи, методы спектрального, синхронного с частотой основного тона анализа речи.

Научная новизна. Научная новизна работы состоит в следующем:

1) математические модели образования нормальной и пищеводной речи, позволяющие исследовать процессы генерации вокализованных звуков;

2) результаты исследования процессов образования нормальной и пищеводной звучной речи, а также границы возникновения устойчивых колебаний в речеобразующей системе при генерации гласных звуков;

3) алгоритмы синтеза речевых сигналов гласных звуков и результаты сопоставительного анализа сгенерированных в моделях речевых сигналов с реальным.

Тезисы, выносимые на защиту.

1) математические модели образования нормальной и пищеводной речи, рассматриваемые как системы в целом: легкие, бронхи, трахея, голосовые складки, речеобразующий тракт;

2) математические модели устойчивых колебаний движения голосовых складок в полной речеобразующей системе;

3) математические модели генерации речевых сигналов вокализованных звуков.

Практическая ценность работы. В данной работе были разработаны следующие алгоритмы и модели:

1) алгоритмы синтеза по правилам естественных речевых сигналов гласных звуков;

2) акустические модели голосообразования нормальной и пищеводной речи, позволяющие целенаправленно проводить обучение восстановленного голоса после резекции гортани;

3) построены и исследованы теоретические модели голосообразования вокализованной нормальной, пищеводной и фарингеальной речи;

4) алгоритмы численного моделирования процесса образования нормальной и пищеводной речи;

5) разработаны методы оценки параметров анатомии, физиологии и нейродинамики процессов голосообразования и сопоставление их с результатами моделирования;

6) уточнены теоретические модели с учетом результатов клинических исследований;

7) изучение особенностей поведения системы голосообразования (возникновение устойчивых колебаний голосовых складок или их эквивалентов, возникновение хаотичных колебаний, особых точек пространства состояния).

Полученные результаты позволяют ставить и решать задачи по синтезу естественной речи по правилам, обоснованно подходить к разработке алгоритмов описания речевых сигналов, устанавливать зависимости между анатомией диктора и его голоса.

Реализация результатов работы. Алгоритмы и отдельные методики, разработанные в диссертационной работе, внедрены в НИИ онкологии Томского научного центра СО РАМН, в учебный процесс на факультете вычислительных систем на кафедре, КСУП и на факультете электронной техники на кафедре, ПрЭ Томского государственного университета систем управления и радиоэлектроники.

Материалы 2 и 3 глав диссертации составили основу пособия для студентов вуза по курсу «Передача данных в информационно-управляющих системах».

Личный вклад автора. Разработаны акустические схемы образования нормальной пищеводной и фарингеальной речи, совместно с научным руководителем д.т.н., проф. Бондаренко В.П., сформулирована постановка задачи и разработаны модели образования нормальной и пищеводной речи.

Лично автором проведен анализ устойчивости, а также исследование пищеводной речи. Разработано техническое задание на комплекс для исследования структуры речевых сигналов, который был разработан Пономаревым А. А.

Проведено исследование структур сигналов нормальной и пищеводной речи.

Апробация результатов работы. Основные положения и результаты диссертационной работы представлялись на международных семинарах «Речь и Компьютер» SPECOM (Санкт-Петербург, 2000; Москва, 2001; Санкт-Петербург, 2002), на международных научно-практических конференциях «Природные и интеллектуальные ресурсы Сибири» (Сибресурс) (Новосибирск, 1996; Красноярск, 1997; Барнаул, 1998; Омск, 1999; Тюмень, 2000; Барнаул, 2001), на конференцях Теория и практика речевых исследований (АРСО), проходивших в МГУ им. М.В. Ломоносова (1999 и 2001), на XI и XIII сессиях акустического общества (Москва, 2001 и 2003), на Нижегородской акустической научной сессии (Нижний Новгород, 2002), на конференциях «Управляющие и вычислительные системы. Новые технологии» Вологда, 2000) и «Системные проблемы качества, математическое моделирование информационных, электронных и лазерных технологий» (Сочи, 2002).

Большая часть работы опубликована в сборниках научных статей «Методы и алгоритмы автоматизации технологически процессов» (Томск: Изд-во ТГУ 1995), «Автоматизация проектирования, идентификация и управление в сложных системах» (Томск: Изд-во НТЛ 1997), «Автоматическое и автоматизированное управление сложными системами» (Томск: Изд-во ТГУ 1998), «Интеллектуальные автоматизированные системы проектирования, управления и обучения» (Томск: Изд-во ТГУ 2000) под ред. проф., д.т.н. Тарасенко В.П. Также статьи были опубликованы в сборниках «Интеллектуальные системы в управлении, конструировании и образовании» издаваемых (Томск: Изд-во STT 2000-2004) под ред. проф., д.т.н. Шелупанова А.А., «Измерения, автоматизация и моделирование в промышленности и научных исследованиях» (Бийск: мзд-во АлтГТУ, 2001 и 2002) под ред. проф., д.т.н. Г.В.Леонова.

Публикации. Основные результаты по материалам диссертационной работы опубликованы в 34 печатных работах. Из которых 18 докладов и 16 статей.

Структура и объем работы. Диссертация, объемом 156 машинописных страницы, содержит введение, четыре главы, заключение, список литературы (173 наименования), 22 таблицы, 97 рисунков, два приложения.

Заключение диссертация на тему "Математические модели образования звучной речи"

Выводы по главе:

Кратко описан комплекс для исследования структуры речевого сигнала. Данный комплекс был разработан аспирантом кафедры КИБЭВС ТУСУР Пономаревым А.А., но основные требования на его технические параметры были сформулированы на основе моделей речеобразования, рассмотренных в данной диссертации.

Проведено исследование структуры речевых сигналов, в частности его основной характеристики - частоты основного тона.

Измерения частоты основного тона на слогах реальных речевых сигналов косвенно подтверждают положение, положенное в основу моделей речеобразования, о том, что колебания голосовой щели определяются разностью давлений в трахее и ротовой полости.

Исследование структуры различных речевых сигналов, как реальных, так и синтезированных, позволяет утверждать, что предложенные модели адекватны, в первом приближении соответствуют реальным механизмам речеобразования.

Сравнение синтезированных и реальных речевых сигналов позволяет сделать вывод, что исследованные модели речеобразования адекватны реальным системам. Это подтверждается субъективным восприятием синтезированных сигналов, а также качеством их динамических спектрограмм.

Дальнейшее совершенствование моделей должно быть связанно, по-видимому, с введением обратных связей по управлению собственной частоты колебаний голосовых складок, высотой гортани, давлением в легких в зависимости от генерируемого звука, его качества и т.п.

ЗАКЛЮЧЕНИЕ

В соответствии с целью диссертационной работы проведено:

Рассмотрение анатомии органов речеобразования при формировании нормальной и пищеводной речи. Составлены акустические схемы процессов фонации. Проанализированы существующие модели речеобразования. Предложен возможный механизм голосообразования, который явился основой постановки задачи.

Показано, что в качестве модели речеобразующего тракта может использоваться электрический аналог на сосредоточенных параметрах, что позволило построить модели голосообразования для нормальной и пищеводной речи, отличающиеся от известных тем, что они позволяют учитывать влияние перепада подскладочного и надскладочного давлений на процесс фонации. В результате чего на построенных моделях проведено исследование механизмов голосообразования с использованием двух гипотез: милоэластической и нейрохроностической, а также проанализировано влияние сил Бернулли. Выявлены качественные различия в процессах голосообразования нормальной и пищеводной звучной речи. Показано, что следует ожидать существенного повышения уровня высокочастотных компонентов в пищеводной речи, а также существенной нестабильности частоты основного тона.

Проведена оценка параметров моделей образования звучной речи. Определены их размерности, и установлена связь между акустическими и механическими величинами и соответствующими величинами электрических аналогов. Выявлена особая роль гортанного желудочка. Установлены допустимые значения для постоянных времени трахеи и звеньев речеобразующего тракта, при которых обеспечивается близкое к реальному раскрытие голосовой щели. Определены граничные условия для коэффициентов, учитывающих влияние сил Бернулли. Исследованы области, в которых возникают устойчивые колебания в моделях образования нормальной и пищеводной речи, что позволило синтезировать речевые сигналы произвольной длительности.

Проведен анализ сигналов пищеводной и нормальной речи. Проведено их сравнение с реальными речевыми сигналами. Результаты сравнения показывают, что модели отражают основные процессы при речеобразовании. Результаты синтеза убедительно доказывают, что главное значение при возникновении колебаний голосовых складок имеет разность давлений. Для стабильности колебаний голосовых складок существенное значение имеет как емкость, в которой формируется избыточное давление, так и емкость гортанного желудочка.

Полученные результаты легли в основу комплексного исследования пищеводной речи в отделением опухолей головы и шеи НИИ онкологии Томского научного центра СО РАМН и позволили улучшить качество речи пациентов, а также сократить время реабилитационного периода по формированию органов в I физиологическом сужении пищевода.

Библиография Коцубинский, Владислав Петрович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Аксютина И.В., Карневская Е.Б., Лобанов Б.М., Марченков М.А. Многофакторная модель ритмики и ее реализация при синтезе речи по тексту. //АРСО 15, Таллин, 1989-347с., с.135-136

2. Балацкая Л.Н., Кицманюк З.Д., Чойзонов Е.Л., и др. Реабилитация больных опухолями головы и шеи Томск: НТЛ, 2003. - 296с.

3. Бегун П. И., Шукейло Ю. А. Биомеханика: Учебник для вузов. СПб: Политехника, 2000. - 463 с.

4. Бондаренко В.П., Коцубинский В.П. Синтез речи по печатному тексту // 3-ая международная научно-практическая конференция «Природные и интеллектуальные ресурсы Сибири (Сибресурс-3-97)» Тезисы докладов, Красноярск, 1997- 232 с, cl 56-157

5. Бондаренко В.П., Коцубинский В.П., Маркивский И.О. Модель синтеза речевых сигналов // Автоматизация проектирования, идентификация и управление в сложных системах. Сб.статей/ Под ред. В.П.Тарасенко. -Томск: НТЛ, 1997. —250 е., с.88-102

6. Бондаренко В.П., Коцубинский В.П., Маркивский И.О. Исследование структуры речевых сигналов гласных звуков // Методы и алгоритмы автоматизации технологически процессов. Сб.статей/ Под ред. В.П.Тарасенко. Томск: Изд-во Том. Ун-та, 1995.-252с. с.72-81

7. Бондаренко В.П., Маркивский И.О. Оценка параметров системы фильтров модели анализа речевых сигналов / Методы и алгоритмы автоматизации технологических процессов. Томск.: ТГУ, 1995. - 252с., с.61-70

8. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В Управление просодией при синтезе речи // Управляющие и вычислительные системы. Новые технологии: Материалы межвузовской научно-технической конференции: Вологда: ВоГТУ, 2000. -210с., с.211-213

9. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Влияние легких на колебания голосовых связок при генерации вокализованных звуков // Сборник трудов XI сессии российского акустического общества. М.: ГЕОС 2001. Том 3. 214с. 56-59с.

10. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Модель управления просодией при синтезе речи // Теория и практика речевых исследований (АРСО-99). Материалы конференции. Москва.: МГУ им. М.В. Ломоносова 1999 - 160с. с.37-38

11. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Нелинейные механизмы в образовании звучной речи // Труды Нижегородской акустической научной сессии. / Под. ред. С.Н. Гурбатов. Нижний Новгород: Часть 3. - ТАЛАМ, 2002, 409с., с 200-204

12. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Синтез речевого сигнала по печатному тексту // Автоматическое и автоматизированное управление сложными системами. Сб.статей/ Под ред. В.П.Тарасенко. — Томск: Изд-во ТГУ, 1998. 238с. 204-218с.

13. Бондаренко В.П., Пономарев А.А. Исследование структуры речевого сигнала // Интеллектуальные системы в управлении, конструировании и образовании / Под ред. А.А.Шелупанова. Томск: STT, 2001. - 224с., с. 17-20

14. Бондарко Л.В. Звуковой строй современного русского языка. М.: Просвещение, 1977- 175с.

15. Бондарко Л.В., Вербицкая Л.А., Гордина М.В. Основы общей фонетики. -СПб.: Издательство СПб университета, 1991 с.212

16. Бондарко Л.В., Вербицкая Л.А., Щербакова Л.П. Об определении места ударения в слове. // Известия АН СССР. Серия литературы и языка, 1973 -т.32, вып.2. с. 141-153.

17. Бракерт Э., Миноу М., Течнер У. Система с трехуровневой программой для преобразования текста в речь. // Электроника 1983. - № 8, с. 36-42.

18. Быков Ю.С. Теория разборчивости в линиях связи. М.: Оборониздат, 1954, -196с.26.