автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач
Автореферат диссертации по теме "Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач"
На правах р>копией
Макаров Илья Сергеевич
Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач
05.13,17 - Теоретические основы информатики
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Москва - 2005
Работа выполнена в Институте проблем передачи информации РАН.
Научный руководитель: доктор физ.-мат. наук,
ведущий научный сотрудник В.Н.Сорокин
Официальные оппоненты:
доктор техн. наук, профессор
В.Р. Женило
кандидат физ.-мат. наук
В.Н. Телепиев
Ведущая организация - Вычислительный центр РАН.
Защита состоится «_» июня 2005 года в 11 часов на заседании
диссертационного совета Д.002.077.01 при Институте Проблем Передачи Информации РАН по адресу: 127994 Москва, Большой Каретный пер., д. 19, конференц-зал.
С диссертацией можно ознакомиться в библиотеке Института Проблем Передачи Информации РАН по адресу: 127994 Москва, Большой Каретный пер., д. 19.
Автореферат разослан
Ученый секретарь диссертационного совета д.ф.-м.н.
И.И. Цитович
2
Ь ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Речевая обратная задача формулируется как задача нахождения параметров математической модели артикуляции, или функции площади поперечного сечения речевого тракта, или команд, управляющих артикуляторными параметрами, по измеренным акустическим параметрам речевого сигнала.
Математически речевая обратная задача может быть записана в операторной форме следующим образом:
Аг = и,иеи,ге2. (1)
Здесь 2 - множество допустимых артикуляторных параметров с введенной на нем метрикой р, I/ - множество допустимых акустических параметров, принадлежащее некоторому нормированному пространству, А: 2—>11 - непрерывный нелинейный оператор, отображающий пространство артикуляторных параметров в пространство акустических параметров.
Задача состоит в том, чтобы, зная ие11, определить неизвестный вектор артикуляторных параметров г, удовлетворяющий уравнению (1). На практике вектор и известен с некоторой погрешностью измерения д: ||ий-«|| ¿5. Точный оператор А также не известен. Вместо него постулируется лишь некоторая математическая модель А/,, устанавливающая соответствие между артикуляторным и акустическим пространствами.
С теоретической точки зрения, умение решать речевые обратные задачи (1) необходимо для изучения свойств так называемой внутренней модели артикуляции. Под внутренней моделью понимается такая резидентная программа, которая хранится в головном мозге человека и осуществляет управление процессами артикуляции по информации о текущем состоянии речевого тракта (получаемой от механорецепторов и посредством акустической обратной связи). Есть основания полагать, что внутренняя модель принимает участие и в процессе восприятия речи других людей (так называемая моторная теория восприятия речи -Чистович, 1лЬегтап).
С практической точки зрения, решение речевых обратных задач (1) может быть эффективно использовано в ряде технических приложений. К таким приложениям относятся низкоскоростной артикуляторный вокодер, высококачественный артикуляторный синтезатор речи по произвольному тексту, а также система обучения людей иноязычному произношению. Модуль решения речевых обратных задач может быть использован в системах автоматического распознавания речи для повышения робастности этих систем.
Обратная задача (1) для речевого тракта является нелинейной и некорректной: заданному набору входных данных, как правило, соответствует много формальных решений, большинство из которых неустойчивы по отношению к возмущениям данных (Сорокин, А1а1, БошИн, всЬто^ег). Поэтому для решения указанной обратной задачи необходимо использовать методы и алгоритмы, которые обеспечивают
получение физически, физиологически и фонетически приемлемых устойчивых решений. Практическую работоспособность этих алгоритмов можно оценить, применяя процедуру ресинтеза: синтезированный по найденному решению речевой сигнал перцептивно должен мало отличаться от исходного речевого сигнала, по параметрам которого решалась обратная задача.
Одним из наиболее эффективных способов решения речевых обратных задач является вариационный метод (Тихонов). В нем параметры математической модели речеобразования варьируются с целью нахождения глобального минимума критерия оптимальности, включающего в себя некоторый энергетический критерий и невязку между измеренными и вычисленными параметрами. Минимизация происходит при ограничениях на искомые параметры.
Описанная оптимизационная задача является многоэкстремальной. Поэтому при ее решении важно иметь "хорошее" начальное приближение. Только в этом случае процесс минимизации может дать необходимое приближенное решение. Для хранения и поиска начальных приближений необходимо построение так называемой артикуляторной кодовой книги. Артикуляторной кодовой книгой называется специальная база данных, в которой хранятся множества акустических и артикуляторных векторов. При этом каждому вектору акустических параметров речевого сигнала в кодовой книге ставится в соответствие некоторое множество векторов артикуляторных параметров. Артикуляторные параметры из такого множества и служат начальными приближениями при решении обратной задачи для реального речевого сигнала.
Все известные в литературе артикуляторные кодовые книги строились относительно некоторых абстрактных математических моделей речеобразования (АЫ, Ьагаг, 8ошМ). Вместе с тем, специфика речевых обратных задач требует построения кодовых книг относительно реальных дикторов.
Все это определяет актуальность исследований в области артикуляторных кодовых книг применительно к решению речевых обратных задач.
Основная цель исследования заключается в построении артикуляторной кодовой книги для реального диктора путем решения специфической обратной задачи: по измеренным акустическим параметрам речевого сигнала и траекториям 8-ми точек на внешних и внутренних поверхностях тракта вычисляются артикуляторные векторы и записываются в кодовую книгу.
Достижение этой цели предполагает решение следующих задан:
- обзор и систематизация алгоритмов решения обратных задач и построения артикуляторных кодовых книг;
- уточнение математических моделей артикуляции, акустики и аэродинамики речевого тракта по экспериментальным данным;
- построение обширной анатомической базы данных;
- построгаке аргакуляторного синтезатора речи;
- тестирование полноты построенной артикудятсрной кодовой книга путем решения речевых обратных задач для различных фонетических сегментов - отдельных звуков, звукосочетаний, слогов, слов и фраз, а также путем ресинтеза полученных решений.
Цель и задачи работы обусловили выбор методов исследования. В качестве методов исследования использовались методы теории некорректных задач, математической физики, теории оптимизации и оптимального управления, факторного анализа опытных данных, а также алгоритмы, разработанные, в рамках . акустической теории речеобразования, акустической теории неоднородных волноводов и гидродинамики вязкой, жидкости. Оценка работоспособности и эффективности разработанных алгоритмов осуществлялась путем численных экспериментов в среде МАТЬАВ с использованием реальных данных.
Материалом исследования послужила обширная база данных, построенная в университете штата Висконсин, США, по результатам измерений на микролучевой рентгеноскопической установке и содержащая около полусотни дикторов - носителей американского английского языка. Кроме того, использовались результаты трехмерной визуализации речевого тракта, полученные с помощью магнитно-резонансной томографии.
Научная новизна заключается в уточнении артакуляторных, акустических и аэродинамических моделей речеобразования, в новом подходе к построению артикуляторной кодовой книги, а также в разработке новых принципов построения кодовых книг применительно к решению динамических обратных задач.
В диссертации показана принципиальная возможность решения речевых обратных задач для всех типов звуковых сегментов относительно реального диктора с точностью, удовлетворительной для практических приложений. Это определяет теоретическую значимость работы. Речь, синтезированная по решениям речевой обратной задачи артикуляторным синтезатором, отличается высоким качеством. Поэтому построенная артикуляторная кодовая книга может быть использована в высококачественном артикуляторном синтезаторе речи по произвольному тексту, а также в низкоскоростном артикуляторном вокодере. Это определяет практическую ценность диссертации.
Апробация работы. Основные положения и результаты диссертации докладывались на Международном семинаре «Диалог - 2002» (Протвино, 2002), на 4-й Международной конференции «Фонетика сегодня: актуальные проблемы и университетское образование» (Москва, 2003), а
таюке на 13-й сессии Российского Акустического Общества (Москва, 2003). Часть исследований была поддержана грантом Американского Акустического Общества в 2004 году по теме «Акустическая модель речеобразования». Часть исследований была выполнена в рамках работы по проекту «Исследование динамических обратных задач для речевого тракта», грант РФФИ № 03-01-00116.
Публикации. По результатам диссертационной работы опубликовано 5 статей [4 - 8] в ведущих научных журналах, а также 3 доклада [1 - 3] на Международных конференциях.
Структура работы. Диссертационная работа состоит из введения, пяти глав, заключения и библиографического списка использованных источников. Она содержит 141 страницу основного текста, 26 рисунков и 14 таблиц, расположенных в тексте диссертации. Список литературы включает 191 наименование.
, , , СОДЕРЖАНИЕ РАБОТЫ
Во введении обйсйовывается актуальность темы диссертации, ее научная новизна,' теоретическая значимость и практическая ценность, указывается предмет исследования, экспериментальный материал, определяется цель работы, раскрываются задачи и методы исследования, приводится краткое содержание работы по главам.
Первая глава диссертации является обзорной. В ней рассмотрены все известные в мировой литературе методы решения речевых обратных задач - метод малых возмущений, метод входного акустического импеданса в речевой тракт, метод линейного предсказания, метод анализа через синтез, метод Я -оптимальных квазирешений, метод регуляризации по Тихонову, статистические методы (скрытые Марковские модели, фильтрация Кальмана). Проведен анализ достоинств и недостатков этих методов. Показано, что наиболее эффективным методом решения речевых обратных задач является метод регуляризации по Тихонову.
Поскольку этот метод сводится к минимизации некоторого критерия оптимальности и невязки по акустике при ограничениях на артикуляторные векторы, необходима база данных начальных приближений - артикуляторная кодовая книга. В мировой литературе известны два метода формирования кодовых книг - по измерениям на установках типа микролучевых рентгеноскопов или артикулографов и по артикуляторно-акустическим моделям. Проведен сравнительный анализ этих методов. Показано, что эти методы из-за присущих им принципиальных недостатков не могут быть использованы при построении кодовых книг, предназначенных для решения реальных речевых обратных задач относительно произвольного диктора.
Задача формирования артикуляторной кодовой книги требует решения ряда более частных задач. К таким задачам относятся построение
артнкулятор ных, акустических моделей тракта и алгоритма вычисления площадей поперечных сечений. Рассмотрены наиболее ШЕгстнке в мировой литературе артикуляторные и акустические модели, а также алгоритмы вычисления площадей поперечных сечений. Проведен сравнительный анализ достоинств и недостатков этих моделей и алгоритмов. Показана необходимость уточнения этих моделей по экспериментальным данным.
Одним из способов проверки точности решения обратной задачи является процедура ресинтеза речевого сигнала по полученному решению и сравнение этого сигнала с исходным по объективным характеристикам (спектрально-временные параметры речевого сигнала) и субъективно на слух. Для решения этой задачи необходимо создание алгоритмов и программ артикуляторного синтезатора речи. Рассмотрены все известные в литературе талы артикуляторных синтезаторов - аргикуляторно-форматные, артикуляторно-волновые, квазиартикуляторные, а также синтезаторы, реализующие численные схемы решения уравнений непрерывности и Навье-Стокса.
По результатам обзорной главы делается вывод о необходимости уточнения артикуляторных и акустических моделей речевого тракта и создания нового метода формирования артикуляторной кодовой книги с помощью этих моделей.
Вторая глава посвящена уточнению математической модели артикуляции и созданию нового алгоритма вычисления площадей поперечных сечений в тракте по экспериментальным данным. В качестве экспериментальных данных были использованы результаты измерений речевого тракта с помощью магнитно-резонансной томографии, а также база данных, сформированная по измерениям на микролучевом ренттеноскопе в Висконсинском университете. В ней представлены анатомические параметры 47 дикторов, запись речевого сигнала и синхронные измерения 8-ми точек наблюдения внутри речевого тракта. Уточнения математической модели артикуляции состояли в следующем. По результатам магнитно-резонансных измерений сделан вывод о том, что глотка может активно изменять свою ширину (в поперечном сечении) в процессе речеобразования. С помощью анализа главных компонент, примененного к экспериментальным данным, построена математическая модель ширины глотки 1Ур/,(х). В рамках этой модели ширина глотки аппроксимируется как
I
где х - расстояние вдоль средней линии тракта, /,(х) - /-тая главная компонента, -№1 - соотвествующая факторная нагрузка, а И^м - постоянная ширина глотки, характерная для каждого диктора. Две главные компоненты покрывают около 93% дисперсии измерений. Исследовано влияние поперечного прогиба языка на резонансные частоты. Показано, что это влияние оказывается сравнительно малым (не более 2%). Отсюда сделан вывод о том, что в математической модели артикуляции параметр, управляющий поперечным прогибом языка,
может быть выбран поотояшшм.
Артикуляторная модель дополнена анатомическими параметрами, т.е. такими, которые можно считать постоянными в процессе артикуляции (например, толщина зубов, размеры нижней челюсти и проч.). Показана необходимость учета анатомических параметров как в среднесагитгальном, так и в поперечном сечениях. Таким образом, уточненная артикуляторная модель оказывается трехмерной, так как учитывает анатомические и артикуляторные параметры в сагиттальном и в поперечном сечениях. Построена база данных анатомических параметров речевого тракта. Эти параметры были взяты из базы данных измерений на мщфолучевом рентгеноскопе. К числу этих параметров относятся размеры верхней и нижней челюсти, черепа, а также толщина зубов. Форма твердого неба является ключевым анатомическим параметром, используемым артикуляторной моделью. Для параметризации этой формы использовался анализ главных компонент. Оказалось, что форма твердого неба Н(х) с высокой точностью аппроксимируется суммой первых трех главных компонент, покрывающих около 96% дисперсии измерений. Размерность результирующего анатомического пространства оказалась равной 25. Поскольку многие из анатомических параметров являются коррелированными, был использован анализ главных компонент для сокращения размерности этого пространства. Оказалось, что размерность можно сократить до трех, если в качестве базиса анатомического пространства выбрать первые три главные компоненты, Э(ги компоненты покрывают около 70% дисперсии. л>
Исследована проблема различимости дикторов в пространстве первых трех главных компонент. Показано, что различимость дикторов в этом пространстве близка к 100%.
Построен новый алгоритм вычисления площадей поперечных сечений речевого тракта по результатам магнитно-резонансных измерений. Алгоритм учитывает .^атомические и артикуляторные параметры речевого тракта как в. сагиттальном, так и в поперечном сечениях. В этом алгоритме речевой тракт разбивается на семь секций, шесть из которых показаны на рисунке (1), а седьмая секция - губы.
ста
16
1«
о
2 4 6 I 10 12 14
ст
ст
Рис. 1. Секции речевого тракта.
В кзасдой секции форма поперечного сечения речевого тракта аппроксимируется некоторой геометрической фигурой, площадь которой может быть легко вычислена аналитически. Например, в первой секции (от голосовой щели до входа в пищевод) форма поперечного сечения первой секции близка к эллиптической. Во второй и третьей секциях (верхняя и средняя часть глотки) форма поперечного сечения аппроксимируется параболой, основание которой равно поперечной ширине надгортанника или языка, а высота определяется сагиттальным расстоянием от поверхности надгортанника или языка до задней стенки тракта.
Алгоритм работает следующим образом. Сначала по заданным векторам
' артикуляторных и анатомических параметров вычисляется конфигурация
речевого тракта с помощью уточненной математической модели артикуляции. Затем эта конфигурация разбивается на семь секций, и в
- каждой секции производится вычисление необходимых элементов
соответствующих геометрических фигур. Зная эти элементы, можно вычислить площадь фигуры по известным формулам аналитической геометрии.
Проведено сравнение построенного алгоритма с одной из версий сф-модели, признанной в мировой литературе наилучшим алгоритмом вычисления функции площадей поперечных сечений. Показано, что во всех секциях речевого тракта построенный алгоритм дает большую или сопоставимую точность с 0)3-моделью. Погрешность аппроксимации площадей поперечного сечения построенным алгоритмом сопоставлена с погрешностью измерений магнитно-резонансной томографии по каждой секции. Показано, что точность построенного алгоритма во всех секциях речевого тракта оказывается сопоставимой с точностью магнитно-резонансной томографии. При этом средняя по трасту ошибка аппроксимации площади построенным алгоритмом оказывается порядка 5%.
" Третья глава посвящена исследованию акустических процессов в
речевом тракте и уточнению акустической и аэродинамической модели тракта.
* С акустической точки зрения речевой тракт является трубой
переменного поперечного сечения ОД, х - координата вдоль средней линии тракта, с податливыми стенками и потерями. Для его описания удобно ввести цилиндрическую систему координат (г. в, х). Здесь ось х направлена вдоль средней линии речевого тракта по направлению от голосовой щели к губам, г — радиус поперечного сечения тракта, в -азимут. Пусть внутренняя поверхность стенок речевого тракта описывается уравнением г = Щв, х), х0 ¿х <хг.
Исходя из уравнений Навье-Стокса и непрерывности, а также предполагая, что воздушный поток в тракте несжимаем и в частотном диапазоне до 4.5 кГц распространяются только плоские акустические волны, показано, что Фурье-образы звукового давления Р(х,]'ы) и объемной скорости Щх,]сд) в тракте определяются следующими уравнениями (3) и (4):
АГад
дх ) с1 ^ }а )
[ Ъ дг Г ^(х)
р~дх2{ с?
о
!, Рос;
\
Р(х,]а)
_ ащх,усо)
дх
+ р0с1Г(х,]ш) дх ^
с0 р0с0 дх с0
Здесь со - круговая частота (рад/с), у = л/^Т, со - скорость распространения звуковых волн, в тракте, ро - плотность воздушнрго потока в тракте, Ь - коэффициент, учитывающий потери на вязкое и объемное трение, а также теплопроводность. Член ?(*, ]<о) является Фурье-образом полной по сечению проводимости стенок тракта. Для абсолютно жестких стенок этот член равен нулю. Функция является образом Фурье интеграла (5):
Г^Г^7^«*-- (5)
Здесь [(у.У)?^ есть х-компонента вектора , где V = -
образ Фурье трехмерного векторного поля колебательной скорости в речевом тракте.
В областях речевого тракта, где значение числа Рейнольдса мало и поток ламинарен, интеграл (5) оказывается по амлитуде малым и может быть положен равным нулю. Наоборот, в областях тракта, где поток турбулизуется, этот член оказывается большим. Таким образом, функция Щх№) есть турбулентный источник возбуждения акустических колебаний в речевом тракте.
Показано, что для речевого тракта уравнения (3) - (4) эквивалентны уравнениям непрерывности и Навье-Стокса в частотном диапазоне до 4.5 кГц.
Для нахождения собственных частот волновых операторов в (3) и (4) построено и исследовано несколько обобщенных схем длинных линий -схема, вычисляющая трехмерное поле давлений и скоростей в тракте (схема ТЬ-ЗБ); схема плоских волн для тракта, аппроксимированного последовательностью конических секций (схема ТЬ-СОЛ), и схема длинных линий в г-области (схема ТЬ-Х). В схемах ТЬ-СОЫ и ТЪ-г собственные частоты определяются как мнимые части полюсов входного акустического импеданса в тракт со стороны голосовой щели. В схеме TL-Z речевой тракт аппроксимируется последовательностью цилиндрических труб 5/ постоянного поперечного сечения, i = 1,...Д При этом длина каждой элементарной секции постоянна и равна Д/. Вводя обозначение г = ехрО'2«А//с0), где со - круговая частота (рад/с), со -
скорость звука в тракте, у = можно получить следующую схему для вычисления этого импеданса:
= (б) Ум 'и
б, = ZL+Zm _ (7)
Pt=ZL- Z0I
Здесь n - коэффициенты отражения, определяемые как rt =
sM+s,'
г,, = - характеристический импеданс ¡-й секции, р0 - плотность
воздуха в тракте, - функция, учитывающая потери в /-той секции, Z, -импеданс излучения через губы. В схеме ТЬ-ССМ речевой тракт аппроксимируется последовательностью конических секций причем площадь /-той секции длины /,■ определяется как Я^х) = Бт(1 + 0 <х Входной импеданс в речевой тракт определяется соотношением
Z =
AZ,+B
(8)
CZ, +D
Здесь элементы А, В, Ç, D определяются из следующего матричного соотношения
(с й-
(9)
где элементы Au В» Ci, Dt вычисляются с помощью следующих соотношений
4
г
в1=т
С -
РоСоГ 1
( г*
U
(10)
у
Здесь y=P+jk, ¡3 - коэффициент затухания, к=са/с0 - волновое число. Для цилиндрических секций постоянного поперечного сечения Soi - Sh & = 0, / = 1,... Д и соотношения (10) переходят в (11):
А В С D
il
=п
w,) e^shw
Росо
■sh(rlt) chW
(И)
Соотношения (11) в акустике неоднородных еолнозодов носят название уравнений длинных линий.
Схемы (7), (10) были обобщены на случай нескольких разветвлений в тракте, а также на случай, когда разветвление в тракте имеет один или несколько дополнительных боковых проходов.
В схеме ТЪ-ЗБ входной акустический импеданс в речевой тракт определяется (в пространстве Фурье-образов) как отношение давления к я-компоненте скорости V. Проведен сравнительный анализ схем ТЬ-ЗБ, ТЬ-СОЫ, ТЪ-2, а также схемы (12). Показано, что схема ТЬ-2 имеет явные преимущества перед другими схемами. К этим преимуществам относятся вычислительная устойчивость, а также скорость вычисления собственных чисел речевого тракта.
Проведен синтез гласных звуков по схемам ТЬ-ЗБ и ТЬ-Ъ. Показано, что в диапазоне до 4 кГц резонансные частоты, определенные с помощью схем ТЬ-ЗБ и отличались не более, чем на 2%. На слух гласные звуки, синтезированные по трехмерной схеме в полосе до 8 кГц, были неотличимы от соответствующих звуков, синтезированных с помощью соотношений (7) в той же полосе. Тем самым показана справделивость предположения о распространении только плоских волн в речевом тракте в частотном диапазоне до 4-4.5 кГц.
Показано, что точный вид члена в уравнениях (3) и (4), учитывающего потери в речевом тракте, не является критичным и может быть аппроксимирован более простой моделью.
Исследовано влияние фактора податливости стенок речевого тракта, а также наличия разветвлений на уровне входа в пищевод на передаточную функцию речевого тракта. Были построены две модели податливости стенок. В одной модели параметры импеданса стенок (потери на стенках, масса и упругость стенок) полагались постоянными по тракту, а в другой модели они считались переменными и представлялись в виде восьмичленного ряда Фурье. Показано, что параметры импеданса стенок могут быть выбраны постоянными по тракту. Кроме того, оказалось, что податливость стенок в наибольшей степени влияет на первый резонанс, в то время как разветвления влияют на высшие резонансы. Точность вычисления первых трех резонансные частот при совместном учете податливости стенок и разветвлений оказывается в пределах точности оценки формантных частот.
В четвертой главе на основе уточненных артикуляторных и акустических моделей решается основная задача диссертации -построение артикуляторной кодовой книги для решения речевых обратных задач.
Введены понятия статической и динамической артикуляторных кодовых книг. Статическая артикуляторная кодовая книга строится относительно квазистационарных сегментов речи и предназначена д ля решения речевых обратных задач на участках сигнала с медленно меняющейся во времени спектральной плотностью. Напротив, динамическая артикуляторная кодовая книга строится относительно переходов от одного звукового
сегмента к другому и предназначена для решения речевых обратных задач на участках речевого сигнала с быстроменяющейся спектральной плотностью.
Разработан новый метод формирования статической артикуляторной кодовой книги. Этот метод заключается в формировании кодовой книги путем решения специфической обратной задачи: по измеренным акустическим параметрам и координатам восьми точек измерения на внешних и внутренних поверхностях речевого тракта вычисляются соответствующие артикуляторные векторы и записываются в кодовую книгу.
Экспериментальной основой для построения кодовой книги послужила база данных, сформированная по измерениям на микролучевом рентгеноскопе.
Для решения речевых обратных задач в процессе формирования артикуляторной кодовой книги использовался метод Тихонова. В этом методе искомый артикуляторный вектор г^ е 2 находится следующим образом:
Цгм) = тт{ац(К 5} -0(г) + Ф, г е2}. (12)
Здесь 2 - метрическое пространство артикуляторных параметров, Ф -невязка по акустике и координатам точек, П(г) - критерий оптимальности (стабилизирующий функционал), ая(И, 5) - параметр регуляризации, явно зависящий от погрешности А артикуляторно-акустических моделей и погрешности 5 измерений входных данных (акустических параметров и координат восьми точек). Задача (12) означает следующее. Рассматриваются все допустимые артикуляторные векторы г е 2. Среди них выбираются те, которые обеспечивают близость (с точностью А и 8) вычисляемых с помощью модели акустических векторов и = А^ и измеренного акустического вектора Затем из всех таких векторов выбирается такой вектор 2к& для которого минимален критерий оптимальности £2( г).
Ограничения на множество артикуляторных векторов определяются геометрическими и физиологическими особенностями речевого тракта. Эти ограничения в основном имеют вид неравенств и описывают такие стандартные требования как "язык находится не выше твердого и мягкого нёба", "кривизна поверхности языка физиологически допустима", "поверхность зубов не пересекает поверхности языка" и т.п. Суммарная невязка Ф .была определена как Ф = Фу+Ф?. Здесь Ф1 -невязка потомкам, которая определяется как
Л
Здесь <^!(.Рп"а (/), Р™'° (г(/))) - евклидово расстояние между экспериментальными опорными точками, измеренными в момент времени и соответствующими точками, вычисленными для этого момента на соответствующих поверхностях речевого тракта; М - число опорных точек, равное восьми. Функционал Фу представляет собой
т«1
псак/
(13)
невязку по положению и скорости нзменення координат опорных точек. Веса р\ и рг слагаемых этого функционала подбирались экспериментально.
Другая составляющая критерия оптимальности - это невязка по акустическим параметрам:
рсЛ
Ф, =тах
,к = 1.....К. (14)
В ней используются измеренные и вычисленные частоты F*. Для гласных и назальных частоты Fk соответствуют формантным частотам, для фрикативных - характерным частотам спектра, а для звонкой смычки - частоте радиального резонанса. Для гласных К = 3, для назальных и фрикативных К=4, а для звонкой смычки К-1. Помимо невязки (14), для фрикативных исследовалась еще невязка между измеренными и вычисленными спектрами в нормах пространств С и ¿2- В результате численных экспериментов выяснилось, что предпочтительной для сравнения спектров является норма в С. Критерий оптимальности Q(z) также был представлен как сумма двух критериев Q(z) = Щ z) + ii2( z). Здесь функционал £2i( z) был представлен как работа артикуляторов на перемещение из нейтрального состояния, т.е. как
j
где j - номер артикуляторного параметра, zy - артикуляторный параметр, z° - значение артикуляторного параметра в нейтральном состоянии
речевого тракта, cj - эквивалентная жесткость тканей, присоединенных к соответствующему артикулятору.
В составном критерии оптимальности £2( z) всегда использовался дискретный аналог функционала кинетической энергии z) в виде
о г-у INO-^-^ll. абч
где z(t) - вектор артикуляторных параметров в текущий момент времени (на данном «кадре»), z(t-At) - уже известный вектор параметров на предыдущем кадре, а ||2- евклидова норма вектора. Смысл этого
функционала состоит в минимизации степени изменения артикуляторных параметров.
Решение задачи (12) как задачи на поиск экстремума требует использования адекватных алгоритмов оптимизации. Был использован алгоритм, основанный на последовательной квадратичной аппроксимации функции Лагранжа и решении соответствующей задачи квадратичного прмраммирования квазиньютоновеким методом. Этот алгоритм реализован в стандартном модуле fmincon (или constr) пакета MATLAB (Optimization Toolbox). При этом не требуется явных выражений для целевой функции и ограничений; нужны лишь процедуры их вычисления. На каждой итерации решается задача квадратичного программирования с
использованием сеточной аппроксимаций градиентов целевой функции и ограничений, а также гессиана (матрицы вторых производных). Статическая артикуляторная кодовая книга, построенная с помощью описанного метода, является чегырехслойной - слой для гласных и гласноподобных сегментов, слой для фрикативных, для назальных и для звонких смычек. Общее количество акустических ячеек в кодовой книге равно 309. Общее количество артикуляторных векторов равно 890, причем 92% векторов принадлежат слою гласноподобных сегментов, 5% -слою фрикативных сегментов, 2.5% - слою назальных сегментов и 0.5% -слою смычек. Объем памяти, занимаемый статической артикуляторной кодовой книгой, составляет примерно 14 кбайт. В четвертой главе также обсуждаются принципы построения артикуляторных кодовых книг, предназначенных для решения динамических обратных задач.
В пятой главе исследуется качество решения речевой обратной задачи, полученного с помощью Построенной статической артикуляторной кодовой книги. Показано, что для обратных задач, для которых входными данными являются только измеренные акустические параметры, погрешности аппроксимацйи формантных частот не превышают 1.8% для 1.6% для 1.1% для ^з, а погрешности аппроксимации координат точек - порядка 6%. Зто Сопоставимо с погрешностью аппроксимации частот и точек, полученной при решении обратной задачи, для которой входными данными оказываются как акустические измерения, так и треки экспериментальных точек, - 3.7% для Рь 3.8% для Р2 и 2.6% для Рз. около 3% по точкам.
Аналогичная проверка качества решения обратной задачи для фрикативных показала, что точность аппроксимации характерных частот спектра фрикативных с использованием артикуляторных данных близка к 9.5%, а при использовании только акустических параметров - около 10.3%. Погрешности аппроксимации координат точек в обоих типах задач оказываются порядка 3%.
Таким образом, разница между вычисленными и измеренными векторами акустических параметров и треков точек оказывается сопоставимой с погрешностью измерений данных. Это свидетельствует о том, что сформированная статическая артикуляторная кодовая книга является полной, а используемые математические модели артикуляции и акустики, а также алгоритмы решения речевых обратных задач -адекватными. Это также свидетельствует о том, что построенная кодовая книга может быть использована при решении общей обратной задачи, в которой входными данными являются только измеренные акустические параметры, а информация о нескольких точках измерений в речевом тракте отсутствует.
На основе уточненных математических моделей артикуляции и акустики разработаны алгоритмы и программы артикуляторно-формантного синтезатора. С помощью этого синтезатора осуществлен ресинтез речевых сигналов по решениям речевых обратных задач. Ресинтезированные сигналы оказались очень близки исходным сигналам
как по объективным акуспигсши параметрам, так и субъективно на слух. На рис. 4 представлены сонограммы исходной и ресинтезированной по решению речевой обратной задачи фразы The other one is too big. Видно, что эти сонограммы очень похожи. Звучание исходной и ресинтезированной фраз также близки.
• original
um*.в»о
Рис. 4. Сонограммы оригинальной (наверху) и ресинтезированной (внизу) по решениям речевой обратной задачи фразы The other one is too big.
Таким образом, показана принципиальная возможность использования сформированной артикуляторной кодовой книги в артикуляторном синтезаторе.
Исследована проблема восстановления команд управления по полученным решениям речевой обратной задачи. Показано, что речевой сигнал, синтезированный на приемном конце по этим управлениям, практически не отличается от речевого сигнала, синтезированного по последовательности артикуляторных векторов, и мало отличается от исходного сигнала. Скорость передачи при этом составляет 1.5 и 3.2 кбит/с для разных алгоритмов восстановления команд управлений. Это свидетельствует о том, что точность полученных решений оказывается удовлетворительной и для низкоскоростного артикуляторного вокодера.
ОСНОВНЫЕ ВЫВОДЫ
1. По результатам магнитно-резонансной томографии речевого тракта уточнена артикуляторная модель. Эта модель учитывает анатомические и артикуляторные параметры как в среднесагитгапьном, так и в поперечном сечениях, т.е. является трехмерной.
2. Построен и исследован новый алгоритм вычисления площадей поперечных сечений речевого тракта.
3. Проведено исследование акустических моделей речевого тракта. Показана эквивалентность уравнений непрерывности и Навье-Стокса и неоднородного уравнения Вебстера. Построены и подробно исследованы три обобщенные схемы длинных линий.
4. По результатам магнитно-резонансной томографии уточнена акустическая модель речевого тракта. Показано, что совместный учет
факгора податливости стенок речевого тракта и наличия разветвлений на уровне входа в пищевод приводит к тому, что точность вычисления первых трех резонансные частот оказывается в пределах точности оценки формантных частот.
5. Сформирована статическая артикуляторная кодовая книга путем решения специфической обратной задачи «акустика и точки измерения -* артикуляторные векторы».
6. Проведено исследование качества решения речевых обратных задач с помощью построенной артикуляторной кодовой книги. Показана принципиальная возможность решения обратной задачи для всех типов звуковых сегментов относительно реального диктора с точностью, удовлетворительной для практических приложений (артикуляторный синтезатор речи по тексту, низкоскоростной артикуляторный вокодер).
СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Макаров И.С., Баден П., Сорокин В.Н. Трехмерная модель речевого тракта и алгоритм вычисления площадей поперечных сечений // Труды международного семинара «Диалог - 2002». 2002. Т. 2. С. 352-359.
2. Леонов A.C., Макаров И.С., Сорокин В.Н, Обучающая фонетическая система /I Тезисы 4-й международной научной конференции «Фонетика сегодня: актуальные проблемы и университетское образование». 2003. С. 79.
3. Макаров И.С., Сорокин В.Н. Резонансы речевого тракта с податливыми стенками и разветвлением // Сборник трудов 13-й сессии Российского Акустического Общества. Акустика речи. Медицинская и биологическая акустика. 2003. Т.З. С. 84-89.
4. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Артикуляторный ресинтез гласных // Информационные процессы. 2003. Т. 3, № 2. С. 73-92.
5. Макаров И.С., Сорокин В.Н. Резонансы разветвленного речевого тракта с податливыми стенками // Акуст. журнал. 2004. Т. 50, № 3. С. 389396.
6. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Артикуляторный ресинтез фрикативных // Информационные процессы. 2004. Т. 4, №2. С. 141-159.
7. Баден П., Макаров И.С., Сорокин В.Н. Алгоритм вычисления площадей поперечных сечений речевого тракта И Акуст. журнал. 2005. Т. 51, №1. С. 52-58.
8. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Кодовая книга для речевых обратных задач // Информационные процессы. 2005. Т. 5, №2. С. 101-119.
Отпечатано в ООО «Компания Спутник+» ЦЦ № 1-00007 от 25.09.2000 г. Подписано в печать 03.05.05 Тираж 100 экз. Усл. п.л. 1,06 Печать авторефератов (095) 730-47-74,778-45-60
РНБ Русский фонд
2007-4 10168
Оглавление автор диссертации — кандидата технических наук Макаров, Илья Сергеевич
ВВЕДЕНИЕ.
ГЛАВА 1. Речевая обратная задача - обзор алгоритмов ее решения.
§ 1. Введение.г.
§ 2. Речевая обратная задача - обоснование и математическая постановка.
§ 3. Обзор методов решения речевых обратных задач.
§ 4. Обзор методов построения артикуляторных кодовых книг.
§ 5. Обзор артикуляторных моделей и алгоритмов вычисления функции плошади поперечного сечения тракта.
§ 6. Обзор акустических моделей речеобразования.
§ 7. Обзор артикуляторных синтезаторов речи.
§ 8. Выводы.
ГЛАВА 2. Артикуляторная модель и алгоритм вычисления площадей поперечных сечений.
§ 1. Введение.
§ 2. Экспериментальные данные.
§ 3. Математическая модель артикуляции.
§ 4. Анатомическая база данных.
§ 5. Алгоритм вычисления площадей поперечных сечений.
§ 6. Выводы.
ГЛАВА 3. Акустическая и аэродинамическая модель речевого тракта.
§ 1. Введение.
§ 2. Гидродинамическая модель речевого тракта.
§ 3. Численные схемы решения уравнения Вебстера.
§ 4. Податливость стенок тракта и грушевидные области.
§ 5. Аэродинамические процессы в речевом тракте.:.
§ 6. Выводы.
ГЛАВА 4. Артикуляторная кодовая книга.
§ 1. Введение.
§ 2. База данных микролучевого рентгеноскопа.
§ 3. Акустическое пространство для артикуляторной кодовой книги.
§ 4. Регуляризующие алгоритмы для формирования кодовой книги.
§ 5. Статическая артикуляторная кодовая книга.
§ 6. Динамическая артикуляторная кодовая книга.
§ 7. Выводы.
ГЛАВА 5. Исследование полноты статической артикуляторной кодовой книги.
§ 1. Введение.
§ 2. Артикуляторный синтезатор.
§ 3. Полнота артикуляторной кодовой книги.
§ 4. Гласные и гласноподобные сегменты.
§ 5. Фрикативные сегменты.
§ 6. Слитная речь.
§ 7. Выводы.
Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Макаров, Илья Сергеевич
Речевая обратная задача формулируется как задача нахождения параметров математической модели артикуляции, или функции площади поперечного сечения речевого тракта, или команд, управляющих артикуляторными параметрами, по измеренным акустическим параметрам речевого сигнала.
С теоретической точки зрения, умение решать речевые обратные задачи необходимо для изучения свойств так называемой внутренней модели артикуляции. Под внутренней моделью понимается такая резидентная программа, которая хранится в головном мозге человека и осуществляет -управление процессами артикуляции по информации о текущем состоянии речевого тракта (получаемой от механорецепторов и посредством акустической обратной связи). Есть основания полагать, что внутренняя модель принимает участие и в процессе восприятия речи других людей (так называемая моторная теория восприятия речи).
С практической точки зрения, решение речевых обратных задач может быть эффективно использовано в ряде технических приложений. К таким приложениям относятся низкоскоростной артикуляторный вокодер, высококачественный артикуляторный синтезатор речи по произвольному тексту, а также система обучения людей иноязычному произношению. Модуль решения речевых обратных задач может быть использован в системах автоматического распознавания речи для повышения робастности этих систем.
Обратная задача для речевого тракта является нелинейной и некорректной: заданному набору входных данных, как правило, соответствует много формальных решений, большинство из которых неустойчивы по отношению к возмущениям данных. Поэтому для решения указанной обратной задачи необходимо использовать методы и алгоритмы, которые обеспечивают получение физически, физиологически и фонетически приемлемых устойчивых решений. Практическую работоспособность этих алгоритмов можно оценить, применяя процедуру ресинтеза: синтезированный по найденному решению речевой сигнал перцептивно должен мало отличаться от исходного речевого сигнала, по параметрам которого решалась обратная задача.
Одним из наиболее эффективных способов решения речевых обратных задач является вариационный метод. В нем параметры математической модели речеобразования варьируются с целью нахождения глобального минимума критерия оптимальности, включающего в себя некоторый энергетический критерий и невязку между измеренными и вычисленными параметрами. Минимизация происходит при ограничениях на искомые параметры.
Описанная оптимизационная задача является многоэкстремальной. Поэтому при ее решении важно иметь "хорошее" начальное приближение. Только в этом случае процесс минимизации может дать необходимое приближенное решение. Для хранения и поиска начальных приближений необходимо построение так называемой артикуляторной . кодовой книги. Артикуляторной кодовой книгой называется специальная база данных, в которой хранятся множества акустических и артикуляторных векторов. При этом каждому вектору акустических параметров речевого сигнала в кодовой книге ставится в соответствие некоторое множество векторов артикуляторных параметров. Артикуляторные параметры из такого множества и служат начальными приближениями при решении обратной задачи для реального речевого сигнала. Все известные в литературе артикуляторные кодовые книги строились относительно некоторых абстрактных математических моделей речеобразования. Вместе с тем, специфика речевых обратных задач требует построения кодовых книг относительно реальных дикторов.
Все это определяет актуальность исследований в области артикуляторных кодовых книг применительно к решению речевых обратных задач.
Основная цель исследования заключается в построении артикуляторной кодовой книги для реального диктора путем решения специфической обратной задачи: по измеренным акустическим параметрам речевого сигнала и траекториям 8-ми точек на внешних и внутренних поверхностях тракта вычисляются артикуляторные векторы и записываются в кодовую книгу.
Достижение этой цели предполагает решение следующих задач:
- обзор и систематизация алгоритмов решения обратных задач и построения артикуляторных кодовых книг;
- уточнение математических моделей артикуляции, акустики и аэродинамики речевого тракта по экспериментальным данным;
- построение нового алгоритма вычисления площадей поперечных сечений речевого тракта;
- построение обширной анатомической базы данных;
- построение артикуляторного синтезатора речи;
- тестирование полноты построенной артикуляторной кодовой книги путем решения речевых обратных задач для различных фонетических сегментов - отдельных звуков, звукосочетаний, слогов, слов и фраз, а также путем ресинтеза полученных решений.
Цель и задачи работы обусловили выбор методов исследования. В качестве методов исследования.использовались методы теории некорректных задач, математической физики, теории оптимизации и оптимального управления, факторного анализа опытных данных, а также алгоритмы, разработанные в рамках акустической теории речеобразования, акустической теории неоднородных волноводов и гидродинамики вязкой жидкости. Оценка работоспособности и эффективности разработанных алгоритмов осуществлялась путем численных экспериментов в среде МАТЬАВ с использованием реальных данных.
Материалом исследования послужила обширная база данных, построенная в университете штата Висконсин, США, по результатам измерений на микролучевой рентгеноскопической установке и содержащая около полусотни дикторов - носителей американского английского языка. Кроме того, использовались результаты трехмерной визуализации речевого тракта, полученные с помощью магнитно-резонансной томографии.
Научная новизна заключается в уточнении артикуляторных, акустических и аэродинамических моделей речеобразования, в новом подходе к построению артикуляторной кодовой книги, а также в разработке новых принципов построения кодовых книг применительно к решению динамических обратных задач. В диссертации показана принципиальная возможность решения речевых обратных задач для всех типов звуковых сегментов относительно реального диктора с точностью, удовлетворительной для практических приложений. Это определяет теоретическую значимость работы.
Речь, синтезированная по решениям речевой обратной задачи артикуляторным синтезатором, отличается высоким качеством. Поэтому построенная артикуляторная кодовая книга может быть использована в высококачественном артикуляторном синтезаторе речи по произвольному тексту, а также в артикуляторном вокодере. Это определяет практическую ценность диссертации.
Апробация работы. Основные положения и результаты диссертации докладывались на Международном семинаре «Диалог - 2002» (Протвино, 2002), на 4-й Международной конференции «Фонетика сегодня: актуальные проблемы и университетское образование» (Москва, 2003), а также на 13-й сессии Российского Акустического Общества (Москва, 2003). Часть исследований была поддержана грантом Американского Акустического Общества в 2004 году по теме «акустическая модель речеобразования». Публикации. По результатам диссертационной работы опубликовано 5 печатных статей [1, 7-9, И] в ведущих научных журналах, а также 3 доклада [6, 10, 12] на Международных конференциях. Все работы выполнены в соавторстве. В публикациях вклад соискателя состоит в разработке артикуляторных, акустических и аэродинамических моделей, артикуляторного синтезатора речи, а также в описании и моделировании опытных данных. Структура работы. Диссертационная работа состоит из введения, пяти глав, заключения и библиографического списка использованных источников. Она содержит 141 страницу основного текста, 26 рисунков и 14 таблиц, расположенных в тексте диссертации. Список литературы включает 191 наименование. Первая глава «Речевая обратная задача - обзор алгоритмов ее решения» является обзорной. В этой главе описаны все известные методы решения речевых обратных задач, рассмотрены алгоритмы построения артикуляторных кодовых книг, а также артикуляторные, акустические и аэродинамические модели, используемые при формировании кодовой книги. Вторая глава «Артикуляторная модель и алгоритм вычисления площадей поперечных сечений» посвящена уточнению артикуляторной модели и построению нового алгоритма вычисления площадей поперечных сечений по результатам магнитно-резонансных измерений речевого тракта. Кроме того, описывается обширная база данных анатомических параметров, построенная по результатам измерений на микролучевом рентгеноскопе.
Заключение диссертация на тему "Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач"
§ 7. Выводы
В главе 5 проведено исследование полноты статической артикуляторной кодовой книги путем решения двух типов речевых обратных задач. Показано, что для обратных задач второго типа (в качестве входных данных используется только акустика) погрешности аппроксимации формантных частот не превышают 1.8% для Fi, 1.6% для Fx, 1.1% для Fj, что сопоставимо с погрешностью аппроксимации частот, полученной при решении обратной задачи первого типа (в качестве входных данных используется как акустика, так и треки точек): 3.7% для Fi, 3.8% для F2 и 2.6% для F3. Погрешности аппроксимации координат точек также сопоставимы с погрешностью измерения и оказываются порядка 3% и 6% для обратных задач первого и второго типа, соответственно.
Аналогичная проверка качества решения обратной задачи для фрикативных показала, что точность аппроксимации характерных частот спектра фрикативных с использованием артикуляторных данных близка к 9.5%, а при использовании только акустических параметров - около 10.3%. Погрешности аппроксимации координат точек в обоих типах задач оказываются порядка 3%.
Таким образом, разница между вычисленными и измеренными векторами акустических параметров и треков точек оказывается сопоставимой с погрешностью измерений данных. Это свидетельствует о том, что сформированная статическая артикуляторная кодовая книга является полной, а используемые математические модели артикуляции и акустики, а также алгоритмы решения речевых обратных задач -адекватными.
На основе уточненных математических моделей артикуляции и акустики разработаны алгоритмы и программы артикуляторно-формантного синтезатора. С помощью этого синтезатора осуществлен ресинтез речевых сигналов по решениям речевых обратных задач. Качество этих сигналов оказалось очень близко к качеству исходных речевых сигналов. Таким образом, показана принципиальная возможность использования сформированной артикуляторной кодовой книги в артикуляторном синтезаторе.
Исследована проблема восстановления команд управления по полученным решениям речевой обратной задачи. Показано, что речевой сигнал, синтезированный на приемном конце по этим управлениям, практически не отличается от речевого сигнала, синтезированного по последовательности артикуляторных векторов, и мало отличается от исходного сигнала. Скорость передачи при этом составляет 1.5 и 3.2 кбит/с для разных алгоритмов восстановления команд управлений. Это свидетельствует о том, что точность полученных решений оказывается удовлетворительной и для низкоскоростного артикуляторного вокодера.
ЗАКЛЮЧЕНИЕ
По результатам магнитно-резонансной томографии речевого тракта уточнена артикуляторная модель. Эта модель учитывает анатомические и артикуляторные параметры как в среднесагиттальном, так и в поперечном сечениях, т.е. является трехмерной.
Построен новый алгоритм вычисления площадей поперечных сечений речевого тракта. Показано, что точность алгоритма во всех секциях речевого тракта сопоставима с точностью измерений магнитно-резонансной томографии. Средняя по тракту ошибка аппроксимации площади построенным алгоритмом оказывается порядка 5%. Проведено сравнение алгоритма с одной из версий 00-модели, признанной в мировой литературе наилучшим алгоритмом вычисления функции площадей поперечных сечений. Показано, что во всех секциях тракта построенный алгоритм дает лучшую или сопоставимую точность с с^З-моделью.
По результатам магнитно-резонансной томографии уточнена акустическая модель речевого тракта. Показано, что совместный учет фактора податливости стенок речевого тракта и наличия разветвлений на уровне входа в пищевод приводит к тому, что точность вычисления первых трех резонансные частот оказывается в пределах точности оценки формантных частот.
Статическая артикуляторная кодовая книга определяется как база данных для квазистационарных сегментов речи, в которой хранятся множества артикуляторных и акустических векторов, причем каждому акустическому вектору поставлено в соответствие некоторое подмножество множества артикуляторных векторов. Для формирования этой кодовой книги были использованы уточненные модели артикуляции и акустики. Кодовая книга построена относительно реального диктора из базы данных, сформированной по измерениям на микролучевом рентгеноскопе. Метод построения кодовой книги сводился к решению специфической обратной задачи: по измеренным параметрам речевого сигнала и трекам нескольких точек на внешних и внутренних поверхностях речевого тракта вычислялись соответствующие параметры математической модели артикуляции и- записывались в кодовую книгу.
Проведено исследование качества решения речевых обратных задач с помощью построенной артикуляторной кодовой книги. Показано, что для обратных задач, в которых в качестве входных данных используется только акустика, погрешности аппроксимации формантных частот не превышают 1.8% для /ч, 1.6% для ^2,1.1% для /=з, а погрешность аппроксимации координат точек - около 6%. Это сопоставимо с погрешностями аппроксимации частот и координат точек, полученными при решении обратных задач, в которых в качестве входных данных используется как акустика, так и треки точек, - 3.7% для Р|, 3.8% для Рг и 2.6% для Рз, 3% для координат точек измерений.
Аналогичная проверка качества решения обратной задачи для фрикативных показала, что точность аппроксимации характерных частот спектра фрикативных с использованием артикуляторных данных близка к 9.5%, а при использовании только акустических параметров - около 10.3%. Погрешности аппроксимаций точек не превышали 3%.
Таким образом, разница между вычисленными и измеренными векторами акустических параметров и треков точек сопоставима с погрешностью измерений данных. Это свидетельствует о том, что сформированная статическая артикуляторная кодовая книга является представительной, а используемые математические модели артикуляции и акустики, а также алгоритмы решения речевых обратных задач - адекватными.
На основе уточненных математических моделей артикуляции и акустики разработаны алгоритмы и программы артикуляторно-формантного синтезатора. С помощью этого синтезатора осуществлен ресинтез речевых сигналов по решениям речевых обратных задач. Качество этих сигналов оказалось очень близко к качеству исходных речевых сигналов. Таким образом, показана принципиальная возможность использования сформированной артикуляторной кодовой книги в артикуляторном синтезаторе.
Исследована проблема восстановления команд управления по полученным решениям речевой обратной задачи. Показано, что речевой сигнал, синтезированный на приемном конце по этим управлениям, практически не отличается от речевого сигнала, синтезированного по последовательности артикуляторных векторов, и мало отличается от исходного сигнала. Скорость передачи при этом составляет 1.5 и 3.2 кбит/с для разных алгоритмов восстановления команд управлений. Это свидетельствует о том, что точность полученных решений оказывается удовлетворительной и для низкоскоростного артикуляторного вокодера. В качестве направлений дальнейших исследований планируется построение
I - •■■■ статических и динамических артикуляторных кодовых книг для всех дикторов из базы данных, а также их исследование применительно к артикуляторному синтезатору и низкоскоростному артикуляторному вокодеру.
Библиография Макаров, Илья Сергеевич, диссертация по теме Теоретические основы информатики
1. Баден П., Макаров И.С., Сорокин В.Н. Алгоритм вычисления площадей поперечных сечений речевого тракта // Акуст. журнал. 2005. Т. 51, №1. С. 52-58.
2. Бархатов А.Н., Горская Н.В., Горюнов A.A., Гурбатов С.Н., Можаев В.Г., Руденко О.В. Акустика в задачах. М.: Наука, 1996. - 336 с.
3. Исакович М.А. Общая акустика. М.: Наука, 1973. - 495 с.
4. Ландау Л.Д., Лифшиц Е.М. Гидродинамика. М.: Наука, 1986. - 736 с.
5. Леонов A.C., Ягола А.Г. Можно ли решить некорректно поставленную задачу без знания погрешностей данных? // Вестник МГУ, Сер.З, Физика, Астрономия. 1995. Т. 36, № 4. С. 28-33.
6. Леонов A.C., Макаров И.С., Сорокин В.Н. Обучающая фонетическая система // Тезисы 4-й международной научной конференции «Фонетика сегодня: актуальные проблемы и университетское образование». 2003. С. 79.
7. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Артикуляторный ресинтез гласных // Информационные процессы. 2003. Т. 3, № 2. С. 73-92.
8. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Артикуляторный ресинтез фрикативных // Информационные процессы. 2004. Т. 4, № 2. С. 141-159.
9. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Кодовая книга для речевых обратных задач // Информационные процессы. 2005. Т. 5, № 2. С. 101-119.
10. Макаров И.С., Сорокин В.Н. Резонансы речевого тракта с податливыми стенками и разветвлением // Сборник трудов 13-й сессии Российского Акустического Общества. Акустика речи. Медицинская и биологическая акустика. 2003. Т.З. С. 84-89.
11. Макаров И.С., Сорокин В.Н. Резонансы разветвленного речевого тракта с податливыми стенками // Акуст. журнал. 2004. Т. 50, № 3. С. 389-396.
12. Макаров И.С., Баден П., Сорокин В.Н. Трехмерная модель речевого тракта и алгоритм вычисления площадей поперечных сечений // Труды международного семинара «Диалог 2002». 2002. Т. 2. С. 352-359.
13. Маркелл Д.Д., Грей A.A. Линейное предсказание речи. М.: Связь, 1980. - 308 с.
14. Скучик Е. Основы акустики. Т. 2. М.: ИЛ, 1959. - 565 с.
15. Сорокин В.Н. Теория речеобразования. М.: Радио и Связь, 1985. - 312 с.
16. Сорокин В.Н. Синтез речи. М.: Наука, 1992. - 392 с.
17. Сорокин В.Н., Цыплихин А.И. Сегментация и распознавание гласных // Информационные процессы. 2004. Т. 4, № 2. С. 202-220.I
18. Тихонов А.Н., Самарский А.А. Уравнения математической физики. М.: Наука, 1972.-736 с.
19. Тихонов А.Н., Леонов А.С., Ягола А.Г. Нелинейные некорректные задачи. М.: Наука, 1995. - 242 с.
20. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. - 284 с.
21. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968. - 392 с.
22. Чистович Л.А. и др. Физиология речи. Восприятие речи человеком. Л.: Наука, 1976.-388 с.
23. Alwan A., Narayanan S. Toward articulatory-acoustic models for liquid approximants based on MRI and EPG data. Part 2: the rhotics // J. Acoust. Soc. Am. 1997. Vol. 101. P. 10781089.
24. Atal B.S. Determination of vocal tract shape directly from the speech wave // J. Acoust. Soc. Am. 1970. Vol. 47. P. 65A.
25. Atal B.S., Rioul O. Neural networks for estimating articulatory positions from speech // J. Acoust. Soc. Am. 1989. Vol. 86, suppl. 1, S67.
26. Atal B.S., Chang J.J., Mathews M.V., Tuckey J.W. Inversion of articulatory-to-acoustic transformation in the vocal tract by a computer sorting technique // J. Acoust. Soc. Am. 1978. Vol. 63. P. 1535-1555.
27. Badin P., Engwall O. An MRI study of Swedish fricatives // Proc. 5th Seminar on Speech Production, Kloster Seeon. 2000. P. 297-300.
28. Badin P., Bailly G., Raybadi M., Segebarth C. A 3-dimensional linear articulatory model based on MRI data // Proc. 3th ESCA/COCOSDA Int Workshop on Speech Synthesis. 1998. P. 249-254.
29. Badin P., Beautemps D., Laboissiere R., Schwartz J.L. Recovery of vocal tract geometry from formants for vowels and fricative consonants using a midsagittal-to-area function conversion model // J. of Phonetics. 1995. Vol. 23. P. 221-229.
30. Baer Т., Gore J.C., Gracco L.C., Nye P.W. Analysis of vocal tract shape and dimensions using magnetic resonance imaging: Vowels // J. Acoust. Soc. Am. 1991. Vol. 90. P. 799-828.
31. Bavegard M., Fant G. From formant frequencies to VT-area function parameters // SPEECH MAPS (ESPRIT/BR №6975). 1995. P. 40-51.
32. Bell-Berti F. Control of pharyngeal cavity size for English voiced and voiceless stops // J.- 147
33. Acoust. Soc. Am. 1975. Vol. 57. P. 456-461.
34. Beautemps D., Badin P., Bailly G. Linear degrees of freedom in speech production: analysis of cineradio-and labiofilm data and articulatory-acoustic modeling // J. Acoust. Soc. Am. 2001. Vol. 109, Pt. 1. P. 2165-2180.i
35. Beautemps D., Badin P., Laboissiere R. Deriving vocal tract area functions from midsagittal profiles and formant frequencies: a new model for vowels and fricative consonants based on experimental data // Speech Communication. 1995. Vol. 16. P. 27-47.
36. Blumstein S.E., Stevens K.N. Perceptual invariance and onset spectra for stop consonants in different vowel environments//J. Acoust. Soc. Am. 1979. Vol. 67. P. 648-662. "
37. Bocchieri E.L. An articulatory speech synthesizer PhD thesis, 1983, University of Florida.-169 p.
38. Borg G. Eine Umkehrung der Sturm-Liouvilleschen Eigenwertaufgabe // Acta Math. 1946. Vol. 78. P. 1-96.
39. Browman C., Goldstein L. Articulatory phonology: and overview // Phonetica. 1992. Vol. 49. P. 155-180.
40. Callan D., Callan A., Kroos Ch., Vatikiotis-Bateson E. Neural processes underlying perception of audiovisual speech production // Proc. 5th Seminar on Speech Production, Kloster Seeon. 2000. P. 273-276.
41. Cassidy S., Harrington J. The place of articulation distinction of voiced and stops: Evidence from burst spectra and formant transitions // Phonetica. 1995. Vol. 52. P. 263-284.
42. Chen M. Acoustic parameters of nasalized vowels in hearing impaired and normal hearing speakers // J. Acoust. Soc. Am. 1995. Vol. 98, Pt. 1. P. 2443 2453.
43. Chen M. Acoustic correlates of English and French nasalized vowels //.J. Acoust. Soc. Am. 1997. Vol. 102. P. 2360 2370.
44. Chennoukh S., Sinder D., Richard G., Flanagan J. Articulatory based low-bit rate speech coding//J. Acoust. Soc. Am. 1997a. Vol. 102, Pt. 2. P. 3163.
45. Chennoukh S., Sinder D., Richard G., Flanagan J. Voice mimic system using an articulatory codebookfor estimation of vocal tract shape // EUROSPEECH'97. 1997b.
46. Childers D.G., Hu H.T. Speech synthesis by glottal excited linear prediction // J. Acoust. Soc. Am. 1994. Vol. 96. P. 2026 2036.
47. Coker C. A model of articulatory dynamics and control // Proc. of the IEEE. 1976. Vol. 64. P. 452-460.
48. Dang J., Honda K. Construction and control of a physiological articulatory model // J.
49. Acoust. Soc. Am. 2004. Vol. 115. P. 853-870.i
50. Dang J., Honda K., Suzuki H. Morphological and acoustical analysis of the nasal and paranasal cavities // J. Acoust. Soc. Am. 1994. Vol. 96. P. 2088-2100.
51. Dang J., Shadle Ch., Honda K., Suzuki H. An experimental study of the open correction coefficient for side branches within an acoustic tube // J. Acoust. Soc. Am. 1998. Vol. 104, Pt. 1. P. 1075-1084.
52. Deng L., Sun D. A statistical approach to automatic speech recognition using the atomic speech units constructed from overlapping articulatory features // J. Acoust. Soc. Am. 1994. Vol. 95, Pt.l. P. 2702-2719.
53. Dusan S. Statistical estimation of articulatory trajectories, from the speech signal using dynamical and phonological constraints: PhD thesis, 2000, University of Waterloo. 230 p.
54. El-Masri S., Pelorson X., Saguet P., Badin P. Development of the transmission line matrix method in acoustics applications to higher modes in the vocal tract and other complex ducts//Int. J. Numer. Model. 1998. Vol. 11. P. 133-151.
55. Engwall O. Modeling of the vocal tract in 3 dimensions // Proc. of the EUROSPEECH'99. 1999. Vol. 1. P. 113-116.
56. Erler K., Freeman G.H. An HMM-based speech recognizer using overlapping articulatory features//J. Acoust. Soc. Am. 1996. Vol. 100, Pt. 1. P. 2500-2513.
57. Fant G. Swedish vowels and a new three-parameter model // TMH-QPSR. 2001. Vol. 1. P. 43-49.
58. Farit G., Bavegard M. Parametric model of VT area functions: vowels and consonants // TMH-QPSR. 1997. Vol. 1. P. 1-20.6,1. Flanagan J., Ishizaka K., Shipley K. Signal models for low-bit rate coding of speech // J.
59. Acoust. Soc. Am. 1980. Vol. 68. P. 780-791.
60. Fletcher R. Practical Methods of Optimization. London: John Wiley and Sons, 2000. -450 p.
61. Folkins J., Abbs J. Lip and jaw motor control during speech: responses to resistive loading of jaw // J. Speech and Hearing Res. 1975. Vol. 18. P. 207-220.
62. Fowler C. Listeners do hear sounds, not tongues // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1730-1741.i
63. Garcia C., Prett D., Morari M. Model predictive control: theory and practice survey // Automatica. 1989. Vol. 25, № 3. P. 335-348.
64. Garding L. The inverse of vowel articulation // Arkiv fuer Mathematik. 1977. Vol. 15. P. 63-86.
65. Gay T., Lindblom B., Lubker J. Production of bite-block vowels: Acoustic equivalence by selective compensation // J. Acoust. Soc. Am. 1981. Vol. 69. P. 802-810.
66. Gill P.E., Murray W., Wright M.H. Practical Optimization. London: Academic Press, 1982.-401 p.
67. Gopinath B., Sondhi M.M. Determination of the shape of the human vocal tract from acoustical measurements // Bell Sys. Tech. J. 1970. Vol. 49. P. 1195-1214.
68. Gupta S., Schroeter J. Pitch-synchronouous frame-by-frame and segment-based articulator analysis by synthesis // J. Acoust. Soc. Am. 1993. Vol. 94. P. 2517-2530.
69. Gurfinkel V.S., Levik Y.S., Popov K.E., Smetanin B.N., Shlikov V.Y. Body scheme and postural control // Stance and Motion: Facts and Concepts, ed. by V.S. Gurfinkel et al. 1988. Plenum Press N.Y. P.185-193.
70. Hanson H., Stevens K. A quasiarticulatory approach to controlling acoustic source parameters in a Klatt-type formant synthesizer using HLsyn // J. Acoust. Soc. Am. 2002. Vol. 112. P.1158-1182.
71. Heinz J., Stevens K. On the relations between cineradiographs, area functions and acoustic spectra of speech // Proc. 5th Int. Congr. Of Acoustics. 1965. Paper A44.
72. Hogden J., Loefquist A., Gracco V., Zlokamik I., Rubin Ph., Saltzman E. Accurate recovery of articulator positions from acoustics: New conclusions based on human data // J. Acoust. Soc. Am. 1996. Vol. 100 (3). P. 1819-1834.
73. Holmes J. Speech Synthesis. London: Mills and Book, 1972.
74. Holmes J. The influence of glottal waveform on the naturalness of speech from a parallel formant synthesizer // IEEE Trans. On Audio and Electroacoustics. 1973. Vol. AU-21, № 3. P. 298-305.
75. Kaburagi T., Honda M. A model of articulator trajectory formation based on the motor tasks of vocal tract shapes // J. Acoust. Soc. Am. 1996. Vol. 99. P. 3154-3170.
76. Kaburagi T., Honda M. Dynamic articulatory model based on multidimensional invariant feature task representation //J. Acoust. Soc. Am. 2001. Vol. 110. P. 441-452.
77. Kelso J.A.S., Stelmach G.E. Central and peripheral mechanisms in motor control // Motor Control. Issues and Trends, ed. by G.E. Stelmach (Academic Press, NY). 1976. P. 3-40.
78. Kewly-Port D. Perception of static and dynamic cues to place of articulation in initial stop consonants //J. Acoust. Soc. Am. 1983. Vol. 73. P. 1779-1992.
79. Kewley-Port D., Watson C.S. Formant frequency discrimination for isolated English vowels // J. Acoust. Soc. Am. 1994. Vol. 95. P. 485 496.
80. Klatt D. Software for a cascade/parallel synthesizer // J. Acoust. Soc. Am. 1980. Vol. 67. P. 971 -995.
81. Krstulovic S. LPC modeling with speech production constraints // Proc. 5th Seminar on Speech Production, Kloster Seeon. 2000. P. 221-224.
82. Leonov A.S., Sorokin V.N. Control in the internal model: score reorganization and compensation // Pattern Recognition and Image Analysis. 2004. Vol. 14, № 3. P. 407-420.
83. Levinson N. The inverse Sturm-Liouville problem // Math. Tidsskr. Ser. 1949. P. 25-30.
84. Levinson S., Schmidt C. Adaptive computation of articulatory parameters from the speech signal // J. Acoust. Soc. Am. 1983. Vol. 74. P. 1145-1154.
85. Liberman A., Mattingly I. The motor theory of speech perception revised // Cognition. 1985. Vol. 21. P. 1-36.
86. Liberman A., Cooper F., Shankweiler D., Studdert-Kennedy M. Perception of speech code // Psychological Review. 1967. Vol. 74. P. 431-461.
87. Liljencrants J. Speech synthesis with a reflection-type line analog: DS Dissertation, 1985, Dept. of Speech Comm. and Music Acoust., Royal Inst, of Tech., Stockholm, Sweden. 395 p.
88. Lin Q. Vocal tract computation: how to make it more robust and faster // STL-QPSR. 1992. Vol. 4. P. 29-42.
89. Lin Q., Fant G. Vocal tract area function parameters from formant frequencies // Proc. EUROSPEECH'89. 1989. P. 673-676.
90. Lindblom B. Role of articulation in speech perception: clues from production // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1683-1695.
91. Lindblom, B., Lubker J., Gay T. Formant frequencies of some fixed mandible vowels and a model of speech motor programming by predictive simulations // J. of Phonetics. 1979. Vol. 7. P. 147-161.
92. Linde Y., Buzo A., Gray R. An algorithm for vector quantization // IEEE Trans. Commun., COM-28.1980. P. 84-95.
93. Maeda S. On the conversion of vocal tract x-ray data into formant frequencies. Bell Labs, Murray Hill, NY, 1972. - 92 p.
94. Maeda S. A digital simulation method of the vocal-tract system // Speech Communication. 1982. Vol. l.P. 199-229.
95. Maeda S. Improved articulatory model // J. Acoust. Soc. Am. 1988. Vol. 84. S146.
96. Matsuzaki H., Motoki K. FEM-analysis of 3-d vocal tract model with asymmetrical shape // Proc. 5th Seminar on Speech Production, Kloster Seeon. 2000. P. 329-332.
97. McGowan R., Cushing S. Vocal tract normalization for midsagittal articulatory recovery with analysis-by-synthesis//J. Acoust. Soc. Am. 1999. Vol. 106. P. 1090-1105.
98. McGowan R., Lee M. Task dynamic and articulatory recovery of lip and velar approximations under model mismatch conditions // J. Acoust. Soc. Am. 1996. Vol. 99. P. 595608.
99. Mermelstein P. Determination of the vocal tract shape from measured formant frequencies // J. Acoust. Soc. Am. 1967. Vol. 41. P. 1283-1294.
100. Mermelstein P. Articulatory model for the study of speech production // J. Acoust. Soc. Am. 1973. Vol. 53. P. 1070-1082.
101. Meyer P., Schroeter J., Sondhi M.M. Design and evaluation of optimal cepstral lifters for accessing articulatory codebooks // IEEE Trans, on Signal Proc. 1991. Vol. 39. P. 1493-1502.
102. Meyer P., Wilhelms R., Strube H.W., A quasiarticulatory speech synthesizer for German language running in real time // J. Acoust. Soc. Am. 1989. Vol. 86. P. 523-539.
103. Miki N., Matsuzaki H., Aoyama K., Ogawa Y. Transfer function of 3-d vocal tract model with higher mode // Proc. Of 1st ESCA Tutorial and Research Workshop on Speech Production Modeling: From control strategies to acoustics. 1996. P. 211-214.
104. Mongeau L., Franchek N., Coker C., Kubli R. Characteristics of a pulsating jet through a small modulated orifice, with application to voice production // J. Acoust. Soc. Am. 1997. Vol. 102,Pt. l.P. 1121-1133.
105. Moeller J., Atal B.S., Schroeder M. Determination of articulatory parameters of the human vocal tract from acoustic measurements // J. Acoust. Soc. Am. 1976. Vol. 60. S77 (A).
106. Munhall K., Loefquist A., Kelso J. Lip-larynx coordination in speech: effects of mechanical perturbations to the lower lip // J. Acoust. Soc. Am. 1994. Vol. 95. P. 3605-3616.
107. Naraynanan S. Geometry, kinematics and acoustics of Tamil liquid consonants // J. Acoust. Soc. Am. 1999. Vol. 106, Pt. 1. P. 1993-2007.
108. Narayanan S., Alwan A. Toward articulatory-acoustic models for liquid approximants based on MRI and EPG data. Part 1: the laterals // J. Acoust. Soc. Am. 1997. Vol. 101. P. 10641077.
109. Naraynanan S., Alwan A., Haker K. An articulatory study of fricative consonants using magnetic resonance imaging//J. Acoust. Soc. Am. 1995. Vol. 98. P. 1325-1347.
110. Nearey T. Critique: Phonological contrast and articulatory properties // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1714-1717.
111. Nosair Z.B., Zahorian S.A. Dynamic spectral shape features as correlates for initial stop consonants // J. Acoust. Soc. Am. 1991. Vol. 89. P. 2978-2991.
112. Ohala J. Speech perception is hearing sounds, not tongues // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1718-1725.
113. Ohde R.N., Stevens K.N. Effect of burst amplitude on the perception of place of articulation for stops //J. Acoust. Soc. Am. 1983. Vol. 74. P. 706-714.
114. Okadome T. and Honda M. Generation of articulatory movements by using a kinematic triphone model // J. Acoust. Soc. Am. 2001. Vol. 110. P. 453-463.
115. O'Shaughnessy D. Critique: Speech perception: acoustic or articulatory? // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1726-1729.
116. Paige A., Zue V. Computation of vocal tract area function // IEEE Trans, on Audio and Electroacoustics. 1970. Vol. AU-18. P. 7-18.
117. Perkell J. Physiology of speech production: results and implications of a quantitative cinemaradiographic study. Cambridge: MIT Press, 1969. - 120 p.
118. Perrier P., Boe L.J., Sock R. Vocal tract area function estimation from midsagittal dimensions with CT scans and a vocal tract cast: Modeling the transition with two sets of coefficients // J. Speech Hearing Res. 1992. Vol. 35. P. 53-67.
119. Poeck K., Orgass B. The concept of body scheme, a critical review and experimental results // Cortex. 1971. Vol. 5. P. 254-277.
120. Rahim M., Goodyear C.C. Estimation of vocal tract filter parameters using a neural net // Speech Communication. 1990. Vol. 9. P. 49-55.
121. Rahim M., Goodyear C.C., Bastiaan Klejn W., Schroeter J., Sondhi M.M. On the use of neural networks in articulatory speech synthesis // J. Acoust. Soc. Am. 1993. Vol. 93. P. 11091121.
122. Ramsay G., Deng L. Maximum-Likelihood estimation for articulatory speech recognition using a stochastic target model // Proc. of EUROSPEECH'95. 1995. P. 1401-1404.
123. Russel D.G. Spatial location cues and movement production // Motor Control. Issues and Trends, ed. By G.E. Stelmach (Academic Press, NY). 1976. P. 67-85.
124. Saltzman E., Munhall K. A dynamic approach to gestural patterning in speech production 11 Ecol. Psychol. 1989. Vol. 14. P. 333-382.
125. Sanguined V., Laboissiere R., Ostry D.J. A dynamical biomechanical model for neural control of speech production 11 J. Acoust. Soc. Am. 1998. Vol. 103. P. 1615-1627.
126. Savariaux C., Perrier P., Orliaquet J. Compensation strategies for the perturbation of the rounded vowel u. using a lip tube: a study of the control space in the speech production // J. Acoust. Soc. Am. 1995. Vol. 98. P. 2428-2442.
127. Scaife R., Hogan B., Bleakley Ch. Use of speaker-specific wall-vibration data for vocal tract inversion// SPEECH MAPS, ESPRIT/BR №6975. 1995. Deliverable 29. P. 31-37.
128. Schnell K., Lacroix A. Analysis of lossy vocal tract models for speech production // EUROSPEECH-2003.2003. P. 2369-2372.
129. Schoentgen J., Ciocea S. Kinematic formant-to-area mapping // Speech Communication. 1997. Vol. 21. P. 227-244.
130. Schroeder M. Determination of the geometry of the human vocal tract by acoustic measurements 11 J. Acoust. Soc. Am. 1967. Vol. 41, Pt 2. P. 1002-1010.
131. Schroeter J., Sondhi M.M. Dynamic Programming Search of articulatory codebooks // Proc. IEEE Int. Conf. Acoust. Speech Signal Proc. 1989. Vol. 1. P. 588-591.
132. Schroeter J., Sondhi M.M. Speech coding based on physiological models of speech production // Advances in Speech Production, eds S.Furui and M.M. Sondhi, Marcel Dekker, NY. 1991. P. 231-268.
133. Schroeter J. Sondhi M.M. Techniques for estimating vocal tract shapes from the speech signal II IEEE Trans, on Speech and Audio Proc. 1994. Vol. 2 , Pt 2. P. 133-150.
134. Schroeter J., Larar J., Sondhi M.M. Speech parameter estimation using a vocal tract/cord model // ICASSP'87.1987. P. 308-311.
135. Schroeter J., Meyer P., Parthasarathy S. Evaluation of improved articulatory codebooks and codebook access distance measure 11 ICASSP'90. 1990. P. 393-396.
136. Sekiyama K., Sugita Y. Audio-visual speech perception examined by brain imaging // Proc. 7th Int. Conf. on Spoken Language Processing, Denver. 2002. P. 1693-1696.
137. Shirai K., Kobayashi T. Estimating articulatory motion from speech wave // Speech Communication. 1986. Vol. 5. P. 159-170.
138. Shirai K., Kobayashi T. Estimation of articulatory motion using neural networks // J. of Phonetics. 1991. Vol. 19. P. 379-385.
139. Sinder D., Sondhi M.M. Text-to-speech from concatenation of articulatory units derivedfrom natural speech // J. Acoust. Soc. Am. 2003. Vol. 113, Pt. 2. P. 2199.i
140. Smits R., Ten Bosch L., Collier R. Evaluation of various sets of acoustical cues for the perception of prevocalic stop consonants //J. Acoust. Soc. Am. 1996. Vol. 100. P. 3852-3864.
141. Sondhi M.M. Experimental determination of the area function of a lossy dynamically varying vocal tract // J. Acoust. Soc. Am. 1973. Vol. 53. P. 294.
142. Sondhi M.M. Model for wave propagation in a lossy vocal tract // J. Acoust. Soc. Am. 1974. Vol. 55. P. 1070- 1075.
143. Sondhi M.M. Estimation of vocal tract areas: The need for acoustical measurements // IEEE Trans, on Acoustics, Speech and Signal Proc. 1979. Vol. ASSP-27, № 3. P. 268-273.
144. Sondhi M.M., Gopinath B. Determination of vocal tract shape from impulse response at the lips//J. Acoust. Soc. Am. 1971. Vol. 49, Pt. 2. P. 1868-1873.
145. Sondhi M.M., Resnik J.R. The inverse problem for the vocal tract: numerical methods, acoustical experiments and speech synthesis // J. Acoust. Soc. Am. 1983. Vol. 73. P. 985-1002.
146. Sondhi M.M., Schroeter J. A hybrid time-frequency domain articulatory speech synthesizer// IEEE Trans. Acoust., Speech, Signal Process. ASSP-35. 1987. P. 955-967.
147. Soquet A., Saerens M., Jospa P. Acoustic-articulatory inversion based on a neural controller of a vocal tract model: further results// Artificial Neural Networks, Elsevier. 1991. P. 371-376.
148. Soquet A., Lecuit V., Metens T., Demolin D. Mid-sagittal cut-to-area function transformation: Direct measurements of mid-sagittal distance and area with MRI // Speech Communication. 2002. Vol. 36.P. 169-180.
149. Sorokin V.N. Determination of vocal tract shape for vowels // Speech Communication. 1992. Vol. 11. P. 71-85.
150. Sorokin V.N. Inverse problem for fricatives // Speech Communication. 1994. Vol. 14. P. 249-262.
151. Sorokin V., Olshansky V., Kozhanov L. Internal model in articulatory control: evidence from speaking without larynx // Speech Communication. 1998. Vol. 30. P. 55-74.
152. Stevens K. Toward a model of speech recognition // J. Acoust. Soc. Am. 1960. Vol. 32. P. 47-55.
153. Stevens K. Critique: articulatory-acoustic relations and their role in speech perception // J. Acoust. Soc. Am. 1996. Vol. 99. P. 1693-1695.
154. Stevens K. Acoustic Phonetics. Cambridge: The MIT Press, 1998. - 607 p.
155. Stevens K., House A. Development of a quantitative description of vowel articulation // J. Acoust. Soc. Am. 1955. Vol. 27. P. 484-493.
156. Story B. Physiologically-based speech simulation using an enhanced wave-reflection model of the vocal tract: Ph.D. thesis, 1995, University of Iowa. 212 p.
157. Story B. On the ability of a physiologically constrained area function model of the vocal tract to produce normal formant patterns under perturbed conditions // J. Acoust. Soc. Am. 2004. Vol. 115. P. 1760-1770.
158. Story B., Titze I. Parametrization of vocal tract area functions by empirical orthogonal modes // J. of Phonetics. 1998. Vol. 26. P. 223-260.
159. Story B., Titze I. A preliminary study of voice quality transformation based on modifications to the neutral vocal tract area function // J. of Phonetics. 2002. Vol. 30. P. 485509.
160. Story B., Titze I., Hoffman E. Vocal tract area functions for an adult female speaker based on volumetric imaging // J. Acoust. Soc. Am. 1998. Vol. 104. P. 471-487.
161. Story B., Titze I., Hoffman E. The relationship of vocal tract shape to three voice qualities//J. Acoust. Soc. Am. 2001. Vol. 109. P. 1651-1667.
162. Sundberg J. On the problem of obtaining area functions from lateral x-ray pictures of the vocal tract // STL QPSR. 1969. P. 43-45.
163. Sundberg J., Johannson C., Wilbrand H., Ytterbergh C. From sagittal distance to area. A study of transverse, vocal tract cross-sectional area // Phonetica. 1987. Vol. 44. P. 76-90.
164. Tiede M., Yehia H., Vatikiotis-Bateson E. A shape-based approach to vocal tract area function estimation // Proc. of 1st ESCA Tutorial and Research Workshop on Speech Production Modeling: From control strategies to acoustics. 1996. P. 41-44.
165. Tom K., Titze I., Hoffman E., Story B. 3D vocal tract imaging and formant structure: varying vocal register, pitch and loudness // NCVS Status and Progress Report. 1999. Vol. 14. P. 101-113.
166. Vallabha G.K., Tuller B. Systematic errors in formant analysis of steady-state vowels // Speech Communication. 2002. Vol. 38. P. 141-160.
167. Vetter R.J., Weinstein S. The history of the phantom in congenital absent limbs // Neuropsychology. 1967. Vol. 5. P. 335-338.
168. Wakita H. Direct estimation of vocal tract shape by inverse filtering of acoustic speech waveforms // IEEE Trans. Audio Electroacout. 1973. Vol. 21. P. 417-427.
169. Weinstein S., Sersen E.A. Phantoms in cases of congenital absence of limbs // Neurology. 1961. Vol. 10-11. P. 905-911.
170. Westbury J. X-ray Microbeam Speech Production Database User's Handbook, Version 1.0 (June 1994). University of Wisconsin, 1994. - 135 p.
171. Wilhelms R., Meyer P., Strube H.W. Estimation of articulatory trajectories by Kalman Filter // Signal Processing 3: Theories and Applications, Elsevier Science Publishers. 1986. P. 477-480.
172. Wilhelms-Tricario R., McGowan R. Rational approximations of viscous losses in vocal tract acoustic modeling // J. Acoust. Soc. Am. 2004. Vol. 115. P. 3195-3201.
173. Yehia H., Itakura F. A method to combain acoustic and morphological constraints in the speech production inverse problem // Speech Communication. 1996. Vol. 18. P. 151-174.
174. Zhang Z., Mongeau L., Frankel S. Broadband sound generation by confined turbulent jets // J. Acoust. Soc. Am. 2002a. Vol. 112. P. 677-689.
175. Zhang Z., Mongeau L., Frankel S. Experimental verification of the quasi-steady approximation for aerodynamic sound generation by pulsating jets in tubes // J. Acoust. Soc. Am. 2002b. Vol. 112. P. 1652-1663.
176. Zhang Z., Mongeau L., Frankel S., Thomson S., Park J.B. Sound generation by steady flow through glottis-shaped orifices // J. Acoust. Soc. Am. 2004. Vol. 116. P. 1720-1728.
177. Zhao W., Zhang Ch., Frankel S., Mongeau L. Computational aeroacoustics of phonation, Part 1: Computational methods and sound generation mechanisms // J. Acoust. Soc. Am. 2002. Vol. 112. P. 2134-2146.
178. Zlokarnik I. Experiments with an articulatory speech recognizer // Proc. Europ. Conf. on Speech Com. Technology. 1993. P. 2215-2218.
-
Похожие работы
- Артикуляторно-формантный синтез речи
- Анализ и автоматическая сегментация речевого сигнала
- Алгоритмы декодирования в список и их реализация
- Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса
- Разработка метода автоматической фонетической сегментации и маркировки речевого сигнала
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность