автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Управление просодией при синтезе речи по печатному тексту
Автореферат диссертации по теме "Управление просодией при синтезе речи по печатному тексту"
РГБ од
- 3 МАЯ 23(13
На правах рукописи
Мещеряков Роман Валерьевич
УПРАВЛЕНИЕ ПРОСОДИЕЙ ПРИ СИНТЕЗЕ РЕЧИ ПО ПЕЧАТНОМУ ТЕКСТУ
Специальность 05.13.01 - «Управление в технических
системах»
Автореферат диссертации на соискание ученой степени кандидата технических наук
Томск 2000 г.
Работа выполнена в Томском государственном университете систем управления н радиоэлектроники.
Научный руководитель - доктор технических наук. про(|>сссор Бондаренко Владимир Петрович.
Официальные оппоненты:
доктор технических наук, профессор Тарасенко Ф.П.
кандидат технических наук, доцент Осокин А.Н.
Ведущая организация: Алтайский государственный университет.
Защита состоится «-/$> ^МД Я 2000г. в часов на
заседании Диссертационного Совета Д.063.80.03 в Томском
политехническом университете по адресу 654004. г.Томск. ул.Советская, 84.
С диссертацией можно ознакомиться в библиотеке ТЦУ.
Автореферат разослан ¡УЯ 2000г. ^
Ученый секретарь диссертационного Совета к.т.и
И.Л.Чудинов
£ % /¿^ О
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность тс.чы диссертации. Эффективность человеко-машинных систем в последнее время соотносят с использованием каналов речевого ввода-вывода с использованием ЭВМ. При этом особое место занимают системы синтеза речи, генер1грующне речевой сигнал по печатном) тексту, которые имеют не монотонный металлический опенок, но интонированный с высокой степенью естественности, позволяющий увеличить количество и качество передаваемой информации.
Проблемой синтеза речи по печатному тексту занимались известные ученые Сорокин В.Н.. Сапожков М.А., Загоруйко Н.Г., Лобанов Б М , Златоустова Л В. и другие. Основным недостатком исследовании являлось отсутствие разграничения того, что определяется языком и что определяется диктором. Чягце всего решались узкие задачи синтеза речи (определение длительностей звуков, транскрибирования), мало уделялось внимания просодии речи. Решаемые вопросы синтеза речи тесно связаны с задачами в смежных областях (машинный перевод, вокодерная связь).
Особое внимание заслуживает исследование и создание моделей, орнеитируюшичея на синтез речи по правилам, характеризующийся генерацией речи по неизвестному заранее печатному тексту с управлением всеми параметрами речевого сигнала. Входной информацией является орфографически-правильный текст, базы данных соответствующего языка, параметры речеобразования, характеризующие диктора. На выходе должен генерироваться речевой сигнал, соответствующий естественной речи. Отличительной особенностью систем данного вида является моделирование всех этапов процесса речеобразования.
Синтез речи по правилам требует создания моделей (¡юрмирования просодических характеристик речевого сигнала с учетом влияния параметров речеобразующего тракта и легких.
Целью работы является построение моделей формирования просодии и определение параметров управления просодией при синтезе речи по печатному тексту с учетом особенностей языка и характеристик диктора Поставленная цель достигается решением следующих задач:
1. Анализ структур описания речи и формирование баз данных па разных уровнях иерархии языка для системы синтеза речи.
2. Разработка алгоритмов формирования просодии по печатному тексту с учетом ограничении и особенностей русского языка.
3. Анализ характеристик диктора влияющих на параметры просодии и определяющих его индивидуальность.
4. Создание модели легких при управлении просодией при синтезе речи по печатному тексту.
В качестве основных методов исследовании, использованы следующие: системный анализ, теория иерархических многоуровневых систем, тсоретнко-множественный подход. В качестве объекта исследования выделим модели формирования просодии по печатному тексту.
Научна» новизна работы заключается в следующем: Сформ1грована методология построения систем синтез;! речи, как части общей системы речевого взаимодействия. Определены основные подходы к построению систем подобного типа. Предложена концептуальная модель синтеза речи по печатному тс кету. В основу модели положено мно1оуровневое представление речи, выделены этапы синтез ожидаемых (прогнознруемыч) параметров просодии и управление процессом формирования просодии при генерации реального речевого сигнала. Разработана и исследована модель легких при управлении просодии при синтезе речи по печатному тексту. На основе разработанной методологии предложен комплекс алгоритмов по <}юр.\пгрованшо просодических характеристик.
Реализация результатов. Основные результаты работы используются в виде комплекса программ для формирования просодических характеристик речевого сигнала. Входными данными являются орфографически правильный текст, базы данных. В результате работы (¡юрмирусгся мелодика и ритмика высказывания, прогнозируемый расход воздуха, моменты перестройки артнкуляториых органов.
Реализовано (¡юнстическое транскрибирование для русского и английского языков, которое используется на ка(|>сдрс иностранных языков Бнйского технологического института Алтайскою государственного технического университета.
Результаты работы используются в учебном процессе Бийского технологического института Алтайского государственного технического университета и Томского государственного универапета систем управления н радиоэлектроники.
Созданы программные сродства поддержки логопедии и фоннатрии и проверки слуха. Они используются в рсабилитацнонно-днагностическом центре "Мать и дитя".
Практическая ценность работы. Методология построения систем синтеза речи по печатному тексту позволяет упростить создание систем синтеза речи по правилам, приведены рекомендации разработчикам систем. Разработанные алгоритмы преобразования
печатного текста в речевой сигнала могут быть реализованы в системах синтеза речи для различных сфер человеческой деятельности, требующих речевой вывод. Прикладные аспекты и теоретические исследования могут быть использованьг в системах распознавания речи. машинного перевода, вокодерах, медицинских и лингвистических исследованиях.
Апробации работы. Результаты работы были апробированы на 16 конференциях. Наиболее значительные:
"Сибрссурс" (3 - Красноярск. 4 - Барнаул, 5 - Омск); Компьютерные технологии в науке. проектировании и производстве (Нижний Новгород 1999, 2000):
III Международной конференции "Методы и средства управления технологическими процессами" (1999);
Международной научно-практической конференции "Языковая картина мира: лингвистический и культурологический аспекты" (г.Бннск, 1998);
Всероссийской конференции "Теория и практика речевых исследований (АРСО-99)". (Москва. МГУ им. М.В. Ломоносова 1999г. 14-18 сентября);
International Workshop "SPEECH AND COMPUTER (SPECOM)" (г. Санкт-Петербург, 1998).
Автор выносит на защиту:
1. Структуру описания речи, учитывающую особенности языка и конкретного диктора.
2. Модель легких, отражающая процесс формирования просодии при генерации речи человеком.
3. Комплекс методов и алгоритмов формирования просодических характеристик речи по печатному тексту.
Публикации. По теме диссертации опубликовано 25 работ. Основные работы приведены в конце автореферата.
Структура и объем работы. Диссертационная работа изложена на 149 страницах и состоит из введения, четырех глав, заключения, списка литературы из 170 наименований, 8 приложений, содержит 24 рисунка, 3 таблицы.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность выбранной темы, определены цель, задачи, объект и методы исследования, научная новизна и практическая значимость работы, указаны положения, выносимые на защиту, дана общая характеристика работы.
В первой главе анализируются основные теоретические предпосылки представления печатного текста и речевого сигнала как многоуровневой системы. Проводится анализ состояния проблем возникающих при сшгтезе. распознавании речи и т.п. Определяется место систем сшггсзл в обшей структуре речевого канала общения человек-машина.
Для построения концептуальной модели используется стратифицированное иерархическое представление речи. Это обусловлено природой естественного языка. Были выделены трн страты, оказывающие на процесс синтеза речи наибольшее влияние: фонетический, семантический, синтаксический. На их основе был рассмотрен процесс синтеза и распознавания речи (см. рис. 1). Введены три главные компонент: печатный текст, мехашнм речеобразовання и речь. При этом отмечается, что взаимодействие между этими составляющими ведется на разных уровнях описания.
Рис. 1. Представление процесса синтеза и распознавания речи.
Стратифицированное представление предполагает, что на каждом уровне иерархии имеется свой набор определений, понятий н т.п. Наиболее адекватно это отражает теория образов Гренандера. взятая за основу при анализе стр\ стур описания языка. На каждом уровне иерархии выделяются непронзводные объекты и определяются связи. Объекты каждого уровня выражены в различных измерительных шкалах, поэтому их согласование происходит п>тсм гомоморфизма исходного класса объектов на выходной класс установлением связей между объектами исходного класса по правилам регулярности (допустимости).
Далее рассматриваются различные уровни печатного текста и речевого сигнала. В результате проведенного анализа получена последовательность преобразования печатного текста в речевой сигнал, один из вариантов которой может быть кратко записан:
у -1С —л _/„> у. л —!- ->О ----> .V. ( 1 )
глс Т - исходным печатным текст; W - текст, ра(меченный по высказываниям и i|>oiiciичсским словам: Л - слова с расставленными ударениям: F - фонетическая 1раискрннция слов; D - длительности звуков. ритмика. О - частота основною тона. S - речевой сигнал.
и правила преобразования' 1 - разметки высказывании и ¡¡диетических слои, р - расстановки \дарений. Г - фонетической флнегршшии. т - расчеча ллшельноетей зву ков. Ь - расчета частоты PCHOBHOI о т она. х i операция туков
И з т о и последовательное! и преобразовании осуществляется переход in шкал наименований (букв. слов и др.) к шкалам интервалов спектр звуков. их длительности и др.). Описание (1) является идеализированной моделью системы синтеза речи и отражает ^гуктуру соответствующею языка. Реально при генерапии |V4ii человеком происходит подстройка Парамонов речеобра з\ юте! о ipaKia на основе построенною описания в результате реализации последовательности преобразопанни (1) На данном лапе оказывают влияния анатомические, фи зиологичсскис. Hciipo(|iii июлогнчсские и лрупзе особенности характерно!ик диктора, а также среды Полому. п|ч| генерации речевою сигнала необходима постоянная подстройка параметров системы речеобра ювания иод идеал и зированну ю модель ( 1 V чго требует введения соответствующих обратных связей.
Рис 2 Структурная схема канала управления просодией с обратно!! связью но просодии и артикуляции
К случайным факторам. возникающим при управлении просодией, отнесем факторы, которые не могут быть учтены в полном объеме. К таким факторам относятся характеристики воздуха окружающей среды, изменение психолого-эмоционального состояния человека и др.
Управление происходит на различных уровнях. Все управляющие воздействия направлены на достижение таких значений параметров речи, которые удовлетворяют условиям восприятия речевой информации. Это можно представить в виде многоконтурной системы управления, приведенной на рнс.З.
Таким образом, производится подстройка по двум параметрам. Обратная связь по просодии производит подстройку избыточного давления в легких. Обратная связь по артикуляции корректирует это давление в соответствии с расходом воздуха при реальном произнесении звуков.
Вторая глава посвящена анализу высказываний и построению моделей просодии. В качестве основы взята последовательность (I) На каждом этапе определяются классы объектов и устанавливаются правила регулярности, степени влияния языка и диктора
Текст делится на высказывания от одною знака препинания до друтого, т.к. знак препинания определяет интонацию высказывания. Затем проводится расчет длительности высказывания. В случае если оценка длительности превышает допустимую границу производится разбиение на два и более высказывания. Допустимая граница длительности при нормальном темпе речи задается в соответствии с характеристиками диктора
В данном случае буквам приписываются атрибуты дтительности. что. в общем случае не может быть использовано для точною определения ритмических характеристик речевого сигнала, а лишь дтя приблизительной оценки. При разбиении учитывается свойство человека произносить высказывания равной длительности, наиболее близкое к длительности выдоха. Дополнительно учитывается ограничения на объем легких, т.к. человек не может говорить дольше, чем у него есть на это возду ха в них. Основываясь на данном факте получаем разбиение текста на множество фраз.
Следующим классом являются слова, имеющие признак \ дарног о слога. Наиболее употребляемые слова выделены в отдельный словарь ударений. Если найдены ударные слоги не во всех словах, то используются ритмические структуры русского языка с привлечением наиболее вероятных мест постановки ударений. Дополнительно к признаку, характеризующего номер ударного слога, приписывается признак типа ударного слога, характеризующего сто силу.
Далее проводится транскрибирование текста. Отметим. что не существует взаимно однозначного отображения множества букв во множество фонем Транскрибирование проводится в два этапа. На мерном этапе корректируются конфигурации последовательностей букв. такие как. удаление нспротиносимых согласных. замена одних последовательностей на другие. обработка слов-исключений. На в юром этапе исн0.тым01ся непосредственно правила ({юнетнческого транскрибирования Исиолыустся функция Р(5. А. В. X. V). которая переводит букву 5 в фшет ическин символ р:
/(^А.Н.Х.У)
------------'' > Р - (2)
где А - множество символов б\кв и знаков препинания. прелптсств> юших данной букве: В - множество символов букв и знаков препинания, следующих за данной буквой; X - множество фонетических символов. которые были полечены путем транскрибирования ранее (до данной р\квы). V - множество Фонетических символов, которые следуют за текущей буквой, но должны быть подучены раньше
Таким обра »ом. получаем конфигу рацию ({нэнетнческнх символов, обт.единенных в фонетические слова, имеющие соответствующие пртинаки В свою очередь, фонетические слова объединены в выск.мывлнич У класса фонетических символов нмесгся признак длите.тьносгн. зависящий от конкретной конфигурации. в которой он мплчетсч элементом, а также от мест;) и способа образования, от ликтора и ею окружающей я исковой среды Наиболее приемлемым в ном случае является использование библиотеки длительности зв\кои. юторлч >чигывает конкретные параметры диктора. Уточнение д тительностен звуков должно проводиться при генерации зву ков.
Для формирования интонации речи проводтггея расчет частоты основною тона Данный при так относится ко всей конфигу рации речевою сигнала, соответствующей выскагыванию На иришак интонации окатывают влияние практически все уровни фонетическою текста Так. башвый контур частоты основного тона зависит от тина вт.тска плванич. а его вариации от при »таков конкретных фонем Ьаюпый котпур определяется кривой Гаусса, ратернугого на всю дли ie.ii.ntvi ь выскаилвания Таким обраюм. полу чаем про! но ¡иру емос 'начение изменения частоты основного тона
15 последнем разделе второй главы приводился обобщенная модель синтеза речи В соианной модели проводится разделение баз данных и правил преобразований Далее ()>ормулиру ются рекомендации по организации баз данных речевыл систем.
В третьей главе рассмотрен синтез просодических характеристик с учетом ограничений. В качестве базового закона изменения объема легких было выбрано уравнение Клайперона-Менделеева
Р -V ~ т- Всм ■ Т (3)
Избыточное давление в легких создастся за счет уменьшения их объема после вдоха. Легкие не являются замкнутым объемом, поэтом)' уменьшение избыточного давления за счет потери воздуха через речеобразующий тракт компенсируется уменьшением объема легких. Примем тВсмТ=М, эквивалентная масса воздуха В результате преобразований получены зависимости:
Для расчета изменения объема легких:
по = к,
М0-[С(ф(г)с/г
_о_
Ра + Р{ о
где У(1) — объем воздуха, вышедшею из легких. Рг — атмосферное давление; Р(0 — избыточное давление в легких: М — исходная эквивалентная масса воздуха, С(1) — эквивалентная проводимость речеобразующего тракта, характеризующая расход воздуха при генерации звуков, р(г) — штотность воздуха.
И для изменения избыточного давления
гОД-ИО
Р(0 = ехр
{ К -У(г)
(г)
гС(х)-ГХх)
I К-1'(-г)
ск
(5)
для проводимости примем:
• с,
<7>
т{Т)
Рср ■ т
Считая, что средняя проводимость для конкретного человека является постоянной за время произнесения одного высказывания, для обычной фразы получаем С=(0,5-10)*10'3 м3/с, исходя из следующих условий: Т=2,5-3,5с; ш= 1,5-2,5 кг.
Таким образом, управляя объемом легких можно сформировать просодические характеристик для разных интонационных типов высказывания. Дополнительно для корректировки избыточного давления с учетом расхода воздуха' на произнесение звуков используется обратная связь по артикуляции (см. рис.2).
На рисунке 3 приведены графики изменения частоты основного тона и уменьшение объема легких для типовых высказываний повествования п восклицания.
а)
б)
Рис.З. Изменение частоты основного тона (а) и объема легких (б) по известному закон) изменения избыточного давления для типовых высказываний восклицания и повествования.
Иш
б) г)
Рис.4. Изменение частоты основного тона (а, б) и объема легких (в, г) при реализации ритмики при вопросительном типе высказывания.
Для реализации ритмики необходимо сформировать команды для прогнозируемых ударных гласных. На рис.4.а. представлены прогнозируемые изменения частоты основного тона этих звуков и их
влияние на общую картину вопросительного типе высказывания (рнс.4.б). В результате, объем воздуха при постоянной проводимости должен изменяться по закону, представленному на рис.4.в. При учете изменения проводимости (постоянной только на время произнесения звука) — представлен на рнс.4.г.
Таким образом, автором получена схема управления просодией, представленная на рис.5.
Рис.5. Схема управления просодией.
Данная схема описывает процессы формирования речи человеком и может быть реализована. Согласно разработанной методологии на первом этапе по результатам анализа текста на вход поступает прогнозируемые параметры просодии. Известно, что система речеобразования прогнозирует появление следующего звука, 'по в системе отражено в блоке "упреждение/управление". Управление в данном контексте подразумевает выдачу воздействий на органы речеобразования (в данном случае ограничиваемся моделью легких). После отработки этих воздействий формируется избыточное давление в легких н связанный с ним расход воздуха. Данные параметры непосредственно влияют на характеристики речеобразуюшего тракта.
Сенсорная система характеризуется, прежде всего, задержкой, которая должна быть компенсирована упреждением при управлении. Поэтому можно считать, что в блоке "упреждение/управление" (]юрмируются сигналы о рассогласовании прогнозируемых характеристик речевого сигнала (частоты основного тона, избыточного давления н др.) и реально получаемых. Проведенные эксперименты на естественном речевом сигнале показали адекватность разработанных моделей.
В четвертой глапе приведены примеры синтеза просодических характеристик с учетом ограничений. Рассмотрены все этапы получения просодии при преобразовании печатного текста в речевой сигнал согласно последовательности (1). В качестве результата программы формируются кривые изменения частоты основного тона и изменения объема легких. Проведенные экспернме1ггы по сравнению полученных данных показали адекватность созданных моделей.
Приводятся спсдашя по использованию результатов диссертационной работы: в лингвистике (система транскрибирования русского и английского языков), в медицине (использование коррекции произношения и проверки слуха), в обучении.
В ппепочепнм приведены выводы по диссертации, сформулированы полученные научные и практические результаты, возможные направления дальнейших исследований.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
В диссертационной работе ставится и решается задача построения моделей формирования просодии и определение параметров \ правления просодией при синтезе речи по печатному тексту- с л-четом особенностей языка и характеристик диктора.
1. Проведен анализ информационной структуры высказываний языка (в данном случае русского). Исследована иерархическая структура текста и речи. Предложена структура преобразования печатного текста в речь. Установлена взаимосвязь между характеристиками печатного текста и просодией.
2. Создана концептуальная модель синтеза речи по печатному тексту, в частности, модели каналов управления просодией и артикуляцией. Определены влияния различных уровней иерархии языка на структур)' модели.
3 Описан синтез просодических характеристик с учетом ограничений. Предложены модели синтеза речи, в частности, формирования просодии Описаны реализации влияния ритмики на просодию.
4. Созданы алгоритмы. реализующие синтез просодических характеристик с учетом ограничении.
5. Сформированы структу ры баз данных на разных уровнях языка для системы синтеза речи. Сформулированы рекомендации по формированию баз знаний речевой системы.
По томе диссертации опубликованы следующие работы:
1. Бондарснко В.П., Мещеряков Р.В. Иерархическая система синтеза речи по правилам/ Сборник: Автоматтгческое и автоматизированное управление сложными системами: Сб. статен / Под. ред. В.П.Тарасенко. - Томск: Изд-во Том. ун-та, 1998.-236 с, с.218-227
2. Мещеряков Р.В., Бондарснко В.П., Коцубннский В.П. Синтез речевого сигнала по печатном)' тексту /Сборник: Автоматическое и
автоматизированное управление сложными системами: Сб. статей / Пол. ред. В.П. Тарасенко. - Томск: Изд-во Том. ун-та, 1998.-236 с. с.204-217
3. Мещеряков Р.В. Модель системы синтеза параметров речи по печатному тексту с использованием информационных представлений // Ползуновский альманах №2. 1999г., Барнаул, тд-во Алт1ТУ им. И.И.Ползунова, с 62-68
4. Мещеряков Р.В.. Бондаренко В.П.. Заборовскнй А.Н. Некоторые принципы генерации параметров речевого сигнала в системах синтеза речи /Общие проблемы естественных н точных наук: региональный аспект. Межвузовский сборник научных статен. Бийск: НИЦ БнГПИ, 1998. 106, с 38-42
5. Melchcrjakov R.V.. Boiidareiiko V.P. Conirol Stniclure Of Speech Syntheses System // Processing "SPECOM'98". International yyorkshop SPEECH AND COMPUTER - Si. Petersburg. - 1998. - 360p. pp.353-356
6. Бондаренко В.П.. Коцубинский В.П.. Мещеряков Р.В. Сшггез речи по печатному тексту /Природные и интеллектуальные ресурсы Сибири Снбрссурс-3-97. Тезисы докладов международной научно-практической конференции. Красноярск. 13-15 октября. 1997. -Томск: ТУСУР, 1997 -232с, С156-157
7. Мещеряков Р.В., Бондаренко В.П. Преобразование различных видов информации в системах синтеза речи /Природные и интеллектуальные ресу рсы Сибири Снбрссурс-4-98. Тезисы докладов международной научно-практической конференции. Барнаул,21-23 сент. 1998г. -Томск: ТУСУР, 1998 - 227с. с129-130
8. Мещеряков Р.В., Коцубинский В.Г1. Построение баз знаний речевых систем // Природные и интеллектуальные ресурсы Сибири Снбрссурс-5-99. Тезисы докладов международной научно-практической конференции. Омск. 28-30 сент. 1999г. - Томск: ТУСУР, 1999 -277с, С192-193
9. Мещеряков Р.В., Бондаренко В.П., Коцубинский В.П. Модель управления просодией при синтезе речи // Теория и практика речевых исследовании (АРСО-99). Материалы конкуренции. Москва.: МГУ им. М.В. Ломоносова 1999 160с. с10-11
10. Мещеряков Р.В.. Бондаренко 13.11. Организация баз знаний в системе синтеза речи // Теория и практика речевых исследований (АРСО-99). Материалы конференции. Москва.: МГУ им. М.В.Ломоносова 1999 160с. с37-38
11. Мещеряков Р.В. Система синтеза речи гак модель управления /Методы и средства управления технологическими процессами. Сб.тр. III Междунар.науч.конф,- Саранск: Изд-во Мордов.ун-та. 1999. -218-222 с.
12. Мещеряков Р.В.. Бондаренко В.П. Иерархическая система полного спите ta речи но правилам / Измерения, контроль и автоматизация прои тодственных процессов/ сборник докладов четвертой международная конференции. Том 2. Барнаул: Изд-во АлтГТУ, 1997 с 128- ПО
13. Мещеряков Р.В . Бо1иарснко В.П. Применение математических молелен при генерации параметров речевого сигнала и распознавании речи /Материалы конференции Iii краевой конференции по математике, посвященной 25-летию Алтайского госунивсрсктста "МАК-98".. Барнаул, ни-во ЛГУ. 1998 -86с. с.38
14 Мещеряков Р.В. Построение структуры связен образующих речевою сигнала и печатного текста. /Вторая краевая конкуренция по математике, посвященной 25-лстню математического факультета Алтайского госу ннверситега. Материалы конференции "МАК-99". Барнаул, изд-во ЛГУ. 1999 -93с. с50-51
15. Мещеряков Р.В Синтез просодии /Компьютерные технологии в науке, проектировании и производстве. Тезисы докладов 1 Всероссийской научно-технической конференции В 19 частях. Часть 13 - Нижний Новгород: НГТУ. 1999, 43с. с7
16. Мещеряков Р.В.. Бондаренко В.П., Тигаренко Ю.И. Применение систем речевого сообщения в АСУ ТП на потенциально опасных производствах Прикладные аспекты совершенствования химических технологий и материалов. /Сборник материалов региональной научно-практической конференции. посвященной 50-лстшо предприятии оборонного комплекса т.Бннска. Изд-во АлтГТУ,1997. с 79-83
17. Косачсва Ю.В.. Мещеряков Р.В. Язык для пользователей ЭВМ /Языковая картина мира: лингвистический и культурологический аспекты: Материалы международной научно-практической конференции, посвященной 60-летшо БиГПИ, 290-летию г. Бннска, 70-летию В.М. Шукшина (3-5 декабря 1998г.). В 2 т. Бннск: НИЦ БиГПИ. 1998. Т.1. -297с с 253-254
18 Мещеряков Р.В.. Пята М.В.. Чернявский СВ.. Путятина J1.A. Возможности и проблемы использования компьютера ан уроках русского язык;! /Языковая картина мира: лингвистический и культурологический аспекты: Материалы международной научно-практической конференции, посвященной 60-летию БиГПИ. 290-летию г. Бннска. 70-летию В.М. Шукшина (3-5 декабря 1998г.). В 2 т. Бнйск: НИЦ БиГПИ. 1998. Т.2. -307с с 8-10
Оглавление автор диссертации — кандидата технических наук Мещеряков, Роман Валерьевич
ВВЕДЕНИЕ
I МНОГОУРОВНЕВАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ
1.1. АНАЛИЗ СОСТОЯНИЯ ПРОБЛЕМ, ВОЗНИКАЮЩИХ ПРИ СИНТЕЗЕ, РАСПОЗНАВАНИИ РЕЧИ И В СМЕЖНЫХ
ОБЛАСТЯХ
1.2. КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ
1.2.1. СТРАТИФИЦИРОВАННОЕ ПРЕДСТАВЛЕНИЕ РЕЧИ
1.2.2. ИСПОЛЬЗОВАНИЕ ИЕРАРХИЧЕСКИХ ПРЕДСТАВЛЕНИЙ ДЛЯ РЕШЕНИЯ ПРЯМОЙ И ОБРАТНОЙ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ПЕЧАТНОГО ТЕКСТА В РЕЧЬ
1.3. ПОСТАНОВКА ЗАДАЧИ
1.3.1. ОСНОВЫ ПОСТРОЕНИЯ МОДЕЛЕЙ УПРАВЛЕНИЯ
1.3.2. МОДЕЛЬ КАНАЛА УПРАВЛЕНИЯ ПРОСОДИЕЙ
1.3.3. МОДЕЛЬ КАНАЛА УПРАВЛЕНИЯ АРТИКУЛЯЦИЕЙ,
1.3.4. МОДЕЛЬ ИНФОРМАЦИОННОЙ СТРУКТУРЫ ЯЗЫКА
ВЫВОДЫ ПО ГЛАВЕ
2. АНАЛИЗ ВЫСКАЗЫВАНИЙ И ПОСТРОЕНИЕ МОДЕЛЕЙ ПРОСОДИИ
2.1. ПОСТРОЕНИЕ МОДЕЛИ РАЗМЕТКИ ВЫСКАЗЫВАНИЙ И
ФОНЕТИЧЕСКИХ СЛОВ
2.2. МОДЕЛЬ РАССТАНОВКИ УДАРЕНИЙ
2.3. ТРАНСКРИБИРОВАНИЕ ТЕКСТА
2.4. МОДЕЛЬ ДЛИТЕЛЬНОСТЕЙ ЗВУКОВ
2.5. МОДЕЛЬ ФОРМИРОВАНИЯ ЧАСТОТЫ ОСНОВНОГО ТОНА
2.6. ОБОБЩЕННАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ
ВЫВОДЫ ПО ГЛАВЕ
3. СИНТЕЗ ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК С УЧЕТОМ ОГРАНИЧЕНИЙ
3.1. МОДЕЛЬ ЛЕГКИХ КАК ОБЪЕКТА УПРАВЛЕНИЯ
3.2. МОДЕЛЬ ИЗМЕНЕНИЯ ОБЪЕМА ЛЕГКИХ
3.3. ИЗМЕНЕНИЕ ОБЪЕМА ЛЕГКИХ ПРИ ФОРМИРОВНИИ
ИНТОНАЦИОННОЙ КАРТИНЫ ВЫСКАЗЫВАНИЯ И ПАУЗ
3.4. УПРАВЛЕНИЕ ЛЕГКИМИ ПРИ ГЕНЕРАЦИИ РЕЧЕВОГО СИГНАЛА С УЧЕТОМ РИТМИКИ
3.5. ВЛИЯНИЕ ПРОВОДИМОСТИ НА ИЗМЕНЕНИЕ ОБЪЕМА
ЛЕГКИХ
3.6. ОБЩАЯ СТРУКТУРА УПРАВЛЕНИЯ ПРОСОДИЕЙ
ВЫВОДЫ ПО ГЛАВЕ
4. КОМПЛЕКС ПРОГРАММ СИНТЕЗА ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК
4.1 ПРОГРАММА СИНТЕЗА ПРОСОДИЧЕСКИХ
ХАРАКТЕРИСТИК
4.1.1. ОПИСАНИЕ ПРОГРАММЫ
4.1.2. СИНТЕЗ ПРОСОДИИ ДЛЯ ЗАДАННЫХ
ВЫСКАЗЫВАНИЙ
4.1.3. СИНТЕЗ ПРОСОДИИ НЕПРЕРЫВНОЙ РЕЧИ
4.2. СИСТЕМА ТРАНСКРИБИРОВАНИЯ ТЕКСТА ДЛЯ АНГЛИЙСКОГО И РУССКОГО ТЕКСТА
4.3. ПРОГРАММНЫЕ СРЕДСТВА ПОДДЕРЖКИ ЛОГОПЕДИИ И ФОНИАТРИИ И СИСТЕМА ПРОВЕРКИ СЛУХА
4.4. ИССЛЕДОВАТЕЛЬСКИЙ КОМПЛЕКС КОНКУРСНОЙ
ПРОГРАММЫ «ШАГ В БУДУЩЕЕ»
Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Мещеряков, Роман Валерьевич
В системах общения человека и машины, в информационных системах обычно используется письменная речь. Это не всегда удобно, так как зрительный канал восприятия информации в большинстве случаев бывает очень нагружен. Для некоторых категорий людей слуховой канал является основным источником информации (например, у людей, имеющих нарушения зрения).
Синтез речевого сигнала может найти свое применение и находит на различных производствах и в сферах человеческой деятельности. Например, возможно использование синтеза речи для выдачи оперативной информации о состоянии объекта в АСУТП, для выдачи информации по справочным службам (в кассах и справочных бюро, подробнее см. [9, 12, 24, 36, 37, 44, 45, 48, 52, 53, 58-62, 80, 82, 84, 85, 96, 100, 104, 108, 115, 120, 124, 125, 132, 155, 156]). На этих примерах наблюдаем, что будет использоваться свободный информационный канал — слуховой для передачи сведений, для дублирования информации, передаваемой другими каналами (зрением, ощущением и другими). Представляется перспективным использование систем синтеза речи для людей, страдающих немотой или с нарушениями голосового аппарата. Это позволит им свободно произносить слова, высказывания и доносить мысль до собеседника.
В плане практической реализации автоматический синтез речи явно опережает её автоматическое распознавание. В работе [58] указывается: "Современные системы автоматического синтеза, разработанные для русского языка, могут быть по своим возможностям уподоблены иностранцу, который при изучении русского языка овладел (не в совершенстве) только его фонетикой и может вслух прочесть текст, если в нём размечены словесные ударения и фразовые акценты, выделены синтагмы и указаны способы их интонационного оформления".
В настоящее время в автоматическом синтезе речи пока что моделируются только небольшие фрагменты процесса чтения текста человеком, некоторые из которых будут приведены ниже. Качество звучания синтезируемой речи невысокое. Результаты тестирования её разборчивости скорее свидетельствуют об удивительной способности человека эффективно обрабатывать неполноценный речевой сигнал: восстанавливать полезную недостающую информацию и отбрасывать ошибочную. Особенно важным представляется исследование процесса речеобразования у человека. Он (человек) предварительно формирует модель изменения характеристик речевого сигнала и параметров речеобразующей системы и при произнесении корректирует, чтобы произносимый сигнал соответствовал созданной модели высказывания. Таким образом, возникают вопросы создания моделей управления параметрами синтеза.
Необходимо отметить, что устная речь появилась раньше письменной, т.е. письмо было создано на основе речи. Таким образом, речь и письмо являются взаимно зависимыми. Следовательно, закономерности, найденные при исследовании речевого сигнала и печатного текста могут быть использованы в обоих случаях. Ограничениями будут являться специфичные факторы, которые не могут быть переданы устно или письменно. Например, не может быть воспроизведен при синтезе речи фактор почерка, которым было создано произведение. В свою очередь, на бумагу не может быть передано все многообразие эмоционального состояния человека и скорость его изменения. Необходимо отметить, что при написании текста человек внутренне произносит его [66].
Результаты решения задачи синтеза речи могут быть использованы и в смежных областях, например, в машинном переводе и при передаче речевого сигнала по каналам связи (вокодерах). Решение задачи синтаксического анализа предложений и морфологического анализа слов Имеет большое значение для решения задач в машинном переводе. Необходимо отметить, что анализ типов высказывания при машинном переводе и синтезе речи ведется аналогичным образом. Поэтому решение проблем полного синтеза речевого сигнала по печатному тексту является одной из актуальных задач, имеющей существенное значение в смежных областях. Вокодерная связь — особый вид связи, которую можно отнести к проблемно-ориентированным системам. Наибольшего качества ее можно достичь при использовании мощных алгоритмов анализа, распознавания и синтеза речи. Особенно актуальна она в защищенных системах передачи данных.
Этим актуальность не исчерпывается, так как некоторые результаты могут быть использованы при дальнейшем развитии науки. К таким можно отнести возможность исследования истории развития языка, социальных аспектов языка, психологические аспекты восприятия человеком синтезированной речи, медицинские исследования физиологии органов речи и слуха и другое.
Проведенный поиск по системам синтеза речи показал, что реальных систем синтеза и распознавания речевого сигнала в нашей стране и за рубежом имеется немного. В таблице приведены организации РАН и высшей школы, имеющие значительные достижения в области речевых технологий [59]:
Организация Руководитель Примечание
Вычислительный центр РАН Ю.И. Журавлев, В.Я. Чучупал
Институт проблем передачи информации РАН В.Н. Сорокин &
Институт математики СО РАН и Новосибирский государственный университет Н.Г. Загоруйко, В.М. Величко A.B. Кельманов +
Московский государственный университет им. М.В. Ломоносова Н. Зиновьева О.Ф. Кривнова *
МГТУ им. Н.Э. Баумана Ю.Н. Жигулевцев +
Московский энергетический институт А.И. Евсеев
Московский I осударственный лингвистический университет Р.К. Потапова 'к
Московский технический университет связи и информатики Ю.Н. Прохоров
Санкт-Петербургский государственный университет В.И. Галунов
Знаком - в примечании обозначены организации, практически не занимающиеся проблемами синтеза речи, либо незначительно, либо нет сведений.
Знаком + в примечании обозначены организации, косвенно занимающиеся проблемами синтеза речи наряду с другими речевыми технологиями (передача речевого сигнала, распознавание речи, верификация говорящего, голосовая экспертиза, шумоочистка и другие)
Знаком * в примечании обозначены организации, непосредственно занимающиеся проблемами синтеза речи.
Выделим основные разработки и организации, где они были выпонены. В Белорусском институте кибернетики проблемами синтеза речи занимается Б.М. Лобанов (синтезатор "Фонемафон"). В Московском государственном университете им. М.В. Ломоносова создан синтезатор "Голосовая мышь", "Агафон" [56]. В Новосибирском институте математики СО РАН разрабатывается синетзатор речи "Текстофон". В Санкт-Петербурге существует компания "Центр Речевых Технологий (ЦРТ)", которая занимается обработкой речи за исключением синтеза речи.
Из зарубежных организаций необходимо выделить Creative Technologies, которая на основе системы DECTalk (разработанного корпорацией Digital Equipment при участии известного американского фонетиста Денниса Клатта) разработала программу TextAssist. Еще одним из наиболее распространенных продуктов синтеза речи является программа Monologue, использующая систему Pro Voice, разработанной компанией FirstByte. Подробнее основы систем будут приведены в главе 1, см. Приложение 1.
Некоторые особенности русского языка хорошо исследованы (например, транскрибирование речи [13, 19, 34, 40, 42, 58, 110]), но сложнее дело состоит с разделами русского языка, которые не поддаются, или в малой степени поддаются формализации (например, интонирование сигнала). Долгое время (с
1965 года) в нашей стране проводятся семинары-конференции Всесоюзной школы-семинара "Автоматическое распознавание слуховых образов", на которых и рассматривались данные проблемы. Было проведено 19 семинаров. На этих семинарах были представлены решения многих частных проблем, но еще до сих пор не создано ни системы синтеза речи, которую можно было бы по произношению перепутать с человеческой речью, ни систем распознавания речи, которые бы без настройки на диктора смогли бы распознать естественную речь (см. материалы АРСО [2-6, 134] и подобные семинары [1, 155, 156]). Наибольшее развитие получили исследования параметров речевого сигнала ([19, 21, 32, 43, 44, 47, 55, 59, 81, 88, 92, 109, 115, 118-121, 130]). Материалы, описывающие последовательность синтеза речевого сигнала по печатному тексту или описывающие детальное описание конкретной системы синтеза речи, отсутствуют и, в большинстве случаев, не выходят за пределы организации-разработчика, либо приводятся общие сведения.
В литературе филолого-лингвистического направления также описываются различного рода нерешенные задачи, связанные с формированием просодии. Например, сведения о длительности звуков (по материалам [8, 19, 40, 41, 43, 44, 88, 118, 119]) различаются. Приведенная информация описывается в общем виде для использования человеком, т.е. в виде, не пригодном для создания алгоритмов, основывающихся только на тексте как последовательности букв и знаков препинания. Так, в [99] описываются правила постановки логических ударений в высказывании. Логическое ударение выделяет слова, наиболее важные по смыслу. Логические ударения могут быть и бывают на любых частях речи, в том числе и на служебных. Иногда логически ударными оказываются не целые слова, а лишь их части, например, приставка или окончание. И, в завершении, смысловой вес слов определяется не тем, какими членами предложения они являются, а лишь той ролью, какую они играют в выполнении коммуникативного задания, в выявлении того нового, ради которого произносится каждая фраза в конкретной ситуации.
Факты иностранных исследователей по данной тематике могут быть использованы ограниченно ввиду того, что звуковой строй русского языка имеет значительные отличия от других. Так, например, правила интонирования предложений отличаются от правил, принятых в других языках. При передаче информации по типу предложения в русском языке наибольшее значение имеет тип предложения, а не порядок слов. В некоторых работах зарубежных исследователей, например в [136, 138-143, 151, 158, 161-163, 165, 166, 168], проводятся попытки введения новых моделей синтеза речи.
Подводя итог, отметим, что система синтеза речевого сигнала по печатному тексту должна рассматриваться как сложная система преобразования различных видов информации с использованием информации о системе речеобразования человека и особенности языка. В настоящее время она не решена и заслуживает пристального внимания со стороны исследователей. Подчеркнем, что проблемой синтеза речи по печатному тексту занимались известные ученые Сорокин В.Н., Загоруйко Н.Г., Лобанов Б.М., Златоустова Л.В. и другие. Основным недостатком исследований являлось отсутствие разграничения того, что определяется языком и что определяется диктором. Как правило, исследования не объединялись общей идеологией языка применительно к синтезу речи.
Чаще всего решались узкие задачи синтеза речи (исследования длительностей звуков, транскрибирования), мало уделялось внимания просодии речи. Исследования задачи в смежных областях (машинный перевод, вокодерная связь) показало актуальность исследования, т.к. решаемые вопросы взаимосвязаны между собой. Кроме того, необходимо отметить, что к настоящему времени не создано моделей формирования просодических характеристик речевого сигнала при синтезе речи по правилам с учетом влияния параметров речеобразующего тракта и легких.
Целью данной работы является построение моделей формирования просодии и определение параметров управления просодией при синтезе речи по печатному тексту с учетом особенностей языка и характеристик диктора. В качестве задач выделим:
1. Анализ структур описания речи и формирование баз данных на разных уровнях иерархии языка для системы синтеза речи.
2. Разработка алгоритмов формирования просодии по печатному тексту с учетом ограничений и особенностей русского языка.
3. Анализ характеристик диктора, влияющих на параметры просодии и определяющих его индивидуальность.
4. Создание модели легких при управлении просодии при синтезе речи по печатному тексту.
В качестве объекта исследования выделим модели формирования просодии по печатному тексту. Управление легкими подразумевает формирование параметров изменения объема легких и моментов перестройки артикуляторных органов.
Автор выносит на защиту:
1. Структуру описания речи, учитывающую особенности языка и конкретного диктора.
2. Модель легких, отражающая процесс формирования просодии при генерации речи человеком.
3. Комплекс методов и алгоритмов формирования просодических характеристик речи по тексту.
13
Структура данной работы основывается на последовательном изложении проведенных исследований по решению поставленных задач. В главе 1 приводится анализ состояния проблемы, предлагается концептуальная модель синтеза речи, рассматриваются основы построения моделей и формируются требования к ним. Приводится постановка задачи исследования. Глава 2 посвящена анализу высказываний и типов характеристик просодии. Создаются и исследуются модели по формированию основных просодических параметров речи. В 3 главе описывается синтез просодических характеристик с учетом ограничений, позволяющий ввести управление моделью легких по каналам синтеза просодии и артикуляции. Рассматривается модель легких как объекта управления. В 4-й главе предлагаются реализации системы синтеза параметров просодии и описываются результаты работы на примере реальных программных средств. В заключении приводятся результаты выполненной работы и делаются основополагающие выводы по итогам диссертационной работы.
1. МНОГОУРОВНЕВАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ
Заключение диссертация на тему "Управление просодией при синтезе речи по печатному тексту"
ВЫВОДЫ ПО ГЛАВЕ
Исследования показали, что информация о параметрах речеобразующего тракта и легких имеет существенное влияние на реализацию управления просодией. По прогнозируемой просодии, созданной на этапе анализа текста по особенностям языка и обобщенным характеристикам диктора производится управление моделью легких.
Проверка адекватности созданных моделей проведена по граничным и средним значениям и характеру изменения кривых избыточного давления и расхода воздуха. В литературе [121, 131] приводятся лишь оценки значений
99 параметров просодии. Созданные модели [14, 15, 17, 72, 79, 81, 82] соответствуют приведенным в данной литературе. Синтезированные параметры просодии соответствуют параметрам, измеренным на реальном речевом сигнале.
Отличительной особенностью созданных моделей является применение на первом этапе информации об особенностях языка, использующих средние и граничные характеристики диктора. На втором этапе производится управление просодией посредством уточнения конкретных характеристик звуков.
Таким образом, остаются вопросы реализации созданных моделей и алгоритмов с использованием разработанной методологии.
4. КОМПЛЕКС ПРОГРАММ СИНТЕЗА ПРОСОДИЧЕСКИХ
ХАРАКТЕРИСТИК
В данной главе приводится иллюстративный материал по возможной реализации синтезатора речи и других близких областей. В ходе работы была создана система синтеза просодических характеристик и смежных задач в виде комплекса программ. Данный комплекс программ был разработан в среде программирования Borland Pascal for DOS и Delphi for Windows95/98/NT.
4.1 ПРОГРАММА СИНТЕЗА ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК
4.1.1. ОПИСАНИЕ ПРОГРАММЫ
Созданная программа реализует алгоритмы, разработанные на основе проведенных исследований. Выходом работы является параметры управления легкими, ритмика, моменты времени перестройки артикуляторных органов. Для различных типов синтеза речи генерируются различные модели изменения: частоты основного тона и изменения объема легких. Алгоритмы, на которых основывается программа соответствуют приведенным в главе 2.
Требования к аппаратному обеспечению:
• IBM PC совместимый компьютер, процессор не ниже Pentium 166ММХ.
• ОЗУ 16 Мб, рекомендуется 32Мб
• Объем памяти на жестком диске — 1,2 Мб (1,1 Мб — программа, 0,1 Мб — базы данных)
• Поддержка видеорежима 800x600x256. Операционная система Windows 95/98/NT.
В качестве входных данных используется текстовый файл с орфографически правильным текстом. Выходными данными являются: последовательность изменения частоты основного тона, моменты времени перестройки артикуляторных органов, фонетическая транскрипция. Программа представляет собой блоки взаимосвязанных модулей, каждый из которых отвечает за каждый этап преобразования (13) и владеет только ограниченным объемом информации в соответствии со схемой, приведенной на рис.10.
Работа первого модуля может быть описана в виде упрощенного алгоритма:
1. Преобразование входных данных во внутреннее представление программы.
2. Расчет количество слов, символов, гласных в каждом слове; убираются управляющие символы.
3. Оценка длительностей в соответствии с моделью разметки высказываний и фонетических слов (см. раздел 2.1.).
4. Проверка условия (14). В качестве общей допустимой длительности высказывания принято граничное условие, равное 5 секундам. В качестве входной информации по длительностям звуков принимаем данные, пример которых приведен в приложении 3 (база данных для женского голоса, нормального темпа).
5. Если условие не выполняется, то производится автоматическое разбиение высказывания на два и более до тех пор, пока условие (14) не будет выполнено.
Результатом работы данного модуля являются возможные высказывания.
Следующий модуль выполняет расстановку ударений. Для расстановки ударений используется словарь, пример которого приведен в приложении 4. Структура словаря имеет взаимно однозначное соответствие между словом и номером ударного слога. Упрощенно алгоритм можно записать:
1. Автоматически находятся слова, имеющиеся в словаре, им приписывается наибольшая сила ударного слога. Слова без гласных звуков пропускаются. Словам с единственным гласным звуком приписывается номер ударного гласного — 1 без поиска его в словаре.
2. Для слов, у которых не найдены ударения производится расстановка ударений в наиболее вероятных местах. Им приписывается меньшая, чем в первом случае сила ударных слогов.
3. Рассчитываются ритмические структуры для данного высказывания. В соответствии с ними расставляются ударения в оставшихся словах. Эти ударения имеют самую меньшую силу.
Для коррекции ударения, либо для ручной расстановки предусмотрена возможность изменения как номера ударного гласного (от первого до последнего слога), так и силы ударения (от 0 до 3). Результатом работы является получение слов с номерами ударных слов и силой ударения.
Фонетическое транскрибирование производится согласно с правилами русского языка [40, 42, 101, 110, 121, 122]. Предварительно производится корректировка последовательностей, приведенная в приложении 6. Во входной буквенной последовательности производится поиск строки символов, которую надо заменить. Затем производится запись в выходную последовательность символов. Следующим важным этапом является собственно транскрибирование.
ЗАКЛЮЧЕНИЕ
Данная работа направлена на решение задач, стоящих перед разработчиками систем синтеза речи по печатному тексту. Использование выбранных методов исследования позволило выделить необходимый и достаточный набор факторов, влияющих на процесс преобразования печатного текста в речевой сигнал. Предложенные структуры могут быть использованы и в других смежных областях.
Цель, выделенная для работы как: построение моделей формирования просодии и определение параметров управления просодией при синтезе речи по печатному тексту с учетом особенностей языка и характеристик диктора" достигнута по следующим разделам:
1. Проанализирована информационная структура высказываний языка (в данном случае русского), подробно рассмотрено стратифицированное представление речи.
2. Сформулированы рекомендации по организации баз знаний в процессе преобразования печатного текста в речевой сигнал.
3. Создана концептуальная модель синтеза речи, в частности, моделей каналов управления просодией и артикуляцией.
4. Установлены характерные зависимости между характеристиками печатного текста и просодией, определена структура баз данных.
5. Разработаны алгоритмы синтеза просодических характеристик с учетом ограничений.
6. Предложены модели синтеза речи по печатному тексту, в частности, формирования просодии.
Рассмотренные в данной работе подходы к синтезу речи показывают необходимость рассмотрения текста как некоего целостного единства, в котором изменения в одной части приводят к изменениям в других частях этого единства, причем четко прослеживается иерархическая структура печатного текста и речевого сигнала. Структура этого типа позволяет использовать упрощенные методы для анализа и синтеза схем управления.
Проведенный анализ информационной структуры языка рассмотрен применительно к синтезу и распознаванию речевого и сигнала, а с учетом областей машинного перевода, проблем передачи информации по каналам связи. Система печатный текст — речь была рассмотрена на трех стратах — семантической, синтаксической, фонетической. Данное исследование привело к необходимости использования иерархической структуры обработки печатного текста и речи (см. Рис.2, Рис.3). На основе данной структуры была создана концептуальная модель синтеза речи, включающая в себя: стратифицированное представление речи; иерархические структуры речи, печатного текста, системы обработки; математические основы; модели каналов управления просодией и артикуляцией с обратными связями; введены ограничения по использованию созданной модели. Модель управления легкими имеет два канала. Первый, инерционный канал управления формирует прогнозируемое изменение объема легких при генерации интонации. Второй канал управления отвечает за реализацию ритмики и перестройку артикуляторных органов.
Принимая в качестве базовой концептуальную модель синтеза речи проведен анализ высказываний и построение моделей просодии. Исследования проводились для прогнозирующей модели верхнего уровня формирования просодических характеристик по печатному тексту. Были исследованы и построены модели разметки высказываний и фонетических слов; модель расстановки ударений; транскрибирования текста; модель длительностей звуков; модель формирования частоты основного тона. Данные модели последовательно формируют прогнозирующее изменение просодических характеристик при генерации высказывания.
Созданные алгоритмы соответствуют моделям, созданные при анализе высказываний (см. главу 2) скомпонованы в обобщенную модель синтеза речи (см. Рис.10), которая может быть использована в качестве методологических основ для синтеза речи по правилам. В каждой модели определены базы данных, используемые для формирования параметров управления и настройки модели. Все сведения о параметрах основываются на физиологических и анатомических данных речеобразующей системы человека и информационных параметрах языковой системы.
В работе сформированы базы данных на разных уровнях иерархии языка для системы синтеза речи, а также сформулированы требования к ним (см. раздел 2.6.). Базы данных скомпонованы с учетом требований, присущим языковым системам (см. раздел 1.3.4 и 2.6.), а также с учетом анатомии и I физиологии человека.
Согласно созданной методологии был исследован синтез просодических характеристик с учетом ограничений. Легкие рассматриваются как объект управления. Управляя легкими, определяем функции изменения избыточного давления в легких и изменения объема легких в процессе формирования просодических характеристик. Имеющиеся два канала управления вводят необходимость коррекции объема легких, так как воздух из легких тратится дополнительно на произношение звуков. Таким образом, создается прогнозируемое управляющее воздействия на легкие для формирования просодических характеристик по заданному типу высказывания и расставленным моментам времени ударным гласным.
Проведены исследования по влиянию различных моделей на изменение избыточного давления и расхода воздуха. Определены зависимости изменения расхода воздуха при различных интонационных картинах. Определено, что на избыточное давление и расход воздуха в легких влияют два фактора — собственно интонация высказывания и ритмика. Таким образом, подтверждено наличие двух каналов обратных связей при управлении просодией: канала по просодии (определяющего характер изменения интонации) и канал по артикуляции (определяющего расход воздуха при различных звуках).
Отдельное место отводится влиянию проводимости речеобразущего тракта на расход воздуха в легких. При формировании прогнозирующего изменения расхода воздуха принимаются средние значения, но при реализации должны быть учтены различные значения проводимости при произнесении звуков (например, при произнесении гласных проводимость выше, чем при согласных). Оценки влияния проводимостей приведены в общем случае, т.к. требуют детального исследования. Но, в частности, при сопоставительном экспериментальном исследовании выявлены резкие скачки частоты основного тона после взрывных звуков, которые полностью объясняются разработанной моделью управления легкими при формировании просодии.
Получены следующие практические результаты:
Создан комплекс программ по формированию просодических характеристик и ритмики по печатному тексту. Заложенные в ее основу сведения и получаемые результаты не противоречат приведенным в [121, 131]. Данный комплекс программ может служить основой для реальной системы синтеза речи. Предполагается использовать в системе синтеза речи по правилам.
Создана программа автоматического транскрибирования для русского и английского языков, которая по размеченному печатному тексту позволяет получить фонетическую транскрипцию. Данная программа применяется на кафедре иностранных языков БТИ АлтГТУ.
Программные средства поддержки логопедии и фониатрии и система проверки слуха используются в Реабилитационно-диагностическом центре "Мать и дитя" для проверки произношения пациентов и слуха. Практически
121 программные средства оказывают помощь врачу в установке диагнозов и назначении лечения.
Автором проведено руководство исследовательскими работами в программе «Шаг в будущее», в основу которых положены сведения о структуре речевого сигнала и печатного текста. Данные исследования служат основой для развития научного творчества школьников и на занятиях по предметам: физика (акустика), математика, русский язык и другие.
Дальнейшее развитие исследований должно быть направлено на уточнение значений проводимостей и учет расхода воздуха при артикуляции звуков. Перспективным является соединение данной модели формирования просодических характеристик с моделью артикуляции для создания рабочей системы синтеза речи. Также важным является уточнение влияния различных моделей при формировании просодических характеристик на синтезированную речь.
Библиография Мещеряков, Роман Валерьевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Автоматическое распознавание и синтез речевых сигналов. //Сборник статей. - Киев, 1989
2. Автоматическое распознавание слуховых образов (АРСО-Ю). Тбилиси. 1978
3. Автоматическое распознавание слуховых образов АРСО-13. № 1. Новосибирск: МГУ, 1984
4. Автоматическое распознавание слуховых образов АРСО-13. № 2. Новосибирск: НГУ, 1984
5. Автоматическое распознавание слуховых образов АРСО-6. Талин. Институт кибернетики. 1972
6. Автоматическое распознавание слуховых образов АРСО-8. Львов. 1974
7. Агеенко Ф.Л., Зарва М.В. Словарь ударений для работников радио и телевидения. М: Русский язык, 1984
8. Аксютина И.В., Карневская Е.Б., Лобанов Б.М., Марченков М.А. Многофакторная модель ритмики и ее реализация при синтезе речи по тексту. / АРСО 15, Талин, 1989 с.135-136
9. Антонова Д.Н., Краснова Л.С. Использование автоматизированных обучающих систем (АОС) для овладения звуковым строем неродного языка. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.6, Po 4.14, p 197-199
10. Ахо A.B., Уильман Д.К. Теория синтаксического анализа, перевода и компиляции.
11. Барковский М.М. Русское словесное ударение. Изд 2-е, испр. и дополн. Минск:- "Вышэйшая школа", 1974
12. Белоногов Г.Г. Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983 288с.
13. Березин Ф.М. История лингвистических учений. Учебник для филолог, спец. вузов. 2-е изд., испр. и доп. - М.: Высш. шк., 1984 - 319 е., ил.
14. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Модель управления просодией при синтезе речи //Теория и практика речевых исследований (АРСО-99). Материалы конференции. Москва.: МГУ им. М.В. Ломоносова 1999 160с., с 10-11
15. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Синтез речи по печатному тексту / Природные и интеллектуальные ресурсы Сибири
16. Сибресурс-3-97. Тезисы докладов международной научно-практической конференции, Красноярск, 13-15 октября, 1997, Томск: ТУСУР, 1997 -232с, с156-157
17. Бондаренко В.П., Маркивский И.О. Оценка параметров системы фильтров модели анализа речевых сигналов / Методы и алгоритмы автоматизации технологических процессов. Томск.: Изд-во Том. Ун-та, 1995. - с.120-131
18. Бондаренко В.П., Мещеряков Р.В. Иерархическая система синтеза речи по правилам/ Сборник: Автоматическое и автоматизированное управление сложными системами: Сб. статей / Под. Ред. В.П.Тарасенко. Томск: Изд-во Том. ун-та, 1998. - 236с, с.218-227
19. Бондарко Л.В. Звуковой строй современного русского языка. М.: Просвещение, 1977 175с.
20. Бондарко Л.В., Вербицкая Л.А., Гордина М.В. Основы общей фонетики. СП.: Издательство С-П университета, 1991
21. Бондарко Л.В., Вербицкая Л.А., Щербакова Л.П. Об определении места ударения в слове. // Известия АН СССР. Серия литературы и языка, 1973 -т.32, вы п.2. с. 141-153.
22. Бракер г Э., Миноу М., Течнер У. Система с трехуровневой программой для преобразования текста в речь. / Электроника 1983. - № 8, с. 36-42.
23. Бровченко Т.А., Волошин В.Г., Камбуленко Н.С., Труханова Н.Л. Интонационная организация естественной и синтезированной речи. / АРСО 15, Таллин, 1989 с.256-258
24. Брызгунова Е.А. Звуки и интонация русской речи. М.: Русская литература. 1982 -279с.
25. Варламова О. Помехоустойчивые кодеки — будущее цифровой телефонии // Network World, Сети, №10, 1997, стр 26-32
26. Вартанян И.А. Физиология сенсорных систем: Руководство / Серия "Мир медицины". Спб.: Издательство "Лань", 1999. - 224с.
27. Велиновская Е.С. Системы распознавания и понимания речи/ Приборы и элементы автоматики и ВТ, 1994 № 2 - с. 11-14.
28. Вербицкая Л.А. Русская орфоэпия. 1976
29. Вильсон Д.К. Нарушения голоса у детей: 11 ер.с англ. М.: Медицина,1990, 448с, ил.
30. Вопросы просодики и звукового состава // Сборник статей, Головной Иркутский гос.пед.ин-т. -Иркутск: ИГПИ, 1983- 175 с.
31. Ворсано Д. Кодирование речи в цифровой телефонии // Сети и системы связи №1 1996
32. Герасимова Т.И. Мелодическая структура испанской одночленнойодносинтагменной повествовательной фразы //Вопросы просодики и звукового состава Иркутск: Издательство ИркРПедИ, 1983 - 175с. с. 99103.
33. Годин Р. Система речевого ввода и вывода информации /обзорЮлектроиика, 1983 № 8 - с.27-29.
34. Гренандер У. Лекции по теории образов: Т.1 Синтез образов / Под ред. Журавлева; пер. с англ. М.: Мир, 1979. - 383с.
35. Давыдова И.М., Давыдов Ю.М. Основы математической технологии. М.: МФТИ, 1979
36. Донгаузер Л.С. Межсинтагменная пауза в сложноподчиненном подчинении // Вопросы просодики и звукового состава Иркутск: Издательство ИркРПедИ, 1983 - с. 16-24.
37. Журавлев А.П., Пав люк H.A. Язык и компьютер. М.: Просвещение, 1989
38. Загоруйко Н.Г. АРСО и речевые технологии. Выч ислител ьн ые системы № 153- Новосибирск, 1995
39. Златоустова Л.В Интонация и просодия в организации текста //Звучащий текст. М.: Институт научной информации по общественным наукам, 1983-с 11-21.
40. Златоустова Л.В. Фонетическая структура слова в потоке речи. Казань: Издательство Казанского университета, 1962
41. Златоустова Л.В. Фонетические единицы русской речи. М.: Издательство МГУ, 1981
42. Златоустова Л.В., Кодзасов C.B., Кривнова О.Ф., Фролова И.Г. Алгоритмы преобразования орфографических текстов в фонетическую запись. М.: МГУ, 1970
43. Златоустова Л.В., Кузнецов В.Б., Отт А. Длительность гласного как результат взаимодействия 2-х факторов: ритмической структуры слова и его положения в синтагме // АРСО-13, Новосибирск: НГУ, 1984 с. 3-5.
44. Златоустова Л.В., Потапова Р.К., Трунин-Донской В. 11. Общая и прикладная фонетика. М.: Издательство МГУ, 1986. 304с.
45. Итоги науки и техники. Сб. "Вычислительные науки", т.6. М.:ВИНИТИ. 1991
46. Калынь Л.Э. Фонетическая программа слова как основнаяпроизносительная единица. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.3, Po 2.9, p 230- 233
47. Кантер. Системный анализ речевой интонации // Фонетика спонтанной речи.
48. Карневская Е.Б. Лингвистические принципы просодической организации речи при многоязычном синтезе. // Сборник научных трудов "Автоматическое распознавание и синтез речевых сигналов". Киев, 1989 -с. 124-126.
49. Карпов Н.П. Фраза основная единица речевого высказывания/7Вопросы просодики и звукового состава - Иркутск: Издательство ИркРПедИ, 1983 с. 159-173.
50. Коперда Ф. Система распознавания речи. /Компьютеры: Справочное руководство т.З,- М., 1986 гл. 30,- с.358-391.
51. Косарев Ю.А. Естественная форма диалога с ЭВМ. Л.: Машиностроение Ленинградское отделение, 1989. - 143с., ил.
52. Крейнес А. Компьютерная телефония как средство общения // Nets № 7 1996 с. 75-78
53. Кривнова О.Ф. Количественная оценка воздействия супрасегментных факторов на длительность ударных гласных в синтагме. // АРСО-13, 1984, НГУ, с. 6-7.
54. Кривнова О.Ф., Гладков С.М., Чардин И.С., Бабкин А.В. Узнайте его по голосу // Компьютерра. 1997 - №49 - с.40-43
55. Крил П. API для распознавания речи для WINDOWS 95 И WINDOWS NT //Computerworld №20 1996, СТ 48/97
56. Кузнецов В.Б., Отт А.В. Автоматический синтез речи. Алгоритм преобразования "буква-звук" и управление длительностью речевых сегментов. Таллин: "Валгус" 1989
57. Кутуков Г.П., Матюнин С.Н. Состояние исследований в академических и учебных институтах страны в области автоматического распознавания исинтеза речи // Информационные технологии. 1998. - №6. - с.21-26
58. Кучеров В .Я., Лобанов Б.М. Синтезированная речь в СМО. М.: Радио и связь 1983 132с.
59. Кюннап. Синтез речи. Таллин: Академия наук Эстонской ССР, 1988
60. Липченко В. Я., Самусев Р.П. Атлас нормальной анатомии человека: Учебное пособие. 2-е изд., перераб. и доп. - М.: Медицина, 1988. - 320с., ил., ISBN 5-225-00026-6
61. Лобанов Б.М. Принципы автоматического синтеза интонационных структур. /7АРСО-Ю, Тбилиси, 1978, с 159.
62. Лобанов Б.М. Теоретические основы систем речевого общения. // Искусственный интеллект: в 3 кн. Кн.1 Системы общения и экспертные системы: Справочник / под ред. Э.В. Попова М.: Радио и связь, 1990. -464с., ил.
63. Лупина Е.Д. Мелодические характеристики сегментированного вопроса с постпозитивным сегментом во французском языке. // Вопросы просодики и звукового состава Иркутск: Издательство ИркРПедИ, 1983 - с. 47-56.
64. Лурия А.Р. Язык и сознание. Под.ред. Е.Д. Хомской. Ростов н/Д.: изд-во "Феникс", 1998. -416с.
65. Маковский М.М. Лингвистическая комбинаторика: Опыт топологической стратификации языковой структуры. М.: Наука, 1988
66. Марголис А.Л. Использование принципов слухового восприятия человека в автоматическом распознавании речи.
67. Математическая лингвистика. Сборник переводов. /Под ред. Шрейдера Ю.А., Ревзина И.И, Лахути Д.Г. и Финна В.К., М.: Мир, 1964
68. Мессарович М., Мако Д., Такахара И. Теория иерархических многоуровневых систем./пер. с англ. под ред. И.Ф.Шахнова/ М.: Мир, 1973 -311с.
69. Методы автоматического распознавания речи, к.1 Под ред. У.Ли. М.: Мир 1983
70. Мещеряков Р.В. Модель системы синтеза параметров речи по печатному тексту с использованием информационных представлений // Ползуновский альманах №2, 1999г., Барнаул, изд-во АлтГТУ им. И.И.Ползунова, с 62-68
71. Мещеряков Р.В. Синтез просодии /Компьютерные технологии в науке,проектировании и производстве. Тезисы докладов I Всероссийской научно-технической конференции. В 19 частях. Часть 13 Нижний Новгород: НГТУ, 1999, 43с, с.7
72. Мещеряков Р.В., Бондаренко В.П. Иерархическая система полного синтеза речи по правилам / Измерения, контроль и автоматизация производственных процессов/ сборник докладов четвертой международная конференции. Том 2. Барнаул: Из-во АлтГТУ, 1997 с 128-130
73. Мещеряков Р.В., Бондаренко В.П., Организация баз знаний в системе синтеза речи // Теория и практика речевых исследований (АРСО-99). Материалы конференции. Москва.: МГУ им. М.В. Ломоносова 1999 160с., с 37-38
74. Миллер Д.Ж. Магическое число семь плюс или минус два: О некоторых пределах нашей способности перерабатывать информацию // Инженерная психология / Под.ред. А.Н. Леонтьева М.: Прогресс, 1964.
75. Мир ПК 9.98 Автоматическая офисная телефонная система речевая почта.
76. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. /Под редакцией М.А. Сапожкова/- М.: Радио и связь. 1987 168с.
77. Николаева Т.М. Алгоритм независимого грамматического анализа русского текста. М.: Наука 1961
78. Николаева Т.М. Интонация сложного предложения в славянских языках. Опыт экспериментального исследования. М.: Наука, 1969
79. Николаева Т.М. Классификация таблицы русских графем (к проблеме построения читающего устройства) М.: Наука, 1961
80. Николаева Т.М. Семантика акцентного выделения. М.: Наука, 1982 104с.
81. Николаева Т.М. Фразовая интонация славянских языков М.: Наука, 1977
82. Николаева Т.М. Функции частиц в высказывании (на материале славянских языков). М.: Наука, 1985
83. Ожегов С.И. Словарь русского языка. Ок. 57000 слов / Под ред. чл.-корр. АН СССР Н.Ю. Шведовой. 19-изд., испр,- М.: Русс.яз., 1987 - 750с.
84. Организация взаимодействия человека с техническими средствами АСУ. В 7 кн. Кн. 2, Языковые средства диалога человека с ЭВМ. Практ. пособие/
85. Ю.Н. Филиппович, E.B. Родионов, Г.А. Чаркасова; Под ред. В.Н. Четверикова,- М.: Высш. шк., 1990. 159с.
86. Основы автоматического управления. Под редакцией В.С.Пугачева. М.:Наука, 1967, 680с
87. Основы логопедии. / Филичева Т.Б., Чевелева. H.A., Чиркина Г.В. М.: Просвещение, 1989. - 223с., ил.
88. Осокин В.В. Логическое ударение Томск: Изд-во ТГУ, 1968
89. Пайнен Д. Распознавание речи: завтра уже наступило? /Мир ПК, 1995 -№13 с.38-44.
90. Панов М.В. Занимательная орфография. М.: Просвещение, 1984 159с., ил.
91. Пиотровский Р.Г. и др. Математическая лингвистика. М.: Высшая школа, 1977- 387с. с ил.
92. Пиотровский Р.Г. Текст, машина, человек. Л.: Наука 1975
93. Плотников В.Н., Суханов В.А., Жигулевцев Речевой диалог в системах управления. М.: Машиностроение, 1988.
94. Покровский Н.Б. Расчет и измерение разборчивости речи. М.: Связь издательство, 1976 391с.
95. Популярная медицинская энциклопедия. Гл.ред. Б.В. Петровския. М.: "Советская энциклопедия", 1987 704с., ил.,
96. Потапова Р.К. Речевое управление роботом. М.: Радио и связь, 1989. -246с., ил.
97. Потапова Р.К. Речь: коммуникация, информация, кибернетика: Учеб. пособие для вузов. М.: Радио и связь. - 1997. - 528с.
98. Потапова Р.К. Система делимитативных средств звучащего текста /'/Звучащий текст. М.: Институт научной информации по общественным наукам, с.22-60.
99. Практическая фонетика английского языка (на английском языке). / М.А. Соколова, К.П. Гинтовт, Л.А.Кантер, Н.И. Крылова, И.С. Тихонова, Г.А. Шабадаш М.: Гуманит. изд. центр ВЛАДОС, 1997. - 384с., ил.
100. Пустовалов П.С., Сенкевич М.П. Пособие по развитию речи: Уч.пособие -2-изд., доп.и перераб. М.: Просвещение, 1987. - 288с
101. Пфанцагль (при участии В.Баумана и Г.Хубера) Теория измерений. / пер. с англ. В.Б.Кузьмина. М.: Мир, 1976 250с
102. Савкова З.В. Техника звучащего слова: Мет. пособие. М.: ВИНИНТИ КПР МК СССР, 1988
103. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.452с
104. Светозарова Н.Д., Щербакова Л.П. Роль изменения частоты основного тока в восприятии ударения в изолированных словах и предложениях./ АРСО -VI, Таллин: Институт кибернетики, 1972
105. Светозарова Н.Д. Интонационная система русского языка Л.: Издательство ЛГУ, 1982 175с.
106. Сорокин В.Н. Временные параметры элементов русской речи. Речевая информатика М.: Наука, 1974 - 223с.
107. Сорокин В.Н. Некоторые вопросы построения общей модели речеобразования. Труды АРСО-8, Львов, 1974 с.97-100.
108. Сорокин В.Н. Синтез речи М.: Наука, 1992 -392с.
109. Сорокин В.Н. Теория речеобразования. М.: Радио и связь. 1985- 312с.
110. Структура и семантика текста. Изд. Воронеж, университета, 1988
111. Теоретическая фонетика английского языка (на английском языке): Учеб. для студ. ин-тов и фак.иностр. яз. / М.А. Соколова, К.П. Гинтовт, И.С. Тихонова. М.: 1 уманит, изд. центр ВЛАДОС, 1996. - 286с.
112. Теория и практика речевых исследований (АРСО-99). Материалы конференции. Москва.: МГУ им. М.В. Ломоносова 1999 160с.
113. Трунин-Донской В.Н. Автоматический синтез звучащего текста //Звучащий текст. М.: Институт научной информации по общественным наукам 1983 -с. 218-250с.
114. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир 1978 /пер. с англ. И.Б. Гуревича, под ред. О.И. Журавлева. М.: Мир, 1978. - 411с.
115. Тузов В.А. Математическая модель языка. Л.: Издательство ЛГУ, 1984
116. Фирсанова Г.И. Описание интонационных особенностей вопросно-ответных предложений в современном русском языке. //Синтаксис и интонация. Уфа, 1973 с. 106-114.
117. Флейшман Б.С. Элементы теории потенциальной эффективности сложных систем. М.: Советское радио, 1971. -223с.
118. Фонетика спонтанной речи /под. ред. Светозаровой/.
119. Фониатрия и фонопедия / Дмитриев Л.Б., Теляева Л.М., Таптапова СЛ., Ермакова К.И. М.: Медицина, 1990. 272с., ил,
120. Хоэнстейн Л. Вывод звуковой информации: воспроизведение музыки и речи. / Компьютеры: Справочное руководство т.З. -М., 1986 гл.29-с.342133134135136137138139140141142143144145146
121. Черемисина Н.В., Вельц Р.Я. Информативная ёмкость синтаксического ударения в художественной речи. //Синтаксис и интонация. Уфа, 1973 с. 192-196.
122. Ясова Е. О некоторых функциях русского словесного ударения. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.l, Se 16.2.1 p 315-318
123. Bagshaw P.C. An investigation of acoustic events related to sentential stress and pitch accent, in English Speech Communication 1993 13(3-4): 333-342
124. Bagshaw P.C., Hiller S.M., Jack M.A. Enhanced pitch tracking and the processing of F0 contours for computer aided intonation teaching. Pages 10031006 of: Proc. 3rd. European Conference on Speech Communication and Technology, vol. 2. Berlin 1993
125. Bagshaw P.C., Williams B.J. Criteria for labeling prosodic aspects of English speech. Pages 859-862 of: Proc. International Conference on Spoken Language Processing, vol. 2. Banff, Canada. 1992
126. Black Alan W. Finite State Machines from Feature Grammars. Proceedings of the International Workshop on Parsing Technologies, Pittsburgh, 1989
127. Black Alan W., Campbell Nick Predicting the intonation of discourse segments from examples in dialogue speech, in "Computing Prosody," Springer Verlag, 1997.
128. Black Alan W., Hunt Andrew J. Generating F0 contours from ToBI labels using linear regression. Proceedings of ICSLP 96, Philadelphia, Penn 1996
129. Black Alan W., Taylor P. Assign phrase breaks from part-of-speech sequences. Proceedings of the Fifth European Conference on Speech Communication and Technology (Eurospeech 97), September 1997, Rhodes, Greece
130. Black Alan W., Taylor P. CHART: a Generic Speech Synthesis System.
131. Black Alan W., Taylor P. Synthesizing Conversational Intonation from a Linguistically Rich Input. In Second ESCA/IEEE Workshop on Speech Synthesis, New York, USA
132. Cecilia Ole A perceptual analysis of Russian intonation: some aspects. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.2, Se 51.5, p. 194-197
133. House Jill, Johnson Michael Enlivening the intonation in text-to speech synthesis: an 'accent-unit' model. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.l, Se 6.5, p.134-137
134. Knipper A. A SYLLABLE APPROACH TO THE SPEECH INFORMATICS. V.l Se 2.5., p.56-59147.148149150.151.152153,154155156157158159160
135. Kohler Klaus J. Microprosody in segment perception Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.l, Se 4.1, p.80-83
136. Kosarev Yu., Osipov A., Machovikov A. Natural spoken language understanding: integration of heterogeneous knowledge. Processing "SPECOM'98" International workshop SPEECH AND COMPUTER. St. Petersburg. - 1998.
137. Kosarev Yu.A. The model of oral speech semantic interpretation: quantitative processing and integration of acoustic, syntactic, semantic and pragmatic data. Proc. German Acoustics Conference DAGA-94. Drezden, 1994, p 1281-1284
138. Kowtko J.C. The function of Intonation in Spontaneous and Read Dialogue. Proceedings of the Fifth European Conference on Speech Communication and Technology (Eurospeech 97), September 1997, Rhodes, Greece
139. Metcherjakov R. V., Bondarenko V.P. Control Structure Of Speech Syntheses System // Processing "SPECOM'98". International workshop SPEECH AND COMPUTER. St. Petersburg. - 1998. - 360p. pp.353-356
140. Neil P. McAnglus Todd. Guy J.Brown A computation model of prosody perception. Proceeding of the International Conference on Spoken Language Processing (ICLSP-94), Yokohama, Japan, 18th-22nd September 1994, pp. 127130
141. Nikolayeva T. The typology of sentence intonation systems. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.6, Se 102.3, p. 106-109
142. Ottesen Georg E. Adding natural prosody to a phoneme synthesizer. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V. 3, Se 52.4, p. 260-261
143. Processing "SPECOM'96". International workshop SPEECH AND COMPUTER. St. Petersburg. - 1996. - 194p.
144. Processing "SPECOM'98". International workshop SPEECH AND COMPUTER. St. Petersburg. - 1998. - 360p.
145. Ruch W.J. An Atlas of Common Subluxations of the Human Spine and Pelvis. CRC Press 1996 178p
146. Sanders E., Taylor P. Using statistical models to predict phrase boundaries for speech synthesis. Proceedings of the Fourth European Conference on Speech Communication and Technology (Eurospeech 95), September 1995, Madrid, Spain
147. Slootwerg A.M. Word stress in prosodic context. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.6, Se 102.5, p. 114-117
148. Sproat R., Taylor P., Tanenblatt M., Isard A. A Markup Language for Text-To-Speech Synthesis. Proceedings of the Fifth European Conference on Speech Communication and Technology (Eurospeech 97), September 1997, Rhodes, Greece.133
149. Svetozarova N.D. LINGUISTIC FACTORS IN SENTENCE STRESS (EVIDENCE FROM RUSSIA) Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.6 Se 102.4, p 110-113
150. Taylor P. Synthesizing Intonation using the RFC Model. In Proc. ESCA Workshop on Prosody, Lund, Sweden, 1993
151. Taylor P. The Rise/Fall/Connection model of intonation. Speech Communications, forthcoming, 1994, 15: pp 169-186
152. Taylor P., I sard A. SSML: A Speech Synthesis Markup Language. Speech Communication 21
153. Taylor Paul. Shimodaira Hiroshi, I sard Stephen, King Simon, Kowtko Jaqueline Using Prosodic Information to Constrain Language Models for Spoken Dialogue.
154. Taylor P. A. The Tilt Intonation Model, Proceedings of the Fifth International Conference on Spoken Language Processing (ICSLP 98), November 1998, Sydney, Australia.
155. Willams B. Diphone synthesis for Welsh Proceedings of the IOA, vol. 16, part 5 (1994): 359-365.
156. Wright H., Taylor P. Modeling Intonational Structure Using Hidden Markov Models ESCA workshop on intonation, September 1997, Athens, Greece.
157. Zlatoustova L., Kozlenko N., Khitina M., Zakharov L., Automatic word stress detector. Proceeding Xith ICPhS, 1987 Tallinn, Estonia, V.l, Se 4.5, p. 96-99
158. Автосемантический знаменательный (автосемантические части речи: существительное, глагол, прилагательное, наречие)
159. Аккомодация взаимное приспособление, в частности, звуков речи в речевой цепи
160. Актант любой член предложения, обозначающий лицо, предмет, участвующий в процессе обозначенном глаголом
161. Акцент выделение наиболее семантически важного слова посредством наиболее сильного ударения
162. Акцентное выделение обозначение активной для восприятия выделенности просодическими средствами какого-либо слова во фразе. Феномен АВ называется логическим ударением
163. Аллофон конкретная речевая реализация звуков единицы, определяемая фонетическим округлением (минимальным контекстом), позицией и т.д.
164. Валентность способность языковой единицы вступать в синтаксические связи с другими языковыми единицами
165. Вокодер устройство кодирования и декодирования речи, включающее анализатор, синтезатор, преобразованный (например, компрессированный) сигнал, восстановленный (экспандированный) сигнал. Различают полосный, сканирующий, формантный, фонемный вокодеры
166. Высказывание минимальный продукт текстовой деятельности, включающий психическую, физиологическую, интеллектуальную и лингвистическую способность говорящего (пишущего)
167. Грамматика наука о строе языка, вкл. морфологию (учение о формах слов) с синтаксис (учение о сочетании слов в предложении)
168. Графема основания единица, входящая в систему письма того или иного языка
169. Делимитативный признак зубная артикуляция
170. Дифон двухэлементная последовательность звуков сегментов, включающая участок: середина квазистационарного участка предшествующего звука, переход к последующему звуку, часть до середины квазистационарного участка последующего звука
171. Дифтонг сложный гласный звук, образуемый скользящей артикуляцией, в которой различают два элемента
172. Микросегментация речевого сигнала сегментация речевого сигнала на минимальные участки, меньшие звука, а также звуки, иногда слоги
173. Монофтонг артикуляторно и акустически однородный гласный звук. Устойчивость качества обеспечивается стабильной артикуляцией
174. Парадигматика аспект системного изучения языка, определяемый выделением и противопоставлением группы (класса) языковых единиц по какому-либо признаку
175. Периферический речевой аппарат части речеобразующего аппарата, находящиеся на его периферии (губы, зубы, кончик языка)
176. Позиционные аллофоны варианты звуковых реализаций, обусловленные позицией в фонемной цепочке
177. Прагматика раздел языкознания, изучающий функционирование языковых знаков в речи и отношение к знакам говорящего
178. Проклитика примыкание безударного слога (слогов) к последующему ударному слогу
179. Просодема семиологически значимая (знаковая) просодически оформленная единица языка
180. Просодемика семиологически значимое фонетическое оформление средствами просодии слов, цепочки слогов
181. Просодика семиологически незначимое фонетическое оформление средствами просодии слога, цепочки слогов
182. Ритмическая схема синтагмы условная запись данной синтагмы в виде последовательности типов составляющих ее ритмическую структуру
183. Ритмо-мелодическая схема синтагмы условная запись данной синтагмы в виде последовательности типов ритмических структур, объединенных одним мелодическим контуром
184. Семантика: 1) информация, предаваемая с помощью языка или каких-либо языковых единиц; 2) раздел языкознания, изучающий эту информацию; 3) один из основных разделов семиотики
185. Синтагма ритмико-мелодическая единица слитной речи, грамматически оформленная и выраженная в пределах балле сложного целого (предложения) относительно законченную мысль
186. Синтагматика аспект системного изучения языка, определяемый отношениями языковых единиц в их линейной последовательности
187. Синтаксис: 1) правила структурирования речевого высказывания; 2) раздел грамматики, изучающий процессы структурирования речи (сочетаемость и порядок следования слов)
188. Слой уровень сложности принимаемого решения Страта - уровень описания или абстрагирования
189. Такт среднее число слогов, объединенных одним полным словесным ударением
190. Темп среднее число слогов в единицу времени, определенное на данном интервале времени
191. Тембр качество или окраска звука речи, воспринимаемые на слух как впечатление от совокупности и соотношения спектральных составляющих
192. Транскрипция способ однозначной фиксации на письме звуковых единиц речи (сегментная транскрипция) и интонационных единиц (супрасегментная транскрипция)
193. Факультативные аллофоны варианты звуковых реализаций, возникающие в конкретной ситуации общения или стиле речи
194. Фонация процесс голосообразования от источника - голосовых связок
195. Фонема наименьшая единица звукового строя языка, служащая для опознания и различения морфем, слов. Реализуется в речи в ряде вариантов, оттеков
196. Фонетика раздел языкознания, изучающий звуковую сторону языка в физическом, артикуляторном и перцептивном аспектах
197. Фонетическое слово группа слов, включающих главноударный слог и относящиеся к нему предшествующие (проклитика) и последующие (энклитика) слоги
198. Фоноабзац иерархически предельная семантико-просодическая единица устного текста, способная адекватно репрезентировать модель просодической структуры определенного типа текста в целом
199. Фонология раздел языкознания, изучающий структурные и функциональные закономерности звукового строя языка
200. Фонотактика раздел фонологии, изучающий правила комбинаторики и сочленения фонем
201. Форманта максимум спектральной энергии, область концентрации энергии в спектре звука речи
202. Фраза высказывание или последовательность высказываний, представляющих собой смысловое и просодическое единство
203. Частота основного тона (ЧОТ) самая низкая частота, присутствующая в спектре речевого сигнала
204. Хезитация нерешительность, неуверенность, раздумье передаваемое в речи средствами паузации (незаполненной, заполненной)
205. Эмфаза совокупность фонетических средств выделения отдельных слогов (слов)
206. Энергетика текущее изменение интенсивности звука Энклитика - примыкание безударного слога (слогов) к предшествующему ударному слогу
207. Эшелон организационный уровень иерархии
-
Похожие работы
- Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи
- Математические модели образования звучной речи
- Комплекс программ синтезирования таджикской речи по тексту
- Управление процессом речевой реабилитации с использованием биологической обратной связи
- Исследование и разработка методов автоматического синтеза речи по фонемному тексту
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность