автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий

кандидата технических наук
Богданов, Дмитрий Степанович
город
Москва
год
2013
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий»

Автореферат диссертации по теме "Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий"

На правах рукописи

Богданов Дмитрий Степанович

МЕТОДЫ СОЗДАНИЯ И ИСПОЛЬЗОВАНИЯ РЕЧЕВЫХ БАЗ ДАННЫХ И ИНСТРУМЕНТАЛЬНЫХ СРЕДСТВ АНАЛИЗА И ИССЛЕДОВАНИЯ РЕЧИ ДЛЯ РАЗВИТИЯ РЕЧЕВЫХ ТЕХНОЛОГИЙ

Специальность 05.13.01 — Системный анализ, управление и обработка информации (технические науки)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва - 2013

2 4 ОКТ 2013

005535929

Диссертационная работа выполнена в Федеральном государственном бюджетном учреждении науки Институт системного анализа Российской академии наук в лаборатории 9-6 "Анализ и проектирование информационных систем"

Научный руководитель: чл.-корр. РАН, доктор технических наук, профессор, Арлазаров Владимир Львович, заведующий лабораторией Федерального государственного бюджетного учреждения науки Институт системного анализа Российской академии наук (ИСА РАН)

Официальные оппоненты: доктор технических наук, профессор,

Будзко Владимир Игоревич, зам. директора Федерального государственного бюджетного учреждения науки Институт проблем информатики Российской академии наук (ИПИ РАН);

доктор технических наук,

Славин Олег Анатольевич, заведующий лабораторией Федерального государственного бюджетного учреждения науки Институт системного анализа Российской академии наук (ИСА РАН)

Ведущая организация: Федеральное государственное бюджетное учреждение науки Вычислительный центр им. A.A. Дородницына Российской академии наук (ВЦ РАН)

Защита состоится 11 ноября 2013 года в 11:00 на заседании диссертационного совета Д-002.086.02 Федерального государственного бюджетного учреждения науки Институт системного анализа Российской академии наук (ИСА РАН) по адресу: 117312, Москва, проспект 60-летия Октября, 9.

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Институт системного анализа Российской академии наук.

Автореферат разослан 10 октября 2013 года.

Ученый секретарь

диссертационного совета Д.002.086.02 доктор технических наук, профессор

Г*

Пропой А.И.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы.

90-е годы прошлого столетия ознаменовались этапом бурной эйфории от быстрых успехов в области речевых технологий. Связано это было с одной стороны со значительным увеличением производительности компьютеров и объемов хранения данных, а с другой, с появлением математических методов классификации признаков и распознавания объектов, дающих быстрый рост качества распознавания. На сегодняшний день этот этап сменился этапом кропотливой и методичной работы, связанной с развитием возникших новых направлений в исследовании речи. Эта область исследований оформилась структурно, и еще более очевидной стала проблема наличия универсального инструментария разработчика речевых технологий.

Актуальность темы диссертационного исследования обусловлена необходимостью анализа потребностей и разработки универсальных инструментальных средств для развития речевых технологий, которые позволили бы снизить трудозатраты при создании речевых систем путем автоматизации рутинных процедур и повысили бы их качество, предоставив исследователям и разработчикам необходимые ресурсы для настройки, анализа и отладки систем.

В сложившейся на сегодня структуре исследования речи и разработки речевых систем наиболее актуальными так же являются вопросы создания отладочных стендов, автоматизации процессов сбора речевых баз данных и их разметки на фонологические единицы для алгоритмов статистического анализа, визуализации цифровых речевых сигналов и результатов их обработки, выделения признаков, пакетная обработка больших объемов данных.

Предмет исследования и цели диссертационной работы.

Объектом исследования является речевой интерфейс человека с компьютером. Предмет исследования - методы создания инструментальных средств для разработки элементов речевого интерфейса человека с компьютером.

Целями исследования являются:

• разработка унифицированных инструментальных средств автоматической обработки, анализа и визуализации речевых сигналов;

• разработка методов создания речевых баз данных и их реализация пу-

-3-

тем создания пакета программ для автоматизации сбора и разметки крупных речевых баз данных для систем распознавания и синтеза речи русского языка.

Для достижения указанных целей были поставлены и решены следующие основные задачи:

• исследование существующих методов цифровой записи, анализа, обработки и визуализации речевых сигналов;

• исследование существующих речевых баз данных и методов их создания, классификация речевых баз данных;

• определение архитектуры и состава инструментальных средств для автоматизации процессов анализа речевых сигналов и создания систем распознавания и синтеза речи;

• разработка формальной модели унифицированного речевого фрагмента, как объекта автоматического анализа и его визуальных представлений;

• разработка инструментальных средств автоматической обработки, анализа и визуализации речевых сигналов;

• разработка методов создания речевых баз данных русского языка с заданным фонетическим и текстовым наполнением;

• реализация комплекса программ для автоматизации процессов создания речевых баз данных;

• создание речевых баз данных с фонетической разметкой для разработки систем распознавания и синтеза речи русского языка.

Методы исследований.

Для решения поставленных задач в работе используются методы теории информации, теории множеств, методы математического анализа, методы цифровой обработки сигналов, теории распознавания образов, теории вероятностей, экспертного и статистического анализа. Компьютерная реализация алгоритмов и систем производилась на основе объектно-ориентированного подхода.

Научная новизна.

Наиболее существенные результаты и научная новизна диссертационной работы состоят:

• в разработке концепции построения и реализации открытой инструментальной системы анализа и исследования речевых сигналов, которая обеспечивает разработчика речевых технологий базовыми средствами анализа и визуализации речевых сигналов и не требует модификации при добавлении новых методов и алгоритмов;

• в теоретическом обосновании и разработке формального описания модели унифицированного объекта речевых технологий, включающее речевой сигнал и все возможные формы его представления, которое систематизирует и упрощает процессы разработки алгоритмов и создания программ в области речевых технологий;

• в разработке метода выделения основного тона говорящего с определением временных границ смыкания голосовых связок;

• в разработке методологии и реализации комплекса программных средств для создания речевых баз данных с ожидаемыми характеристиками полноты и частотности фонологических характеристик.

Обоснованность и достоверность научных положений

Обоснованность и достоверность научных положений, выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, алгоритмов и согласованностью результатов, полученных при компьютерной реализации, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы.

Практическая значимость исследования состоит в разработке комплекса программных средств и создании крупных речевых баз данных русского языка с различными фонологическими характеристиками. Созданный инструментарий активно используется учеными, разрабатывающими методы и алгоритмы автоматического распознавания и синтеза речи, математиками-программистами для создания систем распознавания и синтеза речи, а так же специалистами в области фонетики русского языка для исследований речевых сигналов, изучения процесса речеобразования и проведения других фонетических исследова-

ний. Важную роль созданный инструментарий играет в процессах обучения студентов в курсах фонетики, лингвистики, искусственного интеллекта, речевых технологий.

Апробация работы.

Основные положения и результаты диссертационной работы представлялись на следующих международных конференциях:

IX Международная конференция «Речь и Компьютер» INTAS workshop SPECOM'2004 (Санкт-Петербург, 2004)

I Международная конференция «Системный анализ и информационные технологии» САИТ-2005, секция «Интеллектуальные информационные технологии», Переяславль-Залесский, 2005;

Результаты были представлены в докладе на заседании сессии «Распознавание речи» Отделения информационных технологий и вычислительных систем РАН в октябре 2003 г.

Исследования были поддержаны грантом РФФИ (проект № 02-07-90454 «Формирование речевой базы данных русского языка»).

Публикации автора исследования.

Положения диссертации отражены в 11 научных статьях, включая 9 статей в научных изданиях, рекомендованных ВАК РФ для публикации научных результатов диссертации: «Информационные технологии и вычислительные системы», «Труды Института системного анализа Российской академии наук», «Системы высокой доступности». Автор является одним из соавторов патента США и российского свидетельства о регистрации баз данных по теме диссертации.

Структура и объём работы.

Диссертация состоит из введения, трех глав, заключения и библиографического списка использованных источников из 77 наименований. Общий объём работы составляет 125 страниц, в том числе 10 рисунков и 6 таблиц.

Глава 1 содержит обзор и анализ развития в России и в мировой науке и практике речевых технологий и инструментов для их разработки, отладки и

тестирования, здесь так же дается классификация и обзор существующих речевых баз данных русского языка.

Глава 2 посвящена рассмотрению проблем создания универсальных инструментальных средств работы с речевыми сигналами и методами их обработки и визуализации для проведения различных исследований. В главе дастся формальное описание модели унифицированного объекта исследований, рассматриваются вопросы автоматизации разработки, отладки и тестирования алгоритмов анализа речевых сигналов, дается описание алгоритма выделения основного тона говорящего с разметкой по сигналу моментов смыкания голосовых связок.

Глава 3 посвящена описанию методов проектирования, сбора, разметки и верификации речевых баз данных. Дается математическое обоснование фонетической полноты базы данных. Здесь же дается описание созданных под руководством автора речевых баз данных русского языка.

В заключении приводятся основные результаты работы и делаются выводы о перспективах развития данного направления исследований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Рассматриваемые в работе проблемы группируются вокруг двух основных задач, решение которых существенно продвигает уровень развития речевых компьютерных технологий. Это:

1. Разработка методов и инструментов работы с речевым сигналом, включающие методы визуализации речевого цифрового сигнала, различных его представлений, характеристик и результатов его анализа и обработки. Сюда также следует отнести методы пакетной обработки больших объемов речевых сигналов с возможностью экспертного контроля результатов.

2. Разработка методов и реализация инструментов автоматизации процессов проектирования речевых баз данных с заданными фонологическими характеристиками, сбора речевых фрагментов, их разметки, верификации и структуризации в виде речевой базы данных.

Основу решения первой группы задач составляет представленное к защи-

те теоретическое обоснование и описание концептуального подхода к проектированию системы работы с речевыми сигналами.

Средство разработчика должно обладать свойством открытости и являться инструментом для целого коллектива разработчиков. С другой стороны, базовые возможности системы должны быть просты в применении, и та же система должна использоваться студентами и техническим персоналом, сопровождающим речевые базы данных, для простой визуализации, обработки речевых сигналов и разметки на фонетически и акустически значимые сегменты.

Главная идея при проектировании состояла в создании открытой системы, которая не требует своей модификации при пополнении ее новыми свойствами. В исследованиях подобного рода всегда существует набор базовых операций, являющихся первичными для большинства других. Эти базовые операции должны быть исходно встроены в оболочку. В то же время, в процессе работы накапливается большое количество процедур, часть из которых используется как основа для дальнейших работ. Поэтому важным качеством инструментальной системы становится возможность пополнения класса базовых операций без перестройки самой оболочки, путем перевода пользовательских программ в разряд базовых операций.

В рамках данной концепции еще одним защищаемым положением диссертационной работы является формальное описание модели унифицированного объекта исследований (речевого сигнала в цифровой форме).

Все операции применяются к унифицированному объекту, формальное описание которого включает сам объект и все возможные формы его визуального представления (временное представление, визуализация спектра и т.п.). Такое формальное описание управляет системой визуализации объекта и результатов его обработки. Оно же является шаблоном входного и выходного параметра при построении новых методов обработки объекта. При этом от исследователя требуется только содержательная работа - написание алгоритмов обработки, а все проблемы отображения результатов решаются интерфейсной оболочкой, для которой заполненный выходной шаблон является управляющим

-8-

параметром.

Функционально объект состоит из двух частей: собственно данные и система их внешнего представления.

ОБЪЕКТ = (ДП)

Под данными О будем понимать не только входной сигнал Р(0, но и полученные в результате вычислений и преобразований иные формы его внутреннего представления (например, спектр), а также сопутствующую информацию (например, разметку сигнала на акустические или фонетические элементы). Все элементы данных построены на единой шкале измерения (дискретное время).

Таким образом, данные состоят из первичных и производных: й = Р Ф Р ® 5, где Р — входной сигнал, в общем случае представляющий из себя совокупность параллельных (синхронизированных по времени) линейных сигналов: Р = ир,(0 /

На практике чаще используется размерность / = 1, однако в ряде прикладных задач приходится сталкиваться с необходимостью исследовать стерео сигнал (/ = 2). Нередко фонетисты дополнительно с речевым сигналом предпочитают исследовать синхронно записанные измерения, такие как давление воздуха в определенной точке, скорость воздушного потока и т.п.

Р - есть полученные в результате преобразований производные формы внутреннего представления сигнала. То есть определен набор функций F — (¡¡, /г, .... такой, что Г: Р Р. Открытость системы в том числе предполагает возможность замены пользователем любой из функций £ на его собственную.

5 = У - есть набор заданных извне дополнительных описаний сигна-к

ла. В частности, возможно наличие созданной экспертом или программной разметки сигнала на лингвистические, фонетические и/или акустические сегменты. Здесь же возможно экспертное или построенное автоматически описание формантных траекторий и т.п.

Система внешнего представления Г2 = (_)(гУяо-у) есть совокупность пар, со-

стоящих из формы внешнего представления со, и функции се заполнения данными аг

Любая форма а», является элементом из множества возможных способов отображения. Типы форм представления:

• двумерное представление - плоский график (используется, например, дчя прямой визуализации сигнала или функций от него);

• трехмерное представление - изображение в оттенках серого (для визуализации спектрального представления);

• вертикальная гистограмма (для отображения спектрального среза);

• таблично-матричное (отображение наборов параметров);

• акустическое представление (звуковая форма).

С каждой формой щ связан некий элемент данных <//') « ( то есть р{4 или р{1), или 5(/) ) и функция а,:«/,-» <о,, осуществляющая отображение этого подмножества данных объекта в соответствующую форму системы внешнего представления.

Рисунок 1. Формы представления речевого фрагмента: цифровая волю, спектральное представление и фонетическая разметка.

-10-

Для осуществления операций над объектами вводится понятие метода. Метод может либо трансформировать объект (дшшые и/или систему представления), либо порождать новый объект, формируя его данные и определяя набор форм для системы представления.

При построении формализованного описания объекта задаются пространственно-временные связи между разными формами представления и/или параллельными объектами. Для всех форм задается унифицированная шкала измерения. Связываемая форма должна иметь маркер-указатель положения внутри формы относительно основной шкалы. Связывание есть синхронизация положений маркеров, и может осуществляться между формами как внутри одного объекта, так и между формами различных объектов. Связи могут устанавливаться пользователем при работе с системой в интерактивном режиме, или задаваться методом при его выполнении.

В представленной модели помимо традиционного спектрального представления на интервалах (фреймах) размером в 2° отсчетов, заложена возможность проводить анализ сигнала на фреймах переменной длины, в частности, строить спектральную картину синхронно с основным тоном говорящего. Получаемая в этом случае гладкая спектрограмма позволяет среди прочего проводить более точный формантный анализ вокальных компонент речевого сигнала.

Для реализации такой возможности в системе определено преобразование г: (Т,Р) -»• Т, определяющее дискретную нелинейную интегральную временную шкалу Т. Этой шкале соответствует массив временных интервалов (фреймов), определяемых точкой начала и длиной: Т = У (/„,/„)

В случае традиционного Фурье анализа на постоянных фреймах преобразование г не зависит от сигнала Р и являет собой линейную функцию определения временных отсчетов кратных 2", при этом 1т=2". В случае анализа синхронно с основным тоном диктора преобразование т заложено в методе выделения основного тона.

Иерархическая структура подразумевает выделение четырех основных

классов операций:

• технический (ввод/вывод, редактирование и ручная сегментация сигнала);

• базовый (традиционные методы обработки);

• пользовательский (методы, создаваемые пользователем);

• системный (сервисные утилиты низкого уровня).

Технический класс включает в себя тривиальные операции над любым объектом, такие как редактирование (вырезка, вставка, склейка, копирование или подавление фрагмента), несложные звуковые эффекты (инвертирование, эхо и т.п.), а также запись и воспроизведете звуковой волны. Данные возможности предоставляются практически любыми звуковыми редакторами. Помимо этого универсальный речевой редактор должен содержать технический подкласс ручной разметки (сегментации) сигнала на акустически и/или фонетически значимые фрагменты. Границы сегментов отображаются на экране вместе с сигналом. Эксперт может создавать границы сегментов и их описания или редактировать уже имеющиеся путем установки курсора на нужную позицию в речевом сигнале и/или в его спектральном представлении и нажатия клавиши ввода/коррекции границ. В специальном окне вводится текст описания сегмента. Система также позволяет эксперту размечать форманты в спектральный области путем "рисования" по точкам ломаной траектории на спектре. Точки отмечаются подведением курсора и нажатием правой кнопки мыши.

Объединение в одну оболочку функций автоматической обработки сигнала и его ручного редактирования или коррекции данных о сигнале позволяет наладить автоматизированную процедуру разметки пакета сигналов на акустические сегменты, в которой черновая разметка производится автоматически при загрузке сигнала, а работа эксперта состоит в верификации и коррекции данных, полученных автоматическим путем.

Базовый класс операций содержит основные операции, которые наиболее часто используются при работе с речевым сигналом, такие как функции кратковременной средней энергии и среднего количества пересечений нуля, подсчет спектра по сигналу с использованием различных окон (Хемминга, Нателла и

-12-

др.), сигнала по спектру, передискретизация, цифровая фильтрация и т.п.

Базовую операцию можно исполнить путем задания системе команды через пользовательский интерфейс, например, для визуализации и последующих наблюдений. Другой способ - это формирование запроса к системе на выполнение цепочки базовых и/или пользовательских операций над заданным объектом в форме интерфейсной макрокоманды или в виде последовательности вызовов (API базового уровня) внутри пользовательской программы (до обращения к пользовательскому методу или после его завершения). Функция вычисления спектра является выделенной в базовом уровне и может инициироваться не только перечисленными выше способами, но и путем задания специального флага в структуре описания объекта при передаче его в пользовательский метод или на выходе из пользовательской программы при порождении методом нового объекта.

Любой метод может сигнализировать системе о том, какие действия необходимо предпринять после своего завершения (построение спектра в оттенках серого, перерисовка объекта и т.п. Метод может породить новый объект, который по умолчанию наследует свойства родителя и синхронизируется с ним. Пользователь избавляется от необходимости управлять объектом вне его метода. Все функции по созданию, уничтожению и визуализации объекта берет на себя система.

Также к базовым операциям относится пакетная обработка, когда заданный набор операций (в том числе и небазовых) применяется к последовательности объектов. Пакетная обработка может быть как автоматической, так и диалоговой, во время которой предоставляется возможность по управлению процессом. Также для упрощения работы имеется возможность создания макросов (последовательностей интерфейсных операций), и применения их к любому объекту.

Пользовательский класс операций принципиально ничем не отличается от базового, и в этом смысле может рассматриваться как его подкласс. Пользовательские операции реализуются конкретным пользователем в виде отдельных

-13-

программ (динамических библиотек), а затем подключаются к системе как методы. Отдельные пользовательские операции могут быть переклассифицированы в базовые из-за их широкого распространения в работе коллектива разработчиков и исследователей над определенной тематикой или конкретным речевым проектом.

Системный класс операций - это набор интерфейсных процедур для программистов, реализующих операции из пользовательского класса, но нуждающихся в дополнительном сервисе во избежание лишней рутины. Например, если поставлена задача по построению гистограммы некоторой характеристики объекта, представляющего собой волну. Удобно в "волновом" окне для визуализации объекта отобразить саму волну, а под ней в "спектральном" окне отобразить построенную гистограмму, потребовав от системы обеспечения корректной синхронизации между ними. Системные операции позволяют легко решать подобные задачи путем заполнения соответствующих данных в структуре объекта.

В работе описывается разработанный автором метод выделения основного тона говорящего (ОТ) с определением во временной области речевого сигнала моментов смыкания голосовых связок при фонации (МСГС). Этот метод является примером пользовательского метода, переведенного в базовый класс. Метод основан на энергетических соображениях, при этом обладает достаточной устойчивостью и вычислительной простотой.

Пусть Е„ =х,*хп мгновенная энергия сигнала, где х„ - п-тый отсчет речевого сигнала. Тогда энергия, усредненная на длине к отсчетов:

<£„> = (X *Х. +... +Л;+* *Х„,ь)/к. (1)

Последнее выражение представляет собой одну из реализаций фильтра низких частот в применении к квадрату исходного сигнала. Для поиска точек МСГС применяется процедура поиска локальных минимумов в сигнале, полученном путем применения полосового фильтра в области частот основного тона к квадрату исходного сигнала. С целью ускорения работы алгоритма делается замена квадрата на модуль, что не изменяет положение локальных экстрему-

mob. Фильтрация производится после предварительной оценки ОТ говорящего.

Алгоритм поиска точек в речевом сигнале, соответствующих моментам закрытия голосовых связок, в процессе их колебаний при произнесении вокализованных звуков состоит из трех последовательных частей:

1. Оценка частоты ОТ данного речевого сигнала.

2. Настройка фильтра на эту частоту и фильтрация модуля сигнала.

3. Применение процедуры поиска МСГС.

Для оценки частоты ОТ модуль сигнала пропускается через полосовой фильтр 50-150 щ. с крутизной спада характеристики 12 dB на октаву. К полученному сигналу применяется следующая процедура:

1. Находится максимальное значение всего отфильтрованного сигнала -Атах.

2. Выбираются точки, отвечающие двум условиям: а) это локальный минимум; б) модуль амплитуды этой точки отличается не более чем на 10 dB от Атш.

Если возникает последовательность из не менее пяти точек, причем два смежных расстояния отличаются не более чем на 15% (условие периодичности), вычисляется среднее значение для данной последовательности. В результате может получиться несколько средних значений, соответствующих различным вокальным участкам речевого сигнала. Выбираем минимальное из них - соответствующее максимальной частоте ОТ - Fh. После этого настраиваем полосовой фильтр на полосу пропускания 50 - Fh гц и фильтруем модуль исходного сигнала. Если ограничиться только выделением частоты ОТ, то удобно использовать фильтр с большой крутизной спада - например, рекурсивный эллиптический фильтр 5-го порядка с подавлением -30dB, после применения которого получается синусоподобный выходной сигнал с одним локальным минимумом на длине периода ОТ. Однако в случае выделения для МСГС такой подход не годится - проявляются значительные фазовые задержки в выходном сигнале относительно входного. Применение обратнонаправленной фильтрации лишь частично улучшает ситуацию. При использовании усредненной мгновенной энергии (1) в значительной степени снимаются проблемы фазовых задержек, т.к. это нерекурсивный низкочастотный фильтр с линейной фазовой характери-

-15-

стикой. Однако поскольку крутизна спада характеристики полосы пропускания таких фильтров гораздо ниже, выходной сигнал после фильтрации приобретает "изрезанный" характер, т. е. количество локальных минимумов (JIM) на один период ОТ в нем увеличивается.

Выбор того JIM, который имеет максимум абсолютной амплитуды, не всегда верен, т. к. на процессы в речевом тракте влияет не только последний импульс, пришедший от голосовых связок, но и некоторое количество предыдущих, зависящее от коэффициента затухания в речевом тракте. Для нахождения последовательности JIM применяется следующий алгоритм.

После нахождения очередного JIM, для поиска следующего выделяется область, исходя из допустимых физических соображений о положении следующего JIM. Следующая точка не может находиться ближе чем Dm,„ и дальше чем Dpwx от предыдущей. и Дши выбираются, исходя из максимально и минимально возможных значений частоты ОТ. Кроме того, если на текущем отрезке сигнала выполняется условие периодичности и амплитуда JIM достаточно велика:

порог = -15dB от максимального значения, (2)

то на выбор Дш„ и Dmw. накладываются более сильные ограничения, в силу того, что длина периода ОТ не может измениться в двух соседних периодах более чем на 20%. Имея границы поиска очередной точки, применяем следующий алгоритм для выбора конкретного JIM (который будет служить стартовым на следующем проходе).

Для всех JIM с отрицательным значением амплитуды в выбранных пределах вычисляется весовая функция:

1. Находим разность между текущей позицией (текущего JIM) и стартовой.

2. Находим отношение максимального из полученного значения и предполагаемого к минимальному. Предполагаемое значение равно среднему периоду ОТ на этом участке или текущему периоду ОТ при выполнении условий (2).

3. Если выполняется (2), возводим полученное отношение в квадрат, что дает лучший вес позициям, близким к предполагаемой.

-16-

4. Находим отношение последнего значения и абсолютной амплитуды текущего JIM.

5. Из всех имеющихся JIM выбирается тот, который имеет наименьший вес.

Повторяем все вышеописанные действия с новым стартовым значением, соответствующим последнему найденному ЛМ.

Пусть S1 и S3 - два участка сигнала, причем не предполагается, что их длины равны или близки. Пусть также [О,?) - отображение, ставящее в

соответствие этим участкам неотрицательное вещественное число, причем равенство Fiß'ß1) = 0 означает тождественность участков S1 и S2. Тогда будем говорить, что F является функцией похожести.

Теперь задачу выбора JIM можно сформулировать так: пусть с,_/ и Cj.2 - две последовательные точки МСГС, и пусть 5,- - множество тех локальных минимумов, которые удовлетворяют условиям периодичности для двух последовательных интервалов сигнала

[C,_2,CW] И [cH,Ci], Ci* St.

Тогда будем говорить, что с\е St является лучшим выбором JIM, если arg min , см ], [с,.,, с, ]) = с\

с,es,

Иными словами, должен быть выбран локальный минимум с', который:

• является допустимым в смысле периодичности;

• обеспечивает минимум функции похожести для двух полученных периодов основного тона по множеству всех допустимых локальных максимумов.

Пусть {S'/}, i s [7, Ni] - множество отсчетов на первом интервале, {S^}, i е [1, N2] - на втором. Рассмотрим следующие функции похожести сегментов для достижения стабильности алгоритма:

1. Евклидово расстояние F{S\S1)= JJSj - S,2 ). Главный недостаток этой

¡«0

функции проявляется, когда длины Nj и N2 существенно различаются, так как значительная часть большего интервала не влияет на результат сравнения.

2. Перед вычислением Евклидова расстояния больший по длине интервал

сжимается до размеров меньшего, например, используя линейную передискретизацию. Однако, даже при существенном изменении длин последовательных периодов ОТ их спектральный состав меняется незначительно, а сжатие сигнала на значительную величину существенно искажает его спектральный состав.

3. Пусть N - максимально допустимая длина периода основного тона,

^ю) - его Фурье-преобразование, причем если N1 < Ы, то участок сигнала дополняется необходимым количеством нулей перед выполнением преобразования. Таким способом мы всегда получаем одинаковое количество точек (N/2) для разных по длине интервалов сигнала. Теперь можно ввести функцию похожести как Евклидово расстояние между Фурье преобразования-

У/2-1

ми двух участков сигнала: F(X1,X2)= ^(Х'-Х/)2

(=0

4. Вышеописанные ФП зависят не только от частотного состава сигнала, но и от его энергии. В ситуации нарастания или убывания сигнала меняется только энергия периодов ОТ, а их форма практически сохраняется. В этом случае более естественно использовать независящую от энергии ФП - нормированное скалярное произведение:

т](Х',Х1)* (Х\Х2)

5. ФП, менее чувствительная к изменениям энергии, но учитывающая их так, чтобы избежать ошибок удвоения длины периодов:

А72-1

1-7*ГГ' УМ

Р(Х ,Хг) = , , (Х'Хг \ = —^-5—5-

Тестирование работы алгоритма дало хорошие результаты на большом количестве тестового материала. Принципиальным преимуществом алгоритма по сравнению с известными методами выделения ОТ речевого сигнала, такими как кепстральный и автокорреляционный, является скорость работы алгоритма и возможность выделения МСГС. Последнее крайне важно для спектрального анализа сигнала синхронно с основным тоном. Спектральная картина становится гладкой и отчетливо выраженной, что повышает надежность выделения

формант. Периоды ОТ могут служить временной шкалой для большинства динамических параметров, описывающих сигнал.

Успех разработки каких-либо компонент речевых технологий в огромной степени зависит от наличия обширного тестового и тренировочного материала в виде наборов звуковых файлов с разметкой волны на акустически и фонетически значимые сегменты. Такие наборы называют речевыми базами данных.

В работе представлена методология создания речевых баз данных русского языка. На стадии проектирования речевой базы данных решаются следующие содержательные вопросы:

• дикторы (количество, пол, возраст, диалект, образование,...)

• текстовый / речевой материал (специализированный / репрезентативный, тип речевых образцов: слова, отдельные фразы, тексты, спонтанная речь)

• тип статистической балансировки звуковых единиц языка в текстовом материале (естественный, равномерный, пр.)

• распределение текстового материала по дикторам

• распределение речевого материала на тренировочную, тестовую и другие части

• типы лингвистических аннотаций

Этапы технологического процесса создания речевой базы данных:

• подготовка фонетического обеспечения;

• разработка стандартов для транскрипции речевого сигнала;

• подготовка текстового материала;

• разработка программного обеспечения для формирования речевого корпуса;

• подбор дикторского состава;

• запись речевых фрагментов, произнесенных дикторами;

• проверка качества записи речевых фрагментов;

• создание детальных инструкций по разметке и фонетической интерпретации (транскрипции) речевых сигналов;

• фонетическая верификация речевых фрагментов и их разметка;

• верификация разметки и аннотаций речевого материала, полученных автоматически;

• обработка результатов верификации;

• окончательное формирование речевого корпуса.

На стадии подготовки фонетического обеспечения выбирается транскрипционная система, с помощью которой по тексту предложений, входящих в состав текстового материала базы данных, будет производиться каноническая (ожидаемая при произнесении) транскрипция (фонетическая последовательность). Наличие программ автоматического построения ожидаемой фонетической транскрипции по тексту является крайне важным при построении крупномасштабных речевых баз данных. На стадии подготовки текстового материала такая программа позволяет заранее оценить ожидаемые фонетические характеристики создаваемого речевого корпуса.

Требования, предъявляемые к составу текстового материала, могут иметь различный характер и обычно определяются конкретными задачами, для решения которых формируется речевая база данных. Можно потребовать, чтобы лексический материал удовлетворял некоторым условиям фонетической полноты. Например, чтобы транскрипционное представление набора текстов содержало все допустимые в языке монофоны, и каждый монофон входил бы в этот набор не менее определенного количества раз. Можно рассматривать и другое требование фонетической полноты, характеризующее достаточную представительность аллофонов (то есть монофонов с учетом их правого и левого контекстов) в базе данных. Для удовлетворения такого требования при отборе текстового материала для базы данных предложено применить автоматическую итерационную процедуру фильтрации по фонетическому насыщению.

Для определения вероятности достижения полноты аллофонного состава при проектировании речевой базы данных предложена формула

р„(к) = Спк-рЛ<$ ' (1-рД<х))\ где

рЛа) - априорная вероятность реализации аллофона а при прочтении текстового материала Т среднестатистическим диктором,

-20-

п — количество дикторов, каждый из которых прочитал полностью Т, Л - требуемое количество реализаций аллофона а в базе данных. Априорная вероятность реализации аллофона рХа) может быть получена из фонетических знаний о процессах речеобразования путем сложения весовых функций правил транскрибирования, которые могут приводить к порождению заданного аллофона. Если задана требуемая вероятность наличия в базе данных не менее к реализаций аллофона а, то для ее достижения можно подобрать необходимое количество дикторов согласно этой формуле.

Пусть текстовый материал Т подобран так, что в нем при каноническом произнесении среднестатистическим диктором аллофон а присутствует к раз с вероятностью р '(а). Тогда оценку необходимого количества дикторов п можно получить из формулы

ра=>п-рХа)-(1-р'(а)У

Процесс формирования речевых баз данных представляет собой последовательность определенных технологических этапов, большинство из которых невозможно выполнить без соответствующей автоматизированной поддержки. В работе дается описание комплекса программных средств, который реализует такую автоматизацию и состоит из следующих программ:

• автоматизация отбора текстового материала с учетом фонетического насыщения и аллофонной фильтрации,

• потоковая запись дикторов с автоматическим контролем качества записи,

• автоматизированное рабочее место эксперта для верификации и разметки речевых фрагментов,

• набор технических программ для подсчета статистики вхождений монофонов, Трифонов и аллофонов, выдачи протоколов по результатам верификации, корректировки информационных полей и т.п.

Одним из наиболее весомых практических результатов, полученных при использовании описанных выше методов, методологий и инструментальных средств, явилось создание под руководством автора двух речевых баз данных русского языка ШАВАЙЕ и КиБреесЬ.

гаАВАЭЕ аналогична известной американской речевой базе данных Т1М1Т по типу аннотаций, мощности и фонетическому насыщению. В составе базы 2 набора прочитанных текстов - фонетически сбалансированный и фонетически репрезентативный. Вместе с каждым речевым фрагментом хранится текст, фонетическая транскрипция, ручная разметка сигнала на слова и фонемы, транскрипционная система состоит из 110 монофонов.

Речевой корпус КиБреесИ занимает более 15 гигабайт и содержит более 50 часов фонетически аннотированной непрерывной речи и обеспечивает полное монофоное покрытие для каждого диктора и полное аллофонное покрытие для корпуса в целом (не менее 3-х реализаций каждого аллофона) со статистически естественным языковым распределением частотности аллофонов. Вместе с каждым речевым фрагментом хранится текст, каноническая транскрипция и фактическая фонетическая последовательность, выверенная экспертами, транскрипционная система состоит из 114 монофонов.

Таблица 1. Характеристики русского речевого корпуса ISABASE.

Тип речевого материала Дискретная речь Дикторы/речевые фрагменты Общий объем

Текстовый материал 1 Фонетически сбалансированный набор из 500 коротких предложений, монотематический 5 дикторов-мужчин и 4 диктора-х<енщины; 1863 фрагмента 4653 речевых фрагмента; 3713 слов;

2 Фонетически репрезентативный набор предложений, взятых из литературных текстов; политематический 15 дикторов-мужчин и 14 дикторов-женшин 3280 фрагмента

Таблица 2. Дикторское и текстовое наполнение корпуса Ruspeech.

Тип речевого материала Состав фрагментов Дикторы/ фрагменты

Непрерывная речь; моносигнальный 50 часов записи; 30 СБ, более 15 вЬ; > 50000 фрагментов 237 дикторов; 127 мужчин и 110 женщин разного возраста

1.Фонетически сбалансированный набор политематический 70 предложений, обеспечивающих полное (>3 раз) мо-нофонное покрытие; 203 диктора: 111-ми 92-ж; каждое предложение произнесено всеми дикторами;

2.Фонетически репрезентативный (на аллофоном уровне) набор предложений, взятых из газетных и новостных текстов на шггернет-сайтах; политематический 3060 предложений, обеспечивающих полное покрытие аллофонов из репрезентативного набора, 203 диктора: 111-ми 92-ж по 180 предложений выборочно; каждое предложение 14 дикторами;

2000 фонетически разнообразных предложений; 20 дикторов: 10-м и 10-ж по 200 предложений выборочно; каждое произнесено 1 дикт.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИОННОЙ РАБОТЫ

1. Проведены исследования современных методов построения систем визуализации, редактирования и обработки речевых сигналов, средств отладки и настройки алгоритмов распознавания и синтеза речи, анализ потребностей разработчиков речевых технологий в инструментах для их развития, анализ существующих подходов к формированию речевых баз данных.

2. Предложена и математически обоснована концепция открытой инструментальной системы визуализации, анализа, исследования и редактирования речевых сигналов, не требующей модификации при добавлении новых методов и алгоритмов, в основе которой лежит формальное описание модели унифицированного объекта речевых технологий. Разработанный подход систематизирует и существенно упрощает процессы разработки алгоритмов и создания программ в области речевых технологий.

3. Разработан метод выделения основного тона говорящего с определением временных границ смыкания голосовых связок, предложены механизмы анализа речевого сигнала на фреймах, синхронных с основным тоном говорящего, повышающие устойчивость выделения признаков.

4. Предложена методология создания речевых баз данных с ожидаемыми фонологическими характеристиками, дано математическое определение фонетической полноты речевых баз данных. Разработан и реализован комплекс программных средств для создания речевых баз данных, включающий автоматизацию процессов подготовки текстового материала, накопления, верификации и разметки речевых фрагментов.

5. Под руководством автора и с использованием разработанных им методов и программных средств созданы две крупные речевые базы данных русского языка, которые являются важным инструментом в развитии речевых технологий.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ.

1. Богданов Д.С., Кривнова О.Ф., Подрабинович А.Я. «Современный инструментарий для разработки речевых технологий». Информационные технологии и вычислительные системы, № 2,2004, с. 11-24.

2. Арлазаров В.В., Богданов Д.С., Брухтий A.B., Подрабинович АЛ. «Программное обеспечение для формирования речевых баз данных». // Труды Института системного анализа Российской академии наук «Организационное управление и искусственный интеллект», М., Эдиториал УРСС, 2003, с. 259-266.

3. Богданов Д.С., Брухтий A.B., Кривнова О.Ф., Подрабинович А.Я., Строкин Г.С. «Технология формирования речевых баз данных». //Труды Института системного анализа Российской академии наук «Организационное управление и искусственный интеллект», М., Эдиториал УРСС, 2003, с. 239-258.

4. Акимова Г.П., Богданов Д.С., Мусатов И.В., Пашкин М.А., Соддатов Д.В., Сомин Н.В. Современные автоматизированные технологии обработки разнородных информационных потоков // Труды Института системного анализа Российской академии наук «Организационное управление и искусственный интеллект», М., Эдиториал УРСС, 2003, с. 219-238.

5. Богданов Д.С., Брухтий А. В., Подрабинович АЛ., Усков A.B. Язык описания сценария диалога для речевого управления // Сборник трудов ИСА РАН «Развитие безбумажной технологии в организационных системах», М., Эдиториал УРСС, 1999, с. 47-61

6. Арлазаров B.JI., Богданов Д.С., Паклин МЛ., Розанов А., Финкелыптейн ЮЛ. Инструментальная система для исследования и обработки речевых сигналов и создания речевых баз данных. // Сборник трудов ИСА РАН «Интеллектуальные технологии ввода и обработки информации». М., Эдиториал УРСС, 1998, с. 27-38.

7. Арлазаров ВЛ., Богданов Д.С., Розанов А., Финкелыптейн IO.JI. Методы выделения периодов основного тона в речевом сигнале. // Сборник трудов ИСА РАН «Интеллектуальные технологии ввода и обработки информации». М., Эдиториал УРСС, 1998, с.15-26.

8. Богданов Д.С., Кривнова О.Ф., Подрабинович АЛ., Фарсобина В.В. База речевых фрагментов русского языка ISABASE. // Сборник трудов ИСА РАН «Интеллектуальные технологии ввода и обработки информации». М., Эди-

-24-

ториал УРСС, 1998, с.74-85.

9. Акимова Г.П., Богданов Д.С., Босов А.В., Даниленко А.Ю., Ерохин В.И., Корольков Г.В. Реализация защищенного хранилища данных и электронного документооборота при интегрированной аналитической обработке разнородной информации // Системы высокой доступности. №4, 2007, т.З. М.: Радиотехника, 2007, с.33-42

Ю.Богданов Д.С., Подрабинович А.Я. «Опыт создания речевых баз данных в ИСА РАН», Труды 1-ой Международной конференции «Системный анализ и информационные технологии» (САИТ-2005), 12-16 сентября 2005 г., г. Пе-реславль-Залесский.

11.V.L.Arlazarov, D.S.Bogdanov, O.F.Krivnova, A.Ya.Podrabinovitch "Creation of Russian Speech Databases: Design, Processing, Development Tools", Proceedings of 9th International Conference "SPEECH AND COMPUTER", 20-22 September 2004, Saint-Petersburg, Russia.

12.Komissarchik Edward; Arlazarov Vladimir; Bogdanov Dimitry; Finkelstein Yuri; Ivanov Andrey; Kaminsky Jacob; Komissarchik Julia; Krivnova Olga; Kronrod Mikhail; Malkovsky Mikhail; Paklin Maxim; Rozanov Alexander; Segal Vladimir; Zinovieva Nina "Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals", United States Patent # 5,799,276 August 25, 1998

13.Свидетельство о регистрации базы данных «База речевых фрагментов русского языка IS ABASE» (№ Государственной регистрации RU 229803411)

Подписано в печать:

08.10.2013

Заказ № 8842 Тираж - 100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Текст работы Богданов, Дмитрий Степанович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

Федеральное государственное бюджетное учреждение науки Институт системного анализа Российской академии наук

На правах рукописи

Богданов Дмитрий Степанович

Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий

Специальность 05.13.01 -Системный анализ, управление и обработка информации (информационно-вычислительное обеспечение)

Диссертация

СО на соискание ученой степени

^ кандидата технических наук

СМ 2

Научный руководитель - чл.-корр. РАН Арлазаров В.Л.

Москва 2013

Содержание

Список условных обозначений и сокращений 5

Введение 6

Глава 1. Обзор состояния речевых технологий и анализ существующих

инструментальных средств для их разработки 13

1.1. Факторы развития речевых технологий..............................................13

1.2. Речевой ввод/ввод как развитие человеко-машинных интерфейсов...........................................................................................15

1.2.1. Речевой канал ввода/вывода......................................................15

1.2.2. Прикладные аспекты использования речевого интерфейса...................................................................................17

1.3. Современное состояние речевых технологий в мире........................19

1.4. Современное состояние исследований в России и предложений речевых технологий для русского языка....................22

1.5. Научные подходы в распознавании речи...........................................26

1.6. Обзор современных инструментальных средств для исследования речи и разработки речевых технологий......................29

1.6.1. Звуковые редакторы....................................................................29

1.6.2. Специальные редакторы для исследования речевых

файлов...........................................................................................34

1.6.3. Выводы по результатам обзора средств анализа и визуализации речевых данных..................................................38

1.7. Проблема речевых баз данных: определения, классификация, обзор существующих речевых корпусов............................................39

1.7.1. Речевые базы данных - необходимый элемент разработки речевых технологий....................................................................39

1.7.2. Определения и классификация речевых баз данных...............41

1.7.3. Проблемы создания и унификации речевых корпусов...........43

1.7.4. Обзор существующих речевых корпусов русского языка......46

1.8. Выводы...................................................................................................52

Глава 2. Методы создания инструментальных средств для исследования

речевых сигналов и разработки речевых технологий 53

2.1. Предварительные рассуждения для постановки задачи обработки, анализа и визуализации речевых сигналов.....................53

2.2. Инструментальная система для исследования и обработки речевых сигналов и создания речевых баз данных...........................53

2.2.1. Архитектура системы.................................................................55

2.2.2. Унифицированное описание объекта........................................56

2.2.3. Классы операций.........................................................................61

2.2.4. Технический класс......................................................................61

2.2.5. Базовый класс..............................................................................62

2.2.6. Пользовательский класс.............................................................66

2.2.7. Системный класс.........................................................................67

2.2.8. Подсистема ручной сегментации сигнала................................67

2.3. Метод выделения периодов основного тона в речевом

сигнале....................................................................................................70

2.3.1. Инженерный подход к анализу вокальных участков речевого сигнала.........................................................................70

2.3.2. Суть метода..................................................................................74

2.3.3. Описание алгоритма...................................................................75

2.3.4. Проблема выбора локальных минимумов................................79

2.3.5. Использование метода................................................................81

2.3.6. Результаты тестирования метода..............................................82

2.4. Инструменты для построения речевого диалога в системах с речевым управлением...........................................................................83

2.4.1. Сценарий речевого диалога с компьютером............................84

2.4.2. Язык описания сценария............................................................87

2.4.3. Программная реализация речевого диалога.............................95

Глава 3. Методы создания и использования речевых баз данных для

развития речевых технологий 97

3.1. Технология создания речевых корпусов.............................................97

3.1.1. Требования к составу речевой базы данных............................98

3.1.2. Проблемы реализации требований фонетической

полноты и сбалансированности речевой базы данных.........100

3.2. Программное обеспечение для формирования речевых баз данных..................................................................................................101

3.2.1. Потоковая запись дикторов для формирования речевого корпуса.......................................................................................102

3.2.2. Автоматизированное рабочее место эксперта для верификации и разметки речевых фрагментов......................106

3.2.3. Обработка результатов верификации.....................................108

3.2.4. Корректировка полей информационного файла....................109

3.2.5. Подсчет количества вхождений монофонов и Трифонов.....110

3.3. Практические результаты - разработка речевых корпусов русского языка.....................................................................................111

3.3.1. Описание речевого корпуса IS ABASE...................................Ill

3.3.2. Описание речевого корпуса RuSpeech....................................113

Заключение: выводы по результатам исследования 120

Список литературы 122

Список условных обозначений и сокращений

БПФ - быстрое преобразование Фурье

ДПФ - дискретное преобразование Фурье

ГС - голосовые связки

JIM - локальный минимум

МСГС - момент смыкания голосовых связок

ОТ - основной тон

ASR (automatic speech recognition) - автоматическое распознавание речи SDB (speech data base) - речевая база данных TTS (text-to-speech) - синтез речи по тексту

Введение

Актуальность темы.

Еще во времена появления первых электронно-вычислительных машин ученые начали заниматься вопросами автоматического распознавания речи, резонно полагая, что речевой интерфейс взаимодействия с ЭВМ обеспечит гораздо более приемлемую скорость работы, чем обмен закодированными текстовыми командами и сообщениями, не говоря уже о его естественном характере. За годы исследований был разработан широкий спектр методов и компьютерных программ для решения проблем распознавания речи и синтеза речи.

90-е годы прошлого столетия ознаменовались этапом бурной эйфории от быстрых успехов в области речевых технологий. Связано это было с одной стороны со значительным увеличением производительности компьютеров и объемов хранения данных, а с другой, с появлением математических статистических методов классификации признаков и распознавания объектов, дающих быстрый рост качества распознавания. На сегодняшний день этот этап сменился этапом кропотливой и методичной работы, связанной с развитием возникших новых направлений в исследовании речи. Эта область исследований оформилась структурно, и еще более очевидной стала проблема наличия универсального инструментария разработчика речевых технологий.

Актуальность темы диссертационного исследования обусловлена необходимостью анализа потребностей и разработки универсальных инструментальных средств для развития речевых технологий, которые позволили бы снизить трудозатраты при создании речевых систем путем автоматизации рутинных процедур и повысили бы их качество, предоставив исследователям и разработчикам необходимые ресурсы для настройки, анализа и отладки систем.

В сложившейся на сегодня структуре исследования речи и разработки речевых систем наиболее актуальными так же являются вопросы создания отладочных стендов, автоматизации процессов сбора речевых баз данных и их разметки на фонологические единицы для алгоритмов статистического анализа, визуализации цифровых речевых сигналов и результатов их обработки, выделения признаков, пакетной обработки больших объемов данных.

Следует также отметить, что сегодняшние достижения в области речевых

технологий демонстрируются в основном для английского языка, а также ряда европейских, японского и китайского языков. Очевидно, что, эти достижения связаны с высоким уровнем инвестиции в развитие речевых технологий для этих языков благодаря их высокой распространенности, востребованности и ожидаемой быстрой окупаемости. В то же время речевые технологии для русского языка развиваются гораздо медленнее, при том, что русский язык является одним из самых популярных языков мира и на нем говорит свыше двадцати процентов населения Европы. Изменить положение русского языка в сфере речевых технологий в лучшую сторону может наличие инструментов для изучения особенностей русского языка и речи, проявляющихся в процессе обработки и распознавания. Среди трудностей следует отметить такие особенности русского языка, как отсутствие строгих грамматических конструкций построения предложений, многочисленные правила словообразования и фонетического представления слов, расстановки ударений с большим количеством исключений и т.п. В связи с этим, важнейшим фактором, влияющим на развитие речевых технологий русского языка, является создание крупных речевых баз данных русского языка.

Предмет исследования и цели диссертационной работы.

Объектом исследования является речевой интерфейс человека с компьютером. Предмет исследования - методы создания инструментальных средств для разработки элементов речевого интерфейса человека с компьютером.

Целями исследования являются:

• разработка унифицированных инструментальных средств автоматической обработки, анализа и визуализации речевых сигналов;

• разработка методов создания речевых баз данных и их реализация путем создания пакета программ для автоматизации сбора и разметки крупных речевых баз данных для систем распознавания и синтеза речи русского языка.

Для достижения указанных целей были поставлены и решены следующие основные задачи:

т

1

• исследование существующих методов цифровой записи, анализа, обработки и визуализации речевых сигналов;

• исследование существующих речевых баз данных и методов их создания, классификация речевых баз данных;

• определение архитектуры и состава инструментальных средств для автоматизации процессов анализа речевых сигналов и создания систем распознавания и синтеза речи;

• разработка формальной модели унифицированного речевого фрагмента, как объекта автоматического анализа и его визуальных представлений;

• разработка инструментальных средств автоматической обработки, анализа и визуализации речевых сигналов;

• разработка методов создания речевых баз данных русского языка с заданным фонетическим и текстовым наполнением;

• реализация комплекса программ для автоматизации процессов создания речевых баз данных;

• создание речевых баз данных с фонетической разметкой для разработки систем распознавания речи русского языка.

Методы исследований.

Для решения поставленных задач в работе используются методы теории информации, теории множеств, методы математического анализа, методы цифровой обработки сигналов, теории распознавания образов, теории вероятностей, экспертного и статистического анализа. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Научная новизна.

Наиболее существенные результаты и научная новизна диссертационной работы состоят:

• в разработке концепции построения и реализации открытой инструментальной системы анализа и исследования речевых сигналов, которая обеспечивает разработчика речевых технологий базовыми средствами анализа и визуализации речевых сигналов и не требует модификации

при добавлении новых методов и алгоритмов;

• в теоретическом обосновании и разработке формального описания модели унифицированного объекта речевых технологий, включающее собственно речевой сигнал и все возможные формы его представления, которое систематизирует и упрощает процессы разработки алгоритмов и создания программ в области речевых технологий;

• в разработке метода выделения основного тона говорящего с определением временных границ смыкания голосовых связок;

• в разработке методологии и реализации комплекса программных средств для создания речевых баз данных с ожидаемыми характеристиками полноты и частотности фонологических характеристик.

Обоснованность и достоверность научных положений

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет тщательного анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, алгоритмов и согласованностью результатов, полученных при компьютерной реализации, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы.

Практическая значимость исследования состоит в разработке комплекса программных средств и создании крупных речевых баз данных русского языка с различными фонологическими характеристиками. При создании указанного инструментария использовались теоретические положения диссертационной работы. Созданный инструментарий активно используется учеными, разрабатывающими методы и алгоритмы автоматического распознавания и синтеза речи, математиками-программистами для создания систем распознавания и синтеза речи, а так же специалистами в области фонетики русского языка для исследований речевых сигналов, изучения процесса речеобразования и проведения других фонетических исследований. Важную роль созданный инструментарий играет в процессах обучения студентов в курсах фонетики, лингвистики,

искусственного интеллекта, речевых технологий.

Апробация работы.

Основные положения и результаты диссертационной работы представлялись на следующих международных конференциях:

IX Международная конференция «Речь и Компьютер» INTAS workshop SPECOM'2004 (Санкт-Петербург, 2004)

I Международная конференция «Системный анализ и информационные технологии» САИТ-2005, секция «Интеллектуальные информационные технологии», Переяславль-Залесский, 2005;

Основные результаты были представлены в докладе на заседании сессии "Распознавание речи" Отделения информационных технологий и вычислительных систем РАН в октябре 2003 г.

Исследования были поддержаны грантом РФФИ (проект № 02-07-90454 «Формирование речевой базы данных русского языка»).

Список опубликованных работ по теме диссертации.

1. Богданов Д.С., Кривнова О.Ф., Подрабинович А .Я. «Современный инструментарий для разработки речевых технологий». Информационные технологии и вычислительные системы, № 2, 2004, с. 11-24.

2. Арлазаров В.В., Богданов Д.С., Брухтий A.B., Подрабинович А .Я. «Программное обеспечение для формирования речевых баз данных». // Труды Института системного анализа Российской академии наук «Организационное управление и искусственный интеллект», М., Эдиториал УРСС, 2003, с. 259-266.

3. Богданов Д.С., Брухтий A.B., Кривнова О.Ф., Подрабинович А.Я., Стро-кин Г.С. «Технология формирования речевых баз данных». //Труды Института системного анализа Российской академии наук «Организационное управление и искусственный интеллект», М., Эдиториал УРСС, 2003, с. 239258.

4. Акимова Г.П., Богданов Д.С., Мусатов И.В., Пашкин М.А., Солдатов Д.В., Сомин Н.В. Совремные автоматизированные технологии обработки разнородных информационных потоков // Труды Института системного анализа

Российской академии наук «Организационное управление и искусственный интеллект», М., Эдиториал УРСС, 2003, с. 219-238.

5. Богданов Д.С., Брухтий А. В., Подрабинович А.Я., Усков A.B. Язык описания сценария диалога для речевого управления // Сборник трудов ИСА РАН «Развитие безбумажной технологии в организационных системах», М., Эдиториал УРСС, 1999, с. 47-61

6. Арлазаров В.Л., Богданов Д.С., Паклин М.Л., Розанов А., Финкелын-тейн Ю.Л. Инструментальная система для исследования и обработки речевых сигналов и создания речевых баз данных. // Сборник трудов ИСА РАН «Интеллектуальные технологии ввода и обработки информации». М., Эдиториал УРСС, 1998, с. 27-38.

7. Арлазаров В.Л., Богданов Д.С., Розанов А., Финкелынтейн Ю.Л. Методы выделения периодов основного тона в речевом сигнале. // Сборник трудов ИСА РАН «Интеллектуальные технологии ввода и обработки информации». М., Эдиториал УРСС, 1998, с. 15-26.

8. Богданов Д.С., Кривнова О.Ф., Подрабинович А.Я., Фарсобина В.В. База речевых фрагментов русского языка ISABASE. // Сборник трудов ИСА РАН «Интеллектуальные технологии ввода и обработки информации». М., Эдиториал УРСС, 1998, с.74-85.

9. Акимова Г.П., Богданов Д.С., Босов A.B., Даниленко А.Ю., Ерохин В.И., Корольков Г.В. Реализация защищенного хранилища данных и электронного документооборота при интегрированной аналитической обработке разнородной информации // Системы высокой доступности. №4, 2007, т.З. М.: Радиотехника, 2007, с.33-42

Ю.Богданов Д.С., Подрабинович А.Я. «Опыт создания речевых баз да