автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов

кандидата технических наук
Зилинберг, Андрей Юрьевич
город
Санкт-Петербург
год
2010
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов»

Автореферат диссертации по теме "Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов"

На правах рукописи

Зшшнберг Андрей Юрьевич

РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМОВ МНОГОУРОВНЕВОЙ ВРЕМЕННОЙ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ

Специальность 05.13.01 «Системный анализ, управление и обработка информации (в технике и технологиях)»

2 5 НОЯ 2010

Автореферат диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2010

004614214

Работа выполнена на кафедре бортовой радиоэлектронной аппаратуры Государственного образовательного учреждения высшего профессионального образования «Санкт-Петербургский государственный университет аэрокосмического приборостроения» (ГУАП)

Научный руководитель:

кандидат технических наук, с.н.с., доцент Корнеев Юрий Алексеевич Официальные оппоненты:

доктор технических наук, профессор Петров Павел Николаевич кандидат технических наук Кисляков Сергей Викторович

Ведущая организация: ООО «Центр речевых технологий»

Защита состоится « Т » рАМр 2010 г. в 14 час. 00 мин. на заседании диссертационного совета Д 212.233.бз^при Государственном образовательном учреждении высшего профессионального образования "Санкт-Петербургский государственный университет аэрокосмического приборостроения" по адресу: 190000, г. Санкт-Петербург, ул. Большая Морская, д. 67.

С диссертацией можно ознакомиться в библиотеке ГУАП Автореферат разослан «._[_>> НО^Л 2010 г.

Ученый секретарь диссертационного совета

д. т. н., профессор

Л. А. Осипов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Аюуальность темы. Современный этап научно-технического прогресса невозможно представить без использования речевых технологий. «Палитра» речевых устройств и программ предоставляет самые разнообразные функциональные возможности пользователю: от управления персональным компьютером до включения зажигания двигателя автомобиля голосом.

На сегодняшний день задачи анализа речи, автоматической обработки речевых сигналов (РС), синтеза новых алгоритмов составляют отдельное фундаментальное научно-исследовательское направление, находящееся на стыке самых разнообразных наук таких, как лингвистика, психоакустика, статистический анализ, цифровая обработка сигналов, теория распознавания образов и др.

На всем протяжении истории развития алгоритмов обработки речи проводились исследования с целью выделить в РС интервалы (сегментировать речь) в соответствии с языковыми единицами - фонема, морфема, слово и т.д. Современные методы сегментации опираются на теорию кластерного анализа. Они используют такие таксоны как речевые сегменты, аллофоны, дифоны, трифоны. Однако в этом случае возникает не менее сложная проблема соотношения сегментных единиц из РС с лингвистическими единицами, а также их интерпретации с помощь ЭВМ. Успешная реализация данной задачи, особенно фонемной сегментации, позволила бы разработать новые приложения и модернизировать существующие, взаимодействие которых с человеком не отличалось бы от естественного. Однако непосредственно фонемная сегментация русской речи в силу сложности природы РС на сегодняшний день является недостаточно проработанной и не позволяет реализовать в полной мере сегментацию РС с требуемым качеством для широкого круга практических приложений.

Необходимым условием на пути к созданию новых алгоритмов обработки речи (речевых технологий) является разработка системного подхода к задаче автоматической сегментации речевого сигнала, которая является актуальной и требует комплексного исследования в данной области.

Цепью работы является разработка и исследование алгоритмов многоуровневой временной сегментации (МВС) речевых сигналов.

Основные задачи: Для достижения цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

1) Провести анализ существующих алгоритмов сегментации речевых сигналов, а также частных «базовых» алгоритмов, входящих в структуру МВС.

2) Исследовать структурные особенности и характеристики речевых сегментов.

3) Разработать иерархическую классификацию типовых структурных элементов РС.

4) Разработать комплексную структуру временной автоматической сегментации РС.

5) Разработать алгоритмы многоуровневой временной сегментации речевых сигналов:

• алгоритм обнаружения голосовой активности,

• алгоритмы анализа структуры речевого сигнала с использованием корреляционного и спектрального подходов,

• алгоритмы оценки периода основного тона.

Методы исследования. При выполнении диссертационных исследований и разработок использовались: методы системного анализа, математической статистики, обработки временных рядов, кластерного анализа, теории распознавания образов.

Научная новизна. В процессе выполнения исследований были получены следующие научные результаты:

1) Предложена обобщенная иерархическая модель речевого сигнала,

2) Разработан системный подход к реализации многоуровневой автоматической временной сегментации речи.

3) Разработан алгоритм определения участка голосовой активности (УАВ-алгоритм) в речевом сигнале, позволяющий сегментировать сигнал на участки активности и пауз.

4) Разработаны алгоритмы анализа структуры речевого сигнала с использованием корреляционного подхода для задачи многоуровневой временной сегментации.

5) Разработаны алгоритмы определения периода основного тона с использованием структурных методов анализа речевых сигналов, для синхронной с периодом основного тона разметки вокализованных сегментов.

Практическая значимость. Разработанная иерархическая модель РС и «базовые» алгоритмы сегментации речевого сигнала на основе исследовательского программного обеспечения позволяют:

1) Разрабатывать прикладное программное обеспечение для детального анализа и автоматической сегментации РС.

2) Разрабатывать алгоритмы сегментации речи с использованием фонетических кластеров: фонем, аллофонов, дифонов и др.

3) Формировать параметрическое описание временных сегментов РС для дальнейшего использования в алгоритмах обработки речи широкого круга задач (связь, 1Р-телефония, системы распознавания и др.).

4) Разрабатывать новые методы обработки речи, учитывающие особенности внутренней структуры РС.

Основные положения, выносимые на защиту:

1) Структура многоуровневой временной сегментации речевых сигналов, использующая обобщенную иерархическую модель речевого сигнала.

2) Алгоритм определения голосовой активности для сегментации речи на участки пауз и речевой активности.

3) Корреляционный алгоритм сегментации речевого сигнала по типовым временным сегментам.

4) Алгоритмы оценки периода основного тона речи, использующие структурные методы анализа речевых сигналов.

Внедрение результатов работы. Основные результаты работы использованы в разработках ЗАО «НПП «Иста-Системс», а также в учебном процессе кафедры бортовой

радиоэлектронной аппаратуры Санкт-Петербургского государственного университета аэрокосмического приборостроения. Внедрение результатов работы подтверждено соответствующими актами.

Апробация результатов работы. Основные положения и результаты диссертации докладывались и обсуждались на следующих научных конференциях:

1) научные сессии ГУАП (г. Санкт-Петербург, 2005,2006,2007,2008,2009);

2) международные научные конференции на базе Таганрогского государственного радиотехнического университета («ЦМТ-2005», «ИТ-2006», «ИСС-2008», «СМИ-2009»);

3) XII Международная научно-техническая конференция студентов и аспирантов МЭИ (г. Москва, 2006);

4) школе-конференции «Мобильные системы передачи данных» Московского Института Электронной Техники (г. Зеленоград, 2006);

5) межвузовские научно-технической конференции «Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов», ВМИРЭ, (Санкт-Петербург, 2008,2009);

6) конференции "Проблемы современных инфотелекоммуникаций" Санкт-Петербургского государственного университета телекоммуникаций имени проф. М.А. Бонч-Бруевича (г.Санкт-Петербург, 2008).

Публикации. По теме диссертации опубликовано 21 печатная работа, в том числе одна - в издании, рекомендованном ВАК РФ.

Структура работы. Диссертационная работа состоит из введения, четырех разделов, заключения, списка использованных источников, включающего 90 наименований, и трех приложений. Общий объем работы составляет 164 страницы, включая 127 страниц основного текста, 75 рисунков и три приложения.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулирована цель и аргументирована научная новизна диссертационной работы, а также представлены основные положения, выносимые на защиту.

В первом разделе осуществлен аналитический обзор публикаций по автоматическому анализу и сегментации речевых сегментаций, а также «базовым» алгоритмам, которые входят в состав МВС.

Сложная структура речевого сигнала требуется разного подхода к обработке временных сегментов, входящих в него, поэтому выделение в речи «типовых» участков и временная разметка РС являются необходимыми при реализации современного речевого приложения (РП), которое показано в виде обобщенной блок-схемы на рис.1. В составе РП можно выделить три блока: алгоритм оценки параметров (структурно входящий в состав алгоритма сегментации), собственно алгоритм сегментации, функциональный алгоритм (реализующий функцию данного речевого приложения). Как видно из рисунка, алгоритм сегментации, состоящий из комплекса «базовых» алгоритмов, является важным «связующим звеном» между исходным речевым сигналом и конкретным функциональным алгоритмом, поэтому от «качества» реализации сегментации в итоге зависит реализация функционального алгоритма.

Рис.1. Блок-схема реализации речевого приложения В этом же разделе приводится краткое описание основных существующих подходов к реализации алгоритмов сегментации, производится их классификация, а также характеризуются их особенности использования.

В состав алгоритм сегментации (бл.2) входит ряд «базовых» алгоритмов (технологические алгоритмы) оценки параметров, без которых невозможна реализация МВС [1,3, 4]. К ним в первую очередь относятся: алгоритмы определения речевой активности в сигнале или VAD-алгоритмы (Voice Activity Detection) [2], а также алгоритмы оценки периода основного тона [17,18]. В этом же разделе приводится краткий обзор и классификация,

используемых и разрабатываемых «базовых» алгоритмов в настоящее время, а также их характеризация, с точки зрения использования для задач временной сегментации РС.

Во втором разделе приведено описание иерархической многоуровневой модели представления речевого сигнала, в которой учитываются и типизируются возможные варианты структуры речевых сегментов, для каждого из уровней МВС [5, 6, 8]. Первый уровень в данной модели состоит из трех типов кластеров: вокализованные, шумовые, взрывные. Такая таксономия на первом (грубом) этапе сегментации позволяет полностью представить РС. Сегменты, обладающие признаками нескольких классов, классифицируются в соответствии с доминирующими характеристиками. Необходимо отметить, что данный способ классификации является гибким и непротиворечивым (существующим), т.к. допускает возможное непосредственное совпадения кластеров (групп кластеров) с фонетическими единицами. Важно отметить, что разбиение на фонемы (фонемная сегментация) не для всех функциональных алгоритмов является необходимым условием для реализации, более значимым для речевых приложений является сегментация, в основе которой лежит учет характерных структурных особенностей речевых сегментов.

Каждый класс сегментов фонограммы обладает своими особыми параметрами и характеристиками. Интервалы в фонограмме, которые характеризуются отсутствием речевой активности, относятся к дополнительному классу - пауз. Наиболее многообразной и значимой является группа сегментов, относящихся к вокализованным кластерам (В-кластерам), которые составляют порядка 70...75% в русской речи, поэтому для В-кластерной группы необходимым является использование индивидуальной таксономии, которая образует второй уровень МВС, позволяющий реализовать точную детальную сегментацию РС.

В данном разделе также разрабатывается порядок обработки РС необходимый при реализации МВС. Алгоритм (под алгоритмом в данном контексте, понимается комплекс «базовых» алгоритмов) многоуровневой сегментации состоит из следующих операций:

1) Первый этап сегментации РС включает следующие алгоритмические процедуры:

• определение речевой активности говорящего - УАБ-алгоритм,

• после определения активных участков фонограмм обработка РС заключается в разметке фонограммы в соответствии с классификацией речевых сегментов. Данная процедура может осуществляться как специализированными частными алгоритмами, ориентированными на обнаружение речевых сегментов конкретных типов, так и одним «универсальным» алгоритмом, позволяющим выделять признаки каждой кластерной группы, а следовательно осуществлять грубую сегментацию. Одним из достаточно простых, но эффективных способов определения В-, П-, Вз-сегментов, является использование корреляционной или спектральной обработки, реализуемой на коротких временных интервалах (10... 15мс),

2) Второй этап сегментации РС заключается в анализе В-сегментов на интервалах близких или равных периоду ОТ и параметрическому описанию последних. Кластер ОТ может характеризоваться наличием трех компонент: «фундаментальной» НЧ-компоненты, всегда присутствующей в В-сегментах, и двух дополнительных - шумовой и формантной компоненты, которые могут присутствовать на интервале ОТ как вместе, так и по отдельности. Параметры, оцениваемые для этих компонент в каждом ОТ-кластере, показаны на блок-схеме рис.2.

Детальный анализ ОТ-кластеров и отнесение их к соответствующим классификационным типам, позволяет объединять смежные ОТ-кластеры в последовательности, близкие по характеристикам. Такие группы являются самостоятельными единицами - кортежами ОТ-кластеров, и делает возможным компактно описывать РС, включая и поведение вектора параметров ОТ-кластеров во времени. Например, кортеж ОТ-кластеров может быть трендующим, стационарным или на нем может присутствовать «разладка» характеристик ОТ-кластеров. Как правило, в состав кортежа входит несколько - от 2-х.. .3-х до 20.. .30 ОТ-кластеров.

В третьем разделе рассматриваются вопросы по разработке «базовых» алгоритмов для каждого из уровней МВС.

Первый этап сегментации РС в соответствии с описанной в предыдущем разде-

ле структурой многоуровневой временной сегментации включает в себя определение сегментов типа: «Пауза», «Взрывной», «Шумовой», «Вокализованный».

Рис.2. Детализация состава алгоритмов обработки вокализованных сегментов (ОТ-кластеров)

Обнаружение «пауз» осуществляется с помощью VАО-алгоритма, участки РС «инверсные» активности, являются сегментами типа «Пауза». Необходимо отметить, что в материалах диссертационной работы V АО-алгоритм, рассматривается с общепринятого в научно-технической литературе его «целевого» назначения: обнаружения участков речевой активности (а не «Пауз»).

При разработке алгоритма определения речевой активности рассмотренные в первом разделе варианты реализаций алгоритмов УАО не использовались по следующим причинам: неудовлетворительная работа алгоритма при наличии в РС фоновых помех; необходимость использования для задачи сегментации высокоточных

алгоритмов VAD; требование мощных аппаратно-вычислительных средств для реализации алгоритмов.

Для решения задачи определения активности в РС в составе МВС был разработан новый алгоритм VAD (рис.3,4) [7, 16]. Обозначения, используемые в блок-схеме алгоритма VAD: х[п]~ отсчеты РС,

у [я] - отсчеты РС после предварительной ВЧ-фильтрации (частота среза ВЧ-фильтра составляет 60-90Гц),

Lon - интервал оценивания «средней мощности» РС (длина интервала 2,5...7 мс),

Y [s ]- среднее значение модуля отсчетов РС на интервале s,

Y0-базовое пороговое значение,

Купр - коэффициент управления порогом,

У аамЛп]- отсчеты РС с речевой активностью говорящего,

У отсчеты РС, соответствующие паузам.

Как упоминалось выше, задачей верхнего уровня МВС является определение типовых временных сегментов. В качества аппарата анализа фонограммы для данного уровня МВС использовалась временная последовательность выборочных корреляционных функций (коррелограмма) [9, 11]. Текущая выборочная корреляционная функция R (k, s) на интервале 5 рассчитывалась согласно:

R(k, s) = X x(Ns + p)x(Ns + p + k)f o

где к - задержка (аргумент ВКФ),

s - текущий интервал анализа (s=l...L, где L целое число интервалов N, укладывающихся на длине фонограммы ),

х(.) - текущий отсчет фонограммы, N- длина интервала анализа.

Характеристики выборочных корреляционных функций (ВКФ) и качественные относительные диапазоны их изменения для сегментации по результатам исследования осциллограмм ВКФ для разных типовых сегментов представлены в таблице 1.

Отсчеты фонограммы

(2)

ФНЧ

(Трансверсальный интерполирующий фильтр)

(3

Г \

и " " 1

)

Предварительная ВЧ-фильтрации фонограммы

-!уи!

т

Формирование порога

■ {|у[п]|)

(6)

1=Е

(6)

Гистограмма

У

иаи Од)

(7)

Блок анализа гистограммы и формирования «базового» порога

/¡V«)

I

-¡УМ!

(8)

ПУ

Управление Л порогом, Купр

(9) >

Блок выходных данных

Рис.3. Блок-схема алгоритма УАО

V 1

Я •> • 1 ;; | Гктнрнв ;

ЩГтю!' '■ |

I

Ш зШе" »и« V» |

■Н

шшштШтшяШтШЖшш^шт^шш яш^шшш^^^шштт

жшшятщ

ШШШШШвШШШШШШШШ

Ж

а) б)

Рис. 4. а) Анализируемая гистограмма (увеличенный масштаб). Левый экстремум гистограммы обусловлен дисперсией шума (паузами) на фонограмме, б) Результаты работы V АО-алгоритма. Временной строб показывает автоматически определенный участок речевой активности

№ Параметр Тип сегмента

«Пауза» «Шумовой» «Взрывной» «Вокализованный»

1 Дисперсия текущая, Ь (5) Малое Среднее Среднее Большое

2 Интервал корреляции текущий, г* (А) Малое Малое Среднее Большое

3 Структура к (;>) Апериодическая Апериодическая Релаксационная Апериодическая

4 Характер временного рада |Ь(л-)| Постоянный или малый «тренд» Постоянный или малый «тренд» Флюктуирующий Флюктуирующий

5 Особенности выборочной КФвряду (М)} Структура повторяется Структура повторяется Максимальное значение флюктуирует Флюктуирует амплитуда и форма

6 Длительность временного сегмента Большая Средняя Малое Большая

Вокализованные сегменты составляют важную группу кластеров при реализа-

ции МВС. Классификация последних по подгруппам производится в зависимости от наличия или отсутствия типовых компонент на интервале одного периода ОТ (низкочастотной, шумовой, взрывной, которые подробно характеризуются в Разделе 2 диссертационной работы) и составляет нижний уровень МВС. Однако для анализа ОТ-кластеров необходима разметка вокализованных сегментов по периодам ОТ, для этой задачи в рамках диссертационного исследования были разработаны структурные алгоритмы оценки периода ОТ [14].

Суть разработанных временных структурных алгоритмов заключается в измерении каждого значения периода ОТ на исходной, «немодифицированной» фонограмме. Структурные методы оценки периода ОТ «привязывают» итоговое измерение периода к некоторым характерным периодически повторяющимся особенностям

структуры речевого сигнала, существующим на интервале ОТ-кластера (к примеру: максимальному экстремуму; точке пересечения через нуль и др.). В результате работы такого алгоритма возможна разметка РС по кластерам ОТ, а также формирование текущей оценки периода ОТ по фонограмме. Методы данной подгруппы являются эффективным инструментом, используемым в алгоритмах временной сегментации, при реализации разметки РС на периоды ОТ.

Алгоритмы оценки периода ОТ, разработанные в рамках данной работы для многоуровневой временной сегментации, состояли из двух основных методов определения длины периода ОТ, использующих структурные методы анализа речевых сигналов:

• алгоритм проверки гипотез о числе однознаковых кластеров (ОЗК) на периоде ОТ. Под термином ОЗК понимается группа отсчетов РС с одинаковым знаком на периоде ОТ,

• алгоритм проверки гипотез по числу кластеров монотонности (КМ). Кластер монотонности образуется группой отсчетов РС с одинаковым знаком конечной разности на периоде ОТ.

Реализация структурного метода оценки периода ОТ с использованием ОЗК-ов представлена в виде блок-схемы на рис.5. Структурный анализ речевого сигнала состоит из следующих операций:

• аналого-цифровое преобразование речевого сигнала (бл.1),

• осуществление НЧ-фильтрации (бл.2),

• клиппирование фильтрованного речевого сигнала (бл.З),

• формирование «размеченной» по однознаковым кластерам фонограммы для рассматриваемой гипотезы (бл.4),

• вычисление метрики для анализируемой гипотезы о внутренней структуре ОТ-кластера (бл.5). В этом же блоке для всех проверяемых гипотез производится: сравнение метрик по рассматриваемым гипотезам; формирование решения о внутренней структуре ОТ-кластера,

• итоговая разметка фонограммы на кластеры ОТ (бл.6). Вся процедура проверки гипотез при переходе к оценке следующего периода ОТ повторяется

заново.

(1) (2) <3)

Рис. 5. Блок-схема алгоритма проверки гипотез о числе ОЗК на интервале ОТ-кластера Важной задачей при реализации такой группы алгоритмов является выбор метрики. Исследовались три варианта формирования метрики для проверки гипотез о структуре речевого сигнала на интервале ОТ-кластера:

1) Метрика, формируемая по объединенным сегментам. Для двух выровненных по длительности сегментов РС, соответствующих кортежам ОЗК данной гипотезы, рассчитывается среднее нормированное к длине сегмента значение модуля разностной функции:

Ь*пт\п) и!

крт\") 2)

где А - номер проверяемой гипотезы,

г - номер отсчета временного сегмента, образованного последовательностью ОЗК данного кортежа,

Ькрт(К) - дайна кортежа для данной гипотезы,

/¿„(г,/г), /*рт(1,И) - сегменты РС первого и второго кортежей соответственно.

2) Метрика, формируемая по частным сегментам. Для каждой пары ОЗК в двух соседних кортежах рассчитывается модуль разностной функции:

МР,с(и)= ЦЛГО, «"/¿¡"С.

где /г - номер исследуемой (проверяемой) гипотезы,

г - номер отсчета в л-ом ОЗК /г-го кортежа, ¿озк (п, Ь.) - длина п-то ОЗК А-го кортежа,

'('.»О. /,'!„"'('."О^ сегменты РС и-ых ОЗК первого и второго кортежей соответственно,

п - номер ОЗК в кортеже ОЗК для данной гипотезы.

Итоговая метрика по частным сегментам находиться следующим образом:

где Ытк(И) - число ОЗК в кортеже для А-ой гипотезы,

МРцс - модуль разностной функции для п-ого ОЗК /г-го кортежа.

3) Метрика, формируемая по параметрам ОЗК. При расчете данной метрики в двух соседних кортежах формируется вектор параметров для каждой пары ОЗК. Размерность вектора параметров и состав его компонент могут быть различными, и выбираются разработчиком алгоритма. Например, возможен такой состав вектора параметров ОЗК:

а) максимальный (по модулю) отсчет ОЗК,

б) среднее значение отсчетов ОЗК,

в) площадь кластера,

г) временная протяженность ОЗК.

Функция модуля разности для двух параметров ОТ кластеров рассчитывается следующим образом:

где Итр - число компонент вектора параметров,

Р(п, а) - ¿-параметр и-го ОЗК,

А - номер проверяемой гипотезы,

Иозк - число ОЗК в кортеже для Ь-ой гипотезы.

Итоговая метрика, формируемая по параметрам ОЗК, является средним нормированным модулем разности одноименных компонент векторов параметров:

"ожС").

I |мя,,с(„)| И •=]_

_

ожСО '

2

(5)

нсмр^и-Ю* I

где ] - номер ОЗК на левой границе кортежа,

МРпарам ~ модуль разности вектора параметров для я-го ОЗК.

Пример работы алгоритма оценки периода ОТ с использованием ОЗК показаны рис.6. В нижних координатных осях показаны графики изменения текущего значения метрики для 4-х рассматриваемых гипотез.

'3.33

¿¡да 'Ж':0

I 1

I

( )!

ш

.и1

РТИ'!!5"1

I к 1

^гаШуии

и

41:

, 15 10

Рис. 6. Результаты работы алгоритма оценки периода ОТ (сегмент слова «Береза») с использованием ОЗК

Вторым подходом к оценке периода ОТ на основе анализа структуры речевого сигнала, является алгоритм, использующий кластеры монотонности. Важной особенностью данного метода является лучшая (большая) помехоустойчивость алгоритма к низкочастотным наводкам, присутствующим в РС (по сравнению с алгоритмом, использующим ОЗК). При этом под кластером монотонности понимаются сегменты РС, для которого знак первой конечной разности является постоянным на данном сегменте речевого сигнала. Блок-схема такого алгоритма соответствует представленной на рис.5 структуре за исключением следующих блоков:

• «клиппирование фильтрованной фонограммы» необходимо заменить блоком «оценка приращения фильтрованной фонограммы» (аналог бл.З на рис.5),

• «формирование ОЗК» необходимо заменить блоком «формирование КМ» (аналог бл.4 на рис.5).

Метрика, используемая в качестве проверки гипотез о числе КМ на периоде ОТ, рассчитывается аналогично выражениям (4), (5). При этом в качестве параметров КМ выбираются следующие:

• знак производной КМ: отрицательный (КМ(-)) и положительный (КМ(+)) кластер монотонности,

• разнос минимального и максимального значения КМ,

• временная протяженность КМ.

Разметка РС на периоды ОТ с использованием КМ показана на рис.7.

/ 1 А ! Л Л 1 Л / \ .../'.. V / д

.'л 1 / .1...../.Л-л \ 7 Н т л

\ / \ 1 \ 1 \ /'

. ..1 1 ; \ ' \ / V/ "

Л 7 ! 1 1 ' 1 1

- ЯМ ' ЗИМ " ТЖИ ' ' _ «И ; ' ШОЬ ' ШнЙ 1ВЛП >?Ш1

Рис.7. Результаты работы алгоритма оценки периода ОТ с использованием кластеров монотонности (КМ) (сегмент слова «Андрей»). Вертикальные маркеры обозначают главные КМ, с которых начинается период ОТ

В данном разделе также подробно рассматриваются вопросы параметрического описания компонент ОТ-кластеров:

• НЧКОТ (низкочастотная компонента ОТ-кластера),

• ФКОТ (формантная компонента ОТ-кластера),

• ШКОТ (шумовой компоненты компонента ОТ-кластера),

и детализируются вопросы алгоритмического выделения, параметрического описания и представления компонент ОТ-кластера.

1) Варианты возможного описания НЧКОТ-кластера следующие: а) с использованием экстремальных (каркасных) точек (расстояния по времени между экстремумами определяются структурой ОТ-кластера и не равны ме-

жду собой),

б) с использованием каркасных точек и промежуточных точек для увеличения точности представления ОТ-кластера. Промежуточные точки, например, могут располагаться посредине между окаймляющими экстремальными точками,

в) с использованием «кодовой книги». В этом случае для описания ОТ-кластера используются шаблоны кривых, их номера и размеры вертикальной и горизонтальной проекций сегментов ОТ-кластеров,

г) полиномиальная аппроксимация кластера по каркасным точкам,

д) сплайн-аппроксимация ОТ-кластера по каркасным точкам.

2) Варианты возможного описания ФКОТ-кластера следующие:

а) последовательностью однознаковых подкластеров ,

б) использование статистической параметризации при описании ФКОТ-кластеров, где в качестве параметров используются следующие:

• Афк - амплитуда формантной компоненты,

• Тфк - период формантной компоненты.

3) Описания ШКОТ-кластера можно представить:

ШКОТ (/, к) -Аш (/, к)пф (г, к ) (7)

где: АШ(Ц) - модулирующая функция шумовой компоненты к-го кластера, "ф ('- ^) - «фильтрованный» шум с заданной корреляционной функцией, ; - номер дискрета на интервале ОТ-кластера, г = [0,..., 1т], к - номер ОТ-кластера, В четвертом разделе обсуждаются вопросы точности сегментации и улучшения «базовых» алгоритмов с учетом их особенностей.

Результаты исследования работы алгоритма УАО на фонограммах, описанного в Разделе 3, показали уверенное обнаружение границ речевой активности (при визуальной верификации), но при этом точность обнаружения не всегда являлась достаточной и составляла несколько интервалов Ьоц, в то время как максимально возмож-

ная достижимая точность при работе разработанного алгоритма УМ) составляет один интервал Ьоц. Детальное исследование работы алгоритма показало, что «правильное» обнаружение интервалов активности говорящего, особенно при наличии фонового шума в сигнале, возможно в случае, когда коэффициент управления порогом Купр в выражении:

Пакт—^О

8)

принимает значения в диапазоне от 2...8), однако при высоких значениях Купр уменьшалась точность определения начала/конца речевой активности. В случае, когда необходима высокая точность сегментации, значение коэффицента Купр необходимо выбирать 1...2, т.е. когда Пакт~ У0 («базовому порогу»). Решением проблемы «точность-надежность V АО-алгоритма» является возможное использование дополнительной обработки фонограммы, повышающей точность работы алгоритма УАО при малых значениях Ку„р , а также в условиях наличия фонового шума в РС и шумовых сегментов в начале/конце слова. Дополнительный уровень обработки УАО может быть реализован с использованием:

• повторной (рекуррентной) логической обработки принятых решения о наличие/отсутствии речи на кратковременном интервале анализа РС,

• анализа изменения знаков отсчетов речевого сигнала на кратковременном временном интервале РС (анализа функции среднего пересечения через ноль) или знаковой корреляционной функции на скользящем окне.

В этом же разделе рассматриваются особенности корреляционной обработки РС при реализации МВС: формирование последовательности выборочных корреляционных функций по фонограмме осуществляется одна за другой («блоковый анализ сигнала»). В связи с тем, что интервал анализа длиной N выбирается априорно на первом этапе обработки РС, то вследствие этого разбиение на интервалы анализа в фонограмме реализуется не синхронно с началом периода основного тона. На кор-релограмме (последовательности ВКФ) такое разбиение приводит к появлению ви-

зуалыюй «ступенчатости» между столбцами, ухудшающей дальнейшую обработку РС, а также затрудняющую анализ образа коррелограммы, при исследовании корреляционных методов обработки РС. В диссертации подробно анализируются причины появления этой ошибки, а также возможные пути ее уменьшения.

Другой особенностью корреляционного анализа РС является возникновение ошибки при определение периода ОТ, в ситуации, когда на интервале периода ОТ в структуре ВКФ имеются экстремумы, сопоставимые по значению с «главными» максимальными экстремумами (под главным экстремумом понимается экстремум, соответствующий нулевому сдвигу ВКФ).

Для уменьшения влияния «побочных» экстремумов могут быть введены подходящие нелинейные преобразования, позволяющие так изменить ВКФ, что «побочные» экстремумы будут существенно уменьшены.

К таким нелинейным преобразованиям относятся преобразования, исключающие средние по величине отсчеты фонограммы и выделяющие некоторое множество экстремальных отсчетов для последующей обработки. Блок-схема алгоритма предварительной нелинейной обработки фонограммы представлена на рис.8.

(1) (3) (4)

Рис.8. Блок-схема алгоритма предварительной нелинейной обработки фонограммы В результате исследования «базовых» алгоритмов оценки периода ОТ с использование структурных особенностей РС (Раздел 3) был выявлен ряд свойств данных

алгоритмов, которые можно использовать при реализации МВС и которые также рассматриваются в данном разделе.

Обработка речевого сигнала с целью обнаружения разладок и трендов временной функции

Е.чок ашиюа амплитудно-структурных трендов и рииадок

ФВЧ ФНЧ

з

Векторная интерполяция векторов отсчетов ОТ-кластаров

Вычисление метрики для «соседних»

периодов ОТ (средний модуль разности вектороа):

Т.Ц)

м-™.® - гг„®)'" 1ЛЛ1Г111XII. л • »4-1) I '-1 «

«И

Оценивание длительности периодов ОТ на интервале анализа (Локальный алгоритм оценки ОТ) 1

«Разметка» РС ло периодам ОТ

Г"

фвч

ФНЧ

7/"

а

Векторная интерполяция векторов отсчетов ОТ-кяастероа

Вычисление метрики для «соседних»

периодов ОТ (средний модуль разности векторов):

т.(|)

1-1 «ем»

»0

Блок анализа структурных трендов и разладок

С

Анализ значений «разностной» метрики на интервале анализа 11

К

С Тренд

( Разладка

ФОРМИРОВАНИЕ РЕШЕНИЙ О ВРЕМЕННОЙ СТРУКТУРЕ РС (Сегментация РС)

Рис.9. Структура алгоритма обработки речевого сигнала с целью обнаружения разладок и трендов временной функции

Полезной особенностью подходов к обработке РС, реализованных в структурных методах, является способность обнаруживать разладки процессов, а также определять наличие трендов параметров в речевом сигнале, путем анализа значений метрик [21}. Анализ трендов и разладок для сегментации РС можно производить, использую следующие модифицированные (выражение (6)) метрики: • амплитудно-структурная метрика (или структурно-амплитудная), позволяющая анализировать, как амплитудные изменения ОТ-кластеров (анализ изменения огибающей РС), так и изменения структуры РС:

1 гот(Л

77-777 с,./-Ц

Тот О К, О) ТТ

где ТотЦ) - длительность /-го ОТ-кластера,

Асрф - средняя амплитуда группы вокализованных кластеров (группа состоит из 2-3 периодов ОТ), вычисленная на скользящем временном интервале для ^ го ОТ-кластера.

структурная метрика для анализа изменения структуры РС:

2 т,„и) М1тр0)=~ — £

* от ) 1-1

10)

где Хпмх(у) - максимальный отсчет на интервале 7-го ОТ-кластера, Последовательность операций при обработке речевого анализа с целью обнаружения разладок и трендов временной функции показана на рис.9, в виде блок-схемы алгоритма обнаружения трендов и разладок временной функции.

В заключении приводятся основные результаты диссертационной работы и приведены рекомендации по перспективным направлениям дальнейших исследований в области сегментации речевых сигналов.

В приложениях приведено описание исследовательского программного обеспечения, разработанного в рамках диссертационной работы; примеры типовых речевых сегментов; описание использования разработанных методов сегментации фонограммы в новом алгоритме модификации темпа произнесения [15].

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Реализация разнообразных речевых приложений невозможна без учета многовариантной структуры звуков в речевом сигнале и его сегментации. Проведен сравнительный анализ работы существующих алгоритмов сегментации речевых сигналов, а также «базовых» алгоритмов (алгоритмов УАЭ и алгоритмов определения периода основного тона), входящих в состав комплекса алгоритмов многоуровневой временной сегментации.

2. Предложена многоуровневая иерархическая модель речевого сигнала. Разработана на основе системного подхода структура комплекса алгоритмов сегментации речевого сигнала, детализированы требования к алгоритмам необходимым д ля ее реализации.

3. Разработан и исследован алгоритм определения участков голосовой активности и пауз в речевом сигнале, необходимый при реализации верхнего уровня МВС.

4. Предложен и исследован алгоритм, использующий корреляционную обработку речевого сигнала для задачи определения временных границ типовых речевых сегментов (Решение о типе сегмента принимается в результате анализа последовательности выборочных корреляционных функций).

5. Разработаны и исследованы алгоритмы определения периода основного тона, использующие структурные методы анализа речевого сигнала и позволяющие производить оценку каждого периода ОТ.

6. Разработанные алгоритмы исследовались в серии экспериментов на базе разработанного прототипного программного обеспечения, в ходе которых особенности работы «базовых» алгоритмов МВС. Сформулированы рекомендации по модификации алгоритмов с целью повышения точности и надежности сегментации PC.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Зилинберг А.Ю. Технологические алгоритмы обработки фонограмм / А.Ю. Зи-линберг, Ю.А. Корнеев // Пятьдесят восьмая студенческая научно-техническая конференция ГУ АЛ: тезисы докладов - СПб: ГУАП, 2005. - С. 55-59.

2. Зилинберг А.Ю. Алгоритмы обнаружения речевой активности: временной и спектральный подходы / А.Ю. Зилинберг, Ю.А. Корнеев // Пятьдесят восьмая студенческая научно-техническая конференция ГУАП: тезисы докладов. - СПб: ГУАП, 2005.-С. 59-63.

3. Зилинберг А.Ю. Технологические и функциональные алгоритмы обработки фонограмм / C.B. Анголов, А.Ю. Зилинберг, Ю.А. Корнеев // Международная научная конференция «Цифровые методы и технологии»: материалы международной научной конференции. - Таганрог: ТРТУ, 2005. - 4.2. - С. 33-43.

4. Зилинберг А.Ю. Алгоритмы многоуровневой сегментации фонограммы / А.Ю. Зилинберг, Ю.А. Корнеев // Двенадцатая ежегодная международная научно-техническая конференция студентов и аспирантов "Радиоэлектроника, электротехника и энергетика": сборник тезисов докладов. - М.: МЭИ, 2006.

5. Зилинберг А.Ю. Разработка алгоритмов временной сегментации речевых сигналов: системный подход / А.Ю. Зилинберг, Ю.А. Корнеев // Научная сессия ГУАП. - СПб: ГУАП, 2006. - Ч. 1.Технические науки. - С. 152-156.

6. Зилинберг А.Ю, Разработка алгоритмов автоматической сегментации фонограмм / А.Ю. Зилинберг, Ю.А. Корнеев // Научная сессия ГУАП. - СПб: ГУАП, 2006. - Ч. 1 .Технические науки. - С. 156-160.

7. Зилинберг А.Ю. Разработка и исследование временных и спектральных алгоритмов VAD (Voice Activity Detection) / А.Ю. Зилинберг, Ю.А. Корнеев // Российская школа-конференция «Мобильные системы передачи данных», с 11 по 17 сентября 2006 г. - Москва (г.Зеленоград): МИЭТ, 2006. - С. 58-70.

8. Зилинберг А.Ю. Системный подход к разработке алгоритмов многоуровневой временной сегментации речевых сигналов / А.Ю. Зилинберг, Ю.А. Корнеев // Международная научная конференция "Информационные технологии в современном мире": материалы международной научной конференции. - Таганрог: ТРТУ, 2006. - С. 27-45.

9. Зилинберг А.Ю. Применение корреляционной обработки для иерархической сегментации речевых сигналов / А.Ю. Зилинберг, Ю.А. Корнеев // «Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов»: сборник докладов. - СПб: ВМИРЭ, 2008. - С. 44 - 58.

10. Зилинберг А.Ю. Разработка и исследование методов многоуровневой сегментации речевых сигналов в приложении к задачам связи и цифровой телефонии / А.Ю. Зилинберг // Двенадцатая Санкт-Петербургская ассамблея молодых ученых и специалистов. - СПб: Изд-во РГГМУ, 2007. - С. 67.

11. Зилинберг А.Ю. Обработка изображений коррелограммы в алгоритмах иерархической сегментации речевых сигналов / А.Ю. Зилинберг, Ю.А. Корнеев // Научная сессия ГУАП. - СПб: ГУАП, 2008. - 4.2: Технические науки. - С. 19 - 22.

12. Зилинберг А.Ю. Варианты реализации иерархической сегментации речевых сигналов / А.Ю. Зилинберг, Ю.А. Корнеев // Научная сессия ГУАП. - СПб: ГУАП, 2008. - 4.2: Технические науки. - С. 15-19.

13. Зилинберг А.Ю. Методы реализации многоуровневой временной сегментации речевых сигналов / А.Ю. Зилинберг, Ю.А. Корнеев // Межвузовская научно-техническая конференция «Информация, сигналы, системы: вопросы методологии, анализа и синтеза» (ИСС-2008): материалы международной научной конференции. - Таганрог: Изд-во ТТИ ЮФУ, 2008. - ч.4. - С. 27-41.

14. Зилинберг А.Ю. Разработка структурных методов сегментации речевого сигнала на периоды основного тона / A.IO. Зилинберг, Ю.А. Корнеев // «Научно-технические ведомости СПбГПУ» (входит в Перечень ведущих рецензируемых научных журналов и изданий). - СПб: СПбГПУ, 2009. - № 2. - С. 75-79.

15. Зилинберг А.Ю. Высококачественный алгоритм модификации темпа произнесения речи: разработка и апробация / А.Ю. Зилинберг, Ю.А. Корнеев, К.К. Том-чук // Международная научная конференция «Системы и модели в информационном мире» (СМИ-2009): материалы международной научной конференции. -Таганрог: Изд-во ТТИ ЮФУ, 2009. - Ч.З. - С. 80-91,

16. Зилинберг А.Ю. Исследование алгоритмов определения речевой активности говорящего, используемых в задаче многоуровневой временной сегментации / А.Ю. Зилинберг, Ю.А. Корнеев: сборник докладов Научной сессии ГУАП. -СПб: ГУАП, 2009.

17. Зилинберг А.Ю. Разработка и исследование алгоритма оценки периода основного тона для реализации временной сегментации речевого сигнала / А.Ю. Зилинберг, Ю.А. Корнеев: сборник докладов Научной сессии ГУАП. - СПб: ГУАП, 2009.

18. Зилинберг А.Ю. Разметка фонограммы на периоды основного тона методами структурного анализа речевого сигнала / А.Ю. Зилинберг, Ю.А. Корнеев, К.К. Томчук // Сборник докладов 20-й межвузовской научно-технической конференции «Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов». - СПб: ВМИРЭ, 2009.

19. Зилинберг А.Ю. Разработка алгоритмов универсальной временной сегментации речевых сигналов / А.Ю. Зилинберг // Четырнадцатая Санкт-Петербургская Ассамблея молодых ученых и специалистов. - СПб.: Изд-во Политехи, ун-та, 2009.-С. 19.

20. Зилинберг А.Ю. Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов I А.Ю. Зилинберг, Ю.А. Корнеев // Сборник докладов Научной сессии ГУАП. - СПб: ГУАП, 2010.

21. Зилинберг А.Ю. Анализ трендов и разладок структуры ОТ-кластеров вокализованных сегментов речи / А.Ю. Зилинберг, Ю.А. Корнеев, К.К. Томчук // Сборник докладов Научной сессии ГУАП. - СПб: ГУАП, 2010.

Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Тираж 100 экз. Заказ № 506 .

Отпечатано в редакционно-издатеяьском центре ГУАП 190000, Санкт-Петербург, ул. Б. Морская, 67

Оглавление автор диссертации — кандидата технических наук Зилинберг, Андрей Юрьевич

ОГЛАВЛЕНИЕ

ОБОЗНАЧЕНИЯ И АББРЕВИАТУРЫ

ВВЕДЕНИЕ

1. АНАЛИЗ ИССЛЕДОВАНИЙ ПО ПРОБЛЕМЕ АВТОМАТИЧЕСКОЙ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ

1.1. Аналитический обзор публикаций по автоматическому анализу и сегментации речевых сигналов

1.2. Алгоритмы сегментации речевых сигналов

1.2.1. Спектральные алгоритмы сегментации

1.2.2. Алгоритмы сегментации речевых сигналов с использованием вейвлет-преобразования

1.2.3. Корреляционные алгоритмы сегментации

1.2.4. Алгоритмы сегментации на основе анализа временной структуры речевого сигнала

1.2.5. Алгоритмы сегментации речевых сигналов с использованием скрытых цепей Маркова

1.2.6. Алгоритмы сегментации речевых сигналов с использованием нейронных сетей

1.3. Варианты реализации алгоритмов оценки параметров речевых сигналов

1.3.1. Алгоритмы оценки параметров речевых сигналов 1.3.2. Варианты реализации алгоритмов VAD 23 1.3.3. Варианты реализации алгоритмов определения периода основного тона говорящего

1.4. Основные результаты раздела

2. РАЗРАБОТКА ИЕРАРХИЧЕСКОЙ МОДЕЛИ РЕЧИ ДЛЯ РЕАЛИЗАЦИИ МВС. АНАЛИЗ ТРЕБОВАНИЙ К АЛГОРИТМАМ

2.1. Задача сегментации речевого сигнала

2.2. Анализ моделей речевых сигналов как временных функций. Разработка классификации речевых сегментов

2.3. Многоуровневая сегментация речевых сигналов

2.4. Основные результаты раздела

3. РАЗРАБОТКА АЛГОРИТМОВ МНОГОУРОВНЕВОЙ ВРЕМЕННОЙ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ

3.1. Сегментация речевых сигналов верхнего уровня

3.1.1. Разработка УАП-алгоритма

3.1.2. Сегментация по типовым речевым элементам.

Корреляционный подход

3.1.3. Сегментация по типовым речевым элементам.

Спектральный подход

3.2. Сегментация речевых сигналов нижнего уровня ' '

3.2.1. Разработка структурных алгоритмов оценки периода ОТ

3.2.1.1. Структурные алгоритмы анализа вокализованных сегментов

3.2.1.2. Разработка структурного алгоритма оценки периода ОТ с использованием однознаковых кластеров

3.2.1.3. Разработка структурного алгоритма оценки периода ОТ с использованием кластеров монотонности'

3.2.2. Анализ и характеризация ОТ-кластеров РС

3.2.3. Анализ и характеризация кортежей ОТ-кластеров РС.

Обнаружение разладок

3.3. Основные результаты раздела

4. ОСОБЕННОСТИ РЕАЛИЗАЦИИ АЛГОРИТМОВ МНОГОУРОВНЕВОЙ ВРЕМЕННОЙ СЕГМЕНТАЦИИ

4.1. Точность сегментации речевых сигналов. Особенности алгоритмов МВС

4.2. Методы повышения точности работы алгоритма УАЕ)

4.3. Уточнение алгоритма анализа корреляционной структуры периода ОТ -105 АЛ. Повышение точности работы корреляционного алгоритма оценки периода ОТ

4.5. Использование структурных методов анализа ОТ-кластеров вокализованных сегментов для обнаружения разладок и оценки трендов параметров последовательности ОТ-кластеров

4.6. Основные результаты раздела

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Зилинберг, Андрей Юрьевич

Актуальность проблемы. Современный этап научно-технического прогресса невозможно представить без использования речевых технологий. «Палитра» речевых устройств и программ предоставляет самые разнообразные функциональные возможности пользователю: от управления персональным компьютером до включения зажигания двигателя автомобиля. Несмотря на то, что сфера применения алгоритмов обработки речи постоянно расширяется, в настоящее время можно выделить основные направления развития и внедрения разработок:

1) сжатие (компрессия) речи - уменьшение избыточности в речевом сигнале. Основной областью применения подобных алгоритмов являются различные системы связи, в основном с ограниченной полосой пропускания,

2) верификация и идентификация дикторов — определение характеристик голоса говорящего: в первом случае с целью подтверждения его личности, во втором для выделения его из заранее определенной группы людей'(например, работников отдела, лаборатории и др.),

3) распознавание речи - преобразование речевого акустического сигнала в слово, либо последовательность слов,

4) модификация> фонограмм: Данное направление обработки речевых сигналов (РС) включает в себя алгоритмы модификации основных характеристик РС (например, изменение тембра говорящего, спецэффекты, изменение темпа произнесения и др.), а также алгоритмы повышения разборчивости речи, такие как алгоритмы шумоочистки,

5) синтез речи - генерирование речи с помощью ЭВМ для воспроизведения ограниченного числа сообщений из базы (или словаря), а также для машинного чтения текста.

На сегодняшний день задачи анализа речи, обработки РС, синтеза новых алгоритмов составляют отдельное фундаментальное научно-исследовательское направление, находящееся на стыке самых разнообразных научных дисциплин таб ких, как лингвистика, психоакустика, статистический анализ, цифровая обработка сигналов, теория распознавания образов и др.

Важно отметить, что на всем протяжении истории развития алгоритмов обработки речевых сигналов проводились исследования с целью выделить вРС интервалы в соответствии с лингвистическими единицами (фонема, слог, морфема, слово и др.), т.е. сегментировать речь. Успешная реализация данной задачи позволила бы разработать новые приложения и модернизировать существующие, взаимодействие которых с человеком не отличалось бы от естественного. Важно отметить, что программирование машины в соответствии с правилами любого языка является задачей гораздо менее сложной, чем определение из РС этого «алфавита» языка. Однако данный подход в силу сложности природы РС на сегодня-является недостаточно конструктивным и не позволяет реализовать в полной мере сегментацию РС с требуемым качеством для практических приложений. Современные методы сегментации опираются на теорию кластерного анализа. Они используют такие таксоны как речевые сегменты, аллофоны, дифоны, трифоны.и др. Однако в этом случае возникает не менее сложная проблема соотношения- сегментных единиц из РС с фонетическими единицами, а также их интерпретации, с помощь ЭВМ.

Многоуровневая временная сегментация (МВС) является технологией разделения фонограммы на акустически однородные участки1 со «сходными» временными и спектральными характеристиками и их параметризацией. Данная технология-относиться к группе алгоритмов предварительной обработки фонограмм. Использование МВС позволяет определить основные текущие характеристики речи, сформировать вектор параметров речевого сигнала, осуществить классификацию речевых сегментов. Выбор таксономии сегментов является задачей напрямую связанной с конкретной областью применения и может состоять из разного количества иерархически связанных уровней. МВС включает в себя комплекс алгоритмов обработки РС, которые являясь общими для большинства областей применения, позволяют путем "технологических" методов произвести оценку ос

1 «квазистационарные» сегменты речевого сигнала (прим. автора) новных параметров речевого сигнала. Дальнейшее использование вектора параметров зависит от конкретной области применения обработки речи:и осуществляется функциональными алгоритмами. Такой подход, где для каждого сегментированного участка в соответствии с его классификационным признаком (вектором параметров), имеется свой частный алгоритм обработки из библиотеки; является главным достоинством использования МВС, повышающим на качественном уровне работу речевого приложения (частного функционального алгоритма). ,

Цель диссертационной работы является разработка и исследование алгоритмов многоуровневой временной сегментацииречевых сигналов. .

Основные задачи: Для. достижения цели, необходимо в ходе выполнения: теоретических и экспериментальных исследований решить следующие задачи:

1) Провести анализ существующих алгоритмов сегментации речевых сигналов, а-также частных «базовых» алгоритмов, входящих в структуру МВС.

2); Исследовать структурные особенности и характеристики речевых сегментов.

3) Разработать иерархическую классификацию; типовых структурных; элементов* РС.

4); Разработать комплексную структуру временной автоматической сегментации? РС. •

5) > Разработать; алгоритмы многоуровневой временной сегментации речевых сигналов:

• алгоритм обнаружения голосовой активности,

• алгоритмы анализа структуры речевого сигнала с; использованием* корреляционного и спектрального подходов;

• алгоритмы оценки периода' основного тона.

Методы исследования. При выполнении диссертационных исследований и разработок использовались: методы системного анализа, математической статистики^, обработки временных рядов, кластерного анализа; теории-распознавания! образов;

Основные положения, выносимые на защиту: 1) Структура многоуровневой временной сегментации речевых сигналов, использующая обобщенную иерархическую модель речевого сигнала.

2) Алгоритм определения голосовой активности для сегментации речи на участки пауз и речевой активности.

3) Корреляционный алгоритм сегментации речевого сигнала по типовым временным сегментам.

4) Алгоритмы оценки периода основного тона речи, использующие структурные методы анализа речевых сигналов.

Научная значимость. В процессе выполнения исследований были получены следующие научные результаты:

1) Предложена обобщенная иерархическая модель речевого сигнала,

2)-Разработан системный подход к реализации многоуровневой автоматической временной сегментации речи.

3) Разработан алгоритм определения участка голосовой активности (УАО-алгоритм) в речевом сигнале, позволяющий сегментировать сигнал на участки активности и пауз.

4) Разработаны алгоритмы анализа структуры речевого сигнала с использованием^ корреляционного подхода для задачи многоуровневой временной сегментации.

5) Разработаны алгоритмы определения! периода основного ¡тона с использованием структурных методов анализа речевых сигналов, для синхронной с периодом основного тона разметки вокализованных сегментов.

Практическая значимость. Разработанная иерархическая модель РС и «базовые» алгоритмы сегментации речевого сигнала на основе исследовательского программного обеспечения позволяют:

1) Разрабатывать прикладное программное обеспечение для детального анализа и автоматической сегментации РС.

2) Разрабатывать алгоритмы сегментации речи с использованием фонетических кластеров: фонем, аллофонов, дифонов и др.

3) Формировать параметрическое описание временных сегментов РС для дальнейшего использования в алгоритмах обработки речи широкого круга задач (связь, 1Р-телефония, системы распознавания и др.).

4) Разрабатывать новые методы обработки речи, учитывающие особенности внутренней структуры РС.

Внедрение результатов. Основные результаты работы использованы в разработках ЗАО «НПП «Иста-Системс», а также в учебном процессе кафедры бортовой радиоэлектронной аппаратуры Санкт-Петербургского государственного университета аэрокосмического приборостроения. Внедрение результатов работы подтверждено соответствующими актами.

Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на следующих научных конференциях:

1) научные сессии ГУАП (г. Санкт-Петербург, 2005, 2006, 2007, 2008, 2009);

2) международные научные конференции на базе Таганрогского государственного радиотехнического университета («ЦМТ-2005», «ИТ-2006», «ИСС-2008», «СМИ-2009»);

3) XII Международная научно-техническая конференция студентов и аспирантов МЭИ (г. Москва, 2006);

4) школе-конференции «Мобильные системы передачи' данных» Московского Института Электронной Техники (г. Зеленоград, 2006);

5) межвузовские научно-технической конференции «Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов», ВМИРЭ, (Санкт-Петербург, 2008, 2009);

6) • конференции "Проблемы современных инфотелекоммуникаций" Санкт-Петербургского государственного университета телекоммуникаций имени проф. М.А. Бонч-Бруевича (г.Санкт-Петербург, 2008).

Публикации. По теме диссертации опубликовано 21 печатная работа, в том числе одна - в издании, рекомендованном ВАК РФ.

Объем и структура диссертации. Диссертационная работа состоит из введения, четырех разделов, заключения, списка использованных источников, включающего 90 наименований, и трех приложений. Общий объем работы составляет 164 страницы, включая 127 страниц основного текста, 75 рисунков и три приложения. Структура

Заключение диссертация на тему "Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов"

4.6. Основные результаты раздела

В данном разделе диссертационной работы проанализированы особенности алгоритмов, входящих МВС, которые необходимо учитывать при реализации многоуровневой сегментации:

• рассмотрен вопрос усовершенствования (модернизации) алгоритма УАБ, с целью повышения точности его работы,

• детально описывается природа происхождения ошибки, возникающей при формировании последовательности выборочных корреляционных функций, а также указываются способы ее уменьшения,

• уточняется алгоритм обработки при использовании корреляционного алгоритма оценки периода ОТ с применением нелинейного преобразования,

• показана возможность использования «разностных» метрик типа «манхэттен-ской» для детального анализа внутренней структуры РС необходимой при сегментации по типовым речевым сегментам.

ЗАКЛЮЧЕНИЕ

В рамках диссертационной работы были проанализированы существующие принципы и методы сегментации речевых сигналов, детально разработана структура иерархической сегментации речевых сигналов, описано построения прото-типного программного комплекса, реализующего комплексный метод сегментации, проведено моделирование частных алгоритмов МВС в среде МаЛаЬ.

Разработанные принципы сегментации обладают следующими отличительными качествами:

• непротиворечивостью с фонетической системой звуков русской речи,

• полнотой описания речевых сигналов,

• относительной простотой реализации алгоритмов,

• малой ресурсоемкостью алгоритмов при практической реализации на ЭВМ,

• возможностью работы при наличии стационарных фоновых шумов (при ряде ограничений),

• возможностью внедрения в существующие и разрабатываемые новые речевые приложения,

Необходимо отметить, что в рамки данной диссертационной работы не входила разработка функциональных алгоритмов, однако результаты разработки алгоритмов МВС использовались при создании перспективного функционального алгоритма модификации темпа произнесения [90], который более подробно описан в Приложении С.

На сегодняшний день, разработанный комплексный подход к сегментации речевых сигналов с использованием МВС, является наиболее гибким и удобным при обработке РС, обладает существенным преимуществом перед имеющимися, т.к. позволяет использовать разработанные алгоритмы даже в тех речевых приложения, где знание фонетического состава РС не всегда является обязательным (сжатие, модификация характеристик и др.).

Библиография Зилинберг, Андрей Юрьевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Фант Г. Акустическая теория речеобразования: пер. с англ. / Г. Фант; под ред. B.C. Григорьева. М.: Наука,1964. - 284 с.

2. Фланаган JL Анализ, синтез и восприятие речи: пер. с англ. / JL Фланаган; под ред. А. А. Пирогова. М.: Связь, 1968. - 397 с.

3. Грей А. Линейное предсказание речи: пер с англ. / А. Грей, Д. Маркел; под ред. Ю.Н. Прохорова, B.C. Звездина. М.: Связь, 1980. -308 с.

4. Сапожков М.А. Вокодерная связь / М.А. Сапожков, В.Г. Михайлов. М: Радио и связь, 1983. - 248 с.

5. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов / Т.К. Винцюк. Киев: Наук, думка, 1987.:-264 с.

6. Распознавание слуховых образов / под ред. Н. Г. Загоруйко, Н. Г. Волошина. -Новосибирск: Наука, 1966. 338 с.

7. Косарев Ю.А. Естественная форма диалога с ЭВМ / Ю.А. Косарев. JL: Машиностроение. 1989. - 143 с.

8. Потапова Р.К. Речевое управление роботом / Р.К. Потапова. М.: Радио и связь, 1989.-248 с.

9. Златоустова Л.В. Измерение параметров речи / Л.В. Златоустова, В.Г. Михайлов; под. ред. М.А. Сапожкова. -М.: Радио и связь, 1987. 168 с.

10. Златоустова JI.B. Общая и прикладная фонетика / Л.В. Златоустова, Р.К. Потапова, В.Н. Трунин-Донской. М.: МГУ, 1986. - 304 с.

11. Назаров В.М. Методы цифровой обработки и передачи речевых сигналов / В.М. Назаров, Ю.Н. Прохоров. М.: Радио и связь, 1985. - 176 с.

12. Сорокин В.Н. Теория речеобразования / В.Н. Сорокин. М.: Радио и связь, 1985.-312 с.

13. Лукьянцев Н.Ф. Цифровая обработка и передача речи / Н.Ф. Лукьянцев, О.И. Шелухин. М.:Радио и связь, 2000. - 454 с.

14. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу / Г.С. Рамишвили. М.: Радио и связь, 1981.-224 с.

15. Гудонавичус Р.В. Распознавание речевых сигналов по их структурным свойствам Текст. / Р.В. Гудонавичус, П.П. Кемешис, А.Б. Читавичус. Л.: Энергия, 1977. - 64 с.

16. Бондарко Л.В. Звуковой строй современного русского языка / Л.В. Бондар-ко. -М.: Просвещение, 1977. 175 с.

17. Розенберг А. Автоматическая верификация диктора: Обзор / А. Розенберг // ТИИЭР. М.: Мир, 1976. - Т. 64. - № 4. - С. 66-79.

18. Айвазян: €. А;-Прикладная статистика / С.А. Айвазян,.В;М! Бухштабер, И .С. Енюков, Л.Д. Мешалкин. Классификация и снижение размерности. М.: Финансы и статистика, 1989.-607 е.:

19. Зилинберг А.Ю; Технологические алгоритмы обработки фонограмм / А.Ю. Зилинберг, Ю.А. Корнеев // Пятьдесят ' восьмая, студенческая научно-техническая конференция ГУАП: тезисы докладов — СПб: ГУАП, 2005. -С. 55-59.

20. Михайлов ВЛ7. Из истории исследований преобразования речи / В.Г. Михайлов // Речевые технологии. Истра-2: Народное образование, 2008. - №1. — С.93-113.

21. Сорокин В.Н. Сегментация и распознавание гласных / В;Н. Сорокин, А.И. Цыплихин // Информационные процессы. 2004. - Т.4. - № 2. - С. 202-220.

22. Сорокин В.Н. Сегментация речи на кардинальные элементы / В.Н. Сорокин, А.И. Цыплихин//Информационные процессы. 2006. — Т.6. - №3: - С. 177207.

23. Воробьев В.И; Теория и практика.вейвлет-преобразования / В.И. Воробьев, В;Г. Ррибунин СПб- ВУС, 19991 - 204 с.

24. Дремин И.М. Вейвлетыи их использование / И.М. Дремин, О.В; Иванов, В.А. Нечитайло // Успехи физических наук. 2001. - Т.171. - №5. - С. 465-501.

25. Antciperov W.E. A new approach to the problem of word segmentation / W.E. Antciperov, W.A. Morozov, S.A. Nikitov // Proceedings of the 9th International Conference "Speech and Computer" SPECOM'04. St. Petersburg, 2004. - P. 686689.

26. Шевченко А.И. Проблемы сегментации речевого сообщения при построении систем автоматического распознавания речи. Труды Международного семинара Диалог'2000 по компьютерной лингвистике и ее приложениям / Под ред.

27. A.С. Нариньяни Протвино, 2000. — Т.2: Прикладные проблемы. — С. 370-373.

28. Petrushin V.A. Adaptive algorithms for pitch-synchronous speech signal segmentation / V.A. Petrushin // Proceedings of the 9th International Conference "Speech and Computer" SPECOM ' 04. St. Petersburg, 2004. - P. 146-153.

29. Vintsiuk Т.К. Speech Analysis and Recognition Synchronised by One-Quasiperiodical Segmentation / Т.К. Vintsiuk, M.M. Sazhok // Proceedings of the Second International Workshop on Text, Speech, Dialogue TSD'99. Brno, 1999. -P.175-180.

30. Yegnanarayana В. Extraction of vocal-tract system characteristics from speechsignals / B. Yegnanarayana, R.N.J. Veldhuis // Speech and Audio Processing (IEEE). New York, 1998 - Vol. 6, Issue 4. -P.313-327.

31. Рабинер JI.P. Скрытые марковские модели и их применение в избранных приложениях при распознавание речи: обзор / JI.P. Рабинер // ТИИЭР. -1989.-Т. 77.-№2.-С. 86-120.

32. Моттль В.В. Скрытые марковские модели в структурном анализе сигналов /

33. B.В. Моттль, И.Б. Мучник. М.:ФИЗМАТЛИТ, 1999. - 352 с.

34. Чесебиев И.А. Компьютерное распознавание и порождение речи / И.А. Чесе-биев. М.: Спорт и Культура- 2000, 2008. - 128 с.

35. Sjolander К. An HMM-based system for automatic segmentation and alignment of speech / K. Sjolander // In Proceedings of Fonetik 2003. Umea University, 2003.-P. 93-96.

36. Narayanan S. Refined Speech Segmentation for Concatenative Speech Synthesis / S. Narayanan, A. Sethy // Proceedings of ICSLP. Denver (USA), 2002.1. P. 149-152.

37. Galunov G.V. Automatic speech signal segmentation using neural networks / G.V. Galunov, A.F. Kononov, B.A. Smirnov // International workshop SPECOM'2000. -St. Petersburg, 2000.

38. Lee Y. Phoneme segmentation of continuous speech using multi-layer perceptron / Y. Lee, Y. Suh // Proceedings of 4th Int. Conf. Spoken Language (ICSLP-96). -Philadelphia, 1996.-P. 1297-1300.

39. Chang L. Syllable Detection and Segmentation Using Temporal Flow Neural Networks. International Congress of Phonetic Sciences / L. Shastri, L. Chang, S. Greenberg. San Francisco, 1999.-P. 1721-1724.

40. Анголов C.B. Технологические и функциональные алгоритмы фонограмм / С.В. Анголов, А.Ю. Зилинберг, Ю.А. Корнеев, Труды международной научной конференции "Цифровые методы и технологии" (ЦМТ-2005). Таганрог: ТРТУ, 2005. - 4.2. - С. 33-43.

41. Зилинберг А.Ю. Алгоритмы обнаружения речевой активности: временной и спектральный подходы/ А.Ю. Зилинберг, Ю.А. Корнеев // Пятьдесят восьмая студенческая научно-техническая конференция ГУАП: тезисы докладов. -СПб: ГУАП, 2005. С. 59-63.

42. Ravichandran Т. Performance Evaluation and Comparison of Voice Activity Detection Algorithms / T. Ravichandran, K.D. Samy. International Journal of Soft Computing. - 2007. - vol.2. - P. 257-261.

43. Vijayachandran V.M. A Novel Algorithm for Voice Activity Dectection / V.M.

44. Vijayachandran, K.B. Shobha Devi // WSES/IEEE International Multiconference: Speech, Signal and Image Processing. Malta, 2001.

45. Громаков Ю.А. Стандарты и системы подвижной радиосвязи / Ю.А. Грома-ков. М.: Эко-Трендз, 1998. - 240 с.

46. Davis A. Multi-decision sub-band voice actitvity detection for speech enhancement / A. Davis, S. Nordholm, S.Y. Low, R. Togneri // Proceedings of 11th International Workshop on Acoustic Echo and Noise Control (IWAENC2008). Washington, 2008. ,

47. Ramirez J. Efficient voice activity detection algorithms using long-term speech information/ Javier Ramirez et al. // Speech Communication. 2004. - Vol.42. -P. 271-287.

48. Ekstein K. Pavelka T. Entropy And Entropy-based Features In Signal Processing / K. Ekstein, T. Pavelka // 5th International PhD Workshop on Systems and Control a Young Generation Viewpoint. BalatonfTired (Hungary), 2004.

49. Ouzounov A. Robust Features for Speech Detection A Comparative Study / A. Ouzounov // International Conference on Computer Systems and Technologies (CompSysTech). - Varna, 2005. - P.3A.19-1 - 3A.19-6.

50. Калинцев Ю.К. Разборчивость речи в цифровых вокодера / Ю.К. Калинцев. -М.: Радио и связь, 1991. 220 с.

51. Архипов И.О. Оценка точности выделения основного тона методом GS / И.О. Архипов, В.Б. Гитлин // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. -М.: ГЕОС, 1999. С. 38-42.

52. A.B. Аграновский, Теоретические аспекты алгоритмов обработки и классификации речевых сигналов / A.B. Аграновский, Д.А. Леднов. — М.: Радио и связь, 2004. 164 с.

53. Норейка С.Ю. Исследование методов и разработка аппаратуры анализа траекторий основного тона речи: автореф. дис. . канд. тех. наук / С.Ю. Норейка. -Каунас: КПИ, 1983. 22 с.

54. Лунг В.Н. Разработка и исследование способов повышения эффективности передачи и выделения основных параметров речевых сигналов: автореф. дис. . канд. тех. наук / Нгуен Ван Лунг. М.: МЭИС, 1980. - 18 с.

55. Аграновский A.B. Сегментация речи (математическая модель) / A.B. Аграновский, Д.А. Леднов, Б.А. Телеснин // Информационные технологии. -1998.-№9.-С. 24-28.

56. Методы автоматического распознавания речи: в 2-х книгах: пер. с англ. / под ред. У. Ли. М.: Мир, 1983. - Кн. 1. - 328 с.

57. Цыплихин А.И. Анализ и автоматическая сегментация речевого сигнала: дис. . канд. тех. наук / А.И. Цыплихин. -М., 2006. 149 с.

58. Классификация и кластер: пер. с англ. / под ред. Дж. Вэн Райзин- М.: Мир, 1980.- 389 с.

59. Потапова Р.К. Речь: коммуникация, информация, кибернетика / Р.К. Потапова. М.: УРСС, 2003. - 568 с.

60. Зилинберг А.Ю. Варианты реализации иерархической сегментации речевых сигналов // Научная сессия ГУАП: сборник докладов: в 3 ч. СПб: ГУАП, 2008. - 4.2: Технические науки. - С. 15-19.

61. Зилинберг А.Ю. Обработка изображений коррелограммы в алгоритмах иерархической сегментации речевых сигналов / А.Ю: Зилинберг, Ю.А. Корнеев// Научная сессия ГУ AFI: сборник докладов: в 3 ч. — СПб: ГУАП, 2008. -4.2: Технические науки. С. 19- 22.

62. Харкевич A.A. Спектры и анализ / А. А. Харкевич. М.: ЛКИ, 2007. -240 с.

63. Ватте Д; Спектральный анализ и его приложения: Пер. с англ. / Д. Ватте, Г. Дженкинс.- М.: Мир, 1972.-т. 1-318 с.

64. Бендат Д. Прикладной анализ случайных данных / Д: Бендат, А. Пирсол. -М.: Мир, 1989.-260 с.

65. Бокс Дж. Анализ временных рядов: Прогноз; и управление / Дж. Бокс, Е. Дженкинс. М;: Мир, 1974. - вып. 1. -406 с.

66. Зилинберг А.Ю; Разметка фонограммы на периоды основного^тона.методами структурного анализа речевого сигнала / А.Ю; Зилинберг, Ю;А. Корнеев, К.К.I

67. Томчук // Сборник докладов 20-й межвузовской научно-технической конференции «Военная радиоэлектроника: опыт использования и проблемы, подготовка специалистов». СПб: ВМИРЭ, 2009:

68. Зилинберг А.Ю; Разработка структурных методов сегментации речевого сигнала на периоды основного тона / А.Ю; Зилинберг, Ю.А. Корнеев // «Научно-технические ведомости СПбГПУ». СПб: СПбГПУ, 2009. - № 2. -С. 75-79.

69. Дэйвисон М.Л. Многомерное шкалирование: Методы наглядного представvления; данных пер. с англ. /. М.Л. Дэйвисон. М.: Финансы и статистика, 1988.- 256 с.

70. Ануфриев И. Самоучитель MatLab 5.3/б.х / И. Ануфриев. СПб.:БХВ-Петербург, 2002. - 736 с.

71. Потемкин В.Г. MATLAB 6: Среда проектирования инженерных приложений / В.Г. Потемкин. М: Диалог-МИФИ, 2000. - 448 с.

72. Дьяконов В.П. МаИаЬ 6.5 ЭР 1/7 + ЗтшНпк 5/6. Обработка сигналов и проектирование фильтров / В.П. Дьяконов. М.: СОЛОН-Пресс, 2005. - 576 с.

73. Рабинер Л. Теория и применение цифровой обработки сигналов / Л. Рабинер, Б. Голд. -М.: Мир, 1978. 848 с.

74. Зилинберг А.Ю. Анализ трендов и разладок структуры ОТ-кластеров вокализованных сегментов речи / А.Ю. Зилинберг, Ю.А. Корнеев, К.К. Томчук // Сборник докладов Научной сессии ГУАП, посвященной Всемирному дню космонавтики. СПб: ГУАП, 2010.

75. Обнаружение изменений свойств сигналов и динамических систем: пер. с англ. / под. ред. М.Бассвиль, А.Банвениста. М.: Мир, 1989. - 278с.

76. Фу К. Структурные методы в распознавании образов: пер с англ. / К. Фу -М.: Мир, 1977.-320 с.

77. Виленкин С.Я. Статистическая обработка результатов исследования случайных функций / С.Я. Виленкин. М.: Энергия, 1979. - 320 с.