автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов

кандидата технических наук
Фирсова, Александра Александровна
город
Белгород
год
2013
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов»

Автореферат диссертации по теме "Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов"

На правах рукописи

005060794

ФИРСОВА Александра Александровна

РАЗРАБОТКА И ИССЛЕДОВАНИЕ СУБПОЛОСНЫХ МЕТОДОВ И АЛГОРИТМОВ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ

Специальность 05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

6 ИЮН 2013

Белгород-2013

005060794

Работа выполнена в федеральном государственном автономном образовательном учреждении высшего профессионального образования «Белгородский государственный национальный исследовательский университет» (НИУ «БелГУ»), на кафедре информационно-телекоммуникационных систем и технологий.

Научный руководитель Жиляков Евгений Георгиевич,

доктор технических наук, профессор

Официальные оппоненты: Волчков Валерий Павлович,

доктор технических наук, старший научный сотрудник,

Московский технический университет связи и информатики,

профессор кафедры общей теории связи, г. Москва

Черноморец Андрей Алексеевич,

кандидат технических наук, доцент, Белгородский государственный национальный исследовательский университет, заведующий кафедрой прикладной информатики, г. Белгород

Ведущая организация Федеральное государственное автономное

образовательное учреждение высшего профессионального образования «СевероКавказский федеральный университет», г. Ставрополь

Защита состоится 19 июня 2013 года в 15 часов 00 минут на заседании диссертационного совета Д 212.015.10 на базе ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет» по адресу: 308015 г. Белгород, ул. Победы, д. 85, ауд. 3-8, к. 15.

С диссертацией можно ознакомиться в научной библиотеке ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет» (НИУ«БелГУ») по адресу: 308015 г. Белгород, ул. Победы, д. 85.

Автореферат разослан 17 мая 2013 г.

Ученый секретарь

диссертационного совета к.т.н., проф., ^ 1 С. П. Белов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы.

Устная речь является одной из наиболее естественных для человека форм информационного обмена. В соответствии с этим существенное внимание уделяется разработке методов автоматического анализа устной речи на компьютерах, одним из важнейших направлений развития которых является совершенствование человекомашинных интерфейсов. При этом обработке подвергаются речевые сигналы (PC), которые представляют собой результаты регистрации электромагнитных колебаний на выходе микрофонов, возбуждаемых акустическими воздействиями. В определенном смысле базовым этапом автоматического анализа устной речи служит сегментация PC на отрезки, которые порождены в разных условиях. Наибольший интерес представляет выделение участков, зарегистрированных при отсутствии звуков речи (селекция пауз, в том числе при сжатии речевых данных), определение границ участков, порождаемых разными звуками речи и определение среди последних отрезков, порождаемых вокализованными звуками (в задачах идентификации дикторов и оценки их психофизического состояния, распознавания речи и ее вокодерного синтеза с помощью липредеров и т.д).

Проблема анализа речевых сигналов рассматривалась в достаточно большом количестве работ зарубежных и российских авторов, среди которых можно отметить J1. Рабинера, Б. Голда, М.А. Сапожкова, О.И. Шелухина,

A.B. Аграновского, В.Н. Сорокина, Р.В. Гудонавичюса, Ю.Н. Прохорова,

B.Г. Санникова, М.В. Хитрова, Е.Г. Жилякова и других. В основе многих из разработанных подходов используются частотные представления, так как порождаемые звуками речи отрезки PC обладают свойством концентрации энергии в достаточно «узких» полосах частотной оси. В связи с этим можно упомянуть рассматриваемое в литературных источниках разбиение частотной полосы на так называемые критические полосы слуха, которые опосредованно отражаются на частотных свойствах PC. До определенной степени эквивалентным (с учетом равенства Парсеваля) инструментом обработки PC представляется корреляционный анализ, особенно в задачах распознавания речевых конструкций из созданных заранее словарей.

Вместе с тем можно отметить, что предлагаемые в настоящее время методы сегментации PC на основе анализа их частотно-корреляционных свойств либо не отражают свойства концентрации энергии, либо слишком чувствительны к изменениям энергии в паузах.

Таким образом, адекватным подходом к обработке PC является субполосный анализ, когда их свойства соотносятся с некоторым разбиением оси частот на интервалы конечной ширины. Причем, в виду зависимости частотного распределения энергий от вида произносимого звука, анализу необходимо подвергать отрезки PC конечной длительности. Отметим необходимость проведения специальных исследований специфики частотного распределения энергий отрезков PC, порождаемых русской устной речью.

В рамках данной работы в качестве основных субполосных характеристик рассматриваются:

Рг(.х„)= | \Х{со)\г а<оПя, (1)

Ф„ = \х{ю)У\ю)асо1гк, (2)

<хГг

где Х(со) и У(о>) - трансформанты (спектры) Фурье анализируемых отрезков вида

7Ло>) =17, ехрС-уаКк - 1)),У = (-1)"2, (3)

Уг - составной интервал оси нормированных частот

V, = 1-У1г ,~У2г) и [К1г, У2г), 0 < У1г < У2г < тг. (4)

Соотношение (1) определяет часть энергии, попадающую в заданный частотный интервал Уг, а (2) - субполосную корреляцию спектров различных отрезков. В дальнейшем будет показано, что вычисление их точных значений можно осуществить непосредственно во временной области, не вычисляя спектров.

Вместе с тем следует отметить, что в настоящее время в качестве основного инструмента частотной обработки РС используется преобразование Фурье, преимущественно дискретное преобразование Фурье (ДПФ), что, по-видимому, обусловлено наличием алгоритма его быстрого вычисления (алгоритма БПФ). Важно иметь в виду, что ДПФ является вариантом разложения сигналов по ортонормированному базису специального вида и не позволяет в полной мере описать распределение энергий отрезков РС по частотным интервалам, то есть адекватно отразить их физическую сущность.

Использование ортогональных разложений по иным базисам, например, вейвлет-анализ, по тем же причинам нельзя признать адекватным подходом к описанию распределения энергий анализируемых отрезков по частотным интервалам.

Таким образом, разработка субполосных методов и алгоритмов сегментации речевых сигналов на основе адекватного анализа динамики изменений распределения энергий их отрезков по частотным интервалам является актуальной задачей.

Целью данной работы является совершенствование методов и алгоритмов компьютерного анализа русской устной речи на основе разработки субполосных методов сегментации РС на отрезки со значимыми различиями в распределениях энергий по частотным интервалам, которые обусловлены сменами звуков речи либо их отсутствием (наличием пауз).

Для достижения поставленной цели сформулированы и решены следующие задачи:

1. Анализ основных применяемых методов и алгоритмов сегментации РС.

2. Формирование моделей распределения энергий отрезков РС, порождаемых различными звуками русской речи, по частотным интервалам.

3. Разработка и исследование субполосного метода и алгоритма селекции пауз между звуками русской речи с предварительным обучением.

4. Разработка и исследование субполосного метода и алгоритма сегментации РС на отрезки, порождаемые различными звуками русской речи

5. Разработка и исследование субполосного метода и алгоритма селекции участков РС по вокализованным звукам речи и определения периода основного тона.

6. Разработка программных реализаций созданных алгоритмов.

Объект исследований: речевые сигналы.

Предмет исследования: методы сегментации речевых сигналов по границам звуков русской речи.

Методы исследований. В работе использованы методы субполосного анализа/синтеза, статистического анализа, цифровой обработки речевых данных, линейной алгебры и вычислительных экспериментов.

Научную новизну работы составляет следующее:

1. Модели частотного распределения энергий порождаемых звуками русской устной речи отрезков РС с учетом их длительности.

2. Решающие функции для сопоставления распределений энергий различных отрезков речевых сигналов по частотным интервалам в задачах селекции пауз и определения границ между звуками в русской устной речи.

3. Субполосный нормированный коэффициент корреляции, позволяющий повысить обоснованность решений о величине периода основного тона в задачах селекции вокализованных звуков русской устной речи.

Практическая значимость работы определяется разработанными алгоритмами сегментации РС по границам звуков русской устной речи, применение которых позволяет усовершенствовать процедуры решения задач сжатия речевых данных, распознавания речи, её синтеза, идентификации дикторов, проведения психофизических исследований и т.д.

Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» (технические науки) по следующим областям исследований:

п. 5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.

п. 6. Разработка методов, языков и моделей человекомашинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке.

Связь с научными и инновационными программами.

Диссертационное исследование выполнялось в рамках следующих федеральных проектов: ГК № П964 от 27 мая 2010г., ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы; проект № 2.1.2/9382 АВЦП "Развитие научного потенциала высшей школы (2009-2010 годы)"; ГК № 10-07-00326а, РФФИ; программа УМНИК-2010, проект № 13990; программа УМНИК-2012, проект № 16945.

Положения, выносимые на защиту:

1. Субполосные методы сегментации РС по границам звуков русской устной речи, позволяющие усовершенствовать процедуры селекции пауз, определения границ звуков русской речи, селекции вокализованных звуков русской речи, включая оценивание периода основного тона.

2. Алгоритмы субполосной обработки отрезков речевых сигналов при их сегментации по границам звуков русской устной речи.

3. Результаты сравнительных вычислительных экспериментов, иллюстрирующих эффективность разработанных алгоритмов субполосной сегментации РС.

Достоверность выводов и рекомендаций обусловлена корректностью применяемых математических преобразований, отсутствием противоречий с известными фактами теории и практики обработки речевых сигналов, а также иллюстрируется результатами вычислительных экспериментов с реальными речевыми данными.

Личный вклад соискателя. Все изложенные в диссертации результаты исследования получены либо соискателем лично, либо при его непосредственном участии.

Апробация результатов диссертационного исследования.

Результаты диссертационного исследования обсуждались на следующих научно-технических конференциях: Международная молодежная конференция «Прикладная математика, управление и информатика», (г. Белгород, 2012); 13-ая, 12-ая Международная конференция и выставка «Цифровая обработка сигналов и её применение - ББРА» (г. Москва, 2011, 2010 гг.); XIX Международная научно-практическая конференция «Информационные технологии: наука, техника, технология, образование, здоровье» (г.Харьков, 2011); II Международная научно-практическая конференция «Информационные технологии и компьютерная инженерия» (г. Харьков, 2011); Вторая Международная научно-техническая конференция, «Компьютерные науки и технологии» (г.Белгород, 2011); XXIII Международная научная конференция «Математические методы в технике и технологиях-ММТТ-23» (г.Саратов, 2010); Вторая Международная научно-практическая Интернет-конференция Белгородского филиала НАЧОУВПОСГА (г. Белгород, 2010); Всероссийская научная конференция с элементами научной школы для молодежи «Параллельная компьютерная алгебра» (г. Ставрополь, 2010); Всероссийская молодежная конференция «Теория и практика системного анализа» (г. Белгород, 2012).

Публикации. По теме диссертационного исследования опубликовано 24 печатные работы (из них 8 в журналах из списка ВАК РФ), в том числе 2 Свидетельства Роспатента РФ о государственной регистрации программ для ЭВМ.

Объем и структура работы. Диссертация состоит из Введения, четырех глав, Заключения и Приложений. Работа изложена на 165 страницах машинописного текста, включая 86 рисунков, 10 таблиц и список литературных источников из 110 наименований.

СОДЕРЖАНИЕ РАБОТЫ Во введении обосновывается актуальность диссертационного исследования, формулируется его основная цель.

Глава 1. Современные методы и алгоритмы сегментации речевых сигналов. Анализируются основные характеристики существующих методов сегментации РС. Представлены классификации звуков русской речи с позиции особенностей их артикуляционных и акустических характеристик.

Показано, что в основе субполосных методов сегментации РС целесообразно использовать определение частей энергий (1) отрезка (вектора) дискретизованного РС 5У ={х1,..,хн)т (Т - символ транспонирования), попадающих в частотный интервал (4).

В рамках данной работы используется полученное в монографии1 соотношение

Рг(х,) = х1.Лгх,, (5)

позволяющее, не переходя в частотную область, вычислять части энергии (1) с использованием субполосных матриц Аг = [а^), ¡,к = , где

«4 =(8адг(«-Л))-8ш(^(»-Л)))/я<|-*); аГ =(У1г-УъУя. (6)

Там же показано, что для удовлетворяющих уравнениям

Ш = Ая1,к = \,..,ы, (7)

собственных чисел Агк и векторов ¿¡¡. субполосной матрицы с высокой точностью выполняются условия

Л^=0, k = \,..,N-J■, J = 2[N{У2r-У1г)12я] + 2 при Лгк>Ягк+1, к = \,..,Ы-\. (8) Поэтому вычисления квадратичной формы (5) можно ускорить, если использовать представление вида

Рг(х„) = Т Л[а1(х„), (9)

к=1

где акг (х,,) - скалярные произведения (проекции)

N /-1

На основе проведенного анализа состояния вопроса и в соответствии с целью работы формулируются задачи исследования.

Глава 2. Субполосные модели отрезков речевых сигналов и селекция пауз между звуками речи.

Раздел 2.1. Вычислительные аспекты субполосного анализа отрезков РС. Пусть ось нормированных частот [0, л-] разбивается на ряд неперекрывающихся интервалов Кг,г = 0,..,Д, границы которых определяются соотношениями:

К, 0=0; У2а= 2л/Ы; К1г = ; У2г =У1г +4я!М, г = 1,..,Л, (11) R = N/ 4. (12)

1 Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. / Е.Г. Жиляков. - Белгород: Изд-во БелГУ, 2007 - 160с.

Тогда с учетом определения (5) на основе равенства Парсеваля нетрудно установить справедливость следующего соотношения

0,5/^ (■%)+! Р,(хн) = %. =11** II2- (13)

г=0 /=1

Легко также показать, что при выборе (11) элементы субполосных матриц (6) могут быть представлены в виде:

=%ЫУ2й(1-к))17г^-к), агл = 2-аЦ со$(а)г (г - к)), аг ^г-Лл/Ы, г = 1,..,Л .(14) В соответствии с этим их собственные векторы можно аппроксимировать с помощью соотношений:

<2*-. =^со5(<аД/-1));<24 =<?° 5тК(/-1))Д = 1,..,У/2,/= 1,..,^, (15) где £7" - компоненты соответствующих собственных векторов субполосной матрицы Л„, которым отвечают собственные числа Я°, причем и для собственных чисел выполняются равенства

Х1^=Х1к=Х\,к = \,..,Л2. (16)

Поэтому соотношения (10) можно преобразовать к виду

N N

= 2 2йсо8(й>Д/-1)), а2К= Х ги5т(юг(/-1)),*: = 1,..,7/2,(17)

ы '-1

где

г„(=ад°,£ = 1,..,.//2;; = 1,..,ЛГ. (18)

Легко понять, что определяемые соотношениями (17) скалярные произведения являются выборками при Ь = 2-г из наборов вещественной и мнимой компонент (с обратным знаком) ДПФ вида

2*00 = 1 ехр(-у'2я-!Ы-Ь-а-1)),Ь = (),..,N!2-\. (19)

¡=1

Таким образом, для их вычислений можно воспользоваться алгоритмом БПФ последовательностей с компонентами вида (18), выбирая соответствующие длительности анализируемых отрезков.

Использование всех компонент ДПФ вида (19) дает возможность более тонкого частотного анализа распределения энергий отрезков сигналов. На рисунке 1 представлена конфигурация частотных интервалов при

использовании такого анализа.

0 % "% % % л

Рисунок 1 - Конфигурация частотных интервалов «с перекрытием».

Ниже в таблице 1 приведены значения собственных чисел субполосной матрицы \ (14).

Таблица 1 - Значения собственных чисел___

Значение индекса к 1 2 3 4 5

Значение собственного числа Л° 0,981 0,750 0,244 0,0246 0,001

Очевидно, что двумя последними значениями из приведенных собственных чисел можно пренебречь, так как их сумма по сравнению с суммой остальных почти в 80 раз меньше. Поэтому можно положить J = 6.

Отметим также, что определяемый соотношением (11) размер частотного интервала ДК = 4тг/N может служить единицей измерений при определении суммарной ширины распределения энергий подвергаемых анализу отрезков PC. В самом деле, пусть значения отсчетов анализируемого отрезка удовлетворяют условию х, =cos(v(;'-A72)). Тогда, подставляя это представление в определение (3), нетрудно получить

\X(z)\2 = [SP(z-v) + SP(z + v)]2

где

SP(y) = sin(Ny/2)/sin(y/2).

Очевидно, что слагаемые в предыдущем соотношении будут иметь максимумы в точках z, 2 =±v, а в точках v±AV/2 будут равны нулю, что и позволяет указанную ширину частотного интервала использовать в качестве единицы измерений суммарной ширины распределения энергий анализируемых отрезков PC.

Раздел 2.2. Распределение энергий по частотным интервалам отрезков PC, порождаемых разными звуками русской речи. В разделе основное внимание уделено анализу распределения энергии с позиции выявления диапазонов, в которых сосредоточена основная доля энергии для PC, порождаемых различными звуками русской речи. Одной из характеристик частотного распределения энергии является величина частотной концентрации, характеризующая наименьшую ширину частотной области, в которой сосредоточена заданная доля энергии.

Как было отмечено ранее, в качестве единицы измерения целесообразно использовать величину 4л:/N.

Тогда частотная концентрация в может быть оценена как

e = K-(4x/N)/7r = 4K/N, (20)

где К - наименьшее количество частотных интервалов, для которых выполняется условие

ÎPw{xN)> m \\xN ||2, (21)

k = \

m - задаваемая доля энергии; P(k)(xN) - упорядоченная по убыванию последовательность энергий (9) сигнала в частотных интервалах, т.е. выполняются следующие условия:

Pw(xN)>Pik+n(xN), к = 1,2,...,Л. (22)

/^(^{РД^)}, г = 0,1,..., R. (23)

При этом частотная ось разбивается на R непересекающихся частотных интервалов (рис. 2).

% ■% % % м * ^

Рисунок 2 - Конфигурация частотных интервалов «без перекрытия».

В работе представлена методика и алгоритм проведения эксперимента, позволяющая осуществить оценку величины частотной концентрации отрезков РС.

В работе для каждого звука русской речи получены оценки величины частотной концентрации при различных значениях длительности анализируемого отрезка РС и задаваемой доли энергии. При этом учитывалось, что длительность РС, порождаемых такими звуками, как: «к», «п», «т», «г», «д», не превышает 18мс (при /^16кГц N=288). Поэтому для анализа РС использована длительность сигнала 16мс (при^=16кГц N=256).

В таблице 2 представлены результаты оценки средней величины частотной концентрации для РС, порождаемых разными звуками русской речи и шумами при различных значениях задаваемой доли энергии т. В таблице шум1 - означает последовательность псевдослучайных гауссовых чисел; шум2 - фрагмент сигнала, соответствующего шуму в помещении.

Таблица 2 - Значения величины в для различных звуков русской речи (/¿=16кГц, Ы=256)

тип звука /я=0.80 »»=0.86 /и=0.90 »1=0.96 т=0.98

гласные

а 0,08 0,09 0,11 0,16 0,20

и 0,05 0,06 0,08 0,13 0,19

высокие шумные согласные

ж 0,14 0,19 0,23 0,38 0,48

ч 0,22 0,28 0,34 0,50 0,50

шумы в паузах

шум! 0,59 0,69 0,75 0,88 0,92

шум2 0,39 0,47 0,55 0,72 0,81

Анализ результатов исследования всех звуков русской речи показал, что энергия РС, порождаемых гласными, сонорными и низкими звонкими согласными звуками, сосредоточена в меньшем количестве частотных интервалов, чем энергия РС, порождаемых низкими глухими и высокими согласными звуками. Причем, величина частотной концентрации в при т=0,9 не превосходит 0,47.

Анализ результатов оценки частотного распределения энергии отрезков РС, порождаемых различными звуками русской речи показывает, что основная энергия (т=0,9) РС, порождаемых гласными, сонорными и низкими звонкими согласными, сосредоточена в диапазоне от 0 до 2кГц (исключение составляют такие звуки как «й», «р», для которых энергия распределена до 4кГц). Энергия РС, порождаемых низкими глухими и высокими шумными

согласными, распределена вдоль оси частот до 7кГц. Таким образом, для более точного анализа особенностей частотного распределения энергии РС, порождаемых различными звуками русской речи, необходимо использовать частоту дискретизации не меньше 16кГц.

Раздел 2.3. Селекция пауз между звуками речи. Выше было показано, что энергии порождаемых звуками речи отрезков РС распределены в совокупности достаточно узких частотных интервалов, верхняя граница которых не превышает 7 килогерц, а суммарная ширина не превышает половины этого частотного диапазона. В свою очередь, посторонние шумы при отсутствии речи имеют иное частотное распределение энергии, что позволяет на этой основе построить решающие процедуры селекции пауз.

Основная проверяемая гипотеза формулируется следующим образом.

#0 - анализируемый отрезок РС * = (х,,..,х,.)гпорожден шумами в паузе

речи

х = й = {и1,..,им)т. (24)

Альтернатива Я, заключается в том, что хотя бы часть компонент рассматриваемого вектора зафиксирована в присутствии звуков речи

х = й + 3, ? = (£,,..,.$д,)г. (25)

Здесь и в дальнейшем, где это не вызывает затруднений, индекс у векторов опущен.

В виду неодинаковости и изменчивости во времени воздействий, оказываемыми на микрофон различными звуками речи, по-видимому, единственной возможностью является использование в качестве признаков энергетических характеристик: энергия (квадрат евклидовой нормы) анализируемого вектора || х ||2 и распределение её по частотным интервалам в виде наборов соответствующих долей

N12-1

Р<1„(х) = Р„(х)/ Т.Рк(х),п = 0,..,Ы12-\.

к=0

Непосредственно из этого определения следует равенство

А" /2-1 п=0

В качестве меры различий между сравниваемыми предлагается использовать соотношение

К*,У) = а~\№„(х))111 -(ЛШ))"2)2)"2,

п=0

которое естественно называть субполосным расстоянием.

Отметим, что использование квадратных корней позволяет до определенной степени выровнять вклады разностей долей энергий из различных частотных интервалов.

С учетом свойства (27) соотношение (28) преобразуется к следующему

виду

у{х,у) = (2(1 - "'£\ра„(х) ■ Рс/п(у))и2))1'2 ■ (29)

»=о

(26)

(27) векторами

(28)

Пусть теперь й] п - математические ожидания долей энергий отрезков шумов в паузах

э; = М[Р(1п(и)} (30)

и их квадратов евклидовых норм

С„=М[ || ¿71|2]. (31)

Легко показать, что в виду (27) будет иметь место равенство

N12-1 , N12-1

I о„=м I ад=1' (32>

п=0 »=0

В качестве решающей функции (РФ) при селекции пауз предлагается использовать статистику

Ги(х) = 1Ги(х)-ги(х), (33)

где

ЛГ/2-1 , ,,, N/2-1 ...

ГИМ = ( I -£>„)2) =(2(1- х Пя-(Р^(х))и2))и2,

п=0 п=0

(34)

(35)

Отметим, что первый сомножитель в (33) реагирует на изменение энергии по сравнению со средней, тогда как второй сомножитель реагирует на изменение её распределения по частотным интервалам.

Гипотеза Н0 отвергается при выполнении неравенства

*■„(*)>*», (36)

где Иа > 0 - порог, удовлетворяющий условию

(х)> Ьа / На) < а. (37)

Здесь РЯ - символ вероятности, а а - желаемый уровень вероятности ошибок первого рода.

Оценивание значений математических ожиданий (30) и (31), а также порогов для правила (36) осуществляется в режиме обучения по совокупности реализаций шумов в паузах речи.

Разработаны алгоритмы обучения и селекции пауз, описание которых представлено в диссертации.

Для оценки эффективности разработанного алгоритма была использованы оценки вероятностей ошибок первого и второго рода:

Р\ош ~ ^оимб.речь^^пауз (38)

ош ~ ^ошиб.пауз ^ ^речи (39)

где Ыоши6,речь - количество отрезков, ошибочно отнесенных к РС в присутствии звуков речи; Ыоши6.пау, - количество отрезков, ошибочно отнесенных к шуму в паузе; М„ауз - количество отрезков РС, порожденных шумами, использованных для анализа (185000 отрезков); Иречи -количество отрезков РС в присутствии звуков речи, использованных для анализа (230000 отрезков).

Важно отметить, что вероятность ошибки первого рода оценивалась по фрагменту сигнала в паузе большему, чем длительность фрагмента участка пауз, использованного для обучения.

Разработаны методики проведения экспериментов, включающие концептуальные основы, цели, план и порядок выполнения.

В работе представлены результаты сравнения эффективности предлагаемого алгоритма с существующими при различных параметрах. В таблице 3 представлены результаты сравнений с методом, основанным на применении РФ максимальной чувствительности2.

Таблица 3 - Значения вероятностей ошибок второго рода при различных параметрах (/¿=16кГц , а=0,05)___

предлагаемая РФ РФ максимальной чувствительности

N=128 N= 256 N= 128 N= 256

Р\ош 0,0332 0,0791 0,0659 0,0984

Р20Ш <10"4 <10"4 <10"4 <10"4

Эти и приведенные в диссертации результаты сравнений показывают преимущества предлагаемого метода.

Раздел 2.4. Результаты и выводы главы.

Глава 3. Сегментация речевых сигналов по границам звуков русской речи.

Раздел 3.1. Метод и алгоритм определения границ звуков русской

речи. Пусть i = (х...... хЛ.) и >• = (>-,j'v) - непересекающиеся фрагменты PC.

Необходимо определить соответствуют ли фрагменты х и у одному и тому же звуку русской речи.

Основная проверяемая гипотеза формулируется следующим образом: Я0 - фрагменты сигналов х и у соответствуют одному и тому же звуку русской речи.

В основе решающей процедуры используется введенное и описанное в разделе 2.3 субполосное расстояние (29).

Для повышения чувствительности к изменениям энергий отрезков также предлагается использовать статистику

W(x,y) = maxi^\ х ||2,|| .у ||2)/min(|| 51|2,|| jp||2). (40)

Данная характеристика всегда больше единицы, причем, чем больше ее значение, тем больше вероятность того, что сравниваемые фрагменты соответствуют различным звукам речи.

В качестве РФ предлагается использовать

Р(х,у) = 1Г(х,у)-Г(х,у). (41)

Ее естественно именовать субполосной РФ.

Гипотеза Н0 отвергается при выполнении неравенства

F{x,y)>ha(e), (42)

где а — вероятность ошибки первого рода, определенная ранее (37), в -величина частотной концентрации отрезка х, определенная в разделе 2.2.

2 Белов, С.П. Исследование решающей функции максимальной чувствительности к изменению

частей энергии в частотных интервалах / С.П. Белов, A.A. Фирсова // Научные ведомости Белгородского

государственного университета. Сер. История. Политология. Экономика. Информатика - 2012. - №13(132) выпуск 23/1.-С. 227-231

Для установления пороговых значений проведены вычислительные эксперименты, которые показали, что для всех звуков русской речи величина порога зависит от значения частотной концентрации отрезка ЗЕ: чем больше значение в, тем выше требуемая величина порога. В таблице 4 представлены значения порогов при длительности отрезка анализа 16мс (N=256 при =16кГц), полученные при анализе не менее 500 отрезков для каждого значения в. Важно отметить, что значения порогов для величин частотной концентрации, попадающих в интервалы между значениями, приведенными в таблице 4, могут быть определены при использовании линейной интерполяции.

Таблица 4 - Значения порогов Иа (в) при различных значениях частотной концентрации в (/¿=16кГц, N=256, т=0.9, а=0,05)___

в 0,1 0,2 0,3 0,4 0,5

К(О) 0,88 0,98 1,02 1,03 1,09

Если условие (42) выполняется, то в точке стыка сравниваемых фрагментов устанавливается граница, иначе принимается решение, что анализируемые отрезки принадлежат одному и тому же звуку речи.

Разработан алгоритм сегментации РС по границам звуков речи, описание которого представлено в диссертации.

Для оценивания вероятностных характеристик принятия решений используются вычислительные эксперименты, методики проведения, включая концептуальные основы, цель, план и порядок проведения, которых описаны в диссертации.

В работе представлены результаты сегментации РС с использованием субполосной РФ при различных параметрах. Для оценки эффективности были использованы оценки вероятностей ошибки первого и второго рода вида:

Рюш ^ совпав ) ^ ^ актов >

(43)

Ргош ~ ' — ^совпав I ^руч 5 (44)

где Исовпав - количество границ, установленных в автоматическом режиме, совпавших с количеством границ, установленными в ручную; Ыруч -количество границ, установленных в ручную (6000 границ); Ыавт -количество границ, установленных автоматически; Мактов - количество актов проверки гипотезы Но (3000000 проверок).

В работе представлены методики проведения экспериментов и результаты сравнения разработанного алгоритма сегментации с существующими. В таблице 5 представлены некоторые из них.

Таблица 5 - Значения вероятностей ошибок первого и второго рода (/¿=16кГц, N=256, т=0.9)

метод субполосной РФ по корреляции между равноотстоящими спектрами'1

P\out 0,0004 0,0007

Plom 0,25 0,39

3 Цыплихин, А.И. Сегментация речи на кардинальные элементы / А.И. Цыплихин, В.Н. Сорокин // Информационные процессы. - 2006. - Т. 6, № 3. - С. 177-207.

Полученные результаты показывают, что алгоритм сегментации РС по границам звуков, основанный на субполосной РФ, обеспечивает меньшие значения вероятностей ошибок первого и второго рода.

Раздел 3.2. Селекция вокализованных звуков русской речи и оценка периода основного тона. Вокализованные звуки являются периодическими, что может быть положено в основу их селекции. При этом необходимо оценивать период основного тона, если отвергается основная гипотеза:

Н0 - анализируемый отрезок х, =(х,,х2,...,хЛ,)г порожден невокализованным звуком речи.

В настоящее время существует два основных подхода к определению периода основного тона (ОТ): на основе анализа спектров и корреляционном анализе.

Спектральный метод заключается в определении в диапазоне априори допустимых значений частоты ОТ такой из них, в которой наблюдается максимум модуля спектра Фурье. Такая частота при выполнении некоторых условий принимается за частоту основного тона.

Основной недостаток спектрального оценивания заключается в следующем. Пусть последовательность отсчетов сигнала (х]ух2,-- ) имеет периодический характер так что

¿=0,1,... (45)

Тогда соответствующая трансформанта Фурье (спектр)

см .

Х(а>) = £

/=1

может быть представлена в виде

С М

Х(о) = . (46)

к=\ ;=1

Таким образом

\Х{ео)\2=\Хр{са)\2 •5т2(СМ»/2)/ът2(Ма>12) , (47)

где Хр{со) - внутрипериодный спектр сигнала (вторая сумма в (46)).

Легко понять, что первый сомножитель будет достигать максимального значения в следующих точках оси частот:

а>т=т2ж1М, т= 1,2,...., (48)

причем именно значение 2тг/М (т= 1) соответствует частоте основного тона.

Однако влияние \Хр((о)\2 может проявляться в том, что максимум правой части будет соответствовать другому значению т. Именно это не позволяет методически надежно определять период основного тона по спектру анализируемого отрезка сигнала.

В основе корреляционного метода определения периода основного тона используется характеристика

Рг.» =2>л« , (49)

1=1 V 4-1

которая является оценкой нормированного коэффициента корреляции.

Гипотеза Н0 отвергается при выполнении неравенства

тах ¿о д, > А е (0.7 + 1), (50)

0<т<Ь

где Ь определяется отношением частоты дискретизации к минимально возможной частоте основного тона.

Тогда в качестве оценки периода основного тона принимается

А/ = ш^тахр , 0<т<Ь. (51)

Иными словами, максимальное значение характеристики (49) должно превышать некоторый порог, что принимается за признак почти периодического поведения отрезков сигнала.

Одним из недостатков такого подхода является присутствие искажающих шумов, что маскирует наличие периодичности в сигнале.

Кроме того, концентрация спектра \Х(со)\2 вблизи частоты, не совпадающей с 2ж/М, приводит к тому, что максимальное значение (49) будет достигаться при меньшем, чем длина интервала между возбуждающими гортань воздействиями.

На рисунке 3 представлены фрагмент РС, порожденного звуком «и», и значения нормированных коэффициентов корреляции при различных значения смещения.

а) б)

Рисунок 3 - а) Фрагмент РС, порожденного звуком «и» (/¿=16кГц); б) значения нормированных коэффициентов корреляции (N=256,/(=16кГц).

На рисунке За Not - «истинный» период основного тона РС, а М- его оценка при использовании корреляционного метода. На рисунке 36 пунктиром отмечен максимум характеристики (49). Видно, что максимальное значение характеристики (49) достигается при значении в 2 раза меньшем, чем величина периода основного тона.

Таким образом, необходимо использовать иные методы определения периода основного тона, устойчивые как к воздействию шумов, так и к влиянию периодичности сигнала между двумя последовательными возбуждающими гортань воздействиями.

Представляется естественным ориентироваться на поиск наименьшей частоты из набора (48).

Для этого в работе введено понятие нормированной субполосной корреляции (НСК)

<р"т=Ф:ЦРп(^)Р„(хт), (52)

где

Ф" = \Хх(ю)Х'т(сй)й(оИж, (53)

= Хт{= , (54)

/=1 /=1

= э Хт = (Д-1+г'-,;:2+г'"чЛ:л?+г) ) (55)

К^-Гъ.'-ГМГьУъ,), (56)

Р„(у)= |№)|2Л»/2;г, (57)

к

Г(®) = |>,е--<''-'>. (58)

м

Наличие в (52) знаменателя позволяет обеспечить чувствительность к частотным полосам с малым уровнем энергии.

Подставляя в соотношение (52) и (53) определения (57) и (58), нетрудно получить представления для НСК непосредственно во временной области

<Р" = х[А„хт / ^х[А„х1х^А„хг , (59)

где Ап = {а"к} - субполосные матрицы (14). Очевидно, что

(60)

причем правая часть достигается только при выполнении условия пропорциональности:

хг=сх,. (61)

Таким образом, определение периода основного тона сводится к вычислению характеристик (52) при разных значениях г и со„. Если условие

(62)

для некоторого частотного интервала выполняется, то принимается решение, что анализируемый отрезок РС относится к вокализованному звуку. Рекомендуется использовать частотный интервал п= 1.

Для установления порога /?4, проведены вычислительные эксперименты, которые показали, что наименьшая вероятность ошибок в селекции вокализованных звуков русской речи обеспечивается при величине порогового значения

¿„=0,8. (63)

Использование г-преобразования Фишера вида

гг"=1/21п((1 + Рг")/(1-<)), (64)

позволяет повысить чувствительность НСК в области значений <р" близких к максимальному, что способствует более точному оцениванию периода ОТ. При этом рекомендуется использовать соотношение

^/2-1

= X к„-2"т , (65)

п=0

где kn = Pdn (Зс,) - весовой коэффициент, представляющий собой долю энергии (26).

Тогда в качестве оценки периода основного тона принимается значение М = argmaxzr, 0<г<£, (66)

если выполнено условие

zM>h2=\,\. (67)

Указанное значение hz получено при подстановки (63) в (64) с учетом свойства

JV/2-I

Z*„ = 1.

п=О

Вычисление значения числителя НСК вида (59) ускоряется за счет использования представления вида

Л 2 к=1

где ah (х]), air (xt) - скалярные произведения (проекции) вида (17).

Как было отмечено ранее, выбор соответствующих длительностей анализируемых отрезков и конфигурации частотных интервалов «с перекрытием» позволяет воспользоваться алгоритмом БПФ с компонентами вида (18).

Разработаны алгоритмы селекции вокализованных звуков русской речи и определения периода основного тона, описание которых представлено в диссертации.

На рисунке 4 представлен фрагмент PC, порожденного звуком «и» и

а) б)

Рисунок 4 - а) Фрагмент РС, порожденного звуком «и» (/¿=16кГц); б) значения РФ НСК (Лг=256,//=16кГц).

Из рисунка 46 видно, что максимум РФ достигается при сдвиге равном периоду основного тона, в отличие от корреляционного метода оценивания периода основного тона (рис.Зб).

В работе представлены результаты исследования поведения НСК для различных звуков русской речи. Для оценки эффективности предлагаемой

решающей процедуры были оценены вероятности ошибок первого и второго рода:

Рхои, ~ 1 — ^'авт метка! ^ ^не вокал >

ош ^ ^авт.вока-1 ^ ^еокач > (69)

а также погрешность оценки периода основного тона:

Ъ{М>-МОТ)2 !NfN20T . (70)

i=l М

Здесь Naem.HeeoKal - количество правильно определенных невокализованных отрезков; Na„mMUKa4 - количество правильно определенных вокализованных отрезков; NmKm - количество отрезков, соответствующих вокализованных звукам речи, использованных для анализа (66000 отрезков); М„евпкал - количество отрезков, соответствующих невокализованных звукам речи, использованных для анализа (45000 отрезков); Nzv - количество отрезков анализа одного звука; Mi - значение периода основного тона, определенное автоматически; Not - значение периода основного тона, определенное в ручную.

В работе представлены методики проведения экспериментов и результаты сравнения эффективности разработанного алгоритма с методом, основанным на корреляционном анализе.

В таблицах 6-7 представлены некоторые результаты этих сравнений для реальных PC при длительности окна анализа 16мс (256 отсчетов при /^16кГц).

Таблица 6 - Значения вероятностей ошибок первого и второго рода при селекции

НСК на основе корреляции между отрезками

ош 0,107 0,118

Plout 0,130 0,132

Таблица 7 - Значения погрешности определения периода основного тона (/^=16кГц, 256 (1бмс))_

тип звука НСК на основе корреляции между отрезками

«ё» 0,026 0,041

«и» 0,018 0,025

«У» 0,018 0,081

«ю» 0,076 0,088

«я» 0,001 0,002

по всем звукам 0,024 0,032

Результаты проведенных экспериментов показывают, что использование НСК позволяет осуществлять селекцию вокализованных звуков русской речи с вероятностью ошибки не больше, чем существующие алгоритмы, при этом погрешность оценки периода основного тона для вокализованных звуков речи меньше, чем у существующих, иногда в разы.

Раздел 3.3. Результаты и выводы главы.

Глава 4. Программная реализации алгоритмов сегментации речевых сигналов. В работе представлено описание структуры и интерфейса разработанной программной под держки алгоритмов сегментации РС. Также приведены рекомендации по выбору параметров: частоты дискретизации длительности анализируемого отрезка (АО, шага

смещения на различных этапах алгоритмов (А/, г), значение доли энергии (т), желаемые значения вероятностей ошибок первого рода (а), пороговые значения (Ла(<9),

Функциональная схема алгоритма сегментации РС и оценки периода основного тона представлена на рисунке 5.

йг ранг

Рисунок 5 - Функциональная схема алгоритма сегментации РС.

В блоке обучения оцениваются средние значения распределений долей энергий, средние значения энергий отрезков сигналов, соответствующих шуму в паузе, а также определяется пороговое значение для решающего правила алгоритма селекции пауз. В блоке селекции пауз оцениваются значения РФ и определяются границы участков пауз. В блоке определения границ звуков русской речи рассчитываются субполосные РФ и определяются границы звуков. На основе полученных данных в блоке селекции вокализованных отрезков сигналов принимается решение о принадлежности отрезков участкам вокализованных или невокапизованных звуков речи, а также оцениваются мгновенные значения периода основного тона вокализованных звуков речи. Выходными данными этого блока являются отрезки невокализованных участков РС, отрезки вокализованных участков РС с указанием мгновенных значений периода основного тона, а также вектор с указанием границ участков звуков русской речи.

Анализ одного отрезка РС длительностью 16мс (при//=16кГц) с целью селекции пауз и определения границ в программной среде МаНаЬ занимает 2мс. Оценка периода основного тона одного отрезка анализа занимает бОмс. Таким образом, анализ одного отрезка РС длительностью 16мс без учета предварительного обучения занимает порядка 62мс.

В заключении сформулированы основные результаты и выводы диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ РАБОТЫ

1. Построены модели частотного распределения энергий порождаемых звуками русской устной речи отрезков PC с учетом их длительности, которые используются при создании методов и алгоритмов сегментации PC.

2. Разработаны субполосные методы и алгоритмы сегментации PC на отрезки со значимыми различиями в распределениях энергий по частотным интервалам, позволяющие усовершенствовать методы и алгоритмы компьютерного анализа русской устной речи, включая:

2.1. метод и алгоритм селекции пауз с обучением на основе введенной субполосной решающей функции;

2.2. метод и алгоритм определения границ отрезков PC, порождаемых разными звуками русской речи, на основе субполосной решающей функции;

2.3. метод и алгоритм селекции вокализованных участков русской речи на основе введенного субполосного нормированного коэффициента корреляции.

3. Разработаны метод и алгоритм оценивания периода основного тона PC, порождаемых вокализованными звуками русской речи, на основе использования введенного субполосного нормированного коэффициента корреляции.

4. Разработан прототип программной поддержки созданных алгоритмов сегментации PC по границам звуков русской речи.

5. Результаты проведенных вычислительных экспериментов иллюстрируют обоснованность основных выводов и преимущества созданных методов и алгоритмов.

6. Вычислительные эксперименты показали, что алгоритм селекции пауз с обучением на основе введенной субполосной решающей функции обеспечивает вероятности ошибочного принятия решения не более 0,08; алгоритм определения границ отрезков PC, порождаемых разными звуками русской речи, на основе субполосной решающей функции обеспечивает вероятности ошибочного принятия решения в границах 0,15+0,2; алгоритм селекции вокализованных участков русской речи, на основе введенного субполосного нормированного коэффициента корреляции обеспечивает вероятности ошибочного принятия решения не больше 0,12 при обеспечении погрешности оценивания периода основного тона не более 0,02.

7. Из полученных результатов исследования следует вывод о том, что разработанные методы и алгоритмы позволяют усовершенствовать процедуры автоматического компьютерного анализа русской устной речи.

В шести Приложениях приведены результаты некоторых вычислительных экспериментов и свидетельства о регистрации Программ для ЭВМ.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи в журналах из списка ВАК

1. Жиляков, Е.Г. Об эффективности различных подходов к сегментации речевых сигналов на основе обнаружения пауз [Текст] / Е.Г. Жиляков, С.П. Белов, A.C. Белов, A.A. Фирсова, A.B. Глушак // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. - 2010. - №7(78) выпуск 14/1.-С. 187-193.

2. Фирсова, A.A. Компьютерное моделирование алгоритмов обнаружения пауз в IP-телефонии [Текст] / H.A. Чеканов, A.A. Фирсова // Вопросы радиоэлектроники. Сер. Электронная вычислительная техника. - 2011. - С. 72-82.

3. Жиляков, Е.Г. Сегментация речевых сигналов на основе анализа распределения энергии по частотным интервалам [Текст] / Е.Г. Жиляков, Е.И. Прохоренко, A.B. Болдышев, A.A. Фирсова, М.В. Фатова// Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. -2011.-№7(102) выпуск 18/1.-С. 187-196.

4. Фирсова, A.A. О различии концентрации энергии по частотным диапазонам на отрезках сигналов, соответствующих шипящим звукам русской речи и шумам [Текст] / A.C. Белов, A.B. Курлов, A.A. Фирсова // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. -

2011.-№ 13 (108)выпуск 19/1.-С. 186-191.

5. Жиляков, Е.Г. Компьютерная сегментация речевых сигналов [Текст] / Е.Г. Жиляков, Е.И. Прохоренко, A.A. Фирсова, Д.К. Секисов // Вопросы радиоэлектроники. Сер. Электронная вычислительная техника. -2012. - выпуск 1. - С. 48-54.

6. Жиляков, Е.Г. Алгоритмы обнаружения основного тона речевых сигналов [Текст] /Е.Г. Жиляков, A.A. Фирсова, H.A. Чеканов // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. -

2012.-№ 1 (120) выпуск 21/1.-С. 135-143.

7. Фирсова, A.A. Исследование решающей функции максимальной чувствительности к изменению частей энергии в частотных интервалах [Текст] / С.П. Белов, A.A. Фирсова // Научные ведомости Белгородского государственного университета. Сер. История. Политология. Экономика. Информатика. - 2012. - № 13 (132) выпуск23/1.-С. 227-231.

8. Жиляков, Е.Г. Об одном алгоритме кодирования пауз в речевых данных [Текст] / Е.Г. Жиляков, Е.И. Прохоренко, A.B. Болдышев, A.A. Фирсова // Вопросы радиоэлектроники. Сер. Электронная вычислительная техника.-2013.-выпуск 1.-С. 17-25.

Публикации в научных журначах и сборниках трудов научных конференций

9. Жиляков, Е.Г. Сегментация речевых сигналов на основе анализа особенностей распределения долей энергии по частотным интервалам [Текст] / Е.Г. Жиляков, Е.И. Прохоренко, A.B. Болдышев, A.A. Фирсова, М.В. Фатова // Вестник национального технического университета «ХПИ». - 2011. - 17'2011, Тематический выпуск «Информатика и моделирование», №16. - С. 44-50.

10. Фирсова, A.A. О различиях распределения энергии звуков русской речи и шума [Текст] / A.B. Болдышев, A.A. Фирсова// Материалы 12-ой Международной конференции и выставке «Цифровая обработка сигналов и её применение - DSPA'2010». -Москва. - 2010. - С. 204-207.

11. Жиляков, Е.Г. Модели распределения энергии звуков русской речи на основе частотных представлений [Текст] / Е.Г. Жиляков, A.B. Болдышев, A.A. Фирсова // Материалы XXIII Международной научной конференции «Математические методы в технике и технологиях - ММТТ-23». - Саратов. - 2010. - С. 236-239.

12. Фирсова, A.A. О возможности использования особенностей распределения энергии по частотным диапазонам в задачах сегментации речевых сигналов [Текст] / A.A. Фирсова, М.В. Фатова // Материалы 13-ой Международной конференции и выставки «Цифровая обработка сигналов и её применение - DSPA'2011». Москва. - 2011. -С. 255-258.

13. Жиляков, Е.Г. Обзор существующих методов сегментации речевых сигналов [Текст] /Е.Г. Жиляков, С.П. Белов, A.A. Фирсова // Тезисы П Международной научно-практической конференции «Информационные технологии и компьютерная инженерия». -Харьков.-2011.-С. 129-130.

14. Жиляков, Е.Г. Сегментация речевых сигналов на основе анализа особенностей распределения долей энергии по частотным интервалам [Текст] / Е.Г. Жиляков, Е.И. Прохоренко, A.B. Болдышев, A.A. Фирсова, М.В. Фатова // Тезисы XIX Международной научно-практической конференции «Информационные технологии: наука, техника, технология, образование, здоровье». - Харьков. - 2011. - С. 28.

15. Жиляков, Е.Г. Обзор алгоритмов обнаружения основного тона речевых сигналов [Текст] /Е.Г. Жиляков, С.П. Белов, A.A. Фирсова // Системы обработки информации. 2012. - Выпуск 4(102), Т.1 Информационные технологии и защита информации. - С. 193-194.

16. Жиляков, Е.Г. Исследование алгоритмов определения частоты основного тона речевых сигналов [Текст] / Е.Г. Жиляков, A.A. Фирсова // Сб. трудов Международной молодежной конференции «Прикладная математика, управление и информатика». -Белгород. - 2012. - Т. 1. - С. 371-375.

Программы для ЭВМ

17. Свидетельство о государственной регистрации для программы для ЭВМ №2012660160 «Программная система сегментации речевых сигналов на основе анализа распределения энергии по частотным интервалам», авторы: Жиляков Е.Г., Прохоренко Е.И., Болдышев A.B., Фирсова A.A., Секисов Д.К. 12 ноября 2012 г.

18. Свидетельство о государственной регистрации для программы для ЭВМ №2012660685 «Программная система определения частоты основного тона речевых сигналов», авторы: Жиляков Е.Г., Прохоренко Е.И., Болдышев A.B., Фирсова A.A., Курлов A.B. 12 ноября 2012 г.

Подписано в печать 13.05.2013. Гарнитура Times New Roman. Формат 60x84/16. Усл. п. л. 1,0. Тираж 100 экз. Заказ 195. Оригинал-макет подготовлен и тиражирован в ИД «Белгород» НИУ «БелГУ» 308015, г. Белгород, ул. Победы, 85

Текст работы Фирсова, Александра Александровна, диссертация по теме Теоретические основы информатики

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«БЕЛГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ» (НИУ «БелГУ»)

04 2 0135*19Я На правах рукописи

Фирсова Александра Александровна

РАЗРАБОТКА И ИССЛЕДОВАНИЕ СУБПОЛОСНЫХ МЕТОДОВ И АЛГОРИТМОВ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ

по специальности 05.13.17 - Теоретические основы информатики

Диссертация на соискание учёной степени кандидата технических наук

Научный руководитель д.техн.н., профессор, Е.Г. Жиляков

Белгород-2013

СОДЕРЖАНИЕ

ВВЕДЕНИЕ..............................................................................................................4

ГЛАВА 1 СОВРЕМЕННЫЕ МЕТОДЫ И АЛГОРИТМЫ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ.......................................................................................10

1.1 Основные характеристики звуков русской речи...................................10

1.2 Исследование существующих алгоритмов селекции пауз...................23

1.3 Исследование существующих алгоритмов сегментации речевых сигналов..............................................................................................................28

1.4 Исследование существующих алгоритмов оценивания периода основного тона....................................................................................................37

1.5 Основные положения субполосного анализа сигналов........................43

1.6 Задачи исследования................................................................................48

ГЛАВА 2 СУБПОЛОСНЫЕ МОДЕЛИ ОТРЕЗКОВ РЕЧЕВЫХ СИГНАЛОВ И СЕЛЕКЦИЯ ПАУЗ МЕЖДУ ЗВУКАМИ РЕЧИ............................................50

2.1 Вычислительные аспекты субполосного анализа отрезков РС...........50

2.2 Распределение энергий по частотным интервалам отрезков РС, порождаемых разными звуками русской речи................................................57

2.3 Селекция пауз между звуками речи........................................................77

2.4 Результаты и выводы главы.....................................................................99

ГЛАВА 3 СЕГМЕНТАЦИЯ РЕЧЕВЫХ СИГНАЛОВ ПО ГРАНИЦАМ ЗВУКОВ РУССКОЙ РЕЧИ................................................................................100

3.1 Метод и алгоритм определения границ звуков русской речи............100

3.2 Селекция вокализованных звуков русской речи и оценка периода основного тона..................................................................................................121

3.3 Результаты и выводы главы...................................................................141

ГЛАВА 4 ПРОГРАММНАЯ РЕАЛИЗАЦИИ АЛГОРИТМОВ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ......................................................142

4.1 Описание структуры программной реализации алгоритмов сегментации РС.................................................................................................142

4.2 Интерфейс прототипа программной поддержки алгоритмов

сегментации PC.................................................................................................145

4.3 Рекомендации по выбору параметров..................................................148

4.4 Результаты и выводы главы...................................................................149

ЗАКЛЮЧЕНИЕ....................................................................................................151

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ..........................................153

ПРИЛОЖЕНИЕ А...............................................................................................166

ПРИЛОЖЕНИЕ Б................................................................................................172

ПРИЛОЖЕНИЕ В................................................................................................173

ПРИЛОЖЕНИЕ Г................................................................................................175

ПРИЛОЖЕНИЕ Д................................................................................................177

ПРИЛОЖЕНИЕ Е................................................................................................179

ВВЕДЕНИЕ

Актуальность диссертационного исследования. Устная речь является одной из наиболее естественных для человека форм информационного обмена. В соответствии с этим существенное внимание уделяется разработке методов автоматического анализа устной речи на компьютерах, одним из важнейших направлений развития которых является совершенствование человекомашинных интерфейсов. При этом обработке подвергаются речевые сигналы (PC), которые представляют собой результаты регистрации электромагнитных колебаний на выходе микрофонов, возбуждаемых акустическими воздействиями. В определенном смысле базовым этапом автоматического анализа устной речи служит сегментация PC на отрезки, которые порождены в разных условиях. Наибольший интерес представляет выделение участков, зарегистрированных при отсутствии звуков речи (селекция пауз, в том числе при сжатии речевых данных), определение границ участков, порождаемых разными звуками речи и определение среди последних отрезков, порождаемых вокализованными звуками (в задачах идентификации дикторов и оценки их психофизического состояния, распознавания речи и ее вокодерного синтеза с помощью липредеров и т.д).

Проблема анализа речевых сигналов рассматривалась в достаточно большом количестве работ зарубежных и российских авторов, среди которых можно отметить J1. Рабинера, Б. Голда, М.А. Сапожкова, О.И. Шелухина,

A.B. Аграновского, В.Н. Сорокина, Р.В. Гудонавичюса, Ю.Н. Прохорова,

B.Г. Санникова, М.В. Хитрова, Е.Г. Жилякова и других. В основе многих из разработанных подходов используются частотные представления, так как порождаемые звуками речи отрезки PC обладают свойством концентрации энергии в достаточно «узких» полосах частотной оси. В связи с этим можно упомянуть рассматриваемое в литературных источниках разбиение частотной полосы на так называемые критические полосы слуха, которые

4

опосредованно отражаются на частотных свойствах РС. До определенной степени эквивалентным (с учетом равенства Парсеваля) инструментом обработки РС представляется корреляционный анализ, особенно в задачах распознавания речевых конструкций из созданных заранее словарей.

Вместе с тем можно отметить, что предлагаемые в настоящее время методы сегментации РС на основе анализа их частотно-корреляционных свойств либо не отражают свойства концентрации энергии, либо слишком чувствительны к изменениям энергии в паузах.

Таким образом, адекватным подходом к обработке РС является субполосный анализ, когда их свойства соотносятся с некоторым разбиением оси частот на интервалы конечной ширины. Причем, в виду зависимости частотного распределения энергий от вида произносимого звука, анализу необходимо подвергать отрезки РС конечной длительности. Отметим необходимость проведения специальных исследований специфики частотного распределения энергий отрезков РС, порождаемых русской устной речью.

В рамках данной работы в качестве основных субполосных характеристик рассматриваются:

Рг{хи)= \ \Х{(о)\2 асоНж,

аеУг

Фгм= ¡Х{б))¥*{о))с1а)/ 2ж,

аеУг

где Х(а>) и У(со) - трансформанты (спектры) Фурье анализируемых отрезков вида

ад = £ Ч ехрНа)(к - 1)),у = (-1)1/2,

к=1

Уг - составной интервал оси частот

У г = [~Г\г -Уг г) и [У\г> ^), 0 <У,г<Г2г<ж.

Соотношение Рг (хм) определяет часть энергии, попадающую в

заданный частотный интервал Уп а Фги - субполосную корреляцию спектров различных отрезков. В дальнейшем будет показано, что вычисление их точных значений можно осуществить непосредственно во временной области, не вычисляя спектров.

Вместе с тем следует отметить, что в настоящее время в качестве основного инструмента частотной обработки РС используется преобразование Фурье, преимущественно дискретное преобразование Фурье (ДПФ), что, по-видимому, обусловлено наличием алгоритма его быстрого вычисления (алгоритма БПФ). Важно иметь в виду, что ДПФ является вариантом разложения сигналов по ортонормированному базису специального вида и не позволяет в полной мере описать распределение энергий отрезков РС по частотным интервалам, то есть адекватно отразить их физическую сущность.

Использование ортогональных разложений по иным базисам, например, вейвлет-анализ, по тем же причинам нельзя признать адекватным подходом к описанию распределения энергий анализируемых отрезков по частотным интервалам.

Таким образом, разработка субполосных методов и алгоритмов сегментации речевых сигналов на основе адекватного анализа динамики изменений распределения энергий их отрезков по частотным интервалам является актуальной задачей.

Целью данной работы является совершенствование методов и алгоритмов компьютерного анализа русской устной речи на основе разработки субполосных методов сегментации РС на отрезки со значимыми различиями в распределениях энергий по частотным интервалам, которые обусловлены сменами звуков речи либо их отсутствием (наличием пауз).

Методы исследований. В работе использованы методы субполосного анализа/синтеза, статистического анализа, цифровой обработки речевых данных, линейной алгебры и вычислительных экспериментов.

Научную новизну работы составляет следующее:

1. Модели частотного распределения энергий порождаемых звуками русской устной речи отрезков РС с учетом их длительности.

2. Решающие функции для сопоставления распределений энергий различных отрезков речевых сигналов по частотным интервалам в задачах селекции пауз и определения границ между звуками в русской устной речи.

3. Субполосный нормированный коэффициент корреляции, позволяющий повысить обоснованность решений о величине периода основного тона в задачах селекции вокализованных звуков русской устной речи.

Практическая значимость работы определяется разработанными алгоритмами сегментации РС по границам звуков русской устной речи, применение которых позволяет усовершенствовать процедуры решения задач сжатия речевых данных, распознавания речи, её синтеза, идентификации дикторов, проведения психофизических исследований и т.д.

Полученные результаты используются в ООО «Матрица», что подтверждается соответствующим актом, а также в учебном процессе подготовки бакалавров и магистров факультета КНиТ ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет».

Область исследования. Содержание диссертации соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» (технические науки) по следующим областям исследований:

п.5. Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.

п.6. Разработка методов, языков и моделей человекомашинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке.

Связь с научными и инновационными программами.

Диссертационное исследование выполнялось в рамках следующих федеральных проектов: ГК № П964 от 27 мая 2010г., ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы; проект № 2.1.2/9382 АВЦП "Развитие научного потенциала высшей школы (2009-2010 годы)"; ГК № 10-07-00326а, РФФИ; программа УМНИК-2010, проект № 13990; программа УМНИК-2012, проект № 16945.

Положения, выносимые на защиту:

1. Субполосные методы сегментации РС по границам звуков русской устной речи, позволяющие усовершенствовать процедуры селекции пауз, определения границ звуков русской речи, селекции вокализованных звуков русской речи, включая оценивание периода основного тона.

2. Алгоритмы субполосной обработки отрезков речевых сигналов при их сегментации по границам звуков русской устной речи.

3. Результаты сравнительных вычислительных экспериментов, иллюстрирующих эффективность разработанных алгоритмов субполосной сегментации РС.

Достоверность выводов и рекомендаций обусловлена корректностью применяемых математических преобразований, отсутствием противоречий с известными фактами теории и практики обработки речевых сигналов, а также иллюстрируется результатами вычислительных экспериментов с реальными речевыми данными.

Личный вклад соискателя. Все изложенные в диссертации результаты исследования получены либо соискателем лично, либо при его непосредственном участии.

Апробация результатов диссертационного исследования.

8

Результаты диссертационного исследования обсуждались на следующих научно-технических конференциях: Международная молодежная конференция «Прикладная математика, управление и информатика», (г.Белгород, 2012); 13-ая, 12-ая Международная конференция и выставка «Цифровая обработка сигналов и её применение - Э8РА» (г.Москва, 2011, 2010 гг.); XIX Международная научно-практическая конференция «Информационные технологии: наука, техника, технология, образование, здоровье» (г.Харьков, 2011); II Международная научно-практическая конференция «Информационные технологии и компьютерная инженерия» (г.Харьков, 2011); Вторая Международная научно-техническая конференция, «Компьютерные науки и технологии» (г.Белгород, 2011); XXIII Международная научная конференция «Математические методы в технике и технологиях-ММТТ-23» (г.Саратов, 2010); Вторая Международная научно-практическая Интернет-конференция Белгородского филиала НАЧОУВПОСГА (г.Белгород, 2010); Всероссийская научная конференция с элементами научной школы для молодежи «Параллельная компьютерная алгебра» (г.Ставрополь, 2010); Всероссийская молодежная конференция «Теория и практика системного анализа» (г.Белгород, 2012).

Публикации. По теме диссертационного исследования опубликовано 24 печатные работы (из них 8 в журналах из списка ВАК РФ), в том числе 2 Свидетельства Роспатента РФ о государственной регистрации программ для ЭВМ.

Объем и структура работы. Диссертация состоит из Введения, четырех глав, Заключения и Приложений. Работа изложена на 165 страницах машинописного текста, включая 86 рисунков, 10 таблиц и список литературных источников из 110 наименований.

ГЛАВА 1 СОВРЕМЕННЫЕ МЕТОДЫ И АЛГОРИТМЫ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ

1.1 Основные характеристики звуков русской речи

Развитие методов анализа устной речи направлено на совершенствование человекомашинных интерфейсов. Причем выбор характеристик для анализа зависит от решаемых задач. В основе всех методов автоматического анализа устной речи лежит необходимость предварительной сегментации РС на отрезки со значимыми различиями в анализируемых характеристиках, что позволит осуществлять дальнейшую классификацию звуков и выявление особенностей характеристик дикторов.

Эффективность алгоритма сегментации РС зависит от выбора признакового пространства, в котором формируется решающая функция. Для выбора признакового пространства при разработке алгоритма сегментации РС необходимо изучить их структуру, природу формирования, а также модель восприятия речи человеком. Речь представляет собой поток звуков, сменяющихся друг другом или разделенных паузами. Информация в РС представлена в виде акустического колебания сложной формы.

В соответствии с теорией речеобразования [1,74,82,83,84] речь представляет собой акустическую волну, которая излучается системой органов: легкими, бронхами и трахеей, а затем преобразуется в голосовом тракте. Следовательно, образование и распространение звуков в голосовом тракте можно представить с использованием законов физики. В частности, основных законов сохранения массы, энергии, количества движения вместе с законами термодинамики и механики жидкостей. Используя эти основные физические законы, можно составить систему дифференциальных уравнений в частных производных, описывающую движение воздуха в речеобразующей системе. Полная акустическая теория должна учитывать следующие факторы: изменение во времени формы голосового тракта; потери энергии на стенках голосового тракта за счет вязкого трения и теплопроводности;

мягкость стенок голосового тракта; излучение звуковых волн через губы; влияние носовой полости; возбуждение голосового тракта.

В [104] Портнов показал, что с учетом ряда допущений и использования законов сохранения массы, количества движения и энергии звуковые волны в трубе удовлетворяют следующим уравнениям:

где р—р(х,£) - звуковое давление как функция х и /; и-и{х,1) - скорость воздушного потока как функция х и V, р - плотность воздуха в трубе; с — скорость распространения звука; А-А(х,?) - «функция площади», т.е. площадь поперечного сечения в направлении, перпендикулярном продольной оси трубы, как функция расстояния вдоль этой оси и времени.

При этом предполагается, что если длина волны колебания превышает размеры голосового тракта (частоты ниже 4кГц), то можно считать что вдоль оси трубы распространяется плоская волна, а также, что потери на вязкость и теплопроводность как внутри воздушного потока, так и на стенках трубы отсутствуют.

В действительности, в процессе речеобразования будут возникать потери энергии за счет вязкого трения между потоком воздуха и стенками трубы, теплопроводности и колебаний стенок голосового тракта. Наиболее удобно в этом случае формировать и решать уравнения в частотной области.

При изменении звукового давления внутри голосового тракта на его стенки будет воздействовать сила переменной величины. Если предположить, что стенки реагируют на давление «локально», можно считать, что площадь поперечного сечения А{х,() является функцией р(хС

др д(и / А) — = р—--,

д�