Разработка и исследование системы автоматического выделения основного тона речи

Лузин, Дмитрий Александрович

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка и исследование системы автоматического выделения основного тона речи

кандидата технических наук: Лузин, Дмитрий Александрович
город: Ижевск
год: 2009
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование системы автоматического выделения основного тона речи»

Автореферат диссертации по теме "Разработка и исследование системы автоматического выделения основного тона речи"

На правах рукописи ЛУЗИН Дмитрий Александрович

УДК 004.934.2

РАЗРАБОТКА И ИССЛЕДОВАНИЕ СИСТЕМЫ АВТОМАТИЧЕСКОГО ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА

РЕЧИ

Специальности:

05.13.01 - Системный анализ, управление и обработка информации

(в науке и технике) 05.11.16 - Информационно-измерительные и управляющие системы

(по отраслям)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

г.

Ижевск - 2009

003471731

*

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Ижевский государственный технический университет» (ГОУ ВПО ИжГТУ)

Научный руководитель -

Ведущая организация - Казанский государственный технический университет им. А.Н. Туполева

Защита диссертации состоится 18 июня 2009г. в 1400 на заседании диссертационного совета Д 212.065.06 в ГОУ ВПО ИжГТУ по адресу: 426069, г. Ижевск, ул. Студенческая, 7.

Отзывы на автореферат, заверенные гербовой печатью, просим высылать по указанному адресу в двух экземплярах.

С диссертацией можно ознакомиться в библиотеке ГОУ ВПО ИжГТУ. С авторефератом можно ознакомиться на официальном сайте ГОУ ВПО ИжГТУ: http://www.istu.ru.

Автореферат разослан ¿^Р^Г 2009г.

Заслуженный деятель наук УР д.т.н., профессор, Гитлин В.Б.

Официальные оппоненты - д.т.н., профессор

Мурынов А.И.

Заслуженный деятель наук УР д.т.н., профессор Шелковников Ю.К.

Ученый секретарь диссертационного совета, Кандидат технических наук, доцент

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Речь есть средство обмена информацией между людьми. В устной речи содержится существенно большее количество информации по сравнению с письменным текстом: информация, связанная с контекстом произнесения, информация об интонационном типе высказывания (повествование, вопрос, восклицание), об эмоциональной направленности высказывания, об эмоциональном состоянии диктора, о стиле произнесения (монолог, диалог, беседа, читаемый научный текст, читаемый газетный текст и т.д.), об окружающей диктора обстановке, информация о заболевании голосового аппарата человека и т.д.

В области наук, связанных с речью работали и работают многие известные ученые, как в России, так и за рубежом: Л.Н. Бондарко, В.И. Галунов, В.Р. Женило, Н.Г. Загоруйко, Л.В. Златоустова, C.JL Коваль, О.Ф. Кривнова, В.Г. Михайлов, А.А Пирогов, М.А. Сапожков, В.Н. Сорокин, Р.К. Потапова, В.Н. Трунин-Донской, Л.А. Чистович, Атал, Гоулд, Итакура, Рабинер, Редди, Шафер, Фант, Фланаган и ряд других.

Научные работы в области использования речи в человеко-машинных системах относятся к приоритетному направлению РФФИ «Теория человеко-машинных систем управления».

Одним из основных параметров устной речи является частота повторения колебаний голосовых связок при произнесении вокализированной речи, называемая «Основным тоном» (ОТ). В мгновенных значениях частоты ОТ, в траектории контура ОТ переносится значительное количество информации, отличающей устную речь от письменной. Статистические параметры основного тона, диапазон его значений, диапазон скоростей изменения и т.д. в значительной мере определяют структуру и параметры устройств выделения основного тона. Эти устройства входят в состав большинства систем распознавания и обработки речи и относятся к одним из основных и наиболее сложных блоков.

Взаимодействие факторов, влияющих на контур ОТ, нелинейно и имеет довольно сложные зависимости, трудно поддающиеся математическому описанию. В значительной мере методы анализа и обработки речи, используемые в системах распознавания и передачи данных, основаны на эвристических предположениях.

Методы выделения ОТ, которые можно было бы использовать для решения всех поставленных выше проблем, отсутствуют. Разработка алгоритма выделения ОТ, обеспечивающего точную и надежную оценку значений частоты ОТ, работающего в автоматическом режиме с реальным речевым сигналом в условиях реальной речевой обстановки, является актуальной задачей.

Выделитель частоты ОТ должен определять мгновенные значения частоты ОТ на всем интервале работы голосового источника, включая моменты начала и окончания вокализации. Знание мгновенных значений частоты ОТ позволяет сохранить всю информацию, содержащуюся в контуре ОТ, включая изменения, связанные с мелодией ОТ. Этот алгоритм должен работать в автоматическом режиме для произвольного речевого сигнала в условиях реальной речевой обстановки. Алгоритм должен быть достаточно прост и удобен для встраивания в другие программы по обработки речи человеко-машинных систем управления. Интерфейс алгоритма должен быть дружественным по отношению к произвольному, в том числе, незнакомому с особенностями алгоритма, пользователю.

Объект исследования: системы выделения информации из акустического сигнала речи, системы автоматизации измерений, системы выделения основного тона речевого сигнала.

Предмет исследования: интегральные и локальные методы выделения основного тона и методы принятия решения «ТОН/НЕ ТОН» (Т/НТ), обеспечивающие повышенную точность и надежность выделения частоты ОТ и признака Т/НТ, методы предварительной обработки речевого сигнала, методы организации совместной работы локального и интегрального выделителя ОТ, методы автоматизации измерений в алгоритме выделения ОТ.

Цель работы: разработка и научное обоснование алгоритма выделения основного тона совместно с алгоритмом принятия решения Т/НТ, позволяющих с высокой надежностью и точностью в автоматическом режиме определять положения моментов возбуждения речевого тракта, начал и окончаний интервалов вокализации и предназначенных для работы с речевым сигналом произвольного диктора в условиях реальной окружающей обстановки.

Для достижения поставленной цели следует решить следующие задачи:

- провести анализ существующих методов выделения ОТ и методов принятия решения Т/НТ, позволяющих с высокой надежностью и точностью определять мгновенную частоту ОТ и признак Т/НТ и способных к адаптации к конкретному речевому сигналу в процессе выделения частоты ОТ и признака Т/НТ;

- уточнить параметры существующих и разработать новые способы предварительной обработки речевого сигнала, обеспечивающие повышение надежности и точности работы алгоритма выделения ОТ;

- разработать алгоритм интегральной оценки начальной частоты ОТ, необходимой для инициализации локального выделителя ОТ в моменты перехода от невокализированных интервалов речи к вокализированным;

- разработать алгоритм организации совместной работы двух выделителей ОТ, построенных на различных принципах работы: локальном и интегральном;

- разработать методику динамической адаптации параметров алгоритма выделения ОТ к конкретной реализации речевого сигнала, определить параметры алгоритма динамической адаптации;

- разработать методику выбора порогов принятия решения Т/НТ, обеспечивающую адаптацию алгоритма к конкретному произнесению в условиях реальной речевой обстановки;

- на реальном речевом сигнале провести сравнительные эксперименты по оценке надежности и точности выделения ОТ, надежности и точности принятия решения Т/НТ предлагаемым в настоящей работе алгоритмом выделения ОТ и известными методами выделения ОТ. '

Методы исследования включают в себя методы: системного анализа, математической статистики, теории распознавания образов, теории анализа речевых сигналов, теории цифровой обработки сигналов, методы математического моделирования на ЭВМ. Экспериментальные исследования проведены с использованием стандартного математического обеспечения ЭВМ и собственного программного обеспечения.

Программно-инструментальные средства реализованы на алгоритмическом языке - СХС++. Программное обеспечение разработано в среде программирования Borland C++Builder 6.

Достоверность и обоснованность полученных результатов подтверждается результатами теоретических и экспериментальных исследований. Математические модели, алгоритмы и прикладные программы, предложенные в работе, основаны на фундаментальных положениях теории речеобразования, теории цифровой обработки сигналов, в том числе речевых сигналов, а так же на методах математической статистики.

Достоверность экспериментальных результатов обеспечивается использованием большого объема экспериментального материала, экспериментальным подтверждением предложенных в диссертации решений, а также сравнением экспериментальных результатов, полученных предложенным в настоящей работе алгоритмом, с результатами работы известных методов выделения основного тона.

На защиту выносятся результаты теоретических исследований и предложений по построению алгоритма автоматизированного выделения ОТ, в том числе:

- способ адаптации параметров локального выделителя ОТ, построенного по методу С?5, к конкретному сигналу произвольного диктора в условиях обработки речи, близких к реальным;

- алгоритм организации совместной работы локального и интегрального методов выделения ОТ, использующей нестабильность длительностей последовательных периодов ОТ как критерий включения алгоритма интегральной оценки ОТ;

- методика принятия решения Т/НТ, обеспечивающая адаптацию принимаемого решения к произвольному речевому сигналу;

- алгоритм интегральной оценки частоты ОТ на основе вычисления автокорреляционной функции огибающей спектра;

- методика определения полуволны речевого сигнала, по которой оценивают положение начала периода ОТ;

- способ оценки величины порогов принятия решения Т/НТ по гистограмме обобщенного признака Т/НТ.

- результаты сопоставительных экспериментов по выделению контуров ОТ предложенным алгоритмом выделения ОТ и известными методами выделения ОТ;

- информационно - измерительный комплекс для обучения интонационным особенностям языка;

- программно - измерительный комплекс для использования в учебном процессе при изучении дисциплин связанных с цифровой обработки сигналов.

Научная новизна полученных результатов определяется проведенными комплексными исследованиями, в результате которых разработан алгоритм выделения контура ОТ, не требующий ручной настройки, работающий в условиях реальной речевой обстановки с повышенной точностью и надежностью оценки частоты ОТ;

- впервые предложена, разработана и исследована методика автоматической адаптации параметров метода, используемая для выделения основного тона речевого сигнала в условиях реальной речевой обстановки, и предложен критерий выбора текущего оптимального значения параметров этого метода из набора альтернативных значений, получаемых в процессе обработки речевого сигнала;

- впервые разработана и обоснована стратегия управления совместной работой двух выделителей ОТ различного типа: локального выделителя основного тона, основанного на методе СБ, и интегрального выделителя ОТ, использующе-

го автокорреляционную функцию огибающей спектра. Предложен и исследован критерий определения моментов включения интегрального метода, который выполняет инициализацию метода ОБ на переходах от невокализированных звуков к вокализированным, осуществляет коррекцию сбоев метода (75 и способствует снижению общего количества вычислений за счет уменьшения количества включений интегрального метода;

- предложена, разработана и исследована методика принятия решения Т/НТ, обеспечивающая адаптацию принимаемого решения к произвольному речевому сигналу, когда окончательное решение Т/НТ принимают на втором проходе алгоритма;

- впервые предложен и разработан интегральный алгоритм выделения основного тона, в котором для повышения надежности принятия решения о гармониках ОТ используют автокорреляционную функцию огибающей спектра и медианную фильтрацию. Алгоритм обладает повышенной надежностью оценок интегральных значений частоты ОТ, в том числе на переходах от невокализированных звуков к вокализированным, при работе с сигналом при низких значениях соотношения сигнал/шум;

- впервые разработана методика оценки полярности речевого сигнала, поступающего на выделитель основного тона;

- предложен, разработан и исследован алгоритм оценки значений порогов для принятия решения Т/НТ по гистограмме значений обобщенного признака, вычисляемого синхронно с основным тоном.

Практическая полезность работы состоит в том, что в результате комплексных исследований и предложений создана информационно-измерительная система автоматического выделения частоты ОТ, не требующая нормализации сигнала по амплитуде, обладающая повышенной точностью оценки мгновенных значений частоты ОТ, определяющая начало периода ОТ и обеспечивающая автоматическую подстройку параметров алгоритма к произнесению произвольного диктора.

Разработанный в ходе исследований алгоритм определения полуволны речевого сигнала, повышает точность оценки положения начала импульса ОТ, позволяет строить системы выделения параметров речи, инвариантные относительно числа инверсий в каскадах обработки и передачи речевого сигнала, в том числе системы синхронного с ОТ анализа речи.

Созданный в работе алгоритм начальной оценки частот ОТ с использованием автокорреляционной функции огибающей спектра (АКФС) обеспечивает получение интегральной оценки частоты ОТ на переходах от невокализированных к вокализированным интервалам речи, на интервалах речи с повышенной нестабильностью траектории частоты ОТ при наличии аддитивных шумов и искажений. Совместная работа локального выделителя ОТ по методу СБ и интегрального выделителя ОТ с использованием АКФС организована на основе критерия наибольшей близости соседних периодов ОТ. Данный критерий учитывает специфику речевого сигнала и позволяет выполнить автоматическую инициализацию метода в моменты начал вокализации, а также коррекцию ошибок метода йБ при сбоях. Совместная работа обоих алгоритмов обеспечивает автоматическую инициализацию всего алгоритма в целом и повышение надежности и точности выделения мгновенных значений частоты ОТ.

Предложенный и реализованный алгоритм выбора оптимальной функции решения и алгоритм выбора времени блокировки выполняют автоматическую адаптацию параметров алгоритма GS к произнесению произвольного диктора.

Разработанный алгоритм определения порогов принятия решения Т/НТ по гистограмме обобщенного признака, вычисляемого синхронно с основным тоном, позволяет принимать решение Т/НТ для произвольного речевого сигнала в условиях изменения окружающей речевой обстановки.

Создан комплекс обучения интонационным особенностям иностранных языков, включая тональные языки. Комплекс обучения языку может работать как в интерактивном режиме, так и в условиях дистанционного обучения разговорной речи.

Разработанный в работе алгоритм автоматического выделения ОТ, обладающий повышенной точностью и надежностью выделения частоты ОТ и обеспечивающий автоматическую адаптацию к произвольному диктору в условиях реальной речевой обстановки, может найти применение в устройствах компрессии речи, используемых в системах связи и телекоммуникаций; в системах распознавания диктора по голосу для контроля прав доступа диктора к отдельным объектам; в системах оценки эмоционального состояния диктора, например в системах контроля состояния авиадиспетчеров; машинистов локомотивов и т.п.; в системах распознавания смысла высказывания и в других областях науки и техники.

Разработанные в диссертационной работе подходы анализа и обработки акустического сигнала нашли применение в экспертно — криминалистическом центре МВД по Удмуртской Республике при проведении криминалистической идентификации дикторов по фонограммам их устной речи, а именно при проведении микроанализа, на кафедре «Английский язык» при обучении интонационным особенностям иностранных языков, а также в виде программ и методик, внедренных в учебной и научной работе кафедры вычислительной техники Ижевского государственного технического университета, что подтверждено соответствующими актами.

Апробация работы. Основные научные положения и практические результаты диссертационной работы обсуждались на: научно технической конференции «Приборостроение в XXI. Интеграция науки, образования и производства» (Ижевск, 2004г.); на 3-ей научно-технической конференции «Приборостроение в XXI. Интеграция науки, образования и производства» (Ижевск, 2006г.); на XVIII сессии Российского акустического общества. Секция «Акустика речи» (Таганрог, 2006г) (работа отмечена дипломом); на XIX сессии Российского акустического общества. Секция «Акустика речи» (Нижний-Новгород, 2007г.) (работа отмечена дипломом); на XX сессии Российского акустического общества. Секция «Акустика речи» (Москва, 2008г.) (работа отмечена дипломом).

Публикации. Основные результаты диссертации опубликованы в 21 работах, из них 2 опубликованы в издании, рекомендованном ВАК РФ.

Структура и объем диссертации. Диссертационная работа состоит из введения, пяти глав, заключения и приложения. Основной текст изложен на 168 машинописных страницах, содержит 64 рисунка и 22 таблицы'. Список литературы включает 142 наименований.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность, сформулированы цель и задачи исследований, дана общая характеристика работы. Кратко изложено содержание работы, отражены основные положения, имеющие научную новизну и практическую ценность.

В первой главе рассмотрены методы построения детекторов вокализации и выделителей основного тона. Указаны проблемы сравнения качества измерения ОТ разными методами. Сформулированы требования, которым должен удовлетворять выделитель ОТ. Обоснован выбор метода в качестве локального метода выделения ОТ. Показаны пути повышения надежности измерения ОТ и классификации речи по способу образования.

Во второй главе показан принцип работы - метода. Дано описание разработанного на кафедре ВТ ИжГТУ алгоритма выделения ОТ по методу СБ с ручной настройкой параметров алгоритма, в том числе описание этапов предварительной обработки речевого сигнала, описание способа простановки марок в началах периодов ОТ, методика принятия решения Т/НТ по синхронному с ОТ способу. Показаны недостатки существующего алгоритма (алгоритм 651) и пути их решения. Описан используемый речевой сигнал и методика проведения испытаний.

Существенным отличием выделителя ОТ по - методу является активная генерация функций решений, что позволяет совместить высокое разрешение по времени, присущее пиковым выделителям ОТ, с пониженной чувствительностью к появлению ложных максимумов на периоде ОТ, обеспечивает возможность адаптации функции решений к анализируемому сигналу речи, возможность синхронного с ОТ анализа признака Т/НТ, и, как следствие, повышает надежность выделения ОТ, надежность принятия решения Т/НТ и снижает временные затраты на принятие этих решений.

Рис.1 поясняет принцип действия ОТ - метода. Сплошной линией показана функция логарифма положительной полуволны речевого сигнала, штриховой линией показана функция решений, марками А/;, М/+1 показаны главные максимумы речевого сигнала. Функция решений в предлагаемом алгоритме по своей величине должна превышать ложные максимумы логарифмированного сигнала на периоде ОТ. Операция логарифмирования сжимает динамический диапазон речевого сигнала и, тем самым, выполняет операцию нормирования сигнала по амплитуде.

Наклон, нарастающей и спадающей частей функции g(t) может быть различным. Поскольку на интервале нарастания решение о новом импульсе ОТ блокировано, то генерировать нарастающую часть нет смысла. Время блокировки устанавливают равным части от ожидаемой длительности периода ОТ:

Тбл =<2/тох, (1)

где б _ коэффициент заполнения периода ОТ, 0 <() < 1.0, Тож - длительность ожидаемого периода ОТ. В качестве Тож на интервалах вокализации брали длительность предшествующего периода ОТ, в момент перехода от невокализирован-

Рис. 1. Принцип действия СБ-метода

ного интервала к вокализированному - априорно ожидаемую среднею длительность периода ОТ ГОУ.

Наклон спадающей части функции решения находят по формулам:

K6n=D/T6jl, (2)

к = -к6л-Л, (3)

где Абл и k - наклон нарастающей и спадающей частей соответственно, D - приращение максимума функции решения, определяемое на основе статистики речи. А -коэффициент асимметрии функции решения. Приращение D и коэффициент асимметрии А должны обеспечить превышение ложных максимумов текущего периода ОТ по амплитуде, и тем самым, надежную оценку основного максимума следующего периода ОТ.

На основе полученных значений j и к генерируют спадающую часть функции решений:

g(t)=S(M,)+D + kt (4)

начиная со времени / =j до тех пор, пока логарифм основного лепестка следующего периода ОТ не превысит значение g(f).

После того, как момент пересечения git) и S(t) найден, выполняют процедуру поиска максимума лепестка сигнала S(t), с которым произошло пересечение. Координата максимума соответствует началу следующего периода ОТ, т.е. марке А/,+ 1. Далее находят длительность текущего периода ОТ Г/. Т, = Мм - М,.

Метод GS позволяет проводить синхронный с ОТ анализ признаков Т/НТ, если за интервал анализа принимать расстояние между двумя соседними марками независимо от того, какой сигнал анализируют: вокализированный или невокали-зированный.

В качестве признаков принятия решения Т/НТ выбраны:

1) Логарифм частоты пересечения нулевого уровня сигналом на интервале анализа (Jin4H)-Zlcf.

2) Логарифм энергии сигнала на интервале анализа на интервале анализа.

3) Нормализованный коэффициент корреляции с единичной задержкой Я,О)-

Для упрощения процедуры классификации, выбранные три признака объединяют в один обобщенный признак G(i), где i - номер текущего периода ОТ. G(г) вычисляют по формуле:

а 7 ■ (5)

icr

Область значений обобщенного признака G(i) при помощи фиксированных порогов g0, gy gi разбивают на четыре подобласти: «Уверенно НЕ ТОН», «Неуверенно НЕ ТОН», «Неуверенно ТО.Н» и «Уверенно ТОН». Окончательное решение Т/НТ принимают на этапе постобработки.

Качество работы алгоритма GS 1 в существенной мере зависит от способа генерации алгоритмом функции решений g(t), от стратегии подбора параметров этой функции и от значений порогов g0, gi, g2- Для качественного выделения ОТ в алгоритме GS1 необходима ручная настройка, подбор параметров Tm Q, А, g0, gi, g2 в ходе многократного прогона алгоритма и визуальный анализ полученных значений величины ОТ оператором, знающим особенности работы алгоритма. Такой подход не применим в условиях, когда оператор проводящий работу, не знает всех особенностей работы рассматриваемого алгоритма выделения ОТ.

Анализ работы алгоритма 651, выполненный в главе 2 диссертации, показывает следующее.

1) Настройка параметров функции решения g(t) может быть ограничена подбором величины ожидаемого значения периода ОТ Тож, значений коэффициента асимметрии функции решения (А), величины коэффициента заполнения (0 и величины приращения максимума функции решения (В).

2) Пороги, (£о, g■г) используемые в алгоритме для классификации Т/НТ по обобщенному признаку С{1), фиксированы и не учитывают изменчивость

Так как алгоритм <751 работает только с положительной полуволной сигнала, необходима оценка полярности речевого сигнала на этапе предварительной обработки. Полярность и количество инверсий сигнала, поступающего на выделитель СИ, зависят от процесса возбуждения речевого тракта, от передаточных функций канала обработки сигнала и канала связи и могут рассматриваться как случайные.

Для повышения точности и надежности выделения ОТ необходимо предварительно определить полуволну анализируемого сигнала, по которой следует оценивать период ОТ. Найти необходимую полуволну можно на основе свойства асимметрии временной функции речевого сигнала. Надежность оценки полярности волны станет выше, если путем центрального ограничения исключить симметричные части речевой волны (рис.2).

В качестве критерия, по которому можно определить асимметрию речевой волны, предложено использовать разность А площадей положительной Ар и отрицательной Ат полуволн центрально ограниченного речевого сигнала.

Проведенные в работе эксперименты позволили сделать следующие выводы.

1) Уровень относительного порога центрального ограничения Кп существенно влияет на значение разностного критерия А, вплоть до смены знака критерия Л.

2) Зависимость значения критерия А от величины К„ различна для разных дикторов, различных произношений, различного уровня окружающего шума и различных параметров тракта передачи речевого сигнала. Выбор оптимального значения Кп, при котором обеспечивается надежное определение знака критерия А, в значительной мере затруднен.

Для повышения надежности принятия решения о полярности сигнала вместо одиночного разностного критерия А предложено использовать сумму разностных критериев, определяемую как:

ы\

речевого сигнала и окружающей обстановки.

речевого сигнала

где АI - разностный критерий А, вычисленный для значения порога Кп(Р), / = 1,2... Ь,Ь~ число пороговых уровней порога Кп, на которые делят диапазон значений сигнала.

Экспериментальная оценка критерия Ах показывает:

1. Уровень аддитивного белого шума, добавляемого к сигналу, при значениях соотношения сигнал / шум (С/Ш) больших 5 дБ (С/Ш > 5дБ), слабо влияет на значение А

2. Для уверенного принятия решения о полярности сигнала, поступающего на вход выделителя ОТ, достаточно Ь = 4...5 уровней центрального ограничения.

3. С ростом Ь надежность принятия решения о полярности входного сигнала возрастает.

Точность выделения ОТ тестируемым методом оценивали следующим образом. Различали четыре вида ошибок:

1. Ошибки Т/НТ - тестируемый метод принимает решение ТОН, когда на эталонном контуре имеется решение НЕ ТОН.

2. НТ/Т - тестируемый метод принимает решение НЕ ТОН, когда на эталонном контуре имеется решение ТОН.

3. Малые ошибки (МО) - значения частоты ОТ, измеренные на вокализированном интервале, отличаются от эталонных в диапазоне от 5% до 15%. Отклоне- ' ния, меньшие 5% , не учитывали. Малые ошибки в значительной степени зависят от частоты дискретизации сигналов и от различия способов простановки марок в эталонном контуре и в методе СБ. По этой причине, малые ошибки в общую оценку тестируемых методов не включали.

4. Большие ошибки (БО) — измеренные на вокализированном интервале значения частоты ОТ отличаются от эталонных более чем на 15%.

Оценку представленных типов ошибок выполняли через 1 мс на всем произнесении, используемом для тестирования. Относительное количество ошибок Т/НТ и НТ/Т вычисляли по отношению ко всей длительности произнесения. Относительное количество больших и малых ошибок - по отношению к суммарной длительности вокализированных участков. Ошибки Т/НТ и НТ/Т имеют одинаковую природу и сильно коррелированны между собой. По этой причине для совместного учета количества ошибок Т/НТ и НТ/Т вычисляли их среднее значениие:

Т/НТср = ~ (Т/НТ + НТЛГ). (7)

Ошибки Т/НТср и БО имеют различную природу. Считая, что Т/НТср и БО некоррелированы, для вычисления обобщенной ошибки, характеризующей в целом тестируемый метод, предложено использовать эвклидово расстояние между

КТ/НТСр и БО: _

ОБШ ~ ^Т///Гс2р + БО1 . (8)

Третья глава посвящена описанию алгоритма выделения основного тона по автокорреляционной функции спектра (АКФС), используемого для инициализации алгоритма Представлены результаты экспериментов по оценке надежности выделения ОТ алгоритмом АКФС. Изложен алгоритм организации совместной работы выделителей ОТ по методам и АКФС.

Согласно формулы (1) параметры функции решения вычисляют исходя из ожидаемой длительности периода ОТ Тож. Значение Тож в момент перехода от не-вокализированного интервала к вокализированному неизвестно, в алгоритме С51

Го» задавали исходя из априорных данных об ожидаемом среднем значении периода ОТ. Выполнить автоматическую инициализацию алгоритма GS можно, если определять значения Тож при помощи другого алгоритма выделения ОТ, отличного от алгоритма GS. Этот алгоритм начальной оценки частоты ОТ должен отвечать следующим требованиям:

1. Работа алгоритма не должна зависеть от априорных сведений о частоте

ОТ.

2. Алгоритм должен обладать повышенной надежностью определения ожидаемой частоты ОТ, особенно на начальных участках вокализации.

3. Алгоритм начальной оценки включается относительно редко, для него допустимо повышенное количество вычислений при работе в реальном масштабе времени в объединенном с GS алгоритме.

С целью удовлетворения поставленным требованиям выбран интегральный метод выделения ОТ, основанный на спектральном анализе и обладающий следующими свойствами:

1. Тип анализируемого звука заранее неизвестен. Кадр анализа может быть расположен как на вокализированном, так и на невокализированном отрезке звука. Для того, чтобы «захватить» вокализированный интервал звука, длительностью кадра анализа должен быть не меньше максимальной длительности невокализиро-ванного звука непрерывной речи.

2. Так как алгоритм начальной оценки частоты ОТ может работать на произвольных отрезках речевого сигнала, он должен обладать повышенной способностью определять наличие вокализации в анализируемом сигнале речи.

3. В случае использования спектральных методов выделения ОТ, точность определения частоты ОТ зависит от разрешающей способности спектрального описания по частоте и тем самым, от длительности интервала анализа. Длительность интервала анализа должна быть не менее трех периодов ОТ.

4. Алгоритм начальной оценки частоты ОТ может быть использован для коррекции работы алгоритма GS при наличии сбоев в алгоритме GS .

Учитывая свойства алгоритма GS можно предположить, что возможен некоторый диапазон значений Гож, когда изменение значений Тож внутри этого диапазона, не будет отражаться на наличие ошибки выделения ОТ методом GS. Для определения указанного диапазона проведены эксперименты. Найденные алгоритмом начальной оценки значения Тож преобразовывали по формуле:

Т ож = К/ Тож, (9)

где К, - коэффициент преобразования значений Тож, который изменяли в диапазоне К, = 0,4... 2.

Обобщенная ошибка Обобщэнняя ошибка

:) Коэффичмкт, К1 б) к~ффиф»нт, и

Рис. 3. Зависимость усредненной обобщенной ошибки для 9 дикторов, от значения начальной оценки частоты ОТ. а) Сигнал без шума; б) С/Ш = 5 дБ

Значения Тож, преобразованные по формуле (10), подставляли в алгоритм в качестве значений начальной оценки частоты ОТ. Результаты экспериментов показывают (рис.3), что изменение Тож в диапазоне от 0,8 до 1,4 относительно значения, найденного алгоритмом начальной оценки, практически не влияет на точность выделения ОТ алгоритмом

Эти эксперименты позволяют сделать вывод, что относительная точность оценки периода ОТ, получаемая алгоритмом начальной оценки, может быть снижена до значений порядка -20%...+40% относительно истинного значения частоты ОТ. В пересчете на частоту имеем допустимую точность оценки ожидаемой частоты ОТ примерно ±25%.

'у-ууЛ:

.у-ч

2 б)

М\л/

а) Уа

Рис. 4. Примеры спектров речевого сигнала. Предложение: «Не видали мы такого невода». Диктор женщина, а) Невокализированиая пауза смычки и шум освобождения, фонема /Т/. б) вокализированный отрезок стационарной части гласной, фонема Ы из слова «видали»

Спектр вокализированного звука в низкочастотной части имеет ярко выраженную гармоническую структуру (рис.4). Начиная с частот 2000...2500 Гц, гармоничность спектра нарушается, и в области высоких частот огибающая спектра принимает шумовой характер.

Для гармоник ОТ, представленных в спектре, гармоническое соотношение если и выполняется, то выполняется приблизительно. Эта особенность спектра объясняется квазипериодическим характером речевого сигнала даже на стационарных интервалах вокализированных звуков. Наличие негармонических составляющих и нестрогое соблюдение гармонического ряда гармониками ОТ существенно затрудняет оценку ОТ спектральными методами, особенно на начальных интервалах вокализации.

Для подавления влияния шума предложено использовать автокорреляционную функцию огибающей спектра (АКФС). Автокорреляционная функция (АКФ) периодического процесса периодична, причем период АКФ равен периоду периодического процесса. Можно предположить, что применение автокорреляционной функции огибающей спектра (АКФС) позволит подчеркнуть периодичность спектра, связанную с его гармониками ОТ. Максимумы АКФС, соответствующие гармоническим числам ОТ, можно использовать для отсеивания составляющих спектра, не связанных с гармониками ОТ.

м(п) - временное окно

х(0

Выделение кадра анализа

БПФ

АКФС

— Выделение

гармоник и

медианная

—- фильтрация

ОТ

Рис. 5. Структурная схема алгоритма начальной оценки частоты ОТ (АКФС)

Структурная схема предлагаемого алгоритма начальной оценки частоты ОТ показана на рис. 5.

Исходный речевой сигнал *(/') делят на кадры анализа длительностью N отсчетов. При частоте опроса /оп = 10 кГц, длительность кадра принята равной Ттр = 102,4 мс & - 1024 отсчета), исходя из следующих соображений. Длительность Гкадр = 102,4 мс отвечает изложенным требованиям к длительности интервала анализа интегральным методом. Кроме того, длительность кадра анализа N=: 1024 отсчета при частоте опроса = 10 кГц обеспечивает разрешающую способность спектра по частоте Д/= ± 0,5/М - ±0,5Ю3 / 1024 = ±4,9 Гц. Относительная погрешность 5/'= Д/%ждля мужского голоса с/ож - 1 /Тож = 120 Гц соответственно равна 5/ = ±4,1%, для женского голоса с/ож = 240 Гц - Ь/- ±2,0%. Указанные значения 8/существенно меньше допустимых изменений Д/ож = ± 25%.

Отсчеты речевого сигнала, ограниченные кадром анализа, умножали на окно и'(я) (рис. 5). На этапе предварительных экспериментов в качестве ч>(и) выбрано окно Хемминга. Для сигнала, ограниченного окном, вычисляли кратковременный спектр при помощи алгоритма БПФ (N = 1024) отсчета. Для огибающей кратковременного спектра сигнала находили АКФС по формуле:

/г(о=§ (ю)

где Я(1) - значение АКФС для 1-го значения сдвига частот, 5(А) - отсчет модуля спектра для к-ой частоты спектра, К - номер отсчета спектра, соответствующий частоте 2,5 кГц при общей ширине спектра, равной^ / 2 = 10 -103/2 = 5-103 Гц.

В блоке оценки частоты ОТ определяют последовательно значения всех локальных максимумов

/С* и минимумов (ш = 0, 1, ...М) АКФС (рис.6), где М- общее количество пар максимум - минимум. Затем вычисляют разность £>„ между последовательными значениями максимумов и минимумов Рис. 6. Автокорреляционная функция спектра нарастающей части АКФС:

= Км ~ Кт (11)

и определяют среднее значение этой разности:

м

(12)

В качестве кандидатов в максимумы АКФС, по которым должна оцениваться частота ОТ, оставляют только те, которые удовлетворяют одному из двух условий:

£>«>£><*, (13)

5(/ш) (14)

где 5(/т) - отсчет спектра сигнала, соответствующий положению , £тах -максимальное значение спектра на кадре анализа, К„ - пороговый множитель. В предварительных экспериментах множитель К„ - брали равным К„ = 1/6.

Указанная процедура отбора максимумов позволяет убрать из рас-

смотрения небольшие пульсации АКФС и отбросить те максимумы, которым не соответствуют сильные гармоники в спектре сигнала. Положения по частоте отобранных кандидатов в гармоники в идеальном случае должны быть кратными частоте ОТ. С целью нахождения окончательного значения частоты ОТ, расстояния между отобранными максимумами АКФС подвергали медианной фильтрации и полученное после медианной фильтрации расстояние принимали в качестве значения частоты ОТ. Эта операция соответствует выбору наиболее представительного гармонического числа в алгоритме гармонического сита.

Пример, иллюстрирующий работу алгоритма АКФС, показан на рис.7. На Верхнем графике показан спектр фонемы /а/ из предложения «Не видали мы такого невода», произнесенный диктором АЮ. На нижнем графике - АКФС этого спектра и отобранные кандидаты в гармоники ОТ.

Алгоритм АКФС показал наилучшие результаты при использовании окна Коши (со значением параметра а = 6). Формула этого окна не включает в себя сложные функции, что снижает вычислительную сложность метода.

От значения порога Кп в алгоритме АКФС зависит количество выделенных кандидатов в гармоники ОТ. По результатам экспериментов наименьшее количество ошибок алгоритм АКФС дает при значение порога Кп = 1/5, что близко к значению Кп = 1/6, использованному в методе гармонического сита Слайтера.

Проведены эксперименты для оценки надежности выделения ОТ алгоритмом АКФС на речевом материале полученном от 6 дикторов мужчин и 5 дикторов женщин. Результаты выделения ОТ алгоритмом АКФС сравнивали с результатами выделения ОТ кепстральным методом. При отсутствии шума алгоритм АКФС давал 7% ошибок против 16% ошибок, полученных кепстральным методом. Для с значений С/Ш от 40 дБ до -5 дБ алгоритм АКФС был предпочтительнее кепст-рального метода. Уровень 50% количества больших ошибок алгоритмом АКФС был пересечен при соотношении С/Ш около 0 дБ, а кепстральным методом - при соотношении С/Ш = 5 дБ. Для сигнала, ограниченного полосой телефонного канала средняя ошибка алгоритма АКФС по сравнению с исходным сигналом, возросла до 10,6 % для кепстрального метода до 17,3%.

(внизу) с отмеченными выбранными гармониками

Основываясь на модели речеобразования и исходя из физических соображений можно полагать, что скорость изменения частоты ОТ на вокализированных участках речевого сигнала ограничена. Следовательно, большие скачки оценок частоты ОТ и существенная нестабильность этих оценок могут служить признаком либо ошибочного решения, принимаемого методом 08, либо переходом метода (75 на обработку невокализированного участка речевого сигнала.

На верхнем графике рис.8 показана траектория контура частоты ОТ, измеренная методом ОБ\; на среднем графике - осциллограмма речевого сигнала и на нижнем графике - значения относительного изменения соседних периодов основного тона:

(15)

где Т\,Т\.\- значения соседних периодов ОТ. Рис.8 подтверждает высказанные ранее заключения о том, что полученные методом 05 оценки частоты ОТ на невока-лизированных интервалах и на интервалах начала вокализации имеют повышенную нестабильность.

Совместная работа метода СБ и алгоритма АКФС требует разработки критерия, определяющего моменты времени, в которые необходимо подключать алгоритм АКФС. Метод АКФС является интегральным. Он имеет повышенную вычислительную сложность из-за операций, связанных с вычислением спектра и функции автокорреляции спектра. Для уменьшения вычислительной сложности совместного алгоритма работы методов ОБ и АКФС необходимо минимизировать количество включений алгоритма АКФС.

Алгоритм АКФС включали в моменты, когда значение отношения й (формула (15)) превышало порог ¿/пор:

(1> ¿пор, (16)

где значение с1пор = 25% найдено из экспериментов, в которых участвовало 8 дикторов мужчин и 8 дикторов женщин. Эти эксперименты показали, что в случае выбора ¿/пор = 25% вероятность ошибки первого рода (ложные включения алгоритма АКФС на вокализированных интервалах) равна р = 0,06. Вероятность ошибки второго рода (отсутствие включения алгоритма АКФС на невокализированных интервалах) равна р = 0,39.

Малое значение ошибки первого рода и большое значение ошибки второго рода позволяет снизить количество включений алгоритма начальной оценки на невокализированных интервалах и, тем самым, уменьшить общее количество вычислений при выполнении процедуры выделения ОТ.

Достаточно высокая вероятность (р = 0,39) того, что относительное изменение длительности соседних периодов на невокализированном интервале не превысит 4,0р говорит о том, что вблизи перехода к вокализированному интервалу включение алгоритма АКФС может не произойти. Если, при этом, длительность оце-

Рис.8. График частоты ОТ (верху), осциллограмма речевого сигнала (середина) и относительное изменение соседних периодов частоты ОТ (внизу). Серым цветом отмечены невокализированные участки

ненного квазипериода ОТ на невокализированном интервале кратна периоду ОТ, то после перехода на вокализированный интервал возможен сбой алгоритма ОЯ на режим слежения за кратной частотой (периодом) ОТ. Эксперименты подтвердили высказанное выше соображение. С целью устранения подобного вида сбоев был введен дополнительный признак перехода от невокализированного интервала к вокализированному. Признак основан на измерении относительного приращения логарифма амплитуды сигнала в месте простановки двух соседних марок:

5,. (;-]) = \Б(М,) - 5(Мм)| / 5(АГМ) = |£„| / 5(Мм), (17)

где 5(М1) - логарифм амплитуды сигнала в момент простановки марки М„ -величина приращения амплитуд, соответствующих двум соседним маркам. Решение о включении алгоритма АКФС принимается в том случае, если значение 5/, превышает порог: 8/, > бпор, а условие (16) не выполнено.

Для определения оптимального значения порога 5пор проведены эксперименты, в ходе которых порог 5пор изменяли в пределах от ОД до 0,9 и подсчитывали обобщенную ошибку для алгоритма Ст52 (описание которого дано в четвертой главе). Наименьшая обобщенная ошибка найденная по экспериментам соответствует 5Пор = 0,3.

1' II

п IV ч

Рис. 9. Осциллограммы речевого сигнала. Толстые линии с маркером - моменты включения интегрального алгоритма начальной оценки ОТ, тонкие линии — метки начал периодов ОТ, поставленные локальным алгоритмом выделения ОТ. Диктор мужчина АЮ

Пример совместной работы методов СБ2 и АКФС показан на рис.9. Тонкими линиями на этом рисунке отмечено положение марок, проставляемых методом СБ2 в началах периодов ОТ. Толстыми линиями - моменты включения алгоритма АКФС.

На вокализированных интервалах алгоритм начальной оценки включался относительно редко. Увеличение количества таких включений наблюдалось, в основном, в следующих ситуациях: 1) На начальных интервалах вокализации, когда скорость изменения траектории ОТ высока. 2) На интервалах окончаний произнесения фразы, для которых характерна пониженная устойчивость работы голосового источника.

В четвертой главе описана методика автоматического выбора параметров метода С}8, включая выбор оптимального значения коэффициента асимметрии, методика выбора коэффициента заполнения и величины приращения Д изложен алгоритм определения порогов §1, gг по гистограмме распределений обобщен' ного признака 6'(/). Дано описание алгоритма выделения ОТ с использованием ал-I горитмов ОБ и АКФС, с автоматическим выбором параметров алгоритмов и с ав-I тематической оценкой порогов принятия решения Т/НТ (алгоритм 652). Представлена структурная схема алгоритма

В отличие от алгоритма выделения ОТ по методу GS, работающего без подстройки параметров под конкретного диктора (алгоритм GS 1), вместо одной функции решений g(t) предложено генерировать дискретное семейство функций решений g(t, Aj), где коэффициент асимметрии Aj - принимает значения в пределах Аш„ < Aj < Атах, j = 1 ..L. Пример дискретного семейства функций g(t) показан на рис.10. Дискретные значения /^выбирали на основе рекуррентного соотношения:

AJ+l=0+K)Aj, (18)

где А"-коэффициент дискретного увеличения асимметрии.

На рис. 10 штрихпунктирной линией показан логарифм положительной полуволны речевого сигнала, толстой сплошной линией - общая часть семейства функции решений g(t, Aj), тонкими сплошными линиями - семейство g(t, А/) для различных значений коэффициента асимметрии Лу. Функции семейства git, Aj), которые пересекаются с основным лепестком следующего периода ОТ, определяют положение начала следующего периода М,.

Диапазон значений коэффициента асимметрии должен отвечать следующим требованиям:

1) Число пропусков основных лепестков следующего периода ОТ и количество пересечений с неосновными лепестками текущего периода ОТ должно быть минимальным.

2) На любом вокализированном интервале хотя бы одна функция из семейства g(t, Aj) должна попадать на основной максимум следующего периода ОТ, в том числе, и при резком изменении интенсивности речевого сигнала.

звонкая пауза смычки для диктора мужчины

Указанные выше требования с использованием статистики речевого сигнала позволяют определить минимальное и максимальное значение коэффициента асимметрии Ат„„ Атах и значения коэффициента дискретного приращения асимметрии К.

На рис. 11 приведены экспериментально полученные примеры семейства решающих функций, построенных на переходе гласная - озвонченная пауза смычного звонкого согласного (переход /ид/ слов «не видали») для диктора мужчины АЮ.

С целью оценки диапазона значений коэффициента асимметрии проведены исследования, в которых определяли предельные значения коэффициента асимметрии для функций решения, которые являются касательными к максимумам основного лепестка последующего периода ОТ. На основе этих данных для удовлетворения требований, наложенных на значения Л, выбрано А„,ах = 6.2, Ат/„ =1.2, К = 0.25.

При использовании семейства решающих функций возможно два варианта решения (см. рис.10):

1) Все решающие функции обнаружили один максимум, расположенный с одним и тем же смещением с1 = (Г0(')-7о(г-1 У7о(г-1) относительно предыдущего максимума, где То (0 - значение периода 7о, соответствующее вновь найденному максимуму

2) Решающие функции обнаружили несколько максимумов со смещением соотносительно предыдущего максимума:

4=(ГЛ0-Го(/-1)/Го(/-1), (19)

где 7У(() - значение периода Т0, соответствующее одному из у вновь найденных максимумов (/= 1,2,...).

В первом случае выбор положения максимума для вычисления текущего периода очевиден. Во втором случае среди обнаруженных кандидатов в максимум, соответствующий началу следующего периода ОТ, необходимо выбрать один.

При наличии нескольких кандидатов Г(/ в периоды ОТ, оценки начал следующего периода ОТ, полученные семейством функций g(t), сравнивали между собой. Из этих оценок отбирали те 77/ 0 = 1, 2,..) , которые давали значение нового I периода ОТ, наиболее близкое к значениям предшествующих периодов ОТ. В ка-[ честве меры близости выбрано относительное изменение периода В качестве [ значения длительности текущего периода ОТ Т0 выбирали 7У, которому соответствовало минимальное значение ¿[¡. Если все найденные оценки нового периода ОТ отличались от значения предшествующего периода ОТ более, чем на некоторую пороговую величину 410р> то от полученных семейством функций оценок периода ОТ отказывались и выполняли оценку нового периода ОТ алгоритмом АКФС.

gi

Jjj.1. J kL Jill

.,JL.

C„v G„„ + <5„v C, G„-<5„ G„ Gv + dy

Рис. 12. Экспериментальная гистограмма распределения обобщенного признака ТНТ с найденными значениями математического ожидания и с.к.о. для вокализированных и невокализированных участков. Суммарная гистограмма всех произнесений диктора АЮ

11

biKw ир.ммцмтчьиий rtpufoimi

Определение

ФВЧ рабочей -» Нормализация

полу полны

Логарнфмн I poiaime I

JL

Клок >ipoci«»oakii unpo«

Применение решения T/HT по обобщенному признаку G требует установки значений порогов g0, gi, g2. В алгоритме GS 1 значения порогов g0, gi, gi выбирают исходя из априорных сведений о речи. Такой подход не способен учесть все возможные изменения анализируемых произнесений и окружающей диктора обстановки. По этим причинам решено принимать решение Т/НТ за два прохода алгоритма.

На первом проходе ставят марки в начале каждого периода ОТ и вычисляют значение обобщенного признака G по формуле (5) для каждого периода ОТ. Эту процедуру выполняют как на вокализированных, так и на невокализированных интервалах речи.

После окончания первого прохода для всего произнесения в целом строят гистограмму значений признака G (рис. 12, экспериментальная гистограмма распределения обобщенного признака Т/НТ с найденными значениями математического ожидания и с.к.о. для вокализированных и невокализированных участков диктора АЮ), и вычисляют среднее значение этого признака G,. Эксперименты показывают, что величину G, можно принять за первоначальную оценку границы

между значениями обобщенного признака, соответствующими вокализированным (G(/) > Gi) и невокализированным (G(i) < G,) признакам речевого сигнала. Для интервала значений G(i) < G, (предположительно невокапизированные звуки) вычисляли среднее значение обобщенного признака Guv и среднеквадратическое отклонение <tuv . Аналогично, для вокализированных интервала значений G(i) (G(t) > G,) среднее значение обобщенного признака Gv и среднеквадратическое отклонение <rv (предположительно вокализированные звуки).

Исследовано несколько экспериментальных правил задания значений порогов go, gi, gz на речевом материале. Минимальная обобщенная ошибка (ОБШ = 2,76%) получена в том случае, когда значения порогов So, gi, gz устанавливали из следующих соотношений: g0 = Guv, gi = G,, g3 = Gv

Так же, как и в алгоритме GS 1, область значений G(i), расположенная ниже порога go

Настроение Выбор функции решения пи Поиск максимума и Адипищн*

функций простановка GS - мстодп

блиэоегк марки

Прсляпритсль fiufi иналш ОТ метолом ЛКФС

Ашшг) ci.iGini.imcn периолоп

С.чредсиигИтс порот

Энергия jj ё

s а 1! м ОЛЛмснкый прилик TUT |ь

Частот» Псрсссчспм пуля i ё II

«1 К<ч>рлнп>1м

«чх* -

1-ыПКЛП 1 О

Змпчсии« •нцлшм (Ucpiww) ОТ

ripiijHux T/IIT

Рис. 13. Структурная схема 052 - алгоритма выделения ОТ совместно с алгоритмом предварительной оценки ОТ

(G(j') < g0), отнесена к области «Уверенно НЕ ТОН», область значений go < G(i) < gi - к области «Неуверенно НЕ ТОН», область значений gi < G(i) < g2 - к области «Неуверенно ТОН» и область значений G{i) > g2 ~ «Уверенно ТОН». В блоке окончательного принятия решения Т/НТ принимали бинарное решение Т/НТ с учетом значений отношения d и длительностей интервалов вокализированных и невокализированных участков.

Структурная схема алгоритма представлена на рис. 13. Алгоритм состоит из четырех основных блоков: блок предварительной обработки, блок простановки марок, блок начальной оценки частоты ОТ и блок классификации речи на вокализированные и невокализированные интервалы по признаку Т/НТ.

В пятой главе представлены результаты сопоставительных испытаний предложенного в работе алгоритма автоматизированного выделения основного тона GS2 с алгоритмом выделения ОТ GS1, с алгоритмами выделения ОТ, основанными на пиковом, фильтровом, кепстральном методе, методе Рабинера-Гоулда и методе ЛЖ реализованных в системе SIS 5.0 (Фирма «Центр речевых технологий», г. С. Петербург), для чистого сигнала, сигнала с добавленным шумом, сигнале, ограниченного полосой телефонного канала и для предельно ограниченного сигнала с разным уровнем ограничения. Все алгоритмы кроме GS2 требовали ручной подстройки параметров. Дано описание разработанной в рамках настоящей работы системы обучения интонационным особенностям языка, показаны предварительные результаты по оценке возможностей использования параметров траектории ОТ для построения системы распознавания дикторов по голосу.

Суммарные результаты испытаний по оценке обобщенной ошибки представлены в табл. 1, по восьми дикторам мужчинам, семи дикторам женщинам, произносивших в общей сложности семьдесят семь предложений. Обобщенную ошибку вычисляли по формуле (5), в которой использовали значения ошибок-г Т/НТср и БО полученные путем суммирования средних ошибок Т/НТ и больших ошибок по всем экспериментам на всех типах сигналов. Алгоритм GS2 показал лучшие средние результаты. Только при соотношении С/Ш = 5 дБ метод Рабинера - Гоулда оказался лучше (при повышенном значении ошибок Т/НТср). Последнее замечание существенно, так как рост ошибок Т/НТ снижает количество больших ошибок.

В случае обработки смеси сигнала с шумом во всех методах в первую очередь терялись участки начала и окончания произнесения, появилялись многочисленные ошибки на переходах между фонемами.

Таблица 1.

Результаты испытаний выделителей ОТ_

Метод Сигнал GS2 Пиковый Кепст-раль-ный Автокорреляционный Рабинер-Гоулд Фильтровой ЛЛК

Без шума 2.76 4.13 6.02 11.93 5.96 . 7.56 3.63

С/Ш = 5 дБ 18.56 20.11 23.18 19.75 17.79 21.59 23.57

Телефонный 9.86 15.81 10.55 24.42 30.68 21.37 21.37

Клиппир. 1.91 13.76 7.03 9.89 4.05 8.31 2.01

Рис. 14. Структурная схема информационно - измерительной системы

Большое количество ошибок происходило на интервалах смычек звонких согласных (смычки фонемы /д/ в словах "видали" и "невода"), на коротких звонких интервалах, расположенных между глухими смычками (фонема /а/ в слове "такого"), в конце предложений. Кепстральный метод, автокорреляционный метод и метод Рабинера-Гоулда не выделяли мелкие пульсации траектории ОТ, что соответствует интегральной природе этих методов.

Алгоритм GS2 обеспечил правильное слежение за траекторией основного тона на протяжении всего произнесения, даже при отношениях С/Ш = 5дБ, в то время как остальные алгоритмы, включая метод Ра-бинера - Гоулда, оказались практически неработоспособны. Алгоритм GS2 показал себя как конкурентоспособный при сравнении с алгоритмами выделения ОТ, требующими ручной подстройки параметров. На базе алгоритма GS2 разработана информационно - измерительная система по автоматическому выделению контура ОТ (рис.14). На рис.15 показан пример представления информации на экране дисплея, когда система используется для обучения интонационным особенностям языка. В отличие от системы «Tell me more», в предлагаемой системе добавлена возможность записи новых произнесений в базу эталонов и возможность записи результатов обучения учащимся на электронный носитель.

Предварительные эксперименты по использованию предлагаемой системы для обучения интонационным особенностям речи показали эффективность этой системы. Получаемые навыки интонирования произнесений были устойчивы и закреплялись в последующих после обучения произнесениях. Существенно то, что алгоритм принятия решения Т/НТ и алгоритм выделе-

Рис.15. Пример представления информации на экране дисплея. Произнесение слова «Clean» после процесса обучения

ния контура ОТ используют признаки речевого сигнала, характерные для речи в целом и не зависящие от конкретного типа языка. Испытания показали, что предлагаемая система успешно работала с произнесениями на русском, английском, татарском и удмуртском языках.

Проведена экспериментальная оценка надежности идентификации диктора по параметрам траектории ОТ, получаемой при помощи алгоритма С52 . В ходе предварительных экспериментов были отобраны следующие параметры траектории ОТ, полученные на парольной фразе и подлежащие проверке: среднее значение ОТ (/"ср), среднеквадратическое отклонение от средней траектории ОТ (5), асимметрия (Ля) и эксцесс (Ех), максимальное значение ОТ (/тах), минимальное значение ОТ (/„)„), средняя скорость нарастания/убывания частоты ОТ на вокализированных участках (и^ир/С/&*<,„.„), максимальный диапазон изменения ОТ (/лаД

В качестве парольной фразы выбрана фраза средней длительности, составленная из пяти слов: «Машинист Иванов подтверждает, горит красный». Эксперимент проводился с голосами двух дикторов (один мужской и один женский голос). Парольная фраза повторялась 16 раз каждым диктором с интервалом от 1-го до 3-х дней в течение месяца.

Анализ данных позволяет расположить параметры ОТ по степени значимости в зависимости от отношения расстояния <Л между средними значениями признака для разных дикторов к среднеквадратичному отклонению этого признака для отдельного диктора: среднее значение ОТ (с? = 10,764), минимальное значение ОТ (с1 = 3,034), средняя скорость возрастания ОТ (Ы = 1,514), максимальное значение ОТ (с1 = 0,985), асимметрия (с? = 0,713), средняя скорость убывания ОТ (¡1 = 0,462), максимальный диапазон изменения ОТ (с/ = 0,406), эксцесс (с/ = 0,171), среднеквадратическое отклонение от среднего значения ОТ (г/= 0,057).

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ

1. Впервые предложена, разработана и исследована методика автоматической адаптации параметров С5-метода, используемая при выделении основного тона речевого сигнала в условиях реальной речевой обстановки, предложен критерий выбора текущего оптимального значения параметров б&-метода из набора альтернативных значений, получаемых в процессе обработки речевого сигнала.

2. Впервые разработана стратегия управления совместной работой двух выделителей ОТ различного типа: локального выделителя основного тона, реализованного на методе СУ, и интегрального выделителя ОТ, использующего автокорреляционную функцию огибающей спектра. Предложен и исследован критерий определения моментов включения интегрального метода, который выполняет инициализацию метода на переходах от невокализированных звуков к вокализированным, осуществляет коррекцию сбоев метода ОБ и способствует снижению общего количества вычислений за счет уменьшения количества включений интегрального метода.

3. Предложена, разработана и исследована методика принятия решения Т/НТ, обеспечивающая адаптацию решения к произвольному речевому сигналу, когда окончательное решение Т/НТ принимают на втором проходе алгоритма по гистограмме значений обобщенного признака, вычисляемого синхронно с основным тоном.

4. Впервые предложен и разработан интегральный алгоритм выделения основного тона, в котором для повышения надежности принятия решения о гармониках ОТ используется автокорреляционная функция огибающей спектра (АКФС) и медианная фильтрация. Алгоритм обладает повышенной надежностью оценок интегральных значений частоты ОТ, в том числе на переходах от невокализированных звуков к вокализированным, при работе с сигналом при низких значениях

соотношения сигнал/шум. Количество больших ошибок оценки частоты ОТ методом АКФС снижено в 1,5-2 раза по сравнению с кепстральным методом.

5. Впервые разработана методика оценки полярности речевого сигнала, поступающего на выделитель основного тона, которая позволяет строить системы выделения параметров речи, инвариантные относительно числа инверсий в каскадах обработки и передачи речевого сигнала, в том числе, системы синхронного с ОТ анализа речи.

6. Создан практический алгоритм автоматического выделения частоты ОТ, не требующий нормализации сигнала по амплитуде, обладающий повышенной точностью оценки мгновенных значений частоты ОТ. Разработанный алгоритм выделения ОТ обеспечил значение обобщенной ошибки 2,76% на чистом сигнале, 9,86% - на телефонном сигнале, 18,56% - на сигнале с аддитивным шумом и при соотношении сигнал/шум 5 дБ.

7. Разработана информационно-измерительная система, предназначенная для автоматического выделения частоты основного тона речи на основе совместного использования локального и интегрального методов выделения основного тона, на базе автоматической адаптации параметров локального выделителя основного тона к речевому сигналу и на основе подстройки порогов принятия решения Т/НТ к конкретной реализации речевого сигнала.

8. Показана возможность идентификации диктора по интонационным контурам парольных фраз, полученным предложенным в работе алгоритмом автоматического выделения основного тона. На основе информационно-измерительной системы создан информационно-измерительный комплекс для обучения интонационным особенностям иностранных языков. Разработанные в работе алгоритмы и программы по цифровой обработке сигналов использованы при проведении криминалистических экспертиз, в учебном процессе при изучении соответствующих дисциплин, в ходе дипломного проектирования и выполнения магистерских работ.

Выводы 1, 2, 3 относятся к специальности 05.13.01- Системный анализ, управление и обработка информации (технические науки), выводы 4, 5, 6, 7, 8 - к специальности 05.11.16 - Информационно-измерительные и управляющие системы (по отраслям).

СПИСОК РАБОТ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ

1.Лузин Д.А. Алгоритм выделения основного тона речевого сигнала на основе автокорреляционной функции спектра // Высокие технологии-2004: Сб. тр. науч.-техн. форума с междунар. участием: В 4ч.-Ч.З.- Ижевск: Изд-во ИжГТУ, 2004. -С. 100-106.

2. Гитлин В.Б., Лузин Д.А. Программа выделения основного тона речи по методу СБ с использование оконного интерфейса // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. -Ижевск: Изд-во ИжГТУ, 2004,- С.288-293.

3. Гитлин В.Б., Лузин Д.А. Алгоритм поиска оптимального значения коэффициента асимметрии в выделителе основного тона по методу 08 // Сб. тр. XVIII сессии Российского акустического общества. Таганрог, Том 3. -М.: ГЕОС, 2006.- С. 11-14.

4. Лузин Д.А. Алгоритм начальной оценки основного тона речи для выделителя основного тона речи по методу вБ // Сб. тр. XVIII сессии Российского акустического общества. Таганрог. Том 3. -М.: ГЕОС, 2006.- С. 21-23.

5. Лузин Д.А. Скобкарева С.А. Алгоритм начальной оценки частоты основного тона в системе выделения основного тона речи по методу GS // Информационные системы в промышленности и образования: Сб. тр. молод, ученых. Вып.1. - Ижевск: Изд-во ИжГТУ, 2006. - С. 55-58.

6. Лузин Д. А. Влияние нормализации амплитуды речевого сигнала на надежность принятия решения «ТОН/НЕ ТОН» в методе GS // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. -Ижевск: Изд-во ИжГТУ, 2007, С.389-393.

7. Лузин Д. А., Гитлин В.Б. Переключение полярности входного сигнала в выделителе основного тона речи по методу GS // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. -Ижевск: Изд-во ИжГТУ, 2007, С.382-385.

8. Гитлин В. Б., Лузин Д.А. Стабильность значений последовательных периодов основного тона как признак вокализированности речи // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. -Ижевск: Изд-во ИжГТУ, 2007.-С.385-389.

9. Лузин Д.А. Экспериментальная оценка точности выделения основного тона речевого сигнала по автокорреляционной функции спектра // Сб. тр. XIX сессии Российского акустического общества. Нижний-Новгород. Том 3. -М.:ГЕОС, 2007.- С. 1922.

10. Гитлин В. Б., Лузин Д. А. Стабильность отношений последовательных периодов основного тона речи как критерий переключения совместно работающих выделителей основного тона // Сб. тр. XIX сессии Российского акустического общества. Нижний-Новгород. Том 3. -М.: ГЕОС, 2007.- С.23-26.

11. Агафонов Н.В., Гитлин В.Б., Лузин Д.А. Идентификации диктора по параметрам траектории основного тона - предварительные результаты // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.2. - Ижевск: Изд-во ИжГТУ, 2007. - С. 6-10.

12. Архипов И.О., Лузин Д.А., Ведерников A.A. Сравнительный анализ точности алгоритмов выделения основного тона по методу GS различных модификаций И Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.2. - Ижевск: Изд-во ИжГТУ, 2007. - С. 15-20.

13. Архипов И.О., Лузин Д.А., Ходырев A.C. Анализ алгоритмов принятия решения «ТОН - НЕ ТОН» в первой и второй редакции выделения основного тона речи по методу GS // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.2. - Ижевск: Изд-во ИжГТУ, 2007. - С. 20-24.

14. Гитлин В.Б., Лузин Д.А. Интегральная оценка полярности речевого сигнала, проступающего на вход локального выделителя основного тона // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.2. - Ижевск: Изд-во ИжГТУ, 2007. - С. 46-50.

15. Лузин Д.А., Якимов O.A. Выбор параметров кепсгрального метода выделения основного тона речи и выделителя основного тона, основанного на автокорреляционной функции спектра // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.2. - Ижевск: Изд-во ИжГТУ, 2007. - С.62 -66.

16. Лузин Д.А., Оглезнев С.Н. Комплекс программ для визуализации представления результатов эксперимента при выделении основного тона речи // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.З. — Ижевск: Изд-во ИжГТУ, 2008. -С.118-122.

17. Лузин Д.А., Лекомцева ЕЛО. Комплекс программ для системы обучения интонационным особенностям иностранных языков // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.З. - Ижевск: Изд-во Иж-ГТУ, 2008.— С.101-106.

18. Гитлин В. Б., Лузин Д. А. Экспериментальная оценка точности выделения частоты основного тона обобщенным методом СБ II Сб. тр. XX сессии Российского акустического общества. Москва. Том 3. -М.: ГЕОС, 2008.- С.54-58.

19. Гитлин В. Б., Лузин Д. А., Фаррахов А. Ф. Система обучения интонационным особенностям языка И Сб. тр. XX сессии Российского акустического общества. Москва. Том 3. -М.: ГЕОС, 2008,- С.52-54.

20. Архипов И.А., Гитлин В.Б., Лузин Д.А. Синхронный с основным тоном двух-проходный алгоритм принятия решения «ТОН-НЕ ТОН» // Вестник ИжГТУ. -Ижевск: Изд-во ИжГТУ, 2008.-№4. - С.150-153.

21. Гитлин В.Б., Лузин Д.А. Автоматический алгоритм выделения основного тона речи по методу СБ // Вестник ИжГТУ. - Ижевск: Изд-во ИжГТУ, 2008.-№4. -С.157-160.

Г

Д.А. Лузин.

Подписано в печать 04.05.09. Усл. печ. л. 1,63. Тираж 100 экз. Заказ №193

Издательство Ижевского государственного технического университета Отпечатано в типографии Издательства ИжГТУ. Ижевск, Студенческая, 7

Оглавление автор диссертации — кандидата технических наук Лузин, Дмитрий Александрович

СОДЕРЖАНИЕ

СПИСОК СОКРАЩЕНИЙ

ВВЕДЕНИЕ

ГЛАВА 1. МЕТОДЫ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА РЕЧИ

1.1. Общие положения

1.2. Классификация методов выделения основного тона

1.3. Предварительная обработка речевого сигнала

1.4. Методы выделения ОТ

1.4.1. Временные методы выделения основного тона

1.4.2. Спектральные методы выделения основного тона

1.4.3. Комбинированные методы выделения ОТ

1.5. Выделение интервалов вокализованных и невокализованных звуков

1.5.1. Классификация выделителей Т/НТ

1.5.2. Методы принятия решения Т/НТ на основе частоты пересечений сигналом нулевого уровня

1.5.3. Методы принятия решения Т/НТ на основе энергетического критерия

1.5.4. Методы принятия решения Т/НТ на основе линейного предсказания речи

1.5.5. Методы принятия решения Т/НТ по оценке общей периодичности речевого сигнала

1.5.6. Методы принятия решения Т/НТ по изменению периодичности, получаемой при выделении ОТ

1.5.7. Принятие решения Т/НТ на основе многомерного анализа

1.6. Методы анализа результатов выделения ОТ

1.7. Выбор алгоритма выделения ОТ речи

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Лузин, Дмитрий Александрович

3.2. Диапазон допустимых отклонений начальной частоты ОТ 71

3.3. Начальная оценка частоты ОТ с использованием автокорреляционной функции спектра (алгоритм АКФС) 72 3.3.1 Эксперименты по выбору окна 77

3.3.2. Оценка значения шага, используемого для смещения кадра анализа 80

3.3.3. Определение оптимального порога отбора гармоник 82

3.4. Экспериментальная оценка надежности выделения ОТ алгоритмом АКФС 84

3.5. Организация совместной работы метода GS и алгоритма АКФС 88

3.6. Выводы 94 ГЛАВА 4. СОВМЕСТНЫЙ АЛГОРИТМ ВЫДЕЛЕНИЯ ОТ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ GS И АКФС 96 4.1. Адаптация коэффициента асимметрии^ к анализируемому сигналу 96

4.2. Алгоритм поиска оптимального значения коэффициента асимметрии

101 102 104

104

110

112 115

ГЛАВА 5. СРАВНИТЕЛЬНЫМ АНАЛИЗ ВЫДЕЛИТЕЛЕН ОСНОВНОГО

ТОНА, ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ

РАБОТЫ 118

5.1. Выделители основного тона в системе SIS 118

5.2. Сравнение результатов работы выделителей основного тона 123

5.3. Информационно — измерительная система с использованием алгоритма GS2 138

5.3.1. Программа TwoPassS 139

5.3.2. Программа SignalGSExplorer 140

5.4. Система обучения интонационным особенностям языка. 142

5.5. Идентификация диктора по параметрам траектории ОТ — предварительные результаты 145

5.6. Выводы 149 ЗАКЛЮЧЕНИЕ 151 СПИСОК ЛИТЕРАТУРЫ 154 ПРИЛОЖЕНИЕ Акты об использовании результатов диссертационной работы 166 в выделение основного тона по методу GS

4.3. Приращение максимума функции решения алгоритма GS

4.4. Изменение коэффициента заполнения Q в алгоритме GS

4.5. Динамическое определение порогов и алгоритм принятия решения Т/НТ

4.5.1. Введение дополнительного критерия в обобщенный признак Т/НТ

4.6. Структурная схема алгоритма выделения основного тона речи с адаптацией параметров алгоритма

4.7. Выводы

СПИСОК СОКРАЩЕНИЙ

ОТ — основной тон

ИИС — информационно-измерительная система '

ЛЧПН — логарифмическая частота пересечения нуля

ЧГГН - частота пересечения нуля

НТ/Т - "НЕ ТОН/ТОН"

Т/НТ - "ТОН/НЕ ТОН" с.к.о. — среднеквадратичное отклонение

С/Ш — сигнал/шум

ФНЧ — фильтр низких частот

ФВЧ — фильтр верхних частот

АКФС — автокорреляционная функция огибающей спектра

АКФ — автокорреляционная функция

АРУ - автоматическое регулирование усиления

ОБШ — обобщенная ошибка

КБО — количество больших ошибок

ТНТср - среднее количество ошибок НТ/Т и Т/НТ

GS - Generated Solitone - генерируемый (искусственный ) солитон SIS - система распознавания диктора ("Центр речевых технологий" г. С.-Петербург)

Е — энергия в логарифмическом масштабе Fq — частота основного тона с - частота среза фильтра предварительной обработки

G - обобщенный признак Т/НТ

Т0 — длительность периода основного тона

Тож - ожидаемая длительности периода основного тона

R( 1) — коэффициент корреляции с единичной задержкой

Zcr — частота пересечений нуля

Z'cr — логарифмическая частота пересечений нуля git) — функция решения

А — коэффициент асимметрии функции решения D — приращение функции решения Q — коэффициент заполнения функции решения

ВВЕДЕНИЕ

Актуальность темы. Речь есть средство обмена информацией между людьми. В устной речи содержится существенно большее количество информации по сравнению с письменным текстом: информация, связанная с контекстом произнесения, информация об интонационном типе высказывания (повествование, вопрос, восклицание), об эмоциональной направленности высказывания, об эмоциональном состоянии диктора, о стиле произнесения (монолог, диалог, беседа, читаемый научный текст, читаемый газетный текст и т.д.), об окружающей диктора обстановке, информация о заболевании голосового аппарата человека и т.д.

В области наук, связанных с речью работали и работают многие известные ученые, как в России, так и за рубежом: JI.H. Бондарко, В.И. Галунов, В.Р. Женило, Н.Г. Загоруйко, JI.B. Златоустова, C.JI. Коваль, О.Ф. Кривнова, В.Г. Михайлов, А.А Пирогов, М.А. Сапожков, В.Н. Сорокин, Р.К. Потапова, В.Н. Трунин-Донской, JI.A. Чистович, Атал, Гоулд, Итакура, Рабинер, Редди, Шафер, Фант, Фланаган и ряд других.