автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка и исследование системы автоматического выделения основного тона речи
Автореферат диссертации по теме "Разработка и исследование системы автоматического выделения основного тона речи"
На правах рукописи ЛУЗИН Дмитрий Александрович
УДК 004.934.2
РАЗРАБОТКА И ИССЛЕДОВАНИЕ СИСТЕМЫ АВТОМАТИЧЕСКОГО ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА
РЕЧИ
Специальности:
05.13.01 - Системный анализ, управление и обработка информации
(в науке и технике) 05.11.16 - Информационно-измерительные и управляющие системы
(по отраслям)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
г.
Ижевск - 2009
003471731
*
Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Ижевский государственный технический университет» (ГОУ ВПО ИжГТУ)
Научный руководитель -
Ведущая организация - Казанский государственный технический университет им. А.Н. Туполева
Защита диссертации состоится 18 июня 2009г. в 1400 на заседании диссертационного совета Д 212.065.06 в ГОУ ВПО ИжГТУ по адресу: 426069, г. Ижевск, ул. Студенческая, 7.
Отзывы на автореферат, заверенные гербовой печатью, просим высылать по указанному адресу в двух экземплярах.
С диссертацией можно ознакомиться в библиотеке ГОУ ВПО ИжГТУ. С авторефератом можно ознакомиться на официальном сайте ГОУ ВПО ИжГТУ: http://www.istu.ru.
Автореферат разослан ¿^Р^Г 2009г.
Заслуженный деятель наук УР д.т.н., профессор, Гитлин В.Б.
Официальные оппоненты - д.т.н., профессор
Мурынов А.И.
Заслуженный деятель наук УР д.т.н., профессор Шелковников Ю.К.
Ученый секретарь диссертационного совета, Кандидат технических наук, доцент
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Речь есть средство обмена информацией между людьми. В устной речи содержится существенно большее количество информации по сравнению с письменным текстом: информация, связанная с контекстом произнесения, информация об интонационном типе высказывания (повествование, вопрос, восклицание), об эмоциональной направленности высказывания, об эмоциональном состоянии диктора, о стиле произнесения (монолог, диалог, беседа, читаемый научный текст, читаемый газетный текст и т.д.), об окружающей диктора обстановке, информация о заболевании голосового аппарата человека и т.д.
В области наук, связанных с речью работали и работают многие известные ученые, как в России, так и за рубежом: Л.Н. Бондарко, В.И. Галунов, В.Р. Женило, Н.Г. Загоруйко, Л.В. Златоустова, C.JL Коваль, О.Ф. Кривнова, В.Г. Михайлов, А.А Пирогов, М.А. Сапожков, В.Н. Сорокин, Р.К. Потапова, В.Н. Трунин-Донской, Л.А. Чистович, Атал, Гоулд, Итакура, Рабинер, Редди, Шафер, Фант, Фланаган и ряд других.
Научные работы в области использования речи в человеко-машинных системах относятся к приоритетному направлению РФФИ «Теория человеко-машинных систем управления».
Одним из основных параметров устной речи является частота повторения колебаний голосовых связок при произнесении вокализированной речи, называемая «Основным тоном» (ОТ). В мгновенных значениях частоты ОТ, в траектории контура ОТ переносится значительное количество информации, отличающей устную речь от письменной. Статистические параметры основного тона, диапазон его значений, диапазон скоростей изменения и т.д. в значительной мере определяют структуру и параметры устройств выделения основного тона. Эти устройства входят в состав большинства систем распознавания и обработки речи и относятся к одним из основных и наиболее сложных блоков.
Взаимодействие факторов, влияющих на контур ОТ, нелинейно и имеет довольно сложные зависимости, трудно поддающиеся математическому описанию. В значительной мере методы анализа и обработки речи, используемые в системах распознавания и передачи данных, основаны на эвристических предположениях.
Методы выделения ОТ, которые можно было бы использовать для решения всех поставленных выше проблем, отсутствуют. Разработка алгоритма выделения ОТ, обеспечивающего точную и надежную оценку значений частоты ОТ, работающего в автоматическом режиме с реальным речевым сигналом в условиях реальной речевой обстановки, является актуальной задачей.
Выделитель частоты ОТ должен определять мгновенные значения частоты ОТ на всем интервале работы голосового источника, включая моменты начала и окончания вокализации. Знание мгновенных значений частоты ОТ позволяет сохранить всю информацию, содержащуюся в контуре ОТ, включая изменения, связанные с мелодией ОТ. Этот алгоритм должен работать в автоматическом режиме для произвольного речевого сигнала в условиях реальной речевой обстановки. Алгоритм должен быть достаточно прост и удобен для встраивания в другие программы по обработки речи человеко-машинных систем управления. Интерфейс алгоритма должен быть дружественным по отношению к произвольному, в том числе, незнакомому с особенностями алгоритма, пользователю.
Объект исследования: системы выделения информации из акустического сигнала речи, системы автоматизации измерений, системы выделения основного тона речевого сигнала.
Предмет исследования: интегральные и локальные методы выделения основного тона и методы принятия решения «ТОН/НЕ ТОН» (Т/НТ), обеспечивающие повышенную точность и надежность выделения частоты ОТ и признака Т/НТ, методы предварительной обработки речевого сигнала, методы организации совместной работы локального и интегрального выделителя ОТ, методы автоматизации измерений в алгоритме выделения ОТ.
Цель работы: разработка и научное обоснование алгоритма выделения основного тона совместно с алгоритмом принятия решения Т/НТ, позволяющих с высокой надежностью и точностью в автоматическом режиме определять положения моментов возбуждения речевого тракта, начал и окончаний интервалов вокализации и предназначенных для работы с речевым сигналом произвольного диктора в условиях реальной окружающей обстановки.
Для достижения поставленной цели следует решить следующие задачи:
- провести анализ существующих методов выделения ОТ и методов принятия решения Т/НТ, позволяющих с высокой надежностью и точностью определять мгновенную частоту ОТ и признак Т/НТ и способных к адаптации к конкретному речевому сигналу в процессе выделения частоты ОТ и признака Т/НТ;
- уточнить параметры существующих и разработать новые способы предварительной обработки речевого сигнала, обеспечивающие повышение надежности и точности работы алгоритма выделения ОТ;
- разработать алгоритм интегральной оценки начальной частоты ОТ, необходимой для инициализации локального выделителя ОТ в моменты перехода от невокализированных интервалов речи к вокализированным;
- разработать алгоритм организации совместной работы двух выделителей ОТ, построенных на различных принципах работы: локальном и интегральном;
- разработать методику динамической адаптации параметров алгоритма выделения ОТ к конкретной реализации речевого сигнала, определить параметры алгоритма динамической адаптации;
- разработать методику выбора порогов принятия решения Т/НТ, обеспечивающую адаптацию алгоритма к конкретному произнесению в условиях реальной речевой обстановки;
- на реальном речевом сигнале провести сравнительные эксперименты по оценке надежности и точности выделения ОТ, надежности и точности принятия решения Т/НТ предлагаемым в настоящей работе алгоритмом выделения ОТ и известными методами выделения ОТ. '
Методы исследования включают в себя методы: системного анализа, математической статистики, теории распознавания образов, теории анализа речевых сигналов, теории цифровой обработки сигналов, методы математического моделирования на ЭВМ. Экспериментальные исследования проведены с использованием стандартного математического обеспечения ЭВМ и собственного программного обеспечения.
Программно-инструментальные средства реализованы на алгоритмическом языке - СХС++. Программное обеспечение разработано в среде программирования Borland C++Builder 6.
Достоверность и обоснованность полученных результатов подтверждается результатами теоретических и экспериментальных исследований. Математические модели, алгоритмы и прикладные программы, предложенные в работе, основаны на фундаментальных положениях теории речеобразования, теории цифровой обработки сигналов, в том числе речевых сигналов, а так же на методах математической статистики.
Достоверность экспериментальных результатов обеспечивается использованием большого объема экспериментального материала, экспериментальным подтверждением предложенных в диссертации решений, а также сравнением экспериментальных результатов, полученных предложенным в настоящей работе алгоритмом, с результатами работы известных методов выделения основного тона.
На защиту выносятся результаты теоретических исследований и предложений по построению алгоритма автоматизированного выделения ОТ, в том числе:
- способ адаптации параметров локального выделителя ОТ, построенного по методу С?5, к конкретному сигналу произвольного диктора в условиях обработки речи, близких к реальным;
- алгоритм организации совместной работы локального и интегрального методов выделения ОТ, использующей нестабильность длительностей последовательных периодов ОТ как критерий включения алгоритма интегральной оценки ОТ;
- методика принятия решения Т/НТ, обеспечивающая адаптацию принимаемого решения к произвольному речевому сигналу;
- алгоритм интегральной оценки частоты ОТ на основе вычисления автокорреляционной функции огибающей спектра;
- методика определения полуволны речевого сигнала, по которой оценивают положение начала периода ОТ;
- способ оценки величины порогов принятия решения Т/НТ по гистограмме обобщенного признака Т/НТ.
- результаты сопоставительных экспериментов по выделению контуров ОТ предложенным алгоритмом выделения ОТ и известными методами выделения ОТ;
- информационно - измерительный комплекс для обучения интонационным особенностям языка;
- программно - измерительный комплекс для использования в учебном процессе при изучении дисциплин связанных с цифровой обработки сигналов.
Научная новизна полученных результатов определяется проведенными комплексными исследованиями, в результате которых разработан алгоритм выделения контура ОТ, не требующий ручной настройки, работающий в условиях реальной речевой обстановки с повышенной точностью и надежностью оценки частоты ОТ;
- впервые предложена, разработана и исследована методика автоматической адаптации параметров метода, используемая для выделения основного тона речевого сигнала в условиях реальной речевой обстановки, и предложен критерий выбора текущего оптимального значения параметров этого метода из набора альтернативных значений, получаемых в процессе обработки речевого сигнала;
- впервые разработана и обоснована стратегия управления совместной работой двух выделителей ОТ различного типа: локального выделителя основного тона, основанного на методе СБ, и интегрального выделителя ОТ, использующе-
го автокорреляционную функцию огибающей спектра. Предложен и исследован критерий определения моментов включения интегрального метода, который выполняет инициализацию метода ОБ на переходах от невокализированных звуков к вокализированным, осуществляет коррекцию сбоев метода (75 и способствует снижению общего количества вычислений за счет уменьшения количества включений интегрального метода;
- предложена, разработана и исследована методика принятия решения Т/НТ, обеспечивающая адаптацию принимаемого решения к произвольному речевому сигналу, когда окончательное решение Т/НТ принимают на втором проходе алгоритма;
- впервые предложен и разработан интегральный алгоритм выделения основного тона, в котором для повышения надежности принятия решения о гармониках ОТ используют автокорреляционную функцию огибающей спектра и медианную фильтрацию. Алгоритм обладает повышенной надежностью оценок интегральных значений частоты ОТ, в том числе на переходах от невокализированных звуков к вокализированным, при работе с сигналом при низких значениях соотношения сигнал/шум;
- впервые разработана методика оценки полярности речевого сигнала, поступающего на выделитель основного тона;
- предложен, разработан и исследован алгоритм оценки значений порогов для принятия решения Т/НТ по гистограмме значений обобщенного признака, вычисляемого синхронно с основным тоном.
Практическая полезность работы состоит в том, что в результате комплексных исследований и предложений создана информационно-измерительная система автоматического выделения частоты ОТ, не требующая нормализации сигнала по амплитуде, обладающая повышенной точностью оценки мгновенных значений частоты ОТ, определяющая начало периода ОТ и обеспечивающая автоматическую подстройку параметров алгоритма к произнесению произвольного диктора.
Разработанный в ходе исследований алгоритм определения полуволны речевого сигнала, повышает точность оценки положения начала импульса ОТ, позволяет строить системы выделения параметров речи, инвариантные относительно числа инверсий в каскадах обработки и передачи речевого сигнала, в том числе системы синхронного с ОТ анализа речи.
Созданный в работе алгоритм начальной оценки частот ОТ с использованием автокорреляционной функции огибающей спектра (АКФС) обеспечивает получение интегральной оценки частоты ОТ на переходах от невокализированных к вокализированным интервалам речи, на интервалах речи с повышенной нестабильностью траектории частоты ОТ при наличии аддитивных шумов и искажений. Совместная работа локального выделителя ОТ по методу СБ и интегрального выделителя ОТ с использованием АКФС организована на основе критерия наибольшей близости соседних периодов ОТ. Данный критерий учитывает специфику речевого сигнала и позволяет выполнить автоматическую инициализацию метода в моменты начал вокализации, а также коррекцию ошибок метода йБ при сбоях. Совместная работа обоих алгоритмов обеспечивает автоматическую инициализацию всего алгоритма в целом и повышение надежности и точности выделения мгновенных значений частоты ОТ.
Предложенный и реализованный алгоритм выбора оптимальной функции решения и алгоритм выбора времени блокировки выполняют автоматическую адаптацию параметров алгоритма GS к произнесению произвольного диктора.
Разработанный алгоритм определения порогов принятия решения Т/НТ по гистограмме обобщенного признака, вычисляемого синхронно с основным тоном, позволяет принимать решение Т/НТ для произвольного речевого сигнала в условиях изменения окружающей речевой обстановки.
Создан комплекс обучения интонационным особенностям иностранных языков, включая тональные языки. Комплекс обучения языку может работать как в интерактивном режиме, так и в условиях дистанционного обучения разговорной речи.
Разработанный в работе алгоритм автоматического выделения ОТ, обладающий повышенной точностью и надежностью выделения частоты ОТ и обеспечивающий автоматическую адаптацию к произвольному диктору в условиях реальной речевой обстановки, может найти применение в устройствах компрессии речи, используемых в системах связи и телекоммуникаций; в системах распознавания диктора по голосу для контроля прав доступа диктора к отдельным объектам; в системах оценки эмоционального состояния диктора, например в системах контроля состояния авиадиспетчеров; машинистов локомотивов и т.п.; в системах распознавания смысла высказывания и в других областях науки и техники.
Разработанные в диссертационной работе подходы анализа и обработки акустического сигнала нашли применение в экспертно — криминалистическом центре МВД по Удмуртской Республике при проведении криминалистической идентификации дикторов по фонограммам их устной речи, а именно при проведении микроанализа, на кафедре «Английский язык» при обучении интонационным особенностям иностранных языков, а также в виде программ и методик, внедренных в учебной и научной работе кафедры вычислительной техники Ижевского государственного технического университета, что подтверждено соответствующими актами.
Апробация работы. Основные научные положения и практические результаты диссертационной работы обсуждались на: научно технической конференции «Приборостроение в XXI. Интеграция науки, образования и производства» (Ижевск, 2004г.); на 3-ей научно-технической конференции «Приборостроение в XXI. Интеграция науки, образования и производства» (Ижевск, 2006г.); на XVIII сессии Российского акустического общества. Секция «Акустика речи» (Таганрог, 2006г) (работа отмечена дипломом); на XIX сессии Российского акустического общества. Секция «Акустика речи» (Нижний-Новгород, 2007г.) (работа отмечена дипломом); на XX сессии Российского акустического общества. Секция «Акустика речи» (Москва, 2008г.) (работа отмечена дипломом).
Публикации. Основные результаты диссертации опубликованы в 21 работах, из них 2 опубликованы в издании, рекомендованном ВАК РФ.
Структура и объем диссертации. Диссертационная работа состоит из введения, пяти глав, заключения и приложения. Основной текст изложен на 168 машинописных страницах, содержит 64 рисунка и 22 таблицы'. Список литературы включает 142 наименований.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность, сформулированы цель и задачи исследований, дана общая характеристика работы. Кратко изложено содержание работы, отражены основные положения, имеющие научную новизну и практическую ценность.
В первой главе рассмотрены методы построения детекторов вокализации и выделителей основного тона. Указаны проблемы сравнения качества измерения ОТ разными методами. Сформулированы требования, которым должен удовлетворять выделитель ОТ. Обоснован выбор метода в качестве локального метода выделения ОТ. Показаны пути повышения надежности измерения ОТ и классификации речи по способу образования.
Во второй главе показан принцип работы - метода. Дано описание разработанного на кафедре ВТ ИжГТУ алгоритма выделения ОТ по методу СБ с ручной настройкой параметров алгоритма, в том числе описание этапов предварительной обработки речевого сигнала, описание способа простановки марок в началах периодов ОТ, методика принятия решения Т/НТ по синхронному с ОТ способу. Показаны недостатки существующего алгоритма (алгоритм 651) и пути их решения. Описан используемый речевой сигнал и методика проведения испытаний.
Существенным отличием выделителя ОТ по - методу является активная генерация функций решений, что позволяет совместить высокое разрешение по времени, присущее пиковым выделителям ОТ, с пониженной чувствительностью к появлению ложных максимумов на периоде ОТ, обеспечивает возможность адаптации функции решений к анализируемому сигналу речи, возможность синхронного с ОТ анализа признака Т/НТ, и, как следствие, повышает надежность выделения ОТ, надежность принятия решения Т/НТ и снижает временные затраты на принятие этих решений.
Рис.1 поясняет принцип действия ОТ - метода. Сплошной линией показана функция логарифма положительной полуволны речевого сигнала, штриховой линией показана функция решений, марками А/;, М/+1 показаны главные максимумы речевого сигнала. Функция решений в предлагаемом алгоритме по своей величине должна превышать ложные максимумы логарифмированного сигнала на периоде ОТ. Операция логарифмирования сжимает динамический диапазон речевого сигнала и, тем самым, выполняет операцию нормирования сигнала по амплитуде.
Наклон, нарастающей и спадающей частей функции g(t) может быть различным. Поскольку на интервале нарастания решение о новом импульсе ОТ блокировано, то генерировать нарастающую часть нет смысла. Время блокировки устанавливают равным части от ожидаемой длительности периода ОТ:
Тбл =<2/тох, (1)
где б _ коэффициент заполнения периода ОТ, 0 <() < 1.0, Тож - длительность ожидаемого периода ОТ. В качестве Тож на интервалах вокализации брали длительность предшествующего периода ОТ, в момент перехода от невокализирован-
Рис. 1. Принцип действия СБ-метода
ного интервала к вокализированному - априорно ожидаемую среднею длительность периода ОТ ГОУ.
Наклон спадающей части функции решения находят по формулам:
K6n=D/T6jl, (2)
к = -к6л-Л, (3)
где Абл и k - наклон нарастающей и спадающей частей соответственно, D - приращение максимума функции решения, определяемое на основе статистики речи. А -коэффициент асимметрии функции решения. Приращение D и коэффициент асимметрии А должны обеспечить превышение ложных максимумов текущего периода ОТ по амплитуде, и тем самым, надежную оценку основного максимума следующего периода ОТ.
На основе полученных значений j и к генерируют спадающую часть функции решений:
g(t)=S(M,)+D + kt (4)
начиная со времени / =j до тех пор, пока логарифм основного лепестка следующего периода ОТ не превысит значение g(f).
После того, как момент пересечения git) и S(t) найден, выполняют процедуру поиска максимума лепестка сигнала S(t), с которым произошло пересечение. Координата максимума соответствует началу следующего периода ОТ, т.е. марке А/,+ 1. Далее находят длительность текущего периода ОТ Г/. Т, = Мм - М,.
Метод GS позволяет проводить синхронный с ОТ анализ признаков Т/НТ, если за интервал анализа принимать расстояние между двумя соседними марками независимо от того, какой сигнал анализируют: вокализированный или невокали-зированный.
В качестве признаков принятия решения Т/НТ выбраны:
1) Логарифм частоты пересечения нулевого уровня сигналом на интервале анализа (Jin4H)-Zlcf.
2) Логарифм энергии сигнала на интервале анализа на интервале анализа.
3) Нормализованный коэффициент корреляции с единичной задержкой Я,О)-
Для упрощения процедуры классификации, выбранные три признака объединяют в один обобщенный признак G(i), где i - номер текущего периода ОТ. G(г) вычисляют по формуле:
а 7 ■ (5)
icr
Область значений обобщенного признака G(i) при помощи фиксированных порогов g0, gy gi разбивают на четыре подобласти: «Уверенно НЕ ТОН», «Неуверенно НЕ ТОН», «Неуверенно ТО.Н» и «Уверенно ТОН». Окончательное решение Т/НТ принимают на этапе постобработки.
Качество работы алгоритма GS 1 в существенной мере зависит от способа генерации алгоритмом функции решений g(t), от стратегии подбора параметров этой функции и от значений порогов g0, gi, g2- Для качественного выделения ОТ в алгоритме GS1 необходима ручная настройка, подбор параметров Tm Q, А, g0, gi, g2 в ходе многократного прогона алгоритма и визуальный анализ полученных значений величины ОТ оператором, знающим особенности работы алгоритма. Такой подход не применим в условиях, когда оператор проводящий работу, не знает всех особенностей работы рассматриваемого алгоритма выделения ОТ.
Анализ работы алгоритма 651, выполненный в главе 2 диссертации, показывает следующее.
1) Настройка параметров функции решения g(t) может быть ограничена подбором величины ожидаемого значения периода ОТ Тож, значений коэффициента асимметрии функции решения (А), величины коэффициента заполнения (0 и величины приращения максимума функции решения (В).
2) Пороги, (£о, g■г) используемые в алгоритме для классификации Т/НТ по обобщенному признаку С{1), фиксированы и не учитывают изменчивость
Так как алгоритм <751 работает только с положительной полуволной сигнала, необходима оценка полярности речевого сигнала на этапе предварительной обработки. Полярность и количество инверсий сигнала, поступающего на выделитель СИ, зависят от процесса возбуждения речевого тракта, от передаточных функций канала обработки сигнала и канала связи и могут рассматриваться как случайные.
Для повышения точности и надежности выделения ОТ необходимо предварительно определить полуволну анализируемого сигнала, по которой следует оценивать период ОТ. Найти необходимую полуволну можно на основе свойства асимметрии временной функции речевого сигнала. Надежность оценки полярности волны станет выше, если путем центрального ограничения исключить симметричные части речевой волны (рис.2).
В качестве критерия, по которому можно определить асимметрию речевой волны, предложено использовать разность А площадей положительной Ар и отрицательной Ат полуволн центрально ограниченного речевого сигнала.
Проведенные в работе эксперименты позволили сделать следующие выводы.
1) Уровень относительного порога центрального ограничения Кп существенно влияет на значение разностного критерия А, вплоть до смены знака критерия Л.
2) Зависимость значения критерия А от величины К„ различна для разных дикторов, различных произношений, различного уровня окружающего шума и различных параметров тракта передачи речевого сигнала. Выбор оптимального значения Кп, при котором обеспечивается надежное определение знака критерия А, в значительной мере затруднен.
Для повышения надежности принятия решения о полярности сигнала вместо одиночного разностного критерия А предложено использовать сумму разностных критериев, определяемую как:
ы\
речевого сигнала и окружающей обстановки.
речевого сигнала
где АI - разностный критерий А, вычисленный для значения порога Кп(Р), / = 1,2... Ь,Ь~ число пороговых уровней порога Кп, на которые делят диапазон значений сигнала.
Экспериментальная оценка критерия Ах показывает:
1. Уровень аддитивного белого шума, добавляемого к сигналу, при значениях соотношения сигнал / шум (С/Ш) больших 5 дБ (С/Ш > 5дБ), слабо влияет на значение А
2. Для уверенного принятия решения о полярности сигнала, поступающего на вход выделителя ОТ, достаточно Ь = 4...5 уровней центрального ограничения.
3. С ростом Ь надежность принятия решения о полярности входного сигнала возрастает.
Точность выделения ОТ тестируемым методом оценивали следующим образом. Различали четыре вида ошибок:
1. Ошибки Т/НТ - тестируемый метод принимает решение ТОН, когда на эталонном контуре имеется решение НЕ ТОН.
2. НТ/Т - тестируемый метод принимает решение НЕ ТОН, когда на эталонном контуре имеется решение ТОН.
3. Малые ошибки (МО) - значения частоты ОТ, измеренные на вокализированном интервале, отличаются от эталонных в диапазоне от 5% до 15%. Отклоне- ' ния, меньшие 5% , не учитывали. Малые ошибки в значительной степени зависят от частоты дискретизации сигналов и от различия способов простановки марок в эталонном контуре и в методе СБ. По этой причине, малые ошибки в общую оценку тестируемых методов не включали.
4. Большие ошибки (БО) — измеренные на вокализированном интервале значения частоты ОТ отличаются от эталонных более чем на 15%.
Оценку представленных типов ошибок выполняли через 1 мс на всем произнесении, используемом для тестирования. Относительное количество ошибок Т/НТ и НТ/Т вычисляли по отношению ко всей длительности произнесения. Относительное количество больших и малых ошибок - по отношению к суммарной длительности вокализированных участков. Ошибки Т/НТ и НТ/Т имеют одинаковую природу и сильно коррелированны между собой. По этой причине для совместного учета количества ошибок Т/НТ и НТ/Т вычисляли их среднее значениие:
Т/НТср = ~ (Т/НТ + НТЛГ). (7)
Ошибки Т/НТср и БО имеют различную природу. Считая, что Т/НТср и БО некоррелированы, для вычисления обобщенной ошибки, характеризующей в целом тестируемый метод, предложено использовать эвклидово расстояние между
КТ/НТСр и БО: _
ОБШ ~ ^Т///Гс2р + БО1 . (8)
Третья глава посвящена описанию алгоритма выделения основного тона по автокорреляционной функции спектра (АКФС), используемого для инициализации алгоритма Представлены результаты экспериментов по оценке надежности выделения ОТ алгоритмом АКФС. Изложен алгоритм организации совместной работы выделителей ОТ по методам и АКФС.
Согласно формулы (1) параметры функции решения вычисляют исходя из ожидаемой длительности периода ОТ Тож. Значение Тож в момент перехода от не-вокализированного интервала к вокализированному неизвестно, в алгоритме С51
Го» задавали исходя из априорных данных об ожидаемом среднем значении периода ОТ. Выполнить автоматическую инициализацию алгоритма GS можно, если определять значения Тож при помощи другого алгоритма выделения ОТ, отличного от алгоритма GS. Этот алгоритм начальной оценки частоты ОТ должен отвечать следующим требованиям:
1. Работа алгоритма не должна зависеть от априорных сведений о частоте
ОТ.
2. Алгоритм должен обладать повышенной надежностью определения ожидаемой частоты ОТ, особенно на начальных участках вокализации.
3. Алгоритм начальной оценки включается относительно редко, для него допустимо повышенное количество вычислений при работе в реальном масштабе времени в объединенном с GS алгоритме.
С целью удовлетворения поставленным требованиям выбран интегральный метод выделения ОТ, основанный на спектральном анализе и обладающий следующими свойствами:
1. Тип анализируемого звука заранее неизвестен. Кадр анализа может быть расположен как на вокализированном, так и на невокализированном отрезке звука. Для того, чтобы «захватить» вокализированный интервал звука, длительностью кадра анализа должен быть не меньше максимальной длительности невокализиро-ванного звука непрерывной речи.
2. Так как алгоритм начальной оценки частоты ОТ может работать на произвольных отрезках речевого сигнала, он должен обладать повышенной способностью определять наличие вокализации в анализируемом сигнале речи.
3. В случае использования спектральных методов выделения ОТ, точность определения частоты ОТ зависит от разрешающей способности спектрального описания по частоте и тем самым, от длительности интервала анализа. Длительность интервала анализа должна быть не менее трех периодов ОТ.
4. Алгоритм начальной оценки частоты ОТ может быть использован для коррекции работы алгоритма GS при наличии сбоев в алгоритме GS .
Учитывая свойства алгоритма GS можно предположить, что возможен некоторый диапазон значений Гож, когда изменение значений Тож внутри этого диапазона, не будет отражаться на наличие ошибки выделения ОТ методом GS. Для определения указанного диапазона проведены эксперименты. Найденные алгоритмом начальной оценки значения Тож преобразовывали по формуле:
Т ож = К/ Тож, (9)
где К, - коэффициент преобразования значений Тож, который изменяли в диапазоне К, = 0,4... 2.
Обобщенная ошибка Обобщэнняя ошибка
:) Коэффичмкт, К1 б) к~ффиф»нт, и
Рис. 3. Зависимость усредненной обобщенной ошибки для 9 дикторов, от значения начальной оценки частоты ОТ. а) Сигнал без шума; б) С/Ш = 5 дБ
Значения Тож, преобразованные по формуле (10), подставляли в алгоритм в качестве значений начальной оценки частоты ОТ. Результаты экспериментов показывают (рис.3), что изменение Тож в диапазоне от 0,8 до 1,4 относительно значения, найденного алгоритмом начальной оценки, практически не влияет на точность выделения ОТ алгоритмом
Эти эксперименты позволяют сделать вывод, что относительная точность оценки периода ОТ, получаемая алгоритмом начальной оценки, может быть снижена до значений порядка -20%...+40% относительно истинного значения частоты ОТ. В пересчете на частоту имеем допустимую точность оценки ожидаемой частоты ОТ примерно ±25%.
'у-ууЛ:
.у-ч
2 б)
М\л/
а) Уа
Рис. 4. Примеры спектров речевого сигнала. Предложение: «Не видали мы такого невода». Диктор женщина, а) Невокализированиая пауза смычки и шум освобождения, фонема /Т/. б) вокализированный отрезок стационарной части гласной, фонема Ы из слова «видали»
Спектр вокализированного звука в низкочастотной части имеет ярко выраженную гармоническую структуру (рис.4). Начиная с частот 2000...2500 Гц, гармоничность спектра нарушается, и в области высоких частот огибающая спектра принимает шумовой характер.
Для гармоник ОТ, представленных в спектре, гармоническое соотношение если и выполняется, то выполняется приблизительно. Эта особенность спектра объясняется квазипериодическим характером речевого сигнала даже на стационарных интервалах вокализированных звуков. Наличие негармонических составляющих и нестрогое соблюдение гармонического ряда гармониками ОТ существенно затрудняет оценку ОТ спектральными методами, особенно на начальных интервалах вокализации.
Для подавления влияния шума предложено использовать автокорреляционную функцию огибающей спектра (АКФС). Автокорреляционная функция (АКФ) периодического процесса периодична, причем период АКФ равен периоду периодического процесса. Можно предположить, что применение автокорреляционной функции огибающей спектра (АКФС) позволит подчеркнуть периодичность спектра, связанную с его гармониками ОТ. Максимумы АКФС, соответствующие гармоническим числам ОТ, можно использовать для отсеивания составляющих спектра, не связанных с гармониками ОТ.
м(п) - временное окно
х(0
Выделение кадра анализа
БПФ
АКФС
— Выделение
гармоник и
медианная
—- фильтрация
ОТ
Рис. 5. Структурная схема алгоритма начальной оценки частоты ОТ (АКФС)
Структурная схема предлагаемого алгоритма начальной оценки частоты ОТ показана на рис. 5.
Исходный речевой сигнал *(/') делят на кадры анализа длительностью N отсчетов. При частоте опроса /оп = 10 кГц, длительность кадра принята равной Ттр = 102,4 мс & - 1024 отсчета), исходя из следующих соображений. Длительность Гкадр = 102,4 мс отвечает изложенным требованиям к длительности интервала анализа интегральным методом. Кроме того, длительность кадра анализа N=: 1024 отсчета при частоте опроса = 10 кГц обеспечивает разрешающую способность спектра по частоте Д/= ± 0,5/М - ±0,5Ю3 / 1024 = ±4,9 Гц. Относительная погрешность 5/'= Д/%ждля мужского голоса с/ож - 1 /Тож = 120 Гц соответственно равна 5/ = ±4,1%, для женского голоса с/ож = 240 Гц - Ь/- ±2,0%. Указанные значения 8/существенно меньше допустимых изменений Д/ож = ± 25%.
Отсчеты речевого сигнала, ограниченные кадром анализа, умножали на окно и'(я) (рис. 5). На этапе предварительных экспериментов в качестве ч>(и) выбрано окно Хемминга. Для сигнала, ограниченного окном, вычисляли кратковременный спектр при помощи алгоритма БПФ (N = 1024) отсчета. Для огибающей кратковременного спектра сигнала находили АКФС по формуле:
/г(о=§ (ю)
где Я(1) - значение АКФС для 1-го значения сдвига частот, 5(А) - отсчет модуля спектра для к-ой частоты спектра, К - номер отсчета спектра, соответствующий частоте 2,5 кГц при общей ширине спектра, равной^ / 2 = 10 -103/2 = 5-103 Гц.
В блоке оценки частоты ОТ определяют последовательно значения всех локальных максимумов
/С* и минимумов (ш = 0, 1, ...М) АКФС (рис.6), где М- общее количество пар максимум - минимум. Затем вычисляют разность £>„ между последовательными значениями максимумов и минимумов Рис. 6. Автокорреляционная функция спектра нарастающей части АКФС:
= Км ~ Кт (11)
и определяют среднее значение этой разности:
м
(12)
В качестве кандидатов в максимумы АКФС, по которым должна оцениваться частота ОТ, оставляют только те, которые удовлетворяют одному из двух условий:
£>«>£><*, (13)
5(/ш) (14)
где 5(/т) - отсчет спектра сигнала, соответствующий положению , £тах -максимальное значение спектра на кадре анализа, К„ - пороговый множитель. В предварительных экспериментах множитель К„ - брали равным К„ = 1/6.
Указанная процедура отбора максимумов позволяет убрать из рас-
смотрения небольшие пульсации АКФС и отбросить те максимумы, которым не соответствуют сильные гармоники в спектре сигнала. Положения по частоте отобранных кандидатов в гармоники в идеальном случае должны быть кратными частоте ОТ. С целью нахождения окончательного значения частоты ОТ, расстояния между отобранными максимумами АКФС подвергали медианной фильтрации и полученное после медианной фильтрации расстояние принимали в качестве значения частоты ОТ. Эта операция соответствует выбору наиболее представительного гармонического числа в алгоритме гармонического сита.
Пример, иллюстрирующий работу алгоритма АКФС, показан на рис.7. На Верхнем графике показан спектр фонемы /а/ из предложения «Не видали мы такого невода», произнесенный диктором АЮ. На нижнем графике - АКФС этого спектра и отобранные кандидаты в гармоники ОТ.
Алгоритм АКФС показал наилучшие результаты при использовании окна Коши (со значением параметра а = 6). Формула этого окна не включает в себя сложные функции, что снижает вычислительную сложность метода.
От значения порога Кп в алгоритме АКФС зависит количество выделенных кандидатов в гармоники ОТ. По результатам экспериментов наименьшее количество ошибок алгоритм АКФС дает при значение порога Кп = 1/5, что близко к значению Кп = 1/6, использованному в методе гармонического сита Слайтера.
Проведены эксперименты для оценки надежности выделения ОТ алгоритмом АКФС на речевом материале полученном от 6 дикторов мужчин и 5 дикторов женщин. Результаты выделения ОТ алгоритмом АКФС сравнивали с результатами выделения ОТ кепстральным методом. При отсутствии шума алгоритм АКФС давал 7% ошибок против 16% ошибок, полученных кепстральным методом. Для с значений С/Ш от 40 дБ до -5 дБ алгоритм АКФС был предпочтительнее кепст-рального метода. Уровень 50% количества больших ошибок алгоритмом АКФС был пересечен при соотношении С/Ш около 0 дБ, а кепстральным методом - при соотношении С/Ш = 5 дБ. Для сигнала, ограниченного полосой телефонного канала средняя ошибка алгоритма АКФС по сравнению с исходным сигналом, возросла до 10,6 % для кепстрального метода до 17,3%.
(внизу) с отмеченными выбранными гармониками
Основываясь на модели речеобразования и исходя из физических соображений можно полагать, что скорость изменения частоты ОТ на вокализированных участках речевого сигнала ограничена. Следовательно, большие скачки оценок частоты ОТ и существенная нестабильность этих оценок могут служить признаком либо ошибочного решения, принимаемого методом 08, либо переходом метода (75 на обработку невокализированного участка речевого сигнала.
На верхнем графике рис.8 показана траектория контура частоты ОТ, измеренная методом ОБ\; на среднем графике - осциллограмма речевого сигнала и на нижнем графике - значения относительного изменения соседних периодов основного тона:
(15)
где Т\,Т\.\- значения соседних периодов ОТ. Рис.8 подтверждает высказанные ранее заключения о том, что полученные методом 05 оценки частоты ОТ на невока-лизированных интервалах и на интервалах начала вокализации имеют повышенную нестабильность.
Совместная работа метода СБ и алгоритма АКФС требует разработки критерия, определяющего моменты времени, в которые необходимо подключать алгоритм АКФС. Метод АКФС является интегральным. Он имеет повышенную вычислительную сложность из-за операций, связанных с вычислением спектра и функции автокорреляции спектра. Для уменьшения вычислительной сложности совместного алгоритма работы методов ОБ и АКФС необходимо минимизировать количество включений алгоритма АКФС.
Алгоритм АКФС включали в моменты, когда значение отношения й (формула (15)) превышало порог ¿/пор:
(1> ¿пор, (16)
где значение с1пор = 25% найдено из экспериментов, в которых участвовало 8 дикторов мужчин и 8 дикторов женщин. Эти эксперименты показали, что в случае выбора ¿/пор = 25% вероятность ошибки первого рода (ложные включения алгоритма АКФС на вокализированных интервалах) равна р = 0,06. Вероятность ошибки второго рода (отсутствие включения алгоритма АКФС на невокализированных интервалах) равна р = 0,39.
Малое значение ошибки первого рода и большое значение ошибки второго рода позволяет снизить количество включений алгоритма начальной оценки на невокализированных интервалах и, тем самым, уменьшить общее количество вычислений при выполнении процедуры выделения ОТ.
Достаточно высокая вероятность (р = 0,39) того, что относительное изменение длительности соседних периодов на невокализированном интервале не превысит 4,0р говорит о том, что вблизи перехода к вокализированному интервалу включение алгоритма АКФС может не произойти. Если, при этом, длительность оце-
Рис.8. График частоты ОТ (верху), осциллограмма речевого сигнала (середина) и относительное изменение соседних периодов частоты ОТ (внизу). Серым цветом отмечены невокализированные участки
ненного квазипериода ОТ на невокализированном интервале кратна периоду ОТ, то после перехода на вокализированный интервал возможен сбой алгоритма ОЯ на режим слежения за кратной частотой (периодом) ОТ. Эксперименты подтвердили высказанное выше соображение. С целью устранения подобного вида сбоев был введен дополнительный признак перехода от невокализированного интервала к вокализированному. Признак основан на измерении относительного приращения логарифма амплитуды сигнала в месте простановки двух соседних марок:
5,. (;-]) = \Б(М,) - 5(Мм)| / 5(АГМ) = |£„| / 5(Мм), (17)
где 5(М1) - логарифм амплитуды сигнала в момент простановки марки М„ -величина приращения амплитуд, соответствующих двум соседним маркам. Решение о включении алгоритма АКФС принимается в том случае, если значение 5/, превышает порог: 8/, > бпор, а условие (16) не выполнено.
Для определения оптимального значения порога 5пор проведены эксперименты, в ходе которых порог 5пор изменяли в пределах от ОД до 0,9 и подсчитывали обобщенную ошибку для алгоритма Ст52 (описание которого дано в четвертой главе). Наименьшая обобщенная ошибка найденная по экспериментам соответствует 5Пор = 0,3.
1' II
п IV ч
Рис. 9. Осциллограммы речевого сигнала. Толстые линии с маркером - моменты включения интегрального алгоритма начальной оценки ОТ, тонкие линии — метки начал периодов ОТ, поставленные локальным алгоритмом выделения ОТ. Диктор мужчина АЮ
Пример совместной работы методов СБ2 и АКФС показан на рис.9. Тонкими линиями на этом рисунке отмечено положение марок, проставляемых методом СБ2 в началах периодов ОТ. Толстыми линиями - моменты включения алгоритма АКФС.
На вокализированных интервалах алгоритм начальной оценки включался относительно редко. Увеличение количества таких включений наблюдалось, в основном, в следующих ситуациях: 1) На начальных интервалах вокализации, когда скорость изменения траектории ОТ высока. 2) На интервалах окончаний произнесения фразы, для которых характерна пониженная устойчивость работы голосового источника.
В четвертой главе описана методика автоматического выбора параметров метода С}8, включая выбор оптимального значения коэффициента асимметрии, методика выбора коэффициента заполнения и величины приращения Д изложен алгоритм определения порогов §1, gг по гистограмме распределений обобщен' ного признака 6'(/). Дано описание алгоритма выделения ОТ с использованием ал-I горитмов ОБ и АКФС, с автоматическим выбором параметров алгоритмов и с ав-I тематической оценкой порогов принятия решения Т/НТ (алгоритм 652). Представлена структурная схема алгоритма
В отличие от алгоритма выделения ОТ по методу GS, работающего без подстройки параметров под конкретного диктора (алгоритм GS 1), вместо одной функции решений g(t) предложено генерировать дискретное семейство функций решений g(t, Aj), где коэффициент асимметрии Aj - принимает значения в пределах Аш„ < Aj < Атах, j = 1 ..L. Пример дискретного семейства функций g(t) показан на рис.10. Дискретные значения /^выбирали на основе рекуррентного соотношения:
AJ+l=0+K)Aj, (18)
где А"-коэффициент дискретного увеличения асимметрии.
На рис. 10 штрихпунктирной линией показан логарифм положительной полуволны речевого сигнала, толстой сплошной линией - общая часть семейства функции решений g(t, Aj), тонкими сплошными линиями - семейство g(t, А/) для различных значений коэффициента асимметрии Лу. Функции семейства git, Aj), которые пересекаются с основным лепестком следующего периода ОТ, определяют положение начала следующего периода М,.
Диапазон значений коэффициента асимметрии должен отвечать следующим требованиям:
1) Число пропусков основных лепестков следующего периода ОТ и количество пересечений с неосновными лепестками текущего периода ОТ должно быть минимальным.
2) На любом вокализированном интервале хотя бы одна функция из семейства g(t, Aj) должна попадать на основной максимум следующего периода ОТ, в том числе, и при резком изменении интенсивности речевого сигнала.
звонкая пауза смычки для диктора мужчины
Указанные выше требования с использованием статистики речевого сигнала позволяют определить минимальное и максимальное значение коэффициента асимметрии Ат„„ Атах и значения коэффициента дискретного приращения асимметрии К.
На рис. 11 приведены экспериментально полученные примеры семейства решающих функций, построенных на переходе гласная - озвонченная пауза смычного звонкого согласного (переход /ид/ слов «не видали») для диктора мужчины АЮ.
С целью оценки диапазона значений коэффициента асимметрии проведены исследования, в которых определяли предельные значения коэффициента асимметрии для функций решения, которые являются касательными к максимумам основного лепестка последующего периода ОТ. На основе этих данных для удовлетворения требований, наложенных на значения Л, выбрано А„,ах = 6.2, Ат/„ =1.2, К = 0.25.
При использовании семейства решающих функций возможно два варианта решения (см. рис.10):
1) Все решающие функции обнаружили один максимум, расположенный с одним и тем же смещением с1 = (Г0(')-7о(г-1 У7о(г-1) относительно предыдущего максимума, где То (0 - значение периода 7о, соответствующее вновь найденному максимуму
2) Решающие функции обнаружили несколько максимумов со смещением соотносительно предыдущего максимума:
4=(ГЛ0-Го(/-1)/Го(/-1), (19)
где 7У(() - значение периода Т0, соответствующее одному из у вновь найденных максимумов (/= 1,2,...).
В первом случае выбор положения максимума для вычисления текущего периода очевиден. Во втором случае среди обнаруженных кандидатов в максимум, соответствующий началу следующего периода ОТ, необходимо выбрать один.
При наличии нескольких кандидатов Г(/ в периоды ОТ, оценки начал следующего периода ОТ, полученные семейством функций g(t), сравнивали между собой. Из этих оценок отбирали те 77/ 0 = 1, 2,..) , которые давали значение нового I периода ОТ, наиболее близкое к значениям предшествующих периодов ОТ. В ка-[ честве меры близости выбрано относительное изменение периода В качестве [ значения длительности текущего периода ОТ Т0 выбирали 7У, которому соответствовало минимальное значение ¿[¡. Если все найденные оценки нового периода ОТ отличались от значения предшествующего периода ОТ более, чем на некоторую пороговую величину 410р> то от полученных семейством функций оценок периода ОТ отказывались и выполняли оценку нового периода ОТ алгоритмом АКФС.
gi
gi
Jjj.1. J kL Jill
.,JL.
C„v G„„ + <5„v C, G„-<5„ G„ Gv + dy
Рис. 12. Экспериментальная гистограмма распределения обобщенного признака ТНТ с найденными значениями математического ожидания и с.к.о. для вокализированных и невокализированных участков. Суммарная гистограмма всех произнесений диктора АЮ
11
biKw ир.ммцмтчьиий rtpufoimi
Определение
ФВЧ рабочей -» Нормализация
полу полны
Логарнфмн I poiaime I
JL
Клок >ipoci«»oakii unpo«
Применение решения T/HT по обобщенному признаку G требует установки значений порогов g0, gi, g2. В алгоритме GS 1 значения порогов g0, gi, gi выбирают исходя из априорных сведений о речи. Такой подход не способен учесть все возможные изменения анализируемых произнесений и окружающей диктора обстановки. По этим причинам решено принимать решение Т/НТ за два прохода алгоритма.
На первом проходе ставят марки в начале каждого периода ОТ и вычисляют значение обобщенного признака G по формуле (5) для каждого периода ОТ. Эту процедуру выполняют как на вокализированных, так и на невокализированных интервалах речи.
После окончания первого прохода для всего произнесения в целом строят гистограмму значений признака G (рис. 12, экспериментальная гистограмма распределения обобщенного признака Т/НТ с найденными значениями математического ожидания и с.к.о. для вокализированных и невокализированных участков диктора АЮ), и вычисляют среднее значение этого признака G,. Эксперименты показывают, что величину G, можно принять за первоначальную оценку границы
между значениями обобщенного признака, соответствующими вокализированным (G(/) > Gi) и невокализированным (G(i) < G,) признакам речевого сигнала. Для интервала значений G(i) < G, (предположительно невокапизированные звуки) вычисляли среднее значение обобщенного признака Guv и среднеквадратическое отклонение <tuv . Аналогично, для вокализированных интервала значений G(i) (G(t) > G,) среднее значение обобщенного признака Gv и среднеквадратическое отклонение <rv (предположительно вокализированные звуки).
Исследовано несколько экспериментальных правил задания значений порогов go, gi, gz на речевом материале. Минимальная обобщенная ошибка (ОБШ = 2,76%) получена в том случае, когда значения порогов So, gi, gz устанавливали из следующих соотношений: g0 = Guv, gi = G,, g3 = Gv
Так же, как и в алгоритме GS 1, область значений G(i), расположенная ниже порога go
Настроение Выбор функции решения пи Поиск максимума и Адипищн*
функций простановка GS - мстодп
блиэоегк марки
Прсляпритсль fiufi иналш ОТ метолом ЛКФС
Ашшг) ci.iGini.imcn периолоп
С.чредсиигИтс порот
Энергия jj ё
s а 1! м ОЛЛмснкый прилик TUT |ь
Частот» Псрсссчспм пуля i ё II
«1 К<ч>рлнп>1м
«чх* -
1-ыПКЛП 1 О
Змпчсии« •нцлшм (Ucpiww) ОТ
ripiijHux T/IIT
Рис. 13. Структурная схема 052 - алгоритма выделения ОТ совместно с алгоритмом предварительной оценки ОТ
(G(j') < g0), отнесена к области «Уверенно НЕ ТОН», область значений go < G(i) < gi - к области «Неуверенно НЕ ТОН», область значений gi < G(i) < g2 - к области «Неуверенно ТОН» и область значений G{i) > g2 ~ «Уверенно ТОН». В блоке окончательного принятия решения Т/НТ принимали бинарное решение Т/НТ с учетом значений отношения d и длительностей интервалов вокализированных и невокализированных участков.
Структурная схема алгоритма представлена на рис. 13. Алгоритм состоит из четырех основных блоков: блок предварительной обработки, блок простановки марок, блок начальной оценки частоты ОТ и блок классификации речи на вокализированные и невокализированные интервалы по признаку Т/НТ.
В пятой главе представлены результаты сопоставительных испытаний предложенного в работе алгоритма автоматизированного выделения основного тона GS2 с алгоритмом выделения ОТ GS1, с алгоритмами выделения ОТ, основанными на пиковом, фильтровом, кепстральном методе, методе Рабинера-Гоулда и методе ЛЖ реализованных в системе SIS 5.0 (Фирма «Центр речевых технологий», г. С. Петербург), для чистого сигнала, сигнала с добавленным шумом, сигнале, ограниченного полосой телефонного канала и для предельно ограниченного сигнала с разным уровнем ограничения. Все алгоритмы кроме GS2 требовали ручной подстройки параметров. Дано описание разработанной в рамках настоящей работы системы обучения интонационным особенностям языка, показаны предварительные результаты по оценке возможностей использования параметров траектории ОТ для построения системы распознавания дикторов по голосу.
Суммарные результаты испытаний по оценке обобщенной ошибки представлены в табл. 1, по восьми дикторам мужчинам, семи дикторам женщинам, произносивших в общей сложности семьдесят семь предложений. Обобщенную ошибку вычисляли по формуле (5), в которой использовали значения ошибок-г Т/НТср и БО полученные путем суммирования средних ошибок Т/НТ и больших ошибок по всем экспериментам на всех типах сигналов. Алгоритм GS2 показал лучшие средние результаты. Только при соотношении С/Ш = 5 дБ метод Рабинера - Гоулда оказался лучше (при повышенном значении ошибок Т/НТср). Последнее замечание существенно, так как рост ошибок Т/НТ снижает количество больших ошибок.
В случае обработки смеси сигнала с шумом во всех методах в первую очередь терялись участки начала и окончания произнесения, появилялись многочисленные ошибки на переходах между фонемами.
Таблица 1.
Результаты испытаний выделителей ОТ_
Метод Сигнал GS2 Пиковый Кепст-раль-ный Автокорреляционный Рабинер-Гоулд Фильтровой ЛЛК
Без шума 2.76 4.13 6.02 11.93 5.96 . 7.56 3.63
С/Ш = 5 дБ 18.56 20.11 23.18 19.75 17.79 21.59 23.57
Телефонный 9.86 15.81 10.55 24.42 30.68 21.37 21.37
Клиппир. 1.91 13.76 7.03 9.89 4.05 8.31 2.01
Рис. 14. Структурная схема информационно - измерительной системы
Большое количество ошибок происходило на интервалах смычек звонких согласных (смычки фонемы /д/ в словах "видали" и "невода"), на коротких звонких интервалах, расположенных между глухими смычками (фонема /а/ в слове "такого"), в конце предложений. Кепстральный метод, автокорреляционный метод и метод Рабинера-Гоулда не выделяли мелкие пульсации траектории ОТ, что соответствует интегральной природе этих методов.
Алгоритм GS2 обеспечил правильное слежение за траекторией основного тона на протяжении всего произнесения, даже при отношениях С/Ш = 5дБ, в то время как остальные алгоритмы, включая метод Ра-бинера - Гоулда, оказались практически неработоспособны. Алгоритм GS2 показал себя как конкурентоспособный при сравнении с алгоритмами выделения ОТ, требующими ручной подстройки параметров. На базе алгоритма GS2 разработана информационно - измерительная система по автоматическому выделению контура ОТ (рис.14). На рис.15 показан пример представления информации на экране дисплея, когда система используется для обучения интонационным особенностям языка. В отличие от системы «Tell me more», в предлагаемой системе добавлена возможность записи новых произнесений в базу эталонов и возможность записи результатов обучения учащимся на электронный носитель.
Предварительные эксперименты по использованию предлагаемой системы для обучения интонационным особенностям речи показали эффективность этой системы. Получаемые навыки интонирования произнесений были устойчивы и закреплялись в последующих после обучения произнесениях. Существенно то, что алгоритм принятия решения Т/НТ и алгоритм выделе-
Рис.15. Пример представления информации на экране дисплея. Произнесение слова «Clean» после процесса обучения
ния контура ОТ используют признаки речевого сигнала, характерные для речи в целом и не зависящие от конкретного типа языка. Испытания показали, что предлагаемая система успешно работала с произнесениями на русском, английском, татарском и удмуртском языках.
Проведена экспериментальная оценка надежности идентификации диктора по параметрам траектории ОТ, получаемой при помощи алгоритма С52 . В ходе предварительных экспериментов были отобраны следующие параметры траектории ОТ, полученные на парольной фразе и подлежащие проверке: среднее значение ОТ (/"ср), среднеквадратическое отклонение от средней траектории ОТ (5), асимметрия (Ля) и эксцесс (Ех), максимальное значение ОТ (/тах), минимальное значение ОТ (/„)„), средняя скорость нарастания/убывания частоты ОТ на вокализированных участках (и^ир/С/&*<,„.„), максимальный диапазон изменения ОТ (/лаД
В качестве парольной фразы выбрана фраза средней длительности, составленная из пяти слов: «Машинист Иванов подтверждает, горит красный». Эксперимент проводился с голосами двух дикторов (один мужской и один женский голос). Парольная фраза повторялась 16 раз каждым диктором с интервалом от 1-го до 3-х дней в течение месяца.
Анализ данных позволяет расположить параметры ОТ по степени значимости в зависимости от отношения расстояния <Л между средними значениями признака для разных дикторов к среднеквадратичному отклонению этого признака для отдельного диктора: среднее значение ОТ (с? = 10,764), минимальное значение ОТ (с1 = 3,034), средняя скорость возрастания ОТ (Ы = 1,514), максимальное значение ОТ (с1 = 0,985), асимметрия (с? = 0,713), средняя скорость убывания ОТ (¡1 = 0,462), максимальный диапазон изменения ОТ (с/ = 0,406), эксцесс (с/ = 0,171), среднеквадратическое отклонение от среднего значения ОТ (г/= 0,057).
ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ
1. Впервые предложена, разработана и исследована методика автоматической адаптации параметров С5-метода, используемая при выделении основного тона речевого сигнала в условиях реальной речевой обстановки, предложен критерий выбора текущего оптимального значения параметров б&-метода из набора альтернативных значений, получаемых в процессе обработки речевого сигнала.
2. Впервые разработана стратегия управления совместной работой двух выделителей ОТ различного типа: локального выделителя основного тона, реализованного на методе СУ, и интегрального выделителя ОТ, использующего автокорреляционную функцию огибающей спектра. Предложен и исследован критерий определения моментов включения интегрального метода, который выполняет инициализацию метода на переходах от невокализированных звуков к вокализированным, осуществляет коррекцию сбоев метода ОБ и способствует снижению общего количества вычислений за счет уменьшения количества включений интегрального метода.
3. Предложена, разработана и исследована методика принятия решения Т/НТ, обеспечивающая адаптацию решения к произвольному речевому сигналу, когда окончательное решение Т/НТ принимают на втором проходе алгоритма по гистограмме значений обобщенного признака, вычисляемого синхронно с основным тоном.
4. Впервые предложен и разработан интегральный алгоритм выделения основного тона, в котором для повышения надежности принятия решения о гармониках ОТ используется автокорреляционная функция огибающей спектра (АКФС) и медианная фильтрация. Алгоритм обладает повышенной надежностью оценок интегральных значений частоты ОТ, в том числе на переходах от невокализированных звуков к вокализированным, при работе с сигналом при низких значениях
соотношения сигнал/шум. Количество больших ошибок оценки частоты ОТ методом АКФС снижено в 1,5-2 раза по сравнению с кепстральным методом.
5. Впервые разработана методика оценки полярности речевого сигнала, поступающего на выделитель основного тона, которая позволяет строить системы выделения параметров речи, инвариантные относительно числа инверсий в каскадах обработки и передачи речевого сигнала, в том числе, системы синхронного с ОТ анализа речи.
6. Создан практический алгоритм автоматического выделения частоты ОТ, не требующий нормализации сигнала по амплитуде, обладающий повышенной точностью оценки мгновенных значений частоты ОТ. Разработанный алгоритм выделения ОТ обеспечил значение обобщенной ошибки 2,76% на чистом сигнале, 9,86% - на телефонном сигнале, 18,56% - на сигнале с аддитивным шумом и при соотношении сигнал/шум 5 дБ.
7. Разработана информационно-измерительная система, предназначенная для автоматического выделения частоты основного тона речи на основе совместного использования локального и интегрального методов выделения основного тона, на базе автоматической адаптации параметров локального выделителя основного тона к речевому сигналу и на основе подстройки порогов принятия решения Т/НТ к конкретной реализации речевого сигнала.
8. Показана возможность идентификации диктора по интонационным контурам парольных фраз, полученным предложенным в работе алгоритмом автоматического выделения основного тона. На основе информационно-измерительной системы создан информационно-измерительный комплекс для обучения интонационным особенностям иностранных языков. Разработанные в работе алгоритмы и программы по цифровой обработке сигналов использованы при проведении криминалистических экспертиз, в учебном процессе при изучении соответствующих дисциплин, в ходе дипломного проектирования и выполнения магистерских работ.
Выводы 1, 2, 3 относятся к специальности 05.13.01- Системный анализ, управление и обработка информации (технические науки), выводы 4, 5, 6, 7, 8 - к специальности 05.11.16 - Информационно-измерительные и управляющие системы (по отраслям).
СПИСОК РАБОТ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ
1.Лузин Д.А. Алгоритм выделения основного тона речевого сигнала на основе автокорреляционной функции спектра // Высокие технологии-2004: Сб. тр. науч.-техн. форума с междунар. участием: В 4ч.-Ч.З.- Ижевск: Изд-во ИжГТУ, 2004. -С. 100-106.
2. Гитлин В.Б., Лузин Д.А. Программа выделения основного тона речи по методу СБ с использование оконного интерфейса // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. -Ижевск: Изд-во ИжГТУ, 2004,- С.288-293.
3. Гитлин В.Б., Лузин Д.А. Алгоритм поиска оптимального значения коэффициента асимметрии в выделителе основного тона по методу 08 // Сб. тр. XVIII сессии Российского акустического общества. Таганрог, Том 3. -М.: ГЕОС, 2006.- С. 11-14.
4. Лузин Д.А. Алгоритм начальной оценки основного тона речи для выделителя основного тона речи по методу вБ // Сб. тр. XVIII сессии Российского акустического общества. Таганрог. Том 3. -М.: ГЕОС, 2006.- С. 21-23.
5. Лузин Д.А. Скобкарева С.А. Алгоритм начальной оценки частоты основного тона в системе выделения основного тона речи по методу GS // Информационные системы в промышленности и образования: Сб. тр. молод, ученых. Вып.1. - Ижевск: Изд-во ИжГТУ, 2006. - С. 55-58.
6. Лузин Д. А. Влияние нормализации амплитуды речевого сигнала на надежность принятия решения «ТОН/НЕ ТОН» в методе GS // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. -Ижевск: Изд-во ИжГТУ, 2007, С.389-393.
7. Лузин Д. А., Гитлин В.Б. Переключение полярности входного сигнала в выделителе основного тона речи по методу GS // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. -Ижевск: Изд-во ИжГТУ, 2007, С.382-385.
8. Гитлин В. Б., Лузин Д.А. Стабильность значений последовательных периодов основного тона как признак вокализированности речи // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. -Ижевск: Изд-во ИжГТУ, 2007.-С.385-389.
9. Лузин Д.А. Экспериментальная оценка точности выделения основного тона речевого сигнала по автокорреляционной функции спектра // Сб. тр. XIX сессии Российского акустического общества. Нижний-Новгород. Том 3. -М.:ГЕОС, 2007.- С. 1922.
10. Гитлин В. Б., Лузин Д. А. Стабильность отношений последовательных периодов основного тона речи как критерий переключения совместно работающих выделителей основного тона // Сб. тр. XIX сессии Российского акустического общества. Нижний-Новгород. Том 3. -М.: ГЕОС, 2007.- С.23-26.
11. Агафонов Н.В., Гитлин В.Б., Лузин Д.А. Идентификации диктора по параметрам траектории основного тона - предварительные результаты // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.2. - Ижевск: Изд-во ИжГТУ, 2007. - С. 6-10.
12. Архипов И.О., Лузин Д.А., Ведерников A.A. Сравнительный анализ точности алгоритмов выделения основного тона по методу GS различных модификаций И Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.2. - Ижевск: Изд-во ИжГТУ, 2007. - С. 15-20.
13. Архипов И.О., Лузин Д.А., Ходырев A.C. Анализ алгоритмов принятия решения «ТОН - НЕ ТОН» в первой и второй редакции выделения основного тона речи по методу GS // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.2. - Ижевск: Изд-во ИжГТУ, 2007. - С. 20-24.
14. Гитлин В.Б., Лузин Д.А. Интегральная оценка полярности речевого сигнала, проступающего на вход локального выделителя основного тона // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.2. - Ижевск: Изд-во ИжГТУ, 2007. - С. 46-50.
15. Лузин Д.А., Якимов O.A. Выбор параметров кепсгрального метода выделения основного тона речи и выделителя основного тона, основанного на автокорреляционной функции спектра // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.2. - Ижевск: Изд-во ИжГТУ, 2007. - С.62 -66.
16. Лузин Д.А., Оглезнев С.Н. Комплекс программ для визуализации представления результатов эксперимента при выделении основного тона речи // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.З. — Ижевск: Изд-во ИжГТУ, 2008. -С.118-122.
17. Лузин Д.А., Лекомцева ЕЛО. Комплекс программ для системы обучения интонационным особенностям иностранных языков // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.З. - Ижевск: Изд-во Иж-ГТУ, 2008.— С.101-106.
18. Гитлин В. Б., Лузин Д. А. Экспериментальная оценка точности выделения частоты основного тона обобщенным методом СБ II Сб. тр. XX сессии Российского акустического общества. Москва. Том 3. -М.: ГЕОС, 2008.- С.54-58.
19. Гитлин В. Б., Лузин Д. А., Фаррахов А. Ф. Система обучения интонационным особенностям языка И Сб. тр. XX сессии Российского акустического общества. Москва. Том 3. -М.: ГЕОС, 2008,- С.52-54.
20. Архипов И.А., Гитлин В.Б., Лузин Д.А. Синхронный с основным тоном двух-проходный алгоритм принятия решения «ТОН-НЕ ТОН» // Вестник ИжГТУ. -Ижевск: Изд-во ИжГТУ, 2008.-№4. - С.150-153.
21. Гитлин В.Б., Лузин Д.А. Автоматический алгоритм выделения основного тона речи по методу СБ // Вестник ИжГТУ. - Ижевск: Изд-во ИжГТУ, 2008.-№4. -С.157-160.
Г
Д.А. Лузин.
Подписано в печать 04.05.09. Усл. печ. л. 1,63. Тираж 100 экз. Заказ №193
Издательство Ижевского государственного технического университета Отпечатано в типографии Издательства ИжГТУ. Ижевск, Студенческая, 7
Оглавление автор диссертации — кандидата технических наук Лузин, Дмитрий Александрович
СОДЕРЖАНИЕ
СПИСОК СОКРАЩЕНИЙ
ВВЕДЕНИЕ
ГЛАВА 1. МЕТОДЫ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА РЕЧИ
1.1. Общие положения
1.2. Классификация методов выделения основного тона
1.3. Предварительная обработка речевого сигнала
1.4. Методы выделения ОТ
1.4.1. Временные методы выделения основного тона
1.4.2. Спектральные методы выделения основного тона
1.4.3. Комбинированные методы выделения ОТ
1.5. Выделение интервалов вокализованных и невокализованных звуков
1.5.1. Классификация выделителей Т/НТ
1.5.2. Методы принятия решения Т/НТ на основе частоты пересечений сигналом нулевого уровня
1.5.3. Методы принятия решения Т/НТ на основе энергетического критерия
1.5.4. Методы принятия решения Т/НТ на основе линейного предсказания речи
1.5.5. Методы принятия решения Т/НТ по оценке общей периодичности речевого сигнала
1.5.6. Методы принятия решения Т/НТ по изменению периодичности, получаемой при выделении ОТ
1.5.7. Принятие решения Т/НТ на основе многомерного анализа
1.6. Методы анализа результатов выделения ОТ
1.7. Выбор алгоритма выделения ОТ речи
Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Лузин, Дмитрий Александрович
3.2. Диапазон допустимых отклонений начальной частоты ОТ 71
3.3. Начальная оценка частоты ОТ с использованием автокорреляционной функции спектра (алгоритм АКФС) 72 3.3.1 Эксперименты по выбору окна 77
3.3.2. Оценка значения шага, используемого для смещения кадра анализа 80
3.3.3. Определение оптимального порога отбора гармоник 82
3.4. Экспериментальная оценка надежности выделения ОТ алгоритмом АКФС 84
3.5. Организация совместной работы метода GS и алгоритма АКФС 88
3.6. Выводы 94 ГЛАВА 4. СОВМЕСТНЫЙ АЛГОРИТМ ВЫДЕЛЕНИЯ ОТ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ GS И АКФС 96 4.1. Адаптация коэффициента асимметрии^ к анализируемому сигналу 96
4.2. Алгоритм поиска оптимального значения коэффициента асимметрии
101 102 104
104
110
112 115
ГЛАВА 5. СРАВНИТЕЛЬНЫМ АНАЛИЗ ВЫДЕЛИТЕЛЕН ОСНОВНОГО
ТОНА, ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ
РАБОТЫ 118
5.1. Выделители основного тона в системе SIS 118
5.2. Сравнение результатов работы выделителей основного тона 123
5.3. Информационно — измерительная система с использованием алгоритма GS2 138
5.3.1. Программа TwoPassS 139
5.3.2. Программа SignalGSExplorer 140
5.4. Система обучения интонационным особенностям языка. 142
5.5. Идентификация диктора по параметрам траектории ОТ — предварительные результаты 145
5.6. Выводы 149 ЗАКЛЮЧЕНИЕ 151 СПИСОК ЛИТЕРАТУРЫ 154 ПРИЛОЖЕНИЕ Акты об использовании результатов диссертационной работы 166 в выделение основного тона по методу GS
4.3. Приращение максимума функции решения алгоритма GS
4.4. Изменение коэффициента заполнения Q в алгоритме GS
4.5. Динамическое определение порогов и алгоритм принятия решения Т/НТ
4.5.1. Введение дополнительного критерия в обобщенный признак Т/НТ
4.6. Структурная схема алгоритма выделения основного тона речи с адаптацией параметров алгоритма
4.7. Выводы
СПИСОК СОКРАЩЕНИЙ
ОТ — основной тон
ИИС — информационно-измерительная система '
ЛЧПН — логарифмическая частота пересечения нуля
ЧГГН - частота пересечения нуля
НТ/Т - "НЕ ТОН/ТОН"
Т/НТ - "ТОН/НЕ ТОН" с.к.о. — среднеквадратичное отклонение
С/Ш — сигнал/шум
ФНЧ — фильтр низких частот
ФВЧ — фильтр верхних частот
АКФС — автокорреляционная функция огибающей спектра
АКФ — автокорреляционная функция
АРУ - автоматическое регулирование усиления
ОБШ — обобщенная ошибка
КБО — количество больших ошибок
ТНТср - среднее количество ошибок НТ/Т и Т/НТ
GS - Generated Solitone - генерируемый (искусственный ) солитон SIS - система распознавания диктора ("Центр речевых технологий" г. С.-Петербург)
Е — энергия в логарифмическом масштабе Fq — частота основного тона с - частота среза фильтра предварительной обработки
G - обобщенный признак Т/НТ
Т0 — длительность периода основного тона
Тож - ожидаемая длительности периода основного тона
R( 1) — коэффициент корреляции с единичной задержкой
Zcr — частота пересечений нуля
Z'cr — логарифмическая частота пересечений нуля git) — функция решения
А — коэффициент асимметрии функции решения D — приращение функции решения Q — коэффициент заполнения функции решения
ВВЕДЕНИЕ
Актуальность темы. Речь есть средство обмена информацией между людьми. В устной речи содержится существенно большее количество информации по сравнению с письменным текстом: информация, связанная с контекстом произнесения, информация об интонационном типе высказывания (повествование, вопрос, восклицание), об эмоциональной направленности высказывания, об эмоциональном состоянии диктора, о стиле произнесения (монолог, диалог, беседа, читаемый научный текст, читаемый газетный текст и т.д.), об окружающей диктора обстановке, информация о заболевании голосового аппарата человека и т.д.
В области наук, связанных с речью работали и работают многие известные ученые, как в России, так и за рубежом: JI.H. Бондарко, В.И. Галунов, В.Р. Женило, Н.Г. Загоруйко, JI.B. Златоустова, C.JI. Коваль, О.Ф. Кривнова, В.Г. Михайлов, А.А Пирогов, М.А. Сапожков, В.Н. Сорокин, Р.К. Потапова, В.Н. Трунин-Донской, JI.A. Чистович, Атал, Гоулд, Итакура, Рабинер, Редди, Шафер, Фант, Фланаган и ряд других.
Научные работы в области использования речи в человеко-машинных системах относятся к приоритетному направлению РФФИ «Теория человеко-машинных систем управления».
Одним из основных параметров устной речи является частота повторения колебаний голосовых связок при произнесении вокализированной речи, называемая «Основным тоном» (ОТ). В мгновенных значениях частоты ОТ, в траектории контура ОТ переносится значительное количество информации, отличающей устную речь от письменной. Статистические параметры основного тона, диапазон его значений, диапазон скоростей изменения и т.д. в значительной мере определяют структуру и параметры устройств выделения основного тона. Эти устройства входят в состав большинства систем распознавания и обработки речи и относятся к одним из основных и наиболее сложных блоков.
Взаимодействие факторов, влияющих на контур ОТ, нелинейно и имеет довольно сложные зависимости, трудно поддающиеся математическому описанию. В значительной мере методы анализа и обработки речи, используемые в системах распознавания и передачи данных, основаны на эвристических предположениях.
Методы выделения ОТ, которые можно было бы использовать для решения всех поставленных выше проблем, отсутствуют. Разработка алгоритма выделения ОТ, обеспечивающего точную и надежную оценку значений частоты ОТ, работающего в автоматическом режиме с реальным речевым сигналом в условиях реальной речевой обстановки, является актуальной задачей.
Выделитель частоты ОТ должен определять мгновенные значения частоты ОТ на всем интервале работы голосового источника, включая моменты начала и окончания вокализации. Знание мгновенных значений частоты ОТ позволяет сохранить всю информацию, содержащуюся в контуре ОТ, включая изменения, связанные с мелодией ОТ. Этот алгоритм должен работать в автоматическом режиме для произвольного речевого сигнала в условиях реальной речевой обстановки. Алгоритм должен быть достаточно прост и удобен для встраивания в другие программы по обработки речи человеко-машинных систем управления. Интерфейс алгоритма должен быть дружественным по отношению к произвольному, в том числе, незнакомому с особенностями алгоритма, пользователю.
Объект исследования: системы выделения информации из акустического сигнала речи, системы автоматизации измерений, системы выделения основного тона речевого сигнала.
Предмет исследования: интегральные и локальные методы выделения основного тона и методы принятия решения «ТОН/НЕ ТОН» (Т/НТ), обеспечивающие повышенную точность и надежность выделения частоты ОТ и признака Т/НТ, методы предварительной обработки речевого сигнала, методы организации совместной работы локального и интегрального выделителя ОТ, методы автоматизации измерений в алгоритме выделения ОТ.
Цель работы: разработка и научное обоснование алгоритма выделения основного тона совместно с алгоритмом принятия решения Т/НТ, позволяющих с высокой надежностью и точностью в автоматическом режиме определять положения моментов возбуждения речевого тракта, начал и окончаний интервалов вокализации и предназначенных для работы с речевым сигналом произвольного диктора в условиях реальной окружающей обстановки.
Для достижения поставленной цели следует решить следующие задачи:
- провести анализ существующих методов выделения ОТ и методов принятия решения Т/НТ, позволяющих с высокой надежностью и точностью определять мгновенную частоту ОТ и признак Т/НТ и способных к адаптации к конкретному речевому сигналу в процессе выделения частоты ОТ и признака Т/НТ;
- уточнить параметры существующих и разработать новые способы предварительной обработки речевого сигнала, обеспечивающие повышение надежности и точности работы алгоритма выделения ОТ;
- разработать алгоритм интегральной оценки начальной частоты ОТ, необходимой для инициализации локального выделителя ОТ в моменты перехода от невокализированных интервалов речи к вокализированным;
- разработать алгоритм организации совместной работы двух выделителей ОТ, построенных на различных принципах работы: локальном и интегральном;
- разработать методику динамической адаптации параметров алгоритма выделения ОТ к конкретной реализации речевого сигнала, определить параметры алгоритма динамической адаптации;
- разработать методику выбора порогов принятия решения Т/НТ, обеспечивающую адаптацию алгоритма к конкретному произнесению в условиях реальной речевой обстановки;
- на реальном речевом сигнале провести сравнительные эксперименты по оценке надежности и точности выделения ОТ, надежности и точности принятия решения Т/НТ предлагаемым в настоящей работе алгоритмом выделения ОТ и известными методами выделения ОТ.
Методы исследования включают в себя методы: системного анализа, математической статистики, теории распознавания образов, теории анализа речевых сигналов, теории цифровой обработки сигналов, методы математического моделирования на ЭВМ. Экспериментальные исследования проведены с использованием стандартного математического обеспечения ЭВМ и собственного программного обеспечения.
Программно-инструментальные средства реализованы на алгоритмическом языке — С\С++. Программное обеспечение разработано в среде программирования Borland С++Builder 6.
Достоверность и обоснованность полученных результатов подтверждается результатами теоретических и экспериментальных исследований. Математические модели, алгоритмы и прикладные программы, предложенные в работе, основаны на фундаментальных положениях теории речеобразования, теории цифровой обработки сигналов, в том числе речевых сигналов, а так же на методах математической статистики.
Достоверность экспериментальных результатов обеспечивается использованием большого объема экспериментального материала, экспериментальным подтверждением предложенных в диссертации решений, а также сравнением экспериментальных результатов, полученных предложенным в настоящей работе алгоритмом, с результатами работы известных методов выделения основного тона.
На защиту выносятся результаты теоретических исследований и предложений по построению алгоритма автоматизированного выделения ОТ, в том числе:
- способ адаптации параметров локального выделителя ОТ, построенного по методу GS, к конкретному сигналу произвольного диктора в условиях обработки речи, близких к реальным;
- алгоритм организации совместной работы локального и интегрального методов выделения ОТ, использующей нестабильность длительностей последовательных периодов ОТ как критерий включения алгоритма интегральной оценки ОТ;
- методика принятия решения Т/НТ, обеспечивающая адаптацию принимаемого решения к произвольному речевому сигналу;
- алгоритм интегральной оценки частоты ОТ на основе вычисления автокорреляционной функции огибающей спектра;
- методика определения полуволны речевого сигнала, по которой оценивают положение начала периода ОТ;
- способ оценки величины порогов принятия решения Т/НТ по гистограмме обобщенного признака Т/НТ.
- результаты сопоставительных экспериментов по выделению контуров ОТ предложенным алгоритмом выделения ОТ и известными методами выделения ОТ;
- информационно - измерительный комплекс для обучения интонационным особенностям языка;
- программно - измерительный комплекс для использования в учебном процессе при изучении дисциплин связанных с цифровой обработки сигналов.
Научная новизна полученных результатов определяется проведенными комплексными исследованиями, в результате которых разработан алгоритм выделения контура ОТ, не требующий ручной настройки, работающий в условиях реальной речевой обстановки с повышенной точностью и надежностью оценки частоты ОТ;
- впервые предложена, разработана и исследована методика автоматической адаптации параметров GS-метода, используемая для выделения основного тона речевого сигнала в условиях реальной речевой обстановки, и предложен критерий выбора текущего оптимального значения параметров этого метода из набора альтернативных значений, получаемых в процессе обработки речевого сигнала;
- впервые разработана и обоснована стратегия управления совместной работой двух выделителей ОТ различного типа: локального выделителя основного тона, основанного на методе GS, и интегрального выделителя ОТ, использующего автокорреляционную функцию огибающей спектра. Предложен и исследован критерий определения моментов включения интегрального метода, который выполняет инициализацию метода GS на переходах от невокализиро-ванных звуков к вокализированным, осуществляет коррекцию сбоев метода GS и способствует снижению общего количества вычислений за счет уменьшения количества включений интегрального метода;
- предложена, разработана и исследована методика принятия решения Т/НТ, обеспечивающая адаптацию принимаемого решения к произвольному речевому сигналу, когда окончательное решение Т/НТ принимают на втором проходе алгоритма;
- впервые предложен и разработан интегральный алгоритм выделения основного тона, в котором для повышения надежности принятия решения о гармониках ОТ используют автокорреляционную функцию огибающей спектра и медианную фильтрацию. Алгоритм обладает повышенной надежностью оценок интегральных значений частоты ОТ, в том числе на переходах от невокали-зированных звуков к вокализированным, при работе с сигналом при низких значениях соотношения сигнал/шум;
- впервые разработана методика оценки полярности речевого сигнала, поступающего на выделитель основного тона;
- предложен, разработан и исследован алгоритм оценки значений порогов для принятия решения Т/НТ по гистограмме значений обобщенного признака, вычисляемого синхронно с основным тоном.
Практическая полезность работы состоит в том, что в результате комплексных исследований и предложений создана информационно-измерительная система автоматического выделения частоты ОТ, не требующая нормализации сигнала по амплитуде, обладающая повышенной точностью оценки мгновенных значений частоты ОТ, определяющая начало периода ОТ и обеспечивающая автоматическую подстройку параметров алгоритма к произнесению произвольного диктора.
Разработанный в ходе исследований алгоритм определения полуволны речевого сигнала, повышает точность оценки положения начала импульса ОТ, позволяет строить системы выделения параметров речи, инвариантные относительно числа инверсий в каскадах обработки и передачи речевого сигнала, в том числе системы синхронного с ОТ анализа речи.
Созданный в работе алгоритм начальной оценки частот ОТ с использованием автокорреляционной функции огибающей спектра (АКФС) обеспечивает получение интегральной оценки частоты ОТ на переходах от невокализирован-ных к вокализированным интервалам речи, на интервалах речи с повышенной нестабильностью траектории частоты ОТ при наличии аддитивных шумов и искажений. Совместная работа локального выделителя ОТ по методу GS и интегрального выделителя ОТ с использованием АКФС организована на основе критерия наибольшей близости соседних периодов ОТ. Данный критерий учитывает специфику речевого сигнала и позволяет выполнить автоматическую инициализацию метода GS в моменты начал вокализации, а также коррекцию ошибок метода GS при сбоях. Совместная работа обоих алгоритмов обеспечивает автоматическую инициализацию всего алгоритма в целом и повышение надежности и точности выделения мгновенных значений частоты ОТ.
Предложенный и реализованный алгоритм выбора оптимальной функции решения и алгоритм выбора времени блокировки выполняют автоматическую адаптацию параметров алгоритма GS к произнесению произвольного диктора.
Разработанный алгоритм определения порогов принятия решения Т/НТ по гистограмме обобщенного признака, вычисляемого синхронно с основным тоном, позволяет принимать решение Т/НТ для произвольного речевого сигнала в условиях изменения окружающей речевой обстановки.
Создан комплекс обучения интонационным особенностям иностранных языков, включая тональные языки. Комплекс обучения языку может работать как в интерактивном режиме, так и в условиях дистанционного обучения разговорной речи.
Разработанный в работе алгоритм автоматического выделения ОТ, обладающий повышенной точностью и надежностью выделения частоты ОТ и обеспечивающий автоматическую адаптацию к произвольному диктору в уеловиях реальной речевой обстановки, может найти применение в устройствах компрессии речи, используемых в системах связи и телекоммуникаций; в системах распознавания диктора по голосу для контроля прав доступа диктора к отдельным объектам; в системах оценки эмоционального состояния диктора, например в системах контроля состояния авиадиспетчеров; машинистов локомотивов и т.п.; в системах распознавания смысла высказывания и в других областях науки и техники.
Разработанные в диссертационной работе подходы анализа и обработки акустического сигнала нашли применение в экспертно — криминалистическом центре МВД по Удмуртской Республике при проведении криминалистической идентификации дикторов по фонограммам их устной речи, а именно при проведении микроанализа, на кафедре «Английский язык» при обучении интонационным особенностям иностранных языков, а также в виде программ и методик, внедренных в учебной и научной работе кафедры вычислительной техники Ижевского государственного технического университета, что подтверждено соответствующими актами.
Апробация работы. Основные научные положения и практические результаты диссертационной работы обсуждались на: научно технической конференции «Приборостроение в XXI. Интеграция науки, образования и производства» (Ижевск, 2004г.); на 3-ей научно-технической конференции «Приборостроение в XXI. Интеграция науки, образования и производства» (Ижевск, 2006г.); на XVIII сессии Российского акустического общества. Секция «Акустика речи» (Таганрог, 2006г) (работа отмечена дипломом); на XIX сессии Российского акустического общества. Секция «Акустика речи» (Нижний-Новгород, 2007г.) (работа отмечена дипломом); на XX сессии Российского акустического общества. Секция «Акустика речи» (Москва, 2008г.) (работа отмечена дипломом).
Публикации. Основные результаты диссертации опубликованы в 21 работах, из них 2 опубликованы в издании, рекомендованного ВАК РФ.
Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения и приложения. Основной текст изложен на 168 машинописных страницах, содержит 64 рисунка и 22 таблицы. Список литературы включает 142 наименований.
Заключение диссертация на тему "Разработка и исследование системы автоматического выделения основного тона речи"
5.6. Выводы
1. Предложенная в работе модернизация алгоритма выделения ОТ по методу GS (алгоритм GS2) позволила полностью автоматизировать процесс выделения основного тона. Надежность выделения ОТ модернизированным алгоритмом GS2 превосходит надежность выделения ОТ при ручной подстройке параметров алгоритма GSI.
2. Для сравнительного анализа работы алгоритмов выделения ОТ, малые ошибки, возникающие при оценке частоты ОТ, не могут служить надежным критерием. Сравнивать алгоритмы между собой предпочтительней по обобщенной ошибке. Обобщенная ошибка определяется как корень квадратный из суммы квадратов средней ошибки Т/НТ и большой ошибки оценки траектории частоты ОТ. Анализ работы отдельного алгоритма выделения ОТ необходимо проводить отдельно по каждому виду ошибок.
3. На чистом сигнале по величине обобщенной ошибки различные методы выделения ОТ могут быть ранжированы следующим образом: алгоритм GS2 (2,76%), ЛЖ (3,63%), пиковый (4,13%), Рабинера-Гоулда (5,96%), Кепстральный (6,02%), Фильтровой (7,56%) и автокорреляционный (11,93%). Меньшую величину обобщенной ошибки показал алгоритм GS2. Три локальных выделителя ОТ (GS2, ЛЛК и пиковый) были среди лучших. Интегральные методы (Кепстральный, Рабинера-Гоулда и автокорреляционный) не передают информацию о мелких флуктуациях контура ОТ.
4. Добавление шума к сигналу снижает надежность выделения ОТ во всех, без исключения методах. Добавление шума до значения С/Ш = 10 дБ относительно слабо влияет на надежность выделения ОТ. Обобщенная ошибка при этом возрастает примерно в два раза. Резкое увеличение обобщенной ошибки, когда уже выделители ОТ практически неработоспособны начинается с соотношения С/Ш = 5 дБ. При всех уровнях шума алгоритма GS2 показал наименьшую ошибку.
5. Все методы оказались способны выделять основной тон из предельно ограниченного сигнала, что говорит о том, что только временных соотношений достаточно для извлечения информации об основном тоне.
6. Алгоритм автоматизированного выделения ОТ GS2 показал себя как конкурентоспособный на всех типах сигналов, на всех голосах при малом уровне аддитивного шума.
7. Алгоритм GS2 использован для построения системы обучения интонационным особенностям языка и в системах распознавания человека по голосу.
ЗАКЛЮЧЕНИЕ
В диссертационной работе получены следующие новые научные результаты:
1. Впервые предложена, исследована и разработана методика автоматической адаптации параметров (х^-метода, используемая при выделения основного тона речевого сигнала в условиях реальной речевой обстановки, и предложен критерий выбора текущего оптимального значения параметров этого метода из набора альтернативных значений, получаемых в процессе обработки речевого сигнала.
2. Впервые разработана и обоснована стратегия управления совместной работой двух выделителей ОТ различного типа: локального выделителя основного тона, основанного на методе GS, и интегрального выделителя ОТ, использующего автокорреляционную функцию огибающей спектра. Предложен, исследован и проверен критерий определения моментов включения интегрального метода, который выполняет инициализацию метода GS на переходах от невокализированных звуков к вокализированным, осуществляет коррекцию сбоев метода GS и способствует снижению общего количества вычислений за счет снижения количества включений интегрального метода.
3. Предложена, исследована и разработана методика принятия решения Т/НТ, обеспечивающая адаптацию принимаемого решения к произвольному речевому сигналу, когда окончательное решение Т/НТ принимают на втором проходе алгоритма.
4. Разработана автоматическая система, предназначенная для выделения частоты основного тона речи на основе совместного использования локального и интегрального методов выделения основного тона, на основе автоматической адаптации параметров локального выделителя основного тона к речевому сигналу и на основе подстройки порогов принятия решения ТОН/НЕ ТОН к конкретной реализации речевого сигнала.
5. Впервые предложен и разработан интегральный алгоритм выделения основного тона, в котором для повышения надежности принятия решения о гармониках ОТ используется автокорреляционная функция огибающей спектра и медианная фильтрация. Алгоритм обладает повышенной надежностью оценок интегральных значений частоты ОТ, в том числе на переходах от невокали-зированных звуков к вокализированным, при работе с сигналом при низких значениях соотношения сигнал/шум. По сравнению с кепстральным методом ошибки оценки частоты ОТ снижены в 1,5—2 раза.
6. Впервые разработана методика оценки полярности речевого сигнала, поступающего на выделитель основного тона.
7. Предложен, разработан и исследован алгоритм оценки значений порогов для принятия решения Т/НТ по гистограмме значений обобщенного признака, вычисляемого синхронно с основным тоном.
К результатам, отражающим практическую ценность диссертационной работы можно отнести:
1. Создан практический алгоритм выделения частоты ОТ, не требующий нормализации сигнала по амплитуде, обладающий повышенной точностью оценки мгновенных значений частоты ОТ. Разработанный алгоритм выделения ОТ обеспечил значение обобщенной ошибки 2,76% на чистом сигнале, 9,86% -на телефонном сигнале, 18,56% - на сигнале с аддитивным шумом и при соотношении сигнал/шум 5 дБ.
2. Разработанный алгоритм определения полуволны речевого сигнала, повышает точность оценки положения начала импульса ОТ, позволяет строить системы выделения параметров речи, инвариантные относительно числа инверсий в каскадах обработки и передачи речевого сигнала, в том числе системы синхронного с ОТ анализа речи.
3. Созданный в работе алгоритм начальной оценки частот ОТ на основе автокорреляционной функции огибающей спектра (АКФС) обеспечивает получение интегральной оценки частоты ОТ на переходах от невокализированных к вокализированным интервалам речи, на интервалах речи с повышенной нестабильностью траектории частоты ОТ при наличии повышенного уровня аддитивных шумов и искажений.
4. Разработанный алгоритм определения порогов принятия решения Т/НТ по гистограмме обобщенного признака, вычисляемого синхронно с основным тоном, позволяет принимать решение Т/НТ для произвольного речевого сигнала в условиях изменения окружающей речевой обстановки.
5. Разработана информационно-измерительная система, предназначенная для автоматического выделения частоты основного тона речи на основе совместного использования локального и интегрального методов выделения основного тона, на базе автоматической адаптации параметров локального выделителя основного тона к речевому сигналу и на основе подстройки порогов принятия решения Т/НТ к конкретной реализации речевого сигнала.
6. Показана возможность идентификации диктора по интонационным контурам парольных фраз, полученным предложенным в работе алгоритмом автоматического выделения основного тона. На основе информационно-измерительной системы создан информационно-измерительный комплекс для обучения интонационным особенностям иностранных языков. Разработанные в работе алгоритмы и программы по цифровой обработке сигналов использованы при проведении криминалистических экспертиз, в учебном процессе при изучении соответствующих дисциплин, в ходе дипломного проектирования и выполнения магистерских работ.
Библиография Лузин, Дмитрий Александрович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Аврин С.Б., Мочалов В.А. Алгоритм выделения основного тона // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара (АРСО-16). М., 1991. - С. 241-242.
2. Акинфиев Н.Н., Жарова С.С., Собакин А.Н. Детектирование сигнала основного тона из озвученных звуков // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 7 Всесоюзн. школы-семинара. Алма-Ата, 1973. - С. 53-55.
3. Архипов И.О. Сегментация речи по признаку ТОН/НЕТОН синхронно с основным тоном // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". — Ижевск: Изд-во ИПМ УрОРАН, 1998 с. 5-8.
4. Архипов И.О., Гитлин В.Б. Оценка точности выделения основного тона методом GS // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. -С. 38-42.
5. Архипов И.О., Гитлин В.Б. Оценка частоты среза ФНЧ, используемого для выделения основного тона // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". — Ижевск: Изд-во ИПМ УрОРАН, 1998.-С. 12-16.
6. П.Архипов И.О., Гитлин В.Б. Формирование признака ТОН/НЕТОН синхронно с основным тоном // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. -С. 43-46.
7. Барабаш Ю.Л. и др. Вопросы статистической теории распознавания. -М.: Советское радио, 1967. 400с.
8. Баронин С.П. Автокорреляционный метод выделения основного тона речи // Сб. тр. Гос. НИИ Министерства связи СССР. 1961. 3 (24). - С. 93-102.
9. Баронин С.П., Крюков Г.В. Алгоритм выделения основного тона во временной области // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара. -М., 1991. С. 100-101.
10. Баронин С.П., Куштуев А.И. О построении выделителей основного тона следящего типа// 8 Всесоюзн. акуст. конф.: Реф. докл. Том 1. - М., 1973. - С. 75.
11. Баронин С.П., Куштуев А.И. О построении системы адаптации анализаторов частоты основного тона речи // 7 Всесоюзн. акуст. конф.: Тез. докл. Л., 1071. -С. 18.
12. Баронин С.П., Куштуев А.И. Устройство для измерения частоты основного тона речевых сигналов. А.с. N 280561 СССР, МКИ Н04М 11/10, 01Н, оп. 03.09.70.
13. Белявский В.М., Ежова Л.В. Спектрально-временные признаки для сегментации речи по звукам // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 8 Всесоюзн. школы-семинара. Львов, 1974, - 4.2. - С. 32-37.
14. Блохина Л.П. Восприятие макромодуляции частоты ОТ в речевом сигнале // Автоматическое распознавание слуховых образов: Тез. докл. и сообщен. 17 Всесоюзн. семинара. Ижевск, 1992. С. 11-114.
15. Блохина Л.П. К вопросу о слуховом восприятии частотного контура фразы // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 8 Всесо-юзн. школы-семинара. Львов, 1974. - Ч.З. - С. 57-59.
16. Блохина Л.П. О возможности использования модуляции частоты основного тона в автоматическом распознавании эмоциональных состояний // Акустика речи и слуха: Материалы докл. и сообщ. 5 Всесоюзн. совещания-симпозиума. Одесса, 1989.-С. 30-40.
17. Блохина Л.П. О роли интонации в выражении межсинтагменных и межфразовых связей в устном тексте // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. акустич. школы-семинара. -Ереван, 1980. С. 259.
18. Блохина Л.П. О роли модуляции частоты основного тона в макросегментации слитной речи // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 14 Всесоюзн. семинара. -Каунас, 1986. С. 16-17.
19. Бондаренко М.Ф., Гавращенко А.Н. Метод сегментации слитной речи по ее "динемическим портретам" // Автоматическое распознавание слуховых образов: Тез. докл. 15 Всесоюзн. семинара. Таллин, 1989. С. 184-185.
20. Борисов В.Н., Гитлин В.Б. Корреляционный метод выделения основного тона с использованием параллельной фильтрации // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара. -М., 1991. С. 102-103.
21. Вокодерная телефония. Под ред. Пирогова А.А. М.: Связь, 1974. - 536 с.
22. Высоцкий Г.Я., Сомин Н.В., Трунин-Донской В.Н., Червонный В.К. Алгоритм выделения основного тона спектральными методами на ЭВМ среднего класса // Дискретная обработка речевых сигналов. -М.: ВЦ АН СССР, 1979. С. 36-66.
23. Галунов В.И., Коваль С.Л., Тампель И.Б. Биофизика речеобразования // Модели речевого процесса в норме и патологии: Докл. и сообщ. Всесоюзн. симпозиума (13-15 июня 1979 г. Гродно). Л., 1980.
24. Галунов В.И., Кутуков Г.П., Матюнин С.Н. Состояние и перспективы исследований в области речевых технологий // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999.-С. 13-16.
25. Галунов В.И., Сомин Н.В., Тарасов А.И., Трунин-Донской В.Н., Якушенков Г.А. Спектральные методы выделения основного тона // Вопросы кибернетики. Анализ и синтез речи в системах управления. М., 1976 - Вып. 22. - С. 28-38.
26. Галунов В.И., Станкевич СЛ., Тапель И.Б. Исследование и моделирование процесса речеобразования // Рефераты докл. 8 Всесоюзн. акустич. конф. -М., 1973. Т.1.-С.70.
27. Галунов В.И., Тампель И.Б. Механизм работы голосового источника / Акустический журнал. Т. 27. - Вып. 3, 1981. - С. 321-334.
28. Галунов В.И., Таубкин B.JI. Речевая наука речевые технологии - перспективы практического использования // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. - М.: ГЕОС, 1999. -С. 13.
29. Гитлин В.Б. Основной тон речевого сигнала / Деп. В ВИНИТИ, 1998. № 1206-В98. - 739с.
30. Гитлин В.Б., Книппер А.В., Сметанин A.M., Сорокин С.Л., Шуткин В.Е. Устройство для выделения основного тона речи. А.с. N 714474 СССР, МКИ 10 1/00. Оп. в БИ N 5 05.02.80.
31. Гитлин В.Б., Кузнецов П.Г.,. Тихонов Г.А. Переключающая схема для устройства выделения основного тона // Автоматические устройства учета и контроля. Ижевск: Удмуртия, 1973. - Вып. 8. - С. 223-228.
32. Гитлин В .Б., Лузин Д.А. Оптимизация выбора коэффициента асимметрии в методе GS // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. —Ижевск: Изд-во ИжГТУ, 2005. — С. 45-48.
33. Гитлин В.Б., Лузин Д.А. Программа выделения основного тона речи по методу GS с использование оконного интерфейса. Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. — Ижевск: Изд-во ИжГТУ, 2004. -С.288-293.
34. Гитлин В.Б., Сметанин A.M. Исследование участков смыкания и размыкания голосовых связок на ЭВМ // Дискретные системы обработки информации. -Ижевск, 1978. Вып.1. -С. 71-75.
35. Гитлин В.Б., Сметанин A.M., Шуткин В.Е. Обнаружение интервалов смыкания и размыкания голосовых связок // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. -С. 134-136.
36. Гончаров С.Л., Зеленый А.И., Кашичева У.Б. Сегментация речевой волны по параметрам основного тона // Автоматическое распознавание слуховых образов: Тез. докл. 15 Всесоюзн. семинара. Таллин, 1989. - С. 190-191.
37. Гурман В.Е. Теория вероятностей и математическая статистика. Учебное пособи для вузов. Изд. 7-е, стер. М.: Высш. шк., 1999.-479с.
38. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. -512 с.
39. Какауридзе А.Г., Тушишвили М.А. Способ определения звонкости в речевом сигнале. A,c.N 390558 СССР. Оп. 11.07.73 в BHN 30, МКИ 10 1/04.
40. Кельманов А.В. Алгоритм выделения основного тона по разностной функции ряда остаточных ошибок модели авторегрессии // Вычислительные системы.
41. Методы обнаружения закономерностей с помощью ЭВМ. Новосибирск, 1981. -Вып. 91.-С. 113-124.
42. Кельманов А.В. Алгоритм классификации тон/шум по частотным автокорреляциям // Вычислительные системы. Эмпирическое предсказание и распознавание образов. Новосибирск, 1980. - Вып. 83. - С. 67-73.
43. Кельманов А.В. Алгоритм классификации тон/шум, основанный на критерии адекватности модели авторегрессии // Вычислительные системы. Методы обработки информации. Новосибирск, 1978. - Вып. 74. - С. 129-148.
44. Кельманов А.В., Хамидуллин С.А. Алгоритм оценки траектории частоты основного тона // Искусственный интеллект и экспертные системы. Вычислительные системы. Новосибирск, 1996. С. 112-136.
45. Кемешис П.П., Норейка С.Ю., Рудженис А.И. Оценка частоты основного тона сигнала, ограниченного по полосе и при наличии шумов // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 12 Всесоюзн. школы-семинара. Киев, 1982а.- С. 99-100.
46. Книппер А.В., Махонин В.А. Микровариации в речевом сигнале // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 10 Всесоюзн. школы-семинара. Тбилиси: Мецниереба, 1978. - С. 35-36.
47. Кринов С.Н., Савельев В.П., Цемель Г.И. О значимости изменений частоты основного тона для автоматического распознавания речи // Описание и распознавание объектов в системах искуственног интеллекта. М.: Наука, 1980. - С. 92-99.
48. Крылов Ю.Д., Романов С.Ф. Разработка программно-аппаратных средств речевого общения о ЭВМ: Учеб. пособие/ ЛИАП.Л.,1988.-60с.
49. Кузнецов П.Г. Исследования по автоматическому распознаванию и идентификации голосов / Диссертация на соискание ученой степени кандидата технических наук. Казань, 1970.
50. Лепешкин В.А., Пак С.П., Родионов И.Е. Простой многоканальный выделитель основного тона // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. - С. 62-63.
51. Лозовский B.C. Модифицированный разностный метод определения основного тона речи//Тр. АКИН, 1970.-Вып. 12.-С. 189-193.
52. Лузин Д. А. Влияние нормализации амплитуды речевого сигнала на надежность принятия решения «ТОНХНЕ ТОН» в методе GS // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. -Ижевск: Изд-во ИжГТУ, 2007. -С.389-393.
53. Лузин Д. А., Гитлин В.Б. Переключение полярности входного сигнала в выделителе основного тона речи по методу GS // Приборостроение в XXI. Интеграция науки, образования и производства: Тр. научн.-техн. конф. -Ижевск: Изд-во ИжГТУ, 2007.-С.382-385.
54. Гитлин В.Б, Лузин Д.А. Алгоритм поиска оптимального значения коэффициента асимметрии в выделителе основного тона по методу GS // Сборник трудов XVIII сессии Российского акустического общества. Таганрог. Том 3. -М.: ГЕОС, 2006.-С 11-14.
55. Лузин Д.А. Алгоритм выделения основного тона речевого сигнала на основе автокорреляционной функции спектра // Высокие технологии-2004:Сб. тр. на-уч.-техн. Форума с междунар. участием: В 4ч.-Ч.З.-Ижевск:Изд-во ИжГТУ, 2004. -С. 100-106.
56. Лузин Д.А. Алгоритм начальной оценки основного тона речи для выделителя основного тона речи по методу GS // Сборник трудов XVTII сессии Российского акустического общества. -Таганрог. Том 3. -М.: ГЕОС, 2006.- С. 21-23.
57. Лузин Д.А. Экспериментальная оценка точности выделения основного тона речевого сигнала по автокорреляционной функции спектра // Сборник трудов XX сессии Российского акустического общества. Нижний-Новгород. Том 3. -М.: ГЕОС, 2007.- С. 19-22.
58. Маркел Дж. Д., Грэй А.Х. Линейное предсказание речи. М.: Связь, 1980. -308с.
59. Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. Санкт-Петербург. С. Петербург, 1997. - 394 с.
60. Муравьев В.Е. О современном состоянии и проблемах вокодерной техники // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. - С. 22-27.
61. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и Связь, 1985. - 176 с.
62. Норейка С.Ю. Исследование методов и разработка аппаратуры анализа траекторий основного тона речи / Автореф. дисс. на соиск. ученой степени к.т.н. -Каунас, 1983. 22с.
63. Норейка С.Ю., Рудженис А.И. Исследование источника возбуждения посредством обратной фильтрации // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. - С. 139142.
64. Пирогов А.А. Устройство для автоматического выделения частоты основного тона. -А.с. N 129739 СССР.- Приор, от 08.6.58 НКИ 21е 1/20 42е.
65. Рабинер Л.Р., Гоулд Б. Теория и применение цифровой обработки сигналов. М.: Мир, 1978.
66. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981. - 485с.
67. Рамишвили Г.С. Речевой сигнал и индивидуальность голоса. — Тбилиси: Мецниереба, 1976.-184с.
68. Рылов А.С. Практические аспекты и основные компоненты современных систем распознавания речевых образов // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. -С. 145-151.
69. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.-472с.
70. Сапожков М.А., Михайлов В.Г. Вокодерная связь.-М.: Радио и связь, 1983.-248с.
71. Сметанин A.M. Исследование и разработка методов повышенной точности измерений параметров формант и голосового источника. Диссертация на соискание ученой степени к.т.н. - Ижевск, 1980.
72. Собакин А.Н. Адаптивный метод выделения основного тона речи // Автоматическое распознавание слуховых образов : Тез. докл. и сообщен. 8 Всесоюзн. школы-семинара. Минск, 1976. - С. 49.
73. Собакин А.Н. Анализ голосового источника по речевому сигналу // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 15 Всесоюзн. семинара. Таллин, 1989. - С. 233-234.
74. Собакин А.Н. Основной тон речи и метод его исследования // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. -С. 47-50.
75. Соболев В.Н., Баронин С.П. Исследование сдвигового метода выделения основного тона речи // Электросвязь. 1968а. - С. 30-36.
76. Сорокин В.Н. Новые концепции в автоматическом распознавании речи // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. -С. 50-57.
77. Сорокин В.Н. Теория речеобразования. -М.: Радио и связь, 1985.-312 с.
78. Уилкс С. Математическая статистика. М., 1967. - 632с.
79. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. 284 с.
80. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968. - 395 с.
81. Шишкин Е.В., Боресков А.В. Компьютерная графика. — М.:Диалог-МИФИ., 1995.-288 с.
82. Al-Hashemy B.A.R., and Taha S.M.R. Voiced Unvoiced - Silence classification of speech signals based on statistical approaches // Appl. Acoust., 1988. - 25. - N 3. - p. 169-179.
83. Atal B.S. Speech signal pitch detector using prediction error date. -Pat. N 3740476 USA. G10L 1/04. - 19.06.73.
84. Atal B.S., Rabiner L.R. A pattern recognition approach to voiced-unvoiced-silence classification with application to speech recognition // IEEE Trans. Acoust., Speech and Signal Process. 1976. - 24. -N 3. -p. 201-202.
85. Carre R. Review of French work on vocal source vocal tract interaction // Eleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. - Tallinn, 1987. - Vol. 3. - p. 371375.
86. Chan C. Voiced/unvoiced segmentation // ICASSP'86: Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1986. - Vol. 3. - p. 2271-2274.
87. Dadley H. Remaking speech // J. Acoust. Soc. Am. -1939. 11. - N 2. - p. 167169.
88. De Souza P. A statistical approach to the design of an adaptive self-normalising silence detector // IEEE Trans. Acoust., Speech and Signal Process.- 1983. 31.-N3.-p.678-684.
89. Dolansky L.O. Instantaneous pitch period indicator // J. Acoust. Soc. Am. -1955.-27.-N 11.-p. 67-72.
90. Fant G. Speech production. Glottal source and excitation analysis // Quart Progr. and Status. Rept. Speech Transmits. Lab. 1979. -N 1. p. 85-107.
91. Friedman D.H. Multidimensional Pseudo-Maximum Likelihood pitch estimation // IEEE Trans. Acoust., Speech and Signal Process. 1978. - Vol. 26. - N 3. - p. 185-196.
92. Gibson B.R., Greenwood E. Windowing Function for the average magnitude difference function pitch extractor // ICASSP 80: Proc. Denver Cole., 1980, Vol. 1. -New York, N.Y. 1980. - p. 49-52.
93. Gill J.S. Apparatus for distinguishing between voiced and unvoiced sounds in a speech signal 3 / Pat. N 1113225 Grait Britan. 08.05.68. - H4R.
94. Gold В., Rabiner L. Parallel Processing techniques for estimating pitch periods of speech in the time domain // J. Acoust. Soc. Am. 1969. - 46. - N 2 (Pt.2). - p. 442448.
95. Hebid M.K., and Robinson D.M., Sincoscie W.D. Real Zeros in pitch detection // IEEE Int. Conf. Acoust., Speech and Signal Process. Record. Tulsa, Okla, 1978. New York, N.Y. - 1978. - p. 31-34.
96. Hess W. On-line digital pitch period extractor for speech signals // Proc. Summer Sch. Circuit theory : Short. Contrib. Prague, 1974. - N 2. - p. 413.
97. Hess W. Pitch determination. An example for the application of signal processing methods in speech domain // Speech Processing: Theor. and Appl: Proc. EUSIPCO-80, 1-st Eur. Signal Process. Conf. Lausanne, Sept. 16-18. Amsterdam,1980. - p. 625634.
98. Holmes J.N. An investigation of the volume velocity waveform at the larynx during speech by means of inverse filter // Proc. Speech Commun. Siminar. Stockholm, 1962.-Vol. 1.-B4.
99. Howard D.M., and Howard I.S. Quantitative comparison of speech fundamental period estimation devices // Eleventh int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallinn, 1987. Vol. 4.-p. 52-55.
100. Kasuya H. An improved autocorrelation pitch detector // J. Acoust. Soc. Jap. -1980.-(E) 1,N 4.-p. 263-264.
101. Laver J., Hiller S., Hanson R. Comparative performance of pitch detection algorithms on disphonic voices // ICASSP'82: Proc. IEEE INT. Conf. Acoust., Speech and Signal Process. New York, 1982. - Vol.1. - p. 192-195.
102. Miller N.J. Pitch detection by data reduction // IEEE Symp. speech recogn. -Carnague-Mellon Univ., 1974. Contrubut Pap. - p. 122-130.
103. Noll A.M. Cepsrtum pitch determination // J. Acoust. Soc. Am. 1967. - 41, N 2.-p. 293-309.
104. Noll A.M. Pitch determination of human speech by the harmonic product spectrum, the harmonic sum spectrum and a maximum likelihood estimation // Proc. Symp. Сотр. Proc. Commun. N.Y., 1969, Brooklin, N.Y., 1970. - p. 779-797.
105. Noll A.M. Short-time spectrum and "Cepstrum" techniques for vocal-pitch detection // J. Acoust. Soc. Am. 1964. - 36, N 2. - p.
106. Oppenheim A.V., Shafer R.W. Homomorphic analysis of speech // IEEE Trans Audio and Electroacoust. 1968. - 16, N 2. - p. 221-226.
107. Rabiner R.L., Chang M.J., Rosenberg A.E., McGonegal C.A. A comparative performance study of several pitch detection algorithms // IEEE Trans. Fcoust., Speech Process. 1976. - p. 399-418.
108. Shafer H.L., Cohen A., Freudberg R., Manley H.L. Average magnitude difference function pitch extractor // IEEE Trans> Acoust., Speech and Signal Projcess. Oct. 1974.-22.-p. 353-362.
109. Shafer R.W., and Rabiner L.R. Digital representation of speech signals // Proc IEEE. 1975. - 63, N 4. - p. 662-677.
110. Sluyter R.J., Kotmans H.J., Classen L.A.V. A nowel method for pitch extraction from speech and hardware model applicable to vocoder systems // ICASSP'80: Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1980. - Vol. 1. - P. 4548.
111. Sluyter R.J., Kotmans H.J., Classen T.A.C.M. Inprovements of the Harmonic-Sieve pitch extraction scheme and an appropriate method for voiced/unvoiced detection. 1982
112. Stevens K.N. Interaction between acoustic source and vocal tract configuration for consonants // Eleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallinn, 1987. -Vol.3.-p. 385-389.136. http://www.tellmemore.com/
113. Лузин Д.А., Лекомцева Е.Ю. Комплекс программ для системы обучения интонационным особенностям иностранных языков // Информационные системы в промышленности и образовании: Сб. тр. молод, ученых. Вып.З. Ижевск: Изд-во ИжГТУ, 2008. - С. 101-106.
114. Гитлин В. Б., Лузин Д. А. Экспериментальная оценка точности выделения частоты основного тона обобщенным методом GS II XXI сессия Российского акустического общества. Москва. Том 3. -М.: ГЕОС, 2008.-С.54-58.
115. Гитлин В. Б., Лузин Д. А., Фаррахов А. Ф. Система обучения интонационным особенностям языка // XXI сессия Российского акустического общества. Москва. Том 3. -М.: ГЕОС, 2008.- С.52-54.
116. Архипов И.А., Гитлин В.Б., Лузин Д.А. Синхронный с основным тоном двухпроходный алгоритм принятия решения «ТОН-НЕ ТОН» // Вестник ИжГТУ. -Ижевск: Изд-во ИжГТУ, 2008. -№4. С.150-153.
117. Гитлин В.Б., Лузин Д.А. Автоматический алгоритм выделения основного тона речи по методу GS // Вестник ИжГТУ. — Ижевск: Изд-во ИжГТУ, 2008. №4. -С. 157-160.
-
Похожие работы
- Разработка критериев и алгоритмов сегментации речевого сигнала на участки "ТОН/НЕ ТОН" для метода выделения основного тона в информационно-измерительных системах речевой технологии
- Использование периодической структуры речевых сигналов для повышения эффективности вокодерных передач
- Теоретико-информационные принципы компрессии речевого сигнала на основе его квазипериодических свойств
- Алгоритмы и конвейерное вычислительное устройство помехоустойчивой сегментации вокализованных участков речевого сигнала
- Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность