автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка и совершенствование математических моделей речевых сигналов для задач анализа и синтеза речи
Автореферат диссертации по теме "Разработка и совершенствование математических моделей речевых сигналов для задач анализа и синтеза речи"
На правах рукописи
ГУЩИНА АНАСТАСИЯ АЛЕКСАНДРОВНА
РАЗРАБОТКА И СОВЕРШЕНСТВОВАНИЕ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ ЗАДАЧ АНАЛИЗА И СИНТЕЗА РЕЧИ
Специальность: 05.13.18-Математическое моделирование, численные
методы и комплексы программ.
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
005550153 —^
Воронеж - 2014
005550153
Работа выполнена в Воронежском институте МВД России.
Научный руководитель: доктор технических наук, доцент
Голубинский Андрей Николаевич
Официальные оппоненты:
Белокуров Сергей Владимирович, доктор технических наук, доцент, Воронежский институт ФСИН России, начальник кафедры математики и естественно-научных дисциплин
Сизоненко Александр Борисович, кандидат технических наук, доцент, Краснодарский университет МВД России, начальник кафедры информационной безопасности
Ведущая организация: ОАО «Концерн «Созвездие» (г. Воронеж)
Защита состоится « 8 » июля 2014 года в 15 часов, в ауд. № 215 / 1 корп. на заседании диссертационного совета Д 203.004.01 в Воронежском институте МВД России по адресу: 394065, г. Воронеж, пр-т Патриотов, 53.
С диссертацией можно ознакомиться в библиотеке Воронежского института МВД России и на сайте http://vimvd.ru/science/research/ad_thesis/
Автореферат разослан « ^ » _2014 г.
Ученый секретарь диссертационного совета:
Голубинский Андрей Николаевич
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. Использование речевого интерфейса актуально для таких задач, как распознавание и анализ речи, аутентификация личности по голосу (например, в интегрированных системах безопасности), возможность голосового ответа на запрос информационной системы (например, о состоянии технологического процесса), повышение эффективности преобразователей «речь-текст». Голосовой интерфейс является одним из условий создания безбарьерной среды для людей с ограниченными возможностями. Все большую актуальность приобретает использование речевых технологий для создания диалога человек-машина.
Основным направлением современных речевых технологий является разработка единых алгоритмов параметризации речевого сигнала, основанных на физической модели речевого тракта и природе речевого сигнала - определение существенных параметров и разработка математических моделей, применимых как для синтеза, так и для анализа речи. Определение отличительных существенных параметров осложняется тем, что речевой сигнал имеет двойственную природу: с одной стороны, это акустический сигнал, отражающий процесс распространения энергии акустических колебаний в упругой среде, с другой стороны, речевой сигнал несет смысловую информацию, информацию об эмоциональном состоянии диктора, а также содержит индивидуальные параметры, позволяющие отличать одного диктора от другого. В настоящее время не существует единого мнения о природе формы спектра речевых сигналов, методах их анализа и синтеза.
Используемые в диссертации математический аппарат, подходы к анализу и синтезу речи основываются на трудах отечественных и зарубежных исследователей, таких как: A.B. Аграновский, Т.К. Винцюк, В.И. Галунов, Б. Гоулд, C.B. Дворянкин, В.Р. Женило, Б.М. Лобанов, Д.Д. Маркел, М.В. Назаров, A.A. Петровский, Ю.Н. Прохоров, Л.Р. Рабинер, М.А. Сапожков, В.Н. Сорокин, Г. Фант, Дж. Фланаган, Л.А. Чистович, В. Чу, Р.В. Шафер и др.
Анализ научных работ показал, что для организации человеко-машинного взаимодействия при помощи речевых команд системы анализа и синтеза речи должны отвечать следующим требованиям: возможность работы в режиме реального времени; достаточное качество распознавания и синтеза (в том числе -естественность звучания); дикторонезависимость; возможность определения индивидуальных акустических параметров голоса для последующего применения.
Наибольшей точностью описания речевого сигнала обладают математические модели, основанные на физике протекающих явлений, что приводит к требованиям адекватности математических моделей речевого сигнала акустической теории речеобразования.
Современное состояние исследований в области речевых технологий обуславливает актуальность решения научной задачи создания математических моделей и методов параметризации речевых сигналов, основанных на физической теории речеобразования и универсальных для систем анализа и синтеза речи.
Цели и задачи исследования. Целью работы является разработка и совершенствование математических моделей речевых сигналов для анализа и синтеза речи и методов их построения.
Для достижения данной цели в работе решены следующие задачи:
1. Систематизация математических моделей речевых сигналов для анализа и синтеза речи, подходов к анализу и синтезу речи, включающих в себя систему отличительных параметров речевого сигнала, методов их определения и оценки точности расчетов.
2. Анализ реальной точности оценки частоты основного тона речевого сигнала оптимальным методом.
3. Разработка математических моделей принятия решения для дикторонеза-висимого детектирования гласных звуков.
4. Создание и программная реализация алгоритмов дикторонезависимого распознавания гласных звуков и оценки параметров математических моделей речевого сигнала.
5. Разработка математической модели импульсного источника речевого сигнала.
6. Разработка математической модели вокализованных сегментов речевого сигнала, основанной на модели речевого тракта.
7. Разработка метода расчета индекса частотной модуляции математической модели речевого сигнала.
8. Разработка математической модели и метода сепарации речевого сигнала на периодические, импульсные и шумовые сегменты.
Методы исследования. При решении поставленных задач использовались аналитические и вычислительные методы теории речеобразования, математического анализа, цифровой обработки сигналов, численные методы, методы программирования и моделирования на ЭВМ. Для проведения, выполнения и документирования инженерных и научных расчетов применялась программа МаШСАЕ).
Новые научные результаты, выносимые на защиту:
1. Точностные характеристики оценки частоты основного тона речевого сигнала оптимальным методом, полученные экспериментально.
2. Математическая модель принятия решения для дикторонезависимого детектирования гласных звуков, использующая компактный набор существенных параметров на основе спектральных составляющих.
3. Алгоритмы дикторонезависимого детектирования гласных звуков и оценки существенных параметров, основанные на математических моделях речевого сигнала.
4. Математическая модель импульсного источника речевого сигнала на основе полигауссовской математической модели применительно к описанию взрывных звуков речи.
5. Математическая модель вокализованных сегментов речевого сигнала, основанная на модели речевого тракта, учитывающая вариации частоты основного тона голосового источника в виде частотной модуляции.
6. Метод расчета индекса частотной модуляции математической модели речевого сигнала, основанный на использовании практической полосы частот обертонов.
7. Метод сепарации речевого сигнала на периодические, импульсные и шумовые сегменты обобщенной математической модели.
Практическая ценность результатов работы заключается в возможности применения разработанных математических моделей речевого сигнала и методов параметризации для совершенствования систем анализа и синтеза речи, в том
числе для повышения надежности систем голосовой аутентификации, а также для разработки систем поэлементного синтеза речи.
Полученные результаты могут быть использованы для совершенствования алгоритмов вычисления существенных параметров речевого сигнала, оценки их точности, в том числе в аппаратуре связи специального назначения органов внутренних дел.
Реализация результатов исследований. Полученные в диссертации результаты использовались при выполнении научно-исследовательских работ, при разработке технических заданий и рекомендаций в ФКУ Научно-исследовательский центр «Охрана» МВД России (г. Москва), в Департаменте информационных технологий, связи и защиты информации МВД России, в Воронежском институте МВД России, в ОАО «Концерн «Созвездие». Кроме того, результаты внедрены в учебный процесс в Воронежском институте МВД России.
Соответствие паспорту специальности. Содержание диссертации соответствует п. 3. «Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий», п. 4. «Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента», п. 5. «Комплексные исследования научных и технических проблем с применением современной технологии математического моделирования вычислительного эксперимента», п. 7. «Разработка новых математических методов и алгоритмов проверки адекватности математических моделей объектов на основе данных натурного эксперимента» паспорта специальности 05.13.18 — Математическое моделирование, численные методы и комплексы программ.
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на следующих конференциях: XX Международная научно-техническая конференция «Радиолокация, навигация, связь» (Воронеж, 2014), XXII Международная научная конференция «Информатизация и информационная безопасность правоохранительных органов» (Москва, 2013), Международная научно-техническая конференция «Наука и образование - 2012» (Мурманск, 2012), XVI Международная научно-практическая конференция «Наука и современность» (Новосибирск, 2012), XVI Международная научная конференция: «Математические Методы в Технике и Технологиях - ММТТ-26» (Нижний Новгород, 2013), III Международная научная конференция: «Проблемы управления, обработки и передачи информации (АТМ-2013)» (Саратов, 2013), Международная научно-практическая конференция «Общественная безопасность, законность и правопорядок в Ш тысячелетии» (Воронеж, 2012, 2013), I Международная научно-практическая конференция «Проблемы современных, экономических, правовых и естественных наук в России» (Воронеж, 2013), Всероссийская научно-практическая конференция «Охрана, безопасность и связь» (Воронеж, 2012, 2013), Всероссийская научно-практическая конференция курсантов, слушателей, студентов, адъюнктов и молодых специалистов «Актуальные вопросы эксплуатации систем охраны и защищенных телекоммуникационных систем» (Воронеж, 2012, 2013), Всероссийская научно-практическая конференция «Современное состояние и перспективы развития систем связи и радиотехнического обеспечения в управлении авиацией» (Воронеж, 2013).
Публикации по материалам диссертации. По теме диссертации опубликовано 22 научные работы, в том числе пять статей в научных журналах, которые входят в утвержденный ВАК при Минобрнауки России Перечень российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук; 14 материалов международных и всероссийских научных конференций, 1 свидетельство о регистрации программы в государственном фонде неопубликованных документов, 1 заявка на выдачу патента на изобретение Российской Федерации, 1 свидетельство о регистрации программы в ФБГУ «Федеральный институт промышленной собственности».
Личный вклад автора. Основные научные результаты получены автором лично. Из 19 работ по теме диссертации 4 написаны без соавторов. В приведенном списке научных работ из опубликованных в соавторстве лично соискателем предложено: в [1-5] - разработка основных концептуальных положений, постановки задач, основные идеи по методам построения и расчета параметров математических моделей речевых сигналов; в [9,11-13,15,17—19,20-22] — постановка экспериментов, анализ и интерпретация полученных результатов и выводы.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, двух приложений, списка литературы, включающего 174 наименования. Общий объем диссертации составляет 150 страниц машинописного текста, включая 26 рисунков и 26 таблиц, а также 16 страниц литературных источников и 7 страниц приложений.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы работы, сформулированы цель и задачи исследования, показана научная новизна и практическая значимость полученных результатов, выносимых на защиту.
В первой главе приведен анализ современного состояния и проблем развития систем анализа и синтеза речи. Проанализированы проблемы акустической теории речеобразования, речевых технологий и практика применения систем анализа и синтеза речи.
Рассмотрены следующие основные подходы к параметрическому описанию речевых сигналов и построению их математических моделей в задачах синтеза и анализа речи: модели параметризации речевого тракта (решение волнового уравнения, передаточная функция и др.); математические модели речевых сигналов (на основе линейного предсказания, спектрального и кепстрального анализа, корреляционного анализа, вейвлет-преобразования, гармонические модели и т.д.); математические модели принятия решений (метрики вычисления расстояний, описание на основе скрытых марковских моделей, искусственных нейронных сетей и др.).
Проанализированы особенности и недостатки известных методов описания акустического колебания, формируемого в процессе речеобразования (в том числе: большое количество малозначимых численных параметров; громоздкость математического аппарата; отсутствие четкой физической интерпретации моделей, несогласование их с теорией речеобразования и механизмами речевого поведения человека; экспериментальный подбор весовых коэффициентов; статистический подбор последовательности векторов наблюдений и др.). Отмечены достоинства
математических моделей, заданных в явном виде: ясность физической интерпретации, принципиальная возможность получения характеристик модели в аналитическом виде, реализация конструктивных подходов к оптимизации и адаптации модели и др.
Показано, что перспективным направлением повышения надёжности систем распознавания речи, поэлементного синтеза на основе систем синтеза и анализа речи, является разработка эффективных подходов к построению математических моделей, обладающих высокой точностью описания и простотой реализации алгоритмов и устройств на их основе за счет оперирования компактным набором существенных параметров речевого сигнала и адекватности акустической теории речеобразования. Отмечено, что основной тон является первичным параметром в процессе артикуляции, в акустическом спектре фонем, и определяет, согласно спектральной теории распознавания речи, индивидуальные идентификационные параметры, характеристики звуков, фонем и морфем речевого сигнала.
Показано, что совершенствование математических моделей речевых сигналов может осуществляться на основе развития полигармонических математических моделей речевого сигнала, в том числе представляющих сигнал в форме «гармоника плюс шум», а также при использовании соответствующих математических моделей принятия решения (критериев, мер различимости и порогов) для различения звуков.
Вторая глава посвящена разработке математических моделей принятия решений для дикторонезависимого детектирования гласных звуков на основе полигармонических моделей, а также анализу реальной точности оценки частоты основного тона (ЧОТ) оптимальным методом при использовании полигармонической математической модели.
Для анализа и синтеза речевого сигнала использовалась математическая модель в виде амплитудно-частотно модулированного импульса со сложным несущим колебанием (полигармоническая модель). Данная модель, характеризующая вокализованные сегменты речи, учитывает индивидуальные особенности голоса диктора (тембр — форму спектра, образуемую амплитудами несущих гармоник, и тон - усредненное значение ЧОТ) и записывается следующим образом:
к ь
и(/)=Х^соб(2лг/с^0; + Ф^)2{//со5(2я-//0/ + ^), /е[0;ги], (1)
*=о /=1
где /о - наименьшая частота модулирующего колебания; Мк и Ф* - глубина модуляции и начальная фаза к-й гармоники модулирующего колебания;/0 - ЧОТ; £// и ср/ - амплитуда и начальная фаза /-й гармоники несущего колебания; К и £ -количество модулирующих и несущих гармоник; ги — длительность вокализованного сегмента.
На основе метода максимального правдоподобия проведена оценка ЧОТ и исследованы её характеристики при неизвестных амплитудах и начальных фазах несущих гармоник. Для расчета оценок ЧОТ была использована математическая модель речевого сигнала вида:
£('>/о) = "(',/о) + "(0> (2)
где и(/,/0) - детерминированный сигнал в виде импульса полигармонического колебания (1) без модуляции; и(<) — шумовая компонента в виде модели гаус-совского случайного процесса.
Трансформированный логарифм функционала отношения правдоподобия (ЛФОП) после максимизации по вектору неизвестных значений амплитуд и начальных фаз гармоник при дискретной обработке сигналов имеет вид:
"N-1 (И-1
]г£(/а)с05(2я7-/-;Д) + ^(¡Д)5т(2л-//-/Д)
М(/), 2Л
1=0
.1=0
(3)
где Ь — количество гармоник в опорном сигнале; f— ЧОТ в опорном сигнале алгоритма; N0 — односторонняя спектральная плотность мощности шума; N- количество отсчетов в тестовом сигнале (/ = 0;^ — 1);^(/Д) = отсчеты входного сигнала, например речевого или тестового.
Оценка ЧОТ речевого сигнала осуществляется по аргументу наибольшего значения ЛФОП (7):
/0=аг§5ирМ(/). (4)
Данный алгоритм оценки ЧОТ корректен при условии разрешения гармоник, что обеспечивается выполнением условия: /0Т = Т / 7"0 >2,69, где Т— время наблюдения; Т0 — период основного тона речевого сигнала.
Для объективной оценки реальной точности оптимального метода учитывалось что:
1) в общем случае количество гармоник в опорном сигнале и в принимаемой реализации не совпадают;
2) численное вычисление значений интегралов, входящих в ЛФОП оптимального приемника, осуществляется численным методом;
3) шаг изменения варьируемой ЧОТ в опорном сигнале является конечной фиксированной величиной.
На первом этапе моделирования входной тестовый сигнал в виде полигармонического колебания был представлен без учета шумовой составляющей (в тестовом сигнале начальная фаза 1-й гармоники несущего колебания принималась равной нулю, а амплитуды 1-й гармоники были равны единице). Шаг изменения ЧОТ в опорном сигнале выбирался равным Л/0 = 0,01 Гц. Были получены значения оценки ЧОТ для различного количества гармоник тестового и опорного сигналов при разных значениях длительности. Значения ошибки оценки ЧОТ 5 < 0,5 %, при длительности сигнала, достаточной для соблюдения условия разрешения гармоник.
Для учета шумовой составляющей в реальной речевой ситуации на втором этапе исследования входная реализация представляла собой модель (1) совместно с шумовой компонентой. Шумовая составляющая моделировалась гауссов-ским шумом с нулевым математическим ожиданием, среднеквадратичное отклонение рассчитывалось на основе заданного отношения сигнал/шум (ОСШ) по мощности (г2):
л--1
где £(/) - энергия модели, зависящая от количества гармоник /.
При длительности сигнала, достаточной для соблюдения условия разрешения гармоник при ^=1000, ошибки оценки не превышали 5 %. Для г =100, з < 10 %.
В диссертации с помощью реализованной программы была проведена оценка точности реального речевого сигнала по ранее записанным гласным звукам, при этом ошибки не превышали 1%.
На основе модели (1) для дикторов мужчин и женщин были синтезированы гласные звуки, проанализированы амплитудные и энергетические спектры, проведен эмпирический анализ значений и соотношений между амплитудами, выявлены отличительные особенности для каждого звука. Для обеспечения естественности звучания в модели (1) использовалась гармоническая частотная модуляция.
Выявлено, что для каждого гласного звука существует определенное количество спектральных составляющих, определяющих его фонетическое отличие:
¿/э/ =10, 6, Ь/А/ =7, Ь/у/= 4, Ь1Ы1= 8 . Для звука/и/: 1/я/ = 20,од-
нако в формировании звука гармоники с третьей по десятую не участвуют из-за сильного ослабления.
В качестве существенных параметров, характеризующих фонетический состав речевых сегментов для дикторонезависимого детектирования гласных звуков, предлагается использовать частоты и амплитуды основного тона и обертонов речевого сигнала. Сравнение двух речевых сигналов с помощью их математических моделей проводят на основе меры различимости. При использовании некоторого критерия детектирования звуков сравнивают полученное значение меры различимости И для входного сигнала с порогом £)0, который определяется, как правило, экспериментально или из математической модели (например, исходя из приемлемого уровня ошибок первого и второго рода).
Установлено, что в общем случае значения амплитуд, а, следовательно, и мера различимости зависят от ЧОТ. ЧОТ не является постоянной величиной, поэтому следует учитывать ее вариации. В работе предлагается следующая мера различимости для гласных звуков (гл.зв.), учитывающая зависимость амплитудных значений от ЧОТ:
ГЛ.ЗВ. /
д/гл.зв./ = 1_ 1-_ £ (|Лх(/,/о)-^ЛЗВ7(/,/о)|+^т1п)2, (6)
^ "(Атп) /=1
где ЛВхС>/о)и ~ амплитудные значения входного сигнала в де-
цибелах (на ЧОТ и частотах обертонов) и усредненное значение /-й гармоники звука соответственно; Атт - максимальное значение ослабления для существенных спектральных составляющих (как правило, можно положить: А^а= —50 дБ);
гл.зв./_ количество гармоник, существенно влияющих на фонетический смысл гласного звука.
При разложении функциональной зависимости А(1,/о) в окрестности точки истинного значения ЧОТ (/0И ) в ряд Тейлора, в линейном приближении мера различимости сводится к следующему виду:
^ГЛ.ЗВ./ /
__1_ V"1
г! гл.зв./ , л -.2 ¿—л ь 'Ишш; /=1
У ,/гЛ.ЗВ./ . „
Лх/-Лг/ +8Г
^ /-ВХ
70__1
Г /о
"^тш
Л2
, (7)
где Ах/ =Лх(/,/овхи)-4х(/,/овхи)/овхи;^ = ^эт(/,/оэти)-^т(/,/оэти)-/оэти;
5/=^т(/,/0эти)-/0эт. При /овх=/оЭти ЛВХ/=^Г/1'ЗВ /мера различимости обра-
щается в ноль, таким образом, интервал изменения меры различимости в соответствии с выражением (7) для гласных звуков: £>/гл'зв,/ е [0; 1].
При использовании выражения (7) для гласных звуков были определены пороговые значения (Л0) меры различимости. Для каждого гласного звука обрабатывалось по 60 реализаций. На основе разработанной математической модели дикторонезависимого детектирования гласных звуков синтезирован алгоритм и реализован комплекс программ для выполнения расчетов.
Проведенная оценка значений параметров g| для гласных звуков показала, что использование меры различимости (7) позволяет повысить точность дикторонезависимого детектирования звуков, до средней вероятности ошибки 0,5 %. Существенные параметры математических моделей принятия решения (6), (7) имеют ясный физический смысл и основаны на адекватной математической модели (1), записанной в явном виде.
В третьей главе разработана и исследована математическая модель импульсного голосового источника речи в виде суммы гауссовских функций, зависящих от времени (полигауссовская модель), которая записана в явном виде и учитывает особенности формирования взрывных согласных звуков:
где О — количество составляющих; Рд, т^ и сТд — соответственно значения амплитуд, центральных составляющих и параметров, характеризующих ширину q-й гауссовской компоненты.
На основе проведенного анализа можно выделить соответствующие каждому звуку параметры математической модели, характеризующие соответствующие спектральные составляющие. Предлагаемая параметризация согласного звука требует четыре гауссовские компоненты, т.е. количество существенных параметров равно двенадцати.
Для того чтобы оценить ошибки математической модели относительно реального речевого сигнала, предложено использовать критерий близости (нижняя граница среднеквадратичной ошибки), основанный на нормированных автокорреляционных функциях (НАКФ) Щ и б" соответственно:
На основе расчета ошибки по амплитудному спектру и критерия близости (9) были вычислены типовые значения параметров модели для каждого звука по реализациям одного диктора. Набор значений параметров Рд, тд и ад для каждого звука, произнесенного одним диктором, практически является неизменным.
(8)
ч=1
(9)
М
Четвёртая глава посвящена исследованию обобщенных математических моделей голосового источника, участвующего в образовании звуков. Синтезирована обобщенная математическая модель, описывающая вокализованные сегменты. Согласно физическим представлениям о формировании речевого сигнала, его вокализованные сегменты можно представить как результат прохождения квазипериодического сигнала возбуждения, генерируемого голосовыми связками посредством нагнетания потока воздуха из лёгких, через резонатор сложной формы, состоящий из бронхов, легких, диафрагмы, трахеи, гортани, глотки, небной занавески, языка, ротовой и носовой полостей.
Представим сигнал источника как сложное периодическое колебание в виде набора гармоник с произвольными амплитудами и начальными фазами, которое проходит через речевой тракт, представляющий собой несколько параллельно соединенных резонаторов. Методом разделения переменных можно получить математическую модель вокализованного сегмента речи y(f), являющуюся аналитическим решением дифференциального уравнения (ДУ) 2-го порядка, которое характеризует временную зависимость звукового поля при формировании вокализованного речевого сигнала: N j L
YiT^W»+2а»у"+ Q" • ="sin(/ • ®о •'+w), (10)
п=1 " /=1
где Оп = 2xF„; Fn— п-я формантная частота; со0 = 2л/"0; f0-ЧОТ; ап- коэффициент затухания и-го резонатора; bi и (pj — соответственно амплитудные коэффициенты и начальные фазы, характеризующие сигнал генератора, формируемый голосовыми связками; N - количество резонаторов; L — количество гармоник сигнала генератора; С„ - коэффициенты, характеризующие распределение воздушного потока от источника между резонаторами.
Применив принцип суперпозиции, получим ДУ:
-^(y"n + 2an-y'n + n2n-yn) = brsm(ha)0-t + <pi), n = lN; 1 = IL. (11)
п
Решения данных дифференциальных уравнений уп / (/) дает математическую
модель речевого сигнала->>(/) для вокализованных сегментов речи: Таким образом, решение уравнения (10) в общем виде:
И=1 1=1
Общие решения неоднородных ДУ (11) представляются в виде суммы общих решений однородных ДУ и частных решений неоднородных ДУ:
упЛ0^У°"(') = УоУ) + УчнЛ0, (13)
' л,/ л,/ nj
неопределенные коэффициенты можно получить для задачи Коши:
М°)=0"' у'пА°)=0- (14)
Решение общего однородного ДУ вида (11) приводится к следующему виду: ^•(0 = Ся6/е-в",|Г(/2а^ -аЪлщп +2anlmQCos<plJ{Q1n-al) +
+ (lcoo(l2m2-Cil+2aï)cosç)i /
/{jn2„-a?t ■ ((О2 -/2®2)2 + Al2mlaî%[*тф2„ -a2 -t +
((Çl2-l2col)s\n<pi ~2a„la0cosçi)^Q2-a2
+ arctg---;-T-5-2-2-2-
/®o(<coq -Q„ +2a„)œsç>i -an(l щ + Q„)sin<pi
Частное решение неоднородного ДУ:
2а „1 coq
(15)
С„6/ БШ
(Icùqî + <pi) + arctg-
1 co0-Ç}n
/•"■( 0 =--(16)
В работе получено решение уравнения (10) при наличии частотной модуляции (ЧМ) в сигнале возбуждения, без ограничений (для которых решения известны, но не соответствуют реальным физическим моделям речевого тракта): одна гармоника возбузвдающего сигнала (а>0); один резонатор (с частотой резонанса По); частота возбуждающего сигнала и собственная частота колебаний резонатора совпадают (й>0 = ^о); добротность резонансной системы велика (£? = П0 /2ог»1); индекс модуляции мал (от«1). При наличии начальной фазы в ЧМ-колебании генератора ДУ (10) приобретает вид:
Хт^О» +2ап■/„ +П2п-уп) = ^Ь1 ■ып([-<0о-1-1т1со5(О$'1+уо)+<р1}. (17) я=1 " /=1
Для решения ДУ (17) с целью получения математической модели у{1) в аналитическом виде представим 1-е слагаемое в правой части выражения (17), используя разложение в ряд по функциям Бесселя: В/ (0 = Ь^о (/ • т) 5ш(/й>0? + (р{) +
+ • + <рг 2ку0)+
к=1
¿=1
- Ъ, ¿(-1)^2^+10 • «)8тГ[/«ь - (2 к + 1)ПУ]/ + <р,- (2 к +1 )у0 +-
-Ь^{-\)Ч2к+1{1 ■ м)8ю([/а>Ь + (2 * + №]' + <Р1 + № +1)70 +1 ] = ¿=0 ^ ) = В1л«)+В,л(0+В13(0+В1А(0+В1у5(0. (18)
Решение уравнения (18) состоит из пяти частей, каждая из которых аналогична друг другу и определяется согласно (12), (13), (15), (16), но с другими параметрами, причем четыре из них являются суммами рядов по индексу к. Таким
л
образом, используя решения (12), (13), (15), (16), необходимо провести следующие замены: параметры, которые находятся в правой части уравнения (10), заменяются на соответствующие для каждой составляющей выражения (18): для первого слагаемого 5д(0 осуществляется замена параметра на ■ т), для
второго 5/ 2(0 ~ замена 6/ на ¿>/(-1)*т)ш Т-Д- Аналогично проводятся замены других параметров.
С ростом индекса модуляции расширяется полоса частот сигнала при одновременном уменьшении значений амплитуд высокочастотных гармоник, поэтому допустимо пренебречь спектральными составляющими для р>1т+ 1, т.е. 3р(1 ■ от)|р>/.т+1 «0. Индекс модуляции для обеспечения естественности звучания, как правило, принимается равным т= 0,5-5-1,5. Следовательно, при т<2, можно провести замену бесконечного верхнего предела в суммах выражения (18) на / (2-е и 3-е слагаемые) /—1 (4-е и 5-е слагаемые).
При наличии достаточно высокой добротности резонансной системы, что, как правило, соответствует реальному речевому тракту (ап = С1п /(22„) « П„),
справедливо приближение:т/ок С12п. В результате решение существенно упрощается для практической реализации инженерных расчетов и может быть сведено к математической модели с амплитудно-частотной модуляцией (1).
С целью проверки на адекватность разработанной математической модели речевого сигнала в виде аналитического решения ДУ (17) был осуществлен сравнительный анализ спектра сигнала в виде аналитического решения ДУ со спектрами: реального речевого сигнала, полигармонической модели и приближенного численного решения (на основе метода Рунге-Кутга 4-го порядка). На рис. 1 и 2 в качестве примера показаны амплитудные спектры звука /и/.
•ШдБ О
¿У(ЯдБ О
0 1000 2000 3000 / Гц Рис. 1. Амплитудный спектр аналитического решения ДУ с частотной модуляцией для звука /и/ (пунктирной линией) и реального речевого сигнала (сплошной линией)
0 1000 2000 3000 / Гц
Рис. 2. Амплитудный спектр аналитического решения ДУ с частотной модуляцией для звука /и/ (пунктирной линией) и полигармонической модели (сплошной линией)
Предложен метод практического расчета индекса частотной модуляции и частоты модулирующей гармоники. При решении системы уравнений для практической полосы частот относительно индекса модуляции была получена расчетная формула, зависящая от практических полос частот двух соседних гармоник:
Частота модулирующих колебаний на основе полученной оценки индекса модуляции может быть рассчитана:
Среднее значение индекса модуляции для математической модели при заданном значении т= 0,8 составляет 0,81, а для реального речевого материала
0,76. Эмпирическим путем было получено значение порога =-14 дБ (в от-
^пор у 20
носительных единицах эквивалентно Апср =10 дБ а 0,2), при котором оценки обладают максимальной точностью.
Одной из основных задач при обработке речи является выбор математических моделей для описания конкретных участков речевого сигнала, а также корректность сепарации полученного сигнала на шумовые и тональные составляющие.
В общем виде смешанная стохастическая математическая модель может быть представлена в виде:
где и(0,р(() и «(/)- математические модели, описывающие периодические, импульсные и шумовые сегменты речи соответственно. Вокализованные сегменты речевого сигнала адекватно описываются полигармонической моделью с амплитудно-частотной модуляцией; импульсный голосовой источник — полигауссов-ской моделью (10); шумовая компонента речевого сигнала моделировалась белым шумом, ограниченным по полосе частот.
Экспериментально подтверждена гипотеза о сепарации речевого сигнала на вокализованную, шумовую и импульсные компоненты по значениям номера отсчета коэффициента корреляции (КК) речевого сегмента, начиная с которого все значения КК заходят в границы Бартлетга. Известно, что для частоты дискретизации =8 кГц критические значения отсчетов КК для шумовых невока-лизованных сегментов: < 24 (если все значения КК, до 24-го отсчета включительно, заходят в границы Бартлетга, то данный речевой сегмент можно считать шумовым невокализованным); для вокализованных сегментов: У|ст >115.
В работе для импульсного сегмента были экспериментально получены границы критических значений КК для взрывных звуков импульсного источника: 34 ^ < 59. То есть, можно сделать вывод о том, что если все значения КК попадают в границы с 34 по 59 отсчет, то данный речевой сегмент можно считать невокализованным и соответствующим импульсному сегменту речи (звонкие и глухие мгновенные звуки).
Таким образом, разработанный критерий сепарации речевого сигнала на соответствующие (периодические, импульсные и шумовые) сегменты дает воз-
(23)
«0 = и(0+рЮ+и(0,
(24)
можность повышения эффективности разрабатываемых устройств при решении ряда практических задач анализа и синтеза речи.
В заключении подведены итоги диссертации в целом, сформулированы следующие основные результаты и выводы.
1. Структура речевого сигнала определяется смысловой нагрузкой передаваемого сообщения, а сам речевой сигнал несет не только смысловую информацию, но и информацию об эмоциональном состоянии диктора, а также его индивидуальные (отличительные) параметры. Все характеристики речевого сигнала определяются не только физическими параметрами его формирования (речевым трактом, средой передачи звука), но и рядом субъективных факторов (интонациями, темпом речи, диалектом). Частота основного тона и амплитудные спектральные коэффициенты являются первичными параметрами в акустическом спектре фонем. Ведущим направлением совершенствования систем анализа и синтеза речи является разработка единых для анализа и синтеза алгоритмов параметризации речевого сигнала, основанных на физической модели речевого тракта и природе речевого сигнала, с минимальным количеством существенных параметров.
2. На основе метода максимального правдоподобия при оптимальной обработке речевого сигнала получена реальная точность оценки частоты основного тона для различных длительностей сигнала, фиксированных количеств гармоник в опорном сигнале, отношений сигнал/шум. Экспериментально подтверждено условие разрешения гармоник, при выполнении которого обеспечивается эффективная оценка частоты основного тона оптимальным методом при априори неизвестных амплитудах и начальных фазах. Разработана программная реализация алгоритма оценки частоты основного тона оптимальным методом.
3. На основе полигармонической математической модели речевого сигнала определено количество спектральных составляющих (амплитуд несущих гармоник), влияющих на фонетическое отождествление соответствующего гласного звука.
4. Разработана математическая модель принятия решения для распознавания гласных звуков, которая использует компактный набор существенных параметров на основе спектральных составляющих и обеспечивает высокую точность распознавания. Разработаны способ и алгоритм дикторонезависимого детектирования гласных звуков на основе меры различимости спектральных составляющих, получены пороговые значения для меры различимости каждого гласного звука. Использование разработанной меры различимости призвано повысить надежность и эффективность систем анализа речи применительно к распознаванию речи и аутентификации диктора.
5. Разработанная математическая модель импульсного голосового источника в явном виде, основанная на представлении каждого взрывного согласного звука суммой гауссовских компонент, позволяет компактно и адекватно описывать взрывные звуки импульсного голосового источника. Разработанный алгоритм расчета параметров математической модели, использование реализованной на основе алгоритма компьютерной программы и критерия близости на основе нормированных автокорреляционных функций обеспечивают возможности эффективной параметризации, определения отличительных особенностей для каж-
дого взрывного согласного звука. При этом набор значений параметров математической модели: Pq, mq и tjq для каждого звука, произнесенного одним диктором, является практически неизменным.
6. Разработанная на основе физической модели речевого тракта математическая модель в виде полигармонического частотно-модулированного колебания, проходящего через систему параллельных резонаторов с затуханием, позволяет адекватно и компактно описать вокализованный сегмент речи с учетом модуляции по амплитуде и частоте.
7. Установлено, что полученное аналитическое решение ДУ обладает большей точностью (на основе среднеквадратичной ошибки по спектральной плотности энергии) относительно решения ДУ численным методом, а также является общим случаем относительно полигармонической модели речевого сигнала с частотной модуляцией.
8. Разработанный метод расчета индекса частотной модуляции и частоты модулирующей гармоники позволяет вычислять оценки значений индекса модуляции для гласных звуков, необходимые в задачах анализа и синтеза речи.
9. Предложенная обобщённая математическая модель речевого сигнала в виде смешанной стохастической математической модели, состоящей из периодической, импульсной и шумовой компонент, позволяет системно, основываясь на акустической теории речеобразования, математически формализовать речевой сигнал.
10. Разработанный метод сепарации речевого сигнала, основанный на использовании автокорреляционной функции, обеспечивает однозначную декомпозицию сигнала на соответствующие сегменты, что имеет важное значение для математического моделирования акустических процессов речеобразования в задачах анализа и синтеза речи.
Основное содержание диссертации изложено в следующих работах:
В изданиях, рекомендованных ВАК при Министерстве образования и науки РФ:
1. Голубинский А.Н. Математическая модель вокализованных сегментов речевого сигнала, основанная на модели речевого тракта / АЛ. Голубинский, A.A. Гущина//Вестник Воронежского института МВД России. -2012. -№4. - С. 72-80.
2. Голубинский A.A. / Оценка параметров частотной модуляции речевого сигнала на основе его математической модели / А.Н. Голубинский, A.A. Гущина, P.A. Асташов // Системы управления и информационные технологии. - 2013. -№ 1.1(51)-С. 127-131.
3. Голубинский А.Н. Дикторонезависимое распознавание гласных звуков на основе меры различимости спектральных составляющих // А.Н. Голубинский, A.A. Гущина II Телекоммуникации. — 2013. —№12. - С. 4-10.
4. Гущина A.A. Математическая модель импульсного источника речевого сигнала, основанная на полигауссовской модели / A.A. Гущина, А.Н. Голубинский // Вестник Воронежского института МВД России. - 2013. - №4. - С. 175-181.
5. Гущина A.A. Обобщенная математическая модель речевого сигнала для задач анализа и синтеза речи / A.A. Гущина, А.Н. Голубинский // Системы управления и информационные технологии. -2014. - №1.1(55). — С. 131-135.
Регистрация программы:
6. Гущина A.A., Голубинский А.Н. Расчет частоты основного тона речевого сигнала оптимальным методом / Государственный фонд неопубликованных документов ФГАНУ «Центр информационных технологий и систем органов исполнительной власти», регистрационный номер 50201251262 от 22.10.2012 г.
7. Программа для ЭВМ. Расчет параметров полигауссовской математической модели речевого сигнала для синтеза и анализа взрывных звуков речи / A.A. Гущина, А.Н. Голубинский, A.C. Меренков. - № 2014614253; Заявл. 11.03.2014; Опубл. 21.04.2014 г.
Заявка на регистрацию патента:
8. Заявка на изобретение РФ: МПК 8 G 10 L 11/04. Способ оценки частоты основного тона речевого сигнала / О.М. Булгаков, А.Н. Голубинский, A.A. Гущина и др. - № 2012138225; Заявл. 06.09.2012; Опубл. 20.03.2014 (Бюл. №8).
Материалы международных и всероссийских конференций:
9. Голубинский А.Н. К вопросу о спектральном составе гласных звуков / А.Н. Голубинский, A.A. Гущина // Наука и образование - 2012: сборник материалов международной научно-технической конференции. - Мурманск, 2012. -С. 107-111.
10. Гущина A.A. Синтез гласных звуков на основе полигармонической математической модели / A.A. Гущина, А.Н. Голубинский // Актуальные вопросы эксплуатации систем охраны и защищенных телекоммуникационных систем: сборник материалов всероссийской научно-практической конференции. — Воронеж: Воронежский институт МВД России, 2012. — С. 66-68.
11. Голубинский А.Н. Анализ и синтез гласных звуков на основе математической модели в виде импульса колебания с амплитудно-частотной модуляцией со сложным несущим сигналом / А.Н. Голубинский, A.A. Гущина // Наука и современность: сборник материалов XVI международной научно-практической конференции. - Новосибирск, 2012. - С. 23-28.
12. Голубинский А.Н. О дикторонезависимом распознавании гласных звуков / А.Н. Голубинский, A.A. Гущина // Общественная безопасность, законность и правопорядок в Ш тысячелетии: сборник материалов международной научно-практической конференции. - Ч. 3. - Воронеж: Воронежский институт МВД России, 2012.-С. 8-14.
13. Гущина A.A. О мерах различимости для дикгоронезависимого распознавания гласных звуков / A.A. Гущина, А.Н. Голубинский // Охрана, безопасность, связь - 2012: сборник материалов международной научно-практической конференции. -Ч. 1. - Воронеж: Воронежский институт MB Д России, 2012. - С. 97-101.
14. Гущина A.A. / К вопросу о развитии речевых технологий с учетом социокультурных аспектов / A.A. Гущина // Проблемы современных, экономических, правовых и естественных наук в России: сборник материалов I международной научно-практической конференции. - Воронеж, 2013. - С. 347-349.
15. Гущина A.A. / Расчет индекса частотной модуляции математической модели речевого сигнала / A.A. Гущина, А.Н. Голубинский // Математические Методы в Технике и Технологиях - ММТТ-26: сборник материалов XVI международной научной конференции. - Т. 8. - Нижний Новгород, 2013 - С. 176-180.
16. Гущина A.A. / К вопросу о математических моделях импульсного источника для описания взрывных звуков речи / A.A. Гущина, А.Н. Голубинский II Актуальные вопросы эксплуатации систем охраны и защищенных телекоммуникационных систем: сборник материалов всероссийской научно-практической конференции. - Воронеж: Воронежский институт МВД России, 2013.-С. 52-54.
17. Гущина A.A. Синтез и анализ взрывных звуков речи на основе полигаус-совской математической модели / A.A. Гущина, А.Н. Голубинский // Информатизация и информационная безопасность правоохранительных органов: сборник трудов XXII международной научной конференции. - М.: Академия управления МВД России, 2013. - С. 203- 206.
18. Гущина A.A. Расчет параметров и проверка на адекватность математической модели импульсного источника при описании взрывных звуков / А.Н. Голубинский, A.A. Гущина // Общественная безопасность, законность и правопорядок в Ш тысячелетии: сборник материалов международной научно-практической конференции. - Ч. 2. - Воронеж: Воронежский институт МВД России, 2013.-С. 16-24.
. 19. Голубинский А.Н. О полигауссовской математической модели речевого сигнала в задачах цифровой обработки речи / А.Н. Голубинский, A.A. Гущина // Проблемы управления, обработки и передачи информации (АТМ-2013): сборник материалов Ш международной научной конференции. - Саратов, 2013.-С. 137-142.
20. Гущина A.A. К вопросу о точностных характеристиках оценки частоты основного тона / A.A. Гущина // Современное состояние и перспективы развития систем связи и радиотехнического обеспечения в управлении авиацией: сборник материалов всероссийской научно-практической конференции. - Воронеж, 2013. —С. 131-133.
21. Гущина A.A. Точность оценки частоты основного тона оптимальным методом / A.A. Гущина, А.Н. Голубинский // Охрана, безопасность, связь - 2013: сборник материалов международной научно-практической конференции. - Ч. 1. -Воронеж: Воронежский институт МВД России, 2013. - С. 161-167.
22. Гущина A.A. Проверка на адекватность математической модели речевого сигнала в виде частотно-модулируемого колебания со сложной несущей / A.A. Гущина, А.Н. Голубинский // Радиолокация, навигация, связь XX (RLNC*2014): сборник материалов международной научно-технической конференции. - Воронеж, 2014 -Т.1.-С. 308-313.
Подписано в печатей ■О/.20//' г. Формат 60 х 84
Усл. печ. л. 0,93. Уч.-изд. л. 1,0. Тираж 100. Заказ № Типография Воронежского института IV® Д России 394065, г. Воронеж, пр. Патриотов, 53
Текст работы Гущина, Анастасия Александровна, диссертация по теме Математическое моделирование, численные методы и комплексы программ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ КАЗЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ ВОРОНЕЖСКИЙ ИНСТИТУТ МВД РОССИИ
На правах рукописи
04201459877
Гущина Анастасия Александровна
РАЗРАБОТКА И СОВЕРШЕНСТВОВАНИЕ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ ЗАДАЧ АНАЛИЗА И СИНТЕЗА РЕЧИ
05.13.18 - Математическое моделирование, численные методы и комплексы программ.
Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель: д.т.н., доцент Голубинский А.Н.
Воронеж - 2014
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ............................................................................................................................................................5
ГЛАВА 1.Проблемы анализа и синтеза речи......................................................................13
1.1. Вопросы анализа и синтеза речи человека........................................................................14
1.1.1. Классификация задач анализа речи..........................................................................16
1.1.2. Состояние разработок систем анализа речи......................................................20
1.1.3. Классификация задач синтеза речи..........................................................................27
1.1.4. Состояние разработок систем синтеза речи......................................................29
1.2. Способы параметризации речевого сигнала для задач анализа и синтеза речи..................................................................................................................................................32
1.2.1. Общие подходы к параметризации речевого сигнала для задач анализа речи..................................................................................................................................................35
1.2.2. Параметризация речевого сигнала на основе спектрального анализа..................................................................................................................................................................37
1.2.3. Параметризация речевого сигнала на основе линейного предсказния....................................................................................................................................................40
1.2.4. Параметризация речевого сигнала на основе кепстрального анализа..............................................................................................................................................................45
1.2.5. Параметризация речевого сигнала на основе вейвлет-анализа.... 49
1.2.6. Подходы к параметризации речевого сигнала для задач синтеза речи........................................................................................................................................................................51
1.3. Математические модели принятия решений для задач анализа речи... 58
1.3.1. Критерии вычисления расстояний между параметрами........................58
1.3.2. Применение скрытых марковских моделей для задач анализа
речи........................................................................................................................................................................61
1.3.3. Применение искусственных нейронных сетей для задач анализа речи........................................................................................................................................................................62
1.3. Сходство и различия математического аппарата, используемого при
описании речевого сигнала для задач анализа и синтеза речи........................65
Выводы к главе 1..............................................................................................................................................69
ГЛАВА 2. Математические модели речевых сигналов для анализа и синтеза вокализованных сегментов речи....................................... 70
2.1. Характеристика звуков русской речи и фонем русского языка.......... 70
2.2. Подходы к описанию вокализованных сегментов речи................... 72
2.2.1. Математические модели и особенности описания гласных и сонорных звуков.................................................................... 72
2.2.2. Математическая модель в виде импульса колебания с амплитудно-частотной модуляцией со сложным несущим колебанием.......................................................................... 73
2.3. Методы оценки параметров математических моделей речевых сигналов.................................................................................... 75
2.3.1. Анализ частоты основного тона оптимальным методом............ 77
2.3.2. Точностные характеристики оценки частоты основного тона..... 80
2.3.3. Анализ амплитудных коэффициентов математической модели вокализованного сегмента речи................................................. 85
2.4. Математическая модель принятия решения для распознавания гласных звуков........................................................................... 89
2.5.Алгоритм дикторонезависимого распознавания гласных звуков....... 100
Выводы к главе 2....................................................................... 102
ГЛАВА 3. Математическая модель речевого сигнала для задач анализа
и синтеза невокализованных сегментов импульсного источник............103
3.1. Подходы к описанию невокализованных сегментов речи..............................104
3.2. Математическая модель импульсного источника речевого сигнала применительно к описанию взрывных звуков речи..........................................................107
3.3. Расчет параметров полигауссовской математической модели....................110
3.4. Проверка на адекватность полигауссовской математической модели
импульсного источника речевого сигнала................................................................................114
Выводы к главе 3..............................................................................................................................................117
ГЛАВА 4. Обобщенная математическая модель речевого сигнала для
задач анализа и синтеза речи..................................................... 119
4.1. Математическая модель вокализованных сегментов речевого
сигнала, основанная на модели речевого тракта........................... 119
4.2. Проверка на адекватность математической модели речевого сигнала в виде частотно-модулируемого колебания со сложной несущей............................................................................ 132
4.2.1. Сравнительный анализ аналитического решения дифференциального уравнения анализ с численным решением методом Рунге-Кутта..................................................................... 134
4.2.2. Сравнительный анализ аналитического решения дифференциального уравнения с полигармонической математической моделью с частотной модуляцией.......................................... 136
4.2.3. Метод расчета индекса частотной модуляции математической модели речевого сигнала..................................................... 138
4.3. Обобщенная математическая модель речевого сигнала................. 141
4.3.1. Способы и критерии сепарации речевого сигнала на вокализованные и невокализованные сегменты речи........................... 142
4.3.2. Метод сепарации речевого сигнала для обобщенной математической модели....................................................... 144
Выводы к главе 4...................................................................... 147
ЗАКЛЮЧЕНИЕ..................................................................... 148
ЛИТЕРАТУРА....................................................................... 151
ПРИЛОЖЕНИЯ..................................................................... 167
Приложение 1. Таблицы значений точностных оценок частоты
основного тона......................................................................... 167
Приложение 2. Таблицы значений амплитудных коэффициентов математической модели вокализованного сегмента речи.................... 172
ВВЕДЕНИЕ
Актуальность темы. Использование речевого интерфейса актуально для таких задач, как распознавание и анализ речи, аутентификация личности по голосу (например, в интегрированных системах безопасности), возможность голосового ответа на запрос информационной системы (например, о состоянии технологического процесса), повышение эффективности преобразователей «речь-текст». Голосовой интерфейс является одним из условий создания безбарьерной среды для людей с ограниченными возможностями. Все большую актуальность приобретает использование речевых технологий для создания диалога человек-машина.
Основным направлением современных речевых технологий является разработка единых алгоритмов параметризации речевого сигнала, основанных на физической модели речевого тракта и природе речевого сигнала - определение существенных параметров и разработка математических моделей, применимых как для синтеза, так и для анализа речи. Определение отличительных существенных параметров осложняется тем, что речевой сигнал имеет двойственную природу: с одной стороны, это акустический сигнал, отражающий процесс распространения энергии акустических колебаний в упругой среде, с другой стороны, речевой сигнал несет смысловую информацию, информацию об эмоциональном состоянии диктора, а также содержит индивидуальные параметры, позволяющие отличать одного диктора от другого. В настоящее время не существует единого мнения о природе формы спектра речевых сигналов, методах их анализа и синтеза.
Используемые в диссертации математический аппарат, подходы к анализу и синтезу речи основываются на трудах отечественных и зарубежных исследователей, таких как: A.B. Аграновский, Т.К. Винцюк, В.И. Галунов, Б. Го-улд, C.B. Дворянкин, В.Р. Женило, Б.М. Лобанов, Д.Д. Маркел, М.В. Назаров, A.A. Петровский, Ю.Н. Прохоров, Л.Р. Рабинер, М.А. Сапожков, В.Н. Сорокин, Г. Фант, Дж. Фланаган, Л.А. Чистович, В. Чу, Р.В. Шафер и др.
Анализ научных работ [2, 30, 32, 38, и др.] позволил установить, что для организации человеко-машинного взаимодействия при помощи речевых команд
системы анализа и синтеза речи должны отвечать следующим требованиям:
- возможность работы в режиме реального времени (не требуется сложный математический аппарат, с долгим вычислительным процессом);
- достаточное качество распознавания (не менее 95% правильно распознанных команд в условиях отсутствия шумовой составляющей) и синтезе (естественность звучания);
- дикторонезависимость;
- возможность определения индивидуальных акустических параметров голоса для последующего применения.
Современное состояние развития науки и техники позволяет создавать системы, основанные на сложном математическом аппарате, но работающие в режиме реального времени, благодаря виртуальным сетям. Данный математический аппарат дает возможность оперирования большими объемами информации при его несоответствии акустической теории. При этом один и тот же математический аппарат использует разные данные в системах анализа и синтеза речи.
Наибольшей точностью описания речевого сигнала обладают математические модели, основанные на физике протекающих явлений, что приводит к требованиям высокой точности, компактности (в смысле параметризации) и адекватности математических моделей речевого сигнала акустической теории рече-образования.
Современное состояние исследований в области речевых технологий обуславливает актуальность решения научной задачи создания математических моделей и методов параметризации речевых сигналов, основанных на физической теории речеобразования и универсальных для систем анализа и синтеза речи.
Цели и задачи исследования. Целью работы является разработка и совершенствование математических моделей речевых сигналов для анализа и синтеза речи и методов их построения.
Для достижения данной цели в работе решены следующие задачи: 1. Систематизация математических моделей речевых сигналов для анализа и синтеза речи, подходов к анализу и синтезу речи, включающих в себя систему отличительных параметров речевого сигнала, методов их определения и оценки точности расчетов.
2. Анализ реальной точности оценки частоты основного тона речевого сигнала оптимальным методом.
3. Разработка математических моделей принятия решения для диктороне-зависимого детектирования гласных звуков.
4. Создание и программная реализация алгоритмов дикторонезависимого распознавания гласных звуков и оценки параметров математических моделей речевого сигнала.
5. Разработка математической модели импульсного источника речевого сигнала.
6. Разработка математической модели вокализованных сегментов речевого сигнала, основанной на модели речевого тракта.
7. Разработка метода расчета индекса частотной модуляции математической модели речевого сигнала.
8. Разработка математической модели и метода сепарации речевого сигнала на периодические, импульсные и шумовые сегменты.
Методы исследования. При решении поставленных задач использовались аналитические и вычислительные методы теории речеобразования, математического анализа, цифровой обработки сигналов, численные методы, методы программирования и моделирования на ЭВМ. Для проведения и выполнения инженерных и научных расчетов применялась программа МаШСАХ).
Новые научные результаты, выносимые на защиту:
1. Точностные характеристики оценки частоты основного тона речевого сигнала оптимальным методом, полученные экспериментально.
2. Математическая модель принятия решения для дикторонезависимого детектирования гласных звуков, использующая компактный набор существенных параметров на основе спектральных составляющих.
3. Алгоритмы дикторонезависимого детектирования гласных звуков и оценки существенных параметров, основанные на математических моделях речевого сигнала.
4. Математическая модель импульсного источника речевого сигнала на основе полигауссовской математической модели применительно к описанию взрывных звуков речи.
5. Математическая модель вокализованных сегментов речевого сигнала, основанная на модели речевого тракта, учитывающая вариации частоты основного тона голосового источника в виде частотной модуляции.
6. Метод расчета индекса частотной модуляции математической модели речевого сигнала, основанный на использовании практической полосы частот обертонов.
7. Метод сепарации речевого сигнала на периодические, импульсные и шумовые сегменты обобщенной математической модели.
Практическая ценность результатов работы заключается в возможности применения разработанных математических моделей речевого сигнала, и методов параметризации для совершенствования систем анализа и синтеза речи, в том числе для повышения надежности систем аутентификации личности по голосу, а также для разработки систем поэлементного синтеза речи.
Полученные результаты могут быть использованы для совершенствования алгоритмов вычисления существенных параметров речевого сигнала, оценки их точности, в том числе в аппаратуре связи специального назначения органов внутренних дел.
Реализация результатов исследований. Полученные в диссертации результаты использовались при разработке технического задания и рекомендаций по охране особо важных объектов с применением интегрированных систем безопасности в ФКУ НИЦ «Охрана» МВД России; при разработке рекомендаций производителям защищенных систем конфиденциальной радиосвязи для органов внутренних дел в управлении связи ДИТСиЗИ МВД России; при разработке систем распознавания и синтеза речи в ОАО «Концерн «Созвездие». Кроме того, результаты внедрены в учебный процесс в Воронежском институте МВД России.
Соответствие паспорту специальности. Содержание диссертации соответствует п. 3. «Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий», п. 4. «Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента», п. 5. «Комплексные исследования научных и техни-
ческих проблем с применением современной технологии математического моделирования вычислительного эксперимента», п. 7. «Разработка новых математических методов и алгоритмов проверки адекватности математических моделей объектов на основе данных натурного эксперимента» паспорта специальности 05.13.18 - Математическое моделирование, численные методы и комплексы программ.
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на следующих конференциях: XX Между парод пая научно-техническая конференция «Радиолокация, навигация, связь» (Воронеж, 2014), XXII Международная научная конференция «Информатизация и информационная безопасность правоохранительных органов» (Москва, 2013), Международная научно-техническая конференция «Наука и образование - 2012» (Мурманск, 2012), XVI Международная научно-практическая конференция «Наука и современность» (Новосибирск, 2012), XVI Международная научная конференция: «Математические Методы в Технике и Технологиях - ММТТ-26» (Нижний Новгород, 2013), III Международная научная конференция: «Проблемы управления, обработки и передачи информации (АТМ-2013)» (Саратов, 2013), Международная научно-практическая конференция «Общественная безопасность, законность и правопорядок в III тысячелетии» (Воронеж, 2012, 2013), I Международная научно-практическая конференция «Проблемы современных, экономических, правовых и естественных наук в России» (Воронеж, 2013), Всероссийская научно-практическая конференция «Охрана, безопасность и связь» (Воронеж, 2012, 2013), Всероссийская научно-практическая конференция курсантов, слушателей, студентов, адъюнктов и молодых специалистов «Актуальные вопросы эксплуатации систем охраны и защищенных телекоммуникационных систем» (Воронеж, 2012, 2013), Всероссийская научно-практическая конференция «Современное состояние и перспективы развития систем связи и радиотехнического обеспечения в управлении авиацией» (Воронеж, 2013).
Публикации по материалам диссертации. По теме диссертации опубликовано 22 научные работы, в том числе пять статей в научных журналах, которые входят в утвержденный ВАК при Минобрнауки России Перечень российских рецензируемых на
-
Похожие работы
- Модели и алгоритмы в системах анализа речевых сигналов
- Разработка методики анализа и синтеза речевых сигналов на основе линейного предсказания
- Математические модели образования звучной речи
- Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий
- Моделирование процессов управления речевой разборчивостью в многоканальных системах конфиденциальной голосовой связи
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность