автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Алгоритмы поиска ключевых слов в радиотехнических устройствах обработки речевой информации, устойчивые к воздействию мешающих факторов
Автореферат диссертации по теме "Алгоритмы поиска ключевых слов в радиотехнических устройствах обработки речевой информации, устойчивые к воздействию мешающих факторов"
На правах рукописи
Ф
БАЛАНДИН Ивам Васильевич
АЛГОРИТМЫ ПОИСКА КЛЮЧЕВЫХ СЛОВ В РАДИОТЕХНИЧЕСКИХ УСТРОЙСТВАХ ОБРАБОТКИ РЕЧЕВОЙ ИНФОРМАЦИИ, УСТОЙЧИВЫЕ К ВОЗДЕЙСТВИЮ МЕШАЮЩИХ ФАКТОРОВ
Специальность: 05.12.04 -«Радиотехника, в том числе системы и устройства телевидения»
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
31 ОКТ 2013
Рязань 2013
005536724
Работа выполнена в ФГКОУ ВПО «Рязанский государственный радиотехнический университет»
Научный руководитель
Официальные оппоненты
Ведущая организация
- заслуженный работник Высшей школы РФ, доктор технических наук, профессор Кириллов Сергей Николаевич
- Паршин Юрий Николаевич,
доктор технических наук, профессор,
ФГБОУ ВПО «Рязанский государственный радиотехнический университет», заведующий кафедрой Радиотехнических устройств
- Шустиков Олег Евгеньевич,
кандидат технических наук, Рязанское региональное отделение центрального филиала ОАО «Мегафон», руководитель по инфраструктуре
- ГКОУ ВПО «Академия Федеральной службы охраны Российской Федерации», г.Орел
Защита состоится « 22 » ноября 2013 г. в 12 часов на заседании диссертационного совета Д 212.211.04 в ФГБОУ ВПО «Рязанский государственный радиотехнический университет» по адресу: 390005, г. Рязань, ул. Гагарина, д. 59/1.
С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Рязанский государственный радиотехнический университет».
Автореферат разослан « 7 » октября 2013 г.
Ученый секретарь диссертационного совета
Овечкин Г.В.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Разработка алгоритмов поиска ключевых слов в потоке слитной речи является одной из наиболее сложных задач в области обработки речевых сигналов (PC) и требует использования особых методов повышения показателей качества радиотехнических устройств. Наиболее существенный вклад в развитие теории речеобразования и методов обработки, передачи и распознавания PC внесли работы М.А. Сапожкова, A.A. Пирогова, Т.К. Випцюка, IM.В. Назарова, Ю.Н- Прохорова, В.Н. Сорокина, Л.В. Златоустовой, В.Г. Михайлова, Р.В. Гудоиавичюса, Ю.К. Калинцева, а также работы Дж.Д. Маркела, JI.P. Рабинера, Р.В. Шафера, Дж.Д.Фланагана, Г. Фанта, А.Х. Грейя, У. Ли, Дж.Р. Доддингтона, С.Е.Левинсона и др.
Технологии поиска ключевых слов лежат в основе радиотехнических устройств голосового управления, интерактивного телевидения, аудио индексации, поиска речевой информации по образцу в мультимедиа-архивах, автоматического контроля речевых сообщений в системах безопасности и т.д. К алгоритмам ароматического поиска ключевых слов (ААГ1КС) предъявляют ряд специфических требований, выделяющих их в отдельный класс систем автоматического распознавания речи (АРР), такие как:
- малый обьем словаря;
- работа в потоке спонтанной слитной речи;
- дикторонезависимоеть;
- обработка речи с выраженными дефектами;
- повышенные требования к использованию вычислительных и аппаратных ресурсов.
В ряде основных проблем при разработке алгоритмоп первичной обработки PC и поиска ключевых слов наиболее актуальными являются;
1. Определение информативной системы акустических параметров первичных элементов речи, устойчивой к изменению голоса диктора и воздействию акустических помех;
2. Уменьшение влияния вариативности речи на показатели качества радиотехнических устройств обработки PC и поиска ключевых слов;.
3. Повышение вычислительной эффективности алгоритмов формирования первичных признаков PC и поиска ключевых слов в интересах обеспечения дикгоронезависимой обработки в реальном масштабе времени при заданном объёме словаря.
Впервые задача ААГТКС была сформулирована в 40-е годы прошлого века, но разработанные алгоритмы обладали низкой эффективностью и надежностью. Несмотря на предъявляемые специфические требования, в настоящее время, задача поиска ключевых слов в основном решается системами АРР, также не обладающими заданной эффективностью. Известны различные методы АРР, по в последнее время основным стал метод сопоставления с эталоном на основе вероятностных моделей. Главным образом это связано с прогрессом в области электронных компонентов, в частости, с увеличением вычислительной мощности процессоров и объемов памяти. При этом нерешенными остались вопросы.
связанные с работой ЛАПКС в условиях акустических шумов, обеспечению работы м потоке слитной речи, а также адаптацией к изменению голоса диктора.
Для снижения вычислительных затрат при обработке речевой информации в радиотехнических устройствах могут использоваться алгоритмы вейвлет-анализа, позволяющие обеспечить дикторонезависимость алгоритмов и компактное храпение эталонов. Но особенности построения быстрых алгоритмов вейвлет анализа не позволяют использовать-психофизические свойства слуховой системы человека, что значительно снижает качество формируемого пространства признаков в интересах построения ЛАПКС.
Поиск ключевых слов по методу сопоставления с эталоном определяет и необходимость решения задачи хранения образцов, которая усугубляется необходимостью увеличения их числа в целях обеспечения дикторонезависимости.
Кроме того, разработка АЛПКС требует решения проблемы создания и обучения моделей ключевых слов, для решеиия которой не существует аналитических способов. Использование известных итеративных алгоритмов обуславливает необходимость обоснования оптимального критерия качества обучения.
Гаким образом, актуальна задача разработки новых дикторонезависимых моделей и алгоритмов предварительной обработки РС, формирования признаков и решающих алгоритмов в интересах повышения надежности и эффективности радиотехнических устройств поиска ключевых слов в потоке речевой информации.
Цель работы. Основной целью диссертационной работы является разработка алгоритма автоматического дикторонезависимого поиска ключевых слов в потоке слитной речи, обеспечивающего повышение показателей надежности обнаружения при воздействии мешающих факторов.
I [оставленная цель работы включает решение следующих задач:
• исследовать методы нормирования РС по амплитуде в целях повышения устойчивости ААПКС к изменению уровня РС;
• обосновать выбор базиса представления РС для обеспечения устойчивости алгоритмов обработки речевых сигналов АЛПКС к воздействию мешающих факторов;
• предложить процедуру адаптации базиса представления РС в интересах повышения робастных свойств ААПКС к изменению голоса диктора;
» разработать алгоритм обработки РС, устойчивый к воздействию мешающих факторов, включающий оценку частоты основного тона (ОТ) и сегмен тацию непрерывного РС на речевые единицы;
• проанализировать возможность явного моделирования акустического окружения в целях обеспечения работы АЛПКС в потоке слитной речи и уменьшения расхода вычислительных ресурсов;
• обосновать введение акустического контекста в алгоритм поиска ключевых слов в потоке слитной речи для повышения робастных свойств ААПКС;
• проанализировать процедуру явного моделирования изменчивости РС во временной области в интересах увеличения устойчивости ААПКС к изменению голоса диктора;
• определить возможности сокращения вычислительных затрат и уменьшения требуемого объема памяти для хранения эталонов в целях обеспечения
дикторонезависимости;
• разработать автоматический алгоритм обучения предложенного ААПКС;
• проанализировать возможность аппаратной реализации ААПКС.
Методы проведения исследований. В работе использовались методы
статистической радиотехники и математической статистики, распознавания образов, динамического программирования, кластерного анализа, вычислительной математики, а также новые достижения в области цифровой обработки речевой информации. Данные теоретические методы сочетались с экспериментальными исследованиями на основе имитационного моделирования разработанных алгоритмов.
Научная новизна. В рамках диссертационной работы были получены следующие новые научные результаты:
" 1. Разработан алгоритм формирования первичных признаков РС на основе непрерывного вейвлет преобразования (НВП) с адаптацией вейвлет фильтра (ВФ) к изменению голоса диктора на основе оценки часшгы основною тона (ОТ), обеспечивающий повышение робастпых свойств ААПКС в условиях воздействия
мешающих факторов.
2. Разработан алгоритм адаптивной сегментации непрерывного РС, основанный на использовании модифицированной фонетической функции речи (ФФР) А.А.Пирогова, позволяющий уменьшить вероятность ложной сегментации, и тем самым снизи ть вычислительные затраты на работу ААПКС.
3. Предложен ААПКС на основе модифицированной гибридной модели восприятия речи, использующий акустический контекст и явное моделирование акустического окружения для обеспечения работы в потоке слитной речи и снижения вычислительных затрат на поиск границ ключевого слова.
Достоверность. Достоверность результатов и выводов полученных в диссертационной работе обеспечивается корректностью численных экспериментов, качественным и количественным сопоставлением с известными положениями теории обработки и распознавания РС.
Практическая ценность. Представленные в работе алгоритмы предварительной обработки и распознавания РС могут быть использованы в таких радиотехнических устройствах, как системы передачи речевой информации, системы интерактивного взаимодействия человека и ЭВМ, информационно-справочные системы, системы экономного хранения РС, медицинские системы диагностики, системы автоматической идентификации и верификации информанта по голосу, системы криминалистической фоноскопии, системы конфиденциального доступа и закрытия речевой информации, системы открытого образования для лиц с ограниченными возможностями здоровья и т.д. Результаты диссертационной работы нашли применение и действующей системе автоматического контроля безопасности связи войсковой части 67240 и в учебном процессе военной кафедры ФГБОУ 131Ю «Комсомольский-на-Амуре государственный технический университет», что подтверждается соответствующими актами внедрения.
Основные положения, выносимые на защиту:
1 Алгоритм формирования вектора первичных признаков РС, включающий ИБП РС с адаптацией ВФ к изменению голоса диктора и адаптивную сегментацию артикуляционных событий РС на основе модифицированной ФФР А.А.Пирогова, применение которого позволило уменьшить вероятность ложной сегментации с 0,15 до 0,08 при вероятности правильной сегментации 0,92 в случае ОСШ 20 дБ.
2 Процедура обеспечения работы ААПКС в потоке слитной речи с явным моделированием акустического окружения с помощью состояния заполнителя, позволяющая исключить из алгоритма этап поиска границ ключевого слова и уменьшить расход вычислительных ресурсов в шесть раз.
3 Модифицированная гибридная модель речевосприятия с использованием акустического контекста обеспечивающая увеличение вероятности правильного обнаружения на 0,05 и снижение вероятности ложного обнаружения на 0,02 по сравнению с известными системами. При этом средняя вероятность правильного обнаружения после оптимизации параметров составила 0,98, а средняя вероятность ложного обнаружения 0,05.
Апробация работы. Результаты работы докладывались на следующих научно-технических конференциях (НТК), семинарах и сессиях:
1. 11аучная сессия МИФИ -2008 г., 2009 г., г. Москва
2. 15-я МНТК «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций». 2008 г., г. Рязань.
3. Всероссийская НТК "Биотехнологические, медицинские и экологические системы и комплексы. Биомедсистемы -2009". г. Рязань, 2009.
4. 14-я, 15-я, 16-я Всероссийская НТК студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях и образовании". 2009, 2010, 2011 гг., г. Рязань.
Публикации. По теме диссертации опубликовано 11 работ. 2-е статьи в научно-технических журналах рекомендованных ВАК и 9 тезисов докладов на конференциях.
Структура и объем работы. Диссертационная работа состоит из введения, ■фех глав, заключения, списка литературы из 145 наименований и 3-х приложений. Диссертация содержит 130 стр. основного текста, 11 таблиц и 42 рисунка.
СОДЕРЖАНИЕ РАБОТЫ
Во ннедеипп обоснована актуальность выбранной темы, определены цель и решаемые в работе задачи. Изложены новые научные результаты, полученные в работе, показаны се практическая ценность и апробация. Сформулированы основные положения, выносимые на защиту.
В нерпой главе разработаны алгоритмы первичной обработки речевого сигнала устойчивые к изменению голоса диктора и воздействию мешающих факторов.
Предложено для обеспечения постоянного отношения сигнал-шум (ОСШ) квантования в широком диапазоне дисперсий РС, снижения вычислительных затрат связанных с флуктуациями шума пауз и обеспечения робастных свойств алгоритма
использовать на входе аналогово-цифрового преобразователя адаптивный усилитель с каналом обнаружителя пауз РС, на основе подсчета числа переходов через ноль. В качестве порогового уровня использовался управляющий параметр
*,(")=*,Я,(и-1)+К"-1}> (1)
где а, - коэффициент импульсной характеристики.
Адаптация параметров усилителя производилась во время обнаруженной
речевой активности.
Для сохранения временной структуры РС, учитывая постоянную времени слуха, экспериментально определены значения коэффициента импульсной характеристики а, = 0,95. Показано, что при ОСШ 20 дБ предложенный алгоритм обеспечивает выигрыш в динамическом диапазоне 10 дБ и среднюю ошибку выделения участков речевой активности не более 2,5 мс.
В целях формирования компактного пространства признаков, устойчивого к воздействию мешаюших факторов при выборе представления РС рассматривалась возможность использования психофизических свойств слуха, учтенных в Ме1-частотной шкале,.
Эффективность формируемого пространства признаков оценивалась с помощью комбинированного критерия качества
= а,,Ка + (1 - а}-) КстатЬ/Мкаф, ^(2)
где К - статистический и К - артефактный критерии качества; аг = 0,1 -
»/ «* стат ° 1 *
параметр комбинированного критерия; I - размерность пространства признаков; .V - размер кадра преобразования.
Критерии качества определялись из выражений
К = г / с/; (3)
сшшп
К - г ¡<1 , (4)
тих ^тт '
где 2- среднее расстояние между кластерами; г- средний радиус кластеров; г/тш- ■ минимальное расстояние между центрами кластеров; ггаах - максимальный радиус кластера.
Экспериментально показано, что оптимальное, по критерию минимума вероятности ошибки классификации акустических образов, значение параметра комбинированного критерия а,.- =0,51. На рисунке 1 представлены результат!,I исследования устойчивости пространства признаков, сформированного в базисах НВП, вейвлет-пакетного разложения (ВНР), окопного преобразования Фурье (ОПФ) и кепстра при размере кадра N^=128 отсчетов, к воздействию акустических
шумов в виде гауссовского шума.
С целью сокращения вычислительных затрат выбор базового вейвлета .для формирования первичных признаков РС осуществлялся из условий формирования требуемых частотных полос и минимизации площади частотно-временног о окна:
^га=4ЛА„, ^(5)
где А А, - радиусы частотно-временного окна, соответственно во временной и
частотной областях.
Показано, что наиболее полно данным критериям соответствует вейвлет Морле. Для формирования 14 критических полос, перекрывающих полосу частот 300...3625 Гц, рассчитаны кратность изменения масштабов НВП ¿а=1,195, значение первого масштаба преобразования а, - 0,0063. Остальные масштабы рассчитывались из выражения
= (6) где Л/а=14 - число масштабов разложения.
В гармонической модели РС импульсы ОТ являются модулирующим колебанием:
¿■(1) = М А„ сок(2л/;0, (7)
к=а
где М- индекс модуляции; Р0- частота ОТ; Ак,/к - амплитуда и частота к-й гармоники соответственно.
При этом формантные частоты, являющиеся гармониками ОТ. кратны частоте
ОТ
= кРа,к = 2, со. (8)
Предложена процедура нормализации РС в частотной области методом адаптации масштабов анализирующей ВФ НВП по изменению оценки частоты ОТ.
Масштабные коэффициенты ВФ /'-го периода вокализованного участка определяются из выражения
**(')= кот0Х, * = (9)
где Nп --14 - число масштабов разложения; АТ0Г(/)- коэффициент адаптации /-го периода вокализованного участка, определяемый из оценок частоты ОТ'
= (Ю)
где Гд(]),1'0 (/)-оценки частота ОТ 1-го и /-го периодов вокализованного участка РС соответственно.
На рисунке 2 представлены результаты сравнительных исследований качества признакового пространства для адаптивного и неадаптивного алгоритмов при воздействии гауссовского шума.
Алгоритм оценки частоты ОТ состоит из блока НВП, выделяющего импульсы ОТ из абсолютных значений отсчетов РС |.у(и)| и вычислителя, который определяет сдвиги ВФ, соответствующие переходам через ноль коэффициентов НВП IV (а,Ь) по веем масштабам. Расчетным методом определено число масштабов разложения Л',, =4, кратность изменения масштабов ка= 1,61 и значение добротности ВФ =2,13.
Рисунок 1
Исходя из требования минимизации площади частотно-временного окна, в целях уменьшения вычислительных затрат, и условия наличия центрального максимума ВФ для выделения формы импульса ОТ, выбрана ВФ Гаусса 6-го порядка, для которой рассчитаны масштабные коэффициенты при частоте дискретизации Fs =8000 Гц:
а, =1,1-Ю-3; а2 =6,83-КГ*; а, =4,24-10"'1; ал= 2,63-10-'. Выражение для оценки /-й границы периода ОТ:
Ъ (i) = Q(sign[if;(ai,Ä-l)]<sign[»;(flri,i)])> (П)
где W (ак,Ь) - коэффициентНВП масштаба ак, сдвига Ъ.
Оценка длительности i-го периода ОТ производилась по выражению
t0{i) = b(i)-b{i-\),k=\Na. (12)^
Математическое ожидание периода ОТ j-го вокализованного участка PC определялось по формуле
Г0й) = —-£'<,('"). <13>
п-к ,=А
а оценка частоты ОТ /-го вокализованного участка PC
F0U)=rjT0U)- (14)
Для уменьшения вероятности ложной сегментации предложен двухканальный алгоритм сегментации непрерывного PC па акустически однородные участки речи, использующий как статические, так и динамические параметры речи.
Сегментирующая функция на основе модифицированной ФФР A.A. Пирогова:
W (6) = X1 К>ь?У1 К-'Ъ~ ("*>'Ь + w • (15)
к=\
Решение о наличии артикулярного события принималось при выполнении условия:
W(b)> ßJV°(b), (16)
где W"(q) - пороговая функция; Д.. - коэффициент, определяющий риск потерь
обнаружения фаниц сегментов.
Пороговая функция вычислялась рекуррентно из выражения
W°(q) = aJV°(b-])+lV {Ь); (17)
где аи < 1 - параметр адаптации.
Второй канал, использующий статические параметры PC, выделял межфонемные паузы в результате сравнения логарифма энергии коэффициентов HB! 1
(18)
0-5_I-1-'-г,-=
О 20 "О 60 "ш. А"
Рисунок 2
С адаптивным порогом Е1Юр, учитывающим наличие постоянной времени слухового восприятия тп, составляющей в среднем 150...200 мс, вычисляемым из условия:
Е»оРФ) = -,Е
Е(Ь),Е1Юр(Ь-1)<Е(Ь):
(19)
^(b -1) ■-10/(г0F,),E„op(b -1) > E(b).
Структурная схема алгоритма сегментации PC на АОУ представлена на рисунке 3.
W(q)
WJe.b)
W0(q)
Решающее ycmp. 1
m Егор Решающее ycmp. 2
l—НПО
нет
Рисунок 3
О Р, га ус.
Д Pf гзус.
□ Р, НМЛ
V pf ими.
На рисунке 4 представлены зависимости правильной сегментации Р, и ложной сегментации Р/ от ОШС для гауссовского шума и импульсной помехи при оптимальных значениях параметров сегментирующей функции «„=0,95, Д,=0,04, определенных экспериментально.
Во второй главе обоснован дикторонезависимый алгоритм автоматического поиска ключевых слов в потоке слитной речи на основе модифицированной гибридной модели восприятия речи.
Сформулирована задача поиска ключевых слов как задача классификации образов по критерию максимума апостериорной вероятности
Q = arg max P(Q \Н), (20)
Q
где {£>}' = {д., q2, ...qT} последовательности состояний генерируемых источником;
{//} = {/;,, h2.....hK } - последовательность символов наблюдения; <7, - состояние
источника в момент времени t = \J: ht - символ наблюдения поступивший в момент времени к = \,К.
Анализ известных алгоритмов АРР показал, что в целях реализации ААПКС наибольшим потенциалом обладает гибридная модель восприятия речи, в которой для моделирования временных зависимостей используется скрытая марковская модель (СММ), а искусственная нейронная сеть (ИНС) решает задачу классификации акустических образов.
40
Рисунок 4
Для построения моделей ключевых слов, учитывая особенности РС, выбран; лево-правая структура СММ, в которой запрещены обратные переходы Представлено множество параметров описывающих СММ г-го ключевого слова
Л* = {Ата,^нш,П], (21)
где Аихпг - .), ау = - | = г, / = 1 Л] - распределение вероятносте; переходов между состояниями; ВНШ1 = {бД^)}, Ъ^ук) = Р[к, = ук | q| = и
/ = 1М, к = \,¥ - множество распределений вероятностей появления символо! наблюдения ук в состоянии 5; ;П = {л,}, л, = = л-,],/ = 1Д/ начальное
распределение вероятностей состояний; {5}'' = {.V,. л,, ....V, }- .множест во состоянш модели; и - число возможных состояний модели; {у}' = у2,у,, } ■ множество символов наблюдения, которые могут порождаться моделью; К количество возможных символов наблюдения модели.
С учетом правила Байеса, и ограничений СММ решающее правило ААПКС (21) запишется в виде
¿^ащтахР^]?^). (22)
г
Предложено для обеспечения работы ААПКС в потоке слитной речг модифицировать гибридную модель восприятия речи, включив в СММ ключевого слова состояние-заполнитель для явного моделирования акустического окружения.
На рисунке 5 представлена СММ ключевого слова «Клад» с состоянием-заполнителем которому соответствуют символы наблюдения уя, у9 .
Оценка вероятности последовательности наблюдений производилась пс выражению
Р(П\Лг) = ^т(Л-. (23)
м
где al(j) = p{ql=sj,Hl\Л:)
^ = 1,7' - прямая переменная вычисляемая рекуррентне алгоритмом прямого обратного хода.
При появлении на входе системы символов наблюдение //, = у8 или /?, = у9;
соответствующих акустическому окружению, значение прямой переменной
= У = станет равной нулю и система перейдет г
Таблица 1
Метод
Ошибка определения границ, %
Лредлож.алг.
Алг.Витсрби
мое
10
22
Время работы алгоритма, мс
2,5
15
10
исходное состояние 50. Так как, в соответствии с выбранной лево-правой моделью, переход из состояния возможен только в состояние 5,, отсутствует
необходимость в дополнительном определении границ ключевого слова.
В таблице 1 представлены результаты сравнительных исследований предложенной модификации гибридной системы ААГЖС с состоянием заполнителем и известных систем,
с поиском алгоритмом Витерби и моделями обобщающих слов (МОС) на наборе из 20 ключевых слов.
Наличие упрощающего
предположения СММ о статистической независимости наблюдений
Р{1г!\01,Н*) = Р{К\д1) (24) не позволило уменьшить число ошибок обнаружения.
Предложено для преодоления этого ограничения, ввести в ААГПСС акустический контекст в виде прямой переменной рассчитанной в предыдущий момент времени и, = {а,_,(!),...,а,_,(С/)}-
Оценка условной вероятности СММ состояния 5, на выходе ИНС акустического моделирования при поступлении символа наблюдения /г, определялась выражением
Тогда предположение о статистической независимости наблюдений (24) запише тся в вида:
Р(К\0^,Н\)- Р(Ь,\с1пН[-]). (26)
Что позволяет частично преодолеть недостаток СММ, связанный с предположением о статистической независимости наблюдений.
13 таблице 2 приведены результаты исследований гибридных систем АРР с
различным способом введения акустического контекста в виде вероятностей правильного Р, и
ложного обнаружения Р.
Предложено для увеличения точности моделирования временных последовательностей в целях снижения ошибки поиска ключевых слов ввести в СММ дополнительную информацию о длительности АОУ г, на интервале времени I в виде совместной вероятности текущего наблюдения и его длительности Р{Ьпт: |
Для оценки совместной вероятности в гибридной модели на вход ИНС акустического моделирования подавался совместный вектор {к,,г,}.
Предложено для снижения объема обучающей выборки для ИНС акустического моделирования, используя теорему умножения вероятностей и
Таблица 2
Способ
Без контекста
С использованием
!
задержки___
¡11редл^ способ
0,82
0,92
0,94
0.1 б
0.08
0,058
приняв упрощающее допущение о независимости вектора наблюдения /г, ■ длительности наблюдения т1, преобразовать выражение совместной вероятности
(27;
где Р(т, \ д,) - условная вероятность длительности наблюдения г,.
Выразив условную вероятность P(Jt\q|) в терминах множества состоянш
модели
* №
Р(т, | а,) Р(т, | с/, = SJ) = р^т,),./ = 1, (/,
(28;
где Pj{тt) - плотность вероятности длительности пребывания СММ в состоянии 5
в течение времени г,.
Тогда выражение для расчета прямой переменной в алгоритме прямого обратного хода запишется в виде
1=4
Отсюда следует выражение для оценки правдоподобия последовательности наблюдений и длительностей наблюдений
(29;
совместно! (3(Г
Для параметрического описания функций плотности вероятност! длительности состояний СММ, наиболее точно описывающего временны' особенности РС, выбрано нормальное распределение, с математическим ожидание?
и} и дисперсией <т?, / = 1,С/ . Распределение моделировалось однослойной ИНС (
радиальной функцией активации. Параметры распределения оценивались пр: статистическом анализе обучающей выборки по сформированной СММ I сохранялись в весовых коэффициентах ИНС.
Струюурная схема предложенной ААШСС на основе модифицированное гибридной модели речевосприятия представлена на рисунке 6.
Обоснован! применение векторног квантователя (ВК), н самоорганизующейся ИНС Кохонена дл уменьшения размерност признакового прост ранства в целя сокращения требований: памят для обеспечени дикторонезависимости Весовые коэффициенты ИНС содержат координаты кодовых векторов,
Предложено в целях повышения качества ВК и снижения вычислительны; затрат на обучение ВК использовать предварительную кластеризацию обучающе! выборки методом иерархической группировки Варда.
л
1 \ \
ИНС ИНС ЫЫрМ СММ
элемент памяти
Р(Н.Т\Л^ Решающее устройство
0(0
Рисунок 6
Метод инициализации ИНС Д,хЮ \ при/.
64 128 256
Случ.значениями 0,72 0,61 0,59
Средними значениями но обучающей выборке 0,84 0,72 0,66
Предв.кластеризацией д обучающей выборки | 0,43 0,41
Г*
1.5
В таблице 3 представлены значения средней ошибки квантования О, /и!я
различных способов задания начальпых значений весов ИНС.
Для оценки качества
Таблица 3 кластеризации применялся
комбинированный критерий качества Рк = ак+ {\-ак)Кспшт, (31)
где ак - ОД - параметр комбинированного
критерия.
На рисунке 7 представлены зависимости комбинированного
критерия качества РК ВК от размера кодовой книги /, при различных уровнях гауссовского шума и оптимальном, по критерию минимума
вероятности ошибки квшггования, значении параметра а,. =0,42, определенном
экспериментально.
Для кодирования номеров кодовых векторов использовался слой Гросс оертя. В результате размерность пространства признаков была уменьшена с 14 непрерывных координат до 7 двоичных разрядов.
В третьей главе рассмотрены вопросы обучения предложенного ААПКС и аппаратной реализации дикторонезависимой системы автоматического поиска ключевых слов I? потоке слитной речи на его основе. "'"о 1оо~
Предложено для повышения Рисунок 7
эффективности начальной оценки
параметров СММ, уменьшения числа, состояний, исключения ручной разметки обучающей выборки на акустические образы использовать 2-е кодовых книги ВК -
обучающую И'; и полную Ж*.
Оценка параметров СММ начиналась с определения числа состояний модели. Используя свойства принятой лево-правой модели СММ начальное число состояний И принималось равным числу символов наблюдения самой длинной обучающей последовательности. Кодовые векторы, использованные при ВК этой последовательности, составляли обучающую кодовую книгу IV*, далее использовавшуюся для формирования последовательности наблюдений очередного обучающего вектора и поиска оптимальной последовательности состояний алгоритмом Витерби.
Расчет эмиссионных вероятностей производился по полной кодовой книге IV, после определения оптимальной последовательности состояний каждого обучающего вектора.
300 Iаехт
О Предл.алгоригм А Ручн разметка V С парал. путями
Рисунок 8
На рисунке 8 представлены результаты исследования эффективности методов оценки параметров СММ от величины обучающей выборки для предложенного
алгоритма, метода ручной разбивки обучающих векторов на состояния, метода автоматического формирования СММ с параллельными путями.
Переоценка значений параметров СММ с целью локальной максимизации вероятности Р{Н\Л2) и приближения к глобальному максимуму функции правдоподобия, выполнялась с помощью итеративного ЕМ алгоритма.
Предложено для проверки условия остановки алгоритма использовать целевую функцию на основе информационной меры Кульбака Лейбл ера:
/„ (4, Хг) = Р(Н ил \п\Р(Н | Хг)], (32)
_ II
где Äz- переоцененные параметры СММ.
Условие остановки EM-алгоритма имеет вид:
7„-i (Я,, К) ~ I„ (Я,, Я,) < и1, (33)
где v - целевой порог, оптимальное, но критерию максимума вероятности Р(П\Л,), значение которого было найдено экспериментально о1 =1,7x10"6. Это значение было достигнуто при 84 итерациях оптимизации параметров СММ.
Предложено в алгоритме оптимизации параметров разработанного ААПКС методом обратного распространения ошибки использовать для вычисления прямой переменной рекуррентную ИНС, в которой веса нейронов входного слоя содержат значения транзитивных вероятностей СММ яу . Применение такой структуры ИНС позволило получать переоцененные значения ai}.
Для определения целевого вектора, необходимого для работы алгоритма обратного распространения ошибки, использовался вспомогательный вычислитель обратной переменной Д (у). Промежуточные значения целевого вектора, с выполнением условия нормирования находились из выражения:
a,Ü) = ß,U)/tß,(.OJ = ÖJJ. (34)
/ i=0
На рисунке 9 представлена структурная схема предложенного алгоритма оптимизации параметров системы ААПКС.
На рисунке 10 представлены зависимости вероятности правильного Р, и ложного Рг обнаружения ключевого слова от ОСШ для гауссовского шума при оптимальном, по критерию минимума ошибок обнаружения, значении порога обнаружения /7 = 0,91 полученные на тестовой выборке из 20 реализаций
Рисунок 9 Рисунок 10
предложений, содержащих ключевое слово.
Произведен расчет вычислительной сложности аппаратной реализации ЛАПКС характеризуемой количеством используемых ячеек памяти и числом вычислительных операций, выполняемых за единицу времени (таблица 4). Показано, что наибольшую вычислительную' сложность представляют алгоритмы предварительной обработки PC и формирования вектора признаков, а именно адаптивный алгоритм НВП.
Произведен выбор цифрового сигнального процессора по комбинированному критерию, учитывающему технические и экономические показатели качества, которому соответствовала микросхема TMS320C5532 фирмы Texas Instruments.
В заключении приведены основные
объем ОЗУ ПЗУ
памяти. 2374 20006
слов
Кол-во умножения сложения
онер./с 2090592,32 2090592,32
научные и прамичс^лнс р^о^ил«^* -------1---------
1. Обоснован алгоритм адаптации параметров квантователя для уменьшения вариативности РС по уровню. Применение этого алгоритма обеспечило выигрыш в динамическом диапазоне 10 дБ при ОСШ 20 дБ и среднюю ошибку выделении участков речевой активности не более 2,5 мс.
2 Получено компактное представление первичных признаков ключевых слов в базисе кратпомаспггабного НВП с ВФ Морле, применение предложенного алгоритма адаптации параметров ВФ к изменению голоса диктора на основе оценки частоты ОТ, позволило уменьшить значение комбинированного показателя качества на 0,2 по сравнению с другими базисами, достигнув значения 0,75 при ОСШ 20 дБ.
3. Предложен алгоритм предварительной обработки РС, включающий:
а) алгоритм оценки мгновенной частоты ОТ на основе НВП, который обеспечил величину нормированного среднеквадратического отклонения (СКО) оценки частоты ОТ меньше 0,15, а величину нормированного СКО оценки границ вокализованных участков не хуже 0,07 при ОСШ 20 дБ;
б) алгоритм сегментации непрерывного РС на основе модифицированной сегментирующей функции, применение которого позволило уменьшить вероятность
ложной сегментации с 0,15 до 0,08 при вероятности правильной сегментации 0 92 t случае ОСШ 20 дБ.
4. Предложена процедура, обеспечивающая работу ААПКС на основе модифицированной гибридной модели в потоке слитной речи, на основе явного моделирования акустического окружения с помощью состояния-заполнителя, которая позволила исключить из алгоритма этап поиска границ ключевого слова и уменьшить расход вычислительных ресурсов в шесть раз.
5. Обоснована необходимость введения акустического контекста в целях повышения робастных свойств ААПКС, что позволило увеличить вероятность правильного обнаружения на 0,05 и снизить вероятность ложного обнаружения на 0,02 по сравнению с известными системами. При этом средняя вероятность правильного обнаружения составила 0,94, а вероятность ложного обнаружения 0,07.
6. Предложена процедура учета в СММ плотности вероятности длительности состояния для явного моделирования изменчивости PC во временной области, которая позволила увеличить вероятность правильного обнаружения на 0,05 и уменьшить вероятность ложного обнаружения ла 0,02 по сравнению с известными алгоритмами. При этом вероятность правильного обнаружения составила 0,95, а вероятность ложного обнаружения - 0,05.
7. Доказана возможность применения ВК на основе самоорганизующейся сети Кохонепа, обученной предложенным методом с предварительной кластеризацией обучающей выборки методом иерархической группировки Варда, что позволило уменьшить размерность пространства признаков с 14 непрерывных координат до 7 двоичных разрядов, снизить вычислительные затраты и уменьшить требуемый объем памяти для обеспечения дикторонезависимости в 1,75 раза.
8. Разработан алгоритм автоматической оценки параметров ААПКС для модифицированной гибридной модели ;без использования ручной разметки обучающей выборки, что обеспечило достижение среднего, по тестовой выборке, значения величины правдоподобия последовательности наблюдений ключевого слова равного 0,84 без оптимизации параметров ААПКС.
9. Предложена целевая функция на -основе информационной меры Кульбака-Лсйблера для оценки качества обучения ААПКС и экспериментально определено значение целевого порога для проверки -условия остановки алгоритма равное 1,7x10""".
10". 11редложен алгоритм оптимизации параметров ААПКС на основе модифицированной гибридной модели, ¡включающий реализацию алгоритма вычисления прямой переменной на рекуррентной ИНС, что позволило увеличить надежность обнаружения ключевых слов .на 3 %, достигнув вероятности правильного обнаружения 98 %.
11. Проанализирована возможность аппаратной реализации ААПКС на основе модифицированной гибридной модели. Вычислительные затраты составили около 4х106 вычислительных операций в секунду и около 2хЮ1 слов памяти для хранения переменных и параметров. Обоснована возможность аппаратной реализации ААПКС на ЦСП TMS320C5532 .фирмы Texas Instruments.
СПИСОК ОСНОВНЫХ ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1 Кириллов С.Н., Дмитриев В.Т., Баландин И.В. Дикторонезависимая система автоматического поиска ключевых слов в потоке слитной речи/7 Научная сессия МИФИ-2008. Сборник научных трудов Т. 11.- М., 2007. - С.177 -178.
2 Кириллов С.Н., Дмитриев В.Т., Баландин И.В. Исследование устойчивости к акустическим шумам дикторонезависимой системы автоматического поиска ключевых слов//15-я Международная научно-техническая конференция "Проблемы передачи и обработки информации в сетях и системах телекоммуникаций": Тез. докладов. Часть 1. - Рязань: РГРТУ , 2008. -С.54-56.
3 Дмитриев В.Т., Баландин И.В. Дикторонезависимая система автоматического поиска ключевых слов в потоке слитной речи устойчивая к акуст ическим шумам// Вестник РГРТУ 2008 № 2 (Выпуск 24) - С. 15-19.
4 Кириллов С.Н., Дмитриев В.Т., Баландин И.В. Алгоритм сегментации речевых сигналов на основе вейвлет-пакетного разложения// Научная сессия МИФИ-2009. Сборник научных трудов Т. 3.- М.: 2009. - С.140.
5 Дмитриев В.Т., Баландин И.В. Исследование алгоритмов сегментации речевого сигнала при определении патологии гортани// Биотехнические, медицинские и экологические системы и комплексы. Международная конференция с элементами научной школы для молодежи. Материалы конференции. Рязань. РГРТУ. 2009. С. 161 - 164.
6 Баландин И.В. Разработка алгоритма сегментации речевого сигнала на основе вейвлет-пакетного разложения// 14 ВНТК студентов молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании». Материалы конференции. Рязань 2009. -С. 114-115.
7 Баландин И.В. Разработка алгоритма обучения нейронной сети для классификации акустически однородных участков речи// 14 ВНТК студентов молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании». Материалы конференции. Рязань 2009. - С. 244-245.
8 Баландин И.В. Алгоритм сегментации речевых сигналов для автоматической системы поиска ключевых слов// Вестник РГРТУ 2010 № 2 (Выпуск 32) С. 27-31.
9 Баландин И.В. Алгоритм дикторопезависимого поиска ключевых слов// 15 ВНТК студентов молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании». Материалы конференции. Рязань 2010. С.142-143.
10 Баландин И.В. Применение дискретного вейвлет преобразования с дробным показателем сжатия в системе поиска ключевых слов// 16 ВНТК студентов молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании». Материалы конференции. Рязань 2011. - С. 244-245.
11 Баландин И.В. Разработка алгоритма поиска ключевых слов на основе рекуррентной нейронной сети// 16 ВНТК студентов молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании». Материалы конференции. Рязань 2011. - С. 245-246.
БАЛАНДИН Иван Васильевич
Алгоритмы поиска ключевых слов в радиотехнических устройствах обработки речевой информации, устойчивые к воздействию мешающих факторов
Автореферат диссертации на соискание ученой степени кандидата технических наук
Подписано в печать 27.09.2013
Формат бумаги 60x84 1/16. Условных печатных листов 1,1. Тираж 100 экз. Заказ № 24.
Участок оперативной полиграфии ГНУ ВНИИМС Россельхозакадемии, 390025, Рязань, ул. Щорса, д. 38/11.
Текст работы Баландин, Иван Васильевич, диссертация по теме Радиотехника, в том числе системы и устройства телевидения
РЯЗАНСКИЙ ГОСУДАРСТВЕННЫЙ РАДИОТЕХНИЧЕСКИЙ
УНИВЕРСИТЕТ
04201364380
Баландин Иван Васильевич
АЛГОРИТМЫ ПОИСКА КЛЮЧЕВЫХ СЛОВ В РАДИОТЕХНИЧЕСКИХ УСТРОЙСТВАХ ОБРАБОТКИ РЕЧЕВОЙ ИНФОРМАЦИИ, УСТОЙЧИВЫЕ К ВОЗДЕЙСТВИЮ МЕШАЮЩИХ ФАКТОРОВ
ДИССЕРТАЦИЯ
на соискание ученой степени кандидата технических наук по специальности 05.12.04
Научный руководитель: доктор технических наук, профессор
Кириллов Сергей Николаевич
Рязань 2013
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 6
1 РАЗРАБОТКА АЛГОРИТМОВ ПЕРВИЧНОЙ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА, УСТОЙЧИВЫХ К ИЗМЕНЕНИЮ ГОЛОСА ДИКТОРА И ВОЗДЕЙСТВИЮ МЕШАЮЩИХ ФАКТОРОВ 13
1.1 Вводные замечания 13
1.2 Формирование вектора первичных признаков речевого сигнала, устойчивых к изменению голоса диктора и воздействию мешающих факторов 15
1.2.1 Алгоритм адаптации параметров квантователя с выделителем пауз речевого сигнала 15
1.2.2 Обоснование выбора базиса представления речевого сигнала для обеспечения устойчивости алгоритмов обработки речевых сигналов при воздействии мешающих факторов 25
1.2.3 Адаптация параметров непрерывного вейвлет преобразования к изменению голоса диктора 41
1.2.4 Алгоритм оценки частоты основного тона 47
1.3 Алгоритм сегментации речевых сигналов 55
1.3.1 Классификация звуков речи 5 5
1.3.2 Обоснование выбора структурной единицы речи 56
1.3.3 Разработка алгоритма сегментации речевых сигналов на акустические однородные участки речи на основе комбинированной системы статических и динамических признаков 58
1.4 Выводы 68
2 ОБОСНОВАНИЕ ДИКТОРОНЕЗАВИСИМОГО АЛГОРИТМА АВТОМАТИЧЕСКОГО ПОИСКА КЛЮЧЕВЫХ СЛОВ В ПОТОКЕ СЛИТНОЙ РЕЧИ НА ОСНОВЕ МОДИФИЦИРОВАННОЙ ГИБРИДНОЙ МОДЕЛИ РЕЧЕВОСПРИЯТИЯ 70
2.1 Вводные замечания 70
2.2 Анализ современных алгоритмов автоматического поиска ключевых слов 72
2.2.1 Представление задачи автоматического поиска ключевых слов 72
2.2.2 Анализ возможности построения алгоритма автоматического дикторонезависимого поиска ключевых слов в потоке слитной речи
на имеющихся моделях 74
2.3 Анализ работы алгоритма поиска ключевых слов на основе модифицированной гибридной модели в потоке слитной речи 80
2.3.1 Представление задачи автоматического поиска ключевых слов в терминах скрытых марковских моделей 80
2.3.2 Анализ возможности явного моделирования акустического окружения для обеспечения работы алгоритма поиска ключевых слов на основе гибридной модели в потоке слитной речи 85
2.3.3 Обоснование введения акустического контекста в алгоритм поиска ключевых слов в потоке слитной речи на основе модифицированной гибридной модели речевосприятия 89
2.4 Увеличение дикторонезависимости алгоритма поиска ключевых слов в потоке слитной речи на основе модифицированной гибридной модели 98
2.4.1 Моделирование изменчивости речевого сигнала во временной области в алгоритме дикторонезависимого поиска ключевых слов 98
2.4.2 Кодирование первичных элементов речи в целях обеспечения дикторонезависимости алгоритма поиска ключевых слов на основе модифицированной гибридной модели 104
2.5 Выводы 115
3 ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ ДИКТОРОНЕЗАВИСИМОГО АЛГОРИТМА АВТОМАТИЧЕСКОГО ПОИСКА КЛЮЧЕВЫХ СЛОВ В ПОТОКЕ СЛИТНОЙ РЕЧИ 117
3.1 Вводные замечания 117
3.2 Исследование возможности реализации автоматического алгоритма оценки параметров скрытой марковской модели 118
3.2.1 Разработка алгоритма автоматической оценки параметров скрытой марковской модели 118
3.2.2 Экспериментальное исследование автоматического алгоритма оценки параметров скрытой марковской модели 125
3.3 Оптимизация параметров предложенного алгоритма поиска ключевых слов на основе модифицированной гибридной модели 127
3.3.1 Разработка алгоритма вычисления прямой переменной на основе искусственной нейронной сети 127
3.3.2 Разработка алгоритма оптимизации параметров предложенного алгоритма поиска ключевых слов на основе модифицированной гибридной модели 131
3.3.3 Экспериментальное исследование алгоритма оптимизации параметров предложенной модифицированной гибридной модели 134
3.4 Анализ возможности аппаратной реализации алгоритма поиска ключевых слов в потоке слитной речи 136
3.4.1 Оценка вычислительных затрат 136
3.4.2 Анализ аппаратной реализации алгоритма автоматического поиска ключевых слов в потоке слитной речи 140
3.5 Выводы 146 ЗАКЛЮЧЕНИЕ 147 СПИСОК ЛИТЕРАТУРЫ 150 ПРИЛОЖЕНИЕ А
Список аббревиатур и условных сокращений 165
ПРИЛОЖЕНИЕ В
Методика обработки и перечень акустического материала использованного при обучении и тестировании дикторонезависимого алгоритма автоматического поиска ключевых слов в потоке слитной речи 176
ПРИЛОЖЕНИЕ С
Копии актов о внедрении результатов диссертационной работы 178
ВВЕДЕНИЕ
Актуальность темы. Разработка алгоритмов поиска ключевых слов в потоке слитной речи является одной из наиболее сложных задач в области обработки речевой информации и требует использования особых методов повышения показателей качества радиотехнических устройств. Наиболее существенный вклад в развитие теории речеобразования и методов обработки, передачи и распознавания речевых сигналов (PC) внесли работы М.А. Сапожкова, A.A. Пирогова, Т.К. Винцюка, М.В. Назарова, Ю.Н. Прохорова, В.Н. Сорокина, JI.B. Златоустовой, В.Г. Михайлова, Р.В. Гудонавичюса, Ю.К. Калинцева [1...8], а также работы Дж.Д. Маркела, JI.P. Рабинера, Р.В. Шафера, Дж.Д. Фланагана, Г. Фанта, А.Х. Грея, У. Ли, Дж.Р. Доддингтона, С.Е. Левинсона и др. [9...13].
Технологии поиска ключевых слов лежат в основе радиотехнических устройств голосового управления, интерактивного телевидения, аудиоиндексации, поиска речевой информации по образцу в мультимедиа-архивах, автоматического контроля речевых сообщений в системах безопасности и т.д. К алгоритмам автоматического поиска ключевых слов (ААПКС) предъявляют ряд специфических требований [14], выделяющих их в отдельный класс систем автоматического распознавания речи (АРР), таких как:
- малый объем словаря;
- работа в потоке спонтанной слитной речи;
- дикторонезависимость;
- обработка речи с выраженными дефектами;
- повышенные требования к использованию вычислительных и аппаратных ресурсов.
В ряде основных проблем существующих при разработке алгоритмов первичной обработки речевой информации и поиска ключевых слов, наиболее актуальными являются:
1) определение информативной системы акустических параметров первичных элементов речи, устойчивой к изменению голоса диктора и воздействию акустических помех;
2) уменьшение влияния вариативности речи на показатели качества радиотехнических устройств обработки речевой информации и поиска ключевых слов;
3) повышение вычислительной эффективности алгоритмов формирования первичных признаков РС и поиска ключевых слов в интересах обеспечения дикторонезависимой обработки в реальном масштабе времени при заданном объёме словаря.
Основные трудности при разработке ААПКС связаны с вариативностью акустических параметров, характеризующих один и тот же фонетический элемент [15... 17]. Для снижения вычислительных затрат при обработке речевой информации могут использоваться алгоритмы вейвлет-анализа [18], позволяющие обеспечить дикторонезависимость алгоритмов и компактное хранение эталонов, но особенности построения быстрых алгоритмов не позволяют использовать психофизические свойства слуховой системы человека, что значительно снижает качество формируемого пространства признаков в интересах построения ААПКС.
Впервые задача ААПКС была сформулирована в 40-е годы прошлого века [13] , но разработанные алгоритмы обладали низкой эффективностью и надежностью. Несмотря на предъявляемые специфические требования, в настоящее время задача поиска ключевых слов, в основном, решается системами АРР, также не обладающими заданной эффективностью. Известны различные методы АРР, но в последнее время основным стал метод сопоставления с эталоном на основе вероятностных моделей [19...22]. Главным образом это связано с прогрессом в области электронных компонентов, в частности с увеличением вычислительной мощности процессоров и объемов памяти. При этом нерешенными остались вопросы, связанные с работой
ААПКС в условиях акустических шумов, обеспечением работы в потоке слитной речи, а также адаптацией к изменению голоса диктора.
Поиск ключевых слов по методу сопоставления с эталоном определяет необходимость решения задачи хранения эталонов, которая усугубляется необходимостью увеличения числа хранимых образцов в целях обеспечения дикторонезависимости.
Кроме того, разработка ААПКС требует решения проблемы создания и обучения моделей ключевых слов, для решения которой не существует аналитических способов. Применение известных итеративных алгоритмов [20] обусловливает необходимость обоснования оптимального критерия качества обучения.
Таким образом актуальна задача разработки новых дикторонезависимых моделей и алгоритмов предварительной обработки РС, формирования признаков и решающих алгоритмов в интересах повышения надежности и эффективности радиотехнических устройств поиска ключевых слов в потоке речевой информации.
Цель работы. Основной целью диссертационной работы является разработка алгоритма автоматического дикторонезависимого поиска ключевых слов в потоке слитной речи, обеспечивающего повышение показателей надежности обнаружения при воздействии мешающих факторов.
Поставленная цель работы включает решение следующих задач:
• исследовать методы нормирования РС по амплитуде в целях повышения устойчивости ААПКС к изменению уровня РС;
• обосновать выбор базиса представления РС для обеспечения устойчивости алгоритмов обработки речевых сигналов ААПКС к воздействию мешающих факторов;
• предложить процедуру адаптации базиса представления РС в интересах повышения робастных свойств ААПКС к изменению голоса диктора;
• разработать алгоритм обработки РС, устойчивый к воздействию мешающих факторов, включающий оценку частоты основного тона (ОТ) и сегментацию непрерывного РС на речевые единицы;
• проанализировать возможность явного моделирования акустического окружения в целях обеспечения работы ААПКС в потоке слитной речи и уменьшения расхода вычислительных ресурсов;
• обосновать введение акустического контекста в алгоритм поиска ключевых слов в потоке слитной речи для повышения робастных свойств ААПКС;
• проанализировать процедуру явного моделирования изменчивости РС во временной области в интересах увеличения устойчивости ААПКС к изменению голоса диктора;
• определить возможности сокращения вычислительных затрат и уменьшения требуемого объема памяти для хранения эталонов в целях обеспечения дикторонезависимости;
• разработать автоматический алгоритм обучения предложенного ААПКС;
• проанализировать возможность аппаратной реализации ААПКС.
Методы проведения исследований. В работе использовались методы
статистической радиотехники и математической статистики, распознавания образов, динамического программирования, кластерного анализа, вычислительной математики, а также новые достижения в области цифровой обработки речевой информации. Данные теоретические методы сочетались с экспериментальными исследованиями на основе имитационного моделирования разработанных алгоритмов.
Научная новизна. В рамках диссертационной работы были получены следующие новые научные результаты:
1. Разработан алгоритм формирования первичных признаков РС на основе непрерывного вейвлет преобразования (НВП) с адаптацией вейвлет фильтра (ВФ) к изменению голоса диктора на основе оценки частоты основного
тона (ОТ), обеспечивающий повышение робастных свойств ААПКС в условиях воздействия мешающих факторов.
2. Разработан алгоритм адаптивной сегментации непрерывного РС,
основанный на использовании модифицированной фонетической функции речи
/
(ФФР) А.А.Пирогова, позволяющий уменьшить вероятность ложной сегментации и тем самым снизить вычислительные затраты на работу ААПКС.
3. Предложен ААПКС на основе модифицированной гибридной модели речевосприятия, использующий акустический контекст и явное моделирование акустического окружения для обеспечения работы в потоке слитной речи и снижения вычислительных затрат на поиск границ ключевого слова.
Достоверность. Достоверность результатов и выводов полученных в диссертационной работе обеспечивается корректностью численных экспериментов, качественным и количественным сопоставлением с известными положениями теории обработки и распознавания РС.
Практическая ценность. Представленные в работе алгоритмы . предварительной обработки и распознавания РС могут быть использованы в таких радиотехнических устройствах, как системы передачи и хранения речевой информации, системы голосового управления, информационно-справочные системы, медицинские системы диагностики, системы автоматической идентификации и верификации информанта по голосу, системы криминалистической фоноскопии, системы конфиденциального доступа и закрытия речевой информации, системы открытого образования для лиц с ограниченными возможностями здоровья и т.д. Результаты диссертационной работы нашли применение в действующей системе автоматического контроля безопасности связи войсковой части 67240 и в учебном процессе военной кафедры ФГБОУ ВПО «Комсомольский-на-Амуре государственный технический университет», что подтверждается соответствующими актами внедрения.
Основные положения, выносимые на защиту:
1. Алгоритм формирования вектора первичных признаков РС, включающий НВП РС с адаптацией ВФ к изменению голоса диктора и адаптивную сегментацию артикуляционных событий РС на основе модифицированной ФФР А.А.Пирогова, применение которого позволило уменьшить вероятность ложной сегментации с 0,15 до 0,08 при вероятности правильной сегментации 0,92 в случае ОСШ 20 дБ.
2. Процедура обеспечения работы ААПКС в потоке слитной речи с явным моделированием акустического окружения с помощью состояния заполнителя, позволяющая исключить из алгоритма этап поиска границ ключевого слова и уменьшить расход вычислительных ресурсов в шесть раз.
3. Модифицированная гибридная модель речевосприятия с использованием акустического контекста, обеспечивающая увеличение вероятности правильного обнаружения на 0,05 и снижение вероятности ложного обнаружения на 0,02 по сравнению с известными системами. При этом средняя вероятность правильного обнаружения, после оптимизации, составила 0,98, а средняя вероятность ложного обнаружения - 0,05.
Апробация работы. Результаты работы докладывались на следующих научно-технических конференциях (НТК), семинарах и сессиях:
1. Научная сессия МИФИ -2008 г., 2009 г., г. Москва.
2. 15-я МНТК «Проблемы передачи и обработки информации в сетях и системах телекоммуникаций». 2008 г., г. Рязань.
3. Всероссийская НТК "Биотехнологические, медицинские и экологические системы и комплексы. Биомедсистемы -2009". г. Рязань, 2009.
4. 14 - 16-я Всероссийская НТК студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях и образовании". 2009, 2010, 2011 гг., г. Рязань.
Публикации. По теме диссертации опубликовано 11 работ. 2-е статьи в научно-технических журналах, рекомендованных ВАК, и 9 тезисов докладов на конференциях.
Структура и объем работы. Диссертационная работа состоит из введения, трех глав, заключения, списка литературы из 145 наименований и 3-х приложений. Диссертация содержит 130 с. основного текста, 11 таблиц и 42 рисунка.
Благодарности. Выражаю свою искреннюю признательность научному руководителю Сергею Николаевичу Кириллову за неоценимую помощь и серьёзную моральную поддержку, оказанные автору в процессе работы над диссертацией. Благодарю своих коллег, преподавателей, сотрудников, аспирантов и молодых учёных кафедры радиоуправления и связи за высказанные замечания, конструктивные обсуждения, содействие и помощь в работе. Выражаю особую признательность своим родным и близким за предоставленную возможность заниматься научной деятельностью. Хочу выразить отдельную благодарность моей супруге за моральную поддержку и терпение.
1 РАЗРАБОТКА АЛГОРИТМОВ ПЕРВИЧНОЙ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА, УСТОЙЧИВЫХ К ИЗМЕНЕНИЮ ГОЛОСА ДИКТОРА И ВОЗДЕЙСТВИЮ МЕШАЮЩИХ ФАКТОРОВ
1.1 Вводные замечания
До настоящего времени задача поиска ключевых слов решалась системами APP. Однако постановка задачи распознавания речевых образов, методика исследования и практические выводы, полученные в ряде работ [1,7], существенно различаются. Тенденции в развитии систем АРР свидетельствуют об усложнении используемого математического аппарата при более точном анализе особенностей PC в интересах решения задачи поиска ключевых слов.
Используемые методы основывались на анализе огибающей спектра, определенной по небольшому числу �
-
Похожие работы
- Разработка и исследование коллективных нейросетевых алгоритмов дикторонезависимого распознавания речевых сигналов
- Многокритериальный синтез реализуемых сигналов и устройств обработки с учетом мешающих факторов в радиотехнических системах
- Разработка и исследование алгоритмов обнаружения сигналов в условиях априорной неопределенности при панорамном обзоре широкой полосы частот
- Синтез робастных к мешающим факторам сигналов и устройств обработки по заданным показателям качества в радиотехнических системах
- Разработка и исследование метода комбинированного эхоподавления для сетей мобильной связи
-
- Теоретические основы радиотехники
- Системы и устройства передачи информации по каналам связи
- Радиотехника, в том числе системы и устройства телевидения
- Антенны, СВЧ устройства и их технологии
- Вакуумная и газоразрядная электроника, включая материалы, технологию и специальное оборудование
- Системы, сети и устройства телекоммуникаций
- Радиолокация и радионавигация
- Механизация и автоматизация предприятий и средств связи (по отраслям)
- Радиотехнические и телевизионные системы и устройства
- Оптические системы локации, связи и обработки информации
- Радиотехнические системы специального назначения, включая технику СВЧ и технологию их производства