автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка эффективных методов и комплексов программ распознавания речи в системах человеко-машинного взаимодействия

кандидата технических наук
Гребнов, Сергей Викторович
город
Иваново
год
2010
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка эффективных методов и комплексов программ распознавания речи в системах человеко-машинного взаимодействия»

Автореферат диссертации по теме "Разработка эффективных методов и комплексов программ распознавания речи в системах человеко-машинного взаимодействия"

ГРЕБНОВ Сергей Викторович

РАЗРАБОТКА ЭФФЕКТИВНЫХ МЕТОДОВ И КОМПЛЕКСОВ ПРОГРАММ РАСПОЗНАВАНИЯ РЕЧИ В СИСТЕМАХ ЧЕЛОВЕКО-МАШИННОГО ВЗАИМОДЕЙСТВИЯ

Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ диссертация на соискание ученой степени кандидата технических наук

1 о 033 20(1

Иваново 2011

4854115

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Ивановский государственный энергетический университет имени В. И. Ленина» (ИГЭУ).

Научный руководитель:

доктор технических наук, профессор Пантелеев Евгений Рафаилович

Официальные оппоненты:

доктор технических наук, профессор Жуков Владимир Павлович

доктор технических наук, профессор Коробов Николай Анатольевич

Ведущая организация:

ООО «Нейрософт», г. Иваново

Защита состоится 25 февраля 2011 года в 11-00 часов на заседании диссертационного совета Д 212.064.03 при Ивановском государственном энергетическом университете по адресу: 153003, г. Иваново, ул. Рабфаковская, д. 34, корпус «Б», аудитория 237.

С диссертацией можно ознакомиться в библиотеке Ивановского государственного энергетического университета, с авторефератом - на сайте ИГЭУ www.ispu.ru

Автореферат разослан «¿^ января 2011 года.

Ученый секретарь

диссертационного совета

Шульпин А.А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Одним из перспективных способов организации человеко-машинного взаимодействия является передача компьютерной системе инструкций пользователя в формате речевых команд. Голосовой интерфейс является необходимой компонентой, когда речь идет о создании комфортных условии жизни для людей с нарушениями опорно-двигательного аппарата. Такие системы со временем войдут в повседневный быт в процессе реализации концепции так называемых «умных домов». Кроме того, возможно их применение и на производстве в составе комплексов управления исполнительными механизмами.

В развитие этого научного направления внесли вклад такие ученые, как Ра-бинер, заложивший научные основы распознавания речи статистическими методами. Wilpon, Lee, Higgins, внесшие существенный вклад в развитие методов распознавания речевых команд, Винцюк, Карпов, Ронжин, занимающиеся распознаванием слитной русской речи. Анализ их работ позволил установить, что для организации человеко-машинного взаимодействия при помощи речевых команд система распознавания речи (СРР) должна отвечать следующим требованиям:

- возможность работы в режиме реального времени;

- достаточное качество распознавания (не менее 95% правильно распознанных команд в условиях отсутствия шумовой составляющей - соотношение сигнал/шум 25дБ);

- расширяемость словаря СРР без перепрограммирования.

Последнее требование связано с тем, что для повышения надежности распознавания речи часто создаются системы с тщательно подобранным закрытым словарем команд, который включает точную настройку грамматических конструкций и подбор специальных слов в составе команд. Однако расширение или изменение словаря команд подобных систем может быть выполнено лишь силами разработчиков СРР и связано с дополнительными временными и финансовыми затратами.

Существующие методы распознавания голосовых команд не отвечают всем заявленным требованиям. Это обстоятельство определяет актуальность исследований в этом направлении.

Объект исследования - речевой сигнал.

Предмет исследования - модели, методы и алгоритмы распознавания речи в системах человеко-машинного взаимодействия.

Цель диссертационной работы - повышение эффективности и качества распознавания речи в СРР с динамически расширяемым словарем команд.

Задачи исследования.

1. Анализ существующих моделей, методов и алгоритмов распознавания речи с целью выявления степени их соответствия современным требованиям |и

выбора прототипов для собственных исследований. ----

\ •

2. Разработка моделей, методов, и алгоритмов распознавания речи, обеспечивающих достижение следующих показателей распознавания голосовых команд:

- скорость работы, достаточная для использования в режиме реального времени (в два раза быстрее режима реального времени для словаря в 10 команд);

- высокое качество распознавания (95% правильно распознанных речевых команд в условиях отсутствия шумовой составляющей - соотношение сигнал/шум 25дБ);

- легкость модификации словаря команд: возможность добавления новых слов и команд без перепрограммирования системы.

3. Программная реализация предлагаемых алгоритмов и проведение экспериментальных исследований, подтверждающих их эффективность.

Методы исследований. В работе использовались методы теории вероятности, теории случайных процессов, математического анализа, цифровой обработки сигналов, спектрального анализа Фурье, теории оптимизации (динамическое программирование) и теории формальных языков.

Научная новизна.

1. Предложен гибридный метод распознавания речевых команд. Новизна метода заключается в поэтапном использовании алгоритмов распознавания слитной речи и ключевых слов, применяемых к разным частям команды.

2. Для распознавания ключевых слов разработан алгоритм ограниченного перебора множества путей в скрытой марковской модели (СММ), новизной которого является отсечение путей не на заключительном этапе, а в процессе их распознавания, что позволяет значительно сократить пространство поиска.

3. Предложены новые функции правдоподобия, используемые алгоритмом ограниченного перебора для отсечения неперспективных вариантов: функция правдоподобия на основе оптимальных порогов и комплексная функция правдоподобия. Функция правдоподобия на основе оптимальных порогов отличается тем, что учитывает не только длину пройденного пути в СММ, но и конкретные фонемы, пройденные этим путем. Комплексная функция правдоподобия, в дополнение к этому, оценивает соответствие всех промежуточных состояний пути в СММ локальному критерию правдоподобия с общим для всех фонем порогом.

Обоснованность положений диссертации обеспечивается корректным использованием математических методов. Достоверность подтверждается результатами экспериментов на реальном речевом материале.

Практическая ценность результатов. Применение предложенного метода распознавания по сравнению с подходом, использующим единый метод распознавания, позволяет:

- ослабить зависимость скорости распознавания от количества слов в словаре команд;

- использовать команды, которые плохо распознаются алгоритмом распознавания ключевого слова.

Применение разработанного алгоритма распознавания ключевых слов с использованием предложенных функций правдоподобия позволяет повысить вычислительную эффективность распознавания за счет раннего отсечения неперспективных вариантов.

Реализация результатов исследований. Разработанные модели, методы и алгоритмы были использованы при построении программного комплекса голосового управления роботом Lego Mindstorms NXT на кафедре Электроники и микропроцессорных систем ИГЭУ (лабораторная работа «Изучения методов человеко-машинного взаимодействия на основе голосового управления», предмет «Электромеханотроника», 5 курс, специальность 210106 «Промышленная электроника»), а также внедрены в составе проекта «Системы безопасности помещений и личности на базе компьютерного интеллекта» ООО «НИИ Спец-лаб». Проведен ряд экспериментов, показавших возможность практического использования предложенных методов. Потенциальная область применения, обусловленная характеристиками разработанных методов, включает сферу управления техническими устройствами различного назначения при производственной и бытовой деятельности.

Апробация работы. Полученные в работе научные и практические результаты докладывались и обсуждались на XV Международной научно-технической конференции «Бенардосовские чтения» и IX Международной научной конференции «Теоретические основы энерго-ресурсосберегающих процессов, оборудования и экологически безопасных производств».

Публикации по материалам диссертации - 9 печатных работ, в том числе три в журналах, рекомендованных ВАК РФ. Получено 1 свидетельство об официальной регистрации программы для ЭВМ в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам (Роспатенте); свидетельство №2010615606 (зарегистрировано 30.08.2010).

Структура и объём работы. Диссертация состоит из введения, четырех глав, заключения, пяти приложений и библиографического списка из 122 наименований. Общий объём работы составляет 120 страниц, в том числе 19 рисунков и двух таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность диссертационной работы, сформулированы цель и задачи исследования, сформулирована научная новизна исследований и показана практическая значимых полученных результатов.

В первой главе выполнен анализ архитектуры систем голосового управления, а также современных методов распознавания речи и оценивания достоверности результатов распознавания.

Большинство современных систем автоматизированного распознавания используют модульную архитектуру (рис. I) с использованием блоков шумоочи-стки, детектора голоса, спектрального анализа и главного модуля, включающего алгоритм распознавания ключевого слова. Цифровой сигнал сначала поступает в модуль шумоочистки; здесь повышается качество сигнала вследствие удаления шумов и внесенного каналом искажения. Затем детектор голоса выде-

ляет участки сигнала, содержащие речь. Эти участки с помощью модуля спектрального анализа преобразуются в структуры данных, пригодные для распознавания. Наиболее распространенным способом представления данных являются векторы Мел-кепстральных коэффициентов. В соответствии с методом, предложенным Европейским Институтом Телекоммуникационных Стандартов (ЕТ81), они рассчитываются для речевого сигнала с шагом дискретизации 25 мс, а для их получения используются свойства человеческого восприятия. Далее эти коэффициенты поступают в модуль, в котором происходит непосредственное определение наличия и распознавания команды.

Звуковой сигнал Очищенный звуковой сигнс/т

10 1,03 09. 03

"Робот.открыть скват" ют.08 о:,04.... >

(ОЗ. 06.0 5.0 4..'.. ■

Рис. 1. Система распознавания речевых команд Методы распознавания речи, реализованные в составе модуля распознавания (рис. 1), и являются предметом исследований в данной диссертационной работе.

Анализ методов моделирования и автоматического распознавания речи в контексте задачи разработки системы голосового управления показал, что распознавание слитной речи наиболее успешно решается с помощью вероятностного подхода на основе СММ, предложенного Рабинером (рис. 2).

Рис. 2. Пример скрытой марковской модели Скрытая марковская модель состоит из марковской цепи с конечным числом скрытых состояний и матрицей переходных (транзитивных) вероятностей а

также конечного множества наблюдаемых состояний ук и вероятностей b„(yj, эмиссии наблюдения ук в состоянии S,. Эмиссионная вероятность Ь„(уО моделируется несколькими Гауссовыми компонентами С„„ каждая из которых задана вектором математического ожидания ju, вектором дисперсии tr и весовым коэффициентом рт (вклад данной Гауссовой компоненты в общую функцию плотности вероятности). Таким образом,

м

iti-i м

MÄl^P/'l'i-A-ff2,,).

/»»■I

где (j,x 1-, ' I (x~fi)2 ^ b„(Vk) - вероятность появления наблюде-

(2жГ),;2 Ч 2cr J ния ук для состояния S,,; р,„ и G,„ - весовой коэффициент и величина т-ой Гауссовой компоненты; /и ист2 - векторы математического ожидания и дисперсии.

В задаче распознавания речи СММ используются для распознавания звуков речи. Каждое состояние S„ - фаза звука речи - характеризуется собственной функцией распределения вероятности появления того или иного символа наблюдения ук. Последовательность, в которой звуки речи объединяются в распознаваемые слова (модель языка), при этом задается в виде словаря цепочек СММ.

Задача автоматического распознавания речи на основе вероятностного подхода сформулирована так: найти самое вероятное предложение (цепочку слов) S* языка L, которое соответствует последовательности векторов признаков Y речевого высказывания, т.е.

S' = arg шах P(S | Y) = arg max P(Y | S)P(S) .

fei, V /

Проведено исследование существующих подходов распознавания речевых команд на основе алгоритмов распознавания речи с помощью СММ:

1) поиск команд с использованием локальных мер сходства (например, оценок правдоподобия), наиболее распространенным методом является метод скользящего окна (sliding window);

2) полное моделирование инородной речи, метод моделей-заполнителей (filler models).

В заключение главы проводится сравнительный анализ рассмотренных методов в соответствии со сформулированным списком критериев (табл. 1). Сравнение методов позволило определить их основные недостатки: первый метод имеет большую вычислительную сложность, качество распознавания существенно зависит от фонетического состава слова, второй - требует подробного дополнительного моделирования посторонней речи, что не дает возможности динамически изменять словарь команд.

Таблица 1

Сравнение методов распознавания речевых команд

Метод скользящего окна Метод моделей-заполнителей

Скорость Низкая (зависит от количества слов в словаре) Средняя

Качество распознавания < 90% (зависит от фонемного состава слов) Высокое (90-95%)

Возможность модификации словаря Да Нет

Работа в зашумленных условиях Да (снижается качество распознавания) Да (снижается качество распознавания)

В результате анализа установлено следующее.

1. Ни один из методов не удовлетворяет всем заявленным требованиям.

2. Более перспективно развитие метода скользящего окна, так как он:

- обеспечивает модификацию словаря без перепрограммирования;

- не требует моделирования обобщенных слов, что упрощает задачу создания системы.

Во второй главе проведено исследование возможности повышения вычислительной эффективности и качества распознавания путем выделения в структуре команды специальной фразы, распознавание которой, подобно триггеру, активирует процесс интерпретации оставшейся части команды.

Проанализированы возможные варианты применения ключевой фразы.

1. Для управления состояниями системы (разработки Центра Речевых Технологий, продукты «ГОРЫНЫЧ» и Dragon Naturally Speaking):

- система активна, готова распознавать и выполнять голосовые команды (активации данного состояния осуществляется одной из ключевых фраз, например «Навигатор»);

- система неактивна, распознавание команд не производится. В данное состояние система переходит при отсутствии команд в течение предопределенного времени или произнесении специальной ключевой фразы, например «Отбой».

Использование состояний активности позволяет уменьшить количество ложных срабатываний и снизить нагрузку на процессор во время бездействия системы.

2. Для явного определения двухуровневой структуры речевой команды (IBM ViaVoice и Home Automation Living), состоящей из ключевого слова и собственно команды (определяющей действие, которое должна выполнить машина). Примером такой команды может служить фраза «Робот, открыть схват, где «Робот» - ключевое слово, «открыть схват» - непосредственно команда для выполнения. Отличительной особенностью данного варианта является то, что ключевое слово (фраза) присутствует в каждой речевой команде.

Показано, что второй способ подачи голосовых команд является предпочтительным, так как позволяет добиться лучшего качества распознания, кроме этого является более удобным для использования.

Рассмотрен стандартный способ распознавания такой структуры команды:

- этап 1: определение наличия ключевого слова с помощью алгоритма распознавания ключевых слов;

- этап 2: если ключевое слово присутствует, то распознавание оставшейся части тем же алгоритмом, но с использованием расширенного словаря команд, включающего полный список команд для распознавания.

Предложен гибридный метод распознавания двухуровневой структуры речевой команды, обеспечивающий лучшую расширяемость словаря команд и качество распознавания за счет использования для интерпретации собственно команды (этап 2) алгоритма распознавания слитной речи, алгоритма Витерби.

Новизна метода заключается в полном разделении процесса определения присутствия речевой команды и определения непосредственного смысла команды и использования разных алгоритмов распознавания для разных частей команды:

1) детектирование ключевого слова с помощью рассматриваемого далее нового алгоритма распознавания ключевых слов (процесс определения присутствия речевой команды).

2) распознавание оставшейся части речевой команды с помощью стандартного алгоритма распознавания слитной речи, алгоритма Витерби (процесс определения непосредственного смысла команды).

Аналитически показаны преимущества данного метода распознавания:

- ослабление зависимости скорости распознавания от количества слов в словаре команд;

- возможность использования команд, которые плохо распознаются алгоритмом распознавания ключевого слова.

Третья глава посвящена разработке алгоритма распознавания ключевого слова - алгоритма ограниченного перебора, основанного на комплексной функции правдоподобия. Алгоритм относится к классу методов поиска вхождения ключевых слов с использованием величин локальных мер сходства. Новизной алгоритма является использование функции правдоподобия для сравнения и отсечения путей в процессе их распознавания, что позволяет значительно сократить пространство поиска.

Описан разработанный алгоритм ограниченного перебора, который выполняет поиск самой вероятной последовательности состояний СММ, соответствующих ключевому слову /л;,л;, ..., во входном речевом сигнале, представленном последовательностью векторов наблюдений У= Такая последовательность называется путем. На рис. 3 представлены четыре возможных пути: Р„, Р/, Р:, Р}. Путь может начинаться с любого участка речевого сигнала и только с самого первого состояния ключевого слова - Каждый путь характеризуется численным значением функции правдоподобия, которая пере-считывается на каждой итерации алгоритма.

Г)

X

У ' V

И

-А,' 5 К-1

У > }

г /

1 / !> у

У

/ / / /

Г г {

Г) * 1 4

У1 У2 Уз У 4 У5 Уе У 7 Уы-1 Ун Рис. 3. Сокращение путей на основе функции правдоподобия

Для поиска возможных вариантов вхождения ключевого слова алгоритм начинает работу с начала речевого сигнала (дискретный момент времени /=/, вектор наблюдения у= уД последовательно переходя к следующему дискретному моменту времени и вектору наблюдения пока не обработает речевой сигнал целиком (¿=¿4 у=у\). В каждый дискретный момент (/) этого алгоритма выполняется этап ветвления и этап отсечения путей.

Задачей этапа ветвления является построение всех возможных вариантов расположения ключевого слова во входном речевом сигнале. Для этого:

- стартует новый путь из текущей позиции сигнала (у,) в начальное состояние ключевого слова (в начальное состояние СММ первой фонемы ключевого слова, 5/);

- каждый существующий путь дублируется: один остается в текущем состоянии (переход $,->■?;), второй переходит в следующее состояние ключевого слова(л',->л', ,);

- для каждого из построенных путей пересчитывается функция правдоподобия.

На этапе отсечения происходит сокращение путей с использованием функции правдоподобия. Для каждого состояния остается путь, которому соответствует наибольшее значение функции правдоподобия, остальные пути отбрасываются.

Алгоритм заканчивает работу в момент времени í=N. В этот момент состояние ключевого слова содержит информацию о пути с наибольшим значением функции правдоподобия. Ключевое слово считается распознанным, если значение функции правдоподобия превышает пороговое.

Качество работы алгоритма распознавания ключевого слова определяется выбором эффективной функции правдоподобия. Предложены следующие модификации алгоритма и функции правдоподобия:

- использование оптимальных порогов для каждой из фонем (функция правдоподобия на основе оптимальных порогов).

- введение локальных порогов срабатывания (комплексная функция правдоподобия).

Исследование применяемых мер правдоподобия показало, что наиболее распространенной является нормированное по длине значение суммы локальных мер сходства:

I Л'г

Соп/и/епсе( /' ) =-У /V/ '

либо отношение эмиссионной вероятности текущего С«/,) и лучшего состояния (рШь^У-

Conßdence(PK) = —У]

где Л'„ - длительность (число наблюдений) слова w, pstj - эмиссионная вероятность Ь,())) - вероятность появления наблюдения v; в условиях данной акустической модели s, слова w в момент времени j; pst/K.„ - эмиссионная вероятность Ь„(\)) лучшего состояния для рассматриваемого наблюдения >'j> Psth„ = Л-Ш>л/,.

Коэффициент I/N„ выполняет нормирующую (усредняющую) роль, делая значение функции правдоподобия независимым от длины пути.

В ходе анализа такого подхода установлен следующий недостаток: функции правдоподобия принимают во внимание только длину пройденного пути, но не учитывают конкретные фонемы, пройденные этим путем. Функция правдоподобия па основе оптимальных порогов использует индивидуальный порог срабатывания для каждой фонемы вместо единого порога на все слово.

Оптимальный порог &ph для каждой из фонемы определяется как минимум линейной свертки функций количества ложных срабатываний (FP) и пропущенных фонем (FN) в зависимости от величины порога (рис. 4).

FN или FP, %

pst,

Порог

0.5 1 срабатывания

Рис. 4. Пример зависимости количества ложных срабатываний (/г/>) и пропущенных фонем (/-ТУ) в зависимости от порога

Так как на этапе отсечения рассматриваемого алгоритма ограниченного перебора возможна потеря потенциально перспективных путей, предложена комплексная функция правдоподобия (КФП).

КФП представляет собой функцию правдоподобия на основе оптимальных порогов с дополнительным условием фильтрации: все промежуточные состояния пути должны удовлетворять критерию отсечения на основе локальной функции правдоподобия с общим для всех фонем порогом.

КФП использует дополнительную локальную функцию правдоподобия и дополнительное условие перехода пути в состояние х на этапе/. ¿5, / > ©/,„,/. Здесь 0/,„„/ - единый локальный порог правдоподобия, 0 < 01,„а/ <Л ¿'Я./ - локальная функция правдоподобия пути для состояния 5 на этапе./', /Д./ =

Таким образом, комплексная функция правдоподобия для пути Ри. ключевого слова и- имеет вид:

Софс1епсеЕх(Ри) = Со>ф(}епсе(рЬ)

при одновременном выполнении следующих условий:

V: Соп]}(1епсс(рИ) > врЬ

где Со^Ыепсе(рИ) - функция правдоподобия на основе оптимальных порогов, 0Р/, -порог для фонемы рИ.

Ниже приведен псевдокод итогового метода ограниченного перебора на основе данной функции правдоподобия: II поиск лучшего пути р ^ для каждого участка входного сигнала х1 е А" II этап распространения путей создать новый путь для состояния 5; ключевого слова для всех текущих путей р е Р

для всех возможных переходов из текущего состояния пути $С1тт II переход внутри одной фонемы если (Фонема [1„] == Фонема[5ги„„, ])

если выполняется локальный критерий (1^ , > 0 ссо ) осуществить переход р в увеличить длину пути р пересчитать правдоподобие р иначе удалить р //сокращение путей иначе// переход от одной фонемы к другой рЬ - Фонема [5С1т„,]

если Соп/Шепсе(рМ> ОрЬ II сокращение путей

еспи (рЛ == последняя фонема ключевого слова)

Рл.„ - ЬевПра,,,, р) иначе

создать новый путь р^ для состояния ключевого слов добавить р^ в Р ес™ Р** найден, то вернуть рПпЫ иначе вернуть "ключевое слово не обнаружено"

В четвертой главе выполнено исследование эффективности предложенных в работе методов и алгоритмов.

Приведено описание корпуса речевых данных siSpeechCorp, на котором выполнялись практические применения. Эта речевая БД содержит 10 часов речевого материала, записанного 40 людьми в возрасте от 18 до 50 лет и транскрибированного вручную. Для транскрибирования использовался алфавит Russian SAMPA (Speech Assessment Methods Phonetic Alphabet) и разделение гласных фонем на ударные (stressed) и безударные (unstressed). Всего 50 фонем.

Описана конфигурация базовой системы голосового управления, на которой проводились эксперименты. В качестве алгоритма спектрального анализа за основу взят алгоритм, предложенный европейским институтом стандартов телекоммуникации (ETSI). Включены предусмотренные стандартом модификации, направленные на улучшение качества работы: лифтрация (Liftering), вычет среднего кепстрального значения (Cepstral Mean Subtraction, CMS), нормализация энергии (Energy Normalization). На выходе данного блока для каждого участка сигнала в 25 мс формируется вектор из 39 параметров. Первыми 13-ю из них являются кепстральные коэффициенты (12 mel-frequency cepstral coefficient) и логарифм энергии (logE), а остальные - производные (1-го и 2-го порядка) этих коэффициентов (они показывают динамику изменения).

Проведено обучение СММ моделей и проведено сравнение эффективности разработанных методов с методом скользящего окна (Wiipon, 1999). В качестве мер эффективности использовались оценки Вычислительной сложности (xRT) и Качества распознавания (Acc%/FP%). Тестирование проводилось для распознавания слитной речи для словаря в 10 слов (достаточный размер словаря для управления большинства технических устройств различного назначения при производственной и бытовой деятельности). Результаты приведены в табл. 2.

Таблица 2

Сравнение разработанного метода распознавания речевых команд с методом

скользящего окна

Показатель Значение

VI V2a V2b V2c

х[?Т, средний показатель для одного ключевого слова 1.33 xRT 0.15 xRT 0.16 xRT 0.24 xRT

хЯТ, средний показатель для всего словаря 12.4 xRT 0.2 xRT 0.21 xRT 0.29 xRT

Время работы (участок 4,1 с) 43 с 0.79 c 0.84 c 1.1 с

Качество распознавания, Асс%/ТР% 86.1% /5% 92.4/0.5% 96.3/0.01% 98% /0.01%

Здесь VI - «Метод скользящего окна» (\Vilpon, 1999), У2а- «Метод ограниченного перебора, базовый», У2Ь - «Метод ограниченного перебора, основан-

ный на оптимальных порогах», V2c - «Метод ограниченного перебора, основанный на комплексной функции правдоподобия».

Результаты показывают превосходство разработанного метода, как в плане скорости, так и в плане точности распознавания.

1. Разработанный метод ограниченного перебора в среднем работает быстрее в 5(V2c)-8 (V2a) раз в зависимости от модификации.

2. Двухуровневая структура речевой команды в сочетании с гибридным методом распознавания позволили добиться 40-кратного преимущества в скорости на словаре в 10 команд.

3. Благодаря использованию единственного ключевого слова повысилось качество распознавания: 86.1% /5% (VI) против 98% /0.01% (V2c).

4. Использование индивидуальных порогов для каждой фонемы позволило сократить ошибку распознавания на 51% и снизить количество ложных срабатываний в 10 раз (V2b).

5. Применение локальных порогов позволило добиться дальнейшего сокращения ошибки распознавания на 46% за счет увеличения времени распознавания на 30%.

В заключение главы приведены результаты практического использования разработанных методов и моделей, включающие построение и экспериментальное исследование программного комплекса голосового управления роботом Lego Mindstorms NXT на кафедре Электроники и микропроцессорных систем ИГЭУ (лабораторная работа «Изучения методов человеко-машинного взаимодействия на основе голосового управления», предмет «Электромеханотроника», 5 курс, специальность 210106 «Промышленная электроника»).

Применение предложенного метода распознавания речевых команд обеспечило:

- возможность легкой модификации словаря команд с помощью специального интерфейса пользователя (для того чтобы добавить новую команду достаточно записать ее в виде звуковых единиц, фонем, во встроенном редакторе команд, предоставляемом программным комплексом);

- требуемое качество распознавания, позволяющее осуществлять голосовое управление роботом без предварительного обучения или настройки под конкретные характеристики голоса.

В приложениях приведены акты о внедрении результатов диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

1. Предложен метод распознавания речевых команд, обеспечивающий расширяемость словаря команд и улучшение качества распознавания за счет поэтапного использования алгоритмов распознавания слитной речи и ключевых слов, применяемых к разным частям команды.

2. Разработан алгоритм распознавания ключевого слова, реализующий ограниченный перебор на основе эффективной комплексной функции правдоподобия. Алгоритм обеспечивает повышение вычислительной эффективности и качества распознавания речи.

3. Разработанные модели, методы и алгоритмы реализованы в виде вычислительного комплекса, их преимущества подтверждены экспериментально.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Публикации в изданиях, рекомендованных ВАК РФ

1. Гребнов, С. В. Разработка и реализация двухуровневого метода голосового управления на основе скрытых марковских моделей / С. В. Гребнов // Информационные Технологии. - 2009. - N9. - С. 40-46.

2. Гребнов, С. В. Аналитический обзор методов распознавания речи в системах голосового управления // Вестник ИГЭУ. - 2009. - Вып. 3. - С. 83-85.

3. Гребнов, С. В. Двухуровневый метод распознавания голосовой команды // Вестник ИГЭУ. - 2009. - Вып. 3. - С. 90-93.

Публикации в прочих изданиях

4. Гребнов, С. В. О новом подходе голосового управления / С. В. Гребнов // Тезисы докладов Международной научно-технической конференции "Состояние и перспективы развития электротехнологи и" (XV Бенардосовские чтения), 27-29 мая / Федеральное агенство по образованию, ИГЭУ. -- Иваново. - 2009 -Т.1 - С. 61-62.

5. Гребнов, С. В. Методы шумоочистки в задачах распознавания речи, / С. В. Гребнов // Тезисы докладов Международной научно-технической конференции "Состояние и перспективы развития электротехнологии" (XV Бенардосовские чтения), 27-29 мая / Федеральное агенство по образованию, ИГЭУ. - Иваново.-2009.- Т. I - С. 60-61.

6. Гребнов, С. В. Разработка речевого интерфейса / С. В. Гребнов И Тезисы докладов Международной научно-технической конференции "Состояние и перспективы развития электротехнологии" (XV Бенардосовские чтения), 27-29 мая / Федеральное агенство по образованию, ИГЭУ. - Иваново. - 2009. - Т.1 - С. 6263.

7. Варков, А. А. Исследование возможности применения голосового управления манипуляционным роботом / A.A. Варков, С. В. Гребнов // Тезисы докладов Международной научно-технической конференции "Состояние и перспективы развития электротехнологии" (XV Бенардосовские чтения), 27-29 мая / Федеральное агенство по образованию, ИГЭУ. - Иваново. - 2009. - Т. 1 - С. 271 -272.

8. Гребнов, С. В. Перспективы использования речевого интерфейса в экологически безопасных производствах / С. В. Гребнов // Тезисы докладов IX Международной научно-технической конференции" Теоретические основы энерго-ресурсосберегающих процессов, оборудования и экологически безопасных производств ", 28-30 сентября / Федеральное агенство по образованию, ИГХ'ГУ. - Иваново. - 2010. - С. 268.

15

9. Свидетельство об официальной регистрации программы для ЭВМ №2010615606. Программный комплекс голосового управления роботом Lego Mindstorms NXT / Гребнов С. В.; патентообладатель ГОУ ВПО ИГЭУ. -№2010615606; заявл. 30.06.2010; зарегистрировано в реестре программ для ЭВМ 30.08.2010.

ГРЕБНОВ Сергей Викторович

РАЗРАБОТКА ЭФФЕКТИВНЫХ МЕТОДОВ И КОМПЛЕКСОВ ПРОГРАММ РАСПОЗНАВАНИЯ РЕЧИ В СИСТЕМАХ ЧЕЛОВЕКО-МАШИННОГО ВЗАИМОДЕЙСТВИЯ

АВТОРЕФПРАТ диссертации на соискание ученой степени кандидата технических наук

Подписано в печать 14.01.11 Формат 60x84 1/16. Печать плоская. Усл.печ.л. 0,93. Тираж 100 экз. Заказ № 114.

Государственное образовательное учреждение

высшего профессионального образования «Ивановский государственный энергетический университет имени В.И. Ленина» 153003, г. Иваново, ул. Рабфаковская. 34. Отпечатано в УИУНЛ ИГЭУ.

Оглавление автор диссертации — кандидата технических наук Гребнов, Сергей Викторович

ВВЕДЕНИЕ.

Глава 1. АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ ПОСТРОЕНИЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ И ГОЛОСОВОГО УПРАВЛЕНИЯ.

1.1. Введение.

1.2. Восприятие устной речи.

1.3. Общая структура распознающей системы.

1.4. Методы спектрального представления речевого сигнала.

1.5. Алгоритмы распознавания речи.

1.5.1. Алгоритмы распознавания слитной речи.

1.5.2. Распознавание речи на основе СММ.

1.5.3. Методы голосового управления на основе СММ.

1.5.3.1. Метод скользящего окна.

1.5.3.2. Метод моделей-заполнителей.

1.5.3.3. Анализ рассмотренных методов.

1.6. Выводы.

Глава 2. ГИБРИДНЫЙ МЕТОД РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД.

2.1. Введение.

2.2. Применение ключевой фразы в распознавании речевых команд.

2.3. Двухуровневая модель речевой команды.

2.4. Гибридный метод распознавания речевых команд.

2.5. Выводы.

Глава 3. АЛГОРИТМ ОГРАНИЧЕННОГО ПЕРЕБОРА, ОСНОВАННЫЙ НА КОМПЛЕКСНОЙ ФУНКЦИИ ПРАВДОПОДОБИЯ.

3.1. Введение.

3.2. Алгоритм ограниченного перебора.

3.3. Функция правдоподобия на основе оптимальных порогов.

3.4. Комплексная функция правдоподобия.

3.5. Выводы.

Глава 4. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ И ПРАКТИЧЕСКОГО ПРИМЕНЕНИЯ

4.1. Введение.

4.2. Архитектура экспериментальной системы.

4.2.1. Шумоочистка.

4.2.2. Детектор голоса.

4.2.3. Спектральный анализ.

4.2.4. Распознавание.

4.3. Речевая База Данных.

4.4. Выбор языков и инструментальных средств для создания системы.

4.5. Проведение экспериментов.

4.5.1. Тестируемые модификации системы.

4.5.2. Обучающая и контрольная выборки.

4.5.3. Способ изм ерения эффективности методов.

4.5.4. Результаты экспериментов.

4.6. Реализация результатов исследований.

4.6.1. Программный комплекс голосового управления роботом Lego Mindstorms NXT

4.6.2. Система голосового управления видео архивом.

4.7. Выводы.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Гребнов, Сергей Викторович

Одним из перспективных способов организации человеко-машинного взаимодействия является передача компьютерной системе инструкций пользователя в формате речевых команд. Голосовой интерфейс является необходимой компонентой, когда речь идет о создании комфортных условий жизни для людей с нарушениями опорно-двигательного аппарата. Такие системы со временем войдут в повседневный быт в процессе реализации концепции так называемых «умных домов». Кроме того, возможно их применение и на производстве в составе комплексов управления исполнительными механизмами.

В развитие этого научного направления внесли вклад такие ученые, как Рабинер, заложивший научные основы распознавания речи статистическими методами, Wilpon, Lee, Higgins, внесшие существенный вклад в развитие методов распознавания речевых команд, Винцюк, Карпов, Ронжин, занимающиеся распознаванием слитной русской речи. Анализ их работ позволил установить, что дня организации человеко-машинного взаимодействия при помощи речевых команд система распознавания речи (СРР) должна отвечать следующим требованиям:

• Возможность работы в режиме реального времени.

• Достаточное качество распознавания (не менее 95% правильно распознанных команд в условиях отсутствия шумовой составляющей -соотношение сигнал/шум 25дБ).

• Расширяемость словаря СРР без перепрограммирования.

Последнее требование связано с тем, что для повышения надежности распознавания речи часто создаются системы с тщательно подобранным закрытым словарем команд, который включает точную настройку грамматических конструкций и подбор специальных слов в составе команд. Однако расширение 5 или изменение словаря команд подобных систем может быть выполнено лишь силами разработчиков СРР и связано с дополнительными временными и финансовыми затратами.

Существующие методы распознавания голосовых команд не отвечают всем заявленным требованиям. Это обстоятельство определяет актуальность исследований в этом направлении.

Объект исследования — речевой сигнал.

Предмет исследования - модели, методы и алгоритмы распознавания речи в системах человеко-машинного взаимодействия.

Цель диссертационной работы — повышение эффективности и качества распознавания речи в СРР с динамически расширяемым словарем команд.

Задачи исследования.

1. Анализ существующих моделей, методов и алгоритмов распознавания речи с целью выявления степени их соответствия современным требованиям и выбора прототипов для собственных исследований.

2. Разработка моделей, методов, и алгоритмов распознавания речи, обеспечивающих достижение следующих показателей распознавания голосовых команд:

- скорость работы, достаточная для использования в режиме реального времени (в два раза быстрее режима реального времени для словаря в 10 команд);

- высокое качество распознавания (95% правильно распознанных речевых команд в условиях отсутствия шумовой составляющей - соотношение сигнал/шум 25дБ);

- легкость модификации словаря команд: возможность добавления новых слов и команд без перепрограммирования системы.

3. Программная реализация предлагаемых алгоритмов и проведение экспериментальных исследований, подтверждающих их эффективность. б

Методы исследований. В работе использовались методы теории вероятности, теории случайных процессов, математического анализа, цифровой обработки сигналов, спектрального анализа Фурье, теории оптимизации (динамическое программирование) и теории формальных языков.

Научная новизна.

1. Предложен гибридный метод распознавания речевых команд. Новизна метода заключается в поэтапном использовании алгоритмов распознавания слитной речи и ключевых слов, применяемых к разным частям команды.

2. Для распознавания ключевых слов разработан алгоритм ограниченного перебора множества путей в скрытой марковской модели (СММ), новизной которого является отсечение путей не на заключительном этапе, а в процессе их распознавания, что позволяет значительно сократить пространство поиска.

3. Предложены новые функции правдоподобия, используемые алгоритмом ограниченного перебора для отсечения неперспективных вариантов: функция правдоподобия на основе оптимальных порогов и комплексная функция правдоподобия. Функция правдоподобия на основе оптимальных порогов отличается тем, что учитывает не только длину пройденного пути в СММ, но и конкретные фонемы, пройденные этим путем. Комплексная функция правдоподобия, в дополнение к этому, оценивает соответствие всех промежуточных состояний пути в СММ локальному критерию правдоподобия с общим для всех фонем порогом.

Обоснованность положений диссертации обеспечивается корректным использованием математических методов. Достоверность подтверждается результатами экспериментов на реальном речевом материале.

Практическая ценность результатов. Применение предложенного метода распознавания по сравнению с подходом, использующим единый метод распознавания, позволяет:

- ослабить зависимость скорости распознавания от количества слов в словаре команд;

- использовать команды, которые плохо распознаются алгоритмом распознавания ключевого слова.

Применение разработанного алгоритма распознавания ключевых слов с использованием предложенных функций правдоподобия позволяет повысить вычислительную эффективность распознавания за счет раннего отсечения неперспективных вариантов.

Реализация результатов исследований. Разработанные модели, методы и алгоритмы были использованы при построении программного комплекса голосового управления роботом Lego Mindstorms NXT на кафедре Электроники и микропроцессорных систем ИГЭУ (лабораторная работа «Изучения методов человеко-машинного взаимодействия на основе голосового управления», предмет «Электромеханотроника», 5 курс, специальность 210106 «Промышленная электроника»), а также внедрены в составе проекта «Системы безопасности помещений и личности на базе компьютерного интеллекта» ООО «НИИ Спецлаб». Проведен ряд экспериментов, показавших возможность практического использования предложенных методов. Потенциальная область применения, обусловленная характеристиками разработанных методов, включает сферу управления техническими устройствами различного назначения при производственной и бытовой деятельности.

Апробация работы. Полученные в работе научные и практические результаты докладывались и обсуждались на XV Международной научно-технической конференции «Бенардосовские чтения» и IX Международной научной конференции «Теоретические основы энерго-ресурсосберегающих процессов, оборудования и экологически безопасных производств».

Публикации по материалам диссертации - 9 печатных работ, в том числе три в журналах, рекомендованных ВАК РФ. Получено 1 свидетельство об официальной регистрации программы для ЭВМ в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам (Роспатенте); свидетельство №2010615606 (зарегистрировано 30.08.2010).

Структура и объём работы. Диссертация состоит го введения, четырех глав, заключения, пяти приложений и библиографического списка из 122 наименований. Общий объём работы составляет 120 страниц, в том числе 19 рисунков и двух таблиц.

Заключение диссертация на тему "Разработка эффективных методов и комплексов программ распознавания речи в системах человеко-машинного взаимодействия"

4.7. Выводы

В данной главе диссертационной работы рассмотрены программная реализация предлагаемых алгоритмов и методов, а так же проведены экспериментальные исследований их эффективности.

В экспериментах приняли участие следующие модификации распознающего модуля:

1) VI «Метод скользящего окна».

2) V2a «Метод ограниченного перебора, базовый».

3) V2b «Метод ограниченного перебора, основанный на оптимальных порогах».

4) V2c «Метод ограниченного перебора, основанный на комплексной функции правдоподобия».

Проведенные эксперименты показали, что разработанный метод ограниченного перебора работает быстрее метода скользящего окна в 5 (V2c) - 8 (V2b) раз. Кроме этого, двухуровневая структура речевой команды позволяет добиться 40-кратного преимущества в скорости на словаре в 10 команд. Это

86 обусловлено тем, что для словаря в 10 команд алгоритм распознавания ключевого слова все равно применяется только лишь для одного специально введенного слова. Результаты так же показали значительное преимущество разработанного алгоритма в плане качества распознавания: 86.1% /5% (VI) против 98% /0.01% (V2c). Такое значительное преимущество обусловлено в первую очередь использованием единственного ключевого слова для распознавания. Кроме этого, использование собственных порогов для каждой из фонем позволило сократить ошибку распознавания на 51% и снизить количество ложных срабатываний в 10 раз (V2b). Дальнейшее улучшение алгоритма за счет применения локальных порогов позволило за счет увеличения времени работы на 30% добиться дальнейшего сокращения ошибки распознавания на 46%.

В итоге, программная реализация предлагаемых алгоритмов и методов, а так же проведенные экспериментальные исследования подтвердили превосходство разработанного алгоритма над методом скользящего окна в плане скорости и качества распознавания. Среди различных модификаций наилучшие результаты показал метод V2c «Метод ограниченного перебора, основанный на комплексной функции правдоподобия».

Проведенное же практическое внедрение метода ограниченного перебора, основанного на комплексной функции правдоподобия, в составе проекта «Системы безопасности помещений и личности на базе компьютерного интеллекта» ООО «НИИ Спецлаб» подтвердило его высокую скорость, качество распознавания при одновременной возможности модификации словаря команд без перепрограммирования системы.

ЗАКЛЮЧЕНИЕ

Исследование проблем автоматического понимания/распознавания речи является важным фундаментальным направлением. Для снижения вероятности неправильного распознавания часто создаются специализированные системы с тщательно подобранным закрытым словарем команд, который включает точную настройку грамматических конструкций и подбор специальных слов в составе команд. С другой стороны, подобные системы подвержены следующему недостатку - расширение или изменение словаря команд требует привлечения компании-разработчика, проведения дополнительных работ и исследований, что увеличивает сроки и стоимость решения. Таким образом, данная работа в первую очередь направлена на создание алгоритмов и методов, которые бы позволили модифицировать словарь команд без перепрограммирования системы, при этом обладали высокой скоростью и качеством работы.

Исследование современных методов построения систем распознавания речи позволило выделить основные компоненты (модули) систем распознавания речи, а так же сделать вывод, что распознавание слитной речи успешно решается с помощью вероятностного подхода на основе скрытых Марковских моделей;

Дальнейший анализ существующих подходов распознавания, применяемых в системах голосового управления (метод скользящего окна и метод моделей заполнителей) позволил: а) определить основные недостатки существующих методов: первый метод имеет большую вычислительную сложность, качество распознавания существенно варьируется в зависимости от фонетического состава слова, второй - требует подробного дополнительного моделирования посторонней речи, что не дает возможности динамически изменять словарь команд;

Ь) определить перспективные направления для собственной разработки: создание нового метода распознавания речевых команд на основе использования локальных мер сходств;

В результате был разработан, реализован и экспериментально исследован комплекс моделей, методов и алгоритмов распознавания речи в системах человеко-машинного взаимодействия:

1. Предложен метод распознавания речевых команд, обеспечивающий расширяемость словаря команд и улучшение качества распознавания за счет поэтапного использования алгоритмов распознавания слитной речи и ключевых слов, применяемых к разным частям команды.

2. Разработан алгоритм распознавания ключевого слова, реализующий ограниченный перебор на основе эффективной комплексной функции правдоподобия. Алгоритм обеспечивает повышение вычислительной эффективности и качества распознавания речи.

3. Разработанные модели, методы и алгоритмы реализованы в виде вычислительного комплекса, их преимущества подтверждены экспериментально.

Библиография Гребнов, Сергей Викторович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Роижин A. Л., Ли И. В. Автоматическое Распознавание Русской Речи. Вестник Российской академии наук, 2007, том 77, № 2, с. 133-138.

2. Stuart N. Wrigley. Speech Recognition by Dynamic Time Warping. // http://www.dcs.shef.ac.uk/~stu/com326/index.html

3. Кисля ков, С. В. Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания : Дис. . канд. техн. наук : 05.12.13 СПб, 2004.

4. Чистович Л.А., Венцов А.В., Гранстрем М.П. Физиология речи. Восприятие речи человеком. JI., "Наука", 1976, 388 с.

5. Rose R. Robust speech recognition techniques applied to a speech in noise task. European Conference on Speech Communication and Technology, Aarlborg, Denmark, 3-7 Sept. 2001.

6. Ahadi S. An Efficient front-end for automatic speech recognition. IEEE Trans, on Speech and Audio Processing, 2003.

7. Блеихут P. Быстрые алгоритмы цифровой обработки сигналов: Пер. с англ.-М.: Мир, 2002.

8. Гольденберг Л.М. и др. Цифровая обработка сигналов: Справочник,-М.: Радио и связь, 2007.

9. Рабинер Д., Гоулд Б. Теория и применение цифровой обработки сигналов.-М.: Мир, 2005.

10. Курочкин С.Н., Бродин А.Г. Проблемы создания многоуровневой системы распознавания речи // Автоматизация и управление в машиностроении. -1997. -№1.

11. S. Davis and P. Mermelstein. Comparison of parametric representation for monosyllable word recognition in continuously spoken sentences. IEEE Transactionson Acoustics, Speech, and Signal Processing, 28:357-366, Aug 1980.

12. European Telecommunications Standards Institute. ES 201 108 Distributed Speech Recognition Encoding. Proceedings of ETSI, 2003.

13. Parihar N. Performance analysis of advances front ends on the Aurora LV evaluation. M.S. Dissertation, Mississippi State University. 2003.

14. Кос A. Acoustic feature analysis for robust speech recognition. M.S. Thesis, Bilkent University, 2002.

15. Бондарко JI. В. Фонетика и лингвистика (к 65-летию кафедры фонетики) // Язык и речевая деятельность 98, т. 1, СПб, 1998. с. 260.

16. J. J. Verbeek. Efficient Greedy Learning of Gaussian Mixture Models, Neural Computation, 5(2), pp. 469-485, Feb 2003.

17. Гребное, С. В. Аналитический обзор методов распознавания речи в системах голосового управления // Вестник ИГЭУ. Б.м.— 2009. - Вып. 3. - С. 83-85. - (Информационные системы и технологии). - Библиогр.: с. 85 (12 назв.).

18. ООО "Спецлаборатория", http://www. goal.ru.

19. Russian SAMP А, http://www.phon. ucl. ac.uk/home/samva/russian. htm.

20. SPEECHDAT Project, hftp://www.speechdat.ors/SpeechDat.html

21. Ошибки первого и второго рода, http://en.wikipedia.ors/wiki/Typel and type II errors

22. Brown C.D., and Davis, H.T. Receiver operating characteristic curves and related decision measures: a tutorial, Chemometrics and Intelligent Laboratory Systems, pp. 24-38, 2006.

23. Гребное, С. В. Методы шумоочистки в задачах распознавания речи. /110

24. С. В. Гребнов // Тезисы докладов Международной научно-технической конференции "Состояние и перспективы развития электротехнологии" (XV Бенардосовские чтения), 27-29 мая / Федеральное агенство по образованию, ИГЭУ. Иваново.- 2009. - Т.1 - С. 60-61.

25. Martin, R. Statistical methods for the enhancement of noisy speech. International Workshop on Acoustic Echo and Noise Control, 2003.

26. Rangachari, S. Noise estimation algorithms for highly non-stationary environments. Theses in Speech Processing Lab at UT-Dallas, 2004.

27. Acero, A. Acoustical and environmental robustness in automatic speech recognition. Ph.D. Thesis, Carnegie. Mellon University, 1990.

28. Stern, R. New directions in robust speech recognition. International Conference on Spoken Language Processing, 2006.

29. Cohen, I. Noise spectrum estimation in adverse environments: Improved MCR. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP, 2003.

30. Ephraim, Y. Speech enhancement using MMSE LSA estimator. Proceedings of the IEEE, 1985.

31. Cohen, I. On speech enhancement under signal presence uncertainty. Proceedings of the 26th IEEE International Conference on Acoustics, Speech, and Signal Processing, 2001.

32. Стефанов A.M., Стефанова И. А. Эффективное использование интегрирующей способности слуха при цифровой обработке сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

33. Cariani P. Temporal codes, timing nets, and music perception // Journal of New Music Research, 2001. Vol. 30. - pp. 107-135.

34. Вокодерная телефония. Методы и проблемы / Под ред. А. А. Пирогова.111-М.: "Связь", 1974.-536 с.

35. Picone J. Signal Modeling Techniques In Speech Recognition. Proc. of the IEEE. 1993.

36. Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In Рос. of the IEEE, vol. 77, no 2, pp. 257 286.

37. Методы автоматического распознавания речи / под ред. У. Ли. т.1, т. 2.-М.: Наука, 1983.

38. Гребнов, С. В. Двухуровневый метод распознавания голосовой команды // Вестник ИГЭУ. Б.м.- 2009. - Вып. 3. - С. 90-93. -(Информационные системы и технологии). - Библиогр.: с. 93 (14 назв.).

39. Voice Activity Detection, http://www.acm.org/crossroads/xrdsl3-4/voicedetection.html

40. Nemer E. S. Robust voice activity detection using higher-order statistics in the LPC residual domain, IEEE Transactions on Speech and Audio Processing, 9, 3 (2001), pg. 217-231.

41. Parsons, T. W., Voice and Speech Processing, McGraw-Hill Inc., 1987.

42. Уоссермен Ф. Нейрокомпьютерная техника. 1992.-230 с.

43. Рассел С., Норвиг П. Искусственный интеллект: современный подход. -М.: Изд. Дом «Вильяме», 2006. 1408 с.

44. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981. - 496с.

45. Маркел Дэ/с.Д., Грэй А.Х. Линейное предсказание речи. М.: Связь, 1980. -308с.

46. Bahl L.R. and Jelinek F. Decoding for channels with insertions, deletions, and substitutions with applications to speech recognition // IEEE Trans. Informat. Theory. 1975. Vol. IT-21, pp. 404-411.

47. Baker J.K. The DRAGON system An overview // IEEETrans. on Acoust. Speech Signal Process. 1975. Vol. ASSP-23. No. 1. pp. 24-29

48. Baum L.E., Peine T. Statistical inference for probabilistic functions of finite state Markov chains//Ann. Math. Stat. 1966. Vol.37, pp. 1554-1563.

49. Baum L.E., Egon J.A. An inequality with applications to statistical estimation for probabilistic functions of a Markov process and to a model for ecology // Bull. Amer. Meteorol. Soc. 1967. Vol. 73. pp. 360-363.

50. Baum L.E., Petrie T., Soldes G., and Weiss N. A maximization technique occuring in the statistical analysis of probabilistic functions of Markov chains // Ann. Math. Stat. 1970. Vol 41. No. 1. pp. 164-171.

51. Елинек Ф. Распознавание непрерывной речи статистическими методами//ТИИЭР. 1976. Т. 64. №4. С. 131-160.

52. Jelinek F. A fast sequential decoding algorithm using a stack // IBM J. Res. Develop., 1969. Vol. 13. pp. 675-685.

53. Jelinek F., Bahl L.R., and Mercer R.L. Design of a linguistic statistical decoder for the recognition of continuous speech //IEEE Trans. Informat. Theory, 1975. Vol. IT-21. pp. 250-256.

54. Левинсон С. E. Структурные методы автоматического распознавания речи//ТИИЭР. 1985. О. 73. Т 11. N. 100-128.

55. Levins on S. E., Rabiner L.R., and Sondhi M.M. An introduction to the application of the theory of probabilistic function of a Markov process to automatic speech recognition // Bell Syst. Tech. Journal, Apr. 1983. Vol. 62, no.4, pp. 1035-1074.

56. Dempster A.P., Laird N.M., and Rubin D.B. Maximum likelihood fromincomplete data via the EM algorithm // J. Roy. Stat. Soc. 1977. Vol. 39, No. 1. pp. 1114

57. Paul D.B., Baker J.К., Baker J.M. On the interaction between true source, training and testing language models // IEEE ICASSP 1991. pp. 569-572.

58. Bourlard H., Morgan N. Connectionist Speech Recognition. A Hybrid Approach I I The Kluwer International Series in Engineering and Computer Science, Vol. 247, Kluwer Academic Publishers, Boston, 1994.

59. Голосовое управление, http://ru.wikipedia■org/wiki/Гoлocoвoevпpaвлeниe

60. Расширенная форма Бэкуса — Наура, http://ru.wikipedia.org/wiki/Pacшиpeннaя форма Бэкус Наура

61. Xhenyu X. Comparison and combination of confidence measures in IWR. ISCSLP, 2002.

62. Hazen, T. Recognition confidence scoring and its use in speech understanding systems. Computer Speech and Language , 2002.

63. Mengusoglu E. Use of acoustic prior information for confidence measure in ASR. European Conference on Speech Communication Technology. 2005.

64. Bridle J. An efficient elastic template method for detecting given words in running speech. British Acoustical Society Meeting, Apr. 1973.

65. Higgins A. Keyword recognition using template concatenation. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP, 1985.

66. В. Я. Чучупал. Выделение незнакомых слов и акустических событий при распознавании речи // Модели, методы, алгоритмы и архитектуры системраспознавания речи, 2006, стр. 119-137.115

67. Афанасьев ИМ. Вейвлет-анализ: основы теории и параметры применения // Успехи физтческих наук, т. 166, №11, 1996,- С. 1145-1170.

68. Дьяконов В. П. Вейвлеты. От теории к практике. М.: СОЛОН-Р, -2002.-448 с.

69. Моттлъ В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов. М.: Физматлит, 1999, 352 с.

70. McCu/loch W. S., Pitts W. Н. A logical calculus of ideas immanent in nervous activity//Bull. Math. Biophysics, 1943. Vol. 5. pp. 115-119.

71. Lippmann R.P. Review of neural networks for speech recognition 11 Neural computing, 1989. l.pp. 1-38.

72. Rosenblatt F. Principles of Neurodynamics // Spartan Books, New York, 1959.

73. Rahim M. R. Artificial Neural Networks for Speech Analysis/Synthesis // Chapman&Hall, 1994.

74. MinskyM., PapertS. Perceptrons // Cambridge: MIT Press. 1969.

75. Цыптн Я. 3. Обучение и адаптация в автоматических системах // М.: Наука, 1968. 400с.

76. Waibel A., Hanazawa Т. Phoneme Recognition Using Time-Delay Neural Networks // IEEE Transaction on Acoustic Speech Signal Processing Vol. 37, 1989, pp. 328-339.

77. Almeida L.B. A Learning Rule for Asynchronous Perceptrons with Feedbackin a Combinatorial Environment // In: 1st International Conference on Neural Networks.1161.EE. 1987.11-609.

78. Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир,-1989. -540 с.

79. Введение в цифровую фильтрацию / Под. ред. Р. Богнера, А. Константинидиса. -М.: Мир, 1976.-216 с.

80. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения, т.1, т. 2 — М.: Мир, 1983

81. ДюранБ., Одел П. Кластерный анализ. -М.: Статистика, 1977, 128 с.

82. Кастелъянс Г., Кочетков Ю.А., Суарез X. Цифровая обработка речевых сигналов для их классификации. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

83. Патрик Э. Основы теории распознавания образов. М.: Сов. радио, 1980.— 480 с.

84. Пересада В. Автоматическое распознавание образов. Л.: Энергия, 1970. — 92 с.

85. Fu-Hua Liu. Environmental Adaptation for Robust Speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 1994.

86. Richard C. Rose, Douglas B. Paul. A hidden markov model based keyword recognition system. IEEE. ICASSP 90, vol. 1, pp. 129-132, Apr. 1990.

87. Goodwin M.M. Adaptive Signal Models: Theory, Algorithms, and Audio Applications. The Ph. D. thesis. University of California. USA. 1997.

88. Morena P. Speech Recognition in Noisy Environments. The Ph. D. diesis. Carnegie Mellon University. USA. 1996.

89. Сергиенко А.Б. Цифровая обработка сигналов. СПб.: Питер, 2003. -608 с.

90. Brown D, Golod D. Decoding HMMs using the k best paths: algorithms andapplications. Cheriton School of Computer Science, University of Waterloo, 2010117

91. Churbanov A, Winters-Hilt S. Implementing EM and Viterbi algorithms for Hidden Markov Model in linear memory. The Research Institute for Children, 2008.

92. Steve Young. The application of hidden Markov models in speech recognition. Foundations and Trends in Signal Processing archive Volume 1 , Issue 3 (Januaiy 2008). Pages: 195-304.

93. J. A. Bilmes, "Graphical models and automatic speech recognition" in Mathematical Foundations of Speech and Language: Processing Institute of Mathematical Analysis Volumes in Mathematics Series, Springer-Verlag, 2003.

94. S. S. Chen and R. Gopinath, "Gaussianization," in NIPS 2000, Denver, CO, 2000.

95. S. S. Chen and R. A. Gopinath, "Model selection in acoustic modelling," in Proceedings of Eurospeech, pp. 1087-1090, Rhodes, Greece, 1997.

96. L. Deng, A. Acero, M. Plumpe, andX. D. Huang, "Large-vocabulary speech recognition under adverse acoustic environments," in Proceedings of ICSLP, pp. 806809, Beijing, China, 2000.

97. V. Diakoloukas and V. Digalakis, "Maximum likelihood stochastic transformation adaptation of hidden Markov models," IEEE Transactions on Speech and Audio Processing, vol. 7, no. 2, pp. 177-187, 1999.

98. G. Evermann and P. C. Woodland, "Posterior probability decoding, confidence estimation and system combination," in Proceedings of Speech Transcription Workshop, Baltimore, 2000.

99. W. Macherey, L. Haferkamp, R. Schlüter, and H. Ney, "Investigations on error minimizing training criteria for discriminative training in automatic speech recognition," in Proceedings of Interspeech, Lisbon, Portugal, September 2005.

100. M. J. P. Gales, "Cluster adaptive training of hidden Markov models," IEEE Transactions on Speech and Audio Processing, vol. 8, pp. 417-428, 2000.

101. R. Gopinath, "Maximum likelihood modeling with Gaussian distributions118for classification," in Proceedings oflCASSP, pp. 11-661-11-664, Seattle, 1998.

102. D. Povey, Discriminative Training for Large Vocabulary Speech Recognition. PhD thesis, Cambridge University, 2004.

103. G. Saon, A. Dharanipragada, and D. Povey, "Feature space Gaussianization," in Proceedings of ICASSP, Montreal, Canada, 2004.

104. M. J. F. Gales, "Discriminative models for speech recognition," in ITA Workshop , University San Diego, USA, February 2007.

105. Timothy J.Hazen, Stephanie Seneff and Joseph Polifroni. Recognition confidence scoring and its use in speech understanding systems,Computer Speech and Language, 2002, 16, 49-67.

106. Sui. M, Gish, H. Evaluation of word confidence for speech recognition systems. Computer Speech and Language, 1999, 13,299-319.

107. Bazzi, I, Glass, J. Modeling out of vocabulary words for robust speech recognition. Proc. ICASSP 2000, Beijing, China, Vol. 1, pp.401-404.

108. Microsoft Decentralized Software Services, http://www.microsoft.com/robotics/

109. И. Б. Тампелъ, M. Ю. Татарникова. Использование технологий распознавания звуковых образов в мультимедийных приложениях. http://www.evarussia.ru/upload/dok1ad/doklad 198.rtf

110. Система автоматического распознавания речи «ГОРЫНЫЧ» http://www.rusdoc.ru/material/manual/gor/gor.html

111. Dragon NaturallvSpeaking, http://www.nuance.com/dragon/index.htm

112. Windows Speech Recognition, http:/Avww.microsoft.com/enable/products/windowsvista/speech.aspx

113. IBM ViaVoice for Windows Standard EditionUser's Guide ftp://ftp.scansoft.com/files/suppoit/manuals/ViaVoiceUSStnd.pdf

114. Home Automated Living (HAL), http://www.automatedliving.com/