Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд

Гладышев, Константин Константинович

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд

кандидата технических наук: Гладышев, Константин Константинович
город: Санкт-Петербург
год: 2010
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд»

Автореферат диссертации по теме "Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд"

Ц На лравах рукописи

0046

565

Гладышев Константин Константинович

ИНФОРМАТИВНЫЕ ПРИЗНАКИ НА ОСНОВЕ ЛИНЕЙНЫХ СПЕКТРАЛЬНЫХ КОРНЕЙ В СИСТЕМАХ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД

Специальность 05.13.01 - Системный анализ, управление и обработка информации

Автореферат диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург

2010 2 8 ОКТ 2010

004611565

Работа выполнена на кафедре цифровой вычислительной техники и информатики в Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича

Научный руководитель

Официальные оппоненты

доктор технических наук, профессор Шульгин Евгений Александрович

доктор технических наук, профессор, заслуженный деятель науки РФ Хименко Виталий Иванович

кандидат физико-математических наук, доцент Рожков Николай Николаевич

Ведущее предприятие

ООО «ОДИТЕК» Санкт-Петербург

Защита состоится « //» // 2010 года в Я часов на заседании диссертационного совета Д 219.004.02 при Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича по адресу: 191183, г. Санкт-Петербург, наб. р. Мойки, д. 61.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственном университета телекоммуникаций им. проф. М.А. Бонч-Бруевича по адресу: г. Санкт-Петербург, наб. р. Мойки, д. 65.

Автореферат разослан «

2010 г.

Ученый секретарь диссертационного совета кандидат технических наук, доцент

/(Щ/с>

//

В.Х. Харитонов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время по мере роста объемов информации компьютерная техника все больше и больше проникает в человеческую жизнь. Происходит совершенствование интерфейса человек-компьютер. Изобретаются новые способы отображения информации, модернизируются устройства ввода, продолжаются поиски такого интерфейса, который устроил бы всех. На эту роль сейчас претендует интерфейс речевой. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Работы в этом направлении велись еще в то время, когда о графическом интерфейсе никто даже и не помышлял. За сравнительно короткий период был выработан исчерпывающий теоретический базис, и практические достижения обуславливались только производительностью компьютерной техники. В 60-70х годах были созданы устройства, способные распознавать десяток речевых команд.

Существенный вклад в развитие систем распознавания речи (СРР) внесли советские и российские ученые В.Н. Трунин-Донской, Т.К. Винцюк, Н.Г. Загоруйко, JI.JI. Мясников, зарубежные ученые Д.Д. Маркел, А.Х. Грей, Б. Гоулд, Г. Фант и др. Множество современных идей при создании систем распознавания речи взято из области цифровой обработки сигналов. Большой вклад в теоретическом и практическом планах внесли A.A. Пирогов, A.A. Ланнэ, JI. Рабинер, Р. Шафер, Д. Макхоул и др.

Современные разработки, как правило, основываются на бионической модели восприятия речи человеком. Такие системы являются иерархическими, детерминированными, с обучением и состоят из нескольких взаимосвязанных уровней. Выделяются акустическая (получение первичных признаков речевых сигналов) и лингвистическая (работа со словарями) составляющие.

Системы распознавания слитной речи строятся на базе вероятностных моделей грамматики языка. На словарях объемом до 5000 слов достоверность распознавания целых фраз составляет более 95%, что считается достаточным для обеспечения успешного речевого ввода текста на ПК.

Для задачи голосового управления различными устройствами необходимо распознавание отдельных речевых команд. Как правило, такой способ управления требует высокой надежности (99% точности распознавания). Зачастую команды произносятся в условиях повышенной зашумленности, например на производстве. Современные разработки в лабораторных условиях достигают 95% точности на словарях до 100 команд и требуют обучающие выборки больших объемов (10 и более вариантов произнесения каждого слова разными дикторами).

Таким образом, проблема построения эффективных алгоритмов распознавания речевых команд является актуальной.

Целью диссертационной работы является исследование линейных спектральных корней в качестве первичных признаков речевых сигналов, исследование методов работы со словарями эталонов в задаче распознавания речевых команд.

Для достижения поставленной цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

1. провести обзор моделей систем распознавания речи, проанализировать структуру их модулей, выявить основные недостатки;

2. произвести обоснованный выбор метода формирования первичных признаков речевых сигналов;

3. выбрать принцип построения и работы со словарями эталонов;

4. уточнить математическую модель системы распознавания речевых команд;

5. разработать программный комплекс для проведения исследований и тестирования модели распознавания;

6. осуществить проверку предложенных алгоритмов распознавания речевых команд на тестовых выборках, произвести сравнение с существующими СРР.

Научная новизна заключается в результатах расчетно-экспериментальных исследований сигналов речевого командного управления, исследованиях первичных информативных признаков речевых сигналов, принципов построения словарей эталонов и алгоритмов распознавания речевых команд.

Методы исследования. Решение указанных задач осуществлено на основе общих методов системного анализа, теории цифровой обработки сигналов, программирования, методов математической статистики и теории вероятностей.

В качестве инструмента для исследований автором разработан программный комплекс, позволяющий анализировать речевые сигналы, работать с базами данных словарей, производить различные математические расчеты и получать табличное и графическое представление результатов.

Основные положения, выносимые на защиту:

1. Результаты исследования первичных информативных признаков речевых сигналов, сформированных на основе семейства линейных спектральных корней.

2. Алгоритмы расчета линейных спектральных корней для речевых сигналов и принцип работы со словарем эталонов при распознавании речевых команд.

3. Обобщенная модель распознавания речевых команд с оценкой качества словаря эталонов и достоверности принятия решений.

4. Результаты разработки и практической реализации программного комплекса для анализа и распознавания речевых сигналов.

Практическая ценность. Результаты работы могут быть использованы при построении командных систем голосового управления различными процессами и устройствами.

Результаты внедрения. Результаты научных исследований и практические разработки используются в ООО «ОДИТЕК», г. Санкт-Петербург. Теоретические результаты внедрены в учебный процесс СПбГУТ им. проф. М.А. Бонч-Бруевича.

Апробация работы. Основные положения, выводы и практические результаты диссертационной работы обсуждались:

• Научная конференция «Вычислительные и информационные технологии в науке, технике и образовании» / ПГУ, Павлодар (Казахстан), 2006.

• Научная сессия «IX Невские чтения» / НИЯК, СПб, 2007.

• IV Всероссийская межвузовская конференция молодых ученых / ИТМО, СПб, 2009.

По теме диссертационной работы опубликовано 8 печатных работ (в том числе одно свидетельство об официальной регистрации программы для ЭВМ), из них 3 работы опубликованы в рецензируемых научных изданиях, входящих в перечень изданий, рекомендуемых ВАК.

Объем и структура диссертации. Диссертационная работа включает введение, четыре главы, заключение, список литературы и приложения. Вся работа изложена на 191 страницах текста, включающих в себя 18 страниц приложений, 70 рисунков, 10 таблиц. Количество библиографических ссылок - 81.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность проблемы построения эффективных алгоритмов распознавания речевых команд в задаче голосового управления различными процессами и устройствами. Сформулирована цель работы, поставлены задачи исследования.

Глава 1 посвящена анализу проблемы автоматического распознавания речевых сигналов. Подробно рассмотрены состояние и тенденции развития этого направления в России и других странах. Произведен анализ и классификация существующих систем распознавания речи (рис. 1).

Зависимость от диктора

Диктонезави-симые

Дикторозави-симые

Назначение СРР Выделение первичных признаков

Распознавание произвольной слитной речи Преобразование фурье

Распознавание команд Вейвлет преобразования

1

Поиск слов в непрерывной речи Линейное предсказание

Распознавание

говорящего

Эталонная база

Фонетические слоги

Набор слов

Набор фраз

Фонемы или их аллофоны

Способы сравнения с эталонами

Динамическое программы-рование

Нейронные сети

Скрытые марковские модели

Рис. 1. Классификация моделей СРР по различным признакам

Современные системы распознавания речи (СРР), как правило, имеют иерархическую модульную структуру. На первом уровне выполняется предварительная обработка - выделение акустических признаков, характеризующих речевые сигналы. Одним из наиболее часто используемых методов является линейное предсказание (ЛП). Полученные на основе ЛП признаки обладают рядом полезных свойств - они просто рассчитываются, дают компактное представление РС, наименее чувствительны к действиям помех.

Следующий уровень СРР является лингвистическим. В него входит процедура поиска по словарям эталонов. В задачах распознавания слитной речи строятся вероятностные грамматики языка, благодаря чему достигается высокая степень распознавания целых фраз.

При распознавании отдельных речевых команд слово произносится диктором без окружающего контекста. Обучение таких систем является трудоемким процессом. Для повышения надежности обычно используются большие обучающие выборки (10 и более вариантов произнесения одного слова разными дикторами). Каждое слово моделируется скрытой Марковской моделью или нейронной сетью.

При построении систем, ориентированных на одного диктора, возможно использование более простого метода поиска по словарям - нелинейного временного выравнивания (динамического программирования). В таком случае в процессе обучения каждый эталон записывается только один раз.

В диссертационной работе приведена классификация речевых единиц: фонемы и аллофоны, слоги, целые слова и фразы. Сделан вывод, что минимальную эталонную речевую единицу следует выбирать в зависимости от назначения СРР.

Представлена общая модель функционирования системы распознавания речевых команд. Выделено два этапа работы системы (рис 2).

1. Обучение:

Рис. 2. Общая схема системы распознавания речевых команд

Глава 2 посвящена анализу модели расчета ИСК и методике использования их в качестве первичных признаков РС.

Метод расчета признаков речевого сигнала - ИСК

Речевой сигнал описывается в терминах линейных дискретных систем с переменными параметрами и передаточной функцией в частотной области вида

ад 1+£А'-г"

= = С--И--т

Наиболее широко для описания РС применяется полюсная модель линейного предсказания, представляемая в виде

где Л' - порядок модели.

Параметрами такой модели являются коэффициенты линейного предсказания {а}, вычисляемые на каждом кадре речевого сигнала, или эквивалентные им параметры - ЛСК, предложенные Итакурой.

Корни в общем случае могут быть получены в результате решения двух уравнений:

11е{г'Ч(г)} * = 0, 1т{гкАы(г)} =0 При Я>(М/2), (3)

2-е г=е

где 4(г) = 1+|;аХ''

При этом на основании новой теории ЛСК, предложенной А.А. Ланнэ, корни могут рассчитываться по-разному в зависимости от параметра Я. В рамках этой теории выделено несколько частных случаев расчета ЛСК. Модель расчета ЛСК для 11= N

В настоящей работе рассматривается случай, когда Я = N = 10. Достаточно решить только одно уравнение порядка М, чтобы по его корням найти все коэффициенты исходного многочлена.

Задается порядок модели (степень аппроксимирующего полинома) ОНО. На вход поступает отрезок сигнала (кадр) длительности РКК4:

Ж = (4)

Для устранения граничных эффектов производится сглаживание весовой функцией Хэмминга:

О т

зИ, =% .(0,54+0,46-со3(-——-)), (5)

г км — /

где / = 0

Вьшолняется расчет коэффициентов передаточной функщш с помощью метода наименьших квадратов и алгоритма Левинсона-Дарбина. Первичная инициализация:

пш

£о = 2>,2. (б)

1-1

В цикле от 1 до ОНО производятся следующие вычисления.

• Вычисление коэффициента автокорреляции:

д = (7)

• Вычисление коэффициента отражения:

• Задание первоначального приближения:

4й =1-

• Уточнение значений коэффициентов:

(8) (9)

Д « = (М) _ (М)

где \<k<i-\.

• Вычисление текущей ошибки предсказания:

Е, = (1-г,2)Е^.

• На последнем шаге цикла получается окончательное решение:

ак =д<", где 1<£</-1.

Далее расчет коэффициентов отражения по формулам кратных дуг: Поиск корней полинома методом Ньютона:

ош>

(10)

(11) (12)

(13)

(14)

(15)

Расчет набора ЛСК:

и1, = агссоэС*,), где 1 = О...ОЯ£>~1.

Использование ЛСК в качестве информативных признаков РС При расчете ЛСК на продолжительном РС (рис. 3), производится его разбиение на кадры с перекрытием. В результате расчетов получается набор значений ЛСК (рис. 4).

гас. з. Временная диаграмма гласных фонем «а», «и», «о»

Номера кадров (окон)

Рис. 4. Набор ЛСК для трех фонем (порядок модели -10 корней)

На рис. 4 наблюдается возбуждение определенных корней при произнесении фонем. Это обусловлено тем, что ЛСК несут в себе спектральную информацию о РС. Возбуждение корней происходит в области формантных частот гласных звуков.

6

Значение каждого ЛСК используется в качестве координаты в Д'-мерном пространстве признаков. На рис. 5 и б показаны образы трех фонем в двухмерном и трехмерном подпространствах. Соединительные линии между точками отображают последовательность кадров РС. Для некоторых комбинаций ЛСК наблюдается уверенное разделение фонем - точки группируются в пределах одной области. Это свойство позволяет использовать ЛСК в качестве информативных признаков в СРР.

•5/7

и 2.51 2Д2 £53 2<Л 255 2,56 2Я 2.56 2.56 « 2,61 2.62 2£Э 2« 2.65 2,66 2,67 2.бе 2.68 27 ПОС »И

Рис. 5. Образы фонем в двухмерном подпространстве признаков ЛСК

ЛСК N53

Г

Рис. 6. Образы фонем в трехмерном подпространстве признаков ЛСК

В главе 3 рассматриваются модели построения словарей эталонов, методики поиска по ним, проводится критерий для оценки достоверности распознавания речевой команды.

Выбор методики формирования словаря эталонов

Распознавание речи путем выделения отдельных фонем на практике не принесло существенных результатов. Если вернуться к проблеме восприятия речи человеком, то оказывается, что даже опытные фонетисты с трудом справляются с задачей расчленения слитной речи на короткие сегменты. Зачастую чтобы распознать отдельную фонему, слушателю необходимо услышать слово целиком или даже несколько рядом стоящих слов.

Известно, что чем продолжительнее речевая единица, тем лучше она воспринимается на слух. Исходя из этого, для системы распознавания речевых команд в качестве эталонов наиболее целесообразно использовать целые слова.

На рис. 7 и 8 показаны два слова, записанные от разных дикторов. Слова представлены в виде точек в подпространстве двух ЛСК. Очевидно, что отдельные фонемы достаточно трудно выделить из целого слова. Соединительные линии (траектории точек ЛСК) отображают перестроение голосового тракта человека в процессе произнесения звуков. Для одних и тех же слов траектории визуально схожи. Это свойство позволяет использовать наборы векторов ЛСК, с учетом их временной последовательности, в качестве элементов обучающих словарей.

Оценка меры близости между входным РС и эталоном производится с помощью метода нелинейного временного выравнивания (динамического программирования). Это один из наиболее мощных и широко известных математических методов современной теории управления, был предложен в конце 50-х годов американским математиком Р. Беллманом для решения оптимизационных задач. Метод позволяет сравнивать разные по длительности образцы. Применимо к речевым сигналам это означает, что сравнение с эталонами возможно практически независимо от темпа речи.

Пусть сравнивается два образца сигналов, представленных в виде массива векторов (для РС это наборы ЛСК):

*={й>,:х1,...,*/,...,*»} и У = ^0,у1,...,у1,...,уи}. (16)

Различие между векторами двух образов определяется последовательностью состояний Ск и обозначается:

РО=С0,С,>...,С4,...,С^ (17)

где С0 и Ск- начальное и конечные состояния, функция временного

выравнивания, которая проецирует временную область одного образа на временную область другого образа.

Метод ДП заключается в том, что ищется такая функция , при которой путь из состояния С0 в состояние Ск, является оптимальным, т.е. будет получено минимальное накопленное расстояние между двумя образами.

При построении оптимального пути, на каждом шаге алгоритма используется основная формула ДП:

, = тт-

, где i = 0...N,j = 0...M.

(18)

4-и +г(Х',У/)

В качестве расстояния между векторами используется взвешенная евклидова метрика:

__« ЖМ

= К^-Л)2, (19)

где И_8ЕС - размерность векторов признаков.

На выходе процедуры сравнения получается некоторое число (мера близости), представляющее собой величину, обратную степени близости мезаду сигналами.

Процедура поиска по словарю заключается в последовательном сравнении входного сигнала с каждым из эталонов речевых команд. В табл. 1 показан результат поиска команды «сообщение» в словаре из четырех командных слов. В результате входной сигнал правильно распознан системой. На рис. 9 отображаются траектории кратчайших переходов по кадрам от эталонных сигналов к распознаваемому. Данные по оси ординат нормированы по длительности эталонных сигналов. По оси абсцисс идут номера кадров входного сигнала. Участки с крутыми переходами между точками отображают автоматическое временное масштабирование сигналов. Это происходит, например, если при произнесении диктором растягивается гласный звук.

Таблица 1

Эталон командного слова Мера близости

Сообщение 1,85

Журнал 5,13

Диспетчер 6,82

Календарь 4,33

Идеальный случай, когда распознаваемый сигнал совпадает с эталонным, представляет собой диагональную ступенчатую траекторию из левого нижнего угла в верхний правый. На рис. 9 для эталонов «журнал» и «календарь» наблюдается существенное отклонение от диагонали, что может являться дополнительным критерием для принятия решения при распознавании слов.

сооба£ние

• 5.13 журнал

• 6.82 диспетчер

• 4,33 галеядар*»

Рис. 9. Оптимальные траектории при сравнении с эталонами

До того как будет распознано целое командное слово, на базе предложенной модели возможно распознавание более мелких речевых единиц. Это позволит сократить область поиска в словаре и повысить точность алгоритма. На рис. 11 представлен результат распознавания целого слова «режимы» на словаре, состоящем из набора слогов. В качестве одного из элементов словаря используется «эталон тишины» (обозначен как «_»), что позволяет без применения дополнительных алгоритмов выделять паузы в речевых сигналах.

Рис. 10. Временная диаграмма слова «ре-жи-мы»

Входной сигнал разбивается на кадры по средней длине эталонов. На графике показаны диаграммы меры близости до каждого из эталонов для всех кадров речевого сигнала. В результате получаем последовательность распознанных слогов. Путем свертки и дальнейшей семантической обработки возможно получение целого

слова. Данная методика может использоваться для построения СРР на словарях больших объемов.

Предложено решение задача поиска слое в непрерывном речевом потоке. В качестве элементов словаря используются целые слова. На вход системы подастся продолжительный участок речевого сигнала. В данном примере, фраза: «Черная тойота номер три два один в сторону Питера» (рис. 12).

Поиск идет без предварительной сегментации фразы на отдельные слова. На рис. 12 и 13 наблюдаются локальные минимумы в области искомых эталонных единиц. На рис. 15 ярко выраженного минимума нет, так как искомое слово («зеленая») не было произнесено в предложении. Соотношение значения средней меры близости по всем кадрам РС и значения меры близости на локальном минимуме является критерием, позволяющим автоматически определять, присутствует ли вообще искомое слово в анализируемой фразе.

Рис. 12. Временная диаграмма целой фразы

Рис. 13. Поиск слова «черная» (соотношение меры близости = 0,5)

Рис. 14. Поиск слова «номер» (соотношение меры близости =* 0,5)

Рис. 15. Поиск слова «зеленая» (соотношение меры близости = 0,8)

Критерий для оценки достоверности распознавания слов При распознавании речевых команд на базе словаря из набора целых слов, получается таблица со значениями меры близости до элементов словаря. Эталон с минимальным значением является искомым - распознанным. Даже если на вход системы будет подано слово, не входящее в словарь, в любом случае будет получен результат - один из эталонов. Что приведет к ошибке распознавания.

Предложено решение задачи автоматического отсеивания ложных срабатываний системы. Таблица результатов распознавания нормируется (табл. 2). Далее подсчитывается разница в значении меры близости между первым и вторым эталоном. В данном примере это 0,73. Если эта разница не превышает пороговое

11

значение 0,5, то слово будет считаться нераспознанным и системой будет выдан запрос на повторный ввод команды. Предложенный критерий позволяет оценивать достоверность распознавания текущего слова.

_ _Таблида 2

Эталон Мера близости После нормировки

Сообщение 1,74 1,00

Память 3,01 1,73

Настройки 3,06 1,75

Часы 3,45 1,98

Офис 3,53 2,03

Режимы 3,68 2,11

Средства 4,06 2,33

Контакты 4,13 2,37

Темы 4,15 2,38

Журнал 4,25 2,44

Связь 4,58 2,63

Календарь 4,70 2,70

Оценка влияния параметров модели ЛП на достоверность распознавания В ходе опытов, на словаре из 42 командных слов от 4 дикторов, варьировался размер кадров РС и степень аппроксимирующего полинома (порядок модели). На рис. 16 и 17 приведены графики соответствующих зависимостей. Наилучшая достоверность распознавания достигается, когда размер окна совпадает с периодами основного тона РС. При изменении порядка модели, максимум достигается на 10 корнях, далее наблюдается пологий график кривой.

Рис. 16. Влияние размера окна на достоверность распознавания

О 2 4. Б В ю 12 14 16

Порядок модели ЛП

Рис. 17. Влияние порядка модели на достоверность распознавания

Результаты исследований согласуются с общеизвестными оценками оптимальных параметров модели ЛП. Что подтверждает адекватность предложенного критерия оценки достоверности распознавания речевых команд.

Оценка качества сформированного словаря эталонов

При использовании системы распознавания речевых команд в условиях повышенной зашумленности или на узкополосных каналах связи, даже на словарях малых объемов (до 50 слов) возможно большое количество ошибок. Для увеличения надежности предложено использовать коррекцию словаря эталонов.

После формирования словаря производится анализ того, насколько элементы отличаются друг от друга (табл. 3). Подсчитываете» среднее значение (в данном примере 3,04). Если некоторые элементы словаря слишком похожи друг на друга (мера близости меньше порога, равного 2), то предлагается заменить один из эталонов, например, синонимом. После этого производится повторный анализ словаря.

В данном примере (табл. 3), после замены одного из похожей пары слов «темы» или «режимы», процент правильно распознанных команд увеличился на 9,8%.

Таблица 3

Эталоны Календарь 3 Ё (0 £ о Настройки 1 I Офис Память I | Режимы Связь I Сообщение Средства 3 £ 4И К Часы

Журнал 2,64 2,59 3,11 2,45 3,47 2,73 3,34 2,8 2,39 3,54

Календарь 2,54 3 2,78 2,96 2.4 2,72 4,24 3,15 2.28 3,47

Контакты 2,77 2,87 3,32 3,09 3,17 4.35 3,1 2,52 3,49

Настройки 2,24 2,53 3,15 3,41 3,07 3,46 2,82 3,33

Офис 2,36 2,71 2,59 3,48 3,31 2,46 3,2

Память 3,51 2,66 2.6 4 3,06 3,7

Режимы 2,59 3,44 2,72 1,95 3,23

Связь 4,29 3,01 2,4 2,98

Сообщение 4,16 3,9 3,23

Средства 2,4 3,2

Темы 2,88

Среднее 2,83 3,07 2,99 2,77 3,11 2,87 3,01 3,77 3,21 2,64 3,30

В главе 4 приводится подробное описание разработанного программного комплекса для анализа речевых сигналов. Представлена алгоритмическая модель системы распознавания речевых команд. Приведены результаты тестирования данной системы.

В программном комплексе реализованы основные функции:

• расчет массива линейных спектральных корней с возможностью настройки параметров модели;

• расчет статистических признаков различных порядков;

• сравнение сигналов методом динамического программирования;

• оценка достоверности распознавания команд по словарю;

• анализ влияния параметров расчета ЛСК на качество распознавания;

• использование произвольных речевых единиц в качестве эталонов;

• кластеризация словарей различными методами;

• хранение словарей эталонов в базе данных;

• графический и табличный вывод полученных результатов.

На базе модулей программного комплекса построена опытная система распознавания речевых команд. Система выполняет все операции, начиная с записи входного сигнала с микрофона и заканчивая выдачей распознанной команды в виде текстового сообщения на экране ПК.

Представлена алгоритмическая модель системы, на основании которой в любой современной среде разработки возможно построение программного комплекса, использующего процедуру распознавания команд. Кроме того, отдельные модули системы готовы к реализации на базе программируемых аппаратных средств (DSP-процессоры, ПЛИСы и т.д.) с возможностью распараллеливания вычислительных операций.

В работе проведено тестирование модели распознавания речевых команд. Выполнен сравнительный анализ ЛСК и других распространенных методов получения первичных признаков речевых сигналов. Сравнение проводилось на одних и тех же тестовых образцах.

В качестве эталонной базы использовались 42 командных слова, надиктованных четырьмя дикторами. На вход подавались сигналы от этих же дикторов, по одному варианту произнесения каждой команды. Оценивался процент ошибок и средняя достоверность распознавания. Если была допущена ошибка, то текущая команда не участвовала в подсчете среднего. Также было подсчитано среднее время расчета набора первичных признаков для одного командного слова.

В табл. 4 показаны результаты распознавания для четырех вариантов первичных признаков:

• LSP - линейные спектральные корни (пары)

• LPC - коэффициенты линейного предсказания

• PLP - коэффициенты перцептивного предсказания

• MFCC - мел-кепстральные коэффициенты

Наборы признаков PLP и MFCC подсчитаны с помощью соответсвующих модулей системы распознавания Sphinx4 (бесплатная разработка с открытым кодом на Java от американского университета Карнеги-Меллон).

Таблица 4.

Дикторы Время расчета, мс Достоверность % ошибок

LSP LPC PLP MFCC LSP LPC PLP MFCC LSP LPC PLP MFCC

Мужчина1 9,05 3,05 13,09 13,02 1,91 1,30 1,49 1,13 0,00 4,76 2,38 2,38

Мужчина2 8,45 2,85 11,91 12,30 0,78 0,41 0,78 0,69 4,76 23,80 23,80 19,05

Женщина1 8,31 2,24 12,20 11,50 1,46 0,90 1,07 1,06 3,84 19,23 7,69 7,69

Женщина2 7,95 2,15 10,30 10,23 1,35 0,75 0,99 0,95 2,86 8,57 5,71 5,71

Среднее 8,44 2,57 11,88 11,76 1,38 0,84 1,08 0,96 2,87 14,09 9,90 8,71

Видно, что для ЛСК наблюдается минимальный процент ошибок 2,87% и максимальная степень достоверности 1,38. При этом время расчета сопоставимо с остальными методами. Что позволяет говорить о возможности успешного применения данных признаков в более сложных системах распознавания речи.

В заключении перечисляются основные результаты диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Произведен анализ современных систем распознавания речи. Выявлены основные недостатки алгоритмов распознавания речевых команд - недостаточная надежность и большой объем обучающей выборки.

2. Выполнено исследование линейных спектральных корней в качестве информативных первичных признаков речевых сигналов, приведено обоснование их алгоритма расчета.

3. Выбран принцип формирования словарей эталонов речевых команд и обосновано использование метода нелинейного временного выравнивания (динамического программирования) для поиска по словарям.

4. Уточнена алгоритмическая модель системы распознавания командных слов, готовая к реализации в программной или аппаратной среде.

5. Определен критерий для оценки достоверности распознавания речевой команды, позволяющий отсеивать ложные срабатывания алгоритма распознавания.

6. Предложена методика оценки качества сформированного словаря эталонов, позволяющая выявить похожие по звучанию речевые команды.

7. Показано решение задачи поиска различных речевых единиц (ключевых слов, слогов или пауз) в непрерывном речевом потоке на базе используемых методов распознавания.

8. Разработан программный комплекс, позволяющий анализировать речевые сигналы, работать с базами данных словарей, производить различные математические расчеты и получать табличное и графическое представление результатов исследований.

9. Проверена работа системы распознавания в сравнении с другими методами получения первичных признаков на одинаковых наборах эталонных и тестовых данных. Для ЛСК получен наименьший процент ошибок 2.87%, что позволяет говорить о возможности успешного использования данных признаков в более сложных системах распознавания речи.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ

1. Гладышев, К.К. Программный комплекс для исследований в задачах распознавания речи на основе аппарата линейного предсказания [Электронный ресурс] / К.К. Гладышев // Научная конференция «Вычислительные и информационные технологии в науке, технике и образовании»: тез. докл. / ПГУ. -Павлодар (Казахстан), 2006. - Режим доступа: ЬЦр://\уут.п5с.гц/\у$/5Ьо\у аЬз1гас1.с1Мт1?ги+148+10143.

2. Гладышев, К.К. Влияние основных физических параметров речи на качество ее распознавания / К.К. Гладышев. 2007. СПбГУТ. 9 с. Деп. в ВИНИТИ 26.06.07. -№ 676-В2007.

3. Свидетельство об официальной регистрации программы для ЭВМ 2007614250 РФ. Программа распознавания речевых информационных сигналов / К.К. Гладышев и др. // Информационный бюллетень официальной регистрации РосАПО. 2007.

4. Гладышев, К.К. Распознавание русской речи на основе аппарата линейного предсказания / К.К. Гладышев // Научная сессия «IX Невские чтения»: тез. докл. / НИЖ. - СПб, 2007. - С. 230.

5. Гладышев, К.К Проблема выбора эталонной единицы при распознавании речи / К.К. Гладышев // Журнал научных публикаций аспирантов и докторантов. -2008. - № 9. _ С.244—247 (входит в перечень ВАК).

6. Гладышев, К.К. Система поиска ключевых слов в непрерывном речевом потоке / К.К. Гладышев // Естественные и технические науки. - 2009. - № 1. - С. 242-244 (входит в перечень ВАК).

7. Гладышев, К.К Система автоматического распознавания речевых команд / К.К. Гладышев, Е.А. Шульгин // Известия высших учебных заведений. Приборостроение. - 2009. - № 3. - С. 17-21 (входит в перечень ВАК).

8. Гладышев, К.К. Распознавание отдельных слов в разговорной речи [Электронный ресурс] / К.К. Гладышев // VI Всероссийская межвузовская конференция молодых ученых: тез. докл. / ИТМО - СПб, 2009. — Режим доступа: http://fppo.ifmo.ru/krriii/kmu6/BbinyCK б/Леаёу инф техн/52 ОЫуаЬеу К K.pdf.

Подписано к печати 09.09.2010 Объем 1 печ. л. Тир. 80 экз., заказ №27 Отпечатано в СПбГУТ. 191186 СПб, наб. р. Мойки, 61

Оглавление автор диссертации — кандидата технических наук Гладышев, Константин Константинович

ВВЕДЕНИЕ.

1. АНАЛИЗ ПРОБЛЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ.

1.1 Формирование и восприятие речи человеком.

1.2 Классификация речевых единиц.

1.3 Общая структура и классификация систем автоматического распознавания речи.

1.4 Современные разработки в области речевых технологий.

1.4.1 IBM ASR ViaVoice.

1.4.2 Microsoft Speech SDK.

1.4.3 Санкт-Петербургский институт информатики и автоматизации Российской академии наук.

1.4.4 Сектор Цифровой Обработки и Распознавания Речевых Сигналов ВЦ РАН.

1.4.5 Центр речевых технологий.

1.4.6 Фирма «Стэл - Компьютерные Системы».

1.4.7 Кафедра Математической теории интеллектуальных систем МГУ.

1.4.8 Фирма «Одитек».

1.4.9 Кафедра «Цифровой обработки сигналов» СПБ ГУТ.

1.4.10 Белорусская компания «Сакрамент».

1.4.11 Объединенный институт проблем информатики НАН Беларуси.

1.4.12 Vocative Russian ASR Engine.

1.4.13 SPIRIT ASR Engine.

1.4.14 Программный комплекс Dragon NaturallySpeaking.

1.4.15 Набор программных библиотек НТК.;.

1.4.16 Набор программных библиотек Sphinx.

1.5 Методы выделения признаков речевых сигналов.

1.5.1 Спектральный иформантный анализ.

1.5.2 Вейвлет преобразования.

1.5.3 Линейное предсказание.

1.6 Методы сравнения с эталонными единицами.

1.6.1 Динамическое программирование.

1.6.2 Скрытые Марковские модели.

1.6.3 Нейронные сети.

Выводы.

2. ВЫДЕЛЕНИЕ ПЕРВИЧНЫХ ПРИЗНАКОВ РЕЧЕВОГО СИГНАЛА НА ОСНОВЕ АППАРАТА ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ.

2.1 Структура разработанной системы распознавания речевых команд.

2.1.1 Общее описание модулей системы.

2.1.2 Схема функционирования системы.

2.2 Решение задачи линейного предсказания.

2.2.1 История создания метода линейного предсказания и его преимущества.

2.2.2 Постановка задачи линейного предсказания.

2.2.3 Вычисление коэффициентов линейного предсказателя.

2.2.4 Выбор метода нахождения параметров модели.

2.2.5 Автокорреляционный алгоритм Левинсона-Дарбина.

2.2.6 Особенности вычисления коэффициентов линейного предсказания при возбуждении белым шумом.

2.2.7 Переход к линейным спектральным корням.

2.3 Использование ЛСК в качестве информативных признаков для распознавания PC.

2.4 Оценка возможности сокращения подпространства признаков векторов ЛСК.

Выводы.

3. РАЗРАБОТКА МЕТОДИКИ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД ПО СЛОВАРЮ ОГРАНИЧЕННОЙ ДЛИНЫ.

3.1 Методика формирования словаря эталонов.

3.2 Поиск по словарю с помощью выделения центров тяжести.

3.2.1 Процедура классификации входного PC по словарю эталонов.

3.2.2 Распознавание отдельно стоящих фонем.

3.3 Поиск по словарю методом динамического программирования.

3.3.1 Метод динамического программирования.

3.3.2 Распознавание отдельных слов.

3.3.3 Распознавание целых командных слов на базе слогов.

3.3.4 Процедура нечеткого поиска строк по словарю.

3.3.5 Поиск слов в слитной речи и выделение пауз между словами.

3.4 Критерий для оценки достоверности распознавания команд.

3.5 Выбор оптимальных параметров для расчета линейных спектральных корней.

3.6 Построение иерархического словаря в соответствии с лексической моделью языка.

3.7 Оптимизация поиска команд по словарю с применением метода кластеризации.

3.8 Оценка качества формирования словаря.

Выводы.

4. ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ АНАЛИЗА И РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ.

4.1 Функциональные возможности.

4.2 Алгоритмическая модель системы.

4.2.1 Общее описание.

4.2.2 Первичная настройка и обучение системы.

4.2.3 Процедура распознавания входящей голосовой команды.

4.2.4 Функция расчета ЛСК на сигнале произвольной длительности (LSK).

4.2.5 Функция расчета ЛСК на окне сигнала (LSKW).

4.2.6 Функция расчета коэффициентов экстраполятора (EXTRP).

4.2.7 Функция расчета одного корня уравнения по методу Ньютона (ROOT).

4.2.8 Функция расчета производной произвольного порядка (DXFX).

4.2.9 Функция расчета всех корней уравнения по методу Ньютона (ROOTS).

4.3 Описание пользовательского интерфейса.

4.3.1 Общий вид системы.

4.3.2 Константы.

4.3.3 Отчет «Траектории двух ЛСК в плоскости».

4.3.4 Отчет «Поиск эталона по сигналу».-.

4.3.5 Отчет «Поиск эталонов по сигналу».

4.3.6 Отчет «Поиск команды по словарю».

4.3.7 Отчет «Поиск команды по словарю методом половинного деления».

4.3.8 Отчет «Траектории трех ЛСК в пространстве».

4.3.9 Отчет «Траектории сравнения сигналов».

4.3.10 Отчет «Просмотр значений ЛСК».

4.3.11 Отчет «Сравнение центров эталонов и сигналов».

4.3.12 Отчет «Влияние параметров ЛСК на поиск команды по словарю».

4.3.13 Отчет «Оценка разделения сигналов по МДС».

4.3.14 Отчет «Сравнение каждого с каждым».

4.3.15 Формат файла входного речевого сигнала.

4.4 Техническая реализация, программные и аппаратные требования.

4.5 Исследование инвариантности системы к основным параметрам PC.

4.6 Сравнение ЛСК с другими методами получения первичных признаков.

Выводы.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Гладышев, Константин Константинович

Актуальность темы. В настоящее время по мере роста объемов информации компьютерная техника все больше и больше проникает в человеческую жизнь. Происходит совершенствование интерфейса человек-компьютер. Изобретаются новые способы отображения информации, модернизируются устройства ввода, продолжаются поиски такого интерфейса, который устроил бы всех. На эту роль сейчас претендует интерфейс речевой. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Работы в этом направлении велись еще в то время, когда о графическом интерфейсе никто даже и не помышлял. За сравнительно короткий период был выработан исчерпывающий теоретический базис, и практические достижения обуславливались только производительностью компьютерной техники. В 60-70х годах были созданы устройства, способные распознавать десяток речевых команд.

Существенный вклад в развитие систем распознавания речи (СРР) внесли советские и российские ученые В.Н. Трунин-Донской, Т.К. Винцюк, Н.Г. Загоруйко, JLJL Мясников, зарубежные ученые Д.Д. Маркел, А.Х. Грей, Б. Гоулд, Г. Фант и др. Множество современных идей при создании систем распознавания речи взято из области цифровой обработки сигналов. Большой вклад в теоретическом и практическом планах внесли A.A. Пирогов, A.A. Ланнэ, JL Рабинер, Р. Шафер, Д. Макхоул и др.