Исследование и разработка методов распознавания голосовых команд

Гладышев, Константин Константинович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Исследование и разработка методов распознавания голосовых команд

кандидата технических наук: Гладышев, Константин Константинович
город: Санкт-Петербург
год: 2009
специальность ВАК РФ: 05.13.01

Автореферат по информатике, вычислительной технике и управлению на тему «Исследование и разработка методов распознавания голосовых команд»

Автореферат диссертации по теме "Исследование и разработка методов распознавания голосовых команд"

003481097

На правах рукописи

Гладышев Константин Константинович

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ РАСПОЗНАВАНИЯ ГОЛОСОВЫХ КОМАНД

Специальность 05.13.01 - Системный анализ, управление и обработка информации

Автореферат диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2009

Работа выполнена в Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича

Научный руководитель

Официальные оппоненты

доктор технических наук, профессор Шульгин Евгений Александрович

доктор технических наук, профессор, заслуженный деятель науки РФ Хименко Виталий Иванович

Ведущее предприятие

кандидат технически наук, Кисляков Сергей Викторович

«Центр речевых технологий» Санкт-Петербург

Защита состоится ^ 2009 года в ^ часов на заседании

диссертационного совета Д 219.004.02 при Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича по адресу: 191186 Санкт-Петербург, наб. р. Мойки, 61.

С диссертацией можно ознакомиться в библиотеке университета.

Отзыв на автореферат в двух экземплярах, заверенных печатью учреждения, просим направлять по указанному адресу на имя ученого секретаря диссертационного отдела.

Автореферат разослан * 2009 г.

Ученый секретарь диссертационного совета кандидат технических наук, доцент:

В.Х. Харитонов

Актуальность темы. В настоящее время по мере роста объемов информации компьютерная техника все больше и больше проникает в человеческую жизнь. Происходит совершенствование интерфейса человек-компьютер. Изобретаются новые способы отображения информации, модернизируются устройства ввода, продолжаются поиски такого интерфейса, который устроил бы всех. На эту роль сейчас претендует интерфейс речевой. Собственно говоря, эхо как раз то, к чему человечество всегда стремилось в общении с компьютером.

Работы в этом направлении велись еще в то время, когда о графическом интерфейсе никто даже и не помышлял. За сравнительно короткий период был выработан исчерпывающий теоретический базис, и практические достижения обуславливались только производительностью компьютерной техники. В 60-70х годах были созданы устройства, способные распознавать десяток речевых команд.

Существенный вклад в развитие систем распознавания речи (СРР) внесли советские и российские ученые В.Н. Трунин-Донской, Т.К. Винцюк, Н.Г. Загоруйко, Ю.А. Косарев, JI.JI. Мясников, зарубежные ученые Д.Д. Маркел, А.Х. Грей, Б. Гоулд, Г. Фант и др. Множество современных идей при создании систем распознавания речи взято из области цифровой обработки сигналов. Большой вклад в теоретическом и практическом планах внесли A.A. Пирогов, В.Н. Трунин-Донской, A.A. Ланнэ, Л. Рабинер, Р. Шафер, Д. Макхоул и др.

Современные разработки, как правило, основываются на бионической модели восприятия речи человеком. Такие системы являются иерархическими, детерминированными, с обучением и состоят из нескольких взаимосвязанных уровней. Выделяются акустическая (получение первичных признаков речевых сигналов) и лингвистическая (работа со словарями) составляющие.

Системы распознавания слитной речи строятся на базе вероятностных моделей грамматики языка. На словарях объемом до 5000 слов достоверность распознавания целых фраз составляет более 95%, что считается достаточным для обеспечения успешного речевого ввода текста на ПК.

Для задачи голосового управления различными устройствами необходимо распознавание отдельных речевых команд. Как правило, такой способ управления требует высокой надежности (99% точности распознавания). Зачастую команды произносятся в условиях повышенной зашумленности, например на производстве. Современные разработки в лабораторных условиях достигают 90% точности на словарях до 100 команд и требуют обучающие выборки больших объемов (10 и более вариантов произнесения каждого слова разными дикторами).

Таким образом, проблема построения эффективных алгоритмов распознавания речевых команд является актуальной.

Целью диссертационной работы является повышение надежности систем распознавания речевых команд.

Для достижения поставленной цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

1. провести обзор моделей систем распознавания речи. Проанализировать структуру их модулей, методов формирования первичных признаков речевых сигналов (PC), методов поиска по словарям эталонов;

2. разработать математическую модель системы распознавания речевых команд, использующую линейные спектральные корни (ЛСК) в качестве

акустических признаков РС и нелинейное временное выравнивание для поиска по словарям эталонов;

3. разработать программный комплекс для проведения исследований и тестирования моделей распознавания;

4. определить критерий, позволяющий оценивать качество распознавания команд по ограниченным словарям;

5. выбрать оптимальные параметры модели расчета ЛСК для РС;

6. разработать методику оценки качества словаря эталонов;

7. осуществить проверку предложенных методов распознавания речевых команд в дикторонезависимом режиме.

Научная новизна заключается в использовании ряда методик, позволяющих повысить надежность систем распознавания речевых команд. Определен критерий, позволяющий оценивать качество распознавания и выявлять неправильно распознанные или отсутствующие в словаре команды. Предложена методика оценки качества сформированного словаря эталонов: автоматически выявляются схожие элементы словаря, для которых может быть выполнена ошибочная классификация входного распознаваемого сигнала.

Методы исследования. Решение указанных задач осуществлено на основе теории цифровой обработки сигналов, программирования, методов математической статистики и теории вероятностей.

В качестве инструмента для исследований автором разработан программный комплекс, позволяющий анализировать речевые сигналы, работать с базами данных словарей, производить различные математические расчеты и получать табличное и графическое представление результатов.

Основные положения, выносимые на защиту:

1. Критерий для реализации автоматического распознавания речевых команд, позволяющий, кроме того, оценить качество работы системы распознавания.

2. Методика оценки качества сформированного словаря эталонов, позволяющая увеличить надежность процедуры распознавания.

3. Математическая модель системы распознавания речевых команд, функционирующая в режиме реального времени на словарях средних объемов.

Практическая ценность. Результаты работы могут быть использованы при построении систем голосового управления различными процессами и устройствами.

Результаты внедрения. Результаты научных исследований и практические разработки используются «Центром речевых технологий» Санкт-Петербурга.

Апробация работы. Основные положения, выводы и практические результаты диссертационной работы обсуждались:

• Научная конференция «Вычислительные и информационные технологии в науке, технике и образовании» / ПГУ, Павлодар (Казахстан), 2006.

• Научная сессия «IX Невские чтения» / НИЯК, СПб, 2007.

• IV Всероссийская межвузовская конференция молодых ученых / ИТМО, СПб, 2009.

По теме диссертационной работы опубликовано 7 печатных работ (в том числе одно свидетельство об официальной регистрации программы для ЭВМ), из них 3 работы опубликованы в перечне изданий, рекомендуемых ВАК.

Объем и структура диссертации. Диссертационная работа включает введение, четыре главы, заключение, список литературы и приложения. Вся работа изложена на 183 страницах текста, включающих в себя 15 страниц приложений, 70 рисунков, 12 таблиц. Количество библиографических ссылок - 46.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность проблемы построения эффективных алгоритмов распознавания речевых команд в задачах голосового управления различными процессами и устройствами. Сформулирована цель работы, поставлены задачи исследования.

Глава 1 посвящена анализу проблемы автоматического распознавания речевых сигналов. Подробно рассмотрены состояние и тенденции развития этого направления в России и других странах. Произведен анализ и классификация существующих систем распознавания речи (рис. 1).

Рис. 1. Классификация моделей СРР по различным признакам

Современные системы распознавания речи (СРР), как правило, имеют иерархическую модульную структуру. На первом уровне выполняется предварительная обработка - выделение акустических признаков, характеризующих речевые сигналы. Наиболее часто используются методы линейного предсказания (ЛП). Полученные на основе ЛП признаки обладают рядом полезных свойств - они просто рассчитываются, дают компактное представление РС, наименее чувствительны к действиям помех.

Следующий уровень СРР является лингвистическим. В него входит процедура поиска по словарям эталонов. В задачах распознавания слитной речи строятся

вероятностные грамматики языка, благодаря чему достигается высокая степень распознавания целых фраз.

При распознавании отдельных речевых команд слово произносится диктором без окружающего контекста. Обучение таких систем является трудоемким процессом. Для повышения надежности обычно используются большие обучающие выборки (10 и более вариантов произнесения одного слова разными дикторами). Каждое слово моделируется скрытой Марковской моделью или нейронной сетью.

При построении систем, ориентированных на одного диктора, возможно использование более простого метода поиска по словарям - нелинейного временного выравнивания (динамического программирования). В таком случае в процессе обучения каждый эталон записывается только один раз.

В работе приведена классификация речевых единиц: фонемы и аллофоны, слоги, целые слова и фразы. Минимальную эталонную речевую единицу следует выбирать в зависимости от назначения СРР.

Представлена общая схема функционирования системы распознавания речевых команд. Выделено два этапа работы системы.

1. Обучение:

• запись эталонов с микрофона,

• расчет векторов признаков,

• сохранение эталонов в базе данных,

• проверка качества словаря эталонов.

2. Распознавание команды:

• запись команды с микрофона,

• расчет векторов признаков,

• поиск по эталонной базе,

• выдача текстового сообщения с найденной командой.

Глава 2 посвящена анализу модели расчета ЛСК и методике использования их в качестве первичных признаков РС.

Метод расчета признаков речевого сигнала-ЛСК

Речевой сигнал описывается в терминах линейных дискретных систем с переменными параметрами и передаточной функцией в частотной области вида

Наиболее широко для описания РС применяется полюсная модель линейного предсказания, представляемая в виде

(1.1)

(1.2)

где Аг- порядок модели.

Параметрами такой модели являются коэффициенты линейного предсказания {а}, вычисляемые на каждом кадре речевого сигнала, или эквивалентные им параметры - ЛСК, предложенные Итакурой.

Корни в общем случае могут быть получены в результате решения двух уравнений:

Kc{zrAn(z)}^Jä = 0, Im{zrAn(z)}^Jä = 0 При R > (N / 2), (1.3)

где Av(z) = l+faz" ■

При этом на основании новой теории ИСК, предложенной A.A. Ланнэ, корни могут рассчитываться по-разному в зависимости от параметра R. В рамках этой теории выделено несколько частных случаев расчета JICK.

Модель расчета ЛСК для R=N

В настоящей работе рассматривается случай, когда R = N - 10. Достаточно решить только одно уравнение порядка N, чтобы по его корням найти все коэффициенты исходного многочлена.

Задается порядок модели (степень аппроксимирующего полинома) ORD. На вход поступает отрезок сигнала (кадр) длительности FRM:

SG = {sgt,sgl,...,sgmi}. (2.1)

Для устранения граничных эффектов производится сглаживание весовой функцией Хэмминга:

sh, =sg, -(0,54+0,46-cos(-^)), (2.2)

FRM-i

где i = 0...FRM

Выполняется расчет коэффициентов передаточной функции с помощью метода наименьших квадратов и алгоритма Левинсона-Дарбина.

Первичная инициализация:

FRM

= (2.3)

В цикле от 1 до ORD производятся следующие вычисления.

• Вычисление коэффициента автокорреляции:

ГШ

R, = (2.4.1)

/=i

• Вычисление коэффициента отражения:

--• (2.4.2)

А-1

• Задание первоначального приближения:

e,w=r(. (2.4.3)

• Уточнение значений коэффициентов:

а«=аГ-г№, (2.4.4)

где 1<£</-1.

• Вычисление текущей ошибки предсказания:

£,=(l-r,2).Ew. (2.4.5)

• На последнем шаге цикла получается окончательное решение:

а„ = в|и, где 15 к й I -1. (2.4.6)

Далее расчет коэффициентов отражения по формулам кратных дуг:

<3 = {&>'&.....ёот)- (2-5)

Поиск корней полинома методом Ньютона:

ою

О(х) (2.6)

, 1-0 Расчет набора ЛСК:

и», =агссо8(д:,), (2.7)

где ¡ = О...ОД£»-1.

Использование ЛСК в качестве информативных признаков РС

При расчете ЛСК на продолжительном РС (рис. 2), производится его разбиение на кадры с перекрытием. В результате расчетов получается набор значений ЛСК (рис. 3).

О 1 ООО 2000 3 000 «ООО ВООО ВООО TODO бооо • ООО ЮООО 11 C4W 13000 13 000 14 ООО

Рис. 2. Временная диаграмма гласных фонем «а», «и», «о»

oí 10 20 ЭО 40 SO 60 ТО ВО 80 Il00 110 120 130 1401 ISO 160 170 Il80 1Я0 2ОТ 210 22С 230

I фонема "А" I пауза I фонема "И" 1 пауза I фонем* 'О" Номера кадров (окон}

Рис. 3. Набор ЛСК для трех фонем (порядок модели - 10 корней)

На рис. 3 наблюдается возбуждение определенных корней при произнесении фонем. Это обусловлено тем, что ЛСК несут в себе спектральную информацию о РС. Возбуждение корней происходит в области формантных частот гласных звуков.

Значение каждого ЛСК используется в качестве координаты в М-мерном пространстве признаков. На рис. 4 и 5 показаны образы трех фонем в двухмерном и трехмерном подпространствах. Соединительные линии между точками отображают последовательность кадров РС. Для некоторых комбинаций ЛСК наблюдается уверенное разделение фонем - точки группируются в пределах одной области. Это свойство позволяет использовать ЛСК в качестве информативных признаков в СРР.

лскмз

В главе 3 рассматриваются модели построения словарей эталонов, различные методики поиска по ним, определяется критерий качества распознавания, проводится оценка параметров модели ЛП.

Методика формирования словаря эталонов

Распознавание речи путем выделения отдельных фонем на практике не принесло существенных результатов. Если вернуться к проблеме восприятия речи человеком, то оказывается, что даже опытные фонетисты с трудом справляются с задачей расчленения слитной речи на короткие сегменты. Зачастую чтобы распознать отдельную фонему, слушателю необходимо услышать слово целиком или даже несколько рядом стоящих слов.

Известно, что чем продолжительнее речевая единица, тем лучше она воспринимается на слух. Исходя из этого, для системы распознавания речевых команд в качестве эталонов наиболее целесообразно использовать целые слова.

На рис. 6 и 7 показаны два слова, записанные от разных дикторов. Слова представлены в виде точек в подпространстве двух ЛСК. Очевидно, что отдельные фонемы достаточно трудно выделить из целого слова. Соединительные линии (траектории точек ЛСК) отображают перестроение голосового тракта человека в процессе произнесения звуков. Для одних и тех же слов траектории визуально схожи. Это свойство позволяет использовать наборы векторов ЛСК, с учетом их временной последовательности, в качестве элементов обучающих словарей.

Оценка меры близости между входным РС и эталоном производится с помощью метода нелинейного временного выравнивания (динамического программирования). Это один из наиболее мощных и широко известных математических методов современной теории управления, был предложен в конце 50-х годов американским математиком Р. Беллманом для решения оптимизационных задач. Метод позволяет сравнивать разные по длительности образцы. Применимо к речевым сигналам это означает, что сравнение с эталонами возможно практически независимо от темпа речи.

Пусть сравнивается два образца сигналов, представленных в виде массива векторов (для РС это наборы ЛСК):

Х = $о,хи...,х1,...,хы\иУ = \у0,у1,...,у1,...,уи\. (3.1)

Различие между векторами двух образов определяется последовательностью состояний Ск и обозначается: ГО ~ .....,

где Сц и Ск — начальное и конечные состояния, /="() функция временного выравнивания, которая проецирует временную область одного образа на временную область другого образа.

Метод ДП заключается в том, что ищется такая функция ГО, при которой путь из состояния С0 в состояние Ск, является оптимальным, т.е. будет получено минимальное накопленное расстояние между двумя образами.

При построении оптимального пути, на каждом шаге алгоритма используется основная формула ДП:

, где i = Q..JfJ = 0..М.

(3.2)

+ г(х,,у1)

В качестве расстояния между векторами используется взвешенная евклидова метрика:

__N 5ИГ-1

1и-л)2> (3-3)

».о

где Ы_8ЕС - размерность векторов признаков.

На выходе процедуры сравнения получается некоторое число (мера близости), представляющее собой величину, обратную степени близости между сигналами.

Простейшая процедура поиска по словарю заключается в последовательном сравнении входного сигнала с каждым из эталонов речевых команд. В табл. 1 показан результат поиска команды «сообщение» в словаре из четырех командных слов. В результате входной сигнал правильно распознан системой. На рис. 8 отображаются траектории кратчайших переходов по кадрам от эталонных сигналов к распознаваемому. Данные по оси ординат нормированы по длительности эталонных сигналов. По оси абсцисс идут номера кадров входного сигнала. Участки с крутыми переходами между точками отображают автоматическое временное масштабирование сигналов. Это происходит, например, если при произнесении диктором растягивается гласный звук.

___ Таблица 1

Эталон командного слова Мера близости

Сообщение 1,85

Журнал 5,13

Диспетчер 6,82

Календарь 4,33

Идеальный случай, когда распознаваемый сигнал совпадает с эталонным, представляет собой диагональную ступенчатую траекторию из левого нижнего угла в верхний правый. На рис. 8 для эталонов «журнал» и «календарь» наблюдается существенное отклонение от диагонали, что может являться дополнительным критерием для принятия решения при распознавании слов.

Рис. 8. Оптимальные траектории при сравнении с эталонами

До того как будет распознано целое командное слово, на базе предложенной модели возможно распознавание более мелких речевых единиц. Это позволит сократить область поиска в словаре и повысить точность алгоритма. На рис. 10 представлен результат распознавания целого слова «режимы» на словаре, состоящем из набора слогов. В качестве одного из элементов словаря используется «эталон тишины» (обозначен как «_»), что позволяет без применения дополнительных алгоритмов выделять паузы в речевых сигналах.

Рис. 10. Результат поиска слогов: «_ререре жижижижи мымыомымы_»

Входной сигнал разбивается на кадры по средней длине эталонов. На графике показаны диаграммы меры близости до каждого из эталонов для всех кадров речевого сигнала. В результате получаем последовательность распознанных слогов. Путем свертки и дальнейшей семантической обработки возможно получение целого слова. Данная методика может использоваться для построения СРР на словарях больших объемов.

Решена задача поиска слов в непрерывном речевом потоке. В качестве элементов словаря используются целые слова. На вход системы подается продолжительный участок речевого сигнала. В данном примере, фраза: «Черная тойота номер три два один в сторону Питера».

Поиск идет без предварительной сегментации фразы на отдельные слова. На рис. 11 и 12 наблюдаются локальные минимумы в области искомых эталонных единиц. На рис.13 ярко выраженного минимума нет, так как искомое слово («зеленая») не было произнесено в предложении. Соотношение значения средней меры близости по всем кадрам РС и значения меры близости на локальном минимуме является простейшим критерием, позволяющим автоматически определять, присутствует ли вообще искомое слово в анализируемой фразе.

Рис. 11. Временная диаграмма целой фразы

Рис. 12. Поиск слова «номер» (соотношение меры близости = 0,5)

Зд 1 а э « • • г в • i9i)'90i4iei>iri»t*30>i ащачмз^агзвзвэоэ! м11)«1*а*этмм«в*1 «a«>«<»*4*<7 4«<«fo»t sa

Рис. 13. Поиск слова «зеленая» (соотношение меры близости = 0,8)

Критерий оценки качества распознавания слов

При распознавании речевых команд на базе словаря из набора целых слов, получается таблица со значениями меры близости до элементов словаря. Эталон с минимальным значением является искомым - распознанным. Даже если на вход системы будет подано слово, не входящее в словарь, в любом случае будет получен результат — один из эталонов. Что приведет к ошибке распознавания.

Решена задача автоматического отсеивания подобных ложных срабатываний системы. Таблица результатов распознавания нормируется (табл. 2). Далее подсчитывается разница в значении меры близости между первым и вторым эталоном. В данном примере это 0,73. Если эта разница не превышает пороговое значение (например, 0,5), то слово будет считаться нераспознанным и системой будет выдан запрос на повторный ввод команды. Предложенный критерий позволяет оценивать качество распознавания текущего слова.

__Таблица 2

Эталон Мера близости После нормировки

Сообщение 1^74 1,00

Память 3,01 1,73

Настройки 3,06 1,75

Часы 3,45 1,98

Офис 3,53 2,03

Режимы 3,68 2,11

Средства 4,06 2,33

Контакты 4,13 2,37

Темы 4,15 2,38

Журнал 4,25 2,44

Связь 4,58 2,63

Календарь 4,70 2,70

Оценка влияния параметров модели ЛП на качество распознавания

В ходе опытов, на словаре из 20 командных слов, варьировался размер кадров РС и степень аппроксимирующего полинома (порядок модели). На плакате приведены графики соответствующих зависимостей. Наилучшее качество распознавания достигается, когда размер окна совпадает с периодами основного тона РС. При изменении порядка модели, максимум достигается на 10 корнях, далее наблюдается пологий график кривой.

Рис. 14. Влияние размера окна на степень распознавания

Рис. 15. Влияние порядка модели на степень распознавания

Результаты исследований согласуются с общеизвестными оценками оптимальных параметров модели ЛП. Что подтверждает адекватность предложенного критерия оценки качества распознавания.

Исследования показали, что наибольшие временные затраты наблюдаются на этапе работы со словарем. За счет использования методики построения иерархических словарей эталонов, возможно существенное увеличение скорости работы процедуры поиска. Для словарей больших объемов использование данного принципа позволяет СРР функционировать в режиме реального времени.

В диссертационной работе предложено использовать иерархическую модель построения словаря эталонов (табл. 3). В качестве первого уровня используется начальная наиболее отчетливо звучащая часть слова. Остальные элементы словаря группируются по классам в зависимости от наличия в них данных речевых единиц. Соответственно, процедура поиска производится в две стадии.

Морфемный анализ словаря из 5 тысяч наиболее употребляемых слов русского языка показал, что при использовании подобной иерархической модели, возможно сокращение времени процедуры поиска в 8 раз.

Первый уровень - часть слова Второй уровень - целое слово

Бан Банкомат, банка

Риб Прибавление, прибой, приближение

Стол Столб, столовая, столешница

Дис Дискаунт, дискретный, дискета

Руч Ручной,ручка

Для увеличения эффективности поиска по разнородным словарям, когда выделение морфем не дает должного сокращения объема обучающей выборки, предлагается применять один из методов иерархической кластеризации. Все множество эталонов разбивается на классы в зависимости от меры близости между ними. Используется рекурсивный алгоритм, выделяются представители классов. Результат работы представляются в виде дендрограммы (рис. 16).

Для представленного словаря (рис.17) сокращение времени процедуры поиска происходит в среднем в 3 раза, при этом процент ошибок увеличивается незначительно.

ФшЗлЗн журнал, настройки, память, чаем.

&-журнал журнал, настройки, память, 1

| р журнал журнал, настройки, |

; "--память память,

^-■часы часы,

ЁЬ сообщение сообщение, календарь, контакты, офис, режимы, связь, средства, темы,

¡—каленаарь календарь,

ЁЬсообщение сообщение, контакты, офис, режимы, связь, средстве, темы,

р связь связь,

■—сообщение сообщение, контакты, офис, режимы, средства, темы.

Рис. 17. Дерево кластеризации словаря эталонов

Оценка качества сформированного словаря эталонов

При использовании системы распознавания речевых команд в условиях повышенной зашумленности или на узкополосных каналах связи, даже на словарях малых объемов (до 50 слов) возможно большое количество ошибок. Для увеличения надежности предложено использовать коррекцию словаря эталонов.

После формирования словаря производится анализ того, насколько элементы отличаются друг от друга (табл. 4). Подсчитывается среднее значение (в данном примере 3,04). Если некоторые элементы словаря слишком похожи друг на друга (мера близости меньше порога, равного 2), то предлагается заменить один из эталонов, например, синонимом. После этого производится повторный анализ словаря.

В данном примере (табл. 4), после замены одного из похожей пары слов «темы» или «режимы», процент правильно распознанных команд увеличился на 9,8%.

Таблица 4

Л а. л Ё Я X ж >х 8. о Л н в 3 Е 3 л п о X X V 3 \о Л о & 3 3

Я ■ с п ■е- 19 Й Й о а г и

Эталоны £ X о С О. и о о £ з-

Журнал 2,64 2,59 3,11 2,45 3,47 2,73 3,34 4,73 2,8 2,39 3,54

Календарь 2,54 3 2,78 2,96 2,4 2,72 4,24 3,15 2,28 3,47

Контакты 2,77 2,87 3,32 3,09 3,17 4,35 3,1 2,52 3,49

Настройки 2,24 2,53 3,15 3,41 3,07 3,46 2,82 3,33

Офис 2,36 2,71 2,59 3,48 3,31 2,46 3,2

Память 3,51 2,66 2,6 4 3,06 3,7

Режимы 2,59 3,44 2,72 1,95 3,23

Связь 4,29 3,01 2,4 2,98

Сообщение 4,16 3,9 3,23

Средства 2,4 3,2

Темы 2,88

Среднее 2,83 3,07 2,99 2,77 3,11 2,87 3,01 3,77 3,21 2,64 3,30

В главе 4 приводится подробное описание разработанного программного комплекса для анализа речевых сигналов. Представлена алгоритмическая модель системы распознавания речевых команд. Приведены результаты тестирования данной системы.

В программном комплексе реализованы основные функции:

• расчет массива линейных спектральных корней с возможностью настройки параметров модели;

• расчет статистических признаков различных порядков;

• сравнение сигналов методом динамического программирования;

• расчет критерия качества распознавания команд по словарю;

• анализ влияния параметров расчета ЛСК на качество распознавания;

• использование произвольных речевых единиц в качестве эталонов;

• кластеризация словарей различными методами;

• хранение словарей эталонов в базе данных;

• графический и табличный вывод полученных результатов.

На базе модулей программного комплекса построена опытная система распознавания речевых команд. Система выполняет все операции, начиная с записи входного сигнала с микрофона и заканчивая выдачей распознанной команды в виде текстового сообщения на экране ПК.

Разработана алгоритмическая модель системы, на основании которой в любой современной среде разработки возможно построение программного комплекса, использующего процедуру распознавания команд. Кроме того, отдельные модули системы готовы к реализации на базе программируемых аппаратных средств (ОБР-процессоры, ПЛИСы и т.д.) с возможностью распараллеливания вычислительных операций.

Выполнено тестирование системы на словаре из 30 команд, сформированным одним диктором, и выборке из 50 слов, произнесенных 5-ю

дикторами-мужчинами. При этом варьировались основные параметры речевых сигналов - частота основного тона (ЧОТ) и темп речи. На рис. 18 и 19 видно, что при существенном изменении данных параметров, падение качества распознавания незначительно.

Влияние ЧОТ на распознавание

0,20----

0.00 -,-,-,-

0% 50% 100% 150% 200%

ЧОТ, %

Рис. 18. Влияние ЧОТ на степень распознавания

Влияние темпа на распознавание

о.э

□ ,3--

0,2---

0,1---

о J--.-,-,-

0% 50% 100% 150% 200%

Темп произношения. %

Рис. 19. Влияние темпа на степень распознавания

Общий процент правильно распознанных слов в дикторозависимом варианте -95%, в дикторонезависимом - 75%. Особенностью тестовых экспериментов является использование выборки малых объемов (обучение системы проводилось только на эталонах от одного диктора), запись эталонов и распознаваемых команд производилась на обычной аппаратуре (встроенная звуковая карта ПК и простой микрофон) без использования каких-либо корректирующих фильтров.

В заключении перечисляются основные результаты диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Произведен анализ современных систем распознавания речи. Выявлены недостатки алгоритмов распознавания речевых команд - недостаточная надежность и большой объем обучающей выборки.

2. Разработана математическая модель системы распознавания командных слов, использующая ЛСК в качестве акустических признаков РС и нелинейное временное выравнивание для поиска по словарям эталонов.

3. Определен критерий для реализации автоматического распознавания речевых команд, позволяющий, кроме того, оценить качество работы системы распознавания.

4. Предложена методика оценки качества сформированного словаря эталонов, позволяющая увеличить надежность процедуры распознавания.

5. Показано решение задачи поиска различных речевых единиц (ключевых слов, слогов или пауз) в непрерывном речевом потоке на базе используемых методов распознавания.

6. Разработан алгоритм поиска по иерархическим словарям эталонов, сформированных в соответствии с лексической структурой русского языка.

7. Разработан программный комплекс, позволяющий анализировать речевые сигналы, работать с базами данных словарей, производить различные математические расчеты и получать табличное и графическое представление результатов исследований.

8. Выполнено тестирование системы распознавания речевых команд. На словаре из 30 команд в дикторонезависимом режиме достигнута надежность распознавания 95%, в дикторонезависимом - 75%.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ

1. Гладышев, К.К. Программный комплекс для исследований в задачах распознавания речи на основе аппарата линейного предсказания / К.К. Гладышев // Научная конференция «Вычислительные и информационные технологии в науке, технике и образовании»: тез. докл. / 111 У. - Павлодар (Казахстан), 2006. - Режим доступа: http://www.nsc.ru/ws/show abstract.dhtml?ru+148+10143

2. Гладышев, К.К. Влияние основных физических параметров речи на качество ее распознавания / К.К. Гладышев. 2007. СПбГУТ. 9 с. Деп. в ВИНИТИ 26.06.07. -№ 676-В2007.

3. Свидетельство об официальной регистрации программы для ЭВМ 2007614250 РФ. Программа распознавания речевых информационных сигналов / К.К. Гладышев и др. // Информационный бюллетень официальной регистрации РосАПО. 2007.

4. Гладышев, К.К. Распознавание русской речи на основе аппарата линейного предсказания / К.К. Гладышев // Научная сессия «IX Невские чтения»: тез. докл. / НИЯК. - СПб, 2007. - С. 230.

5. Гладышев, К.К. Проблема выбора эталонной единицы при распознавании речи / К.К. Гладышев // Журнал научных публикаций аспирантов и докторантов. -2008. - № 9. - С.244-247 (на момент выхода публикации входил в перечень ВАК).

6. Гладышев, К.К. Система поиска ключевых слов в непрерывном речевом потоке / К.К. Гладышев // Естественные и технические науки. - 2009. - № 1. - С. 242-244 (входит в перечень ВАК).

7. Гладышев, К.К. Система автоматического распознавания речевых команд / К.К. Гладышев // Известия высших учебных заведений. Приборостроение. - 2009. -№ 3. - С. 17-21 (входит в перечень ВАК).

Подписано к печати 01.07.2009 Объем 1 печ. л. Тир. 80 экз. Зак. S3

Тип. СПбГУТ. 191186 СПб, наб. р. Мойки, 61

Похожие работы

Информатика, вычислительная техника и управление
05.13.00