Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии

Левин, Кирилл Евгеньевич

автореферат диссертации по радиотехнике и связи, 05.12.13, диссертация на тему:Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии

кандидата технических наук: Левин, Кирилл Евгеньевич
город: Владимир
год: 2006
специальность ВАК РФ: 05.12.13

Диссертация по радиотехнике и связи на тему «Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии»

Автореферат диссертации по теме "Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии"

На правах рукописи

Левин Кирилл Евгеньевич

ИССЛЕДОВАНИЕ АЛГОРИТМОВ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ ПРИ РАСПОЗНАВАНИИ КОМАНД В СИСТЕМАХ КОМПЬЮТЕРНОЙ ТЕЛЕФОНИИ

Специальность 05.12.13 - «Системы, сети и устройства телекоммуникаций»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Владимир 2006

Работа выполнена на кафедре радиотехники и радиосистем Владимирского государственного университета

Научный руководитель:

доктор технических наук, профессор Никитин Олег Рафаилович

Официальные оппоненты: доктор технических наук, профессор

Жигалов Илья Евгеньевич кандидат технических наук, доцент Соболев Владимир Николаевич

Ведущая организация:

ОАО «Владимирское конструкторское бюро радиосвязи»

Защита диссертации состоится 14 декабря 2006 г. в 14— на заседании диссертационного совета Д212.025.04 при Владимирском государственном университете, по адресу: г.Владимир, ул.Горького, 87, корпус 1 ауд.211.

С диссертацией можно ознакомиться в библиотеке Владимирского государственного университета.

Автореферат разослал б ноября 2006 г.

Ученый секретарь диссертационного совета доктор технических наук, профессор

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Растущие возможности вычислительной техники стимулируют развитие систем компьютерной телефонии. Эти системы позволяют значительно расширить ассортимент услуг, которые пользователь может получить по телефону, не прибегая к помощи человека - оператора. Это и заказ авиабилетов, и операции с банковским счетом, и автоматическая переадресация телефонного вызова в учрежденческих автоматических телефонных станциях. Развитие таких услуг требует повышения «интеллекта» подсистем автоматического речевого ответа, входящих в состав систем компьютерной телефонии. Одним из направлений развития систем речевого ответа является использование систем автоматического распознавания речи. Такие системы позволяют перейти к привычному для пользователя голосовому способу общения с автоматом и сократить время обработки телефонных вызовов.

Современная система распознавания речи для компьютерной телефонии - это сложная структура, объединяющая в себе программную и аппаратную составляющие. Алгоритмы, которые сейчас наиболее широко используются при цифровой обработке речевых сигналов, базируются на теории скрытых марковских процессов. Теоретические основы систем цифровой обработки сигналов и распознавания речи были заложены такими зарубежными и отечественными учеными, как Маркел Дж.Д., Оппенгейм A.B., Рабинер J1.P., Стирнз С., Фланаган Дж., Шафер Р.В., , Уидроу Б., Винцюк Т.К., Галунов В.И., Потапова Р.К.

Хотя в последние годы системы автоматического распознавания речи стали интенсивно внедряться в системы компьютерной телефонии, тем не менее следует отметить во многом эмпирический подход, который используется разработчиками при создании систем распознавания. Проблема состоит в том, что до сих пор остается много неясного в механизме восприятия речи человеком (именно на этих механизмах сосредоточено внимание многих исследователей в области автоматического распознавания речи). Поэтому параметры алгоритмов обработки речевых сигналов, которые используются при распознавании речи, часто подбираются экспериментально путем тестирования систем распознавания большими выборками голосовых команд, что требует больших затрат времени.

При разработке системы автоматического распознавания речи решаются две основные задачи:

РОС. НАЦИОНАЛЬНАЯ БИБЛИОТЕКА С-Петербург

ОЭ 200(дакт/0(pi\~

- выбирается совокупность алгоритмов обработки речевых сигналов, порядок их применения, обеспечивающие выполнение требований технического задания;

- для каждого алгоритма определяются значения параметров, при которых алгоритм работает наиболее эффективно.

Для решения этих задач используются специализированные инструментальные средства.

Для исследования и разработки систем распознавания речи во всем мире широко используется система НТК (Hidden Markov Toolkit), разработанная группой ученых кембриджского университета совместно с фирмой Microsoft. Она реализует основные алгоритмы обработки речевых сигналов и обеспечивает создание модели системы распознавания на их основе. Однако средств оптимизации и настройки систем распознавания, реализованных в НТК, недостаточно для проведения полноценных исследований. Кроме того, система НТК предлагает несколько возможных методов параметрического описания речевого сигнала, однако выбор этих параметров целиком возложен на пользователя системы. В НТК отсутствуют некоторые блоки, необходимые для реализации автоматического распознавания речи в системах компьютерной телефонии, например блок подавления помех и блок построения речевого меню. Отсутствуют средства обработки результатов исследования.

Другой программный исследовательский комплекс MATLAB (вместе с пакетом Digital Signal Processing) от компании Mathworks обладает широкими возможностями по исследованию устройств цифровой обработки сигналов. Тем не менее, в нем отсутствуют специализированные средства исследования блоков обработки речевого сигнала, использующихся в распознавании речи.

Исходя из вышеизложенного, актуальной является задача создания инструментальных средств разработки систем автоматического распознавания речи для компьютерной телефонии, позволяющих определить порядок использования алгоритмов обработки речевых сигналов, а также их параметры.

Цель диссертационной работы заключается в исследовании алгоритмов обработки речевого сигнала, применяемых при автоматическом распознавании голосовых команд для систем компьютерной телефонии, и разработке на базе этих исследований специализированных инструментальных средств проектирования систем автоматического распознавания голосовых команд.

Для достижения поставленной цели необходимо решение следующих задач:

1. Анализ факторов, снижающих достоверность распознавания голосовых команд;

2. Разработка методов исследования алгоритмов обработки речевого сигнала в системах распознавания;

3. Разработка структуры комплекса инструментальных средств для проектирования систем распознавания;

4. Реализация комплекса инструментальных средств и его апробация путем проектирования системы автоматического распознавания голосовых команд для практического использования.

Методы исследования. При проведении исследований в диссертационной работе использовались математический аппарат теории случайных процессов, методы математической статистики, теории адаптивной фильтрации, теории цифровой фильтрации. Анализ полученных решений проводился моделированием на ЭВМ.

Научная новизна состоит в следующем:

1. Предложен критерий оценки достоверности распознавания голосовых команд, который позволяет оценить достоверность систем распознавания голосовых команд, имеющих малую среднюю частоту ошибок.

2. Разработан многоэтапный алгоритм определения параметров моделей скрытого марковского процесса с контролем качества создаваемых моделей на каждом этапе.

3.На базе выявленного в работе состава типовых процедур обработки сигналов и данных, применяемых при исследовании систем автоматического распознавания голосовых команд, разработана структура комплекса инструментальных средств для исследования и проектирования таких систем.

Практическая ценность полученных результатов заключается в следующем:

1. Разработан программный комплекс, позволяющий создавать различные инструментальные средства для исследования алгоритмов обработки речевых сигналов из отдельных блоков методом визуального программирования. В состав комплекса входит 56 функциональных блоков.

2. Разработана методика проектирования системы автоматического распознавания голосовых команд, используемых в компьютерной телефонии.

3. Разработана система автоматического распознавания голосовых команд, используемых в компьютерной телефонии. Относительная частота

ошибок распознавания в системе не превышает 3%, что значительно меньше допустимого порога в 5%.

4. Разработана система прямого доступа абонентов городской телефонной автоматической станции к абонентам автоматической телефонной станции учреждения. Особенностью системы является использование автоматического распознавания голосовых команд, что позволяет абонентам ГТС использовать телефонные аппараты, как с импульсным, так и с тональным набором номера. За счет программной реализации большей части служебных функций удалось снизить стоимость аппаратных средств по сравнению с аналогичными решениями в 6 раз.

Внедрение

1. Созданная на основе результатов диссертационной работы система прямого доступа к абонентам учрежденческой АТС с голосовым 1 управлением используется в городском информационно-методическом центре г. Владимира.

2. Результаты научной работы автора использованы в коммерческом < проекте SMARTKOM университета Фридриха-Александра (г.Эрланген, Германия).

3.Созданный программный комплекс для исследования алгоритмов обработки речевых сигналов используется в научно-техническом центре ОАО «Завод Автоприбор». Также этот комплекс внедрен в учебный процесс Владимирского государственного университета на кафедре радиотехники и радиосистем и используется в лабораторном практикуме дисциплины «Моделирование устройств компьютерной телефонии».

На защиту выносятся:

1.Критерий оценки достоверности распознавания,, позволяющий проанализировать влияние различных факторов на функционирование системы автоматического распознавания с малым значением * относительной частоты ошибок распознавания.

2. Многоэтапный алгоритм создания моделей ■ голосовых команд, позволяющий создать инструментальное средство для обучения 5 системы распознавания.

3. Результаты моделирования алгоритмов компенсации помех для систем распознавания голосовых команд, позволившие оценить границы применимости этих алгоритмов.

4. Комплекс программных средств, позволяющий проводить исследования алгоритмов обработки речевых сигналов в системах распознавания речи.

Апробация работы. По материалам диссертации автором сделано 1S докладов, в том числе 14 докладов на международных конференциях. В частности, два доклада сделаны на международных конференциях «SPECOM» (гЛатрас (Греция) - 2005г.; г.Москва - 2003г.).

Работа «Программный комплекс моделирования устройств обработки речевых сигналов» награждена Грамотой Президиума центрального совета РНТО РЭС им. A.C. Попова и журнала «Радиотехника» на Всероссийском конкурсе студенческих работ в 2004г.

Работа «Использование фильтра Винера для обработки речевых сигналов при автоматическом распознавании голосовых команд» отмечена как одна из лучших в конкурсной программе Международной научно-технической школы-конференции «Молодые ученые - 2005».

Публикации. По теме диссертации опубликована 21 работа, в том числе 3 статьи в центральных рецензируемых журналах, 14 статей в трудах международных конференций и симпозиумов.

Структура работы. Диссертация состоит из введения, четырех глав, заключения, приложений, списка литературы, имеющего 91 наименование отечественных и зарубежных источников, в том числе 21 работа автора. Общий объем диссертации 129 страниц, в том числе, 101 страница основного текста, 10 страниц списка литературы, 61 рисунок, 3 таблицы и 19 страниц приложений.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность работы, сформулированы цели и задачи исследований, дана характеристика научной новизны и практической значимости результатов работы, приведены данные о структуре диссертации.

В первой главе представлена схема обработки речевого сигнала при распознавании голосовых команд в системе компьютерной телефонии (рис.1).

Рис. 1. Структура системы распознавания

Основными блоками схемы являются: блок подавления помех, блок определения параметров сигнала, блок сопоставления параметрического представления произнесенной голосовой команды с моделями распознаваемых команд - распознавания команды. На основе анализа литературных данных делается вывод о том, что наиболее эффективными в настоящее время являются алгоритмы распознавания, использующие теорию скрытых марковских процессов.

Анализ литературных данных также показал, что наиболее перспективным является представление произносимых команд как последовательность отдельных звуков. Для каждого звука создается своя модель скрытого марковского процесса, которая используется при распознавании произнесенной команды.

При сопоставлении голосовой команды с моделями скрытых 4

марковских процессов (МСМГ1) - моделями распознаваемых команд используется алгоритм Витерби. Алгоритм определяет вероятность соответствия произнесенной команды и МСМП из набора моделей, *

который соответствует словарю распознаваемых команд.

М1 ! ^ ! 94 ¡ГЦ) 1

( 1 )—гн 2 у~Ы( 3 )—;Ц л 5 )—;

I Последовательность наблюдений О 1

I 0\ СП []\| □ СП □ I

__I _ £Ц____

М2 '^(о,) Ь<*г(о2) Ь<г,э(о3) ¿Л(о4) Ь«\(ов)

"

(¿ЬК

Рис. 2. Сопоставление последовательности векторов наблюдения моделям скры того марковского процесса

За результат распознавания принимается та МСМП, которой соответствует наибольшая вероятность. На рис. 2. показан случай распознавания для словаря, состоящего из двух моделей. На вход системы подается запись голосовой команды, описываемая последовательностью векторов наблюдений 0 = о1,ог,:.,о1- При распознавании находится

вероятность соответствия этой последовательности верной модели М| и ошибочной модели М2. Вероятности соответствия моделям будут равны: Р(01 А/,) = «'Ч^даЧ^^

P(û I м2)='

Здесь atj - вероятность перехода из состояния i в состояние j, br многомерное распределение плотности вероятности параметров г-го состояния. Результат распознавания характеризуется величиной Г12= log(P(0\M,)) - log(P(0\M^) Если ri2>0, то распознавание верное, иначе наблюдается ошибка распознавания. Если величина Г12 меньше нуля, то возникает ошибка распознавания. В случае верного распознавания величина г12 * характеризует достоверность распознавания.

Возможны следующие причины ошибок распознавания. Во-первых, сильная изменчивость произнесения команды, которая обусловлена й естественной изменчивостью произнесения как для одного диктора, так и

при смене диктора, а также вариациями искажений сигнала в телефонном канале и воздействием акустических и электрических помех. Изменчивость произнесения команды приводит к увеличению дисперсии законов распределения плотности вероятности параметров речевого сигнала в каждом состоянии модели. Это и вызывает сближение значений вероятностей соответствия произнесенной команды различным моделям.

Во-вторых, ошибка может быть вызвана неточностью построения модели. Точность построения МСМП, в основном, определяется объемом обучающей выборки, а также полнотой информации о воздействии помех и искажений на сигнал. Кроме того, существующие методы построения МСМП по обучающим-.выборкам допускают множественность вариантов МСМП для конкретной команды или ее части, и не всегда выбранный » вариант оказывается наилучшим. Следует учесть, что создание МСМП

требует больших затрат времени, поэтому часто приходится идти на сознательное огрубление модели из-за ограниченных ресурсов времени, t Из вышеизложенного следует, что снижение относительной частоты

появления ошибок распознавания возможно за счет:

- Снижения уровня помех и искажений, сопровождающих речевой сигнал;

- Выбора системы параметров речевого сигнала, которые мало меняют свои значения при воздействии помех, искажений и естественных для диктора вариаций произнесения команд;

- Разработки алгоритма наиболее точного определения параметров МСМП;

- Сокращения затрат времени на анализ алгоритмов обработки речевых сигналов, который необходим при построении САРР.

Анализ работы алгоритма Витерби, проведенный в главе, показал, что, рассматривая соотношение между вероятностями соответствия произнесенной команды для «правильной» и «неправильной» МСМП, можно сделать вывод о достоверности распознавания. Это же соотношение позволяет судить о степени влияния помех и точности создания модели на достоверность.

В главе приводится анализ помех и искажений, присутствующих в телефонном канале. Показано, что шум с равномерным спектром в полосе частот телефонного канала присутствует в канале любого класса.

На основе анализа вида помех рассматриваемся возможность использования фильтра Винера и адаптивной компенсации помех для подавления помех. Европейским институтом стандартов в области телекоммуникаций разработан алгоритм подавления помех в системах распознавания речи на основе фильтра Винера. Однако на определены границы эффективного применения алгоритма.

Анализ существующих методов параметрического описания сигнала показал, что наиболее перспективными являются РЬР-параметры, которые в наибольшей степени соответствуют процессу восприятия звуков слуховым аппаратом человека. Показана связь РЬР- параметров с другими видами параметров, которые используются при распознавании речи. Наличие этой связи, в частности, позволяет проанализировать восприимчивость РЬР- параметров к воздействию помех на сигнал по результатам анализа их воздействия на коэффициенты частной корреляции. Отмечено, что анализ воздействия помех очень трудоемок, и требуются специальные инструментальные средства для сокращения трудозатрат.

В главе проведен анализ известных методов измерения частоты основного тона речевого сигнала. Данный параметр является вспомогательным при решении задачи распознавания речи, но в ряде случаев проводимая с его помощью классификация звуков на вокализованные и невокализованные позволяет повысить точность распознавания. Показано, что анализ методов определения частоты основного тона требует специальных инструментальных средств.

Во второй главе рассматриваются предложенный критерий оценки достоверности работы САРР и алгоритм обучения системы.

Ранее было показано, что мерой достоверности распознавания может служить соотношение вероятностей соответствия распознаваемой команды «правильной» и «неправильной» моделям. Предложено в

качестве критерия оценки достоверности распознавания использовать распределения значений разности логарифмов вероятностей r,jk> = log(pJk)) ~ log(pu(k>) для «правильной» (рп) и «неправильной» (р,/к)) моделей по результатам испытания системы тестирующей выборкой голосовых команд.

Среднее значение разности Мг и оценка дисперсии D, распределения дают представление о степени различия этих моделей для данной команды. Определив для всех команд средние значения и среднеквадратические отклонения, можно выделить те команды, которые имеют наименьшие средние значения разности и наибольшие значения среднеквадратического отклонения. Именно эти значения и характеризуют достоверность распознавания.

Описанный метод оценки достоверности применяется для созданных моделей голосовых команд. Чтобы получить промежуточную оценку качества создаваемых МСМП на этапе обучения системы автоматического распознавания голосовых команд (САР ГК) можно использовать вспомогательный параметр: значение среднего логарифма вероятности соответствия моделей голосовых команд обучающей выборке.

Приводятся результаты экспериментов, которые показывают, как меняются данные показатели при воздействии на систему различных помех, а также при изменении точности построения моделей команд. На рис. 3 представлен результат анализа достоверности распознавания с помощью построения распределений значений г,¡К

j—♦—mix5_gp —н— mix30_gp —*—mix60_gp —•— mix120_gp !

Рис. 3. Результат распознавания команды "Один" для разного количества

гауссианов

Графики, показанные на рисунке, соответствуют четырем системам автоматического распознавания, параметры распределений плотностей вероятностей которых отличаются числом гауссианов (5, 30, 60 и 120 гауссианов). Здесь даже при отсутствии ошибок распознавания по смещению среднего значения распределения можно сделать вывод о значительном снижении достоверности распознавания для САР ГК с количеством гауссианов, равным 5.

В главе также рассматривается предложенный алгоритм определения параметров МСМП. Алгоритм является многоэтапным. Сначала определяются начальные параметры МСМП, а затем выполняется постепенное усложнение структуры моделей: добавление новых переходов между состояниями, увеличение количества гауссианов, которые формируют закон распределения вероятностей значений параметров для каждого состояния модели. На каждом этапе предлагается контролировать качество создаваемых моделей по критерию средней вероятности соответствия создаваемых моделей обучающей выборке. Данный параметр не требует дополнительных затрат времени на его нахождение (его расчет входит в общую процедуру нахождения параметров моделей).

Предложенный алгоритм применим как для моделей, соответствующих целым голосовым командам (ГК), так и для моделей отдельных звуков: меняется только начальная структура моделей.

Анализ алгоритма подавления помех на основе фильтра Винера, предлагаемого Европейским институтом стандартов в области телекоммуникаций, позволил оценить сверху ограничения по скорости изменения спектра помехи: скорость оценки спектра помехи определяется фильтром нижних частот, определенного в г-области как

1-ог"1

Расчет частоты среза фильтра (при а=0,99 и частоте дискретизации 8 кГц) дает значение 13 Гц. Следовательно, оценка спектра помехи производится достаточно точно лишь для таких спектральных составляющих, скорость изменения которых во времени характеризуется частотами менее 13 Гц.

Проведен также анализ возможностей адаптивной компенсации помех. При применении компенсации в системе распознавания речи оценка помехи берется в паузе речевого сигнала (РС). Выделенная на интервале паузы помеха сдвигается во времени на интервал т. Сдвинутая во времени помеха умножается на множитель и вычитается из суммы сигнала и помехи на интервале действия собственно РС. Если в течение длительности ГК средняя мощность и форма помехи не меняются, то

оптимальное значение множителя, обеспечивающее минимум мощности помехи на выходе компенсатора, определяется выражением

где N(1) - помеха в сигнале, И^-т) - сдвинутая во времени помеха в паузе, рн(т)~ нормированная автокорреляционная функция.

Стоящее в числителе значение автокорреляционной функции помехи можно получить путем временного усреднения на бесконечно большом интервале времени произведения сдвинутой во времени помехи в паузе на сумму помехи и сигнала, который не коррелирован с помехой. Однако в реальности интервал усреднения ограничен, поэтому получаемая оценка оптимального множителя отличается от №ор, на некоторую величину А:

ф Цт + ЩУ(> -- Г)) (N№(1 - г)) , (Ц/)ЛГ(< - г)) ,„

' фйГ-Ц = + = + А-+ л'

где Ао - значение погрешности оптимального множителя, которая появляется за счет ограниченного во времени усреднения, Ау -погрешность нахождения весового коэффициента за счет влияния сигнала на результаты вычислений.

Остаточная после компенсации средняя мощность суммы сигнала и помехи

^ + = Я7 + Ду (1 - р1 (г) + Дг),

гда оы - м2(1-т) = Nг(t), д2 = д2о+д21

Из полученного выражения следует, что степень подавления помехи растет с увеличением коэффициента автокорреляции помехи рм(г) и уменьшением погрешности оценки |Д|. Чем меньше задержка г, тем больше рм(т). Однако, если в помехе присутствует периодическая составляющая, то в корреляционной функции помехи появляется «квазипериодичность», и задержка г подбирается такой, чтобы значение \ри(т)\ было наибольшим. Составляющая погрешности Ах увеличивается с ростом уровня сигнала, поэтому степень компенсации помехи снижается с увеличением отношения сигнал-помеха.

Таким образом, использование данного метода подавления помех целесообразно в случае периодических помех, уровень которых соизмерим с уровнем речевого сигнала.

В третьей главе рассмотрена струкгура и возможности разработанного программного комплекса. Комплекс состоит из ядра, наращиваемой библиотеки специализированных блоков обработки сигнала и данных эксперимента, и справочной системы. Комплекс

обеспечивает создание необходимого инструментального средства, которое требуется для исследования конкретного алгоритма обработки сигнала, путем компоновки его из отдельных функциональных блоков. С помощью комплекса проведены исследования достоверности САРР как совокупности блоков обработки PC, а также были исследованы отдельные блоки САРР: блок оценки огибающей спектра, блок подавления помех. В главе приведены результаты исследований.

Также были исследованы алгоритмы нахождения частоты основного тона (ЧОТ) PC - дополнительного параметра речи. При оценке этого параметра возникает проблема выбора значений параметров алгоритма, обеспечивающих наибольшую точность оценки ЧОТ. Процесс выбора оптимальных значений параметров был реализован в созданном программном комплексе. На рис. 4 приведена схема исследований для алгоритма оценки ЧОТ по критерию максимума выходного сигнала

гребенчатого фильтра.__ _ ^________ _ __

j'Q' Speech Processing. D;V/.\SaveFile5\comb^mn.ssf IrJlPJ®

Файл Редактирование Анализ Просмотр Настройки Помощь

i Имя блока обработки PC

Рис.4. Схема автоматического подбора параметров алгоритма оценки ЧОТ по критерию максимума выходного сигнала гребенчатого фильтра

В блок «Файл 0» загружается тестирующая речевая выборка. Файлы из этой выборки последовательно проходят через блок быстрого преобразования Фурье («БПФ (прореж. по времени)»). Полученный амплитудный спектр поступает на вход базового алгоритма поиска ЧОТ («Поиск ЧОТ (гребенч. фильтр)»). Значения ЧОТ, полученные в базовом алгоритме, затем проходят через процедуру сглаживания, реализованную в блоке «Постобработка ЧОТ». Данные на выходе алгоритма

Ь:Ш!М

БПФ (прореж. по Бремени) 4 Поиск ЧОТ (гребенч. фильтр).(для БПФ П о_стоб£з_б_отм Мр_Т 6 .....

сравниваются в блоке «Сравнение алгоритмов ВОТ» со значениями ЧОТ, полученными в результате ручной сегментации (блок «Файл 1»).

В четвертой главе представлены результаты разработки системы прямого доступа (СПД) абонентов городской автоматической телефонной станции (ГТС) к абонентам автоматической телефонной станции учреждения (УАТС). Функциональная схема СПД приведена на рис. 5. Блок сопряжения с телефонной линией (ТЛ) обеспечивает связь СПД с ТЛ. Речевой сигнал проходит через блок предварительной обработки, в котором находятся его параметры, и затем поступает в систему распознавания речи. Результаты распознавания речи поступают в блок управления диалогом. В зависимости от поданной команды блок управления диалогом отдает команды блоку управления ТЛ, обеспечивающего переадресацгао вызова, освобождение или занятие ТЛ, либо через систему синтеза сообщений блок управления диалогом сообщает пользователю системы какую-либо информацию.

Рис.5. Функциональная схема СПД

Наличие в системе блока автоматического распознавания голосовых команд позволяет абоненту ГТС назвать номер необходимого отдела учреждения и получить необходимое телефонное соединение, не прибегая к услугам секретаря или других работников учреждения. В главе представлены структурная схема аппаратной части СПД, блок-схема алгоритма обработки телефонного вызова, блок-схема алгоритма проектирования блока автоматического распознавания голосовых команд. Приведены также результаты тестирования данного блока, которые показывают, что относительная частота возникновения ошибок распознавания не превышает 3% (порогом применимости систем распознавания голосовых команд считается 5%).

В приложении представлены акты внедрения материалов диссертации. Кроме того, представлены характеристики аппаратной части разработанной системы прямого доступа и описания основных блоков программного комплекса для исследования алгоритмов обработки речи.

ЗАКЛЮЧЕНИЕ

1. На основе анализа факторов, снижающих достоверность распознавания голосовых команд, предложен критерий оценки достоверности систем автоматического распознавания, предназначенный для сравнения систем с малой относительной Частотой ошибок.

2. Предложен поэтапный алгоритм определения параметров МСМП, регламентирующий порядок постепенного повышения точности модели при ее построении. Данный алгоритм позволяет контролировать точность создаваемых моделей на каждом этапе, что дает возможность избежать неверных шагов при выборе параметров моделей.

3. Предложены методы исследования алгоритмов определения параметров речевого сигнала: частоты основного тона, коэффициентов частной корреляции.

4. Разработан программный комплекс, позволяющий создавать различные инструментальные средства для автоматизированного исследования алгоритмов обработки речевых сигналов из отдельных блоков методом визуального программирования.

5. Разработана система прямого доступа абонентов городской телефонной автоматической станции (ГТС) к абонентам автоматической телефонной станции учреждения. Особенностью системы является использование автоматического распознавания голосовых команд, что позволяет абонентам ГТС использовать телефонные аппараты как с импульсным, так и с тональным набором номера.

6. ■ Результаты проделанной работы могут быть использованы при

создании различных информационных систем компьютерной телефонии: систем прямого доступа, справочных служб организаций, систем автоматического предоставления услуг по телефону.

Список публикаций по теме диссертации 1. Ксенофонтов Р.Н. Исследование алгоритмов подавления помех в речевом сигнале при автоматическом распознавании голосовых команд / Р.Н. Ксенофонтов, Е.К. Левин, К.Е. Левин // Перспективные

технологии в среде гвах передачи информации. - Материалы докладов шестой международной научно-технической конференции. -Владимир, 2005. - С. 275 - 276.

Левин Е.К. Использование фильтра Винера для обработки речевых сигналов при автоматическом распознавании голосовых команд / Е.К. Левин, К.Е. Левин // Молодые ученые 2005. - Материалы докладов третьей международной научно-технической школы-конференции. -М., 2005.-С. 51-53.

Левин Е.К. Исследование влияния аддитивного шума на точность определения параметров речевых сигналов при их распознавании / Е.К. Левин, К.Е. Левин // Физика и радиоэлектроника в медицине и экологии - Материалы докладов шестой международной научно-технической конференции. В 2 т. Т. 1. - Владимир, 2004. - С. 148150.

Левин Е.К. Исследование влияния аддитивных помех на точность определения параметров речевых сигналов при их распознавании / Е.К. Левин, К.Е. Левин // Фундаментальные проблемы радиоэлектронного приборостроения (Intermatic-2004). - Материалы докладов третьей международной научно-практической конференции. В 2 т. Т. 2. - М., 2004. - С. 105-108.

Левин Е.К. Влияние помех в телефонном канале связи на точность автоматического распознавания голосовых команд / Е.К. Левин, К.Е. Левин // Обработка сигналов в системах телефонной связи и вещания.

- Материалы тринадцатой межрегиональной конференции. - М., 2004.

- С.90-92.

Левин Е.К. Исследование процесса предварительной обработки речевых сигналов в системах автоматического распознавания голосовых команд / Е.К. Левин, К.Е. Левин // Перспективные технологии в средствах передачи информации. - Материалы докладов четвертой международной научно-технической конференции. -Владимир, 2001. - С. 129-130.

Левин Е.К. Исследование точности спектральной оценки речевого сигнала для автоответчика с голосовым управлением в медицинском учреждении / Е.К. Левин, К.Е. Левин // Физика и радиоэлектроника в медицине и экологии - Материалы докладов пятой международной научно-технической конференции. - Владимир, 2002. - С. 146-147. Левин Е.К. Моделирование системы автоматического распознавания голосовых команд / Е.К. Левин, К.Е. Левин // Обработка сигналов в системах телефонной связи и вещания - Материалы докладов одиннадцатой межрегиональной конференции. - М., 2002. - С.63-65.

9. Левин E.K. Распознавание голосовых команд в телефонной справочной системе для медицинского учреждения / Е.К. Левин, К.Е. Левин // Физика и радиоэлектроника в медицине и экологии -Материалы докладов четвертой международной научно-технической конференции. В 2 т. Т. 2. - Владимир, 2000. - С. 121-122.

10. Левин Е.К. Система для исследования алгоритма распознавания речевых сигналов / Е.К. Левин, К.Е. Левин // Биомедицинские технологии и радиоэлектроника. - 2004. - №3. - C.2S-32.

11. Левин Е.К. Удаление пауз из речевого сигнала / Е.К. Левин, К.Е. Левин // Проектирование и применение радиотехнических устройств. - Тезисы докладов областной научно-технической конференции молодых специалистов и студентов. - Владимир, 2000. - С.З.

12. Левин Е.К. Экспериментальное исследование системы дикторонезависимого распознавания голосовых команд / Е.К. Левин, ICE. Левин // Телекоммуникационные и вычислительные системы -Материалы докладов конференции. - М., 2004. - С. 159-162.

13. Левин Е.К. Адаптивная компенсация помех при автоматическом распознавании голосовых команд / Е.К. Левин, К.Е. Левин, O.P. Никитин // Фундаментальные проблемы радиоэлектронного приборостроения (Intermatic-2005). - Материалы докладов четвертой международной научно-практической конференции. - М., 2005.

14. Левин Е.К. Использование программного моделирующего комплекса для исследования точности оценки огибающей спектра речевого сигнала / Е.К. Левин, К.Е. Левин, O.P. Никитин // Проектирование и технология электронных средств. - 2004. - №1. - С.49-53.

15. Левин Е.К. Экспериментальные исследования системы распознавания голосовых команд / Е.К. Левин, К.Е. Левин, O.P. Никитин // Проектирование и технология электронных средств. - 2005. -№ 3. -С.38-44.

16. Левин К.Е. Устранение шума дыхания из голосовой команды при автоматическом распознавании речи / К.Е. Левин // Микроэлектроника и информатика. - Материалы докладов восьмой всероссийской межвузовской научно-технической конференции студентов и аспирантов. - М., 2001. - С. 170.

17. Левин К.Е. Исследование измерителя основного тона речевого сигнала с помощью моделирующего программного комплекса / К.Е. Левин, O.P. Никитин // Перспективные технологии в средствах передачи информации. - Материалы докладов пятой международной научно-технической конференции. - Владимир, 2003. - С.101-102.

18. Левин К.Е. Моделирование детектора голосовых команд для автоматической справочной службы медицинского учреждения / К.Е. Левин, О.Р. Никитин // Физика и радиоэлектроника в медицине и экологии - Материалы докладов пятой международной научно-технической конференции. - Владимир, 2002. - СД48-149.

19. Левин К.Е. Моделирование устройств обработки речевых сигналов / К.Е. Левин, О.Р. Никитин // Методы и устройства передачи и обработки информации: Межвузовский сборник научных трудов. -Вып.4. - СПб.: Гидрометеоиздат, 2004. - С.216-220.

20. Levin Е. К., Levin К.Е. The Noise Suppression for Automatic Speech Commands Recognition // SPECOM'2005. - University of Patras, Patras, Grcccc, 2005, pp. 507-509

21. Levin E. K., Levin K.E. Using a simulation program complcx for researches of speech recognition devices // SPECOM'2003. - Moscow State Linguistic University, Moscow, Russia, 2003.

Подписано в печать 30.10.06. Формат 60x84/16. Бумага для множит, техники. Гарнитура Тайме. Печать на ризографе. Усл.печ.л. 1,16. Уч.-изд. л. 1,20. Тираж 100 экз.

Заказ

Издательство Владимирского государственного университета 600000, Владимир, ул. Горького, 87.

132 88 8 7 ¿¿66?-

Оглавление автор диссертации — кандидата технических наук Левин, Кирилл Евгеньевич

Введение.

1. Анализ факторов, влияющих на достоверность автоматического распознавания голосовых команд в компьютерной телефонии.

1.1. Факторы, определяющие достоверность распознавания.

1.2. Методы повышения помехоустойчивости системы распознавания голосовых команд.

1.3. Выбор системы параметров речевого сигнала.

Выводы к главе 1.

2. Оценка достоверности распознавания и исследование алгоритмов обработки речевых сигналов.

2.1. Методы оценки достоверности распознавания.

2.1.1. Анализ влияния помех на достоверность распознавания.

2.1.2. Анализ влияния параметров моделей голосовых команд на достоверность распознавания.:.

2.2. Поэтапное построение моделей команд с контролем качества моделей на каждом этапе.

2.3. Исследование алгоритмов подавления помех.

2.3.1. Использование фильтра Винера.

2.3.2. Адаптивная компенсация помех.

Выводы к главе 2.'.

3. Программный комплекс для исследований алгоритмов обработки речевого сигнала.

3.1. Требования, предъявляемые к комплексу.

3.2. Структура комплекса и особенности его реализации.

3.3. Оценка достоверности распознавания и исследование алгоритмов обработки речевых сигналов средствами комплекса.

3.3.1. Оценка достоверности распознавания.

3.3.2. Определение параметров огибающей кратковременного спектра сигнала.

3.3.3. Определение частоты основного тона.

3.3.4. Компенсация помех.v.

Выводы к главе 3.

4. Система прямого доступа к абонентам учрежденческой АТС, управляемая голосовыми командами.

4.1. Общая характеристика системы.

4.2. Особенности аппаратного обеспечения.

4.3. Структура программного обеспечения.

4.4. Алгоритм построения моделей голосовых команд.

Выводы к главе 4.

Введение 2006 год, диссертация по радиотехнике и связи, Левин, Кирилл Евгеньевич

Актуальность темы

Растущие возможности вычислительной техники стимулируют развитие систем компьютерной телефонии. Эти системы позволяют значительно расширить ассортимент услуг, которые пользователь может получить по телефону, не прибегая к помощи человека - оператора. Это и заказ авиабилетов, и операции с банковским счетом, и автоматическая переадресация телефонного вызова в учрежденческих автоматических телефонных станциях. Развитие таких услуг требует повышения «интеллекта» подсистем автоматического речевого ответа, входящих в состав систем компьютерной телефонии. Одним из направлений развития-систем речевого ответа является использование систем автоматического распознавания речи. Такие системы позволяют перейти к привычному для пользователя голосовому способу общения с автоматом и сократить время обработки телефонных вызовов [50].

Современная система распознавания речи для компьютерной телефонии -это сложная структура, объединяющая в себе программную и аппаратную составляющие. Алгоритмы, которые сейчас наиболее широко используются при цифровой обработке речевых сигналов, базируются на теории скрытых марковских процессов. Теоретические основы систем цифровой обработки сигналов и распознавания речи были заложены такими зарубежными и отечественными учеными, как Маркел Дж.Д., Оппенгейм А.В., Рабинер JI.P., Стирнз С., Фланаган Дж., Шафер Р.В.,, Уидроу Б., Винцюк Т.К., Галунов В.И., Потапова Р.К.

Хотя в последние годы системы автоматического распознавания речи стали интенсивно внедряться в системы компьютерной телефонии, тем не менее следует отметить во многом эмпирический подход, который используется разработчиками при создании систем распознавания. Проблема состоит в том, что до сих пор остается много неясного в механизме восприятия речи человеком (именно на этих механизмах сосредоточено внимание многих исследователей в области автоматического распознавания речи). Поэтому параметры алгоритмов обработки речевых сигналов, которые используются при распознавании речи, часто подбираются экспериментально путем тестирования систем распознавания большими выборками голосовых команд, что требует больших затрат времени.

При разработке системы автоматического распознавания речи решаются две основные задачи:

- выбирается совокупность алгоритмов обработки речевых сигналов, порядок их применения, обеспечивающие выполнение требований технического задания;

- для каждого алгоритма определяются значения параметров, при которых алгоритм работает наиболее эффективно.

Для решения этих задач используются специализированные инструментальные средства.

Для исследования и разработки систем распознавания речи во всем мире широко используется система НТК (Hidden Markov Toolkit), разработанная группой ученых кембриджского университета совместно с фирмой Microsoft [89]. Она реализует основные алгоритмы обработки речевых сигналов и обеспечивает создание модели системы распознавания на их основе. Однако средств оптимизации и настройки систем распознавания, реализованных в НТК, недостаточно для проведения полноценных исследований. Кроме того, система НТК предлагает несколько возможных методов параметрического описания речевого сигнала, однако выбор этих параметров целиком возложен на пользователя системы. В НТК отсутствуют некоторые блоки, необходимые для реализации автоматического распознавания речи в системах компьютерной телефонии, например блок подавления помех и блок построения речевого меню. Отсутствуют средства обработки результатов исследования.

Другой программный исследовательский комплекс MATLAB (вместе с пакетом Digital Signal Processing) от компании Mathworks [44] обладает широкими возможностями по исследованию устройств цифровой обработки сигналов. Тем не менее, в нем отсутствуют специализированные средства исследования блоков обработки речевого сигнала, использующихся в распознавании речи.

Исходя из вышеизложенного, актуальной является задача создания инструментальных средств разработки систем автоматического распознавания речи для компьютерной телефонии, позволяющих определить порядок использования алгоритмов обработки речевых сигналов, а также их параметры.

Цель диссертационной работы заключается в исследовании алгоритмов обработки речевого сигнала, применяемых при автоматическом распознавании голосовых команд для систем компьютерной телефонии, и разработке на базе этих исследований специализированных инструментальных средств проектирования систем автоматического распознавания голосовых команд.

Для достижения поставленной цели необходимо решение следующих задач:

1. Анализ факторов, снижающих достоверность распознавания голосовых команд;

2. Разработка методов исследования алгоритмов обработки речевого сигнала в системах распознавания;

3. Разработка структуры комплекса инструментальных средств для проектирования систем распознавания;

4. Реализация комплекса инструментальных средств и его апробация путем проектирования системы автоматического распознавания голосовых команд для практического использования.

Методы исследования. При проведении исследований в диссертационной работе использовались математический аппарат теории случайных процессов, методы математической статистики, теории-адаптивной фильтрации, теории цифровой фильтрации. Анализ полученных решений проводился моделированием на ЭВМ.

Научная новизна состоит в следующем:'

1. Предложен критерий оценки достоверности распознавания голосовых команд, который позволяет оценить достоверность систем распознавания голосовых команд, имеющих малую относительную частоту ошибок.

2. Разработан многоэтапный алгоритм определения параметров моделей скрытого марковского процесса с контролем качества создаваемых моделей на каждом этапе.

3. На базе выявленного в работе состава типовых процедур обработки сигналов и данных, применяемых при исследовании систем автоматического распознавания голосовых команд, разработана структура комплекса инструментальных средств для исследования и проектирования таких систем.

Практическая ценность полученных результатов заключается в следующем:

1. Разработан программный комплекс, позволяющий создавать различные инструментальные средства для исследования алгоритмов обработки речевых сигналов из отдельных блоков методом визуального программирования. В состав комплекса входит 56 функциональных блоков.

2. Разработана методика проектирования системы автоматического распознавания голосовых команд, используемых в компьютерной телефонии.

3. Разработана система автоматического распознавания голосовых команд, используемых в компьютерной телефонии. Относительная частота ошибок распознавания в системе не превышает 3%, что значительно меньше допустимого порога в 5%.

4. Разработана система прямого доступа абонентов городской телефонной автоматической станции к абонентам автоматической телефонной станции учреждения. Особенностью системы является использование автоматического распознавания голосовых команд, что позволяет абонентам ГТС использовать телефонные аппараты, как с импульсным, так и с тональным набором номера. За счет программной реализации большей части служебных функций удалось снизить стоимость аппаратных средств по сравнению с аналогичными решениями в 6 раз.

Внедрение

1. Созданная на основе результатов диссертационной работы система прямого доступа к абонентам учрежденческой АТС с голосовым управлением используется в городском информационно-методическом центре г. Владимира.

2. Результаты научной работы автора использованы в коммерческом проекте SMARTKOM университета Фридриха-Александра (г.Эрланген, Германия).

3. Созданный программный комплекс для исследования алгоритмов обработки речевых сигналов используется в научно-техническом центре ОАО «Завод Автоприбор». Также этот комплекс внедрен в учебный процесс Владимирского государственного университета на кафедре радиотехники и радиосистем и используется в лабораторном практикуме дисциплины «Моделирование устройств компьютерной телефонии».

На защиту выносятся:

1. Критерий оценки достоверности распознавания, позволяющий проанализировать влияние различных факторов на функционирование системы автоматического распознавания с малым значением относительной частоты ошибок распознавания.

2. Многоэтапный алгоритм создания моделей голосовых команд, позволяющий создать инструментальное средство для обучения системы распознавания.

3. Результаты моделирования алгоритмов компенсации помех для систем распознавания голосовых команд, позволившие оценить границы применимости этих алгоритмов.

4. Комплекс программных средств, позволяющий проводить исследования алгоритмов обработки речевых сигналов в системах распознавания речи.

Апробация работы. По материалам диссертации автором сделано 18 докладов, в том числе 14 докладов на международных конференциях. В частности, два доклада сделаны на международных конференциях «SPECOM» (г.Патрас (Греция) - 2005г.; г.Москва - 2003г.).

Работа «Программный комплекс моделирования устройств обработки речевых сигналов» награждена Грамотой Президиума центрального совета

РНТО РЭС им. А.С. Попова и журнала «Радиотехника» на Всероссийском конкурсе студенческих работ в 2004г.

Работа «Использование фильтра Винера для обработки речевых сигналов при автоматическом распознавании голосовых команд» отмечена как одна из лучших в конкурсной программе Международной научно-технической школы-конференции «Молодые ученые - 2005».

Публикации. По теме диссертации опубликована 21 работа, в том числе 3 статьи в центральных рецензируемых журналах, 14 статей в трудах международных конференций и симпозиумов.

Структура работы. Диссертация состоит из введения, четырех глав, заключения, приложений, списка литературы, имеющего 91 наименование отечественных и зарубежных источников, в том числе 21 работа автора. Общий объем диссертации 129 страниц, в том числе, 101 страница основного текста, 10 страниц списка литературы, 61 рисунок, 3 таблицы и 19 страниц приложений.

Заключение диссертация на тему "Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии"

Выводы к главе 4

1. Разработанная система прямого доступа абонента городской телефонной сети к абонентам учрежденческой АТС обеспечивает удобный для пользователя голосовой интерфейс с автоматом. Возможно использование телефонных аппаратов, как с импульсным, так и тональным набором номера

2. Разработан алгоритм построения моделей ГК, обеспечивающий высокую достоверность распознавания ГК.

3. Разработанное аппаратное обеспечение позволяет подключить СПД к УАТС без уменьшения числа телефонных линий УАТС, используемых работниками учреждения.

4. Испытания СПД показали, что относительная частота ошибок распознавания ГК не превышает 3%, что обеспечивает ее удобную для пользователя эксплуатацию.

5. Система может быть расширена для крупных учреждений с несколькими внешними телефонными линиями за счет использования более сложного аппаратного обеспечения - голосовых плат. При этом наиболее сложная часть программного обеспечения - система распознавания голосовых команд - останется неизменной.

Заключение

1. На основе анализа факторов, снижающих достоверность распознавания голосовых команд, предложен критерий оценки достоверности систем автоматического распознавания, предназначенный для сравнения систем с малой относительной частотой ошибок.

2. Предложен поэтапный алгоритм определения параметров МСМП, регламентирующий порядок постепенного повышения точности модели при ее построении. Данный алгоритм позволяет контролировать точность создаваемых моделей на каждом этапе, что дает возможность избежать неверных шагов при выборе параметров моделей.

3. Предложены методы исследования алгоритмов определения параметров речевого сигнала: частоты основного тона, коэффициентов частной корреляции.

4. Разработан программный комплекс, позволяющий создавать различные инструментальные средства для автоматизированного исследования алгоритмов обработки речевых сигналов из отдельных блоков методом визуального программирования.

5. Разработана система прямого доступа абонентов городской телефонной автоматической станции (ГТС) к абонентам автоматической телефонной станции учреждения. Особенностью системы является использование автоматического распознавания голосовых команд, что позволяет абонентам ГТС использовать телефонные аппараты как с импульсным, так и с тональным набором номера.

6. Результаты проделанной работы могут быть использованы при создании различных информационных систем компьютерной телефонии: систем прямого доступа, справочных служб организаций, систем автоматического предоставления услуг по телефону.

Библиография Левин, Кирилл Евгеньевич, диссертация по теме Системы, сети и устройства телекоммуникаций

1. Аппараты телефонные общего применения. Общие технические условия: ГОСТ 7153-85. Введ. 01.01.87. - М., 1986.

2. Скляр Б. Цифровая связь. Теоретические основы и практическое применение / Бернард Скляр. Пер. с англ. - 2-е изд., испр. - М.: Вильяме, 2003. - 1104 с.

3. Баден П. Алгоритм вычисления площадей поперечных сечений речевого тракта / П. Баден, И.С. Макаров, В.Н. Сорокин // Акустический журнал, 2004. т. 50, № 6, С. 739-745.

4. База речевых фрагментов русского языка «ISABASE» / Д.С. Богданов, О.Ф. Кривнова, А.Я. Подрабинович, В.В. Фарсобина. // Интеллектуальные технологии ввода и обработки информации. М., 1998.

5. Бондарко JI.B. Звуковой строй современного русского языка: Учебное пособие для вузов / JI.B. Бондарко. М.: Просвящение, 1977. - 175 с.

6. Галунов В. И. Бионическая модель системы распознавания речи / В. И. Галунов // Исследование моделей речеобразования и речевосприятия. JL: Наука, 1981.-С. 36—51.

7. Галунов В.И. Речь как система / В. И. Галунов // Сборник трудов XIII сессии Российского акустического общества. -М., 2003. -т.З, С.19-21.

8. Галунов В.И. Помехоустойчивость как системообразующий фактор речи / В. И. Галунов // Проблемы и методы экспериментально-фонетических исследований. Материалы докладов международной научно-технической конференции. - М., 2002. - С.205-300. '

9. Галунов В.И Обеспечение помехоустойчивости при обработке информации в слуховой системе / В.И. Галунов, И. В. Королева // Сенсорные системы, т.2,№2. -М., 1988.

10. Гуров С.И. Оценка надежности классифицирующих. алгоритмов / С.И. Гуров. М.: Издательский отдел ф-та ВМиК МГУ, 2002. - 45 с.

11. Каналы и тракты магистральной первичной сети единой автоматизированной системы связи. Электрические параметры и методы измерений: ГОСТ 21655-87.-Введ. 29.09:87-М., 1987.

12. Колтун В. USD как альтернатива ISA интерфейсу в устройствах ввода-вывода / Шевердин А. // Компоненты и технологии, 19.10.2000,- online версия <http://www.cornpitech.ru>

13. Левин Е.К. Моделирование системы автоматического распознавания голосовых команд / Е.К. Левин, К.Е. Левин // Обработка сигналов в системах телефонной связи и вещания Материалы докладов одиннадцатой межрегиональной конференции. - М., 2002. - С.63-65.

14. Левин Е.К. Система для исследования алгоритма распознавания речевых сигналов / Е.К. Левин, К.Е. Левин // Биомедицинские технологии и радиоэлектроника. 2004. - №3. - С.28-32.

15. Левин Е.К. Удаление пауз из речевого сигнала / Е.К. Левин, К.Е. Левин // Проектирование и применение радиотехнических устройств. Тезисы124 "докладов областной научно-технической . конференции молодых специалистов и студентов. Владимир, 2000. - С.З.

16. Левин Е.К. Экспериментальное исследование системы дикторонезависимого распознавания голосовых команд / Е.К. Левин, К.Е. Левин // Телекоммуникационные и вычислительные системы Материалы докладов конференции. - М., 2004. - С.159-162.

17. Левин Е.К. Использование программного моделирующего комплекса для исследования точности оценки огибающей спектра речевого сигнала / Е.К. Левин, К.Е. Левин, О.Р. Никитин // Проектирование и технология электронных средств. 2004. - № 1. - С.49-53.

18. Левин Е.К. Экспериментальные исследования системы распознавания голосовых команд / Е.К. Левин, К.Е. Левин, О.Р. Никитин // Проектирование и технология электронных средств. 2005;•-№ 3. - С.З 8-44.

19. Левин К.Е. Моделирование детектора голосовых команд для автоматической справочной службы медицинского учреждения / К.Е. Левин, О.Р. Никитин //

20. Физика и радиоэлектроника в медицине и экологии Материалы докладов пятой международной научно-технической конференции. - Владимир, 2002. -С.148-149.

21. Левин К.Е. Моделирование устройств обработки речевых сигналов / К.Е. Левин, О.Р. Никитин // Методы и устройства передачи и обработки информации: Межвузовский сборник научных трудов. Вып.4. - СПб.: Гидрометеоиздат, 2004. - С.216-220.

22. Назаров М.В. Методы цифровой обработки и передачи речевых сигналов / М.В. Назаров, Ю.Н. Прохоров М.: Радио и связь, 1985. - 176 с.

23. Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений: ГОСТ 16600-72. -Введ. 27.09.72-М., 1973.

24. Потапова Р.К. Новые информационные технологии и лингвистика / Р.К. Потапова. М.: Библиотека лингвиста, 2002. - 575 с.

25. Потапова Р.К. Речь: Коммуникация, Информатика, Кибернетика / Р.К. Потапова.-М.:УРСС, 2001.- 562 с.

26. Рабинер Л. Р. Цифровая обработка речевых сигналов / Л. Р. Рабинер, Р.В. Шафер. -М.: Радио и связь, 1981.-496 с.

27. Разумихин Д. Системы автоматического распознавания речи с различными моделями организации диалога / Д. Разумихин, А. Соловьев // Сборник трудов XIII сессии Российского акустического общества. М., 2003. - т.З, С.141-144.

28. Репина О.И. Искажения в телефонном тракте / О.И. Репина. М.: Связь, 1978.- 176 с.

29. Решение Государственной комиссии по радиочастотам при Министерстве связи Российской Федерации №23/2 от 29.08.94.

30. Рылов А.С. Анализ речи в распознающих системах / А.С. Рылов. Минск: Бестпринт, 2003. - 264 с.

31. Соболев В.Н. Структурные преобразования речевого сигнала: Учебное пособие / В.Н.Соболев. -М.: МТУ СИ, 2005. 188 с.

32. Сообщество пользователей Matlab и Simulink <http://matlab.exponenta.ru>

33. Сорокин В.Н. Структура проблемы автоматического распознавания речи / В.Н. Сорокин // Информационные технологии и вычислительные системы, № 2.,-М., 2004.-С. 25-40.

34. Уидроу Б. Адаптивная обработка сигналов / Б. Уидроу, С. Стирнз. Пер. с англ. - М.: Радио и связь, 1989. - 440 с.

35. Фланаган Д.Ж. Анализ, синтез и восприятие речи. Пер. с англ. Под редакцией А.А. Пирогова. М.: Связь, 1968. - 396 с.

36. Фонетика современного русского литературного языка. Под редакцией Панова М.В. М., «Наука», 1968.

37. Фонетический разбор: Правильное произношение / Сост. С.М. Снарская. -СПб.: «Норинт», 2005. 288 с.

38. Хижинский Д. Системы IVR: проблемы и пути их решения / Д. Хижинский // Мобильные системы. 10 ноября 2004 г. <http://ct.forte-it.ru/info/press/79>

39. Эксплуатационные нормы на электрические параметры коммутируемых каналов сети ТфОП. Утверждено приказом Госкомсвязи России от 05.04.99 №54.

40. Эффективное кодирование и распознавание речевых сигналов: Метод, указания к лабораторным работам / Владим. гос. ун-т; Сост. Е.К. Левин. Владимир, 2002. 52 с.

41. Alexander Fisher and Volker Stahl Database and Online Adaptation for Improved Speech Recognition in Car Environments // ICASSP 1999, vol.1, pp. 445-448.

42. Analytic.ru | Продукция <http://www.ancom.ru/production.html>

43. Andre Adami, Lukas Burget, Stephane Dupont, Hari Garuadadri, Frantisek Grezl, Hynek Hermansky, Pratibha Jain, Sachin Kajarekar, Nelson Morgan, Sunil Sivadas Qualcomm -ICSI OGI Features for ASR // ICSLP 2002, pp. 4-7.

44. Ben Milner A comparison of Front-end Configurations for Robust Speech Recognition // ICASSP 2002, pp. 797-800

45. DongSuk Yuk and James Flanagan Telephone Speech Recognition using Neural Networks and Hidden Markov Models // ICASSP 1999, vol.1, pp. 157-160

46. Douglas Ealey, Holly Kelleher and David Pearce Harmonic tunneling: tracking non-stationary noises during speech // Eurospeech 2001. CiteSeer.IST Scientific Literature Digital Library <http://citeseer.ist.psu.edu>

47. Douglas O'Shaughnessy Hesham Tolba Towards a Robust/Fast Continuous Speech Recognition System Using a Voiced-Unvoiced Decision // ICASSP 1999, vol.1, pp. 413-416

48. ETSI ES 202 050 VI. 1.1 "Speech processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms." November 2002 <www.etsi.org/aurora>

49. Euisun Choi, Donghoon Hyun and Chulhee Lee Optimizing Feature Extraction for English Word Recognition // ICASSP 2002, pp. 813-816

50. Firas Jabloun, A. Enis Cetin The Teager Energy Based Future Parameters for Robust Speech Recognition in Car Noise // ICASSP 1999, vol.1, pp. 273-276

51. H. Hermansky Perceptual Linear Predictive (PLP) Analysis of Speech //Journal of Acoust. Soc. Am., pp. 1738-1752, April 1990.

52. Intel® Telecom and Compute Products <http://www.intel.com/design/network/products/telecom/>

53. Jian Wu, Jasha Droppo, Li Deng, Alex Acero A Noise-Robust ASR Front-End using Wiener Filter Constructed from MMSE Estimation of Clean Speech and Noise // ICASSP 2003, pp. 321-326

54. Kaisheng Yao , Kuldip K. Paliwal and Satoshi Nakamura Noise Adaptive Speech Recognition In Time-Varying Noise Based On Sequential Kullback Proximal Algorithm // ICASSP 2002, pp. 189-192

55. Lawrence Rabiner, Biing-Hwang Juang Fundamentals of speech recognition Prentice Hall PTR, Englewood Cliffs, NJ 07632, 1993.—507p.

56. Levin E. К., Levin K.E. The Noise Suppression for Automatic Speech Commands Recognition // SPECOM'2005. University of Patras, Patras, Greece, 2005, pp. 507-509

57. Levin E. K., Levin K.E. Using a simulation program complex for researches of speech recognition devices // SPECOM'2003. Moscow State Linguistic University, Moscow, Russia, 2003.

58. Lukas Burget, Petr Motlicek, Frantisek Grezl, Pratibha Jain Distibuted Speech Recognition, Radioengeneering, vol. 11, No. 4, December 2002.

59. Magnus Andersson An Evaluation of Noise Robustness of Commercial Speech Recognition Systems // Master Thesis.- Stockholm, 2003.

60. Mark D. Skowronski and John G. Harris Increased MFCC Filter Bandwidth for Noise-Robust Phoneme Recognition//ICASSP 2002, pp. 801-804.

61. Mokbel C., Collin O. Incremental Enrollment of Speech Recognizers // ICASSP 1999, vol.1, pp. 453-456.

62. Montri Karnjanadecha and Stephen A. Zadorian Signal Modeling for Isolated Word Recognition // ICASSP 1999, vol.1, pp. 293-296.

63. Nam Soo Kim Time-Varying Noise Compensation using Multiple Kalman Filters // ICASSP 1999, vol.1, pp. 429-432.

64. Nicholas W.D. Evans and John S. Mason LPC-Based, Temporal-Lateral Noise Estimation Evaluated on the AURORA Corpus // SPPRA 2002. CiteSeer.IST Scientific Literature Digital Library <http://citeseer.ist.psu.edu>

65. Nicholas W.D. Evans, John S. Mason and Matt J. Roach Noise Compensation using Spectrogram Morphological Filtering // ICSLP2002. CiteSeer.IST Scientific Literature Digital Library <http://citeseer.ist.psu.edu>

66. Peter Veprek, Michael S. Scordilis Analysis, enchancement and evaluation of five pitch determination techniques / Speech Communication 37(2002) pp.249-270.

67. Philip Lockwood, PatriceAlexandre Root Adaptive Homomorphic Deconvolution Schemes for Speech Recognition in Noise // ICASSP 1994, vol.1, pp. 441-444

68. Ruhi Sarikaya and John H.L. Hansen Analysis of the Root-Cepstrum for Acoustic Modeling and Fast Decoding in the Speech Recognition. // Eurospeech 2001. -CiteSeer.IST Scientific Literature Digital Library <http://citeseer.ist.psu.edu>

69. Leonard R. G. A Database for Speaker-Independent Digit Recognition // ICASSP, San Diego, California, 1984, vol. 3, pp. 42-53.

70. Satoru Tsuge, Toshiaki Fukada, Harald Singer Speaker Normalized Spectral Subband Parameters for Noise Robust Speech Recognition // ICASSP 1999, vol.1, pp. 285-288

71. Shuen Kong Wong and Bertram Shi Channel and Noise Adaptation via HMM Mixture Mean Transform and Stochastic Matching // ICASSP 1999, vol.1, pp. 301-304

72. SoftLine поставщик программного обеспечения <http://www.softline.ru/>

73. Stephane Dupont, Christophe Ris Robust feature extraction and acoustic modeling at Multitel: experiments on the Aurora databases // Eurospeech 2003. -CiteSeer.IST Scientific Literature Digital Library <http://citeseer.ist.psu.edu>

74. Steve Young, Gunnar Evermann, Dan Kershaw, Gareth Moore, Julian Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland The НТК book (for НТК Version 3.1). Speech group, Cambridge University Engineering Department, December, 2001

75. Xuedong Huang, Alex Acero, Hsiao-Wuen Hon Spoken language Processing: A guide to theory, algorithm and system development. Prentice Hall PTR, Englewood Cliffs, NJ 07632,2002.—960pp.

76. Администрация г. Владимира Управление образования1. УТВЕРЖДАЮ» Директор

77. Владимирского городского информадиднно-методического1. I г- Ч. * Y1. Й от -И, /О. 2006г.\ т.н. Сергеева '1с- 20Об г.1. АКТ ВНЕДРЕНИЯрезультатов диссертационной работы Левина К.Е. «Исследование алгоритмов обработки речевых сигналов при

78. Методист c^Kf^'^ Юдеева Л. И.распознавании команд в системах компьютерной телефонии»1. П.1

79. Заведующий кафедрой радиотехники и радиосистем д.т.н., профессор д.т.н., профессор Заведующая лабораториями1. П.1 УТВЕРЖДАЮ

80. Директор научно-технического центра ОАО

81. АКТ ВНЕДРЕНИЯ результатов диссертационной работы Левина К.Е. «Исследование алгоритмов обработки речевых сигналов при распознавании команд в системах компьютерной телефонии»

82. Данный программный комплекс предоставляет пользователю удобный интерфейс, а использование динамических библиотек для создания функциональных блоков обработки позволяет легко расширять набор исследуемых алгоритмов.

83. Заместитель директора НТЦ, к.т.н.1. Реутов Д.В.

84. Universitat Erlangen-Nurnberg Institut fur Informatik Lehrstuhl fur.Mustererkennung1.hrstuhl fllr Mustererkcnnung (Institut far Informatik) Universitat Erlangen-Ndrnberg, Martensslr. 3, D-91058 Erlapgen1. E. JMoth

85. Tel.: 09131/85-27775 (Sekretariat) Telefax: 09131/303811 noeth@informatik.uni-erlangen.de URL: http://www5.informatik.uni-erlangen.de1.re Zeichen Unser Zeichen, Unsere Nachricht vom Telefon 09131 Erlangen

86. No/22/03/yat01 85-27888 30. April 20031. Confirmation

87. Research supervisor Dr.-Ing. Elmar Noth

88. Head of the speech group universitat erlangen nOrnberg

89. LEHRSTUHL FOR MUSTERERKENNUNUG INSTITUT FOR fWFtf&MATIK F*ROF. DR.-ING. H. WEMA'NN foAFTTENSSTR.3, 0-9f658'EЙШЙМ

90. Friedrich-Alexander-Universitat Erlangen-Nurnberg1. ТУ1. TECHNISCHE FAKULTAT

91. ПЛ. Перевод акта об использовании

92. Университет Эрланген-Нюрнберг Институт информатики Кафедра распознавания образов1. Э. Нет

93. Тел.: 09131/85-27775 (секретариат) Телефакс: 09131/303811 noeth@informatik.uni-erlangen.de URJL: http://www5.informatik.uni-erlangen.de1. Подтверждение

94. Научный руководитель д.т.н. Эльмар Нет,руководитель группыпо исследованию речи

95. Президент Российского НТОРЭС им. А С. Попова Главный редактор журнала «Радиотехника», академик РАНю.в.гуляевmm1. ЩщР1. ГРАМОТА

96. ПРЕЗИДИУМ ЦЕНТРАЛЬНОГО СОВЕТА РОССИЙСКОГО НАУЧНО-ТЕХНИЧЕСКОГО ОБЩЕСТВА РАДИОТЕХНИКИ, ЭЛЕКТРОНИКИ И СВЯЗИ имени А.С.ПОПОВА и ЖУРНАЛ «РАДИОТЕХНИК/!,»1. НАГРАЖДАЮТлевина к.е.

97. Студента Владимирского государственного универсипета за участие во Всероссийском конкурсе научных работ студентов по радиоэлектронике и связи за 2004 годш