автореферат диссертации по приборостроению, метрологии и информационно-измерительным приборам и системам, 05.11.16, диссертация на тему:Алгоритмы распознавания речевых команд в управляющих системах

кандидата технических наук
Литвиненко, Сергей Леонидович
город
Волгоград
год
2006
специальность ВАК РФ
05.11.16
Диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам на тему «Алгоритмы распознавания речевых команд в управляющих системах»

Автореферат диссертации по теме "Алгоритмы распознавания речевых команд в управляющих системах"

На правах рукописи

Лигвиненко Сергей Леонидович

АЛГОРИТМЫ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД В УПРАВЛЯЮЩИХ СИСТЕМАХ

Специальность: 05.11.16 - Информационно-измерительные и управляющие системы (в машиностроении)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Волгоград - 2006

Работа выполнена на кафедре «Автоматики, электроники и вычислительной техники» Волжского полшехнического института (филиала) Волгоградского государственно! о технического университета

Научный руководитель

доктор технических наук, профессор

Шевчук Валерий Петрович.

Официальные оппоненты:

док юр технических наук, профессор

Лукьянов Виктор Сергеевич.

доктор технических наук, профессор

Нестеров Владимир Николаевич.

Ведущая организация ОАО «Электронно-вычислительная техника».

Защита диссертации состоится 4 июля 2006 г. в 10 часов на заседании диссертационного совета К212.028.01 при Волгоградском государственном техническом университете по адресу: 400131, г. Волгофад, пр. Ленина, д. 28, ауд. 300.

С диссертацией можно ознакомиться в библиотеке Волгоградского »

государственного технического университета.

Автореферат разослан 2006 г.

Ученый секретарь диссертационного совета

Авдеюк О А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Системы распознавания речи получают, в настоящее время, все более широкое распространение в тех приложениях, где естественный речевой диалог позволяет повысить удобство управления и обмена информацией с различными информационными системами. Повышение качества распознавания ведет, как правило, к усложнению систем распознавания и стоимости их изготовления. Вместе с тем в некоторых приложениях требуется реализовать компактную и простую систему распознавания речевых команд с небольшим словарем, которую достаточно просто реализовать аппаратно и встроить в уже имеющуюся или разрабатываемую систему. Такие системы распознавания могут потребоваться, например, для речевого запроса информации в какой-либо информационной системе, или запроса оперативной информации о состоянии объекта управления или для подачи речевых команд системе управления, в тех случаях, когда руки оператора заняты контролем других функций управляемого процесса; или в случае, когда оператор находится в скафандре и ему неудобно руками воздействовать на органы управления. Для таких систем требуется узко специализированный словарь командного языка и контекстно-зависимая грамматика, а от блока распознавания требуется высокая достоверность идентификации команды.

В связи с этим представляется актуальной задача разработки алгоритмов распознавания речевого сигнала просто реализуемых аппаратно и позволяющих достигнуть высокого качества распознавания.

Цель и задачи исследования. Целью настоящей работы является повышение качества распознавания речевых команд системами распознавания речи.

В соответствии с указанной целью работы, были поставлены следующие задачи диссертационного исследования:

Разработка математической модели спектрального представления речевого сигнала и модели детектирования переходов между звуками речи;

Разработка алгоритмов спектрального представления, детектирования переходов между звуками речи и распознавания речевых команд;

Разработка программного комплекса для голосового управления конечным автомагом.

Методы исследования. Для решения поставленных задач и достижения намеченной цели использовались методы математического моделирования, теории вероятностей, теории случайных процессов, математической статистики, спектрального и вейвлет анализа, теории цифровой обработки сигналов, а также методы теории распознавания образов. При. проведении экспериментов для организации экспериментов, статистических расчетов, отображения результатов и формирования зависимостей была использована система MATLAB, а процедуры, реализующие разработанные автором алгоритмы были реализованы на языке С++ с использованием интегрированной среды разработки Borland С++ Builder.

Научная новизна. Основные результаты диссертационного исследования, имеющие научную новизну, заключаются в следующем:

РОС. НАЦИОНАЛЬНАЯ БИБЛИОТЕКА С.-Петербург ОЭ 200 ¿ктЗтИ

- Предложен метод анализа свойств речевого сигнала одновременно на различных частотно-временных масштабах с использованием пакетного вейвлет-преобразования;

- Предложен метод сегментации речевого сигнала на основе вычисления функции ошибки моделирования спектрограммы сигнала нейросетевой моделью, выполняющей вычисление первой главной компоненты;

- Предложен метод сравнения спектрограмм речевого сигнала по функции ошибки моделирования спектрограмм сигнала нейросетевой моделью, выполняющей вычисление первой главной компоненты. Практическая ценность. Практическое применение имеет созданная автором

система речевого управления роботизированным комплексом. Разработанные автором при создании данной системы алгоритмы и методы могут использоваться в компактных встраиваемых системах распознавания речевых команд. Простота алгоритмов позволяет реализовывать их аппаратно и оснащать блоком речевого управления различную бытовую и промышленную аппаратуру. Разработанный алгоритм сегментации речевого сигнала может использоваться в системах передачи речевого сигнала (например, в 1Р телефонии, сотовой связи) с целью увеличения степени сжатия потока информации, а также при создании обучающих баз данных сегментированной речи. Собственное применение может иметь и разработанная для проведения экспериментов база данных слов входящих в командный язык разрабатываемой системы распознавания речевых команд.

Обоснованность и достоверность полученных результатов подтверждается корректным использованием современного математического аппарата и экспериментальной проверкой разработанных алгоритмов.

Реализация результатов работы. Разработанные методы и алгоритмы легли в основу системы речевого управления роботизированным комплексом. Созданный при разработке данной системы программный экспериментальный комплекс используется для формирования лабораторного практикума по дисциплинам «Моделирование систем» и «Системы искусственного интеллекта». Положения, выносимые на защиту.

1. Метод распознавания изолированных слов на основе сопоставления функций ошибки моделирования нейронной моделью спектрограмм полученных по коэффициентам пакетного вейвлет-преобразования;

2. Алгоритмы распознавания изолированных слов путем получения многоуровневого спектрального представления речевого сигнала на основе пакетного вейвлет-преобразования, вычисления функции ошибки моделирования спектрограмм нейронной моделью, и двухуровневого сопоставления спектрограмм на основе информации полученной нейронной моделью;

3. Результаты экспериментов подтверждающих эффективность разработанных алгоритмов распознавания изолированных слов речи.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на 8-й Международной конференции «Цифровая

обработка сигналов и ее применение» (DSPA-2006) (Москва, Институт проблем управления РАН, 2006); V Международной научно-практической конференции «Моделирование. Теория, методы и средства» (Новочеркасск, ЮРГТУ, 2005); Всероссийской научно-технической конференции «Актуальные проблемы радиоэлектроники и телекоммуникаций» (Самара, СГАУ, 2005); Одиннадцатой Международной научно-технической конференции студентов и аспирантов «Радиоэлектроника, электротехника и энергетика» (Москва, МЭИ, 2005); Международной научно-технической конференции «Системные проблемы надежности, качества, информационных и электронных технологий в инновационных проектах» (Инноватика - 2005) (Сочи, 2005); III и IV научно-практических конференциях профессорско-преподавательского состава ВПИ (Волжский, ВПИ (филиал) ВолгГТУ, 2004,2005).

Публикации. По материалам исследования опубликовано 9 печатных работ, в том числе: 6 - статьи и 3 - тезисы докладов на научно-технических конференциях.

Структура и объем работы. Диссертационная работа состоит из введения четырех глав, заключения, библиографического списка используемой литературы (103 наименования) и двух приложений общим объемом 180 страниц.

Личный вклад автора. Лично автором разработаны: метод анализа свойств речевого сигнала одновременно на различных частотно-временных масштабах с использованием пакетного вейвлет-преобразования; метод и алгоритм сегментации речевого сигнала на основе вычисления функции ошибки моделирования спектрограммы сигнала нейросетевой моделью выполняющей вычисление первой главной компоненты; алгоритм выделения фрагмента с речью по коэффициентам пакетного вейвлет-преобразования; алгоритм выравнивания динамического диапазона речевого сигнала на основе пакетного вейвлет-преобразования; алгоритм сравнения спектрограмм речевого сигнала по функции ошибки моделирования пакетной вейвлет-спектрограммы сигнала; алгоритм построения эталонов; алгоритм разделения процесса сопоставления текущего образа и эталона на два уровня частотно временного представления сигнала с использованием спектрограмм, построенных по коэффициентам пакетного вейвлет-преобразования; методика оценки качества работы алгоритмов распознавания на основе критерия характеризующего степень разделимости классов; а также программная реализация * разработанных алгоритмов. Вся экспериментальная работа была проведена лично автором.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи исследования, научная новизна и практическая значимость результатов работы, кратко изложено содержание диссертационной работы и приведены данные о структуре и объеме работы.

В первой главе проводится анализ существующих методов и алгоритмов применяемых в современных системах обработки и распознавания речи.

Рассмотрена обобщенная структура типичной системы распознавания речи и выявлены основные стадии процесса обработки и распознавания речевого сигнала необходимые для построения системы распознавания речевых команд.

Рассмотрены различные методы получения параметров речевого сигнала, применяемые для того, чтобы получить представление дискретной функции одной переменной, задающей изменение энергии речевого сигнала во времени, в многомерном пространстве признаков так, чтобы получить для сегментов с одинаковыми звуками речи наиболее похожие вектора признаков, при этом как можно сильнее снизив влияние временных изменений в сигнале на протяжении одного звука. Для этого применяются такие методы, как кратковременное Фурье преобразование, вычисление энергии с выходов различных банков фильтров, метод линейного предсказания речи основанный на модели речевого тракта, а также линейно предсказанные кепстральные коэфиициенты. Ввиду принципа неопределенности все методы представляют сигнал на одном частотно-временном масштабе либо с хорошей детализацией по частоте, но плохой детализацией по времени, либо, наоборот, с плохой детализацией по частоте, но хорошей детализацией по времени. Поэтому приходится идти на компромисс и выбирать некоторый средний вариант. Однако при анализе речевого сигнала в определенных случаях требуется, чтобы параметры были представлены с хорошей детализацией по времени, например, для анализа быстро изменяющихся взрывных звуков, а в других, таких как сравнение протяженных звуков речи, наоборот, хорошая детализация в частотном диапазоне. Автором предлагается решить эту проблему, использовав на стадии параметризации пакетное вейвлет-преобразование (ПВП). Хотя указанный принцип неопределенности действует и в этом случае, но в методе ПВП заложен принцип пирамидального представления сигнала, когда один уровень частотно-временного представления вычисляется на основе предыдущего тем же методом. Нижние уровни представлены с хорошим временным разрешением, а верхние с частотным. Чтобы получить коэффициенты верхних уровней ПВП необходимо вычислить все коэффициенты его нижних уровней. Поэтому задачи, в которых требуется хорошее временное разрешение можно решать по коэффициентам низших уровней ПВП, а задачи, где требуется хорошее частотное - по коэффициентам верхних уровней. Преобразование при этом выполняется один раз. Для реализации такой же схемы с помощью кратковременного преобразования Фурье необходимо было бы сначала построить спектрограмму с малым размером окна и шага смещения, а затем с большим размером окна, для получения хорошего частотного разрешения.

В первой главе также рассмотрены методы распознавания речи по параметризованному сигналу. В простейших встраиваемых системах применяется метод сравнения текущего образа с эталоном с помощью алгоритма динамического программирования. Для сложных систем стандартом уже стало применение «скрытых Марковских моделей» для представления модели слова и его распознавания. Такая реализация системы распознавания требует создания обширной обучающей базы данных сегментированной речи. Создание таких баз вручную задача трудоемкая, поэтому необходимо применять для этого методы автоматической сегментации, на основе алгоритмов детектирования изменений в

сигнале. В работе приводится обзор этих алгоритмов. Однако, имея в распоряжении такой алгоритм, при создании компактных встраиваемых систем распознавания речевых команд с небольшим словарем, можно попытаться повысить качество работы системы, используя информацию, предоставляемую алгоритмом сегментации на стадии распознавания. В этом случае не потребуется использовать базы данных с сегментированной речью и скрытые Марковские модели, что сохранит сложность системы и стоимость ее создания на уровне уже используемых встраиваемых систем распознавания, повысив ее качество распознавания. Вместе с тем, применение информации о сегментации в качестве дополнительных данных в сложных системах на основе скрытых Марковских моделей также может привести к улучшению качества их работы.

По результатам анализа, проведенного в первой главе, был сделан вывод о необходимости разработки алгоритмов анализа и параметризации речевого сигнала в базисе пакетного вейвлет-преобразования, разработки простого алгоритма сегментации речевого сигнала и разработке алгоритмов распознавания на основе информации предоставляемой указанными алгоритмами для создания системы распознавания речевых команд.

Во второй главе приводится описание математического аппарата применяемого для разработки алгоритмов параметризации, сегментации и распознавания речевого сигнала.

В первой части рассматривается математический аппарат вейвлет-преобразования и его обобщение в виде пакетного вейвлет-преобразования. ПВП необходимо для построения спектрограмм речевого сигнала на разных уровнях частотно-временного представления сигнала.

Вейвлет-преобразование функции Лх) есть скалярное произведение /(х) и базисных функций

'х-Ьл

а

так что

ае/Г.&е/г 'х-Ьл

1ГЛа,Ъ) = ат ГУ /(*)<&

^ \ а )

Базисные функции у/а.ь е/Д/?), являются вещественными и колеблются вокруг оси абсцисс. Они определены на некотором интервале. Данные функции называются вейвлетами и могут рассматриваться как масштабированные и сдвинутые версии функции-прототипа ^х). Параметр Ь показывает расположение во времени, а а -параметр масштаба. Большие значения а соответствуют низким частотам, малые -высоким. Операция умножения на окно содержится в самой базисной функции, которая позволяет сужать и расширять это окно. Отсюда появляется возможность адаптивного к сигналу выбора параметров окна. В соответствии с принципом неопределенности, сужение окна анализа во временной области вызывает расширение его в частотной. Таким образом, площадь окна остается постоянной.

С позиции кратномасштабиого анализа функция с помощью вейвлет преобразования представляется суммой се грубой аппроксимации /т(х) и множества деталей е/х):

т

__т

Я У=-О0 А:

т

=1>т,А,„м+

и

В дискретном случае оказывается возможным итеративное вычисление коэффициентов и без непосредственного использования функций и ^х). И можно записать

п п

получив, таким образом, полностью дискретный процесс декомпозиции. Последовательности И„ и являются фильтрами, коэффициенты с] -аппроксимирующими, ^ - детализирующими. Отметим, что сд и 4.* имеют «половинную» длину по сравнению с Таким образом, не вводится

избыточности. В соответствии с частотным подходом, частотная область вейвлетов может быть разбита на две составляющие — низкочастотную и высокочастотную. Их частота раздела равна половине частоты дискретизации сигнала. Для их разделения достаточно использовать два фильтра: НЧ и ВЧ, ко входам которых подключается сигнал. НЧ фильтр дает частотный образ для аппроксимации (грубого приближения) сигнала, а ВЧ фильтр — для его детализации. Таким образом, приведенные равенства можно интерпретировать как фильтрацию фильтрами Ь„ и gn. Так как фильтры передают только половину всех частотных компонент сигнала, то не попавшие в полосу прозрачности компоненты могут быть безболезненно 9 удалены децимацией. Для ряда типов вейвлетов частотное представление открывает возможности использования быстрого вейвлет-преобразования, в основе которого лежит принцип деления спектра на две составляющие и прореживания их по ч частоте. Его последовательное применение является пирамидальным алгоритмом, дающим приближения сигнала с уменьшающейся по мере удаления от вершины дерева детальностью представления сигнала.

Итак, вейвлет-преобразование сигнала выполняется путем его пропускания через каскадно-соединенные двухканальные схемы декомпозиции. При этом каскадирование производится только по низкочастотной области. Причина этого в предположении, что эта область содержит больше информации об исходном сигнале. В результате получается «однобокое» дерево.

Для анализа речевых сигналов необходимо детальное представление сигнала как в НЧ, так и в ВЧ области. Поэтому будем применять пакетное вейвлет-преобразование, которое является обобщением вейвлет-преобразования и заключается в применении пирамидальной схемы не только к аппроксимирующим коэффициентам, но и к детализирующим. В результате мы получаем полное дерево вейвлет коэффициентов. Это дерево можно представить в виде уровней -масштабов. На низких уровнях, т.е. после 2-х, 3-х применений НЧ и ВЧ фильтров, ввиду свойств вейвлетов мы получаем грубое разрешение в частотной области. Например, на третьем уровне мы имеем банк из 8 фильтров, но зато здесь еще сохраняется хорошее временное разрешение сигнала. На более высоких уровнях, т.е. после 8, 9 применений НЧ и ВЧ фильтров, мы получаем детальное разрешение в частотной области. Так на 9 уровне мы получаем сигнал с выхода банка из 512 фильтров, однако здесь очень низкое разрешение сигнала по времени.

Исходя из вышесказанного, мы предлагаем использовать информацию с первых уровней ПВП для анализа быстрых изменений в речевом сигнале, которые требуют хорошего временною разрешения, а последующие уровни для получения информации о частотном составе звуков речи имеющих большую протяженность.

Во второй части данной главы предлагается метод сегментации речевого сигнала на основе моделирования его спектрограммы с использованием разложения по первой главной компоненте. Метод основан на допущении, что в пределах одного класса, в простейшем случае - звука речи, его можно охарактеризовать некоторым средним нормированным вектором и функцией изменения его по мощности, что будет соответствовав изменению мощности самых больших компонент вектора. Эти две характеристики входят в модель, с помощью которой сигнал описывается на протяжении одного звука.

Если мы будем рассматривать некоторый набор векторов К={_у], расположенных в одном окне анализа относящихся только к одному классу, то в пространстве признаков они будут располагаться близко в виде некоторого облака. Это облако будет больше всего вытянуто в пространстве лишь вдоль одного направления. Это направление, определяемое дисперсией вдоль осей X] и у2, необходимо найти при построении модели для конкретного звука.

Для направления, в котором дисперсия данных наибольшая, применим известный в статистике метод анализа главных компонент (преобразование Карунена-Лоэва), представляющее собой линейное ортогональное преобразование вида У = -X, которое трансформирует вектор X в вектор У посредством матрицы УУ. Для определения матрицы (V рассматривается набор векторов X, т.е. матрица, состоящая из этих векторов. Для нее вычисляется ковариационная матрица

Ъх=Е{{Х-Х){Х-Х)т)

Матрица IV определяется таким образом, чтобы составляющие ее вектора и>, были собственными векторами ковариационной матрицы тогда ковариационная матрица в области изображений

= Е{(У ~ У)(У -У)г} = ЖХ^-1 = ШЪХШТ будет диагональной, состоящей из собственных значений матрицы равных=diag(Л^,Л^,...,AN)l, где X, - собственные значения и ^хЫ, = Но

на диагонали ковариационной матрицы находятся дисперсии компонент векторов матрицы У. Значит - представляют собой дисперсии компонент векторов матрицы У. Тогда, так как матрица диагональная, компоненты векторов матрицы У некоррелированы. Исходная матрица X может быть восстановлена только по тем компонентам У, которые имеют наибольшие дисперсии равные А,, а значит, несут наиболыпую информацию об исходном сигнале:

X = Ш'ТУ'

Алгоритмы нахождения собственных значений выдают их упорядоченными по возрастанию. Сохранив только те компоненты Г и IV, которые соответствуют первым М собственным числам можно сжимать информацию, представленную сигналом X.

Из указанного ранее предположения следует, что при описании одного звука речи достаточно рассматривать в его разложении по главным компонентам только первую главную компоненту У/. Тогда эта компонента будет характеризовать изменение мощности сигнала, а первый главный собственный вектор соответствующий первой компоненте, задающий координаты направления по которому вариация данных наибольшая, соответствует характерному вектору для данного класса.

Если мы попытаемся описать два класса, то есть два смежных звука речи, то ось первой главной компоненты будет направлена примерно по линии, соединяющей центры классов. В общем случае, ось первой главной компоненты не будет характеризовать ни средний вектор первого класса, ни средний вектор второго класса. Поэтому спектрограмму двух смежных звуков речи по одной компоненте восстановить не удастся, появится ошибка восстановления гораздо большая, чем ошибка восстановления всего лишь одного звука только по одной компоненте. На измерении этой ошибки и основан данный метод сегментации спектрограммы речевого сигнала.

При реализации данного алгоритма не требуется рассчитывать все главные компоненты - собственные вектора ковариационной матрицы, необходим только один, соответствующий наибольшему собственному значению. Традиционные же итерационные алгоритмы, использующие для этого ОЯ-разложение, вычисляют сразу все собственные значения. Поэтому лучше применять нейросетевой подход.

Для определения первого главного компонента У1 и главного собственного * вектора ТУ^ связанного с ним, будем использовать один линейный нейрон, на вход ^ которого подаются вектора X,• из матрицы данных X, а на выходе получается значение коэффициента Уи\ '

^ = К*, =

н

Вектор Wl весов нейрона, сходящийся после обучения нейрона к первому главному собственному вектору данных вычисляется следующим образом:

Щг+1)=Щ!)+- щ Ш(0)

Где коэффициент $ задает скорость обучения. Итак, для нахождения первого главного собственного вектора нейрон обучается на данных X из окна анализа. Затем производится восстановление исходного сигнала

и вычисляется ошибка восстановления:

I

Где индекс к обозначает номер текущего окна, по которому производится оценка ошибки восстановления спектрограммы. В полученной таким образом функции ошибки ищется положение локальных максимумов, соответствующих переходам между звуками.

Для нахождения функции ошибки описания сигнала нашей моделью спектрограмма просматривается через смещающееся по оси времени окно. Далее выполняется разложение с использованием описанного выше нейрона по первой главной компоненте фрагмента спектра, умещающегося в таком окне. Затем восстанавливается исходная спектрограмма из этого окна, производится вычисление ошибки восстановления. Указанная процедура выполняется для всех положений данного окна во времени, в результате чего получается функция ошибки восстановления исходного сигнала. Эта функция имеет локальные минимумы в те моменты, когда окно находится в пределах только одного звука, и локальные максимумы, когда окно находится на границе между двумя звуками. Причем, чем сильнее звуки отличаются друг от друга (мера расстояния Евклидова), тем сильнее будет скачок функции ошибки. Определив местоположение локальных максимумов можно определить моменты перехода от одного звука к другому, сегментировав тем самым речевой сигнал.

В третьей главе приводятся результаты разработки алгоритмов пакетной вейвлет-параметризации речевого сигнала, детектирования переходов между звуками и распознавания речевых команд. Здесь рассматривается процесс параметризации и распознавания речевых команд путем сравнения эталонных спектрограмм со спектрами, полученными по текущему речевому сигналу с помощью пакетного вейвлет-преобразования. Глава разбита на три основные части, в соответствии со стадиями работы системы распознавания: обработка текущего сигнала; получение эталонов слов - обучение системы распознавания; сопоставление текущего образа представленного в виде его спектрограммы с эталонной спектрограммой - собственно процесс распознавания. Для краткости приведем лишь словесное описание разработанных алгоритмов.

Для получения спектрограммы текущего речевого фрагмента разработаны алгоритмы выделения фрагмента с речью, выравнивания динамического диапазона речи, и получения спектрограммы сигнала. Все эти алгоритмы используют для своей работы коэффициенты пакетного вейвлет-преобразования, полученные на разных уровнях частотно-временного представления сигнала.

Алгоритм получения спектрального представления сигнала выполняет пакетное вейвлет-разложение сигнала до определенного уровня, указанного в его входных параметрах, а затем производит вычисление энергии вейвлет коэффициентов и их сглаживание. На выходе этого алгоритма получается набор векторов, характеризующих энергию сигнала с выхода банка вейвлет-фильтров. С

физической точки зрения это энергетический спектр сигнала аналогичный спектру, получаемому при вычислении модуля коэффициентов Фурье преобразования.

Алгоритм получения эталонов слов выполняет процедуру вычисления усредненной по набору обучающих слов вейвлет-спектрограммы. Так как одно и то же слово имеет не только различный спектральный состав в зависимости от состояния говорящего, но и различную длину, для сопоставления спектрограмм применяется алгоритм динамического программирования. Предлагаемый в данной работе алгоритм позволяет итерационно получить усредненную спектрограмму для неограниченного набора обучающих образов, при этом вклад каждого образа в эталон будет иметь равный вес.

Алгоритм сопоставления текущей спектрограммы с эталоном используется как на стадии обучения системы распознавания для итерационного получения эталона, так и на стадии распознавания для вычисления расстояния от текущего образа до всех эталонов.

В данной работе с целью ускорения работы системы распознавания предлагается для сопоставления спектрограмм использовать информацию, полученную одновременно с двух частотно-временных масштабов пакетного вейвлет-преобразования сигнала. На первом масштабе сигнал представлен с большей детализацией по времени, а на втором по частоте. Второй масштаб используется для сопоставления спектрограмм с помощью динамического программирования. Так как на этом масштабе количество коэффициентов по времени меньше чем на первом, то это позволяет уменьшить время работы алгоритма динамического программирования, по сравнению с сопоставлением спектрограмм на более низком временном масштабе. В работе приводится расчет, который показывает, что количество операций для выполнения сопоставления спектрограмм методом динамического программирования при переходе к следующему уровню пакетного вейвлет-дерева сокращается в два раза. Полученный кратчайший путь переносится затем на первый масштаб, на котором происходит само вычисление расстояния.

Для вычисления расстояния используется функция ошибки моделирования спектрограммы с помощью нейрона выполняющего разложение сигнала по первой главной компоненте. В алгоритме построения функции ошибки моделирования спектрограммы с помощью одной главной компоненты спектрограмма рассматривается как многомерная функция времени, т.е. многомерный сигнал, который разбивается на пересекающиеся сегменты и данные каждого сегмента используются для обучения нейрона, выполняющего разложение сигнала по первой главной компоненте. В начале вычислений нейрон инициализируется случайными числами с помощью алгоритма инициализации. Затем обученный нейрон используется для моделирования данного сегмента сигнала и вычисления значения суммарной среднеквадратической ошибки, представляющей собой сумму квадратов разности между исходным сегментом сигнала и смоделированным. Полученное значение соответствующее текущему сегменту спектрограммы добавляется в текущую позицию функции ошибки, затем происходит переход к следующему сегменту. Таким образом, получаются все отсчеты дискретной функции ошибки моделирования. При переходе от сегмента к сегменту не требуется повторная

инициализация весов нейрона случайным вектором, так как при обучении на следующем сегменте спектрограммы веса нейрона подстраиваются под текущий сегмент. Для этого достаточно всего двукратного представления обучающих данных из текущего сегмента, так как следующий сегмент находится рядом, по соседству с предыдущим, а потому отличается от него не сильно.

При сопоставлении спектрограмм с помощью алгоритма динамического программирования во время сравнения не используется информация о структуре самой спектрограммы, т.е. информация о переходах между звуками. Для добавления этой информации с целью увеличения качества распознавания слов используется функция ошибки моделирования спектрограммы с помощью нейрона, выполняющего разложение сигнала по первой главной компоненте.

Для того чтобы учесть с помощью данной функций не только позиции переходов между звуками, но и различие самих звуков сравниваются две функции ошибки моделирования: первая строится по спектрограмме Текущего образа, а для построения второй нейрон обучается на спектрограмме текущего образа, а ошибка вычисляется при моделировании спектрограммы эталона. В тбм случае, если эталон и образ принадлежат к одному классу, две эти функции ошибки оказываются похожими - области локальных минимумов и максимумов совпадают и имеют близкое значение. Общий алгоритм работы системы распознавания речевых команд показан на рисунке 1.

Рисунок 1 - Алгоритм работы системы распознавания речевых команд

В случае принадлежности эталона и образа разным классам, эти две функции имеют не только разные позиции локальных максимумов и минимумов, но и значение ошибки представляемой второй функцией будет намного больше, т.е. при вычислении расстояния между ними получается большое значение. Для временного сопоставления спектрограмм перед вычислением функций ошибки используется метод динамического программирования. Для ускорения работы системы распознавания при сопоставлении спектрограмм описанный выше алгоритм выполняет эту операцию на двух масштабах пакетной вейвлет-декомпозиции сигнала, как это описывалось ранее.

В четвертой главе приводятся результаты экспериментального расчета параметров разработанных алгоритмов с целью достижения наибольшего процента правильно распознаваемых речевых команд, а также исследование качества распознавания слов при использовании разработанных алгоритмов.

В данной работе разрабатывалась система распознавания речевых команд для управления роботизированным комплексом. В соответствии с указанной задачей, определены основные параметры и ограничения системы распознавания, словарь и грамматика системы. Все исследования оптимальной настройки алгоритмов производились исходя из указанной задачи, а также с применением слов из словаря команд данной системы. Система должна реагировать на команды, представляющие собой изолированные слова из словаря системы. Активизация системы производится после того, как будет произнесена условная команда обращения к системе, только после этого распознается сама команда на управление. Это сделано для того, чтобы упростить работу системы и снизить количество ошибок распознавания, так как слова из словаря системы могут встретиться и в речи оператора не касающейся управления системой. Для снижения воздействия помех, представляющих собой шум в помещении, а также слова и фразы, произносимые не оператором, в системе применяется микрофонная гарнитура, т.е. микрофон находится непосредственно у рта говорящего. Для удобства оператора применяется радио микрофон, приемник которого соединен с персональным компьютером.

Цель проведения экспериментов - добиться максимального количества правильно распознанных слов. Эту величину можно оценивать в процентном отношении правильно распознанных слов к общему количеству слов в эксперименте. Однако данная величина при небольшом словаре дает слишком грубую оценку параметров. Поэтому будем использовать величину более чувствительную к изменениям параметров алгоритмов. Качество распознавания, как при использовании линейного классификатора, так и байесовского, зависит от удаленности друг от друга образов, лежащих на границе классов. Величина

характеризует минимальную степень удаленности образов класса с от остальных классов. Здесь - максимальное внутриклассовое расстояние -

максимальное из расстояний от каждого исследуемого образа до центра текущего класса - эталона, а Д ^,"* - минимальное межклассовое расстояние - минимальное

из расстояний от образа из другого класса до центра текущего класса. Обозначим отсортированный по возрастанию массив значений Оттх(с) как

= 5£"?{Ая»«(с)> с = 1-.Л0 и за критерий качества возьмем величину

среднее значение из трех минимальных отношений От}Пи (с). Чем больше указанная величина, тем меньше вероятность неправильного распознавания при использовании большего, чем используется в текущем эксперименте, количества реализаций образов одного класса. Следовательно, параметры алгоритмов должны быть настроены так, чтобы максимизировать данный критерий качества От,тх. По отношению к этой величине мы и будем вести оптимизацию. Еще одним критерием качества будет для нас величина / - суммарные затраты времени на вычисление расстояний. Желательно добиться минимума данного критерия, хотя определяющим для нас будет й т/тх •

Настройка параметров алгоритмов производилась по словам, произнесенным пятью дикторами. Для каждого диктора были записаны все слова из нашего словаря, каждое слово было повторено пять раз. После очередного эксперимента мы получали набор внутриклассовых и межклассовых расстояний, по которым вычислялась статистика соотношений этих расстояний.

Сначала были проведены эксперименты по определению наилучшего вейвлета для реализации нашей системы. В этих экспериментах использовались алгоритмы сопоставления спектрограмм, выполняющие вычисление расстояния между текущей спектрограммой и эталоном с использованием динамического программирования. На всех уровнях пакетной вейвлет-декомпозиции наибольшее значение величины О,тт получено при использовании для вычисления вейвлет-коэффициентов дискретного вейвлет Мейера. Это связано с тем, что для построения этого вейвлета используется синусоида, амплитуда которой изменяется в соответствии с функцией Гаусса. А, как известно, вокализованные составляющие речевого сигнала хорошо моделируются с использованием периодических функций: синуса и косинуса, именно поэтому для анализа речевого сигнала очень хорошо подходит преобразование Фурье. При использовании вейвлета Мейера спектрограмма, полученная по коэффициентам пакетного вейвлет-преобразования наиболее похожа на спектрограмму, полученную с помощью оконного преобразования Фурье.

Затем были проведены эксперименты по настройке оптимальных параметров алгоритма получения спектрограммы по коэффициентам ПВП для реализации системы распознавания с помощью сравнения текущего образа и эталона методом динамического программирования.

Эксперименты проводились со спектрограммами, построенными на 9, 8, 7, 6 и 5 уровнях. Для каждого уровня изменялись параметры окон сглаживания энергии коэффициентов по частоте и по времени. На рисунке 2 пунктирной линией показаны графики величин От,тх и г наилучших результатов по каждому из уровней. Из рисунка видно, что наилучшие результаты достигаются на 6 уровне ПВП, при этом

размеры окон сглаживания были равны 4 и 8 выборок по частоте и по времени соответственно.

Следующая группа экспериментов проводилась для настройки параметров алгоритмов выполняющих сравнение спектрограмм с использованием функции ошибки моделирования, добавляющую в систему распознавания информацию о переходах между звуками. Первоначально для построения спектрограмм были использованы оптимальные параметры, настроенные в первой группе экспериментов, и настраивались размер кадра для вычисления функции ошибки и величина шага смещения. Эти эксперименты показали верность предположения, что применение функции ошибки приведет к увеличению степени разделимости классов. Результаты экспериментов в зависимости от уровня вейвлет преобразования показаны на рисунке 2 линией с ромбами. По графику видно, что наибольшее значение величины £)ттх, характеризующей удаленность классов, достигается на 7-м уровне ПВП.

Затем были проведены эксперименты, имеющие своей целью получить оптимальные размеры окон сглаживания спектрограмм и шага смещения кадра для вычисления функции ошибки, позволяющие получить дальнейшее увеличение критерия От,™ . Результаты этих экспериментов показаны на рисунке 2 графиком отмеченным кругами. В данном случае использовались параметры сглаживания гораздо меньше оптимальных, полученных при сравнении спектрограмм только методом динамического программирования.

Последняя группа экспериментов проводилась с целью доказать возможность уменьшения времени вычислений с незначительной потерей качества распознавания при применении двухуровневого сравнения ПВП спектрограмм. В данной группе экспериментов также применялся алгоритм сравнения спектрограмм с использованием функции ошибки, только, как уже говорилось выше, временное сопоставление спектрограмм здесь производится на более высоком уровне, а вычисление функций ошибок и расстояния между спектрограммами по этим функциям на нижнем уровне. На рисунке 2 линией отмеченной квадратами приведены результаты экспериментов, показывающие уменьшение временных затрат при незначительном уменьшении величины От1тс. Наилучшие результаты были достигнуты без сглаживания на верхнем уровне, что объясняется сглаживанием пути по матрице расстояний, когда он строится на верхнем уровне, где более низкое разрешение по времени, и минимальном значении сглаживания равном 2 выборкам на нижнем уровне.

Итак, наибольшая эффективность разработанных алгоритмов достигается при использовании для сравнения спектрограмм функции ошибки моделирования нейроном, выполняющим вычисление первой главной компоненты с использованием двухуровневого анализа спектрограмм построенным по 8-му и 7-му уровням пакетного вейвлет преобразования.

На рисунке 3 приведены результаты экспериментов, показывающие непосредственно качество распознавания, выраженное в процентном соотношении количества правильно распознанных слов к общему количеству слов, используемых для тестирования. Эти эксперименты были проведены для разного размера словаря

от 10 до 38 слов и подтверждают эффективность разработанных алгоритмов и полезность использования информации о переходах между звуками при распознавании.

о»

Рисунок 2 - Сравнение лучших результатов экспериментов по определению соотношения межклассовых и внутриклассовых расстояний для всех уровней при сравнении ПВП спектрограмм методом динамического программирования и с использованием функции ошибки моделирования

Рисунок 3 - Качество распознавания в зависимости от размера словаря

1 '

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ Й ВЫВОДЫ

В работе был предложен метод разномасштабного описания речевого сигнала с помощью пакетного вейвлет-иреобразования, и метод получения информации о переходах между звуками речи на основе нейросетевой модели, выполняющей моделирование сигнала с помощью первой главной компоненты. Эти методы были реализованы в виде алгоритмов, позволяющих получить спектральное представление речевых команд, сформировать эталоны и выполнить сравнение

текущей команды с эталоном. Для настройки параметров и исследования эффективности работы алгоритмов был разработан программный комплекс, с помощью которого была проведена серия экспериментов, в которых была доказана эффективность разработанных алгоритмов.

В работе показана возможность эффективного применения аппарата пакетного вейвлет-преобразования для анализа речевого сигнала, в тех случаях, когда необходимо решать одновременно несколько задач обработки сигнала, для решения каждой из которых требуется свой частотно-временной масштаб. Показана также t важность использования в системах распознавания информации о сегментации речевого сигнала. Следует отметить, что разработанный метод позволяет получать такую информацию без предварительного обучения системы, а значит, применим при анализе спектрограмм неизвестного сигнала и может найти применение для анализа неречевых сигналов. Таким образом, основными результатами работы стали:

Математическая модель многоуровневого спектрального представления речевого сигнала;

Математическая модель детектирования переходов между звуками речи;

Алгоритм получения спектрального представления речевого сигнала;

Алгоритм детектирования переходов между звуками речи;

Алгоритм распознавании речевых команд по их пакетным вейвлет-спектрограммам;

Программный комплекс для речевого управления конечным автоматом;

Проведенное исследование работоспособности предлагаемых алгоритмов показало их эффективность для реализации систем распознавания изолированных слов речи.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Литвиненко С.Л. Метод сегментации спектрограмм речевого сигнала // Труды Российского научно-технического общества радиотехники, электроники и связи имени A.C. Попова, Серия: Цифровая обработка сигналов и её применение, Выпуск: VIII - 1. - Москва, 2005. - С 232 - 236.

2. Литвиненко С.Л., Шевчук В.П. Модель нейронной сети, реагирующей на неравномерности в спектре речевого сигнала // Моделирование. Теория, методы и средства: Материалы V Междунар. науч.-практ. конф., г. Новочеркасск, 8 апр. 2005 г.: В 5 ч. / Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск: ЮРГТУ, 2005. -Ч.З.-С5-9.

3. Литвиненко С.Л., Шевчук В.П. Система речевого запроса информации о состоянии объекта управления в составе АСУ // Перспективные проекты и технологии в энергетике: Материалы межрегиональной науч.-практ. конф. / Сборник научных статей - Волжский: Филиал ГОУ ВПО «МЭИ (ТУ)» в г. Волжском, 2006. - С. 254 - 259.

4. Литвиненко С.Л., Шевчук В.П. Система распознавания речевых команд для управления роботизированным комплексом // Радиоэлектроника, электротехника

и энергетика / Одиннадцатая Междунар. науч.-техн. конф. Студентов и аспирантов: Тез. докл. В 3-х т. - М.: МЭИ, 2005. Т.З. - С. 257 - 258.

5. Литвиненко С.Л., Шевчук В.П. Алгоритм вейвлет-параметризации речевого сигнала // Актуальные проблемы радиоэлектроники и телекоммуникаций: Материалы Всероссийской научно-технической конференции 12.05-13.05.2005г., г. Самара / Под ред. И.Г.Мироненко, М.Н.Пиганова. - Самара: СГАУ, 2005. - С. 45-47.

6. Литвиненко С.Л., Шевчук В.П. Алгоритм распознавания простейших речевых команд // Актуальные проблемы радиоэлектроники и телекоммуникаций: Материалы Всероссийской научно-технической конференции 12.05-13.05.2005г., г. Самара / Под ред. И.Г.Мироненко, М.Н.Пиганова. - Самара: СГАУ, 2005. - С. 47-49.

7. Литвиненко С.Л., Шевчук В.П. Структура системы управления роботом по аудио информации // Актуальные проблемы радиоэлектроники и телекоммуникаций: Материалы Всероссийской научно-технической конференции 12.05-13.05.2005г., г. Самара / Под ред. И.Г.Мироненко, М.Н.Пиганова. - Самара: СГАУ, 2005. - С. 49-50.

8. Литвиненко С.Л., Шевчук В.П. Особенности применения вейвлет-преобразования для анализа акустических сигналов // Тезисы III научно-практической конференции профессорско-преподавательского состава ВПИ, январь 2004 г. - http://www.volpi.ru/konf/3npps/vt/doc/?id=9.

9. Литвиненко С.Л., Шевчук В.П. Компактная система распознавания речевых команд по вейвлет-параметризованному речевому сигналу // Тезисы IV научно-практической конференции профессорско-преподавательского состава ВПИ, январь 2005 г. - http://www.volpi.ru/konf/4npps/vt/doc/?id=6.

Подписано в печать 2.6 ■05 2006 г. Заказ № ¿/38. Тираж 100 экз. Печ. л. 1,0. Формат 60x84 1/16. Бумага офсетная. Печать офсетная.

Типография РПК «Политехник» Волгоградского государственного технического университета

400131, Волгоград, ул. Советская, 35

Nt 1 42 58

»

i 4

Оглавление автор диссертации — кандидата технических наук Литвиненко, Сергей Леонидович

Введение.

1 Анализ систем и методов распознавания речевого сигнала.

1.1 Анализ структур систем распознавания речи.

1.2 Анализ методов спектрального представления речевого сигнала.

1.3 Анализ методов подавления помех в речевом сигнале.

1.4 Анализ методов сегментации речевого сигнала.

1.5 Анализ методов распознавания речи.

2 Математическое описание частотно-временной структуры речевого сигнала.

2.1 Анализ речевого сигнала на разных частотно-временных масштабах.

2.2 Пакетное вейвлет-преобразование как способ представления сигнала на разных частотно-временных масштабах.

2.3 Метод сегментации спектрограмм речевого сигнала.

3 Разработка алгоритмов распознавания речевых команд.

3.1 Разработка алгоритмов получения пакетной вейвлет-спектрограммы речевого сигнала.

3.2 Разработка алгоритмов формирования эталона.

3.3 Разработка алгоритмов сравнения текущего образа с эталоном.

4 Экспериментальное исследование работы алгоритмов распознавания.

4.1 Методика и средства проведения экспериментов.

4.2 Цель экспериментальной работы и выбор критериев качества.

4.3 Исследование работы алгоритмов, выполняющих распознавание путем сопоставления спектрограмм пакетного вейвлет-преобразования.

4.4 Исследование работы алгоритмов, выполняющих распознавание путем сопоставления функций ошибки моделирования спектрограмм пакетного вейвлет-преобразования.

4.5 Исследование работы алгоритмов, выполняющих распознавание путем сопоставления функций ошибки моделирования при двухмасштабном частото-временном представлении сигнала.

4.6 Результаты экспериментов по распознаванию изолированных слов.

Введение 2006 год, диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам, Литвиненко, Сергей Леонидович

На всех этапах развития техники делаются попытки возложения на машины функций выполняемых человеком. Сначала это были только наиболее трудоемкие функции, связанные с большими затратами энергии. Затем, с дальнейшим развитием техники, появилась возможность выполнения машинами различных интеллектуальных функций, т.е. в некоторых областях интеллектуальной деятельности, например обработки больших объемов информации, человек заменяется машиной. Какие бы не были простые или сложные эти технические средства всегда существует необходимость управления ими. Человек может передавать управляющее воздействие с помощью органов движения и речи. Наиболее простым оказалось решение задачи передачи управляющего воздействия с использованием рук человека. Однако более удобной и естественной для человека является речевая коммуникация. Поэтому уже много десятилетий развивается область науки связанная с проблемой организации речевого управления техническими системами. Попытка решения этой проблемы привела к формулировке и решению огромного числа задач связанных с моделированием и обработкой, передачей и распознаванием человеческой речи.

Системы распознавания речи получают, в настоящее время, все более широкое распространение в тех приложениях, где естественный речевой диалог позволяет повысить удобство управления и обмена информацией с различными информационными системами. Повышение достоверности распознавания ведет, как правило, к усложнению систем распознавания и стоимости их изготовления. Вместе с тем в некоторых приложениях требуется реализовать компактную и простую систему распознавания речевых команд с небольшим словарем, которую достаточно просто реализовать аппаратно и встроить в уже имеющуюся или разрабатываемую систему. Такие системы распознавания могут потребоваться, например, для речевого запроса информации в какой-либо информационной системе; для запроса оперативной информации о состоянии объекта управления; для подачи речевых команд системе управления, в тех случаях, когда руки оператора заняты контролем других функций управляемого процесса; или в случае, когда оператор находится в скафандре и ему неудобно руками воздействовать на органы управления. Для таких систем требуется узко специализированный словарь командного языка и контекстно-зависимая грамматика, а от блока распознавания требуется высокая достоверность идентификации команды.

В настоящее время сложные системы распознавания речи, имеющие большой словарный запас, основываются на применении скрытых Марковских моделей в качестве средства стохастического моделирования сложного речевого сигнала, для обучения которых используются обширные базы данных сегментированной речи, а свободно распространяемых русскоязычных обучающих баз данных для создания таких систем в России нет. В случае же создания системы для распознавания определенного набора команд, состоящих из изолированных слов, требуется небольшой словарь, порядка сотни слов, с контекстно-зависимой грамматикой. Эти два фактора сильно облегчают создание системы распознавания. В то же время система должна иметь возможность быть быстро перенастроена на другую задачу. Указанные факторы позволяют создавать в данном случае системы без использования Марковских моделей, но в этом случае существующие методы распознавания не дают такого высокого качества распознавания.

В связи с вышеизложенным, представляется актуальной задача разработки алгоритмов распознавания речевого сигнала просто реализуемых аппаратно и позволяющих достигнуть высокой достоверности распознавания.

Развитие области знаний, связанной с анализом и распознаванием речевого сигнала началось с решения задач передачи человеческой речи по узкополосным каналам связи с полосой пропускания меньшей, чем у обычной телефонной линии. Решение этой задачи привело к созданию вокодеров, устройств выполняющих сокращение частотной полосы речевых сигналов для линий дальней связи. Первым успехом в данной области считается полосный вокодер Дадли, созданный в 1936 году [9]. В настоящее время, каждый человек, разговаривая по сотовому телефону, пользуется так называемыми липредерами - вокодерами, работающими на основе линейного предсказания речевого сигнала, используемыми в стандарте GSM. Однако, до сих пор, в области вокодерной связи не решена задача максимального сжатия речевого сигнала до фонемного уровня и передачи его с наименьшей скоростью 60 бит/с, что соответствует письменной передачи речи произносимой со средней для человека скоростью 10 фонем в секунду. Т.е. мечта замены двух телеграфисток, первая из которых слушает абонента на одном конце линии связи и передает его речь телеграфным способом второй, которая просто читает телеграмму абоненту на другом конце линии связи, остается пока задачей ближайшего, но все же будущего. Решение этой задачи непосредственно связано с распознаванием непрерывной человеческой речи.

Достижения в области анализа и передачи речевого сигнала впервые в нашей стране были широко изложены в монографии М.А. Сапожкова «Речевой сигнал в кибернетике и связи» в 1963 году, дальнейшим развитием которой стала работа [44]. Затем вышла работа большого коллектива авторов «Вокодерная телефония. Методы и проблемы» под. редакцией А.А. Пирогова [9]. За рубежом методы анализа речевого сигнала были опубликованы Дж. Фланаганом в своей монографии немного позже М.А. Сапожкова.

Несмотря на то, что в начале исследований по анализу и распознаванию речи работы отечественных ученых и инженеров, направленные в основном на создание эффективных вокодерных систем связи, выполнялись одновременно или с опережением западных, в основном американских, в области распознавания речи наметилось серьезное отставание отечественной техники и технологии. Серьезные работы по распознаванию речи начались в основном после Второй мировой войны. В AT&T Bell Labs была создана система распознавания отдельных цифр с помощью простого согласования акустических характеристик с шаблонами. Система распознавания на основе вероятностного подхода была создана Фраем и Денесом в лондонском

University College. В этой системе впервые использовались вероятности переходов между фонемами. Начиная с 1971 года Агентство перспективных исследовательских программ (DARPA) Министерства обороны США финансировало четыре конкурирующих пятилетних проекта по разработке высоко эффективных систем распознавания речи. Победителем этой программы и единственной системой, соответствующей требованиям по распознаванию словаря из 1000 слов с точностью 90%, стала система HARPY, разработанная в университете CMU. Окончательная версия этой системы была создана на основе системы Dragon, разработанной аспирантом того же университета Дж. Бейкером [42]. В этой системе для вероятностного моделирования слов речи впервые были использованы скрытые Марковские модели [88]. Почти одновременно с системой Dragon в компании IBM была разработана еще одна система на основе скрытых Марковских моделей. Начиная с этих двух разработок, вероятностные методы в целом и скрытые Марковские модели в частности стали доминировать в исследованиях и разработках по распознаванию речи [3, 24, 57, 58, 59, 73, 82, 83, 88]. Использование данного подхода, ввиду своей эффективности, стало в настоящее время почти промышленным стандартом. г

Основой всех систем передачи и распознавания речевого сигнала являются модели генерации речевого сигнала [40, 41, 44, 29, 52] и его восприятия [52, 61]. Наиболее полный охват исследований, производившихся в области анализа речевого сигнала, приведен в работе [52], написанной коллективом авторов под редакцией JI.A. Чистович.

Модель генерации речевого сигнала основана на прямых сведениях из физиологии человека, представляющей речевой аппарат человека в виде трубы с различными изменяющимися сечениями, через которую проходит либо тональный, либо шумовой сигнал [40, 41, 44]. Хотя эта модель является несколько упрощенной линейной системой, все же она с достаточной степенью точности описывает процессы, происходящие в речевоспроизводящем аппарате человека, и позволяет с высокой степенью точности описывать речевой сигнал.

Модель восприятия речи, в отличие от модели генерации, не может быть в полной мере построена на прямых сведениях по физиологии, так как помимо процессов происходящих в слуховом аппарате затрагивает процессы, происходящие в мозге человека, поэтому не существует единого мнения о структуре данной модели. Более того, не существует единого мнения о том, какие признаки речевого сигнала являются информативными. Однако наиболее общепринятым считается, что речевой сигнал представляется в слуховой системе человека в виде аналогичном спектрограммам сигнала (см. [52]), а информация заключается в положении спектральных максимумов. Альтернативная точка зрения на процесс восприятия и представления речевого сигнала в системе слуха человека представлена в работе [61], где приводятся данные «временной теории слуха» и анализ сигнала проводится на базе функций аналогичных по своей природе функциям корреляции. Альтернативное мнение об информативных признаках было высказано А.А. Пироговым в его теории фонетической функции речи (см. [9]), где говорится о том, что человек воспринимает речевые элементы по их относительным, а не абсолютным спектрам. В пользу этой незаслуженно забытой теории выступает тот факт, что человек хорошо распознает искаженную каналами связи речь, с сильно смещенными и искаженными спектральными максимумами [9].

В основу современных систем распознавания речи положены в основном данные по моделированию процесса генерации речи, а из модели слухового восприятия в основном используется информация о логарифмической шкале восприятия интенсивности звука и факт неравномерности частотного разрешения слуховой системы [86, 88].

В системах распознавания речи используются несколько основных этапов обработки сигнала, это получение представления речевого сигнала в признаковом пространстве, статистическая обработка полученных векторов наблюдений и собственно стадия распознавания

57,58,59,73,82,83,88,90,91,97,99].

Для качественной работы системы распознавания очень важна первая из указанных стадий, основанная на методах цифровой обработки сигналов (см. [1, 4, 5, 6, 8, 13, 16, 38, 40, 41, 43, 48]). На этой стадии, называемой параметризацией оцифрованного речевого сигнала [86, 88], как правило, применяются методы преобразования его временного представления в частотное, а также выполняется фильтрация сигнала. Для этого можно использовать спектры мощности, полученные с помощью Фурье преобразования, различных банков фильтров и т.д. Широкое распространение в области распознавания и передачи речевого сигнала получил метод линейного предсказания речи основанный на модели речеобразования (см. [29]). А также метод кепстрального анализа - обратное Фурье преобразование спектра мощности сигнала [86]. В этом случае для классификации речевого сигнала используют линейно предсказанные кепстральные коэфиициенты (см. [86]). Наибольшее распространение в системах распознавания речи получили кепстральные коэффициенты отфильтрованные с использованием мел-шкалы (MFCC) [86, 88].

В настоящее время в задачах обработки и сжатия аудио сигналов и изображений широкое распространение получил математический аппарат вейвлет-преобразования [56, 100, 2, 7, 10, 12, 20]. Теория вейвлетов наиболее бурно развивалась в 80-90-е годы XX века, хотя на практике в теории фильтрации, при обработке и передаче информации вейвлеты фактически применялись уже в 40-50-х годах [56]. Вейвлет-анализ является обобщением концепций функционального анализа, теории ортогональных рядов и разложений. На первый взгляд, Вейвлет-анализ имеет много общего с кратковременным Фурье-анализом, широко используемым для обработки сигналов, но в тоже время он является намного более мощным, удобным и универсальным аппаратом. Первые результаты по теории вейвлетов и ее применению были получены представителями французской научной школы: А. Коэном, Р. Кауфманом, И. Мейером, С. Мала, И. Добеши и др. В 1987 году С. Мала было показано, что вейвлеты могут быть положены в основу нового мощного метода обработки и анализа сигналов - кратномасштабного анализа, теория которого объединяет в себе методы субполосного кодирования из теории обработки сигналов, квадратурно-зеркальную фильтрацию из теории распознавания речи и пирамидальную обработку изображений [14]. Теории и применению вейвлет-анализа посвящены работы [56, 100, 2, 7, 10, 12, 20, 68, 102, 101,92, 95, 97, 98].

В настоящее время наиболее эффективные и многочисленные применения вейвлет-анализа относятся к области сжатия и анализа изображений [14]. Вейвлет-анализ широко применяется и в физике, а также для решения различных инженерных задач (см. [2, 17]). Наиболее масштабное практическое применение вейвлетов реализовано в ФБР США для организации огромной базы данных оцифрованных и сжатых дактилоскопических изображений [14]. Примеры практического применения вейвлетов в задачах обработки сигналов и изображений можно найти в [14, 102, 101, 92, 95, 97, 98].

Ввиду успешного применения алгоритмов обработки и сжатия сигналов на основе вейвлет-анализа сейчас делаются попытки использовать его в задачах распознавания речи. Делаются попытки использовать дискретный вариант вейвлет-преобразования, реализуемый с помощью алгоритма вычисления быстрого вейвлет преобразования, для параметризации речевого сигнала [78, 97]; распознавания фонем и оценки основного тона речевого сигнала [97]; для идентификации диктора [65, 85]; в задачах подавления шума в речевом сигнале [70]; а также в таких задачах, как анализ аудио записей [98]; для распознавания музыкальных инструментов [74]; и даже для распознавания звуков, издаваемых китами [92].

Однако в работе [97] говорится о недостаточно полном описании речевого сигнала с использованием обычного дискретного вейвлет-преобразования и предлагается использовать дискретизированное непрерывное вейвлет преобразование полнее описывающее сигнал, однако для такого преобразования нет быстрого алгоритма вычисления. Поэтому в других работах [65, 91] для анализа речевого сигнала делаются попытки применения пакетного вейвлет-преобразования, которое разбивает частотный диапазон на одинаковые участки, в отличие от обычного быстрого вейвлет-преобразования, в котором низкочастотные участки более детализированы.

Пакетное вейвлет-преобразования было введено Койфманом и Викерхаузером. Подробное описание вейвлет-пакетов можно найти в [100]. Пример применения пакетного вейвлет-преобразования для параметризации речевого сигнала можно найти в [65, 91]. Здесь, также как и в других вариантах применения пакетного вейвлет-преобразования [42, 67, 100, 60, 102], производится поиск наилучшего базиса разложения сигнала на частотные полосы с точки зрения критерия минимума количества информации. Описание алгоритмов поиска наилучшего базиса приводится в [100, 93, 72, 67].

В данной работе предлагается применение пакетного вейвлет-преобразования для представления речевого сигнала в признаковом пространстве не только из-за эффективности его применения для анализа сигналов, но в основном по двум следующим причинам. Первая заключается в том, что речевой сигнал представляет собой чередование быстро и медленно протекающих процессов. К первой группе относятся переходы между звуками и взрывные звуки, ко второй - устойчивые гласные и согласные звуки. При анализе быстротекущих процессов необходимо высокое временное разрешение, а при анализе медленно текущих процессов достаточно низкого временного разрешения, зато характеристики продолжительных звуков сконцентрированы в основном в частотной области и для их анализа и сравнения звуков необходимо высокое частотное разрешение. Вторая причина - это требование разного частотно-временного разрешения для разных задач анализа речевого сигнала. Например, детектирование тон/шум, выделение фрагмента с речью можно выполнять при низком частотном разрешении, а распознавание звуков, наоборот, при высоком частотном разрешении. Таким образом, необходимо сразу несколько различных частотно-временных масштабов представления сигнала, так как ввиду принципа неопределенности мы не можем одновременно получить высокое частотное разрешение одновременно с высоким временным разрешением. При использовании обычных методов, например, кратковременного Фурье-преобразования пришлось бы выполнить несколько преобразований с различными размерами окон анализа и шага смещения окна. Пакетное вейвлет-преобразование позволяет представить сигнал сразу на разных масштабах, так как коэффициенты каждого следующего уровня, ведущего к увеличению частотного разрешения и уменьшению временного, вычисляются на основе коэффициентов предыдущего уровня, поэтому нет необходимости в повторных вычислениях.

Кроме использования метода пакетной вейвлет-параметризации для реализации системы распознавания в данной работе предлагается использовать информацию о сегментации речевого потока на звуки. Использование этой информации должно повысить достоверность распознавания слов.

Задача сегментации речевого сигнала является очень важной в теории распознавания речи. Так как в настоящее время системы распознавания речи в основном строятся с использованием скрытых Марковских моделей, с помощью которых слово представляется в виде Марковской цепи состояний (см. [88]), то для обучения таких систем распознавания необходима обучающая база данных, содержащая фразы с информацией об их сегментации на звуки. Для упрощения создания таких баз данных необходимо использовать автоматическую сегментацию речевого потока. Кроме того, задача сегментации решается и во время работы системы распознавания слитной речи, основанных на фонемном подходе для выделения из речевого потока конкретных звуков.

Для сегментации речевого потока в настоящее время применяется большое количество разнообразных алгоритмов (см. [71]), во многих из них система должна быть предварительно обучена.

То, что слуховая система человека выполняет сегментацию речевого потока еще на начальных стадиях обработки речевого сигнала до его распознавания можно судить по данным из нейрофизиологии слуха, опубликованных в [52] где показано, что 1) акустический сигнал представляется в нервной системе в форме аналогичной спектру; 2) слуховая система выделяет в спектре неравномерности как по времени так и по шкале частот. Неравномерности по частоте называются особенностями сигнала, а неравномерности по времени - событиями. Примером особенностей можно считать спектральные максимумы, называемые в теории обработки речи формантами. Событиями можно считать переходы от одного звука к другому, при этом, в общем случае, изменяются статистические характеристики распределения энергии сигнала по шкале частот.

Исходя из вышесказанного, на начальных этапах обработки акустического сигнала в системах распознавания речи более предпочтительны алгоритмы сегментации на основе анализа свойств текущего сигнала. Обзор таких алгоритмов сегментации и обнаружения изменений в поведении функций приведен в [71].

Задача сегментации сигнала тесно связана с задачей его классификации (см. [34, 35, 42, 53, 54]). Наилучшие результаты работы показывают алгоритмы сегментации, использующие для своей работы классификацию сигнала (многомодельный подход в детектировании переходов и методы кластеризации) [71]. Однако эти алгоритмы не используют информацию об изменении характеристик сигнала при переходе между сегментами, которую можно получить, анализируя всего лишь два соседних сегмента сигнала.

В данной работе предлагается метод сегментации, который сочетает в себе одновременно два подхода, с одной стороны сигнал рассматривается как набор векторов признаков, которые можно классифицировать, с другой стороны окончательная классификация сегментов не производится, а вычисляется только функция ошибки с выхода простейшей модели сигнала. При этом информация извлекается из текущего кадра анализа сигнала, а не при сопоставлении двух кадров. Модель строится на основе анализа энергетического спектра сигнала с использованием метода главных компонент. В данном случае важен тот факт, что используется наиболее грубая модель, которая может описать только один звук речи, а два и более нет, в результате чего возникает большая ошибка описания сигнала. Разрабатываемый автором алгоритм извлекает из речевого сигнала информацию о его разбиении на устойчивые сегменты на основе функции ошибки восстановления спектрограммы по первой главной компоненте. Локальным максимумам данной функции соответствуют моменты переходов от одного устойчивого сегмента сигнала к другому, как правило, соответствующего одному звуку речи.

Итак, в данной работе предлагается реализовать систему распознавания речевых команд с учетом указанных ранее требований с применением разномасштабного частотно-временного описания речевого сигнала на основе пакетного вейвлет-преобразования сигнала, и использовать на стадии распознавания информацию о переходах между звуками речи.

Целью настоящей работы является повышение качества распознавания речевых команд системами распознавания речи.

В соответствие с указанной целью работы и приведенными выше основными положениями данной работы, были поставлены следующие задачи диссертационного исследования:

Разработка математической модели спектрального представления речевого сигнала и модели детектирования переходов между звуками речи;

Разработка алгоритмов спектрального представления, детектирования переходов между звуками речи и распознавания речевых команд;

Разработка программного комплекса для речевого управления конечным автоматом.

Для решения поставленных задач и достижения намеченной цели использовались методы математического моделирования, теории вероятностей, теории случайных процессов, математической статистики, спектрального и вейвлет анализа, теории цифровой обработки сигналов, а также методы теории распознавания образов. При проведении экспериментов для организации экспериментов, статистических расчетов, отображения результатов и формирования зависимостей была использована система MATLAB, а процедуры, реализующие разработанные автором алгоритмы были реализованы на языке С++ с использованием интегрированной среды разработки Borland С++ Builder.

Основные результаты диссертационного исследования, имеющие научную новизну, заключаются в следующем:

- Предложен метод анализа свойств речевого сигнала одновременно на различных частотно-временных масштабах с использованием пакетного вейвлет-преобразования;

- Предложен метод сегментации речевого сигнала на основе вычисления функции ошибки моделирования спектрограммы сигнала нейросетевой моделью, выполняющей вычисление первой главной компоненты;

- Предложен метод сравнения спектрограмм речевого сигнала по функции ошибки моделирования спектрограмм сигнала нейросетевой моделью, выполняющей вычисление первой главной компоненты.

В соответствие с указанными результатами исследования, диссертационная работа содержит следующие положения, выносимые на защиту:

1. Метод распознавания изолированных слов на основе сопоставления функций ошибки моделирования нейронной моделью спектрограмм полученных по коэффициентам пакетного вейвлет-преобразования;

2. Алгоритмы распознавания изолированных слов путем получения многоуровневого спектрального представления речевого сигнала на основе пакетного вейвлет-преобразования, вычисления функции ошибки моделирования спектрограмм нейронной моделью, и двухуровневого сопоставления спектрограмм на основе информации полученной нейронной моделью;

3. Результаты экспериментов подтверждающих эффективность разработанных алгоритмов распознавания изолированных слов речи.

Практическое применение имеет созданная автором система речевого управления система речевого управления роботизированным комплексом. Разработанные автором при создании данной системы алгоритмы и методы могут использоваться в компактных встраиваемых системах распознавания речевых команд. Простота алгоритмов позволяет реализовывать их аппаратно и оснащать блоком речевого управления различную бытовую и промышленную аппаратуру. Разработанный алгоритм сегментации речевого сигнала может использоваться в системах передачи речевого сигнала (например, в IP телефонии, сотовой связи) с целью увеличения степени сжатия потока информации, а также при создании обучающих баз данных сегментированной речи. Собственное применение может иметь и разработанная для проведения экспериментов база данных слов входящих в командный язык разрабатываемой системы распознавания речевых команд.

Обоснованность и достоверность полученных результатов подтверждается корректным использованием современного математического аппарата и экспериментальной проверкой разработанных алгоритмов.

Разработанные методы и алгоритмы легли в основу системы речевого управления роботизированным комплексом. Созданный при разработке данной системы программный экспериментальный комплекс используется для формирования лабораторного практикума по дисциплинам «Моделирование систем» и «Системы искусственного интеллекта». f,

Основные результаты диссертационной работы докладывались и обсуждались на 8-й Международной конференции «Цифровая обработка сигналов и ее применение» (DSPA-2006) (Москва, Институт проблем управления РАН, 2006); V Международной научно-практической конференции «Моделирование. Теория, методы и средства» (Новочеркасск, ЮРГТУ, 2005); Всероссийской научно-технической конференции «Актуальные проблемы радиоэлектроники и телекоммуникаций» (Самара, СГАУ, 2005); Одиннадцатой Международной научно-технической конференции студентов и аспирантов «Радиоэлектроника, электротехника и энергетика» (Москва, МЭИ, 2005); Международной научно-технической конференции «Системные проблемы надежности, качества, информационных и электронных технологий в инновационных проектах» (Инноватика - 2005) (Сочи, 2005); III и IV научнопрактических конференциях профессорско-преподавательского состава ВПИ (Волжский, ВПИ (филиал) ВолгГТУ, 2004, 2005).

Диссертационная работа состоит из введения четырех глав, заключения, библиографического списка используемой литературы.

Заключение диссертация на тему "Алгоритмы распознавания речевых команд в управляющих системах"

ЗАКЛЮЧЕНИЕ

В работе был предложен метод разномасштабного описания речевого сигнала с помощью пакетного вейвлет-преобразования, и метод получения информации о переходах между звуками речи на основе нейросетевой модели, выполняющей моделирование сигнала с помощью первой главной компоненты. Эти методы были реализованы в виде алгоритмов, позволяющих получить спектральное представление речевых команд, сформировать эталоны и выполнить сравнение текущей команды с эталоном. Для настройки параметров и исследования эффективности работы алгоритмов был разработан программный комплекс, с помощью которого была проведена серия экспериментов, в которых была доказана эффективность разработанных алгоритмов.

В работе показана возможность эффективного применения аппарата пакетного вейвлет-преобразования для анализа речевого сигнала, в тех случаях, когда необходимо решать одновременно несколько задач обработки сигнала, для решения каждой из которых требуется свой частотно-временной масштаб. Показана также важность использования в системах распознавания информации о сегментации речевого сигнала. Следует отметить, что разработанный метод позволяет получать такую информацию без предварительного обучения системы, а значит, применим при анализе спектрограмм неизвестного сигнала и может найти применение для анализа неречевых сигналов. Таким образом, основными результатами работы стали:

Математическая модель спектрального представления речевого сигнала;

Математическая модель детектирования переходов между звуками речи;

Алгоритм получения спектрального представления речевого сигнала;

Алгоритм детектирования переходов между звуками речи;

Алгоритм распознавании речевых команд по их пакетным вейвлет-спектрограммам;

Программный комплекс для голосового управления конечным автоматом;

Проведенное исследование работоспособности предлагаемых алгоритмов показало их эффективность для реализации систем распознавания изолированных слов речи.

Разработанный в данной работе метод получения информации переходах между соседними звуками речи может применяться при автоматическом сегментировании обучающих речевых баз данных.

Метод получения информации о переходах между звуками может быть использован при реализации системы распознавания речи основанной на теории А.А. Пирогова о фонетической функции речи, в которой говорится о том, что человек воспринимает речевые элементы по их относительным, а не абсолютным спектрам. Выделяя стационарные сегменты и переходы между ними можно затем вычислять усредненные значения относительных спектров стационарных сегментов. Использование такого подхода, возможно позволит распознавать искаженную каналами связи речь, а также речь произнесенную шепотом.

Весьма интересной представляется возможность создания систем сжатия речевого сигнала на основе совместного применения пакетного вейвлет-представления речевого сигнала и информации о стационарных и нестационарных участках этого сигнала, получаемой разработанным алгоритмом вычисления функции ошибки моделирования. На основе данной информации можно определять сегменты с постоянными характеристиками и выполнять поиск наилучшего базиса пакетного вейвлет-преобразования для указанных сегментов. На разработке таких алгоритмов сжатия автор планирует сконцентрировать свое внимание в дальнейшем.

Библиография Литвиненко, Сергей Леонидович, диссертация по теме Информационно-измерительные и управляющие системы (по отраслям)

1. Адаптивные фильтры / под. ред. Коуэна К.Ф.Н., Гранта П.М. М.: Мир,1988.-392 с.

2. Астафьева Н.М. Вейвлет-анализ: основы теории и примеры применения / Успехи физических наук, т. 166, №11, 1996. С. 1145 - 1170.

3. Афанасьев А.А. Адаптивный кодек речевых сигналов на основе систем с переменной структурой. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

4. Ахмед Н., Рао К. Р. Ортогональные преобразования при обработке цифровых сигналов. М.: Связь, 1980

5. Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир,1989.-540 с.

6. Блейхут Р. Быстрые алгоритмы цифровой обработки сигналов. М.: Мир, -1989.-448 с.

7. Введение в цифровую фильтрацию / Под. ред. Р. Богнера, А. Константинидиса. -М.: Мир, 1976.-216 с.

8. Вокодерная телефония. Методы и проблемы / Под ред. А. А. Пирогова. -М.: "Связь", 1974.-536 с.

9. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. -СПб.: НИН В.Г. ВУС, 1999. 204 с.

10. Выхованец B.C. Адаптивная алгебра в цифровой обработке сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

11. Ганин А.Н. Модель квантования вейвлет коэффициентов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

12. Гольденберг JI. Цифровая обработка сигналов: Справочник. М.: Радио и связь. - 1985. -312 с.

13. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера. — 2006.- 1072 с.

14. Гурьев Ю.Ю. Марковская нелинейная фильтрация речевого сигнала из смеси со стационарным шумом // Радиотехника. 1983. № 12, с. 48 - 51.

15. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения, т.1, т. 2 — М.: Мир, 1983.

16. Дремин И.М., Иванов О.В., Нечитайло В.А. Вейвлеты и их использование / Успехи физических наук, т. 171, №5, 2001. С. 466 - 501.

17. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. -512 с.

18. Дыранов Ю.В., Костров В.В., Власов С.Ю. Векторное квантование коэффициентов усиления в CELP-кодере речи. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

19. Дьяконов В.П. Вейвлеты. От теории к практике. М.: COJIOH-P, - 2002. -448 с.

20. Дюран Б., Одел П. Кластерный анализ. М.: Статистика, 1977, 128 с.

21. Жиляков Е.Г., Байдиков А.Н. Об обработке речевых сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

22. Иванов А.В., Петровский А.А. Методы построения устройств распознавания речи на базе гибрида нейронная сеть/скрытая Марковская модель. // Труды 8-ой всеросийской конференции «Нейрокомпьютеры и их применение» НКП-2002. Москва, 2002.

23. Кастельянс Г., Кочетков Ю.А., Суарез X. Цифровая обработка речевых сигналов для их классификации. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

24. Кобелев В.Ю. Адаптивное вейвлет-преобразование сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

25. Ласточкин А.В., Кобелев В.Ю. Метод удаления шума на основе вейвлет обработки, адаптирванный к разрывным сигналам. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

26. Мальцев А.А., Польдин О.В., Силаев A.M. Оптимальная цифровая фильтрация сигналов с учетом воздействия случайных импульсных возмущений. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

27. Маркел Дж.Д., Грэй А.Х. Линейное предсказание речи. М.: Связь, 1980. -308 с.

28. Методы автоматического распознавания речи / под ред. У. Ли. т.1, т. 2.- М.: Наука, 1983.

29. Назаров М.В., Прохоров Ю.Н., Ковязин В.И. Алгоритмы адаптивной Марковской Фильтрации зашумленных речевых сигналов // Радиотехника. 1983. № 12, с. 10-15.

30. Нейроинформатика / А.Н.Горбань, В.Л.Дунин-Барковский, А.Н.Кирдин и др. Новосибирск: Наука. Сибирское предприятие РАН, 1998. - 296с.

31. Оссовский С. Нейронные сети для обработки информации. -М.: Финансы и статистика, 2002. 344с.

32. Патрик Э. Основы теории распознавания образов. М.: Сов. радио, 1980. — 480 с.

33. Пересада В. Автоматическое распознавание образов. JL: Энергия, 1970. — 92 с.

34. Перов А.И., Соколов Г.Г. Сравнительный анализ нейросетевых и статистических алгоритмов в задачах обнаружения сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

35. Пономарев Е.П., Прохоров Ю.Н. Адаптивная линейная фильтрация речевых сигналов. В кн.: Описание и распознавание объектов в системах искусственного интеллекта. М.: Наука., 1980, с. 32 - 41.

36. Применение цифровой обработки сигналов / Под. ред. Э. Оппенгейма. М.: Мир, 1980.-550 с.

37. Прохоров Ю.Н. Оценка параметров и фильтрация речевых сигналов при действии широкополосных помех. В кн. Речевая информатика: Сб. науч. трудов. Киев.: Ж, 1989, с. 81 - 86.

38. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М. : Радио и связь, 1981. - 496 с.

39. Рабинер Р., Гоулд Б. Теория и применения цифровой обработки сигналов. — М.: Мир, 1978.-848 с.

40. Рассел С., Норвиг П. Искусственный интеллект: современный подход. -М.: Изд. Дом «Вильяме», 2006. 1408 с.

41. Робинсон Э. История развития спектрального оценивания // ТИИЭР. 1982. -т. 70, №9. - С. 6 - 32.

42. Сапожков М.А., Михайлов В.Г. Вокодерная связь. М.: Радио и связь, 1983. -248 с.

43. Сергиенко А.Б. Цафровая обработка сигналов. СПб.: Питер, 2003. - 608 с.

44. Стефанов A.M., Стефанова И.А. Эффективное использование интегрирующей способности слуха при цифровой обработке сигналов. //докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

45. Терентьев В.М., Илюхин А.А. Алгоритмы оптимальной фильтрации состояний цепей Маркова с зашумленными наблюдениями. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.

46. Уидроу Б., Стирнз С. Адаптивная обработка сигналов. М.: Радио и связь. -1989.-440 с.

47. Уоссермен Ф. Нейрокомпьютерная техника. 1992. -230 с.

48. Уэлстид С. Фракталы и вейвлеты для сжатия изображений в действии. М.: Изд. Триумф, 2003. - 320 с.

49. Федяев О.Н., Гладунов С.А. Распознавание речевых слов по низкочастотным гармоникам с помощью нейросетей. // Труды 8-ой всеросийской конференции «Нейрокомпьютеры и их применение» НКП-2002. Москва, 2002.

50. Физиология речи. Восприятие речи человеком. JL: Наука, 1976. - 388 с.

51. Фу К. Последовательные методы в распознавании образов. М.: Наука, 1971.-256 с.

52. Фукунага К. Введение в статистическую теорию распознавания. М.: Наука, 1979.-368 с.

53. Хайкин С. Нейронные сети. М.: Изд. Дом «Вильяме», 2006. - 1104 с.

54. Чуй К. Введение в вэйвлеты. М.: Мир, 2001. - 412 с.

55. Acero S. Acoustical and Environmental Robustness in Automatic Speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 1990.

56. Alphonso I.J. Network training for continuous speech recognition. The Master thesis. Mississippi Sate University. USA. 2001.

57. Backstrom T. Time-Delay Neural Networks and NN/HMM Hybrids: A Family of Connectionst Continuous-Speech Recognition Systems. Laboratory of Acoustics and Audio Signal Processing Helsinki University of Technology. 2002.

58. Bultheel A. Wavelets with applications in signal and image processing, NALAG, 2003.

59. Cariani P. Temporal codes, timing nets, and music perception // Jornal of New Music Research, 2001. Vol. 30. - Pp. 107-135.

60. Edwards R.T. An Overview of Temporal Backpropagation Standford University. USA. 1991.

61. Fu-Hua Liu Environmental Adaptation for Robust Speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 1994.

62. Goodwin M.M. Adaptive Signal Models: Theory, Algorithms, and Audio Applications. The Ph. D. thesis. University of California. USA. 1997.

63. Gopinath R.A., Burrus C.S. Wavelets and filter banks. In Charles K. Chui, editor, Wavelets: A Tutorial in Theory and Applications , pp. 603 654. Academic Press, San Diego, CA, 1992.

64. Goswami J., Chan A. Fundamentals of Wavelets: Theory, Algorithms, and Applications, John Wiley & Sons Inc., NY, 1998.

65. Gouvea E.B. Acoustic-Feature-Based frequency Warping for Speaker Normalization. The Ph. D. thesis. Carnegie Mellon University. USA. 1998.

66. Gupta M., Gilbert A., Robust speech recognition using wavelet coefficient features, Proc. of IEEE Automatic Speech Recognition and Understanding Workshop, Italy, 2001.

67. Gustafsson F. Adaptive Filtering and Change Detection. Cloth, Wiley, 2001.

68. Herley С., Vetterli M. Wavelets and Recursive Filter Banks, IEEE Trans. Signal Processing, vol. 41, no. 8, pp. 2536 2556, Aug. 1993.

69. Huerta J.M. Speech Recognition in Mobile Environments. The Ph. D. thesis. Carnegie Mellon University. USA. 2000.

70. Huseyin H., Nishan C. Musical instrument recognition with wavelet envelopes. European Acoustics Association (Hg). in: Proceedings of Forum Acusticum Sevilla 2002.

71. Jian Lu Signal Recovery and Noise Reduction with Wavelets. The Ph. D. thesis. Dartmouth College. USA. 1993.

72. Kasper K., Reininger H., Wust H. Strategies for Reducing the Complexity of a RNN Based Speech Recognizer, IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol.6, pp.3354-3357 (1996).

73. Kurth F., Clausen M., "Filter bank tree and M-band wavelet packet algorithms in audio signal processing," IEEE Trans. Signal Processing, vol. 47, pp. 549-554, Feb. 1999.

74. Long C., Datta S. Wavelet Based Feature Extraction for Phoneme Recognition. Proc. Of 4th Int. Conf. of Spoken Language Processing, Philadelphia, USA, Vol. 1 (1996)264-267

75. Mertins A. Signal Analisys: Wavelets, Filter Banks, Time Frequency Transforms and Applications, John Wiley & Sons Ltd., NY, 1999.

76. Micheli-Tzanakou E. Supervised and unsupervised pattern recognition: feature extraction and computational intelligence, CRC Press LLC, 2000.

77. Minker W. Speech And Human-Machine Dialog, Kluwer Academic Publishers, NY, 2004.

78. Morena P. Speech Recognition in Noisy Environments. The Ph. D. thesis. Carnegie Mellon University. USA. 1996.

79. Narayanaswamy S. Pen and Speech Recognition in the User Interface for Mobile Multimedia Terminals. The Ph. D. thesis. University of California. USA. 1996.

80. Oja E. Principal components, minor components and linear neural networks // Neural Networks, 1992. Vol 5. - Pp.927 - 935.

81. Picone J. Signal Modeling Techniques In Speech Recognition. Proc. of the IEEE. 1993.

82. Potamianos G., Graf H., Cosatto E. An Image Transform Approach for HMM Based Automatic Lipreading. In Proc. IEEE International Conference on Image Processing, volume III, pages 173-177, Chicago, 1998.

83. Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In Рос. of the IEEE, vol. 77, no 2, pp. 257 286.

84. Ramakrishnan B.R. Reconstruction of Incomplete Spectrograms for Robust speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 2000.

85. Rudnicky A.I., Hauptmann A.G. Survey of Current speech Technology. Carnegie Mellon University. USA. 1994.

86. Sarikaya R., Hansen J.H.L., "High Resolution Speech Feature Parameterization for Monophone Based Stressed Speech Recognition," IEEE Signal Processing Letters, Vol. 7, No. 7, Pages 182-185, July 2000.

87. Seekings P., Potter J. Classification of marine acoustic signals using Wavelets & Neural Networks Proceeding of 8th Western Pacific Acoustics conference (Wespac8), Australia, April 7-9, 2003.

88. Shapiro J. Embeded Image Coding Using Zerotrees Of Wavelet Coefficients. IEEE Transactions on Signal Processing, Vol. 41, No. 12 (1993), p. 3445-3462.

89. Stergiopoulos S. Signal Processing Concept Similarities among Sonar, Radar, and Medical Imaginging Systems, CRC Press LLC, 2001.

90. Storm H. Noise Reduction of Speech Signals with Wavelets. The Ph. D. thesis. Goteborg University. Sweden. 1997.

91. Sullivan T.M. Multi-Microphone Correlation-Based Processing for Robust Automatic Speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 1996.

92. Tan В., Fu M., Spray A., Dermody P. The Use of Wavelet Transforms in Phoneme Recognition. The Fourth International Conference on Spoken Language Processing (ICSLP), Philadelphia, October, 1996.

93. Tzanetakis G., Essl G., Cook P. R. "Audio Analysis Using the Discrete Wavelet Transform," In Proceedings of of WSES International Conference, Acoustics and Music: Theory and Applications (AMTA), Skiathos, Greece, 2001.

94. Wei Xu, Rudnicky A. Can Artificial Neural Networks Learn Language Models. Carnegie Mellon University. USA. 2000.

95. Wickerhauser, M.V. (1991), "INRIA lectures on wavelet packet algorithms," Proceedings ondelettes et paquets d'ondes, 17-21 June, Rocquencourt France, pp. 31-99.

96. Wornell G. Signal Processint with Fractals: A Wavelet-based Approach, Prentice Hall, NJ, 1996.

97. Xiong Z., Ramchandran K., Orchard M. Wavelet Packet Image Coding Using Space-Frequency Quantization. IEEE Trans, on Image Processing, vol. 7, no. 6., pp. 892-898, June 1998.

98. Yosiaki Ohshima Environmental Robustness in Speech Recognition using Physiologically-Motivated Signal Processing. The Ph. D. thesis. Carnegie Mellon University. USA. 1993.169