Применение вейвлет-анализа в задачах автоматического распознавания речи

Бойков, Федор Геннадиевич

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Применение вейвлет-анализа в задачах автоматического распознавания речи

кандидата физико-математических наук: Бойков, Федор Геннадиевич
город: Москва
год: 2003
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Применение вейвлет-анализа в задачах автоматического распознавания речи»

Автореферат диссертации по теме "Применение вейвлет-анализа в задачах автоматического распознавания речи"

На правах рукописи

ПРИМЕНЕНИЕ ВЕЙВЛЕТ-АНАЛИЗА В ЗАДАЧАХ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ

Специальность 05.13.18- Математическое моделирование, численные методы и комплексы программ.

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата физико-математических наук

Москва - 2003

Работа выполнена на кафедре информатики Московского физико-технического института (государственного университета)

Научные руководители:

доктор физико-математических наук,

профессор

кандидат физико-математических наук

Петров

Игорь Борисович

Старожилова Татьяна Константиновна

Официальные оппоненты:

доктор физико-математических наук

профессор

кандидат физико-математических наук

Малинецкий Георгий Геннадиевич

Руденко

Денис Владимирович

Ведущая организация

Вычислительный центр имени А. А. Дородницына Российской академии наук

Защита состоится « Ц » _2003 г. в 9 час.

на заседании диссертаци<йного сбвета к 212.156.02 при Моског

заседании диссертационного совета к 212Л5ЬШ при Московском физико-техническом институте по адресу Московская обл., г. Долгопрудный, Институтский пер., д.9

Автореферат разослан« » ОШМс^Ц

2003 г.

Учёный секретарь диссертационного совета

Федько О.С.

2.00 3-А

Общая характеристика работы

Речь является наиболее естественной формой обмена информацией между человеком и машиной. Преимущества использования устной речи для общения с машинами сказываются также в снятии некоторых ограничений, которые присущи традиционным устройствам ввода-вывода, например, в освобождении рук и фиксированного положения тела оператора, необходимости использования клавиатуры и дисплея. Для многих миниатюрных устройств, таких как мобильные телефоны и ладонные компьютеры наличие встроенных систем распознавания и синтеза речи является единственным удобным способом обмена информацией.

Несмотря на то, что реализация речевого диалога с компьютерами на естественном разговорном языке до сих пор остается нерешенной задачей, современные методы цифровой обработки речевых сигналов успешно позволяют частные прикладные задачи из этой области. К таким приложениям можно отнести задачи распознавания раздельно и слитно произносимой речи (от простого распознавания произносимых слов и предложений до голосового управления различными системами), верификации и дентификации дикторов, медицинскую диагностику на основе исследования параметров речи (обнаружений патологий), и даже разработку детекторов лжи (распознавание эмоционального состояния).

когда необходимо принятие ответственных решений. Это обстоятельство делает актуальными задачи разработки и исследования принципиально новых методов оценки информативных признаков речевого сигнала.

До настоящего времени основным средством анализа речевого сигнала являются, в частотной области, преобразование Фурье, которое переводит исходный сигнал из амплитудно-временного пространства в частотно-временное, а во временной области- линейное предсказание речи, которое описывает речевой сигнал с помощью модели авторегрессии.

Существующие подходы несут в себе ряд ограничений связанных как с качеством частотно-временного представления сигнала, так и со скоростью и объёмом вычислений, необходимых для преобразования. С появлением теории вейвлет-преобразования эти ограничения частично снимаются. Например, алгоритм быстрого вейвлет-преобразования (Fast Wavelet Transform — FWT) на основе ортогональных вейвлетов позволяет сократить объём вычислений и повысить скорость преобразования, которая так важна для задач в масштабе реального времени.

сигнале. Кроме того, оконное Фурье-преобразование, являясь частным случаем вейвлет-преобразования, не даёт в полной мере варьировать свои частотно-временные характеристики для подстройки системы под конкретную задачу. В отличие от традиционного преобразования Фурье, вейвлет-преобразование определено неоднозначно: каждому вейвлету соответствует свое преобразование. Это позволяет тщательнее подобрать вейвлет-функцию с хорошими свойствами частотно-временной локализации.

Получение дополнительной информации с разных масштабов времени и разных масштабов разрешения сигнала может улучшить точность распознавания речи.

Существуют также психо-физиологические соображения в пользу использования анализа речевого сигнала на основе вейвлетов. Человеческое ухо устроено так, что при обработке ¡звукового сигнала оно передает мозгу вейвлет-образ сигнала. Колебания амплитуды давления передаются от барабанных перепонок не мембрану и далее распространяются по всей длине завитка внутреннего уха. Завиток скручен в виде спирали во внутреннем, ухе. Если представить, что завиток распрямлён в некоторый сегмент, а вместе с ним и распрямлена мембрана, то можно показать, что результирующее преобразование сигнала будет с точностью до константы совпадать с вейвлет-преобразованием.

Это определяет актуальность темы диссертационной работы, посвящённой разработке алгоритмов вейвлет-анализа речевого сигнала и построению системы автоматического распознавания речи на основе вейвлет-анализа.

Цель диссертационной работы заключается в разработке и исследовании методов параметризации речевого сигнала на основе вейвлет-преобразования, а также практическом применении этих методов в системе распознавания речи.

Для достижения указанной цели в диссертационной работе решаются следующие основные задачи исследования:

1. Анализ существующих методов обработки речевых сигналов на основе вейвлетов;

2. Анализ существующих систем автоматического распознавания речи с использованием вейвлетов;

3. Разработка методов предобработки речевого сигнала на основе диадических вейвлетов;

4. Разработка методов и алгоритмов анализа речевого сигнала, основанных на вейвлетах, с использованием свойств восприятия звуковой информации и речеобразования;

5. Экспериментальное исследование и настройка разработанных алгоритмов в системе автоматического распознавания речи.

Научная новизна работы заключается в следующем:

1. Разработаны алгоритмы вейвлет-анализа речевого сигнала с применением диадических вейвлетов для построения системы распознавания речи.

2. Разработаны алгоритмы вейвлет-анализа речевого сигнала на основе моделирования механизмов речеобразования и слуха человека.

3. На основе разработанных алгоритмов построен блок предобработки речевого сигнала для системы автоматического распознавания речи. Выполнены численные эксперименты по тестированию созданной системы.

Научная значимость полученных результатов заключается в разработке новых эффективных методов анализа речевого сигнала и их успешного применения в системе распознавания речи.

Практическая значимость полученных результатов состоит в том, что на осйове предложенных алгоритмов и моделей можно строить блоки предварительной обработки речевого сигнала для систем распознавания речи.

Основные положения и результаты диссертационной работы докладывались и обсуждались на международной конференции SPEECOM-2003, научной конференции «Теория и практика речевых исследований» (АРСО-2003), научной конференции «Математические методы распознавания образов» (ММР02003), научных конференциях МФТИ 2001-2003 г.г., на семинарах кафедры информатики МФТИ, семинарах Института прикладной математики им. М.В. Келдыша РАН.

По теме диссертации опубликовано 7 работ. Диссертационная работа

ЛЛОТЛТГТ1 Tin nT>QTTÖTrUfT 11 l'»äv ТЧ»ЛГ> TT lowTTT/~»ТТЛТТТТГТ

WUV1UI11 ПО IpVA ХЛШЗ, Kl JCllÜllUIWni'iA.

Основное содержание работы

Во введении обосновывается актуальность работы, новизна и практическая значимость результатов, рассматривается краткое содержание диссертации.

В первой главе излагаются основные особенности вейвлет-преобразования применительно к задачам обработки речи, особенности кратномасштабного анализа и ортогональных вейвлетов, а также быстрый алгоритм вычисления параметров вейвлет-преобразования.

Вейвлет-анализ - это исследование сигнала № при помощи вычисления величин, аналогичных (11), но с другими «пробными

функциями». Сигнал-^ интерпретируется, как функция из L а вместо

Ь ш\ , „ = ¥

гармоник I ) используется система функции

занумерованных не целыми числами, а двумя непрерывными параметрами.

Эта система получается из фиксированной функции всевозможными

сдвигами и растяжениями. Функция называется вейвлетом (по-

английски - wavelet; в русской математической литературе используется

также термин всплеск), если:

• У М непрерывна;

• интегрируема на всей прямой;

Г Wif)dt = 0 ф #—00

Вейвлет-преобразованием называется функция двух переменных

ть,а)=-Г /(**(—]<*

а*-™ \ а ) (1)

Итак, в отличие от преобразования Фурье, вейвлет-преобразование определено неоднозначно: каждому вейвлету соответствует свое преобразование. В качестве анализирующих вейвлетов обычно выбираются функции, хорошо локализованные также и в

«пространственной области». Центры частотно-временной локализации для диадических вейвлетов (вейвлетов с коэффициентом а равным 2) на плоскости спектрограммы показаны на рис. 1.

• —► 1

• •

• • ф ф

'г

Рис. 1.

На каждом частотном уровне количество центров частотно-временной локализации в два раза меньше, чем на предыдущем уровне, частота которого выше. Существует корреляция между вейвлет-коэффициентами как по шкале времени, так и по шкале частот.

В этой главе также анализируются существующие методы обработки речевого сигнала на основе технологии вейвлет-преобразования.

Вторая глава посвящена разработке блока предобработки речевого сигнала на основе вейвлетов. Рассмотрены диадические и недиадические вейвлеты.

При использовании диадических вейвлетов в качестве материнской функции была выбрана функция Добеши-9 (график этой функции изображён на рис.2. Спектр функции показан под графиком).

Поскольку этот базис является ортонормированным, то это дало возможность реализовать быстрый алгоритм вычисления вейвлет-коэффициентов на каждом частотном уровне через уже найденные коэффициенты на уровне с более высокой частотой. Так как

масштабирующий параметр вейвлетов был равен 2, то соседние уровни вейвлетов отличались по частоте в два раза. Коэффициенты вычислялись посредством усреднения или поиска максимального с носителя на каждом частотном уровне. Логарифм этих значений и представляли собой вектор признаков, который передавался системе распознавания в каждый квант времени, равный половине длины «окна».

2 г——I-1-1---1-1-1-1 11

рис.2

Установив смещение «окна» равное его половине, каждый раз необходимым является только вычисление «новой половины окна», так как параметры «старой половины» сохранились с предыдущего шага по времени.

В случае применения недиадических вейвлетов рассмотрены вопросы использования вейвлетов с учётом особенностей человеческого слуха, а также с учётом моделирования речевоспроизведения.

При разработке акустического процессора на недиадических вейвлетах учитывались особенности человеческого слуха. В частотном

диапазоне 250 — 13000 Гц вейвлеты были подобраны так, что их спектральные максимумы соответствовали критическим полосам человеческого слуха.

В пределах одной и той же полосы слух обладает интегрирующим свойством по отношению к восприятию тонов и шума. Например, если минимальный уровень восприятия тона 1000 Гц равен +3 дБ (т. е. тон меньшей амплитуды, например, 0 дБ уже не было слышно), то подача вместе с тоном 1000Гц еще тона 950 Гц тоже амплитуды 0 дБ приводила к тому, что сигнал был слышен клиентом. В случае если клиент подавались два тона в одной частотной полосе, то клиент слышал только тот тон, который имел большую амплитуду. Этот эффект традиционно называется эффектом маскировки. Всего человек различает примерно 620-640 градаций тона по частоте.

В таблице 1 приведены частотные группы восприятия звукового сигнала человеком в диапазоне 20 Гц - 16 кГц (так называемая шкала в барках), полученные в экспериментах.

Для полос с частотой свыше 250 Гц в качестве материнской функции был выбран базис Добеши-8 (функция показана на рис.3. Спектр функции показан под графиком).

Как видно из спектра, Добеши-8 имеет максимум на 11/16 от частоты дискретизации самой вейвлет-функции. Подберём такие функции, чтобы максимум их спектра совпадал с серединой частотной полосы характерной для слуха:

fc ~ -/шах ~~77fecM> (2)

где — середина частотной полосы, /тах — спектральный максймум для Добеши-8,— частота дискретизации вейвлета. Для длины носителя Добеши-8 в секундах имеем:

/(sec) = 16-

Теперь с учётом (2) получим:

/(sec)=

/«»(I/sec)

/C(l/sec)

(3)

(4)

Номер Средняя частота полосы (Гц) Ширина полосы (Гц)

1 50 80

2 150 100

3 250 100

4 350 100

5 450 110

6 570 120

7 700 140

8 840 150

9 1000 160

10 1070 190

11 1370 210

12 1600 240

13 1850 280

14 2150 320

15 2500 380

16 2900 450

17 3400 550

18 4000 700

19 4800 900

20 5800 1100

21. 7000 1300

22 8500 1800

23 10500 2500

24 13500 3500

Таблица 1.

0.5 1 1.5 2

Рис. 3.

И для длины носителя каждой вейвлет-функции в сэмплах имеем:

1(этр) = 11

/дисгретюащт (11ЯеС)

(5)

/с(1/вес)

где /дискретизации — частота дискретизации входного речевого сигнала (в наших экспериментах она равна 22050 Гц).

Масштабируя, таким образом, функции базиса для каждой частотной полосы, мы получим систему функций, с помощью которой и будем исследовать сигнал. Исследование сигнала производится посредством вычисления вектора признаков в каждый квант времени. В этих точках вычисляется свёртка 8(п) каждой вейвлет-функции с сигналом. После того, как известны все вейвлет-функции для каждой частотной полосы, необходимо затабулировать значения интегралов этих функций с шагом дискретизации входного речевого сигнала. Эти данные понадобятся для вычисления свёрток вейвлет-функций с входным сигналом

Обозначив эти интегралы для каждой функции на каждом отрезке

квантования как 1(т,п), и полагая исходный речевой сигнал кусочно-постоянным, для свёрток 8(п) получим:

Т и и '-"+1 м

„О _ <п=0 ,„т я-0 ,,„ я=0

где М — размер носителя, ш — индекс точек в носителе, а п — индекс частотной полосы, носители которых располагаются вправо по сигналу от точки вычисления вне зависимости от их длины. Логарифм значения вычисленных свёрток и будет составлять компоненты вектора признаков в верхней области частот.

В области нижних частот существенное влияние на формирование речевого сигнала оказывает голосовой источник. Его влияние наиболее существенно сказывается в области основного тона, т. е. в низкочастотном диапазоне (~ 100 Гц). Поэтому в качестве области определения вейвлет преобразования на основе голосового источника на шкале частот выбран диапазон 100-250 Гц.

Для тщательного анализа речевого сигнала в области нижних частот построена вейвлет-функция на основе моделирования голосового источника человека:

¥Л0 =

л/Г

1-сов ц

2 л: сое

ц а

2 1-а

0<—£а; Т

а<-<, 1; Т

1<0, 1>1. т т

(6)

где к = г/Л+а » 0,9534625, Масштабирующим параметром

данном случае является Т.

Графики функций Н*г(0 при значениях Т = 3мс, 5 мс, Юме и соответствующие АЧХ приведены на рис. 4.

Wa\elets functions

1.5

0.5

4 5 6

Time, ms

Wavelets spectra

0.02

Рис.4

Эта функция получена на основе моделирования динамика объемной скорости воздуха в голосовой щели и зависит от изменения площади поперечного сечения голосовой щели во времени.

Исследование сигнала в области нижних частот велось для следующих частотных масштабов: 50, 100, 150, 200 Гц. Масштабируя полученную

функцию так, чтобы спектральные максимумы соответствовали этому набору частот, мы получим систему вейвлет-функций для исследования речевого сигнала в области нижних частот. Вычисляя свёртку сигнала с каждой из этих функций в каждый квант времени и вычисляя логарифм от этих значений, будут получены ещё четыре компоненты вектора признаков для системы распознавания речи.

Третья глава посвящена численным экспериментам по исследованию точности автоматического распознавания раздельной и слитной речи для системы с блоком предобработки, основанном на вейвлетах.

Описывается система распознавания речи, основанная на моделировании речевого сигнала с помощью дискретных марковских моделей аллофонов (контекстно-зависимых вариантов фонем). В описанных экспериментах система распознавания включала модели для алфавита из 540 марковских моделей аллофонов, полученных с помощью построения бинарного решающего дерева. Каждая модель состояла из трех состояний. Распределение параметров речевого сигнала для каждого состояния оценивалось на материале речевого корпуса данных. Распознавание речевого сигнала выполнялось с помощью процедуры Витерби.

Оконное вейвлет-преобразование применяется к входному речевому сигналу. Оцененные параметры с каждого «окна» передаются системе для построения двумерных карт признаков. Карта признаков представляет собой двумерный набор ячеек, каждая из которых содержит в себе характерную комбинацию амплитуд признаков.

Формирование карт происходит до формирования марковских моделей следующим образом. Изначально все ячейки содержат случайный набор амплитуд признаков. Каждый из векторов признаков, сформированных вейвлет-преобразованием части речевого сигнала, соотносится к определённой ячейке по мере <12. После этого корректируются все ячейки карты, находящиеся внутри определённого радиуса. Радиус этот убывает во времени, что в пределе приводит к тому, что очередной поступивший вектор признаков корректирует только ту ячейку, к которой он был отнесён.

На стадии обучения карты используются для составления марковских моделей. На стадии распознавания карты также используются, как механизм двумерной кластеризации векторов признаков.

Эксперименты по распознаванию проводились на материале фонетической части речевого корпуса данных ТеСоКш. В частности, использовался сигнал микрофонного качества, с частотой квантования 22050 Гц. Эта частота и определила самый мелкий масштаб вейвлет-коэффициентов, соответствующий самой высокой частоте.

При вычислении точности распознавания учитывались произношения слов, как известными системе дикторами (чьё произношение использовалось при обучении), так и новыми для системы. В случае распознавания слитной речи неверно распознанными считались те цепочки слов, где хотя бы одно слово было распознано неверно.

Применяя оконное вейвлет-преобразование для диадических вейвлетов для базиса Добеши-9 с алгоритмом быстрого вычисления, варьировалось количество частотных уровней вейвлет-коэффициентов.

При заданной верхней частоте вейвлет-коэффициентов количество частотных уровней, ширина окна и количество используемых вейвлет-коэффициентов однозначно определяются нижним уровнем частот коэффициентов.

Использование слишком низкого порога нижней частоты приводит к излишнему усложнению вычислительных операций, а ограничение преобразования более высоким порогом нижних частот приводит к потерям необходимой информации для распознавания речи. С целью оптимизировать нижний уровень частот вейвлет-преобразования были проведены испытания системы для различного уровня нижних частот: 400 Гц, 800 Гц и 1600 Гц. В данном эксперименте производились оценки точности распознавания изолированных слов.

В таблице 2 приведены параметры вейвлет преобразования для используемых частот и полученная точность распознавания.

Нижняя частота, (Гц) Размер "окна" (точки) Количество параметров Точность распознавания

400 960 25 77,4%

800 480 13 90,9%

1600 240 7 80,9%

Таблица 2.

Падение точности распознавания при использовании более низких порогов для нижнего уровня частоты обусловлено тем, что на стадии обучения систем, имея низкочастотный фильтр, работает с большим «окном». Вычисляя параметры с этого большого «окна», системе необходимо сопоставить их какому-то одному звуку в определённой позиции и окружении. Но поскольку размер «окна» велик, то в него попадает много посторонней информации звукового сигнала. Это

приводит к ухудшению статистики обучения. Такая ситуация требует разработки алгоритма корректного соотнесения параметров «окна» и звуков речевого сигнала на стадии обучения.

В следующем эксперименте производились оценки точности для изолированного произношения и слитного произношения цифр. В таблице 3 представлены результаты тестирования системы для слитного и изолированного произношения (точность указана в целом и для каждого пола отдельно).

Тип произношения Мужчины Женщины Всего

Изолированное произношение 88% 92% 90%

Слитное произношение 68% 64% 66%

Всего 78% 78% 78%

Таблица 3.

С целью повысить точность распознавания, было принято решение проводить обучение системы отдельно для разных полов. В таблице 4 представлена в процентах точность распознавания для разных полов, на

моделях, построенных для каждого пола дикторов отдельно.

Тип произношения Мужчины Женщины

Изолированное произношение 94% 94%

Слитное произношение 72% 64%

Всего 82% 69%

I Таблица 4.

Предыдущие эксперименты показали недостаточную точность распознавания речи с применением акустического процессора, * основанного на диадических вейвдетах. Причиной тому послужило малое

количество частотных уровней фильтров акустического процессора, а также отсутствие учёта особенностей человеческого слуха и ' речевоспроизведения.

В связи с этим, в качестве системы вейвлет-функций в диапазоне частот 250 — 13000 Гц для исследования речевого сигнала были выбраны функции Добеши-8, отмасштабированные в соответствии с критическими полосами человеческого слуха. А в частотной области 50 — 250 Гц в качестве анализирующих функций были выбраны отмасштабированные вейвлет-функции голосового источника.

Также производились оценки точности для изолированного произношения и слитного произношения цифр. Обучение системы велось отдельно для дикторов-мужчин и диктров-женщин. Результаты оценки точности распознавания представлены в таблице 5 раздельно для каждого пола.

Тип произношения Мужчины Женщины

Изолированное произношение 98% 98%

Слитное произношение 84% 80%

Всего 91% 89%

Таблица 5.

Данные результаты сравнимы с точностью распознавания этой же системы с блоком предобработки на основе Фурье-признаков.

Одним из возможных дальнейших путей улучшения точности распознавания является оптимизация пространства информативных признаков. Эта многомерная задача требует существенных вычислительных ресурсов. В частности, для её решения могут быть применены суперкомпьютерные комплексы с параллельной архитектурой.

Заключение

Полученные в работе результаты, как блок предобработки речевого сигнала, были использованы в построении системы распознавания речи на основе вейвлетов.

Перечислим основные результаты работы:

1. Разработана технология исследования речевого сигнала на основе диадических вейвлетов;

» 2. Получена вейвлет-функция на основе моделирования

голосового источника человека;

3. Разработаны математические модели, методы, алгоритмы и

1 комплексы программ для анализа речевого сигнала,

основанные на вейвлетах, особенностях человеческого слуха и речеобразования;

^ 4. На основании разработанных численных методов и комплексов

программ проведены исследование и настройка алгоритмов

1 анализа речевого сигнала в системе автоматического

^ распознавания речи.

! Список работ, опубликованных по теме

диссертации:

1. Бойков Ф.Г., Старожшова Т.К. Применение вейвлет-анализа сигнала в системе распознавания речи. / Материалы III Всеросийской конференции «Теория и практика речевых исследований» (АРСО-2003). -М.:МГУ, 2003. - С. 12-16.

2. Fedor G. Boykov, Tatyana К. Starojilova. Wavelet Transform

' Application To Robust Speech Recognition. / Труды

международной конференции «8РЕЁСОМ-2003». - М.: МГЛУ, 2003.-С. 202-204.

3. Бойков Ф.Г. Многомерная оптимизация признаков в задачах распознавания речи. // Обработка информации и моделирование: Сб.ст./Моск.физ.-тех. ин-т. - М., 2002. - С. 29-36.

4. Бойков Ф.Г., Старожилова Т.К. Применение вейвлет-анализа сигнала в системе распознавания речи. / Доклады XI Всероссийской конференции «Математические методы распознавания образов». - М., 2003. - С. 247-250.

5. Бойков Ф.Г. Использование Центра высокопроизводительных вычислительных технологий Московского физико-технического института. / Труды X Всероссийской научно-методической конференции «Телематика-2003». - Санкт-Петербург: СПбГИТМО, 2003. - С. 333-334.

6. Бойков Ф.Г. Многомерная оптимизация признаков фонетико-артикуляторных событий в системе распознавания речи / Труды ХЬУ научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук». - М.:МФТИ, 2002. - С. 49

7. Бойков Ф.Г. Вейвлет-анализ в задачах распознавания речи / Труды ХЬУ научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук». - М.:МФТИ, 2003.-1С.

Бойков Фёдор Геннадиевич

Применение вейвлет-анализа в задачах автоматического распознавания речи

Автореферат

Подписано в печать 24.10.2003. Формат 60x90/16 Усл. печ. л. 1.0. Тираж 100 экз. Заказ № 334 Московский физико-технический институт (государственный университет) Печать на аппаратуре Rex-Rotary Copy Printer 1280. НИЧ МФТИ

141700, г. Долгопрудный Московской обл., Институтский пер., д. 9

P 17312

Оглавление автор диссертации — кандидата физико-математических наук Бойков, Федор Геннадиевич

Введение

Глава 1. Обзор применения технологии вейвлет-анализа

Вейвлеты и их свойства

Вейвлет-преобразование

Кратномасштабный анализ и ортогональные вейвлеты

Быстрый алгоритм вычисления ортогонального вейвлет-преобразования

Мультивейвлеты

Вейвлеты в обработке речи

Очистка речевого сигнала от шума

Сегментация речевого сигнала и определение основного тона

Автоматическое распознавание речи

Выводы к главе 1:

Глава 2. Разработка и исследование методов параметризации речевого сигнала на основе вейвлет-анализа

Параметризация на основе диадических вейвлетов

Схема вычисления коэффициентов вейвлет-преобразования

Схема формирования вектора признаков

Оценка параметров на основе недиадических вейвлетов

Вейвлет преобразование в области нижних-частот на основе голосового источника

Вейвлет преобразование в области верхних частот

Выводы к главе 2:

Глава 3. Численное моделирование распознавания речи на основе вейвлетного анализа

Распознавание слитной речи на основе вейвлет-анализа

Архитектура системы распознавания слитной речи

Оценка параметров дискретных марковских моделей с помощью самоорганизующихся карт признаков Кохонена.

Оценка параметров на основе диадических вейвлетов

Расчетные формулы

Речевой материал

Результаты численных экспериментов

Оценка параметров на основе недиадических вейвлетов

Расчетные формулы

Речевой материал

Результаты численных экспериментов

Выводы к главе 3:

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Бойков, Федор Геннадиевич

В связи со стремительным развитием информационных технологий в течение последних десятилетий значительно расширился круг задач, решаемых с помощью вычислительной техники. Также более разнообразными стали способы взаимодействия человека с различного рода электронными информационными системами. В частности речевые пользовательские интерфейсы внедряются в разнообразные автоматизированные системы.

Несмотря на то, что реализация речевого диалога с компьютерами на естественном разговорном языке до сих пор остается нерешенной задачей, современные методы цифровой обработки речевых сигналов успешно позволяют частные прикладные задачи из этой области. К таким приложениям можно отнести задачи распознавания раздельно и слитно произносимой речи (от простого распознавания произносимых слов и предложений до голосового управления различными системами), верификации идентификации дикторов, медицинскую диагностику на основе исследования параметров речи (обнаружение патологий), и даже разработку детекторов лжи (распознавание эмоционального состояния).

Существующие технологии имеют ряд ограничений по надёжности и скорости распознавания, чувствительности к помехам, искажениям, ограничениям полосы частот. Эти ограничения не позволяют использовать системы с речевыми интерфейсами, во многих практических ситуациях, когда необходимо принятие ответственных решений. Это обстоятельство делает актуальными задачи разработки и исследования принципиально новых методов оценки информативных признаков речевого сигнала.

В связи с этим актуальными задачами являются задачи улучшения надёжности и скорости речевых систем на основе новых технологий.

Возможность успешного применения вейвлетов в задачах обработки и распознавания речи вытекает из свойств речевого сигнала. Вейвлеты, как средство многомасштабного анализа позволяют выделять, одновременно как основные характеристики сигнала, так и короткоживущие высокочастотные явления в речевом сигнале. Это свойство является существенным преимуществом в задачах обработки речевого сигнала по сравнению с оконным преобразованием Фурье, где, варьируя ширину окна, приходится выбирать масштаб явлений, которые необходимо выделить в сигнале. Кроме того, оконное Фурье-преобразование, являясь частным случаем вейвлет-преобразования, не даёт в полной мере варьировать свои частотно-временные характеристики для подстройки системы под конкретную задачу. В отличие от традиционного преобразования Фурье, вейвлет-преобразование определено неоднозначно: каждому вейвлету соответствует свое преобразование. Это позволяет тщательнее подобрать вейвлет-функцию с хорошими свойствами частотно-временной локализации.

Существуют также психофизиологические соображения [7] в пользу использования анализа речевого сигнала на основе вейвлетов. Человеческое ухо устроено так, что при обработке звукового сигнала оно передает мозгу вейвлет-образ сигнала. Колебания амплитуды давления передаются от барабанных перепонок не мембрану и далее распространяются по всей длине завитка внутреннего уха. Завиток скручен в виде спирали во внутреннем ухе. Если представить, что завиток распрямлён в некоторый сегмент, а вместе с ним и распрямлена мембрана, то можно показать, что результирующее преобразование сигнала будет с точностью до константы совпадать с вейвлет-преобразованием.

Многочисленные исследования применения вейвлет-анализа речевого сигнала, некоторые результаты которых рассмотрены в Главе 1, показали адекватность применения технологии вейвлет-анализа для исследования речевого сигнала.

Обзор и анализ опубликованных работ показывает, что:

1. Технология вейвлет-анализа может быть успешно применена для исследования характерных особенностей сигнала, как средство многомасштабного анализа с хорошими показателями частотно-временной локализации;

2. До сих пор на основе вейвлетов не создана система распознавания речи, сравнимая по показателям с системами, основанными на Фурье-преобразовании;

3. Задача разработки системы распознавания речи с применением вейвлетов требует подхода, учитывающего особенности человеческого восприятия речевой информации и речевоспроизведения.

Для достижения указанной цели в диссертационной работе решаются следующие основные задачи исследования:

1. Анализ существующих методов обработки речевых сигналов на основе вейвлетов;

2. Анализ существующих систем автоматического распознавания речи с использованием вейвлетов;

3. Разработка методов предобработки речевого сигнала на основе диадических вейвлетов;

4. Конструирование методов и алгоритмов анализа речевого сигнала, основанных на вейвлетах, с использованием свойств восприятия звуковой информации и речеобразования;

Научная новизна работы заключается в следующем:

На основе разработанных алгоритмов построен блок предобработки речевого сигнала для системы автоматического распознавания речи. Выполнены численные эксперименты по тестированию созданной системы.

Диссертационная работа состоит из введения, трёх глав и заключения.

Заключение диссертация на тему "Применение вейвлет-анализа в задачах автоматического распознавания речи"

Выводы к главе 3:

Описанные в данной главе численные эксперименты по оценке точности распознавания в системе распознавания речи с применением вейвлет-анализа позволяют сделать следующие выводы:

1. Экспериментальное тестирование системы распознавания речи с использованием диадических вейвлетов показало невысокий процент автоматического распознавания (не более 94% для раздельного произношения и не более 72% для слитного произношения слов).

2. Эксперименты по использованию недиадических вейвлетов, учитывающих особенности человеческого слуха, а также вейвлеты, основанные на моделировании механизмов речевоспроизведения, показали точность распознавания, сравнимую с точностью распознавания при использовании блока предобработки, основанном на Фурье-преобразовании (точность распознавания раздельного произношения слов в системе с недиадическими вейвлетами составила 98%, а точность распознавания слитно произнесённых слов не превысила 84%).

3. В целом численные эксперименты показали перспективность применения технологии вейвлет-преобразования для построения блока предобработки речевого сигнала для систем распознавания речи.

Заключение

В диссертационной работе исследована задача применения вей влет-анализа в задачах автоматического распознавания речи. Целью работы являлись разработка и исследование методов параметризации речевого сигнала на основе вейвлет-преобразования, а также разработка практического применения этих методов в системе распознавания речи.

На основании анализа опубликованных работ в качестве основных выводов выделяются следующие:

1. Технология вейвлет-анализа перспективна с точки зрения задач анализа, кодирования и распознавания речи.

2. Вейвлет-анализ, как средство многомасштабного анализа с системой функций хорошо локализованных по частоте и времени, может быть успешно применён для создания алгоритмов анализа и параметризации речевого сигнала в системах распознавания речи.

3. Задача разработки перспективных систем распознавания речи на основе использования вейвлет-анализа требует создания подходов, учитывающих свойства человеческого слуха и восприятия речи

На основании указанных выводов постановка задачи, решаемой в диссертационной работе, определяется следующим образом: разработка и исследование методов параметризации речевого сигнала на основе вейвлет-преобразования, а также разработка практического применения этих методов в системе распознавания речи.

В рамках решаемой задачи получены следующие основные результаты:

1. Разработан алгоритм вейвлет-анализа речевого сигнала на основе диадических вейвлетов с ограниченными требованиями к вычислительным ресурсам системы

2. На основе разработанного алгоритма реализован блок предобработки речевого сигнала с использованием диадических вейвлетов. Проведены его экспериментальные настройка и исследование в системе автоматического распознавания речи.

3. Сконструирован алгоритм параметризации речевого сигнала на основе недиадических вейвлетов с учётом особенностей строения слуха человека.

4. В рамках применения недиадических вейвлетов разработаны анализирующие функции на основе моделирования речевоспроизведения человека.

5. На основе разработанного алгоритма реализован блок предобработки речевого сигнала с использованием недиадических вейвлетов. Проведены его настройка и тестирование в системе автоматического распознавания речи.

6. Проведены численные эксперименты по оценки точности распознавания системы автоматического распознавания речи с блоком предобработки, основанном как на диадических, так и на недиадических вейвлетах.

Библиография Бойков, Федор Геннадиевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Lebrun J., Vetterli M. Balanced multiwavelets: theory and design. IEEE Trans. Signal Proc., №4, 1998.

2. Strang G., Strela V. Short wavelets and matrix dilation equations //IEEE Trans.Signal Proc., 1995, v.3. P.108-115.

3. Q. Jiang, On the Design of Multifilter Banks and Orthonormal Multiwavelet Bases, IEEE Transactions on Signal Processing, Vol. 46, N0.12, December 1998.

4. H. Hermansky and S. Sharma. Temporal Patterns (TRAPS) in ASR of Noisy Speech. Proc. ICASSP, 1:289-292, March 1999.

5. P. McCourt, S. Vaseghi, and N. Harte. Multi-Resolution Cepstral Features for Phoneme Recognition across Speech Sub-Bands. Proc. ICASSP, 1:557-560, May 1998.

6. S. Wu, B. Kingsbury, N. Morgan, and S. Greenberg. Incorporating Information from Syllable-length Time Scales into Automatic Speech Recognition. Proc. ICASSP, 11:721-724, May 1998.

7. Daubechies. Ten Lectures on Wavelets. SIAM, 1992.

8. S. Kadambe, G. Faye Boudreaux-Bartels, Application of the Wavelet Transform for Pitch Detection of Speech Signals, IEEE Trans, on Info. Theory, vol. 38, no. 2, March 1992, pp. 917-924.

9. H.-Y. Gao. Wavelet estimation of spectral densities in time series analysis, Ph.D. dissertation, Dept. Stat. Univ. California, Berkley. 1993.

10. H.-Y. Gao. Choice of thresholds for wavelet shrinkage estimate of the spectrum, J.Time Series Anal., vol.18 pp.231-251,1997.

11. Andrew T. Walden, Donald B. Percival, Emma J. McCoy, Spectrum Estimation by Wavelet Thresholding of Multitaper Estimators, IEEE Transactions on Signal Processing, Vol. 46, N0.12, December 1998.

12. M.A. TrenasJ.C. Rutledge N.A. Whitmal. Wavelet-Based Speech Enhancement for Hearing Aids, to appear in Proc. EMBEC, 1999

13. L. Rabiner, B.-H. Juang Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffs, NJ, 1993

14. M. Gupta and A. Gilbert, Robust speech recognition using wavelet coefficient features, in Proc. of IEEE Automatic Speech Recognition and Understanding Workshop, Italy, 2001.

15. M. Vitterli, J. Kovacevic. Wavelets and Subband Coding. Prentince-Hall, Upper Saddele River, NJ, 1995

16. R.T. Ogden. Essential Wavelets for Statistical Applications and Data Analysis. Birkhauser, 1997

17. M. Krishnan, C. Neophytou, and G. Prescott. Wavelet transform speech recognition using vector quantization, dynamic time wraping and articicial neural networks. Preprint, 1994.

18. Lori F.lamel etal. An Improved Endpoint Detector for Isolated Word Recognition, IEEE Trans. Acoust.,Speech,Signal Processing, vol.ASSP-29, pp.777-785, Aug. 1981

19. Daubechies, Orthonormal Bases of Compactly Supported Wavelets, Comm. on Pure and Applied Math., vol.41, pp.909-996, Nov.1988.

20. G. Mallat. A Theory for Multiresolution Signal Decomposition: The Wavelet Representation, IEEE Trans. Pattern Anal, and Mach. Intel., vol.11, pp.674-693 Jul. 1989.

21. R.Lippmann, An introduction to computing with neural networks, IEEE ASSP, pp.422, Apr. 1987.

22. M. S. Crouse, R. D. Nowak, andR. G. Baraniuk. Wavelet-Based Statistical Signal Processing Using Hidden Markov Models. IEEE Trans, on Signal Processing, vol. 46, no. 4, pp. 886-902, April 1998.

23. Katrin Keller, Souheil Ben-Yacoub, and Chafic Mokbel, Combining Wavelet-domain Hidden Markov Trees with Hidden Markov Models, IDIAP-RR 99-14, 1999.

24. H. Choi and R. G. Baraniuk. Image Segmentation using Wavelet-domain Classification, Proc. SPIE Technical Conference on Mathematical Modeling, Bayesian Estimation, and Inverse Problems, pp. 306-320, Denver, July 1999.

25. Christopher Wendt, Athina P. Petropulu, Pitch determination and speech segmentationUsing the discrete wavelet transform.

26. J. R. DellerJr., J. G. Proakis, J. H. L. Hansen, Discrete-Time Processing of Speech Signals, Macmillan, New York, 1993.

27. M. Noll, Cepstrum Pitch Determination, J.Acoust. Soc. Amer., vol. 41, no. 2, pp. 293309,1970.

28. J. D. Wise, J. R. Caprio, and T. W. Parks, Maximum likelihood pitch estimation, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-24, pp. 418-423,1976.

29. M. M. Sondhi, New methods of pitch extraction, IEEE Trans. Audio Electroacoust., ol. AU-16, pp. 262-266, June 1968.

30. H. W. Strube, Determination of the instant of glottal closure from the speech wave, J. Acoust. Soc. Amer., vol. 56, no. 5, pp. 1625-29, 1974.

31. Y.M. Cheng, D. O'Shaughnessy, Automatic and Reliable Estimation of Glottal Closure Instant and Period, IEEE Trans. Acoust., Speech, Signal Processing, vol. 37, no. 12, pp. 1805-15, 1989.

32. S. Kadambe, G. Faye Boudreaux-Barlels, Application of the Wavelet Transform for Pitch Detection of Speech Signals, IEEE Trans, on Info. Theory, vol. 38, no. 2, March 1992, pp. 917-924.

33. S. G. Mallat, S. Zhong, Characterization of signals from multiscale edges, IEEE Trans, of Patt. Analy. and Mach. Intell., vol.14, pp. 710-32, July 1992.

34. M. Akay, Wavelet Applications in Medicine, IEEE Spectrum, 1997, Vol. 34, No. 5, pp. 50-56.

35. F. Yang, W. Liao, Modeling and Decomposition of IIRV Signals with Wavelet Transforms, IEEE Engineering in Medicine and Biology, 1997, Vol. 16, No. 4, pp. 1722.

36. P. C. Ivanov, M. G. Rosenblum, С. K. Peng, J. Mietus, S. Havlin, H. E. Stanley, A. L. Goldberger, Scaling Behaviour of Heartbeat Intervals Obtained by Wavelet Based Time - Series Analysis ", Nature, 1996, Vol. 383, No. 26, pp. 323-327.

37. JI. Левкович-Маслюк, А. Переберин. Вейвлет-анализ и его приложения. Материалы учебной программы 8-й международной конференции по компьютерной графике и визуализации ГрафиКон'98'99.

38. Цвикер Э., Фельдкеллер P. Ухо как приемник информации. Пер. с нем. под общ. ред. Б.Г.Белкина.-М.:Связь,1971. Ухо как приёмник информации.

39. Чучупал В.Я., Маковкин К.А., Чичагов А.В. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи //Искусственный интеллект, том 4, №1,2002, стр.575-579, Наука i осв1та, Киев.

40. V.Kouznetsov, V.Chuchupal, KMakovkin, A.Chichagov. Design and Implementation of a Russian Telephone Speech Database. //In Proc.of Int. Workshop "Speech and Computer", Moscow, 1999, pp. 179-181.

41. Филиппович Ю. H., E.B, Родионов, А.Черкасова Организация взаимодействия человека с техническими средствами АСУ, В 7кн. М.: Высшая школа, 1990 -Кн. 2. Языковые средства диалога человека с ЭВМ.

42. Потапова Р.К. Речевое управление роботом. М.: Радио и связь, 1989

43. David L. Donoho Non-linear Wavelet Methods for Recovering Signals, Images and Densities from Indirect and Noisy Data, 1993.

44. C. Schremmer, T. Haenselmann, F. Bomers A Wavelet Based Audio Denoiser, Department of Praktische Informatik IV, University of Mannheim

45. M. Roy, V.-R. Kumar, B.D. Kulkarni, J. Sanderson, M. Rhodes, M. van der Stappen Simple denoising algorithm using wavelet transform. AIChE Journal, vol.45, 1999

46. F. Bomers, Wavelets in Real-Time Digital Audio Processing: Analysis and Sample Implementations, M.S. thesis, Universifat Mannheim

47. J. Berge, C. Nichols Brahms at the piano, Leonardo Mus. Journal, vol. 4, pp. 23-30, 1994.

48. S. Mallat AWavelet Tour of Signal Processing, Academic Press, San Diego, CA, USA, 1998.

49. M. Lang, H. Guo, J.E. Odegard, C.S. Burrus Nonlinear processing of a shift invariant DWT for noise reduction, SPIE, Mathematical Imaging: Wavelet Applications for Dual Use, April 1995.

50. F. Mujica, F. D'Alvano, C. Bruscianelli, D. Ros A Simple Wavelet Based Perceptual Audio Coder //Grupo de Procesamiento de Senales (GPS) Dpto. de Electronica у Circuitos, Universidad Simon Bolivar, Venezuela

51. N. Jayant Signal Compression: Technology Targets and Research Directions, IEEE Journal on Selected Areas in Communications, vol. 10,no. 5, June 1992.

52. C. Grewin, T. Ryden Subjective Assessments on Low Bit-Rate Audio Codecs, presented in the 10th AES Convention, London, September 1991.

53. В. C. Moore: Characterization of simultaneous, forward and backward masking, Proceedings of the 12th International AES Conference, pp. 22-23, June 1993.

54. E. Zwicker, H. Fasti, Psychoacoustics, Facts and Models, Springer-veriag, Munich, June 1990.

55. D. E. Ros, Modelos Perceptuales para Esquemas de Codijicacion у Compresion de Audio, Master Thesis, Universidad Simon Bolivar, May 1994.

56. D. Pan A Tutorial on MPEG/AudioCompression, //IEEE Multimedia Magazine, Summer 1995.

57. K. Brandenburg у G. Stoll, ISO-MPEG-I Audio: A Generic Standard for Coding of High-Quality Digital Audio, Journal of the Audio Engineering Society, vol 42, no 10, October 1994.

58. D. Sinha Low Bit Rate Transparent Audio Compression using Adapted Wavelets,

59. EE Transactions on Signal Processing, vol. 41, no. 12, December 1993. 64.1. Daubechies, Orthonormal Based of Compactly Supported Wavelets, Communications on Pure and Applied Mathematics, vol. XLI909-996,1988.

60. M. Bourges Creating а С library of wavelets functions, IRISA Internal Publication No 864, September 1994.

61. F. Mujica Transformada de Ondiculas para Esquemas de Compresion Perceptual de Audio, Master Thesis, Universidad Simon Bolivar, July 1995.

62. M. Holzapfel, R. Hoffmann, H.Hoge A Wavelet-Domain PSOLA Approach. Institute for Technical Acoustics, Technical University of Dresden, D-I0162 Dresden, Germany

63. L. Janer, J. Mart, C. Nadeu, E. Lleida-Solano Wavelet Transforms for Non-Uniform Speech Recognition Systems //GTC Dept. IEEC Centro Politecnico Superior de Ingenieros Zaragoza, Spain

64. F. J. Ancin, B.L. Burrows, R.A. Carrasco. A Novel DyWTVT approach for continuous speech pitch estimation. In Proceedings EUSIPCO, volume 3, pages 7P.13 1677-1680,1994.

65. Mark Black, Mehmet Zeytinoglu. Computationally eficient wavelet packet coding ofwide-band stereo audio signals. In Procedings ICASSP, volume 5, pages 3075-3078,1995.

66. F. Cutugno, P. Maturi. Analysing connected speech with wavelets: some Italian data. In Proceedings EUROSPEECH, 1993.

67. C. D'Alessandro. Speech Analysis and Synthesis Using an Auditory-Based Wavelet Representation. In Proceedings ESCA Workshop: Comparing Speech Signal

68. Reid C.E., Passing T.B. Signal Processing in C. //Addison-Waseley, 1992

69. Shamma S.A., A biophysical model of cochlear processing: intensity dependence of pure tone responses. //Journal of the Acoustic Society of America 80, 133-145, 1986

70. A.P. Dempster, N.M. Laird, and D.B. Rubin, Maximum likelihood from incomplete data via the EM algorithm // J. Roy. Stat. Soc. vol. 39, no. 1, pp. 1-38, 1977.

71. S.E. Levinson, L.R. Rabiner, and M.M. Sondhi, An introduction to the application of the theory of probabilistic function of a Markov process to automatic speech recognition //Bell Syst. Tech. Journal, vol. 62, no.4, pp. 1035-1074, Apr. 1983.

72. Kohonen Т., Analysis of a simple self-organizing process. //Biol. Cybern. vol. 44, pp. 135-140, 198281 .Kohonen Т., Self-organization and associative memory, //Springer, 1984

73. Cottrell M, FortJ.C., A stochastic model of retinotopy: a self-organizin process, //Biol. Cybern., vol. 53, pp.405-411, 1986

74. Ritter H., Schulter K. Convergence properties of Kohonen's topology conserving maps: fluctuations, stability, and dimension selection, //Biol. Cybern. vol. 60, pp. 5971,1988

75. Brauer P., Knagenhjelm P. Infrastructure in Kohonen maps, //IEEE Int. Confernce on acoustic, speech and signal processing", ICASSP-89, vol. 1, pp. 647-650, 1989

76. Knudsen E.I., du Lac S., Esterly S.D. Computational maps in the brain, //Ann. Rev. Neurosci., vol. 10, pp.41-65, 1987

77. Kohonen Т., Torkkola K, Shozadai M., Kangas J., Venta O., Phonetic typewriter for Finnish and Japanese //IEEE International conference on acoustic, speech and signal processing, ICASSP-88, vol. 1, pp. 607-610, 1988

78. Brauer P., Knagenhjelm P. Infrastructure in Kohonen maps, //IEEE Int. Confernce on acoustic, speech and signal processing", ICASSP-89, vol. 1, pp. 647-650, 1989

79. Wiener N. Extrapolation, interpolation and smoothing of stationary time series, with engineering applications. //NY: Wieley, 1949.

80. Мекклеллан Дж. Г., Рейдер Ч.М. Применение теории чисел ы цифровой обработке сигналов: Пер. с англ./Под ред.Ю.И. Манина. — М.: Радио и связь, 1983. —264 с.

81. МаркелДж. Д. ГрейА.Х. Линейное предсказание речи: Пер. с англ./Под ред. Ю.Н. Прохорова и В.А. Звездина. — М.: Связь, 1980. — 308 с.

82. КШ.Зигангиров, В.Н.Сорокин. Применение последовательного декодирования к распознаванию слитной речи. //Проблемы передачи информации, N 4,1977, с. 81-88.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00