автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка и моделирование алгоритмов быстрого непрерывного вейвлет-преобразования с применением к обработке речевых сигналов

кандидата технических наук
Семенов, Владимир Ильич
город
Б.м.
год
2012
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и моделирование алгоритмов быстрого непрерывного вейвлет-преобразования с применением к обработке речевых сигналов»

Автореферат диссертации по теме "Разработка и моделирование алгоритмов быстрого непрерывного вейвлет-преобразования с применением к обработке речевых сигналов"

На правах рукописи

т

СЕМЕНОВ Владимир Ильич

005009329

Разработка и моделирование алгоритмов быстрого непрерывного вейвлет-преобразования с применением к обработке речевых сигналов

05.13.18 - Математическое моделирование, численные методы н комплексы программ

Автореферат диссертации на соискание ученой степени кандидата технических наук

2 ОЕЗ 2С12

2012

005009329

Работа выполнена в Чувашском государственном университете имени И.Н.Ульянова на кафедре компьютерных технологий

Научный руководитель кандидат технических наук, доцент

Официальные оппоненты доктор физико-математических наук,

Ведущая организация: Казанский национальный

исследовательский технический университет им. А.Н.Туполева-КАИ

Защита состоится /> Я 2012 года в 15 часов на

заседании диссертационного совета Д 212. 277. 02 при Ульяновском государственном техническом университете по адресу: 432027, Ульяновск, ул. Северный Венец, 32, УлГТУ, Главный корпус, ауд. 211.

С диссертацией можно ознакомиться в научной библиотеке Ульяновского государственного технического университета

Автореферат разослан 2012 года

Ученый секретарь диссертационного совета, доктор технических науг

Желтов Павел Валерианович

профессор Леонтьев Виктор Леонтьевич

кандидат технических наук Армер Андрей Игоревич

профессор

Крашенинников В.Р.

ОБЩАЯ ХЛl'AKTEI'lîCTIIКЛ VA1ЮТ.Ы

Актуальность темы. В настоящее время в связи с необходимостью решения многих научно-технических проблем возрастают требования к производительности численных методов обработки информации. В частности, это касается речевых технологий. Увеличение быстродействия ЭВМ, расширение памяти, снижение стоимости арифметической операции и единицы памяти решает эту проблему, как показывает практика, лишь отчасти. Отсюда возникает потребность в создании новых эффективных численных методов, требующих возможно меньших вычислительных затрат.

Одним из путей повышения эффективности обработки информации является применение методов многомасштабной обработки. Эти методы обеспечивают сокращение объемов данных за счет удаления избыточной и несущественной информации, снижая тем самым вычислительные затраты на последующую обработку. Алгоритмы обработки многомасштабных представлений, основанные на вейвлет-преобразовании (ВП), достаточно надежны и эффективны в реализации. При этом ВП выделяет из сигнала компоненты разных масштабов, и каждый компонент исследуется с той степенью детальности, которая соответствует его масштабу. Однако дискретное ВП не дает полного представления о локальных особенностях нестационарного сигнала, поскольку использование в качестве масштабирующих коэффициентов только целых чисел приводит к значительным потерям информации при переходе с одного уровня разложения на другой. В связи с этим перспективным подходом является использование быстрых алгоритмов непрерывного ВП, позволяющих проводить анализ, выявлять зависимости или отслеживать изменение характеристик сигналов, произвольно выбирая масштабирующие коэффициенты.

Вычисление непрерывного ВП прямым численным интегрированием для больших временных последовательностей занимает длительное время. Для практических приложений очень важным моментом является существование быстрых алгоритмов преобразования и реконструкции сигналов. Поэтому численное вычисление непрерывного ВП производится в частотной области (Сапрыкин В.А., Малый В.В., Лопухин Р.В., Штарк Г.Г.). Но при этом не учитывается свойство симметричности непрерывных вейвлетов, а также возможность вычислять Фурье-спектры вейвлетов с большим масштабным коэф-

фициентом, используя выборку с малым числом отсчетов. Исследования показывают, что учет этих обстоятельств позволяет существенно сократить время вычисления ВП в частотной области.

Кроме возможности многомасштабного представления сигналов, непрерывное ВП сочетает в себе достоинства пространственных и частотных методов фильтрации.

Речевой сигнал является примером нестационарного процесса, в котором информативным является сам факт изменения его частотно-временных характеристик. Исследования показывают, что адекватными при построении алгоритмов анализа речевых сигналов являются модели на основе частотного представления сегментов вейвлет-спектра речевого сигнала.

Таким образом, разработка численных алгоритмов быстрого непрерывного вейвлет-преобразования сигналов является актуальной задачей, решение которой будет способствовать повышению эффективности обработки информации в широком спектре приложений, в частности в речевых технологиях.

Цель и задачи исследования. Целью настоящего исследования является повышение эффективности (по быстродействию) при выполнении операций численного вычисления непрерывного вейвлет-преобразования. В качестве примера приводится применение разработанных алгоритмов к обработке речевых сигналов.

Для достижения поставленной цели решаются следующие задачи.

1. Разработка алгоритма численного вычисления прямого быстрого непрерывного ВП на основе БПФ.

2. Разработка алгоритма численного вычисления обратного быстрого ВП с применением вейвлетов на основе производных функции Гаусса.

3. Исследование и разработка алгоритма кратномасштабно-го анализа сигнала.

4. Разработка математической модели фонем в виде их вейвлет-коэффициентов и формирование базы эталонов фонем на основе этой модели.

5. Исследование и разработка алгоритмов идентификации фонем с использованием быстрого непрерывного ВП.

6. Моделирование процесса распознавания речевых команд на основе быстрого непрерывного ВП.

7. Разработка комплекса программ для ЭВМ, реализующего предложенные алгоритмы в реальном масштабе времени.

Методы исследования. Для решения данных задач в диссертации применяются методы математического анализа, математической статистики, математической логики, цифровой обработки сигналов, вейвлет-анализа, Фурье-анализа, теория алгоритмов, математическое моделирование с применением вычислительной техники.

Научная новизна положений, выносимых на защиту

1. Разработан новый метод численного вычисления прямого быстрого непрерывного ВП с произвольным выбором масштабирующих коэффициентов.

2. Разработан новый численный метод обратного быстрого ВП с применением вейвлетов на основе производных функции Гаусса.

3. Разработан новый алгоритм кратномасштабного анализа сигналов без каскадного вычисления вейвлет-коэффициентов.

4. Разработана новая математическая модель фонем на основе Фурье-спектра сегментов вейвлет-спектра и новый алгоритм формирования базы эталонов фонем на основе этой модели.

5. Предложен новый метод выделения границ между гласными и согласными звуками речи на основе быстрого непрерывного ВП.

Достоверность. Достоверность положений диссертации обеспечивается корректным использованием математических методов и подтверждается результатами экспериментов на реальных сигналах.

Практическая ценность работы. Предложенные алгоритмы и реализующие их программы дают возможность повысить скорость обработки сигналов.

Реализация и внедрение результатов. Теоретические и практические результаты диссертационной работы использованы в исследовании по гранту РФФИ № 11-07-00276-а «Анализ речи» и в ОАО «ГЭСстрой» - ПЖБИ г. Новочебоксарска. Кроме того, они используются в учебном процессе при проведении

лекций и лабораторных работ по курсу «Цифровая обработка сигналов», а также в дипломном проектировании на кафедре компьютерных технологий Чувашского государственного университета.

Апробация работы. Основные положения работы докладывались и обсуждались на семинарах кафедры компьютерных технологий Чувашского государственного университета им. И.Н. Ульянова, XI Всесоюзной конференции по физике электронных и атомных столкновений (Чебоксары, 1991), Третьем семинаре по атомной спектроскопии (Черноголовка, Московская обл., 1992), XXI съезде по спектроскопии (Звенигород, Московская обл., 1995), IV Международной конференции «Импульсные лазеры на переходе атомов и молекул» (Томск, 1999), Международной конференции «TEL' 2007, 2008, 2009» (Казань, 2007-2009), городском семинаре КГТУ имени А.Н. Туполева (Казань, 2009), Средневолжском математическом семинаре Мордовского государственного университета имени Огарева (Саранск, 2009), VIII Всероссийской научно-технической конференции «Динамика нелинейных дискретных электротехнических и электронных систем» (Чебоксары, 2009), межрегиональном форуме-выставке «Чувашия-БИО» (Чебоксары, 2009).

Публикации. По теме диссертации опубликованы 1 монография, 21 статья (2 статьи - в издании из перечня ВАК), 1 патент и 7 свидетельств о государственной регистрации программ для ЭВМ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложения. Общий объем 177 страниц, основной текст - 159 страниц. В работе содержится 91 рисунок.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цели и задачи работы, указаны научная новизна и практическая значимость полученных результатов, представлена структура диссертации.

В первой главе содержится краткое описание аппарата Фурье-преобразования и ВП одномерных сигналов, которые

применяются при решении задач, рассматриваемых в последующих главах, приведены наиболее часто используемые вейв-леты, их спектры и рассмотрены проблемы распознавания речевых команд.

Вейвлет-анализ основан на разложении исследуемого сигнала по функциям, локализованным в пространстве и по частоте. Вейвлет-преобразование одномерного сигнала S(t) - это его представление в системе базисных функций, порождённых материнской функцией

В случае вейвлет-анализа (декомпозиции) процесса (сигнала) благодаря изменению масштаба вейвлеты способны выявить различие в характеристиках процесса на различных шкалах, а посредством сдвига можно проанализировать свойства процесса в различных точках на всем исследуемом интервале. Осуществить восстановление (реконструкцию или синтез) процесса возможно посредством обратного вейвлет-преобра-зования, представленного формулой

где параметр к - показатель степени масштабного множителя.

Во второй главе рассмотрены способы численного вычисления прямого и обратного быстрого непрерывного ВП в частотной области с применением БПФ, алгоритмы кратномас-штабного анализа, сжатия и фильтрации речевых сигналов, алгоритм численного вычисления фрактальной размерности.

Алгоритм численного вычисления непрерывного быстрого прямого ВП в частотной области. Непрерывное ВП имеет ряд положительных свойств (симметричность, гладкость базисной функции, возможность аналитического описания), которые желательны для анализа и синтеза реальных сигналов. Но невозможность практической реализации преобразования в реальном масштабе времени сводит на нет все положительные свойства непрерывного ВП. Для того чтобы ускорить ВП сигнала, предлагается следующий алгоритм.

■Ja \ а J

-оо

(2)

Алгоритм вычисления прямого непрерывного быстрого ВП сигнала S(t) в частотной области включает следующие шаги.

1. Вычисляются коэффициенты ai(n) сигнала S(i) по формуле

= ^ iV)cos(^).

2. Вычисляются коэффициенты Ьх(п) сигнала S(t) по формуле

NfcQ N

3. Вычисляются коэффициенты a2(ri) вейвлета y(t) по формуле

, . 1 ^ ,,, .2ппк. а2(«) = Jf ¿¿V(k)cos(-jj-).

4. Вычисляются коэффициенты Ьг(п) вейвлета по формуле

ьг (") = 77 Z V(*) sin(^).

5. Вычисляется комплексно сопряженный спектр

q (и) = ах(п)а2 («)+Ьх(п)- Ь2(п), (3)

с2 (и)=¿1 (и) • а2 {п)-ах (и) • Ь2 (и). (4)

Для четных вейвлетов ряд составлен из косинусов, для нечетных - из синусов. Для четных вейвлетов Ь2(п) = 0, тогда

<t(")=öi {п)-а2(п), (5)

c2{n) = bx{n)-ci2{n). (6)

Для нечетных вейвлетов а2(п) = 0, тогда

Ф)=ФУФ), (7)

с2{п) = -ах{п)-Ь2{п). (8)

6. Для четного (нечетного) вейвлета с М разными масштабными коэффициентами вейвлет-спектр W(a,b) (матрица Mx-N) для сигнала длиной N отсчетов получается путем вычисления М обратных преобразований Фурье от комплексно сопряженного спектра по формуле

w-i 2ппк

Ща, /7) = Х (сх (к) + ic2 (к)) ехр(/——).

к-0

Алгоритм численного вычисления обратного быстрого непрерывного ВП в частотной области. Алгоритм вычисления

обратного непрерывного ВП позволяет с высокой скоростью и точностью реконструировать сигнал. Нормализующий коэффициент в формуле (2) приводится в форме

00

Су = КЫ12 -щ-'Лхоо.

—СО

Нормализующий коэффициент С в разработанном алгоритме вычисляется из аналога теоремы Парсеваля для вейвлет-коэффициентов

|5(05*(/)Л = С'1 \\1¥(а,Ь)К'(а,Ь)^. (9)

После определения нормализующего коэффициента С из (9) он подставляется в формулу

5(0= С"1]](Ю)

Алгоритм вычисления обратного непрерывного ВП по формуле (10) в частотной области включает следующие шаги.

1. Вычисляются коэффициенты я;(н) вейвлет-спектра Ш{а,Ь) по формуле

«1 С") = Ё И^Ся. А) созС—-).

2. Вычисляются коэффициенты Ьх(п) вейвлет-спектра Ща,Ь) по формуле

N к=0

3. Вычисляются коэффициенты а2{п) вейвлета по формуле

а2 (и) = ТГ X

™ к=0 л

4. Вычисляются коэффициенты Ь2{п) вейвлета \|/(0 по формуле

ь2 («) = 77 Е Ч>(*)

Я ыо л

5. Вычисляется комплексно сопряженный спектр по формулам (3), (4). Для четных вейвлетов - по формулам (5), (6). Для нечетных вейвлетов - по формулам (7), (8).

6. Для четного (нечетного) вейвлета путем М обратных пре-

образований Фурье комплексно сопряженного спектра вычисляется (матрица М^И) (?) по формуле

(») = X (С1 (к) + 1с2 (к)) ехр(г——.

Ы О N

7. По формуле (9) вычисляется нормализующий коэффициент С.

8. По формуле

т

я(я)=С;е») (и)

т-\

реконструируется сигнал.

Алгоритм кратномасштабного анализа. Разработанный алгоритм позволяет представить сигнал в виде совокупности его последовательных приближений. Разделение (декомпозиция) сигналов на разнотипные составляющие - основа кратномасштабного анализа (КМА). Разработанный алгоритм позволяет любой сигнал представить в виде:

т

5(0= 1>т(0,

т=1

где зт(?) = С5т(0.

Образуем функции ^„(О так, что(?) = (/), 5^-1(0 = 5я|(0 + 5и-1(0 и т.д. Тогда сигнал с самым большим временным разрешением представляется в виде = ^(О •

1,50ЕИ! 5

1.50Е-05 Е

1.0О Е-С5 5 .СО Е-08 (1.0]Е»00

I

|.ИЕ-И 1.00Е Об 5,0 О Е -0 6 0.ШИ1

I 21 41 (I II

Рис. 1. Декомпозиция сигнала на разные уровни

Если значение т большое, то функция sm(t) есть грубая аппроксимация S(t). При уменьшении значений т точность аппроксимации повышается. На рис. 1 представлены график

функции S(t) и его различные аппроксимации sm (t) . Сигнал S(t)

разложен на 12 уровней декомпозиции. На рис. 1, а значение т равно б, аппроксимация сигнала грубая. На рис. 1, б, в, г значение т равно 3,2, 1.

Уменьшение масштабного коэффициента приводит к более детальному описанию сигнала. Для т = 0 коэффициент корреляции Пирсона равен 0,999. Реконструированный сигнал точно повторяет контуры оригинала, и на графике невозможно их различить. Сигнал можно с определенной точностью аппроксимировать в зависимости от значений коэффициента т. Следовательно, появляется возможность для фильтрации и сглаживания сигнала. В отличие от дискретного ВП данный алгоритм удобен и прост, не нужно вычислять аппроксимирующие и детализирующие коэффициенты для скейлинг- и вейвлет-функций, нет необходимости находить сплайновые и пакетные вейвлеты, койфлеты.

Разработанный алгоритм реконструкции сигнала можно использовать для его сжатия. Сжатие информации для непрерывного ВП можно производить или в области вейвлет-коэффициентов, или в области Фурье-коэффициентов. На рис. 2 представлены графики речевого сигнала S(t) (а), его сжатые в 3 (б) и в 6 (в) раз варианты. Сигнал S(t) разделен на 12 уровней декомпозиции. Сжатие производилось в области Фурье-коэффициентов. Коэффициент корреляции для сигнала, сжатого в 3 раза, равен 0,890. Для сигнала, сжатого в 6 раз, он равен 0,817. Разработанные алгоритмы используются для сжатия и двумерных сигналов.

а б в

Рис.2. Сжатие сигнала

Применение алгоритма для реконструкции сигнала с использованием формул (9), (10) точно указывает, на каких уровнях декомпозиции нужно вычислить вейвлет-коэффициенты, чтобы получить точный результат. Для сигнала с выборкой 2 в степени т для точного восстановления необходимо т + 1 уровней декомпозиции. Такое количество уровней оптимально с точки зрения скорости вычисления, с точки зрения экономии памяти компьютера и с точки зрения точности реконструкции сигнала.

В третьей главе производится построение математических моделей фонем речевых сигналов в виде набора их информационных признаков. На основе этих моделей строятся алгоритмы выделения границ между гласными и согласными фонемами, алгоритмы выделения фонем по энергии сегментов вейвлет-коэффициентов \¥{а,Ь) в разных масштабах и алгоритмы распознавания речевых команд.

Математическая модель фонем на основе их информационных признаков. Для исследования речевого сигнала в работе применяются вейвлеты на основе производной функции Гаусса. Математической моделью речевого сигнала в сегменте является частотное представление сегментов вейвлет-спектра

= (12)

N М

е{п) = -^¿'(Х (с, Ц) + (у))ехР(/^))зш(^). (13)

По формуле

Е{п) = с12(п)+е2(п) (14)

вычисляется Фурье-спектр функций 1^(1,6), \У(2,Ь) каждой буквы алфавита. Для каждой буквы русского алфавита создана база данных с набором характерных частот сегментов функций Щ1,Ь), Щ2,г>), Щ4,Ь), 1У(6,Ь), Щ8,Ь), Щ20,Ь) и Г(50,6). Также в качестве характерных признаков используется фрактальная размерность фонем, принятых как определенные частоты. Нижняя и верхняя границы диапазона характерных частот, полученные

путем многократного произношения русских слов, используются как эталоны фонем для распознавания речевых команд. В качестве модели фонемы принимается вейвлет-спектр W(a,b) её речевого сигнала S(t). Частота дискретизации речевого сигнала 8000 Гц, разрешение 16 бит, режим записи - моно. Для формирования эталонов фонем применяется следующий алгоритм. Вычисляются вейвлет-коэффициенты W{\,b), W(2,b), W(4,b), W(6,b), W(8,b), W(20,b) и W(50,b) слов, где b изменяется от 1 до 32768. Полученные вейвлет-коэффициенты (функции) Щ\,Ь), W{2,b), W(4,b), IV(6,b), W(8,b), }V(20,b) и Щ50,Ь) разбиваются на сегменты фиксированной длительности (я = 128), Что соответствует 16 мс. В каждом сегменте вычисляются коэффициенты Фурье а(п), Ь(п) функций W(\,b) и W(2,b) с помощью быстрого преобразования Фурье.

Адекватность модели устанавливается на основе оценки точности реконструкции речевых сигналов. Коэффициент корреляции Пирсона реконструированного сигнала не ниже 0,98.

Для идентификации элементов речевых команд проанализированы следующие алгоритмы сравнения речевого сигнала с эталонами фонем.

1. Вычисляются центральные частоты, средние энергии нормированного спектра сегментов функций W(\,b) и lV{2,b) по формулам

„=*=l-; Е = -t=í--(15)

±FW

к=1

для интервалов 0-20, 21-64, 0-64 Гц (в условных единицах). В скользящем режиме подсчитывается число локальных максимумов функций W(A,b), W(6,b) в сегменте и среднее число локальных максимумов в сегменте. Алгоритм идентификации фонем в основном аналогичен алгоритму формирования базы данных фонем, а отличается только в последнем блоке, где происходит сравнение фонем исследуемого речевого сигнала с эталонами фонем базы данных.

2. В качестве эталона фонем используется усредненный, сглаженный спектр сегментов функции W(l,b). Мерой сходства

(различия) является евклидово расстояние между эталонным спектром фонем и спектрами сегментов речевого сигнала

• (16)

Vt=i

3. В качестве меры различия принята корреляция между эталонным спектром фонем и спектрами сегментов речевого сигнала. Вычисляется коэффициент корреляции Пирсона. В каждом сегменте Фурье-спектр функции W(\,b) нормируется и сравнивается с эталонными спектрами фонем.

, 4. Вычисляется взаимная корреляционная функция вейвлет-спектра речевого сигнала и эталонов фонем гласных звуков речевых команд. Взаимная корреляционная функция определяется выражением

1 т

Rxy{x) = ~lx(tMt + i)dt. (17)

1 о

По максимальным значениям корреляционной функции определяются гласные фонемы в речевом сигнале.

Алгоритм выделения границы между гласными и согласными фонемами в речи. Одна из основных трудностей при распознавании состоит в неопределенной временной организации речевого сигнала. Очевидно, что точность распознавания слов существенно зависит от точности определения границ фонем. Сегментация речевых команд в соответствии с фонетической транскрипцией является фундаментальной задачей системы голосового управления. От точности определения границ речевых команд принципиально зависит вся дальнейшая обработка речевых команд.

Для определения границ между гласными и согласными звуками слова в работе вычисляется энергия сегментов функций Щ1,Ь), JV(2,b) исследуемого слова S(t). С использованием представления (12), (13), (14) энергия сегментов вычисляется по формуле

E^Fik). (18)

к=I

Вычисление энергии сегментов по формуле (19) совпадает с нахождением дисперсии вейвлет-коэффициентов по стандартной

формуле

а(а)^(№(а,к)-<№(а,Ъ)>)2,

(19)

4=1

/I

где <W(a,b)> = ^W(a,k)/n - среднее значение вейвлет-

4=1

коэффициентов в сегменте. Обозначим энергию сегментов ВП W(\,b), W{2,b) и исследуемого слова S(t) функциями Е1(п), Е2(п) и Е3(п) соответственно, где п изменяется от 1 до 256. На рис. 3 представлена энергия сегментов Е3(п\ слова сигнал. Результаты анализа показывают, что энергия сегментов гласных звуков в W(l,b), W(2,b) выделяется в виде максимальных пиков, а энергия согласных всегда ниже, чем энергия гласных. Энергия сегментов шипящих в Е1(п) выделяется в виде максимальных пиков, в Е2(п) и Е3(п) - в виде минимумов. Чтобы определить местоположение фонем в слове, вычисляется ВП функций Е1(п), Е2(п) и £3(и) с масштабным коэффициентом а = 4.

2.SUEJS I.S0E-D8 t^IOE-Ов SjOGE-09

<W£<ra

Рис. 3. Энергия сегментов Е3(п) слова сигнал

Рис.4. Вейвлет-спектр W2(4,Ь)

функции Е2(п) слова сигнал

Математической моделью речевого сигнала при выделении границы между гласными и согласными звуками является вейв-лет-спектр энергии сегментов

лг-1 о ттк

«) = ^ (с! (к) + /с2 (А:)) ехр(/———). (20)

4=0 ™

Обозначим их функциями №1(4, Ь), Ш(4,Ь) и №3(4,Ь) соответственно, где Ь меняется от 1 до 256. На рис. 4 представлен результат вейвлет-преобразования функции Е1(п) слова сигнал. Положительным значениям функции №2(4,Ь) соответствуют гласные звуки, а отрицательным значениям - согласные.

По результатам ВП установлено, что гласные всегда имеют положительное значение в №1(4, Ь), №2(4, Ь) и №3(4,Ъ). Шипящие

имеют отрицательное значение в функции Ш(4,Ь) и Ш(4,Ь). Некоторые шипящие имеют положительное значение в Ш(4,Ь). Поэтому для нахождения местоположения гласных букв нормируются энергии Е2(п), ЕЗ(п), находится их сумма и выполняется вейвлет-преобр&зование Ж4(4,Ь). Для формирования слова под-считывается количество распознанных гласных в интервале, где выделяются гласные звуки. Определяются 3 гласных звука, для которых эти числа наибольшие, и записываются в порядке убывания в строковый массив, для того чтобы в последующем использовать их для сравнения с буквами слов из словаря. Также подсчитывается и выбирается 3 согласных или шипящих звука в интервале, где выделяются согласные нешипящие или шипящие звуки. Из этих букв составляются слова. Так как произношение слов находится в сильной контекстной зависимости от написания, слово записывается в словарь как произносится, а выводится - как правильно пишется. Распознанное слово можно выводить и на другом языке.

Алгоритм выделения фонем по энергии сегментов вейв-лет-коэффициентов Ща,Ь) на разных масштабах. Детальную картину расположения фонем в слове или предложении можно установить, исследуя зависимость энергии сегментов вейвлет-спектра от масштабного коэффициента а. Математической моделью речевого сигнала при этом является энергия сегментов вейвлет-спектра (18). На рис. 5 а, б представлены графики зависимости энергии сегментов Е от масштабного коэффициента а ВП Ща, Ь) слов пуск и стоп.

К

а б

Рис. 5. Энергия сегментов вейвлет-преобразования Ща,Ь) слов пуск и стоп

Вейвлет-анализ речевого сигнала показывает, что гласные

фонемы и фонемы н, м, л при средних значениях а имеют максимальные энергии. Энергия фонем н, м, л намного меньше энергии гласных звуков речевых команд, но значительно выше энергии шума. Буквы к, т, п, д выделяются при больших значениях а. Перед буквами к, т имеется пауза. Такая закономерность наблюдается при многократном повторении и не зависит от случайных факторов. Шипящие и свистящие фонемы при малых значениях масштабного коэффициента а имеют энергию W(a,b), сравнимую с энергией гласных. При средних значениях а они имеют энергию на уровне шума. Многомасштабное представление позволяет визуализировать динамику изменения речевого сигнала вдоль «оси масштабов». Эти изменения по «масштабной переменной» дают важную информацию о речевом сигнале.

В четвертой главе представлена программная реализация предложенных алгоритмов. Алгоритмы реализованы программами на ПК с использованием языка программирования высокого уровня ( Visual С++ и Visual Basic for Applications), представлены временные характеристики ВП во временной области. Также приведены скорости вычисления ВП в частотной области с помощью разработанного алгоритма. Приведены результаты практического применения разработанных алгоритмов для выделения речевых команд из шума.

Разработанный комплекс программ включает в себя программы, реализующие следующие операции.

1. Профилировка вычисления непрерывного быстрого ВП в частотной области.

2. Формирование базы данных фонем.

3. Определение границ между гласными и согласными фонемами.

4. Идентификация фонем.

5. Формирование слова и предложения.

Вычисление непрерывного быстрого ВП. Процедура вычисления выглядит следующим образом. Записанный с микрофона и оцифрованный звуковой картой ПК с частотой дискретизации 8000 Гц в режиме моно и глубиной квантования 16 бит речевой сигнал сохраняется в файле в текстовом формате. Этот сигнал считывается из файла, и вычисляется непрерывное ВП в

частотной области или во временной области.

Профилировка вычисления непрерывного быстрого ВП и вычисления прямым численным интегрированием. Для

точных измерений малых интервалов времени на языке С+ + использован счетчик меток реального времени, доступ к которому реализован при помощи ассемблерной команды RDTSC (ReaD from Time Stamp Counter). Счетчик меток реального времени TSC (Time Stamp Counter) - 64-разрядный регистр, содержимое которого инкрементируется с каждым тактом процессорного ядра. Для использованного процессора с тактовой частотой 2,54 ГГц разрешающая способность равна 0,39 не. Измерялось время выполнения 3-6 пунктов алгоритма прямого ВП потому, что при вычислении вейвлет-спектра для разных масштабных коэффициентов а основное время тратится на нахождение комплексно сопряженного спектра и на вычисление обратного БПФ, т. к. Фурье-коэффициенты сигнала вычисляются один раз. Например, при вычислении вейвлет-спектра с 50 масштабными коэффициентами время численного вычисления 1 пункта составляет менее 1 процента общего времени. На рис. 6 приведена зависимость времени ВП в частотной области для выборки 32768 отсчетов от масштабного коэффициента а для трех алгоритмов.

t, MC ш ■ ■

■ 1

■» 2

& 3

Рис. 6. Зависимость времени ВП в частотной области от масштабного

коэффициента а

В первом алгоритме не используется свойство симметричности вейвлетов. Во втором алгоритме используется свойство симметричности и возможность вычисления вейвлет-спектра для больших масштабных коэффициентов а с применением выборки

с меньшим количеством отсчетов. При увеличении масштабного коэффициента а ширина спектра вейвлета сужается и отличными от нуля являются только Фурье-коэффициенты нижних частот. Поэтому достаточно вычислить отличные от нуля коэффициенты. Например, для масштабного коэффициента а = 477 для 32768 отсчетов можно получить Фурье-спектр вейвлета, используя выборку для 512 отсчетов. Для этого необходимо вычислить Фурье-спектр вейвлета с выборкой 512 с другим масштабным коэффициентом. Тогда вейвлет-спектр с двойной точностью совпадает с вейвлет-спектром для выборки 32768 отсчетов. Время БПФ для 512 отсчетов соответственно меньше, чем для 32768 отсчетов. В третьем алгоритме дополнительно ко второму случаю используется возможность уменьшения времени обратного БПФ за счет уменьшения количества операций умножения. Для больших масштабных коэффициентов а достаточно вычислить вейвлет-спектр через определенный интервал смещений Ь, потому что вычисляется корреляция сигнала с вейвлетом на широком интервале. Эти вычисленные вейвлет-коэффициенты достаточны для реконструкции сигнала. Реализация обратного БПФ, как и прямого БПФ, осуществляется посредством трех вложенных циклов, только в обратной последовательности. Изменяя количество операций умножения в цикле, можно вычислить вейвлет-коэффициенты через определенные значения смещений Ъ. Например, для сигнала с выборкой 32768 отсчетов при вычислении ВП со смещением 6 = 128 количество операций умножения уменьшается почти в 50 раз, по сравнению с Ъ = 1. Увеличение смещения Ъ в 2 раза приводит почти к двукратному уменьшению операций умножения. Для смещения Ь = 4096 количество операций умножения уменьшается в 1203 раза, по сравнению с b = 1. Время вычисления ВП при этом уменьшается в 9,5 раза по сравнению с первым алгоритмом. Время вычисления непрерывного ВП в частотной области уменьшается также при использовании алгоритма, в котором не проводится умножение спектров сигнала и вейвлета по формулам (5), (6), (7), (8), а производится обратное преобразование спектра сигнала таким образом, что результат эквивалентен непрерывному ВП. Этот алгоритм позволяет существенно уменьшить время преобразования в зависимости от масштабного коэффициента а.

ЗАКЛЮЧЕНИЕ

В диссертационной работе получены следующие основные результаты.

1. Разработан алгоритм численного вычисления прямого непрерывного быстрого ВП с произвольным выбором масштабирующих коэффициентов позволяющий в реальном масштабе времени преобразовать речевой сигнал.

2. Проведены исследования зависимости времени численного вычисления непрерывного ВП в частотной области от выборки сигнала и масштабного коэффициента а. Алгоритм вычисления ВП сигналов с использованием симметрии вейвлетов и возможности вычисления спектров вейвлетов с большим масштабным коэффициентом а с применением выборки с меньшим числом отсчетов позволяет уменьшить время преобразования в 3 раза по сравнению с алгоритмом, не использующим эти свойства.

3. Разработан алгоритм численного вычисления обратного быстрого ВП, который позволяет сигнал с выборкой 2 в степени т реконструировать за т + 1 шагов. Для сигналов с выборкой более 1024 отсчетов коэффициент корреляции Пирсона г равен 0,99.

4. Разработан алгоритм кратномасштабного анализа и фильтрации речевых сигналов с применением непрерывных вейвлетов. Алгоритм кратномасштабного анализа позволяет разложить сигнал с выборкой 32768 отсчетов на 15 аппроксимирующих составляющих.

5. Предложена математическая модель фонем речевых сигналов, на основе которой синтезированы алгоритмы формирования базы эталонов фонем и алгоритмы их распознавания с использованием разработанных алгоритмов вычисления непрерывного быстрого ВП, что позволяет идентифицировать фонемы и распознавать слова и предложения.

6. Разработан комплекс программ для ЭВМ, реализующий предложенные модели и алгоритмы в реальном масштабе времени.

В приложении приведены копии свидетельств о государственной регистрации программ для ЭВМ, патента и справка о внедрении результатов диссертационной работы.

Список основных публикаций Публикации в изданиях из перечня ВАК

1. Вейвлет-анализ акустического сигнала /П.В. Желтов, В.И. Семенов; КГТУ им. А.И. Туполева // Вестн. КГТУ. 2008. Вып.4. С. 68-71.

2. Применение быстрого непрерывного вейвлет-преобразования для исследования акустических сигналов/ П.В. Желтов, В.И. Семенов // Вестн. Чуваш, гос. ун-та. 2010. Вып.З. С. 309-312.

Монография

3. Вейвлет-преобразование акустического сигнала/ П.В. Желтов, В.И. Семенов; КГТУ им. А.И. Туполева. Казань, 2008. 102 с.

Патент и свидетельства о государственной регистрации

4. Патент на изобретение № 2403628 РФ, МПК ОЮЬ 15/10. Способ распознавания ключевых слов в слитной речи / П.В. Желтов, В.И. Семенов; опубл. 10.11.2010 Бюл. №31.

5. Свидетельство об официальной регистрации программы для ЭВМ №2007615024. Непрерывное быстрое вейвлет-преобразование / В.И. Семенов; зарег. в Реестре программ для ЭВМ 4.12.2007.

6. Свидетельство о государственной регистрации программы для ЭВМ № 2009616896. Непрерывное быстрое т + 1 шаговое вейвлет-преобразование / В.И. Семенов, П.В. Желтов; зарег. в Реестре программ для ЭВМ 11.12.2009.

7. Свидетельство о государственной регистрации программы для ЭВМ № 2010610456. Непрерывное быстрое двухшаговое вейвлет-преобразование / В.И. Семенов, П.В. Желтов; зарег. в Реестре программ для ЭВМ 11.01.2010.

8. Свидетельство о государственной регистрации программы для ЭВМ № 2010616103. Непрерывное сверхбыстрое вейвлет-преобразование / В.И. Семенов; зарег. в Реестре программ для ЭВМ

16.09.2010.

9. Свидетельство о государственной регистрации программы для ЭВМ № 2011610159. Непрерывное быстрое не избыточное вейвлет-преобразование / В.И. Семенов; зарег. в Реестре программ для ЭВМ

11.01.2011.

10. Свидетельство о государственной регистрации программы для ЭВМ № 2011615828. Непрерывное быстрое прямое вейвлет-

преобразование / В.И. Семенов; зарег. в Реестре программ для ЭВМ 26.07.2011.

11. Свидетельство о государственной регистрации программы для ЭВМ № 2011615827. Ортогональное быстрое вейвлет-преобразоваиие/ В.И. Семенов; зарег. в Реестре, программ для ЭВМ 26.07.2011.

Публикации в журналах, сборниках и материалах научно-технических конференций

12. Семенов В.И. Распознавание речи на основе вейвлет-преобразования/ В.И. Семенов, П.В. Желтов; Чуваш, ун-т. Чебоксары, 2008. 16 с. Деп. в ВИНИТИ РАН 29.02.08. №174.

13. Семенов В.И. Вейвлет-обработка речевых сигналов/ В.И. Семенов, П.В. Желтов // Математические модели и их приложения: сб. науч. тр. Чебоксары, 2008. Вып. 10. С. 230-237.

14. Семенов В.И. Выделение границы между гласными и согласными фонемами при распознавании речи/ В.И. Семенов, П.В. Желтов; КГТУ им. А.И. Туполева // Компьютерные технологии и моделирование: сб. науч. тр. Казань, 2008. Вып 1. С. 24-28.

15. Семенов В.И. Классификация систем автоматического распознавания речи/ В.И. Семенов, П.В. Желтов; КГТУ им. А.И. Туполева // Компьютерные технологии и моделирование: сб. науч. тр. Казань, 2008. Вып. 1. С.29-32.

16. Семенов В.И. Некоторые проблемы распознавания речи/ В.И. Семенов, П.В. Желтов; КГТУ им. А.И. Туполева // Компьютерные технологии и моделирование: сб. науч. тр. Казань, 2008. Вып. 1. С. 33-37.

17. Семенов В.И. Применение вейвлет-анализа сигнала в распознавании речи/ В.И. Семенов, П.В. Желтов; КГТУ им. А.И. Туполева // Компьютерные технологии и моделирование: сб. науч. тр. Казань, 2008. Вып. 2. С. 55-65.

18. Семенов В.И. Скрытые марковские модели/ В.И. Семенов, П.В. Желтов; КГТУ им. А.И. Туполева // Компьютерные технологии и моделирование: сб. науч. тр. Казань, 2008. Вып. 2. С. 70-74.

19. Семенов В.И. Системы автоматического распознавания речи/ П.В. Желтов, В.И. Семенов; КГТУ им. А.И. Туполева // Компьютерные технологии и моделирование: сб. науч. тр. Казань, 2008. Вып. 2. С. 93-98.

20. Семенов В.И. Распознавание слитной речи/ П.В. Желтов, В.И. Семенов; КГТУ им. А.И. Туполева // Компьютерные технологии и моделирование: сб. науч. тр. Казань, 2008. Вып. 3. С. 56-60.

21. Семенов В.И. Вейвлетные функции/ П.В. Желтов, В.И. Семенов // Компьютерные технологии и моделирование: сб. науч. тр. Че-

боксары, 2008. Вып. 3. С. 60-65.

22. Семенов В.И. Применение вейвлет-преобразования к модельным сигналам/ П.В. Желтов, В.И. Семенов // Компьютерные технологии и моделирование: сб. науч. тр. Чебоксары, 2008. Вып. 3. С. 65-70.

23. Семенов В.И. Вейвлет-преобразование речевых сигналов/ П.В. Желтов, В.И. Семенов // Математические модели и их приложения: сб. науч. тр. Чебоксары, 2009. Вып. 11. С. 185-191.

24. Семенов В.И. Применение вейвлет-преобразования для реконструкции акустического сигнала/ В.И. Семенов, П.В. Желтов // Компьютерные технологии и моделирование: сб. науч. тр. Чебоксары,

2008. Вып. 4. С. 57-60.

25. Семенов В.И. Вейвлеты и фракталы/ П.В. Желтов, В.И. Семенов // Динамика нелинейных дискретных электротехнических и электронных систем: материалы VIII Всерос. науч.-техн. конф. Чебоксары,

2009. С. 131-133.

26. Семенов В.И. Вейвлет-обработка акустического сигнала/ П.В. Желтов, В.И. Семенов // Динамика нелинейных дискретных электротехнических и электронных систем: материалы VIII Всерос. науч.-техн. конф. Чебоксары, 2009. С. 156-157.

27. Семенов В.И. Алгоритм быстрого непрерывного вейвлет-преобразования в частотной области // Компьютерные технологии и моделирование: сб. науч. тр. Чебоксары, 2010. Вып. 6. С. 78-80.

28. Семенов В.И. Вейвлет-преобразование электронного спектра бромида меди / В.И. Семенов, Ф.К. Мацур, Г.М.Сорокин // Лазеры на парах металлов: сб. тр. симпозиума. Ростов н/Д, 2010.

29. Семенов В.И. Применение непрерывного быстрого вейвлет-преобразования для сжатия информации/ В.И. Семенов, А.К. Шурбин // Математические модели и их приложения: сб. науч. тр. Чебоксары,

2010. Вып.-12. С. 223-228.

30. Семенов В.И. Методика определения границ между гласными и согласными звуками речи с применением быстрого непрерывного вейвлет-преобразования / В.И. Семенов, П.В. Желтов // Динамика научных исследований. 2011, Przemysl, 2011.

Формат 60x84 /16. Уч. - изд. л. 1,00. Тираж 100 экз. Заказ № Чувашский государственный университет

Типография университета 428015 Чебоксары, Московский просп., 15

Текст работы Семенов, Владимир Ильич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

61 12-5/1786

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Чувашский государственный университет имени И.Н. Ульянова»

На правах рукописи

Семенов Владимир Ильич

Разработка и моделирование алгоритмов быстрого непрерывного вейвлет-преобразования с применением к обработке речевых сигналов

05.13.18 - Математическое моделирование, численные методы и комплексы программ

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель кандидат технических наук, доцент П.В. Желтов

2012

ОГЛАВЛЕНИЕ

Введение..................................................... 4

Глава 1. Частотно-временной анализ сигналов................... 10

1.1. Тригонометрические ряды Фурье. Преобразование Фурье. . . 10

1.2. Вейвлет-преобразование............................... 22

1.3. Вейвлетные функции.................................. 29

1.4. Достоинства и недостатки вейвлет-преобразования......... 36

Выводы................................................. 42

Глава 2. Разработка алгоритмов численного вычисления быстрого непрерывного вейвлет-преобразования с произвольным коэффициентом масштабирования............................. 44

2.1. Алгоритм численного вычисления прямого быстрого непрерывного вейвлет-преобразования в частотной области.......... 44

2.2. Алгоритм численного вычисления обратного быстрого непрерывного вейвлет-преобразования в частотной области......... 53

2.3. Применение вейвлет-преобразования для фильтрации сигналов..................................................... 75

2.4. Алгоритм численного вычисления фрактальной размерности........................................ 84

Выводы................................................. 90

Глава 3. Математические модели распознавания речевых команд с использованием непрерывного вейвлет-преобразования....... 90

3.1. Математическая модель выделения информационных признаков фонем.............................................. 90

3.2. Математические модели выделения границы между гласными и согласными фонемами в речи и распознавания изолированных слов........................................... 100

3.3. Математическая модель выделения фонем по энергии

сегментов вейвлет-коэффициентов на разных масштабах....................109

3.4. Математическая модель распознавания слитной речи..............119

Выводы..................................................................................................126

Глава 4. Комплекс программ для численного вычисления

непрерывного быстрого вейвлет-преобразования..................................128

4.1. Состав комплекса программ........................................................128

4.2. Устройство автоматического распознавания речевых команд............................................................................................................135

4.3. Применение устройства автоматического распознавания речевых команд для голосового управления конвейером......................150

Выводы..................................................................................................158

Заключение....................................................................................................159

Список использованной литературы..........................................................160

Приложение....................................................................................................169

ВВЕДЕНИЕ

Актуальность исследования. В настоящее время в связи с необходимостью решения многих научно-технических проблем возрастают требования к производительности численных методов обработки информации. В частности, это касается речевых технологий. Увеличение быстродействия ЭВМ, расширение памяти, снижение стоимости арифметической операции и единицы памяти решает эту проблему, как показывает практика, лишь отчасти [22]. Отсюда возникает потребность в создании новых эффективных численных методов, требующих возможно меньших вычислительных затрат.

Одним из путей повышения эффективности обработки информации является применение методов многомасштабной обработки. Многомасштабный анализ (англ. тиМясЫе и тиЫгезоЫйоп) позволяет получить хорошее разрешение по времени (плохое по частоте) на высоких частотах и хорошее разрешение по частоте (плохое по времени) на низких частотах. С помощью методов, основанных на многомасштабном представлении, может быть решен широкий круг задач синтеза, анализа и обработки сигналов. Эти методы обеспечивают сокращение объемов данных за счет удаления избыточной и несущественной информации, снижая тем самым вычислительные затраты на последующую обработку. Алгоритмы обработки многомасштабных представлений, основанные на вейвлет-преобразовании (ВП), достаточно надежны и эффективны в реализации. При этом ВП выделяет из сигнала компоненты разных масштабов, и каждый компонент исследуется с той степенью детальности, которая соответствует его масштабу [88]. Однако дискретное ВП не дает полного представления о локальных " особенностях нестационарного сигнала, поскольку использование в качестве масштабирующих коэффициентов только целых чисел приводит к значительным потерям информации при переходе с одного уровня разложения на другой. В связи с этим перспективным

подходом является использование быстрых алгоритмов непрерывного ВП, позволяющих проводить анализ, выявлять зависимости или отслеживать изменение характеристик сигналов, произвольно выбирая масштабирующие коэффициенты.

Вычисление непрерывного ВП прямым численным интегрированием для больших временных последовательностей занимает длительное время. Для практических приложений очень важным моментом является существование быстрых алгоритмов преобразования и реконструкции сигналов. Поэтому численное вычисление непрерывного ВП производится в частотной области (Сапрыкин В.А., Малый В.В., Лопухин Р.В., Штарк Г.Г.). Но при этом не учитывается свойство симметричности непрерывных вейвлетов, а также возможность вычислять Фурье-спектры вейвлетов с большим масштабным коэффициентом, используя выборку с малым числом отсчетов. Исследования показывают, что учет этих обстоятельств позволяет существенно сократить время вычисления ВП в частотной области.

Кроме возможности многомасштабного представления сигналов, непрерывное ВП сочетает в себе достоинства пространственных и частотных методов фильтрации. Аппаратным аналогом непрерывного вейвлет-преобразования является многоканальная, полосовая фильтрация сигналов при постоянном отношении ширины полосы фильтра к центральной частоте сигнала [47], то есть с постоянной добротностью.

Речевой сигнал является примером нестационарного процесса, в котором информативным является сам факт изменения его частотно-временных характеристик. Исследования показывают, что адекватными при построении алгоритмов анализа речевых сигналов являются модели на основе частотного представления сегментов вейвлет-спектра речевого сигнала.

Таким " образом, разработка численных алгоритмов быстрого непрерывного вейвлет-преобразования сигналов является актуальной задачей, решение которой будет способствовать повышению эффективности обработки информации в широком спектре приложений, в частности в

речевых технологиях. Специфика разработки и использования быстрых алгоритмов многомасштабной обработки речевого сигнала с произвольным выбором масштабирующих коэффициентов обусловлена также строением человеческого уха - при обработке звукового сигнала, по мнению И. Добеши, оно передает мозгу вейвлет-образ сигнала [92].

Объектом исследования является речевой сигнал.

Предметом исследования являются модели и алгоритмы численного вычисления быстрого непрерывного вейвлет-преобразования.

Цель и задачи исследования. Целью настоящего исследования является повышение эффективности (по быстродействию) при выполнении операций численного вычисления непрерывного вейвлет-преобразования.

Для достижения поставленной цели решаются следующие задачи:

1. Разработка алгоритма численного вычисления прямого быстрого непрерывного ВП на основе БПФ.

2. Разработка алгоритма численного вычисления обратного быстрого ВП с применением вейвлетов на основе производных функции Гаусса.

3. Исследование и разработка алгоритма кратномасштабного анализа сигнала.

4. Разработка математической модели фонем в виде их вейвлет-коэффициентов и формирование базы эталонов фонем на основе этой модели.

5. Исследование и разработка алгоритмов идентификации фонем с использованием быстрого непрерывного ВП.

6. Моделирование процесса распознавания речевых команд на основе быстрого непрерывного ВП.

7. Разработка комплекса программ для ЭВМ, реализующего предложенные алгоритмы в реальном масштабе времени.

Методы исследования. При решении приведенных задач применялись методы математического анализа, математической статистики, математической логики, вейвлет-анализа, Фурье-анализа, численные

методы, теория алгоритмов, методы цифровой обработки сигналов, математическое моделирование с применением вычислительной техники.

Достоверность. Достоверность положений диссертаций обеспечивается корректным использованием математических методов и подтверждается результатами экспериментов на реальных сигналах. ¡^^я^икт* ]

Практическая значимость. Предложенные алгоритма ' и реализующие их программы дают возможность повысить скорость обработки речевых сигналов.

Реализация работы. Результаты работы использованы при выполнении исследования по гранту РФФИ № 11-07-00276-а «Анализ речи».

Научная новизна.

1. Разработан новый метод численного вычисления прямого быстрого непрерывного ВП с произвольным выбором масштабирующих коэффициентов.

2. Разработан новый численный метод обратного быстрого ВП с применением вейвлетов на основе производных функции Гаусса.

3. Разработан новый алгоритм кратномасштабного анализа сигналов.

4. Разработана новая математическая модель фонем на основе Фурье-спектра сегментов вейвлет-спектра и новый алгоритм формирования базы эталонов фонем на основе этой модели.

5. Предложен новый метод выделения границ между гласными и согласными звуками речи на основе быстрого непрерывного ВП.

На защиту выносятся следующие положения:

1. Алгоритм численного вычисления прямого непрерывного быстрого ВП на основе быстрого преобразования Фурье с произвольным выбором масштабирующих коэффициентов.

2. Алгоритм численного вычисления обратного быстрого ВП на основе быстрого преобразования Фурье.

3. Алгоритмы кратномасштабного анализа и фильтрации речевых сигналов с применением непрерывных вейвлетов.

4. Алгоритмы формирования базы данных фонем и их идентификации.

5. Комплекс программ для распознавания речевых команд.

Апробация работы. Основные положения диссертации

докладывались и обсуждались на семинарах кафедры компьютерных технологий Чувашского государственного университета имени И.Н. Ульянова, XI Всесоюзной конференции по физике электронных и атомных столкновений (Чебоксары, 1991), III семинаре по атомной спектроскопии (Черноголовка, Московская обл., 1992), XXI съезде по спектроскопии (Звенигород, Московская обл., 1995), IV Международной конференции «Импульсные лазеры на переходе атомов и молекул» (Томск, 1999), Международной конференции «TEL' 2007» (Казань, 2007), международной конференции «TEL' 2008» (Казань, 2008), межвузовской конференции Чувашского государственного университета имени И.Н. Ульянова (Чебоксары, 2009), городском семинаре КГТУ имени А.Н. Туполева (Казань, 2009), Средневолжском математическом семинаре Мордовского государственного университета имени Н.П. Огарева (Саранск, 2009), VIII Всероссийской научно-технической конференции «Динамика нелинейных дискретных электротехнических и электронных систем» (Чебоксары, 2009).

Публикации. По теме диссертации опубликованы 1 монография, 21 статья (2 статьи - в издании из перечня ВАК), 1 патент и 7 свидетельств о государственной регистрации программ для ЭВМ.

Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения. К работе прилагается список литературы, насчитывающий 96 названий, имеется приложение. Общий объем - 177 страниц машинописного текста, основной текст - 159 страниц. В работе приводится 91 рисунок.

Первая глава содержит краткое описание аппарата Фурье-преобразования, аппарата вейвлет-преобразования одномерных сигналов,

который применяется при решении задач, рассматриваемых в последующих главах, приведены наиболее часто используемые вейвлеты, их спектры, и рассмотрены проблемы распознавания речевых команд.

Во второй главе рассмотрены методы численного вычисления прямого и обратного быстрого непрерывного вейвлет-преобразования с произвольным коэффициентом масштабирования в частотной области с применением быстрого преобразования Фурье, алгоритмы кратномасштабного анализа, сжатия и фильтрации акустических сигналов с применением непрерывного ВП, алгоритм численного вычисления фрактальной размерности.

В третьей главе представлены алгоритмы выделения информационных признаков фонем, алгоритмы определения границы между гласными и согласными звуками речи, формирования слова, приведены результаты практического применения разработанных алгоритмов для распознавания речевых команд.

В четвертой главе представлена программная реализация предложенных алгоритмов. Алгоритмы реализованы программами на ПК с использованием языка программирования высокого уровня {Visual С++ и Visual Basic for Applications), представлены временные характеристики численного вычисления ВП в частотной области и во временной области. Приведены результаты практического применения разработанных алгоритмов для выделения речевых команд из шума.

Приложение содержит 1 копию патента, 7 копий свидетельств о государственной регистрации программ для ЭВМ и справки о внедрении результатов диссертационной работы.

Глава 1. ЧАСТОТНО-ВРЕМЕННОЙ АНАЛИЗ СИГНАЛОВ

Методы анализа сигналов в частотной области получили широкое распространение, поскольку позволяют эффективно использовать свойства сигналов на основе хорошо разработанного математического аппарата преобразований Фурье (ПФ) [1,5,22,77,80,81]. Если бы теория обработки сигналов ограничивалась временным подходом, то она никогда не получила бы такого бурного развития. Целесообразность перехода в частотную область также связана с изысканием разновидности дискретного преобразования Фурье (ДПФ) - быстрого преобразования Фурье (БПФ), сокращающего время обработки сигналов во много раз при большой выборке [6,7,80,81].

1.1. Тригонометрические ряды Фурье. Преобразование Фурье

Если функция интегрируемая с квадратом, имеет период 2 тс и является кусочно-монотонной и ограниченной в промежутке [-тг, тс], то ее ряд Фурье сходится к функции Д*) в каждой точке непрерывности

неравномерно в точках разрыва (явление Гиббса) [1,5,81].

Постоянные а п и Ъп называются коэффициентами Фурье и определяются формулами Эйлера - Фурье [1,2,5]

и к значению

/(0 =

/(* + 0)+/(*-0)

2

1 яг

}/(0сомал, п = 0,1,2,3,... 6и=-//(ф\nntdt, и=1,2,3,...

1 Пг

я,

п

Ж

ТЕ

Многообразные приложения как в самой теории рядов Фурье, так и в других областях анализа находит уравнение замкнутости [1]

т=1 71 -п

Для функций, интегрируемых с квадратом, впервые это уравнение было доказано А. М. Ляпуновым [1].

Если даны две функции ДО и интегрируемые в промежутке [-71, я] с квадратом, имеющие коэффициенты Фурье соответственно ат Ьп и ап, р„, справедливо обобщенное уравнение замкнутости [1]

ап а

о^о

оо Iя

\ п п ш п/ т=1 71 -л

Эти соотношения называют формулами Парсеваля [1].

Обобщенное уравнение замкнутости теснейшим образом связано вопросом о почленном интегрировании рядов Фурье. Подставляя вместо коэффициентов ап, % их интегральные выражения:

1 71 1 71 а =— \у(?)соШЖ, Р„ =— \yfys\rLntdt,

получаем обобщенное уравнение замкнутости в виде [1]

71 00 Я Ж

2 п=\-

%

Это равенство равносильно утверждению: ряд Фурье функции ДО (интегрируемой с квадратом) по умножении всех его членов на произвольную функцию ХО (также интегрируемую с квадратом) можно в промежутке от -л до л интегрировать почленно (в том смысле, что в результате этого получится интеграл от произведения обеих функций) [1].

Функция ДО может быть задана в любом промежутке: произвольно заданная в произвольном промежутке функция в очень широком классе случаев оказывается разложимой в тригонометрический ряд, т. е. представляется единым аналитическим выражением - тригонометрическим рядом - во всей области определения функции. Аппарат тригонометрических

11

рядов оказывается универсальным средством для «склеивания» функций, окончательно стирая грань между функциями, допускающими единое аналитическое выражение во всей области определения, и функциями, определенными с помощью нескольких аналитических выражений [1,5].

Часто используется комплексная форма записи ряда Фурье функции Д?) с периодом Т

/(0= 1>ие

.21Ш

—г Г .

и=-со

1 77 2 ¡2пп1

сп=~ |/(0е г Л, п= 1,2,3,..., (1.1.1)

Т -т/2

где косинусы и синусы заменены по формулам Эйлера. Ряд Фурье периодической функции состоит из членов, содержащих гармонические функции с дискретно изменяющимися частотами у0 =1 /Г, 2у0, Зу0, ..., т. е.

спект