Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа

Киселев, Алексей Николаевич

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа

кандидата технических наук: Киселев, Алексей Николаевич
город: Тула
год: 2005
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа»

Автореферат диссертации по теме "Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа"

На правах рукописи

КИСЕЛЕВ Алексей Николаевич

ОЦЕНКА ПАРАМЕТРОВ ДИКТОРОНЕЗАВИСИМЫХ ПРИЗНАКОВ ФОНЕМ С ПРИМЕНЕНИЕМ АДАПТИВНОГО ЧАСТОТНО-ВРЕМЕННОГО АНАЛИЗА

Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени кандидата технических наук

Тула 2005

/ 1 ( I

-2-

Работа выполнена на кафедре «Электронные вычислительные машины» в ГОУ ВПО «Тульский государственный университет».

Научный руководитель - кандидат технических наук, доцент

КОТОВ ВЛАДИСЛАВ ВИКТОРОВИЧ

Официальные оппоненты - д.т.н., проф.

ФАТУЕВ ВИКТОР АЛЕКСАНДРОВИЧ

- к.т.н.,доц. ПЫШНЫЙ АЛЕКСАНДР ИВАНОВИЧ

Ведущая организация - ОАО «Центральное конструкторское бюро

аппаратостроения»

Защита состоится «

часов на заседании диссертационного совета Д 212.271.05 при ГОУ ВПО «Тульский государственный университет» (300600, г. Тула, проспект им. Ленина, 92, 9101).

1

С диссертацией можно ознакомиться в библиотеке университета. ^

Автореферат разослан «2.5» мая 2005 г.

Ученый секретарь диссертационного совета ^^^^^

д.т.н., проф. Панарин Владимир Михайлович

з^е

-3-

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Средства ввода информации (СВИ) занимают одно из главных мест в организации интерактивного взаимодействия пользователя и персонального компьютера. Естественным способом передачи текста и команд для человека является речь. Следовательно, наиболее перспективным подходом к вводу подобной информации в персональный компьютер являются системы распознавания речи (СРР). Однако уровень развития СВИ в настоящее время таков, что наиболее часто используемыми средствами ввода текста и команд в ПК являются клавиатура и мышь. Разработанные на сегодняшний день СРР имеют развитые возможности, высокую точность и сравнительно низкие вычислительные затраты, но требуют выполнения сложной и длительной процедуры обучения на конкретного диктора, что обусловливает невозможность их работы с неограниченным количеством постоянно сменяющихся пользователей (например, в справочной системе в метро или в библиотеке) и препятствует широкому распространению.

Перечисленные выше обстоятельства обусловили выбор объекта исследования диссертации, которым является система регистрации, накопления и обработки речевых сигналов, представляющая собой аппаратно-программный комплекс распознавания речи.

Тот факт, что люди, говорящие на одном языке, понимают друг друга независимо от тембра голоса, темпа речи, и других зависящих от диктора характеристик речевого сигнала позволяет предположить существование, дик-торонезависимых признаков речевых конструкций различного уровня характерных для языка в целом.

Однако, вместо нахождения подобных признаков, распознавание речевых конструкций в существующих СРР сводится к определению меры схожести речевого сигнала с элементами множества эталонов, полученного в результате обучения системы. —- ■

РОС.....

Этому есть несколько причин:

- методы статистического моделирования источника речевых сигналов (такие как искусственные нейронные сети и скрытые марковские модели) применяются к порциям данных поступающих напрямую от этапа частотно-временного анализа, и не проходящих обработки с целью выделения дикто-ронезависимых признаков речевых конструкций;

- применяемые в существующих системах распознавания речи методы частотно-временного преобразования не предоставляют возможности анализа на произвольно выбираемых частотах и смещениях по времени (метод БПФ), либо основаны на модели автокорреляции (метод линейного предсказания), результаты которого для речевых сигналов одной фонемы, произнесенной различными дикторами, имеют мало общих черт;

- отсутствуют методы частотно-временного анализа и распознавания речевых сигналов, использующие дикторонезависимые признаки речевых конструкций.

Одним из альтернативных методов частотно-временного анализа является непрерывное вейвлет-преобразование, позволяющее проводить анализ на произвольно выбираемых частотах с корректировкой размера окна преобразования под каждую анализируемую частоту. Данный метод, однако, не нашел применения в задачах распознавания речи вследствие высоких вычислительных затрат. Сокращения последних можно добиться уменьшением количества анализируемых частот и смещений преобразования по времени до достаточного для нахождения дикторонезависимых признаков речевых конструкций уровня. Выбор параметров преобразования при этом должен быть основан на применении модели источника речи, состоящей из стохастической части процесса смены состояний объекта и детерминированной части дикторонезависимых признаков речевых конструкций.

Указанные обстоятельства обусловили выбор предмета исследований диссертации, который может быть охарактеризован как модель источника речевых сигналов и методы, применяемые на этапах частотно-временного анализа, предсказания и выделения дикторонезависимых признаков речевых конструкций в системах дикторонезависимого распознавания речи.

Целью диссертационной работы является решение задачи синтеза систем обработки и распознавания речевых сигналов в части моделирования источника речевых сигналов, частотно-временного анализа и оценки параметров дикторонезависимых признаков фонем.

В соответствии с поставленной целью, автором решены следующие задачи:

Разработана модель источника речевых сигналов, включающая стохастическую часть процесса смены состояний и детерминированную часть дикторонезависимых признаков фонем;

Разработан метод адаптивного частотно-временного анализа речевых сигналов, основанный на динамическом изменении параметров преобразования по модели источника речевых сигналов;

Предложены критерии оптимальности и найдены оптимальные оценки ширины и шага смещения окна преобразования по времени;

Разработана процедура оценки частоты основного тона и формантного анализа вокализованных фонем и параметров невокализованных фонем на основе непрерывного вейвлет-преобразования;

Разработано алгоритмическое обеспечение адаптивного частотно-временного анализа речевых сигналов, на основе которого создана библиотека классов;

На основе экспериментальных исследований речевых сигналов множества дикторов определены дикторонезависимые признаки гласных, фрикативных и взрывных фонем;

Проведены экспериментальные исследования, подтверждающие адекватность разработанной модели источника речевых сигналов, эффективность предложенного метода адаптивного частотно-временного анализа для оценки параметров дикторонезависимых признаков фонем.

Методы исследования. В работе используются методы частотно-временного анализа, теории вероятностей, теории распознавания образов, функционального анализа. Разработка алгоритмов и программ осуществлялась на основе объектно-ориентированного подхода к организации данных и алгоритмов. Для визуализации результатов непрерывного вейвлет-преобразования применяются методы трехмерной компьютерной графики.

Научная новизна работы заключается в следующем.

1. Разработана модель источника речевых сигналов, включающая стохастическую часть процесса смены состояний и детерминированную часть дикторонезависимых признаков речевых конструкций.

2. Разработан метод адаптивного частотно-временного анализа речевых сигналов, основанный на динамическом изменении параметров преобразования по модели источника речевых сигналов.

3. Предложены критерии оптимальности и найдены оптимальные оценки ширины и шага смещения окна преобразования по времени.

4. Разработана процедура оценки частоты основного тона и формант-ного анализа вокализованных фонем, и оценки параметров невокализован-ных фонем на основе непрерывного вейвлет-преобразования.

Практическая ценность работы заключается в следующем.

1. Разработано алгоритмическое обеспечение адаптивного частотно-временного анализа речевых сигналов, на основе которого создана библиотека классов.

2. Разработан алгоритм быстрого вычисления непрерывного вейвлет-преобразования.

3. Найдены дикторонезависимые признаки гласных, фрикативных и взрывных фонем.

Реализация результатов диссертационной работы. Прикладные результаты работы внедрены в рамках инициативной исследовательской работы по теме «Метод адаптивного частотно-временного анализа в задачах дикторо-независимого распознавания речи» в ООО «ТЕХНОПУЛЬТ», при этом получен фактический экономический эффект равный 40 тыс. руб. в ценах 2005 г.

Апробация работы. Основные положения диссертационной работы докладывались на следующих конференциях и семинарах. 1. Всероссийская научно-техническая конференция «Интеллект 2003» (г. Тула, ТулГУ). 2. Всероссийская научно-техническая конференция студентов, молодых ученых и специалистов, посвященная 5-летию Рязанской государственной радиотехнической академии «Новые информационные технологии в научных исследованиях и образовании» (г. Рязань, РГРТА 2002 г.), 3. Научно-практические конференции профессорско-преподавательского состава ТулГУ (г. Тула, 2000-2005 г.г.), 4. Региональная научно-техническая конференция «Техника XXI века глазами молодых учёных и специалистов» (г. Тула, 2003 г.). 5. Заочная электронная конференция «Современные телекоммуникационные и информационные технологии» на базе Российской Академии Естествознания (http://www.rae.ru. апрель 2005 г.).

Публикации. По результатам исследований опубликовано 11 печатных работ (8 статей, 3 тезисов докладов).

Характеристика работы. Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 142 страницах машинописного текста, содержит 39 рисунков, 10 таблиц, списка использованной литературы из 82 наименований и 5 приложений.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении приводится обоснование актуальности темы диссертации, обосновывается выбор объекта, предмета и цели исследования. Заявлены основные результаты работы, научная новизна и практическая ценность.

В первом разделе Приведена структура системы регистрации, накопления и обработки речевых сигналов, представляющей собой аппаратно-программный комплекс распознавания речи.

Кратко описан принцип действия и назначение составных частей. Рассмотрены основные этапы работы.

Приводится классификация систем распознавания речи по возможностям их применения. Приведены особенности и основные характеристики речевых сигналов, используемые в системах распознавания речи. Кратко изложены основные методы обработки речевых сигналов, нашедшие применение в существующих системах распознавания речи. Рассмотрены их преимущества и недостатки в рамках задачи создания систем дикторонезависимого распознавания речи. В качестве альтернативного метода частотно-временного анализа предложено использовать непрерывное вейвлет-преобразование. Определены его достоинства. Главным недостатком непрерывного вейвлет-преобразования, обусловливающим сложность его использования в задачах распознавания речи, являются большие вычислительные затраты, сокращения которых можно добиться снижением количества анализируемых частот и смещений окна преобразования по времени. Сделаны общие выводы о состоянии данной предметной области, и перспективах применения непрерывного вейвлет-преобразования на этапе частотно-временного анализа.

Во втором разделе предложена составная модель источника речевых сигналов.

Источник речи

Детерминированная часть

С-

а

Параметры частотно-временного анализе

ЛА

Дикторонезависимые признаки

Стохастическая часть

Начальные вероятности

Вероятности переходов

Определяются по статистическому материалу речевых сигналов

1Определяются правилами

I языка (фонетикой, ] > морфологией, синтаксисом) и 3 J тренировочным текстом

Стохастическая ее часть описывает процесс смены состояний в соответствии с правилами языка, речь которого моделируется. Детерминированная часть определяет основные характеристики генераторов, анализ которых, в рамках задачи построения системы дикторонезависимого распознавания речи, сводится к поиску дикторонезависимых признаков соответствующего состояния. Рассмотрены вопросы моделирования смены состояний источника речи марковскими процессами с дискретным и непрерывным временем.

Предложен критерий оптимальности ширины окна преобразования Г включающий два диалектически-противоположных фактора: точность модели (величина обратно-пропорциональная общей ошибке модели, связанной с выходом окна преобразования за пределы одного состояния); разрешающая способность преобразования по частоте. Выражение для критерия выглядит

следующим образом: 0(Т) = ^ + (1 - /3)уН(Т), где р - коэффициент

Е(Т)

предпочтения; у - коэффициент пропорциональности; Е(Т) - ошибка модели; Я(Т) - разрешающая способность преобразования по частоте. Показа-

но, что функция критерия является выпуклой в области допустимых значений ширины окна преобразования Т и оптимальная оценка Т соответствует минимуму критерия. Оценку оптимальной ширины окна преобразования можно получить, выполнив приведенную ниже процедуру.

Экспериментальным или аналитическим путем сформировать матрицу аг (/),/,у = 1,Л^ плотностей вероятностей пребывания системы в состоянии 5, перед переходом в состояние в течение времени I. Установить граничное значение г)„ вероятности того, что система пребывает в состоянии перед переходом в состояние не менее времени Т. Определить Т™ путем аналитического или численного решения уравнения Т™ = а^?/,, (Т) = т]гг^ для всех = , где ^(г) - вероятность того, что система пребывала в состоянии 5, перед переходом в состояние 5у не менее

во

времени Т, и записывается в виде: т]ц (г) = |аг(у (Т)Ж. Экспериментально опт

ределить коэффициент пропорциональности у в зависимости от выбранной оконной функции преобразования м'('). Определить для используемого метода частотно-временного анализа функцию Л (У) зависимости разрешающей способности преобразования по частоте от ширины окна преобразовала

ния, удовлетворяющую следующим условиям: в области Т е шахТ™ ,<х>

I.

функция монотонно возрастает с ростом Т. Установить коэффициент предпочтения /7е(0,1) между ошибкой, связанной с выходом окна за пределы одного состояния и ошибкой дальнейшего распознавания вследствие недостаточной разрешающей способности по частоте. Аналитически или численно

^ 1 ) (1-0)гЩт)

решить уравнение — = —^--относительно размера окна

преобразования Т в области Т е

N \

7'ГР

I) >°°

. Найденное решение для Т со-

ответствует минимуму общего критерия. Ошибка £(7") = (Т)а^, где

м н

ач - переходные вероятности, Еу (Т) - функция ошибки результата частотно-временного анализа, связанная с выходом окна преобразования за пределы промежутка времени пребывания системы в состоянии 5, перед переходом в состояние определяемая следующим образом: т

Е1;(Т)= I(^('^(О) где (') ~ сигнал, генерируемый системой в состоянии 5у.

Предложен критерий оптимальности шага смещения окна преобразования по времени А/ учитывающий два диалектически-противоположных фактора: надежность распознавания /^(Д/); экономичность системы распознавания ^„(Д/)• Критерий оптимальности записывается в следующем виде: 0(Д/) = ^ой(Д/) + (1-Л)^,„,(((Д/), где А - коэффициент предпочтений; В - коэффициент пропорциональности; Риад (А/) - фактор надежности модели, Ржм (А/) - фактор экономичности модели. Показано, что функция критерия является выпуклой в области допустимых значений параметра А/ и оптимальная оценка Д/соответствует минимуму критерия.

Оценку оптимального значения Д/ можно получить, выполнив приведенную ниже процедуру.

Выбрать тип (метод) распознавания состояния системы по отсчетам частотно-временного анализа и теоретически или экспериментально определить для него функции Р^ (Д/), / = 1, Лг, у = 1, N вероятности правильного

распознавания состояния 5, перед переходом в состояние при шаге смещения окна преобразования А?. Здесь N - количество состояний модели.

Выбрать вид частотно-временного преобразования и определить для него константу 2ПР вычислительных затрат преобразования на одном смещении по времени. Определить константу Т^ общего времени преобразования. Фактор экономичности модели запишется в виде:

В соответствии с задачей, стоящей перед системой распознавания определить квадратную матрицу размерами Л^хЛГ, элементы которой > 0,/,у =1,ЛГ определяют важность правильного распознавания состояния перед переходом системы в состояние .

В соответствии с задачей, стоящей перед системой распознавания выбрать коэффициент предпочтения А €(0,1) между экономичностью и надежностью системы распознавания, а также установить значение коэффициента пропорциональности В > О экономичности модели.

Аналитически или численно решить уравнение

Предложен общий способ определения /^""(Д/), как одной из составляющих критерия оптимальности ширины окна преобразования. На основе анализа полученных критериев сделан вывод о том, что действительно оптимальной работы системы можно добиться, гибко выбирая размер окна частотно-временного преобразования (множества анализируемых частот) и ша-

1 Д/

2тТт

относительно Д/, где

га смещения (множества смещений) преобразования во времени. Такими свойствами обладает частотно-временной анализ на основе непрерывного вейвлет-преобразования.

В третьем разделе рассмотрены вопросы адаптивного частотно-временного анализа в задачах дикторонезависимого распознавания речи. Определены связи между структурой, моделью источника и процессом распознавания речи. Приведена измененная схема для системы дикторонезависимого распознавания речи с адаптивным частотно-временным анализом, организованным обратной связью от этапа распознавания и предсказания на этап ЧВА:

Изменения в структуре системы обработки и распознавания _речевых сигналов_

от

БЛО *

Блок частотно-временного аматза (БЧВА)

-Ж-

Программное обеспечение

Блок выявления признаков

(ВВП)

Блок полстройки (БПА)

Блок распознавания и предсказания (БРП)

54+1

Параметры анализа Дикгоронезависимые признаки Предсказание состояний 1

Модель источника речи |

Предложены процедуры определения параметров модели. Предложен метод формантного анализа речевых сигналов на основе непрерывного вейвлет-преобразования.

Определены особенности предсказания состояний на основе марковского процесса дискретного в пространстве состояний и во времени с проверкой гипотез о пребывании источника речи в предсказанном состоянии.

Предложен метод адаптивного частотно-временного анализа в задачах дикторонезависимого распознавания речи, заключающийся в следующем.

Сопоставить каждой фонеме данного языка отдельное состояние объекта. Взять тренировочный текст в символьном представлении Т = (с, с2,...,с7 ) и с помощью оператора Т7, созданного на основе фонетических правил данного языка, сформировать тренировочный текст в фонетическом представлении Р = (/|,/2,...,/7Г) = ^'(Т). На основе правил языка, заложенных в оператор 5уи(Т) определить позиции вхождения начальных фонем Ъ = {Ьх,Ь2,...,Ьв} = 5уп{Т) в текст Р. Пользуясь выражением

р! = определить вектор начальных вероятностей со-

В

стояний объекта. Здесь Си/(Р,В,$) - оператор, осуществляющий подсчет количества встречаемых на позициях В = {Ъх,Ьг,...,Ьв\ в тренировочном тексте Р фонем ф.. Пользуясь выражением д. =-^—=—определить пе-

СЦ Г,В,4)

реходные вероятности объекта. Здесь См(¥,В,ф,,ф^ - оператор подсчитывающий количество вхождений в тренировочный текст пар фонем {ф,,ф,} следующих друг за другом, с исключением из подсчета пар ), разде-

ленных паузой, - оператор подсчитывающий количество вхож-

дений фонемы ф\ в тренировочный текст на всех позициях, кроме конечных. Данные параметры модели закладываются в блок распознавания и предска- с

зания системы дикторонезависимого распознавания речи. На основе экспе- ±

риментов с частотно-временными портретами речевых сигналов различных дикторов, полученных в результате непрерывного вейвлет-преобразования, определить дикторонезависимые признаки фонем различных групп согласно классификации по акустическим свойствам. Данные признаки закладываются в виде соответствующих алгоритмов поиска в блок выделения признаков

системы дикторонезависимого распознавания речи. Для каждого диктороне-зависимого признака определить необходимые и достаточные для проверки его наличия в речевом сигнале множества масштабов и смещений преобразования по времени. Данные множества закладываются в блок подстройки анализа, выполняющий адаптивную функцию. Выбор признаков, а также множеств масштабов и смещений преобразования по времени определяется состоянием объекта, предсказанным блоком распознавания и предсказания.

Сделаны выводы по разделу.

В четвертом разделе приведены основные результаты экспериментальных исследований речевых сигналов различных дикторов с помощью программного комплекса частотно-временного анализа на основе непрерывного вейвлет-преобразования, разработанного в ходе выполнения диссертационной работы. Поставлены задача и условия проведения эксперимента.

Рассмотрены особенности и способы ускорения вычисления, а также выбор шкалы анализируемых частот

Предложены способы визуализации результатов непрерывного вейв-лет-преобразования в виде двухмерного растрового изображения и трехмерной поверхности.

Предложен быстрый алгоритм непрерывного вейвлет-преобразования.

Предложен следующий алгоритм выделения частоты основного тона и определения вокализованности/невокализованности участка речевого сигнала на основе непрерывного вейвлет-преобразования.

Разработана процедура оценки частоты основного тона и формантного анализа вокализованных фонем, и оценки параметров невокализованных фонем на основе непрерывного вейвлет-преобразования.

Рассмотрены вопросы сегментирования речевого сигнала. Приведена экспериментальная зависимость периода элементарных повторяющихся час-

тей вокализованных фонем от частоты основного тона, которая может быть использована при сегментировании речевого сигнала.

Найдены дикторонезависимые признаки фонем различных групп согласно приведенной классификации по акустическим свойствам. Для гласных фонем ими оказались отношения формантных частот к частоте основного тона. Для глухих фрикативных фонем (Ф, Ш, С, X) ими оказались положения локальных максимумов усредненных вейвлет-спектров, характеризующие распределение энергии фрикативного шума по частотам. Для глухих взрывных фонем в качестве дикторонезависимого признака может бьггь использована длительность присутствия в сигнале фрикативного шума, связанного с проховдением выдыхаемого воздуха через голосовую щель.

На статистическом материале речевых сигналов при произнесении различными дикторами названий различных цифр (от 0 до 9) проведено экспериментальное исследование с целью: проверки адекватности разработанной модели источника речи; определения вычислительных затрат при использовании разработанного метода адаптивного частотно-временного анализа. На статистическом материале эталонных речевых сигналов проведено экспериментальное исследование с целью сравнительного анализа точности оценки параметров дикторонезависимых признаков фонем с применением разработанного метода адаптивного частотно-временного анализа и точности оценки параметров дикторонезависимых признаков фонем с применением метода быстрого преобразования Фурье, нашедшим широкое применение в существующих системах распознавания речи.

Сделан вывод о целесообразности применения в задачах дикторонезависимого распознавания речи адаптивного частотно-временного анализа на основе непрерывного вейвлет-преобразования.

В заключении сделаны выводы по работе.

В приложенш приведены фрагменты программного обеспечения и вейвлет-портреты речевых сигналов различных фонем, произнесенных различными дикторами.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

1. На основании анализа отечественной и зарубежной специальной литературы сформирована структурная схема систем регистрации, накопления и обработки речевых сигналов, представляющих собой аппаратно-программные комплексы распознавания речи. Произведена классификация подобных систем по возможностям их применения. Проведен анализ основных этапов их работы, и применяемых методов.

2. Разработана модель источника речевых сигналов, включающая стохастическую часть процесса смены состояний и детерминированную часть дик-торонезависимых признаков речевых конструкций. Данная модель позволяет решить задачу синтеза системы дикторонезависимого распознавания речи за счет определения параметров стохастической части на этапе создания системы, и применения дикторонезависимых признаков речевых конструкций, найденных по статистической выборке речевых сигналов различных дикторов.

3. В рамках разработанной модели источника речевых сигналов предложены критерии оптимальности и найдены оптимальные оценки ширины и шага смещения окна преобразования по времени. В результате анализа полученных критериев сделан вывод, что действительно оптимальных результатов можно добиться при гибком изменении данных параметров в зависимости от анализируемого сигнала.

4. Определены изменения, которые необходимо внести в структуру систем обработки и распознавания речевых сигналов для решения задачи дикторонезависимого распознавания на основе адаптивного частотно-

временного анализа речевых сигналов. Показано влияние модели на изменяемые и добавляемые блоки.

5. Предложены процедуры определения параметров стохастической и детерминированной частей модели.

6. Разработана процедура оценки частоты основного тона и формантного анализа вокализованных фонем и параметров невокализованных фонем на основе непрерывного вейвлет-преобразования.

7. Разработан алгоритм быстрого вычисления непрерывного вейвлет-преобразования позволяющий сократить вычислительные затраты по сравнению с методом прямого вычисления описанным в литературе в 60 раз.

8. Предложены методы визуализации результатов непрерывного вейвлет-преобразования в виде двухмерных растровых изображений и трехмерных поверхностей.

9. По результатам многочисленных экспериментов проведенных над речевыми сигналами различных дикторов найдены дикторонезависимые признаки гласных, фрикативных и взрывных фонем. Эксперименты с эталонными речевыми сигналами показали, что точность оценки параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа выше, чем точность оценки тех же параметров методом БПФ. Результаты экспериментов с речевыми сигналами названий цифр (от 0 до 9), произнесенных различными дикторами показывают, что: разработанная модель источника речевых сигналов адекватна и экономична, разработанный метод адаптивного частотно-временного анализа на основе модели источника речевых сигналов требует вычислительных затрат в среднем на 6,7% меньше по сравнению с методом быстрого преобразования Фурье (БПФ), нашедшим широкое применение в существующих системах распознавания речи.

10. Разработанное в результате выполнения диссертационной работы программное обеспечение зарегистрировано в Отраслевом Фонде Алгоритмов и Программ Госкоорцентра Министерства образования и науки Российской Федерации (регистрационный номер 4575 от 04.04.2005 г.).

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Котов В.В., Киселев А.Н. Применение вейвлет-преобразования в задачах распознавания фонем. // Известия Тульского государственного университета. Серия: Математика. Механика. Информатика. Том 7. Вып. 3. Информатика - Тула: изд-во ТулГУ, 2001. - 200 с. (С. 73-77).

2. Котов В.В., Киселев А.Н. Применение вейвлет-преобразования для распознавания голосовых фонем. // Новые информационные технологии в научных исследованиях и в образовании: Сб. трудов всероссийской научно-технической конференции / Рязанская государственная радиотехническая академия. Рязань, 2002. -150 с. (С. 66-67).

3. Котов В.В., Киселев А.Н. Формантный анализ на основе вейвлет-преобразования речевых сигналов. // Известия тульского государственного университета. Серия Проблемы управления электротехническими объектами. Выпуск 2. Сборник трудов всероссийской научно-технической конференции «Системы управления электротехническими объектами». Секция 5. -Тула: изд-во ТулГУ, 2002. -174 с. (С. 156-157).

4. Котов В.В., Киселев А.Н. Адаптивный спектральный анализ речевых сигналов на основе использования статистической модели. // Известия Тульского государственного университета. Серия Вычислительная техника. Автоматика. Управление. Том 4. Выпуск 1. Вычислительная техника. - Тула: изд-во ТулГУ, 2002. - 214 с. (С.64-70).

5. Котов В.В., Киселев А.Н. Выбор признаков в задаче построения системы автоматического распознавания речи. // Известия Тульского государственного университета. Серия Проблемы специального машиностроения. Вып. 5. Ч. 2. - Тула: Изд-во ТулГУ, 2002. - 398 с. (С. 164-167).

6. Котов В.В., Киселев А.Н. Ускорение вычисления непрерывного вейвлет-преобразования. // Интеллектуальные и информационные системы: материалы межрегиональной научно-технической конференции. // Тула: изд-во ТулГУ, 2003. -124 с. (С. 93-94).

А/

200М

9546

7. Котов В.В., Киселев А.Н. Ускорение вычисления непрерывного вейвлет-преобразования при анализе высокочастотных компонент сигналов. // Известия Тульского государственного университета. Серия Вычислительная техника. Информационные технологии. Системы управления. Т. 1. Вып. 2. Вычислительная техника. - Тула: изд-во ТулГУ, 2003. - 170 с. (С. 113-

8. Котов В.В., Киселев А.Н. Алгоритм сегментирования вейвлет-портретов для распознавания фонем. // Материалы докладов региональной научно-технической конференции «Техника XXI века глазами молодых учёных и специалистов», Тула-2003. - Тула.: изд-во ТулГУ, 2003. - 480 с. (С. 38-

9. Киселев А.Н. Адаптивный частотно-временной анализ для дикторонезависимого распознавания вокализованных фонем. // Известия Тульского государственного университета. Серия Вычислительная техника. Информационные технологии. Системы управления. Т. 1. Вып. 3. Вычислительная техника. - Тула: изд-во ТулГУ, 2004. - 230 с. (С. 195-202).

10. Котов В.В., Киселев А.Н. Основная проблема создания системы распознавания речи независимо от диктора. //Заочная электронная конференция «Современные телекоммуникационные и информационные технологии». Российская Академия Естествознания (http://www.rae.ru. 2005 г.).

11. Свидетельство №4575 от 04.04.2005 г./ Котов В.В., Киселев А.Н. Вейвлет-преобразование и анализ звуковых сигналов. - Отраслевой Фонд Алгоритмов и Программ Госкоорцентра Министерства образования и науки Российской Федерации.

12. Киселев А.Н. Определение не зависящих от диктора признаков глухих фрикативных фонем. // Естественные и технические науки. - М.: изд-во «Компания Спутник +», 2005. - 251 с. (С. 145).

120).

43).

Изд. лиц. ЛР № 020300 от 12.02.97. Подписано в печать Формат бумаги 60x84 1/16- Бумага офсетная. Усл. печ. л.^/ Уч.-изд. л. ¿0 Тираж -{р0 экз. Заказ 2 о

Тульский государственный университет. 300600, г. Тула, просп. Ленина, 92.

Отпечатано в Издательстве ТулГУ 300600, г. Тулул. Болдина, 151

Оглавление автор диссертации — кандидата технических наук Киселев, Алексей Николаевич

ВВЕДЕНИЕ.

1. Анализ технических средств и методов преобразования, обработки и распознавания речевых сигналов.

1.1. Структура систем регистрации, накопления и обработки речевых сигналов.

1.2. Классификация систем распознавания речи.

1.3. Особенности речевых сигналов. Основные характеристики, используемые в системах распознавания речи.

1.4. Методы обработки речевых сигналов в задачах распознавания речи

1.5. Выводы.

2. Определение основных параметров частотно-временного анализа.

2.1. Введение.

2.2. Модель источника речевых сигналов.

2.3. Моделирование смены состояний речи марковским процессом с дискретным временем.

2.4. Определение оптимального размера окна преобразования для марковского процесса с дискретным временем.

2.5. Определение оптимального шага смещения окна преобразования для марковского процесса с дискретным временем.

2.6. Зависимость вероятности правильного распознавания состояния от шага смещения окна преобразования по времени.

2.7. Моделирование смены состояний источника речи марковским процессом с непрерывным временем.

2.8. Определение оптимального шага смещения окна преобразования для марковского процесса с непрерывным временем.

2.9. Выводы.

3. Адаптивный частотно-временной анализ сигналов в задачах дикторонезависимого распознавания речи.

3.1. Введение.

3.2. Связь между структурой, моделью и процессом распознавания речи

3.3. Определение параметров модели.

3.4. Предсказание состояний. Способ коррекции вектора вероятностей состояний системы.

3.5. Метод адаптивного частотно-временного анализа в задачах дикторонезависимого распознавания речи.

3.6. Особенности формантного анализа на основе непрерывного вейвлет-преобразования.

3.7. Выводы.

4. Экспериментальное исследование модели источника речевых сигналов и метода адаптивного частотно-временного анализа.

4.1. Задачи и условия проведения экспериментов.

4.2. Особенности вычисления непрерывного вейвлет-преобразования. Ускорение вычислений.

4.3. Выбор шкалы частот вейвлет-преобразования для формирования полных частотно-временных картин речевых сигналов.

4.4. Визуализация результатов вейвлет-преобразования.

4.5. Алгоритм нахождения частоты основного тона и определения вокализованности/невокализованности участка речевого сигнала на основе непрерывного вейвлет-преобразования.

4.6. Сегментирование речевого сигнала.

4.7. Периодичность гласных фонем.

4.8. Дикторонезависимые признаки гласных фонем. Алгоритм формантного анализа на основе непрерывного вейвлет-преобразования.

4.9. Дикторонезависимые признаки фрикативных фонем.

4.10. Дикторонезависимые признаки глухих взрывных фонем.

4.11. Экспериментальное исследование точности оценки параметров дикторонезависимых признаков методом адаптивного частотно-временного анализа.

4.12. Экспериментальное исследование адекватности разработанной модели источника речи и вычислительных затрат метода адаптивного частотно-временного анализа.

4.13. Выводы.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Киселев, Алексей Николаевич

Актуальность темы. Средства ввода информации (СВИ) занимают одно из главных мест в организации интерактивного взаимодействия пользователя и персонального компьютера [13]. Естественным способом передачи текста и команд для человека является речь. Следовательно, наиболее перспективным подходом к вводу подобной информации в ПК являются системы распознавания речи (СРР). Однако уровень развития СВИ в настоящее время таков, что наиболее часто используемыми средствами ввода текста и команд в ПК являются клавиатура и мышь [14, 15]. Разработанные на сегодняшний день СРР имеют развитые возможности, высокую точность и сравнительно низкие вычислительные затраты, но требуют выполнения сложной и длительной процедуры обучения на конкретного диктора, что обусловливает невозможность их работы с неограниченным количеством постоянно сменяющихся пользователей (например, в справочной системе в метро или в библиотеке) и препятствует широкому распространению [10, 16].

Перечисленные выше обстоятельства обусловили выбор объекта исследования диссертации, которым является система регистрации, накопления и обработки речевых сигналов, представляющая собой аппаратно-программный комплекс распознавания речи.

Тот факт, что люди, говорящие на одном языке, понимают друг друга независимо от тембра голоса, темпа речи, и других зависящих от диктора характеристик речевого сигнала позволяет предположить существование, дикторонезависимых признаков речевых конструкций различного уровня 4 характерных для языка в целом [1, 2, 3, 4, 5, 9, 10, 12].

Однако, вместо нахождения подобных признаков, распознавание речевых конструкций в существующих СРР, в конечном итоге, сводится к определению меры схожести речевого сигнала с элементами множества эталонов, полученного в результате обучения системы [10, 16, 17, 18].

Этому есть несколько причин:

- методы статистического моделирования источника речевых сигналов (такие как искусственные нейронные сети и скрытые марковские модели) применяются к порциям данных поступающих напрямую от этапа частотно-временного анализа, и не проходят обработки с целью выделения дикторонезависимых признаков речевых конструкций [10, 16, 17, 18, 19];

- применяемые в существующих системах распознавания речи методы частотно-временного преобразования не предоставляют возможности анализа на произвольно выбираемых частотах и смещениях по времени (метод БПФ), либо основаны на модели автокорреляции (метод линейного предсказания), результаты которого для речевых сигналов одной фонемы, произнесенной различными дикторами, имеют мало общих черт [10, 16, 20, 21,22,23];

- отсутствуют методы частотно-временного анализа и распознавания речевых сигналов, использующие дикторонезависимые признаки речевых конструкций [10,16].

Одним из альтернативных методов частотно-временного анализа является непрерывное вейвлет-преобразование [1, 2, 3, 4, 10, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35], позволяющее проводить анализ на произвольно выбираемых частотах с корректировкой размера окна преобразования под каждую частоту. Данный метод, однако, не нашел применения в задачах распознавания речи вследствие высоких вычислительных затрат [1, 2]. Сокращения последних можно добиться уменьшением количества анализируемых частот и смещений преобразования по времени до достаточного для нахождения дикторонезависимых признаков речевых конструкций уровня [4]. Выбор параметров преобразования при этом должен быть основан на применении модели источника речи, состоящей из стохастической части процесса смены состояний объекта и детерминированной части дикторонезависимых признаков речевых конструкций.