автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Вероятностная структура информационных сигналов в системах речевого командного управления

кандидата технических наук
Бочаров, Игорь Владимирович
город
Санкт-Петербург
год
2005
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Вероятностная структура информационных сигналов в системах речевого командного управления»

Автореферат диссертации по теме "Вероятностная структура информационных сигналов в системах речевого командного управления"

На правах рукописи

Бочаров Игорь Владимирович

Вероятностная структура информационных сигналов в системах речевого командного управления

Специальность 05.13.01 "Системный анализ, управление и обработка информации (в технике и технологиях)"

Автореферат

Диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2005

Работа выполнена в государственном образовательном учреждении высшего профессионального образования "Санкт-Петербургский государственный университет аэрокосмического приборостроения"

Научный руководитель:

Доктор технических наук, профессор, Заслуженный деятель науки РФ

Официальные оппоненты:

Доктор технических наук, профессор

Доктор технических наук, профессор

Хименко Виталий Иванович

Подоплёкин Юрий Фёдорович Катков Модест Сергеевич

Ведущая организация: Институт аналитического приборостроения Российской академии наук

Защита диссертации состоится "21" июня 2005 г. в ^часов на заседании диссертационного совета Д 212.233.02 при Государственном образовательном учреждении высшего профессионального образования "Санкт-Петербургский государственный университет аэрокосмического

приборостроения" по адресу: 190000, г. Санкт-Петербург, ул. Большая Морская, д. 67, ГУАП. С диссертацией можно ознакомиться в библиотеке ГУАП.

Автореферат разослан /У " М<\Х 2005 г.

Ученый секретарь диссертационного совета,/1 ^ . доктор технических наук, профессор м

И6498Ч

3

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Задачи анализа, обработки и распознавания речи уже на протяжении нескольких десятилетий относятся к одному из основных направлений фундаментальных исследований в области информатики, искусственного интеллекта и распознавания образов. Исследования речевых сигналов, разработка систем автоматического распознавания речи и систем речевого управления - это вопросы, которыми занимаются университетские лаборатории и исследовательские центры большинства развитых стран.

За последнее двадцатилетие было предложено много разнообразных математических моделей и алгоритмов отработки речевых сигналов. Прогресс в области науки и техники, стремительное развитие вычислительной техники и новых информационных технологий позволили реализовать на практике большинство разработанных алгоритмов. Однако, несмотря на это, общая проблема речевых технологий и речевого управления далека от своего решения. Множество вопросов в области оптимальной обработки речевых сигналов до сих пор остаются открытыми. Подавляющее большинство существующих алгоритмов распознавания речи работают эффективно лишь в условиях жестких ограничений на характер обрабатываемых сигналов.

Среди систем автоматического анализа и распознавания речи можно выделить самостоятельный класс систем речевого командного управления. Для таких систем характерен ограниченный объем словаря, раздельная речь и возможности предварительной настройки на диктора. За счет таких ограничений часто удается существенно повысить эффективность обработки информационных потоков, однако даже в системах речевого командного управления вероятности правильного принятия решений существенно снижаются при изменениях эмоционального состояния диктора или каких-либо изменениях относительно априорных параметров речевого сигнала.

Основной причиной, сдерживающей развитие речевых технологий, является сложная и изменчивая структура речевых сигналов. Такие сигналы плохо подаются детальному исследованию и формализации. Эта особенность в значительной степени объясняет тот факт, что до настоящего времени, по существу, отсутствуют удобные для практики обобщения математической модели речевых сигналов. При построении математических моделей, как правило, основное внимание уделяется лишь спектральным свойствам речи. Необходимость более детальных исследований общей вероятностной структуры речевых сигналов связана с необходимостью совершенствования математиче-

ских моделей, повышения эффективности существующих и разработкой новых перспективных алгоритмов обработки, анализа и автоматического распознавания речи.

Цель диссертационной работы состоит в исследовании основных статистических свойств речевых информационных потоков, построении обобщённой математической модели и анализе детальной вероятностной структуры сигналов речевого командного управления.

Основные задачи. Для достижения поставленной цели в диссертационной работе решались следующие основные задачи:

1. Исследование и общая классификация существующих моделей и алгоритмов обработки речевых информационных потоков.

2. Исследование основных вероятностных характеристик, спектрально-корреляционных свойств, одномерных и двумерных вероятностных распределений речевых сигналов.

3. Построение обобщённой вероятностной модели речевых информационных процессов.

4. Исследование тонкой вероятностной структуры речевых процессов, анализ характеристик типа "пересечений уровней", исследование фазовых и псевдофазовых портретов информационных сигналов.

5. Вероятностный анализ огибающей и мгновенной интенсивности речевых сигналов.

6. Экспериментальные исследования основных вероятностных характеристик типовых сигналов речевого командного управления.

7. Исследование потенциальной точности оценивания параметров в задачах обработки информационных сигналов речевого управления.

Методы исследования. При выполнении диссертационных исследований использовались: общие методы системного анализа, методы теории вероятностей и математической статистики, общая теория случайных процессов и теория выбросов случайных процессов, теория планирования экспериментов, методы цифровой обработки экспериментальных данных и методы математического моделирования.

Научная новизна. В процессе выполнения исследований были получены следующие новые научные результаты:

1. Результаты расчётно-экспериментальных исследований комплекса одномерных и двумерных статистических характеристик речевых информационных потоков.

2. Предложена обобщённая вероятностная модель, позволяющая исследовать фонемную структуру речевых сигналов и проводить анализ усреднённой вероятностной структуры речевых информационных потоков.

3. На основе обобщённой модели выполнены исследования производных речевого сигнала, определены совместные плотности вероятностей для речевых сигналов и их производных, вычислены основные вероятностные характеристики пересечений заданного уровня, длительностей выбросов и характеристики экстремальных значений для речевых информационных процессов

4. Выведены аналитические выражения для обобщённых вероятностных распределений огибающей и интенсивности нестационарного негауссовского речевого сигнала.

5. Показаны возможности детальных исследований структуры речевых процессов на основе фазовых портретов и псевдофазовых портретов, определены в аналитической форме основные количественные характеристики таких представлений.

6. Получены удобные для практического применения общие результаты по оцениванию потенциальной точности измерений параметров речевых сигналов.

Практическая значимость.

В диссертационной работе предложена обобщённая вероятностная модель, позволяющая выполнять исследования речевых информационных сигналов на уровне структуры отдельных фонем и на уровне усреднённой общей структуры процессов. Полученные при этом результаты дают возможность изучения тонких, детальных характеристик выборочных функций речевых сигналов. Это, в свою очередь, позволяет полнее использовать статистические свойства информационных процессов, оптимизировать алгоритмы обработки и распознавания, совершенствовать методы вероятностного анализа сигналов речевого командного управления. Помимо систем речевого командного управления, такие результаты важны для повышения эффективности систем распознавания дикторов, систем идентификации, верификации и защиты от несанкционированного доступа.

Основные положения, выносимые на защиту:

1. Результаты экспериментальных исследований основных одномерных и двумерных статистических характеристик речевых сигналов.

2. Обобщённая вероятностная модель, отражающая фонемную структуру и усреднённую общую структуру речевых сигналов.

3. Результаты исследования детальной вероятностной структуры выборочных функций речевых сигналов, исследования характеристик типа "пересечений уровней", структуры фазовых портретов и псевдофазовых портретов информационных сигналов речевого командного управления.

4. Потенциальные точности оценивания основных вероятностных характеристик речевых сигналов.

Внедрение результатов. Результаты диссертационной работы внедрены на предприятии ООО "Мера НН" (Российское подразделение Nortel Networks corp.) при разработке голосового интерфейса (VoIP IVR) в составе системы карточной IP-телефонии, использованы при выполнении НИР по гранту Минобразования России "Проблемы теории выбросов случайных процессов" № Т00-03.2-2694, а также по гранту Минобразования России "Проблемы обработай данных научного эксперимента" № Т02-03.3-3642. Кроме этого, результаты диссертационной работы внедрены в учебный процесс Нижегородского государственного технического университета (по кафедре информационных радиосистем), Нижегородского государственного лингвистического университета им. H.A. Добролюбова (по кафедре математики и информатики) и Санкт-Петербургского государственного университета аэрокосмического приборостроения (по кафедре компьютерной математики и программирования).

Внедрение результатов диссертационной работы подтверждено соответствующими актами, копии которых даны в приложениях к диссертации.

Апробация работы. Основные положения работа докладывались на следующих научно-технических конференциях и семинарах:

1, Пятая всероссийская НТК "Методы и средства измерений физических величин" Нижегородский государственный технический университет, 2000.

2. Международная НТК "Проблемы транспортных и технологических комплексов АВТО НН - 02", Нижегородский государственный технический университет, 2002.

3. Sixth International Workshop on New Approaches to High-Tech: Nondestructive Testing and Computer Simulations in Science and Engineering. Saint Petersburg, S.-Petersburg State Technical University. June 10-16,2002.

4. Политехнический Симпозиум "Молодые ученые - промышленности Северо-западного региона" - Компьютерные технологии и телекоммуникации, СПбГПУ, 2003.

5. Восьмая научная сессия ГУАП, 11-15 апреля 2005г.

Публикации. По результатам диссертационных исследований опубликовано 17 печатных работ, в числе которых 12 научных статей, 4 публикации тезисов докладов.

Структура и объем диссертации. Диссертация состоит из введения, четырёх глав, заключения, списка литературы (95 наименований) и приложений. Объем основной части - 170 страниц машинописного текста. Работа содержит 75 рисунков.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ ПО ГЛАВАМ

Во введении обоснована актуальность и практическая значимость проводимых исследований, определена цель работы, основные задачи исследования, сформулированы научные и практические результаты, выносимые на защиту.

Первая глава носит обзорный характер. В ней описана общая проблема анализа и распознавания речевых сигналов, выполнена классификация задач в области речевых технологий. Представлен обзор существующих моделей сигналов и алгоритмов распознавания речи. Показаны основные проблемы, возникающие при создании систем распознавания речи, а так же принципиальные ограничения, накладываемые лингвистическим аспектом проблемы.

Отмечено, что особое свойство речи - изменчивость - не позволяет разработать эффективную модель речевого сигнала и создать надёжное распознающее устройство. Для дальнейшего развития речевых технологий особое значение имеет учёт всех составляющих информационного обмена (Рис. 1), изучение функционирования органов чувств в процессе распознавания, моделирование языка и речи, исследование возможностей бионического подхода к вопросам речевого управления автоматами, формализация средств ведения диалога "человек-машина".

В первой главе вводится понятие системы речевого командного управления. Отличительными особенностями таких систем являются: ограниченный словарь малого объёма, раздельная речь, возможность

настройки на диктора. Подобные ограничения снижают требования к системе в целом и на данном этапе развития речевых технологий позволяют создавать достаточно эффективные комплексы голосового управления.

Также в первой главе содержится анализ основных моделей и алгоритмов используемых при и распознавании речевых сигналов: от классических спектральных и авторегрессионных моделей до новейших направлений типа алгоритмов нечеткой логики и независимого компонентного анализа.

Рис. 1. Факторы, влияющие на речевой обмен

Вторая глава по сути является одной из основных. Цель данной главы - проведение экспериментальных исследований речевых сигналов, определение их основных статистических характеристик, изучение вероятностной структуры речевых сигналов, а так же построение обобщённой математической модели таких сигналов.

При решении задач распознавания центральным вопросом является вопрос выбора математической модели и информационных признаков, характеризующих рассматриваемые сигналы. От решения по-

добных вопросов существенно зависят и методы синтеза алгоритмов обработки и сама структура системы принятия решений.

Построение математической модели обычно связано с предварительными экспериментальными исследованиями и накоплением данных о статистических свойствах изучаемых процессов. Характерной особенностью речевых сигналов является общая сложность их структуры, постоянная изменчивость временных и спектрально-корреляционных свойств Эта особенность в значительной степени объясняет тот факт, что до настоящего времени, по существу, отсутст-> вуют удобные для практики обобщённые математические модели ре-

чевых сигналов.

Сложность временной структуры сигналов (Рис. 2) связана со сложностью механизмов их формирования. Физиологические и аку-' стические особенности речеобразования, индивидуальные особенно-

сти дикторов, пол, возраст, изменяющаяся манера речи, скорость,

диалект, интонация, дыхание -всё это оказывает существенное влияние на структуру и отдельные характеристики речевых сигналов.

В целом, из рассмотрения временной структуры речевого сигнала можно заметить, что речевой информационный поток представляет собой непрерывный во времени случайный процесс с существенно изменяющейся дисперсией и частотной. Этот процесс состоит из видоизменяющихся элементарных речевых сегментов - фонем. Все фонемы условно можно разделить на вокализованные, невокализован-ные и смычные.

Если считать, что речевые сигналы это некоторые непрерывные случайные процессы изменяющиеся во времени то для полного описания одномерных характеристик таких процессов необходимо определить одномерную функцию распределения или одномерную плотность вероятности р(ф.

Хорошо известно, что произвольная негауссовская плотность вероятности р(х), при весьма общих предположениях относительно

характера процесса х(1), может быть сколь угодно точно представлена конечной суммой одномерных гауссовских плотностей вероятности р(х]т„ ег^ со специально подобранными средними значениями т„ дисперсиями а,2 и весовыми коэффициентами а,. Пользуясь таким представлением

(х-т,)г

р{х) (х I т,сг,) = ]Г

=1, а, >0, 1 = 1,2...п

2а;

выбор числа гауссовских функций п, параметров т„ сг, и коэффициентов а, осуществляется из условия:

I

р(х)~'^а1р1{х\т1а1)

ск = шиг,

которое в практических задачах может быть сведено, например, к привычному критерию равенства моментов

= °\хкрМтр,^, к = 1,2,3____

Воспользуемся подобным подходом для построения модели вероятностного распределения р(ф речевого сигнала ¿¡(I). Будем считать, что основными компонентами сигнала являются вокализованные звуки ¿¡,(1), невокализованные (шумовые) звуки и сегменты соответствующие паузам. При таком подходе одномерная плотность вероятности речевого сигнала может быть записана в виде

Значения весовых коэффициентов шрают здесь роль вероятностей появления соответствующих сегментов речевого сигнала и для них должно выполняться привычное условие нормировки

а,+а,+а,=1, в, е[0,1], 1 = 1,3.

Параметры а«, сгш2, <х„* характеризуют дисперсии отдельных компонент и определяются интенсивпостями вокализованных звуков <тД шумовых звуков <г„/ и интенсивностью помеховой составляющей сг/ процесса ф) на интервалах пауз.

Представленная вероятностная модель отражает основные особенности временной структуры процессов ф). Эта модель достаточно простая и удобная для аналитических исследований, кроме того, она позволяет дать наглядную физическую интерпретацию процессам формирования речевых сигналов (Рис. 3).

Вероятностный механизм управления (переключения)

а/, а3, а3

Рис. 3. Упрощённая схема формирования речевого сигнала

Для подтверждения согласованности общей модели распределения с реальными речевыми сигналами, была проведена серия дополнительных экспериментальных исследований по анализу вероятностной структуры речи.

График усреднённой одномерной плотности вероятности р'(ф речевого сигнала (Рис. 4) характеризуется более острой вершиной и более затянутыми "хвостами" по сравнению с простой гауссовской моделью. Высокая концентрация значений 4(0 в окрестности математического ожидания <а=т£-0 объясняется влиянием соединительных пауз ¿¡„(О, затягивание "хвостов" распределения связано с относительно высокой интенсивностью сг/ вокализованных звуков ¿¡,((). Шипящие звуки 4ш(0 вносят основной вклад в формирование средней

\ Рис. 4. Характерный вид усреднён-| ной плотности вероятности ! (фраза целиком)

части распределения. С другой стороны, график усреднённой одномерной плотности вероятности отдельных компонент речевого сигнала - вокализованных и шумовых хорошо поддаются гауссовской аппроксимации.

Спектральный анализ традиционно является одним из наиболее распространенных подходов к исследованию речевых сигналов. Спектральные характеристики однозначно связаны с корреляционными характеристиками в соответствии с формулами Винера-Хинчина. Вместе с тем, практическая реализация алгоритмов спектральной и корреляционной обработки существенно различна и именно по этой причине при исследовании речи целесообразно рассмотреть особенности и спектральных и корреляционных характеристик

Из экспериментальных результатов (Рис. 5) видно, что вокализованные участки информационного процесса по своей структуре близки к структуре случайного квазигармонического процесса. На этих участках отчетливо проявляется основной и несколько обертонов Шумовые фонемы процесса характеризуются более равномерным и более широким спектром. По характеру спектра невокализованные шумовые фонемы близки к структуре широкополосного случайного процесса.

Рис. 5. Выборочная функция, спектрограмма и основной тон речевого сигнала

Выполненные в работе экспериментальные исследования подтверждают возможность представления усредненной корреляционной

функции R(t) для вокализованной составляющей речевого сигнала простой и физически наглядной моделью

Я(т) = сг2р(т)акй)0т, р(0) = 1, р(г) = р{-т).

Значение со0 соответствует здесь средней частоте, в окрестностях которой в основном сконцентрирована спектральная плотность S(co). Функция р(т) является медленно меняющейся по сравнению с coscoot функцией, она может интерпретироваться как огибающая нормированной корреляционной функции г (г) Конкретный вид функции г(т) связан с формой спектральной плотности S(e>). Для невокализованных звуков спектральная плотность S(a) имеет заметно большую эффективную ширину Д а,.

Одномерные плотности вероятностей р(ф, корреляционные функции R(r) к спектральные плотности S(a) позволяют выполнять исследования речевых сигналов на уровне одномерных вероятностных характеристик и на уровне исследования спектрально-корреляционных свойств. Однако при исследовании тонкой, детальной структуры реализаций речевых сигналов требуется более полная информация о вероятностных свойствах исследуемых процессов и, в частности, необходимы дополнительные исследования двумерных вероятностных характеристик.

В качестве обобщенной модели двумерного распределения для речевого сигнала çftj в работе использовалось представление негаус-совской двумерной плотности вероятностей в виде трехкомпонентной смеси двумерных гауссовских распределений:

p(4l,Ç1;tl,t1) = alp{Ç„Ç, |<T„,r,(r))+a,i>(|„<?, К,,г„(г)) +

<*з/>(£,.£ К,г„(г)),

a, s [0,1], / = 1,2,3, а, +а, = 1

Основные компоненты в такой модели имеют вид | ст,г(г)) = p(^2;t„t21<т,«т)) =

где а2 - дисперсия, а г(т)=г(ги12) - нормированная корреляционная функция рассматриваемой компоненты. Весовые коэффициенты а„ ¡=1,2,3 играют здесь роль вероятностей появления вокализованных звуков, шумовых звуков и пауз. Величина дисперсий а/, <т„2, вид и конкретные параметры нормированных корреляционных функций

г„(т), гш(т), г „(г) определяются спектрально-корреляционными свойствами компонент £,(!)■ €ш(0. речевого сигнала 4(0-

Следует подчеркнуть, что двумерная плотность вероятностей удовлетворяет необходимым условиям согласованности и из неё легко может быть получено выражение для одномерного распределения:

] = «,/>(<? I а.) +агр(€ | аш) + агр({ | <т„).

Рис. 6. Усреднённая двумерная плотность вероятностей речевого сигнала

По общей форме полученных в результате эксперимента двумерных распределений может быть сделан вывод о том, что действительно отдельные компоненты /;„(!) и ¿¡ш(0 речевого сигнала ¿¡(0 на интервалах вокализованных и шумовых звуков близки по своей структуре к гауссовским процессам. С другой стороны, форма двумерной плотности вероятностей для длительной выборки речевого сигнала (Рис. 6) имеет явно выраженный негауссовский характер. Такой результат согласуется с предложенной обобщённой моделью и достаточно наглядно отражает влияние отдельных гауссовских составляющих на усреднённое негауссовское распределение.

На этапе исследования двумерных характеристик были построены изолинии - сечения двумерной плотности вероятности при разных значениях сдвига анализируемых процессов (Рис. 7).

Из приведённых результатов наглядно видно, что наличие корреляционной зависимости между значениями и речевого сигнала проявляется в «вытягивании» или ориентации функции в направлении диагонали. При возрастании т>тк корреляционная зависимость между 01) и уменьшается и плотность вероятности концентрируется вдоль ортогональных осей на плоскости

Рис. 7. Изолинии двумерной плотности вероятностей, полученные при нескольких значениях т (5 и 50 мсек.)

Общая вероятностная структура речевых сигналов является достаточно сложной и многое здесь зависит от характера поведения производных ¿¡'(О^^УЛ и особенностей совместных вероятностных распределений для значений изучаемого процесса ф) и значений

т

На основе общих свойств производных случайных процессов было получено выражение для одномерной плотности вероятности производной £'(0 речевого сигнала ф) на квазистационарных участках

в которой, математическое ожидание а значение дисперсии <т;

производной (0 находится по корреляционной функции:

= цл=лф')2} =-*"(<>)■

Если анализировать вероятностную структуру производных д'(1) для речевого сигнала ф) «в целом», то необходимо рассматривать в качестве исходных распределений трехкомпонентную «смесь». При таком подходе совместную плотность вероятности для речевого сигнала ф) и его производной £,'(1) можно представить в виде

Весовые коэффициенты а!: а2, в выражении играют роль вероятностей появления отдельных компонент ¿¡/1), и £,„(1) речевого сигнала 40).

Представленные результаты позволяют описать вероятностную структуру производных речевого сигнала в целом и структуру производных для основных составляющих речевого сигнала - вокализованных звуков, невокализованных звуков и отдельных пауз в речевом сигнале.

Основная информация о вероятностных свойствах случайных процессов содержится в их функциях распределения или функциях плотностей вероятности Вместе с тем, пользоваться непосредственно функциями распределения не всегда удобно. В задачах обработки, анализа, классификации случайных процессов более удобными и простыми являются информационные признаки, представляемые в виде числовых характеристик, в качестве которых могут выступать характеристики выбросов случайных процессов или характеристики типа «пересечений уровней». Применительно к анализу речевых сигналов аналитические исследования характеристик выбросов, по-видимому, не выполнялись, хотя на практике достаточно часто используются.

Теория выбросов случайных процессов дает возможность записать общую формулу для среднего числа пересечений И(Н, Т) =М{п(Н,Т)} заданного уровня //траекторией ^.¡е^Ц+Т]-

Для обобщенной негауссовской модели речевого сигнала общее выражение для среднего числа положительных выбросов над заданным пороговым уровнем Н определяется формулой:

Полученное результирующее выражение состоит из фех слагаемых, каждое из которых описывает интенсивность потока выбросов над уровнем Н соответствующей компоненты ¿¡/0, и ¿¡„О) речевого сигнала ф). Среднее число выбросов 1^СН.1) в единицу времени Т=/ для случайного процесса ф) с нулевым математическим ожиданием максимально на нулевом уровне Н=т% =0 и равно

аг,—ехр +«ш^ехр

2я ' а, " ст

Это значение полностью определяется спектрально-корреляционными свойствами основных компонент речевого сигнала.

Следует отметить, что характеристики типа «пересечений уровней» относятся к классу измеряемых характеристик, допускающих наглядную физическую интерпретацию. Они могут оказаться полезными при решении различных задач анализа структуры речевых сигналов и при разработке алгоритмов автоматической сегментации речевого сигнала.

Информация о структуре исследуемых речевых сигналов принципиально может быть представлена в различных формах. В частности, в работе рассмотрен характер поведения фазовых траекторий речевых сигналов. Структура фазовых траекторий отражает совместные изменения процесса 4(0 и его производной 4(0 на фазовой плоскости. Такое описание изучаемых процессов 4(0 80 многих задачах является удобным и достаточно информативным. Важным свойством фазовых портретов является то, что каждая из выделенных особых точек траектории 4(0 связана с пересечениями фазовой траекторией 1(4,4 ,0 соответствующих осей о4 и о4' на фазовой плоскости (4,41 (Рис. 8).

Рис. 8. Особые точки траектории случайного процесса ф), ¡ерЖ+Т] и соответствующие им особые точки фазовой траектории Ц4,4*>'0 процесса 40) на плоскости (4(0,^(0)

Моменты пересечений фазовой траектории Ь(44'<0 речевого сигнала 4 (0 на фазовой плоскости (44) оси -&4совпадают с моментами появления локальных экстремумов (максимумов и минимумов) выборочной функции 4(0• Исследование экстремальных значений для случайных процессов 4(0 осуществляется на основе методов, близких по своему содержанию к методам исследования характеристик типа «пересечений уровней». Для траектории 4(0> 1е[1о,10+Т] можно опре-

делить среднее число локальных максимумов, локальных минимумов

и общее среднее число экстремальных значений соответственно:

<* —

Kn.iT) = м{»„(Г)} = "|

/й -«я

Среднее число пересечений N¿(0^1) полуоси и среднее число пересечений Ы^-о^Т) полуоси -ф для фазовой траектории речевого сигнала ф) на интервале стационарности 1е[(о,к+Т] записывается как:

Що$,Т) = Щ-£о,Т) = = ^[-л-(4|(0)/г'(0)]К.

Приведенные в этом разделе результаты позволяют описать особенности поведения и определить числовые характеристики фазовых траекторий отдельных сегментов речевого сигнала ф). Из этих результатов видно, что структура фазовых траекторий как и временная структура отдельных реализаций ф), ¡ерь^+Т] речевого сигнала ф) существенно зависит от спектрально-корреляционных свойств исследуемого участка процесса ф).

Построение фазовых траекторий связано с выполнением операции дифференцирования с!ф)/Ж, которая для речевых сигналов ф) не всегда легко реализуется на практике. Для некоторого упрощения исследований рассмотрим здесь особенности представления речевых сигналов на псевдофазовой плоскости (Рис. 9). По аналогии с фазовыми траекториями исследуемый речевой сигнал ф) на псевдофазовой плоскости (ф),ф+т)) может быть представлен в виде двумерного векторного процесса {ф1),^2(1)}={ф),ф+ ?)} ■ Отдельные компоненты такого процесса отражают временную эволюцию случайных функций ¿¡,(1)=ф) и 42(г)=ф+т). Значение процесса ф+т) зависит от ф) и значения производной и, следовательно, характер изменений псевдофазовых траекторий Ц^^г) на плоскости (ф),ф+т)) должен отражать основные свойства фазовых траекторий 1(^,(^,1) речевого сигнала.

'•ж ф \

\

■оа

-Нг

'7 /У ~

.Л 1 1 / -

' «СО

V

Н,

Рис. 9. Представление выборочной функции речевого сигнала £({) на псевдофазовой плоскости при разных значениях т

Нахождение траектории Ц^.^'Л), I е^о+Т] в заданной области О количественно можно характеризовать относительной длительностью пребывания Т(П) функции Ц^.^Л) в этой области. Для приведённой математической модели для среднего значения Т(Ц относительной длительности пребывания, для среднего числа выбросов ЩС1Т) траектории и для средней длительности выбросов г (П) векторного процесса {£,(1), ¿¡¡(1)} за пределы рассматриваемой области О будут справедливы следующие выражения:

Г(П) = Р{Щ^)Щ =[Ф(л,)-Ф(-и,)][Ф(Лг)-Ф{-«2)],

ВД = = ехр(- л,1 /2)[Ф(п,) - Ф(-п,)] +

яр(-и?/2)[Ф(п,)-<»(-«,)], г(£1) = [1-Г(П)]/^1(П),

где п,~Н/<т( - относительный уровень, а функция Ф(х) - табулированный интеграл вероятности.

Полученные результаты позволяют количественно описать основные особенности поведения речевого сигнала на псевдофазовой плоскости. По своей структуре псевдофазовые траектории близки к фазовым траекториям, однако при рассмотрении сложных случайных процессов расчетно-экспериментальные исследования на псевдофазовой плоскости часто оказываются более простыми по сравнению с представлениями процессов на истинно фазовой плоскости, т.к. они не требуют операции дифференцирования случайных функций

При обработке случайных нестационарных сигналов важное значение приобретает процедура предварительной сегментации, т.е.

разделения речевого сигнала на квазистационарные участки. Такие участки обычно соответствуют вокализованным сегментам и невока-лизованным сегментам речевого сигнала. Обычно сегментацию производят на основе значений модуля огибающей A(t) или интенсивности I(t) речевою сигнала ф).

Среднее значение (или математическое ожидание) модуля \ф)\ речевого сигнала ф) определяется как

что непосредственно связано со значениями среднеквадратических отклонений а,, ст2, ст3 основных компонент BJt), %m(t) и £„(t) процесса

ФУ

Вероятностное распределение для огибающей A(t) речевого сигнала ф) при рассмотрении на длительных временных интервалах можно записать в виде:

= I о-,) = X", "4"ехр(

.. 1 С/ V

В соответствии с этой вероятностной моделью функция A(t) будет иметь математическое ожидание

/п,=М{Д0}

От случайной функции А (0 на основе квадратичного преобразования можно перейти непосредственно к рассмотрению интенсивности Щ процесса ф). Плотность вероятности для значений интенсивности Щ записывается как

Р(/) = £аДехрЬУ), Я, = > 0, 7(/)е[0,«).

Математическое ожидание интенсивности здесь будет непосредственно выражаться через дисперсии а*, ¡=1,2,3 основных компонент речевого сигнала

т, = м {/(/)} = iM{yiJ(i)} = ¿аД-1 = ¿а/т,1.

Полученные в данном разделе результаты дают возможность выполнять анализ вероятностной структуры отдельных сегментов, или отдельных квазистационарных участков речевого сигнала, а также

позволяют исследовать структуру процесса ф) в целом на длительных интервалах времени.

В целом в данной главе рассмотрен один из возможных подходов к построению обобщённой вероятностной модели речевых сигналов Все полученные теоретические результаты подтверждены данными экспериментальных и расчётно-экспериментальных исследований.

Третья глава отражает результаты отдельных, дополнительных экспериментальных исследований, выполненных в работе. Объектом исследования являются здесь речевые сигналы используемые в системах речевого командною управления. В качестве информационных или управляющих сигналов был использован типовой набор речевых команд, соответствующих произносимым цифрам от нуля до девяти.

При выполнении таких исследований ставились задачи анализа временной структуры конкретных, типовых сигналов, задачи оценивания корреляционных характеристик, оценивания одномерных и двумерных распределений, задачи построения фазовых траекторий и анализа их структуры для рассматриваемого класса речевых сигналов.

Одной из самостоятельных задач экспериментального анализа являлась проверка согласованности расчетно-экспериментальных данных по типовым сигналам речевого управления с общими экспериментальными и теоретическими результатами, полученными в предыдущей главе для вероятностного описания структуры произвольных речевых сигналов.

Временные реализации рассматриваемых речевых команд (Рис. 10) достаточно наглядно описывают нестационарный характер исследуемых процессов. Общий вид выборочных функций хорошо согласуется с общим описанием временной структуры речевых сигналов выведенным в предыдущей главе. Видно, что в сигнале проявляются квазистационарные участки, чередование вокализованных и невокали-зованных звуков, различные, случайные по своему характеру длительности отдельных сегментов, различный характер изменений интенсивности отдельных фонемных групп.

Общая структура корреляционных функций (Рис. 10) показывает колебательный характер и согласованность средней частоты заполнения функции Я ¿г) со средней частотой колебаний речевого сигнала. При расширении спектра исследуемого сигнала, корреляционная функция сужается и величина интервала корреляции заметно уменьшается. Для речевых команд близких по структуре к квазигармоническим сигналам корреляционная функция затухает медленнее и корреляционные зависимости сохраняются на более продолжительных временных интервалах.

0.5

-0.5

Г" 1 1_____

- ---(■ ушУш! ЩнИН

* 1 1 . <

-400 -300 -200 -100

0 ШБ

100 200 300 400

Рис. 10. Временная реализация и корреляционная функция наиболее характерной речевой команды

При проведении экспериментальных исследо- | ваний, помимо корреляционных характеристик, для типовых сигналов речевого командного управления вычислялись одномерные (Рис. 11) и двумерные (Рис. 12) плотности вероятности. Из рассмотрения и анализа полученных результатов можно сделать вывод о достаточно хорошей и наглядной согласованности вероятностной структуры типовых сигналов речевого управления с общей веро-

Рис. 11. Расчётио-эксперимен-тальные результаты по оценке одномерной плотности вероятности речевой команды "три"

ятностной моделью одномерного и двумерного распределения речевых сигналов, описанной в главе 2.

Одним из возможных вариантов представления речевой команды является ее представление в виде фазового портрета (Рис. 13) -представление речевого сигнала 4(0 на фазовой плоскости

(4,4'нтт в

виде фазовой траектории Щ,£,\0- При формировании фазового портрета речевого сигнала «в целом» на фазовой плоскости (4 4) исключается координата времени /, фазовые траектории отдельных фонем накладываются друг на друга и за счет подобного наложения происходит эффект усреднения структуры фазовых траекторий. Фазовые портреты отдельных слов становятся близкими по своей форме, на них пропадает временная сегментация и существенно сглаживаются различия между структурой отдельных фонем.

Отдельные фонемы речевого сигнала имеют свою характерную структуру, отличаются своими амплитудными, временными и частотными особенностями. Фонемный анализ речевого сигнала дает возможность выделить и описать характерные свойства отдельных сегментов речи. В третьей главе выполнен тонкий анализ фонемной структуры речевых сигналов: показаны временные реализации фонем разного типа, построена сонограмма для изучения поведения спектральных характеристик речи во времени и построены фазовые портреты. Из полученных результатов несложно заметить, что выборочные функции отдельных фонем существенно различаются по сво-

01-г

-Ов лв

Рис. 12. Оценка двумерной плотности вероятностей речевой команды «четыре» при т=50мс

им амплитудным характеристикам, относительной длительности, временному расположению в слове и частотным свойствам.

В области речевых технологий одной из наиболее распространенных задач является классическая задача опознавания дикторов по голосам. Решение подобного рода задач основано на использовании индивидуальных особенностей диктора или использовании характерных различий в структуре речевых сигналов, относящихся к различным дикторам. Для количественного описания индивидуальных особенностей речевых сигналов принципиально могут использоваться различные характеристики, такие как: характер изменения относительной интенсивности сигнала во времени, средняя частота основного тона, спектрограмма сигнала.

Рнс. 14 Выборочные функции и фазовые траектории шумовой и вокализованной фонем

Все полученные в главе экспериментальные результаты хорошо согласуются с аналитическими и расчётно-экспериментальными исследованиями по изучению общей структуры информационных речевых сигналов.

Общие процедуры распознавания и классификации сигналов, процедуры идентификации и верификации дикторов, как правило, состоят из двух основных операций - операции измерения или оценивания некоторых информационных параметров исследуемых сигналов и операции принятия решений. При оценивании информационных параметров всегда возникают вопросы точности получаемых оценок или вопросы определения эффективности используемых алгоритмов оценивания. Четвёртая глава посвящена точности оценивания парамет-

ров речевых сигналов. Для речевых сигналов подобные вопросы приобретают особый интерес. Это связано с тем, что исследуемые процессы характеризуются нестационарной структурой, измерения достаточно часто приходится выполнять в условиях малых выборок, т.е. на относительно малых по длительности временных интервалах. Точность оценивания средней интенсивности сигнала Предположим, что исследуется некоторый произвольный речевой сигнал 4(0 и необходимо на заданном интервале времени [1а,10+Т]=[0,Т] длительностью Т<оо выполнить измерения среднего значения ш1=М{1(0} интенсивности/^ этого сигнала.

Минимальная дисперсия й[т*,т] при оценивании средней интенсивности Ш] речевого сигнала 4(0 по выборочной функции 4(0, ге[^,+Т]=[0,Т] или выборочной функции 1(0, ¡е[0,Т] фиксированной длительности Т записывается как:

Если интересоваться здесь относительной средней квадратической погрешностью е[т,] измерений параметра т,, то для класса несмещенных оценок т / в данном случае найдем

Таким образом, результаты вычислений показывают, что предельная точность оценивания параметра /п,, по существу, зависит лишь от объема выборки - безразмерного параметра времени

Точность оценивания среднего числа пересечений Рассмотрим здесь особенности двух основных подходов к оцениванию среднего числа пересечений ЛЛ В первом случае будем считать, что при обработке речевого сигнала усреднение может выполняться по множеству реализаций. Во втором случае рассмотрим особенности оценивания при усреднении по длительности, т.е. усреднение по времени.

При усреднении по ансамблю реализаций для математического ожидания и дисперсии оценки среднего числа пересечений уровня Ы"(Н, Т) можно соответственно записать

Т/тк=ТА/т

ылг (я,г)}=Ле4л'" (н'т)]■

Ш ,=| тп

Здесь примечательно, что оценка Н*(Н,Т) является состоятельной и несмещенной оценкой среднего числа пересечений А<(Н,Т). При соответствующих ограничениях, налагаемых центральной предельной теоремой, эта оценка для речевого сигнала ф) будет характеризоваться асимптотически (т-><х>) нормальным распределением.

При условии доступности лишь одной реализации ф), исследуемого речевого сигнала ф) для наихудшей си-

туации высоких уровней Я дисперсия оценки Ы*(Н,Т) записывается как

о[ы- (я, 1)]=г-!о[«(я,г)]

и соответствующая ей относительная погрешность оценивания параметра ЩН,1)

Точность оценивания характеристик длительности временных интервалов

Измерения вероятностных характеристик речевых сигналов достаточно часто приводит к необходимости оценивания характеристик типа длительностей временных интервалов. Такие задачи возникают при исследованиях функций распределения и плотностей вероятностей, анализе длительностей выбросов, длительностей пребывания реализаций в некоторых заданных областях.

При длительности интервала наблюдения Т»тк, где ц - интервал корреляции исследуемого речевого сигнала ф), для дисперсии оценки 7*(Н) длительности пребывания выборочной функции ф) над уровнем Н получим простое приближенное выражение

Согласно центральной предельной теоремы, распределение оценки Т'(Н) с увеличением длительности выборочной функции Т-><х> будет асимптотически приближаться к гауссовскому с математическим ожиданием М{Т'(Н)}=1*(Н) и дисперсией П[Т'(Н)] определяемой этим простым приближенным выражением.

Т/2т,

«

Выполненные в четвертой главе исследования позволяют определить основные свойства получаемых оценок, оценить точность измерения отдельных параметров речевых сигналов или, при иной постановке задачи, определить необходимый объем выборки (необходимую длительность обработки) для обеспечения требуемой точности измерений. Отличительной особенностью полученных результатов является их достаточно общий характер, простота, явная аналитическая форма выводов, удобство практического использования.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Основные результаты диссертационной работы кратко можно перечислить в следующем виде:

1. Выполнена общая классификация задач, относящихся к области речевых технологий, представлен обзор существующих моделей сигналов и алгоритмов автоматического распознавания речи, выделены основные проблемы и ограничения, характерные для задач обработки и распознавания речевых сигналов, рассмотрены отличительные особенности систем речевого командного управления.

2 Выполнен широкий комплекс экспериментальных исследований речевых информационных потоков, определены основные одномерные и двумерные статистические характеристики, исследованы спектральные и корреляционные свойства речевых процессов.

3. Предложена обобщённая вероятностная модель речевого процесса. На основе этой модели выполнены аналитические и рас-чётно-экспериментальные исследования вероятностной структуры речевых сигналов на уровне фонемного анализа и на уровне усреднённого анализа структуры сигналов при большом объёме выборки.

4. Исследована вероятностная структура производных и совместные распределения для речевого сигнала и его производных. Методами общеё теории выбросов случайных процессов определены характеристики типа "пересечений уровня", введены и исследованы фазовые портреты и псевдофазовые представления речевых сигналов.

5. Исследована временная структура модуля речевого сигнала, огибающей и интенсивности Для этих целей на основе обоб-

щённой вероятностной модели определены плотности вероятностей и основные параметры распределений.

6. Выполнены экспериментальные и аналитические исследования типовых сигналов речевого командного управления. Для семейства таких сигналов проведён анализ временных реализаций, спектрально-корреляционных характеристик, одномерных и двумерных распределений, проведено построение фазовых портретов и рассмотрены на уровне отдельных фонем особенности формирования фазовых траекторий речевых команд в целом. Рассмотрены принципиальные особенности классической задачи распознавания дикторов по голосам.

7. Рассмотрена задача оценивания потенциальной точности измерений основных параметров речевых сигналов. Получены удобные для практического использования аналитические результаты, позволяющие при заданном объёме выборки определить предельную точность измерений или, при иной постановке задачи, определить необходимую длительность обработки для обеспечения требуемой точности параметров.

В заключение целесообразно подчеркнуть, что общая вероятностная структура речевых информационных процессов и структура сигналов речевого командного управления исследовалась в диссертационной работе экспериментальными, аналитическими и расчёгно-экспериментальными методами. Полученные при эхом результаты полностью согласуются между собой, хорошо согласуются с предложенной обобщённой вероятностной моделью и существенно дополняют известные к настоящему времени исследования в области вероятностной структуры речевых процессов.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Бочаров И.В., Савченко В.В., Акатьев Д.Ю. Распознавание речевых сигналов по методу обеляющего фильтра //Тез. докл. 5й НТК "Методы и средства измерений физических величин", Нижегородский государственный технический университет, Н. Новгород. 2000.

2. Бочаров И.В , Кузьмин П.Н., Акатьев Д Ю. Проблема голосового управления при эксплуатации автомобиля //Тез. докл. НТК "Проблемы транспортных и технологических комплексов АВТО НН - 02", Нижегородский государственный технический университет, Н. Новгород. 2002.

3 Бочаров И.В. Выбор порядка авторегрессионной модели в задаче распознавания речи методом минимакса энтропии //Сб

аспирантов Нижегородского государственного лингвистического университета, Н. Новгород. 2002.

4 Бочаров И.В. Особенности программной реализации алгоритма распознавания речи методом обеляющего фильтра //Сб. аспирантов Нижегородского государственного лингвистического университета, Н. Новгород. 2003.

5 Bocharov I., Akatjev D. The recognition of voice signals according to the method of the whitening filter //Sixth International Workshop on New Approaches to High-Tech: Nondestructive Testing and Computer Simulations in Science and Engineering. Saint Petersburg, S.Petersburg State Technical University. June 10-16. S.-Petersburg, 2002.

6 Bocharov I., Akatjev D. The recognition of voice signals according to the method of the whitening filter. Nondestructive Testing and Computer Simulation Science and Engineering, Alexander I. Melker, Editor, Proceedings of SPIE (2002). Canada, 2003.

7 Бочаров И.В., Акатьев Д.Ю. Распознавание дикторов по методу обеляющего фильтра //Исследовано в России. 2001. С. 16931700.

8 Бочаров И.В., Акатьев Д.Ю. Распознавание речевых сигналов на основе метода обеляющего фильтра //Исследовано в России. 2003. С. 1801-1809,.

9 Бочаров И.В., Акатьев Д.Ю. Распознавание речевых сигналов на основе метода спектрального оценивания //Исследовано в России. 2003. С. 1537-1546.

10 Бочаров И.В., Акатьев Д.Ю. Распознавание речевых сигналов на основе корреляционного метода //Исследовано в России. 2003. С. 1547-1557.

11 Бочаров И.В. Распознавание речи на основе критерия минимума информационного расстояния. Изд. Нижегородский государственный лингвистический университет. 2003.

12. Бочаров И.В. Использование стандартных шаблонов в математическом программном обеспечении //Политехнический Симпозиум "Молодые ученые - промышленности Северо-западного региона" - Компьютерные технологии и телекоммуникации, СПбГПУ, 28 октября 2003 г.

13. BocharovI., Lukin P. Information divergence criterion in speech signal recognition. Fundamenta Informaticae, European Association for Theoretical Computer Science (EATCS), Warsaw University. 2005.

14. Bocharov I., Lukin P. Application of Kullback-Leibler metric to speech recognition. arXiv.org e-Print archive, Computing Research Repository (CoRR), Computer Vision and Pattern Recognition, Cornell University, USA. 2003.

15. Бочаров И.В. Применение обобщённого стратегического программирования в математических алгоритмах

//Вычислительные методы и программирование. М.:МГУ. 2003.

16. Бочаров И.В. Построение и исследование обобщённой вероятностной модели речевых сигналов //Восьмая научная сессия ГУАП: Сб. докл. СПбГУАП. СПб., 2005.

17. Бочаров И.В. Экспериментальные исследования статистических характеристик информационных сигналов в системе речевого командного управления //Восьмая научная сессия ГУАП: Сб. докл. СПбГУАП. СПб. 2005.

Формат 60x84 1\16 .Бумага офсетная. Печать офсетная. _Тираж 100 экз. Заказ № 222_

Отдел оперативной полиграфии СПбГУАП

190000, Санкт-Петербург, ул. Б. Морская, 67

и 0 33*

PH Б Русский фонд

2006-4 10671

Оглавление автор диссертации — кандидата технических наук Бочаров, Игорь Владимирович

Введение.

1. Общая проблема анализа и распознавания речевых сигналов.

1.1. Речевые технологии. Задачи анализа и синтеза речи.

1.2. Особенности обмена речевой информацией.

1.3. Структура автоматизированного распознавания речи.

1.4. Системы речевого командного управления.

1.5. Модели сигналов и алгоритмы распознавания речи.

1.5.1. Модель линейного предсказания.

1.5.2. Модель спектрального представления.

1.5.3. Модель вейвлет-преобразования.

1.5.4. Метод шаблонного сравнения.

1.5.5. Алгоритмы нейронных сетей.

1.5.6. Алгоритмы, основанные на моделях Марковских цепей.

1.5.7. Алгоритмы нечёткой логики.

1.5.8. Независимый компонентный анализ.

1.6. Основные результаты главы.

2. Вероятностная структура речевых сигналов.

2.1. Особенности временной структуры исследуемых сигналов.

2.2. Модель вероятностного распределения.

2.3. Спектрально-корреляционные характеристики.

2.4. Модель двумерного вероятностного распределения.

2.5. Структура производных речевого сигнала.

2.6. Характеристики типа «пересечений уровней» для речевых сигналов.

2.7. Исследование фазовых траекторий речевых сигналов.

2.8. Псевдофазовые траектории речевых сигналов.

2.9. Вероятностное распределение огибающей и интенсивности сигнала.

2.10. Основные результаты главы.

3. Экспериментальные исследования типовых сигналов речевого командного управления.

3.1. Временные реализации и корреляционные функции типовых сигналов.

3.2. Одномерные и двумерные распределения.

3.3. Фазовые портреты типовых сигналов.

3.4. Фонемный анализ сигналов речевого управления.

3.5. Зависимость структуры речевых сигналов от диктора.

3.6. Основные результаты главы.

4. Точность оценивания параметров речевых сигналов.

4.1. Точность оценивания средней интенсивности сигнала.

4.2. Точность оценивания среднего числа пересечений.

4.3. Точность оценивания характеристик длительности временных интервалов

4.4. Основные результаты главы.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Бочаров, Игорь Владимирович

Актуальность проблемы. Задачи анализа, обработки и распознавания речи уже на протяжении нескольких десятилетий относятся к одному из основных направлений фундаментальных исследований в области информатики, искусственного интеллекта и распознавания образов. Исследования речевых сигналов, разработка систем автоматического распознавания речи и систем речевого управления - это вопросы, которыми занимаются университетские лаборатории и исследовательские центры большинства развитых стран.

За последнее двадцатилетие было предложено много разнообразных математических моделей и алгоритмов отработки речевых сигналов. Прогресс в области науки и техники, стремительное развитие вычислительной техники и новых информационных технологий позволили реализовать на практике большинство разработанных алгоритмов. Однако, несмотря на это, общая проблема речевых технологий и речевого управления далека от своего решения. Множество вопросов в области оптимальной обработки речевых сигналов до сих пор остаются открытыми. Подавляющее большинство существующих алгоритмов распознавания речи работают эффективно лишь в условиях жестких ограничений на характер обрабатываемых сигналов.

Среди систем автоматического анализа и распознавания речи можно выделить самостоятельный класс систем речевого командного управления. Для таких систем характерен ограниченный объем словаря, раздельная речь и возможности предварительной настройки на диктора. За счет таких ограничений часто удается существенно повысить эффективность обработки информационных потоков, однако даже в системах речевого командного управления вероятности правильного принятия решений существенно снижаются при изменениях эмоционального состояния диктора или каких-либо изменениях относительно априорных параметров речевого сигнала.

Основной причиной, сдерживающей развитие речевых технологий, является сложная и изменчивая структура речевых сигналов. Такие сигналы плохо подаются детальному исследованию и формализации. Эта особенность в значительной степени объясняет тот факт, что до настоящего времени, по существу, отсутствуют удобные для практики обобщения математической модели речевых сигналов. При построении математических моделей, как правило, основное внимание уделяется лишь спектральным свойствам речи. Необходимость более детальных исследований общей вероятностной структуры речевых сигналов связана с необходимостью совершенствования математических моделей, повышения эффективности существующих и разработкой новых перспективных алгоритмов обработки, анализа и автоматического распознавания речи.

Цель диссертационной работы состоит в исследовании основных статистических свойств речевых информационных потоков, построении обобщённой математической модели и анализе детальной вероятностной структуры сигналов речевого командного управления.

Основные задачи. Для достижения поставленной цели в диссертационной работе решались следующие основные задачи:

1. Исследование и общая классификация существующих моделей и алгоритмов обработки речевых информационных потоков.

2. Исследование основных вероятностных характеристик, спектрально-корреляционных свойств, одномерных и двумерных вероятностных распределений речевых сигналов.

3. Построение обобщённой вероятностной модели речевых информационных процессов.

4. Исследование тонкой вероятностной структуры речевых процессов, анализ характеристик типа "пересечений уровней", исследование фазовых и псевдофазовых портретов информационных сигналов.

5. Вероятностный анализ огибающей и мгновенной интенсивности речевых сигналов.

6. Экспериментальные исследования основных вероятностных характеристик типовых сигналов речевого командного управления.

7. Исследование потенциальной точности оценивания параметров в задачах обработки информационных сигналов речевого управления.

Методы исследования. При выполнении диссертационных исследований использовались: общие методы системного анализа, методы теории вероятностей и математической статистики, общая теория случайных процессов и теория выбросов случайных процессов, теория планирования экспериментов, методы цифровой обработки экспериментальных данных и методы математического моделирования.

Научная новизна. В процессе выполнения исследований были получены следующие новые научные результаты:

1. Результаты расчётно-экспериментальных исследований комплекса одномерных и двумерных статистических характеристик речевых информационных потоков.

2. Предложена обобщённая вероятностная модель, позволяющая исследовать фонемную структуру речевых сигналов и проводить анализ усреднённой вероятностной структуры речевых информационных потоков.

3. На основе обобщённой модели выполнены исследования производных речевого сигнала, определены совместные плотности вероятностей для речевых сигналов и их производных, вычислены основные вероятностные характеристики пересечений заданного уровня, длительностей выбросов и характеристики экстремальных значений для речевых информационных процессов.

4. Выведены аналитические выражения для обобщённых вероятностных распределений огибающей и интенсивности нестационарного негауссовского речевого сигнала.

5. Показаны возможности детальных исследований структуры речевых процессов на основе фазовых портретов и псевдофазовых портретов, определены в аналитической форме основные количественные характеристики таких представлений.

6. Получены удобные для практического применения общие результаты по оцениванию потенциальной точности измерений параметров речевых сигналов.

Практическая значимость.

В диссертационной работе предложена обобщённая вероятностная модель, позволяющая выполнять исследования речевых информационных сигналов на уровне структуры отдельных фонем и на уровне усреднённой общей структуры процессов. Полученные при этом результаты дают возможность изучения тонких, детальных характеристик выборочных функций речевых сигналов. Это, в свою очередь, позволяет полнее использовать статистические свойства информационных процессов, оптимизировать алгоритмы обработки и распознавания, совершенствовать методы вероятностного анализа сигналов речевого командного управления. Помимо систем речевого командного управления, такие результаты важны для повышения эффективности систем распознавания дикторов, систем идентификации, верификации и защиты от несанкционированного доступа.

Основные положения, выносимые на защиту:

1. Результаты экспериментальных исследований основных одномерных и двумерных статистических характеристик речевых сигналов.

2. Обобщённая вероятностная модель, отражающая фонемную структуру и усреднённую общую структуру речевых сигналов.

3. Результаты исследования детальной вероятностной структуры выборочных функций речевых сигналов, исследования характеристик типа "пересечений уровней", структуры фазовых портретов и псевдофазовых портретов информационных сигналов речевого командного управления.

4. Потенциальные точности оценивания основных вероятностных характеристик речевых сигналов.

Внедрение результатов. Результаты диссертационной работы внедрены на предприятии ООО "Мера НН" (Российское подразделение Nortel Networks corp.) при разработке голосового интерфейса (VoIP IVR) в составе системы карточной IP-телефонии, использованы при выполнении НИР по гранту Минобразования России "Проблемы теории выбросов случайных процессов" № ТОО-ОЗ .2-2694, а также по гранту Минобразования России "Проблемы обработки данных научного эксперимента" № Т02-03.3-3642. Кроме этого, результаты диссертационной работы внедрены в учебный процесс Нижегородского государственного технического университета (по кафедре информационных радиосистем), Нижегородского государственного лингвистического университета им. H.A. Добролюбова (по кафедре математики и информатики) и Санкт-Петербургского государственного университета аэрокосмического приборостроения (по кафедре компьютерной математики и программирования).

Внедрение результатов диссертационной работы подтверждено соответствующими актами, копии которых даны в приложениях к диссертации.

Апробация работы. Основные положения работы докладывались на следующих научно-технических конференциях и семинарах:

1. Пятая всероссийская НТК "Методы и средства измерений физических величин" Нижегородский государственный технический университет, 2000.

2. Международная НТК "Проблемы транспортных и технологических комплексов АВТО НН - 02", Нижегородский государственный технический университет, 2002.

3. Sixth International Workshop on New Approaches to High-Tech: Nondestructive Testing and Computer Simulations in Science and Engineering. Saint Petersburg, S.-Petersburg State Technical University. June 10-16,2002.

4. Политехнический Симпозиум "Молодые ученые - промышленности Северо-западного региона" - Компьютерные технологии и телекоммуникации, СПбГПУ, 2003.

5. Восьмая научная сессия ГУАП, 11-15 апреля 2005г.

Публикации. По результатам диссертационных исследований опубликовано 17 печатных работ, в числе которых 12 научных статей, 4 публикации тезисов докладов.

Структура и объем диссертации. Диссертация состоит из введения, четырёх глав, заключения, списка литературы (95 наименований) и приложений. Объем основной части - 170 страниц машинописного текста, из них 75 рисунков.

Заключение диссертация на тему "Вероятностная структура информационных сигналов в системах речевого командного управления"

Основные результаты диссертационной работы кратко можно перечислить в следующем виде:

Выполнена общая классификация задач, относящихся к области речевых технологий, представлен обзор существующих моделей сигналов и алгоритмов автоматического распознавания речи, выделены основные проблемы и ограничения, характерные для задач обработки и распознавания речевых сигналов, рассмотрены отличительные особенности систем речевого командного управления.

2. Выполнен широкий комплекс экспериментальных исследований речевых информационных потоков, определены основные одномерные и двумерные статистические характеристики, исследованы спектральные и корреляционные свойства речевых процессов.

3. Предложена обобщённая вероятностная модель речевого процесса. На основе этой модели выполнены аналитические и расчётно-экспериментальные исследования вероятностной структуры речевых сигналов на уровне фонемного анализа и на уровне усреднённого анализа структуры сигналов при большом объёме выборки.

4. Исследована вероятностная структура производных и совместные распределения для речевого сигнала и его производных. Методами общеё теории выбросов случайных процессов определены характеристики типа "пересечений уровня", введены и исследованы фазовые портреты и псевдофазовые представления речевых сигналов.

5. Исследована временная структура модуля речевого сигнала, огибающей и интенсивности. Для этих целей на основе обобщённой вероятностной модели определены плотности вероятностей и основные параметры распределений.

6. Выполнены экспериментальные и аналитические исследования типовых сигналов речевого командного управления. Для семейства таких сигналов проведён анализ временных реализаций, спектрально-корреляционных характеристик, одномерных и двумерных распределений, проведено построение фазовых портретов и рассмотрены на уровне отдельных фонем особенности формирования фазовых траекторий речевых команд в целом. Рассмотрены принципиальные особенности классической задачи распознавания дикторов по голосам.

7. Рассмотрена задача оценивания потенциальной точности измерений основных параметров речевых сигналов. Получены удобные для практического использования аналитические результаты, позволяющие при заданном объёме выборки определить предельную точность измерений или, при иной постановке задачи, определить необходимую длительность обработки для обеспечения требуемой точности параметров.

В заключение целесообразно подчеркнуть, что общая вероятностная структура речевых информационных процессов и структура сигналов речевого командного управления исследовалась в диссертационной работе экспериментальными, аналитическими и расчётно-экспериментальными методами. Полученные при этом результаты полностью согласуются между собой, хорошо согласуются с предложенной обобщённой вероятностной моделью и существенно дополняют известные к настоящему времени исследования в области вероятностной структуры речевых процессов.

Заключение

Библиография Бочаров, Игорь Владимирович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Галунов Б.И., Кутуков Г.П., Матюнин С.Н. Состояние исследований в области речевых технологий и задачи, выдвигаемые государственными заказчиками. //Доклад на секции по автоматическому распознаванию и синтезу речи РАН. - М., 2002.

2. Бенвенист Э. Уровни лингвистического анализа //Новое в лингвистике. 1965. Вып. 4, с.434-449.

3. Потапова Р.К. Введение в лингвокибернетику. М.:Изд-во МГУ, 1990.

4. Netter F.H. Nervous system, part I: anatomy and physiology. Ciba collection of medical illustration. Ciba, West Caldwell, NJ, 1986.

5. Златоустова JI.B., Потапова P.K., Трунин-Донской B.H. Общая и прикладная фонетика. М.:Изд-во МГУ, 1986 — 304с.

6. Pickles J. О. Recent advances in cochlear physiology. // Prog Neurobiol. 1985, vol. 24(1), p.1-42.

7. Rabiner L.R., Gold B. Theory and application of Digital Signal Processing. Prentice-Hall, 1975.

8. Кодзасов C.B. Комбинаторная модель фразовой просодии. — В кн.: Просодический строй русской речи. М., 1996.

9. Галяшина Е.И. Теоретические и прикладные основы судебной фоноскопической экспертизы: Автореф. дисс. докт. юр. наук. Воронеж, 2002.

10. Потапова Р.К. Речь: коммуникация, информатика, кибернетика. М.: Радио и связь, 1997.

11. Bocharov I., Akatjev D. The recognition of voice signals according to the method of the whitening filter //Nondestructive Testing and Computer Simulation Science and Engineering, Proceedings of SPIE, Canada —2003.

12. Бочаров И.В. Использование стандартных шаблонов в математическом программном обеспечении //Сб. докл. "Молодые ученые промышленности Северо-западного региона", СПбГПУ, 2003.

13. Бочаров И.В., Акатьев Д.Ю. Распознавание речевых сигналов на основе метода обеляющего фильтра //Исследовано в России. 2003. С. 1801-1809.

14. Alea M. Fairchild, Bruno de Vuyst Hot Spot Implosion: The Decline and Fall of Flanders Language Valley: in Proceedings of the IEEE 37th International Conference on System Sciences, 2004

15. Ericsson launches new T-class phone: Ericsson Press Releases, Thursday, March 18 1999. Ericsson Mobile Communications AB, 1999.

16. Picone J. Fundamentals of speech recognition Mississippi State University, Department of Electrical and Computer Engineering, 1996.

17. Рутковская Д., Пилонский M., Рутковский JI. Нейронные сети, генетические алгоритмы и нечёткие системы. /Пер. с польск. -М: Горячая линия Телеком, 2004.

18. Робинсон Э.А. История развития теории спектрального оценивания//ТИИЭР т.70, №9, 1982

19. Fant G., Acoustic Theory of Speech Production. Mounton and Co., Gravenhage, The Netherlands, 1960.

20. Flanagan J.L Speech Analysis Synthesis and Perception. Springer, New York, 1972.

21. Wakita H. Estimation of vocal-tract shapes from acoustical analysis of the speech wave: the state of the art. //IEEE Transactions on Acoustics, Speech and Signal Processing, 1979, vol. 27(3), pp. 281-285.

22. Markel J.D., Gray A.H. Linear Prediction of Speech. Springer-Verlag, 1976.

23. Hermansky H., JunquaJ.C. Optimization of perceptually based ASR front-end: in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing 88, paper S5.10, pp. 219-222.

24. Бочаров И.В., Савченко B.B, Акатьев Д.Ю Распознавание речевых сигналов по методу обеляющего фильтра //Тез. докл. пятой всероссийской НТК "Методы и средства измерений физических величин", Нижегородский государственный технический университет, 2000.

25. Бочаров И.В. Выбор порядка авторегрессионной модели в задаче распознавания речи методом минимакса энтропии //Сб. аспирантов Нижегородского государственного лингвистического университета, 2002.

26. Цемель Г.И. Опознавание речевых сигналов. М., Наука, 1971.

27. Gold В. Some Personal History of the Genesis of Digital Signal Processing. Lincoln Laboratory, MIT, 1996.

28. Бочаров И.В. Особенности программной реализации алгоритма 'распознавания речи методом обеляющего фильтра //Сб. аспирантов

29. Нижегородского государственного лингвистического университета, 2002.

30. Hynek, Hermansky Beyond a "short-term" analysis of speech Acoustical Society of America, 132nd meeting, 1996.

31. ZwickerE., Flottorp G., Stevens S.S. Critical bandwidth in loudness summation //J. Acoust. Soc. Am., 1957, vol. 29, pp. 548-557.

32. Rabiner L., Juang B.H. Fundamentals of Speech Recognition. Prentice Hall, 1993.

33. Hermansky H. Perceptual Linear Predictive (PLP) Analysis for Speech

34. The Journal of the Acoustical Society of America, 87:1738-1752, April 1990.

35. Hermansky H., Morgan N. RASTA Processing of Speech, IEEE Transactions on Speech and Audio Processing, October 1994, vol. 2, No. 4.

36. ZwickerE., Schorn K. Psychoacoustical tuning curves in audiology //Audiology, 1978, vol. 17, pp. 120-140.

37. Irino Т., Unoki M. An analysis/synthesis auditory filterbank based on an IIR implementation of the gammachirp. ATR Human Information Processing Research Labs, Japan Advanced Institute of Science and Technology, 1999.

38. Glasberg B.R, Moore B.C.J., Patterson R.D., Nimmo-Smith I. Dynamic range and asymmetry of the auditory filter //J. Acoust. Soc. Am., 1984, vol.76, pp.419-427.

39. Кисельман Б.А. Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть: дис. на соиск. учен. степ. канд. техн. наук /Нижегородский государственный технический университет, 2001.

40. Новиков JI.B. Спектральный анализ в базисе вейвлетов //Научное приборостроение, 2000, том 10, №3, с.57-64.

41. Mallat S. Multiresolution approximation and wavelet orthonormal bases of L2(R), Trans. AMS, 1989, vol.315, pp.69-87.

42. Сэломон Д. Сжатие данных, изображения и звука: Пер. англ., М: Техносфера, 2004.

43. Beng Т. Tan, Dermody P. .The use of wavelet transform in phoneme recognition The university of Newcastle, Australia, 1998.

44. Новиков JI.B. Адаптивный анализ вейвлет сигналов. Институт аналитического приборостроения РАН, 1999.

45. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет — преобразования С.-Петербург: ВУС, 1999.

46. Farooq Omar Wavelet-Based Techniques for Speech Recognition Department of Electronic and Electrical Engineering, Loughborough University, 2002.

47. Janer Leonard, Lleida-Solano Eduardo Wavelet Transforms for NonUniform Speech Recognition Systems Dept. TSC Universität Politécnica de Catalunya 08034 Barcelona, Spain, 2001.

48. Mohanty S., Bhattacharya Recognition of Voice signals for Oriya Language using wavelet Neural Network Dept of Computer Science Utkal University Bhubaneswar, 2002.

49. Беллман Р., Энджел Э. Динамическое программирование и уравнения в частных производных. М., Мир, 1974.

50. Stuart N Wrigley Speech Recognition by Dynamic Time Warping University of Sheffield, The Department of Computer Science, 1998.

51. Ney H. The use of a one-stage dynamic programming algorithm for connected word recognition //IEEE Trans. ASSP, 1984, vol. 32, no. 2, pp. 1042-1062.

52. McCalloch W.A., Pitts W. A logical calculus in nervous activity //Bull. Math. Biophys. 1943, No.5., pp. 115-133.

53. Tebelskis J., Speech Recognition using Neural Networks, School of Computer Science, Carnegie Mellon University, 1995.

54. Иванов A.B., Петровский A.A. Методы построения устройств распознавания речи на базе гибрида нейронная сеть/скрытая Марковская модель. //Труды VIII всероссийской конференции «Нейрокомпьютеры и их применение», Москва, 2002.

55. Феллер В. Введение в теорию вероятностей и её приложения. М:Мир, 1964.

56. Young Steve The НТК Book v3.2, Cambridge University Engineering Department, 2002.

57. Zadeh L.A., Fuzzy Sets //Information and Control, 1965, Vol. 8, No.3, pp. 338-353.

58. Василенко O.B. Анализ эталонного метода распознавания раздельной речи основанного на нечетком сопоставлении //36ipKa праць MaricTpaHTie Донецького нащонального техшчного ушверситету. Випуск 1, Донецьк: 2002, №1, с. 889-895.

59. Liusheng Liu, Zhijian Li, Bingxue Shi Segment Matrix Vector Quantization and Fuzzy Logic for Isolated-Word Speech Recognition 25th International Symposium on Multiple-Valued Logic, Bloomington, 1995.

60. Tran D., Wagner M. Generalised Fuzzy Hidden Markov Models for Speech Recognition //Lecture Notes in Computer Science, 2002, Vol. 2275, p.345.

61. Нуvarinen Aapo, OjaErkki Independent Component Analysis: Algorithms and Applications //Neural Networks, 1999.

62. Herault J., Jutten C., Space or time adaptive signal processing by neural models //in Proceedings AIP Conference: Neural Networks for Computing, J.S. Denker, Ed. American Institute for Physics, 1986, vol. 151, pp. 206211.

63. Common P. Independent Component Analysis, a new concept? //Signal Processing, 1994, No 36, pp. 287-314.

64. Hyvarinen Aapo New Approximation of Differential Enthropy for Independent Component Analysis and Projection Pursuit Helsinki University of Technology, 2002.

65. Penny W., Roberts S., Everson R. Hidden Markov Independent Components Analysis //in Advances in Independent Component Analysis, Mark Girolami, Ed. Kluwer Academic Publishers, 2000.

66. Hyvarinen Aapo Fast and Robust Fixed-Point Algorithms for Independent Component Analysis //Neural Computation, 1997, vol. 9, no. 7, pp. 1483-1492.

67. TeicherH. On the mixture distributions // Ann. Math. Statistics, 1960, vol. 31, p.55-73.

68. Bocharov I., Lukin P. Information divergence criterion in speech signal recognition. Fundamenta Informaticae, European Association for Theoretical Computer Science (EATCS), Warsaw University, 2005.

69. Миленький A.B. Классификация сигналов в условиях неопределённости. М.: Сов. Радио, 1975.

70. Тихонов В.И. Статистическая радиотехника. — М.: Радио и связь, 1982.

71. Бочаров И.В., Акатьев Д.Ю. Распознавание речевых сигналов на основе метода спектрального оценивания //Исследовано в России. 2003. С. 1537-1546.

72. Бочаров И.В., Акатьев Д.Ю. Распознавание речевых сигналов на основе корреляционного метода //Исследовано в России. 2003. С. 1547-1557.

73. Харкевич A.A. Линейные и нелинейные системы. — М.: Наука, 1973.

74. Тихонов В.И. Нелинейные преобразования случайных процессов. -М.: Радио и связь, 1986.

75. Крамер Г., Лидбеттер М. Стационарные случайные процессы. -М. :Мир, 1969.

76. Тихонов В.И., Хименко В.И. Выбросы траекторий случайных процессов. -М.: Наука, 1983.

77. Бочаров И.В. Построение и исследование обобщённой вероятностной модели речевых сигналов //Восьмая научная сессия ГУАП: Сб. докл. СПбГУАП. СПб. 2005.

78. Бочаров И.В. Экспериментальные исследования статистических характеристик информационных сигналов в системе речевого командного управления //Восьмая научная сессия ГУАП: Сб. докл. СПбГУАП. СПб. 2005.

79. Болыпев Л.Н., Смирнов Н.В., Таблицы математической статистики. -М.: Наука, 1983.

80. Справочник по специальным функциям /Под ред. М. Абрамовича, И. Стиган. М.: Наука, 1979.

81. Бочаров И.В., Акатьев Д.Ю., Распознавание дикторов по методу обеляющего фильтра. Исследовано в России, 147/011211, стр. 16931700. М:МФТИ, 2001.

82. Abrahams J. A Survey of recent progress on level-crossing problems for random process.-N.Y.: Springer-Verlag, 1986.

83. Тихонов В.И., Хименко В.И. Проблема пересечений уровней случайными процессами. Радиофизические приложения //Радиотехника и электроника, 1998, т.34, №5, с.501-523.

84. Речевая связь с машинами //ТИИЭР (тематический выпуск), 1976, том 64, №4.

85. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. —1. М.: Радио и связь, 1981.

86. Хименко В.И. О нормированных спектральных моментах стационарных случайных процессов //Изв. вузов. Радиофизика, 1976, т. 19, №8, с.1188-1192.

87. Хименко В.И. О поведении производной в моменты пересечений случайным процессом заданного уровня // Изв. вузов. Радиофизика, 1982, т.25, №7, с.797-804.

88. Лидбеттер М., Линдгрен Г., Ротсен X. Экстремумы случайных последовательностей и процессов.— М.: Мир, 1989.

89. Крамер Г. Математические методы статистики. -М.:Мир, 1975.

90. Кендалл М. Стьюарт А. Статистические выводы и связи. М.гНаука, 1973.

91. Хименко В,И., Тигин Д.В. Статистическая акустооптика и обработка сигналов. СПб.: Изд-во СПб. университета, 1996.

92. Bocharov I., Lukin P. Application of Kullback-Leibler metric to speech recognition. arXiv.org e-Print archive, Computing Research Repository (CoRR), Computer Vision and Pattern Recognition, Cornell University, USA. 2003.

93. Крашенинников И.В. Моделирование, пространственно-временная фильтрация и распознавание речевых сигналов на фоне помех дис. на соиск. учен. степ. канд. техн. наук /Ульяновский государственный технический университет, 2000.

94. Bocharov I., Akatjev D. The recognition of voice signals according to the method of the whitening filter //Sixth International Workshop on New Approaches to High-Tech. S.-Petersburg State Technical University. June 10-16. 2002.

95. Бочаров И.В. Распознавание речи на основе критерия минимума информационного расстояния. Изд. Нижегородский государственный лингвистический университет. 2003.

96. Первый проректорам! профессор ^ • менко1. Лю, - o 4 ■'' « > — ч1. АКТ ^¿^^об использовании результатов диссертационной работы Бочарова И. В

97. Зав. кафедрой №46 профессор, д.т.н.1. Доцент кафедры, к.т.н.1. Доцент кафедры, к.т.н.

98. В.И. Хименко A.A. Ключарёв В.А. Матьяш C.B. Щекин

99. Министерство образования Российской Федерации

100. НИЖЕГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ603600, ГСП-41, г.Нижний Новгород, ул. К.Минина, 24

101. Материалы диссертационной работы использованы при проведении лабораторных работ по дисциплине "Теория сигналов";

102. Результаты исследований использовались при написании дипломных работ студентами групп 99-СБТ и 99-ИБУ.1. Дата На '

103. Телеграф.адрес: Нижний Новгород, «Гроза». Телетайп: 1392. Телефон: 36-93-89.1. Индекс от1. АКТоб использовании результатов кандидатской диссертационной работы Бочарова Игоря Владимировича1. Рындык А.Г.1. Приблудова Е.Н.

104. Министерство образования Российской Федерации1. ТВЕРЖДАЮ НГЛУ

105. Материалы диссертационной работы использованы при проведении лабораторных работ по теме "Автоматизированное распознавание речи на основе критериев минимального информационного рассогласования";

106. Менеджер проекта VoIP R&D Зуев А. Б.