автореферат диссертации по радиотехнике и связи, 05.12.13, диссертация на тему:Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания

кандидата технических наук
Кисляков, Сергей Викторович
город
Санкт-Петербург
год
2004
специальность ВАК РФ
05.12.13
цена
450 рублей
Диссертация по радиотехнике и связи на тему «Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания»

Автореферат диссертации по теме "Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания"

На правах рукописи

Кисляков Сергей Викторович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДА РАСПОЗНАВАНИЯ ФОНЕМ РУССКОГО ЯЗЫКА НА ОСНОВЕ АППАРАТА ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ

05.12.13 - Системы, сети и устройства телекоммуникаций

Автореферат диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2004

Работа выполнена в Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича.

Научный руководитель:

д.т.н., проф. Е.А. Шульгин

Официальные оппоненты: д-т.н., проф. Ю.М. Смирнов

к.т.н., проф. Ю.А. Корнеев

Ведущая организация:

ООО «Центр речевых технологий»

Защита состоится «гЖ 2004 г. в час, на заседании дис-

сертационного Совета К 219.'004.0/К Санкт-Петербургского государственного университета телекоммуникаций им. проф. М.А. Бонч-Бруевича по адресу: 191186 Санкт-Петербург, наб. р. Мойки, 61.

С диссертацией можно ознакомиться в библиотеке университета.

Отзыв на автореферат в двух экземплярах, заверенный печатью учреждения, просим направлять по вышеуказанному адресу на имя ученого секретаря диссертационного Совета.

Автореферат разослан «¿Л ЫЛ^^гш г.

Ученый секретарь диссертационного Совету, к.т.н., доц.

В^ Харитонов

Подписано к печати 28.10.2004 Объем 1 печ. л. Тираж 60 экз. Зак. 50.

Тип. СПбГУТ. 191186 СПб, наб. р. Мойки, 61

2006-4 1196

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. До недавнего времени процесс речевого общения человека и компьютера был непременным атрибутом научно-фантастических романов и никем не воспринимался всерьез. Несколько лет назад ситуация кардинально изменилась. Сегодня использование речевых технологий в прикладных программах в качестве альтернативного средства взаимодействия в системе «человек-компьютер» приобретает все больший размах. Такой процесс носит вполне обоснованный и объективный характер в силу ряда причин. Во-первых, развитие речевых средств взаимодействия с персональным компьютером лежит в рамках мировой тенденции «очеловечивания» ПК, т.е. позволяет создавать интерфейсы, максимально дружественные пользователю. Во-вторых, миниатюризация современных средств управления и связи требует принципиально новых подходов к осуществлению взаимодействия пользователя с такого типа устройствами. Для современных технологий не представляет большого труда создание, например, мобильного телефона размером с авторучку, однако механический набор номера на таком телефоне будет сопряжен с определенными трудностями. Голосовой набор номера и авторизация в этом случае являются очевидным и наиболее подходящим выходом. В-третьих, для большого круга пользователей речевой способ общения с ПК является единственно возможным в силу ограниченности их физических возможностей (люди с нарушениями опорно-двигательного аппарата, другими физическими недостатками, слепые и т.д.) либо специфики профессии.

Большое значение приобрели также задачи, связанные с быстрым поиском и получением от больших информационно-вьинслительных систем («информационных банков») нужных сведений в виде обычных речевых сообщений, передаваемых по телефонным каналам. Все это сделало проблему автоматического распознавания речи разносторонней и актуальной.

Можно указать на следующие, наиболее перспективные области применения автоматического распознавания и синтеза речи:

- сжатие речи для передачи ее по более простым и экономичным узкополосным линиям связи;

- установление прямой речевой связи с ЭВМ специального назначения и с поисково-информационными системами, снабжающими абонентов различной информацией;

- управление голосом (посредством устных команд) различными процессами и машинами (в том числе боевыми) без помощи других управляющих средств или в комбинации с ними;

- идентификация или верификация личности по голосу;

- автоматический синхронный перевод с одного языка на другой;

- создание устройств для понимания устной речи глухими и чтения книг слепыми.

В настоящее время сильно развивается синтетическая телефония. При этом тесно связываются между собой такие области как цифровая обработка сигналов (ЦОС), синтез речи, анализ (раопозпаванне) рачи. Теоретические и пр&кти-

РОС. НАЦИОНАЛЬНАЯ

БИБЛИОТЕКА С.Петербург МО^РК

ческие разработки в области ЦОС, кодирования и передачи PC ведутся российскими и зарубежными учеными многие годы. Большой вклад в теоретическом и практическом планах внесли А.А. Пирогов, В.Н. Трунин-Донской, А.А. Ланнэ, Л. Рабинер, Р. Шафер, Д. Макхоул и др.

Исследования по машинному распознаванию речи ведутся сравнительно недавно, однако за это время написано множество теоретических работ и предложен ряд практических реализаций систем распознавания речи (СРР). При этом достаточно большое количество идей взято из области ЦОС. Существенный вклад в развитие СРР внесли советские и российские ученые В.Н. Трунин-Донской, Т.К. Винцкж, Н.Г. Загоруйко, Ю.А. Косарев, J1.JI. Мясников, зарубежные ученые Д.Д. Маркел, А.Х. Грей, Б. Гоулд, Г. Фант и др. Тем не менее задача качественного распознавания русской речи еще не решена.

Восприятие речи есть сложный многоуровневый процесс, в котором тесно переплетены различные уровни - акустический, лингвистический, смысловой. В многоуровневой модели распознавания речи ее качество (надежность) определяется качеством реализации каждого отдельно взятого уровня.

На настоящий момент лингвистическая часть модели проработана удовлетворительно, что подтверждается многими исследователями, а также наличием программ, распознающих написанный или напечатанный текст. Этого нельзя утверждать применительно к акустической части модели распознавания. Объясняется это следующими причинами:

1. Неустойчивостью и случайностью параметров PC, их изменением при смене дикторов, различными внешними факторами (механические перегрузки, пониженные температуры окружающей среды, темнота и т. д.). Основными причинами затруднений при разработке акустической части СРР является отсутствие на настоящий момент системы признаков, позволяющей с высокой точностью определять «что поступает» на вход распознающей системы независимо от обозначенных причин.

2. Недостаточной адекватностью используемых моделей PC, что не позволяет получить качественные признаки для их дальнейшей обработки.

Большинство исследователей считает, что нельзя «хорошо понимать» речь, не используя при этом закономерности фонетического уровня.

Объектом исследования являются модели и методы выделения акустических признаков фонем для систем распознавания русской речи.

Предметом исследования являются линейные спектральные корни (JICK) применительно к задаче распознавания речи на фонетическом уровне.

Состояние проблемы и задачи исследования. К настоящему времени известно большое число моделей и методов выделения первичных (акустических) признаков PC. Одним из самых перспективных методов многие исследователи (Ю.А. Косарев, C.B. Виноградов, Н.Г. Загоруйко, Д. Макхоул и др.) считают аппарат линейного предсказания (ЛП): полученные на основе ЛП признаки обладают рядом практически полезных свойств - они просто рассчитываются, дают компактное представление PC, позволяют контролировать устойчивость, наимейее чувствительны к действиям помех. Наиболее широко при разработке «речевых» систем используются ЛСК, предложенные Итакурой. С появлением

обобщающей теории ЛСК (А.А. Ланнэ «Новая теория линейных спектральных корней») оказалось возможным получать новые (отличные от уже известных) ЛСК, которые еще не исследованы с точки зрения применимости в СРР.

Целью диссертационной работы является исследование ЛСК для их использования в качестве акустических признаков фонем в СР слитной русской речи.

Для достижения поставленной цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

1. Провести анализ существующих структур СРР и методов формирования признаков фонем в СРР на акустическом уровне.

2. Разработать математическое и программное обеспечение для проведения исследований и тестирования разработанных моделей.

3. Исследовать свойства ЛСК как признаков фонем:

- разработать параметрическую модель расчета ЛСК для ПЭВМ;

- исследовать статистические свойства ЛСК;

- исследовать влияние параметров расчета ЛСК на качество разделения фонем в пространствах ЛСК;

- на основании предложенных критериев осуществить выбор оптимальных параметров расчета ЛСК.

4. Разработать компактный рабочий словарь признаков фонем, опираясь на известные свойства ЛСК.

5. Разработать метод формирования кластеров фонем на основе рабочего словаря признаков фонем.

6. Построить тестовую программную модель распознавания фонем для ЭВМ.

7. Осуществить проверку предложенного метода распознавания фонем путем проведения машинных экспериментов на тестовых РС.

Методы исследования. Решение указанных задач осуществлено на основе применения методов теории вероятности и математической статистики, теории синтеза линейных электрических цепей, цифровой обработки сигналов.

Основные положения, выносимые на защиту:

1. ЛСК - акустические признаки фонем, обладающие высокой компактностью и слабой чувствительностью к смене диктора.

2. Применение преобразования Карунена-Лоэва (на этапе формирования рабочего словаря признаков фонем) позволяет ввести ранжирование признаков по степени их информативности. Исключение из описания фонем «неинформативных» признаков позволяет получить компактный рабочий словарь признаков с размерностью векторов признаков не более трех.

3. Решение задачи повышения надежности распознавания фонем на основе ЛСК может быть решена путем поиска наилучших (в смысле минимума ошибки распознавания) параметров модели линейного предсказания методом динамических сгущений.

4. Методы формирования кластеров фонем на основе признаков «первого уровня» (значений ЛСК) и «второго уровня» (скользящих средних ЛСК) позволяют сформировать признаковые подпространства малых размерностей (2-3), в

которых образы фонем хорошо разделяются независимо от диктора. Решена задача поиска оптимальных (в объявленном смысле) подпространств, в которых ошибка разделения фонем минимальна.

5. Алгоритмы распознавания фонем с использованием предлагаемых методов формирования кластеров позволяют выделять фонемы из речевого потока независимо от диктора.

Практическая ценность. На основании результатов исследований сделаны выводы о возможности применения ЛСК в СРР, разработана и доведена до практической реализации на ПЭВМ модель акустического блока СРР, исследована её надежность (качество распознавания).

Результаты внедрения. Разработанные методы, модели и программы являются частью работ, проводимых в рамках НИР № 190-93-054 по каф. ЦВТИ в 2000-2002 г. СПбГУТ под руководством д.т.н., проф. Е.А. Шульгина.

Результаты научных исследований и практические разработки используются «Центром речевых технологий» Санкт-Петербурга, теоретические результаты внедрены в учебный процесс СПбГУТ им. проф. М.А. Бонч-Бруевича.

Апробация работы. Основные положения, выводы и практические результаты диссертационной работы обсуждались на конференциях:

- 2-я международная научно - техническая конференция студентов, аспирантов и молодых специалистов СПбГУТ в 2000 г;

- Международная научно-практическая конференция «Компьютерные технологии в науке, производстве, социальных и экономических процессах», г. Новочеркасск, 2002 г;

- 52-я, 53-я, 54-я, 55-я научно-технические конференции СПбГУТ.

Часть результатов и выводов представлена в отчете по НИР № 190-93-054,

проводившейся в СПбГУТ в 2000-2002 гг. под руководством д.т.н., проф. Е.А. Шульгина.

По теме диссертационной работы опубликовано 10 печатных работ, в том числе отчет по НИР.

Объем и структура диссертации. Диссертационная работа включает введение, четыре главы, заключение, список литературы и приложения. Вся работа изложена на 193 страницах текста, включающих в себя 47 страниц приложений, 67 рисунков, 9 таблиц. Количество библиографических ссылок -101.

Работа по теме диссертации проводилась с 1998 по 2004 годы на кафедре ЦВТИ в СПб ГУТ им. проф. М.А. Бонч-Бруевича.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснованы актуальность темы диссертации, описано состояние проблемы создания систем распознавания речи (СРР), сформулирована цель работы, поставлены задачи исследования, выделены объект и предмет исследования. Приведены основные положения, выносимые на защиту, сведения об апробации и внедрении результатов работы.

Глава 1 посвящена анализу проблемы автоматического распознавания РС. Подробно рассмотрены состояние и тенденции развития этого направления в

России и других странах. Из приведенного обзора видно, что ни одна из СРР на сегодняшний день не позволяет распознавать слитную речь в реальном масштабе времени и независимо от диктора (каждая СРР требует настройки на конкретного диктора, а реализация таких систем требует мощных вычислителей (больших ресурсов ЭВМ)).

Проведен анализ существующих моделей СРР. Практически каждая модель СРР содержит в своей структуре акустическую и лингвистическую составляющие. Лингвистическая часть задачи на настоящий день решена удовлетворительно, (что подтверждается наличием на рынке программных продуктов надежно работающих переводчиков и распознавателей текста) а проблемным участком является часть общей модели СРР между речевым сигналом на входе системы и условным входом лингвистического блока. При этом именно акустическая модель вносит наибольший вклад в качество СРР и определяет дальнейшие алгоритмы обработки и, как следствие, результаты распознавания.

Таблица 1, Сравнительный анализ методов распознавания

Основные параметры Элементная база Основные виды обработки Прим.

10 изолированных слов с любого голоса, точность 98.3% ЭВМ, аппаратные средства Признаки на уровне слов Обучение

200 изолированных слов, точность 95%, конкретный голос Тоже Спектральный анализ, динамическое программирование, признаки на уровне слов Обучение

200 изолированных слов, точность 99%, конкретный голос ПЭВМ, ЦПОС КЛП-анализ, динамическое программирование Обучение

Слитная речь из словаря 20-30 слов ЦПОС Цифровая фильтрация, динамическое программирование Обучение

1000 изолированных слов с конкретного голоса, точность 95% ПЭВМ, специализированные речевые процессоры То же + фонемный уровень распознавания Обучение

5000 изолированных слов с конкретного голоса, точность 95% ПЭВМ, ЦПОС КЛП-анализ, членение на фонемы, фонемный, синтаксический и смысловой уровни распознавания Отставание от реального времени в 50 раз, обучение

Большинство существующих на сегодняшний день моделей СРР, ориентированных на работу с большими (неограниченными) словарями, имеют в своей

структуре акустико - фонетический уровень распознавания, а анализ речевого сигнала проводится методами линейного предсказания (табл. 1).

В диссертации поставлена задача исследования «новых» ЛСК с целью получить более качественное в известном смысле описание РС на акустическом уровне, которое могло бы быть использовано при построении дикторонезави-симой СРР слитной речи, работающей с неограниченным словарем.

Глава 2 посвящена разработке программной модели расчета ЛСК, исследованию статистических свойств ЛСК, формированию рабочего словаря признаков фонем, поиску оптимальных параметров модели линейного предсказания.

Метод расчета исследуемых признаков речевого сигнала - ЛСК. Параметрическую модель РС можно построить на основе общей модели линейной дискретной динамической системы типа «вход-выход» с переменными параметрами и передаточной функцией в частотной области вида

1 +

Щг)

1

¿ы

Наиболее широко для описания РС применяется полюсная модель линейного предсказания, представляемая в виде

н^=Ж)=в~&—(2) /=1

где N - порядок модели. Параметрами такой модели выступают коэффициенты ЛП {а,} или эквивалентные им параметры ЛСК. ЛСК были предложены Итаку-рой в качестве альтернативы коэффициентам {а,}. ЛСК Итакуры оказались не единственно возможными: в работе А.А. Ланнэ «Новая теория спектральных корней» построена общая теория ЛСК, которая "...дает возможность «генерировать» различные варианты ЛСК". В рамках этой теории ЛСК Итакуры являются частным случаем. Различные варианты ЛСК могут быть получены из решения уравнений

= 0, = 0 при Я > (ЛГ / 2), (3)

где Ап(г) = 1 + Ха2-'

м

Возможны следующие частные случаи расчета корней в зависимости от значения Я:

1. При Я = (N12) решают оба уравнения (3), при этом общее число корней равно N-1 и для полной информации о многочлене Ац(г) необходимо знать значение еще одного параметра, например масштабного множителя при 1т(й).

2. При Я = {(N+1)12) - случай Итакуры. Решают оба уравнения (3), число корней N.

3. При Л > {{N+1)12) решают оба уравнения (3), общее число корней больше N (избыточно).

4. При Я = N число корней уравнения для Яе(«э) равно И, а для \т{са) -N-1. Для полной информации о многочлене достаточно знать N корней Яе(гу) или ЛЧ корней 1т(ю) и масштабный множитель.

Практически во всех исследованиях и разработках используется случай 2, предложенный Итакурой и на сегодняшний день хорошо изученный. Случай 4 не исследован и представляет интерес не только в приложении к задаче распознавания речи, но и к задачам компрессии речи и экономной передачи параметров ЛП. Различие вариантов 2 и 4 расчета ЛСК в том, что в первом случае ЛСК являются корнями двух специально образованных полиномов, а во втором случае корнями вещественной и мнимой частей полинома г" ■ Аы{£). Это приводит к несовпадению алгоритмов получения ЛСК и их численных значений.

В настоящей работе рассматривается случай 4, когда Я = N = 10. В этом случае вместо традиционного решения двух уравнений порядка N12 для определения ЛСК (одно для вещественной, другое - для мнимой частей) достаточно решить только одно уравнение порядка N, чтобы по его корням найти все коэффициенты исходного многочлена.

Статистические свойства ЛСК. Обработка речи осуществлялась на отдельных кадрах, длительностью 15мс (120 отсчетов) при частоте дискретизации 8кГц. Разброс значений ЛСК, рассчитанных на участке РС соответствующем одной фонеме, объясняется свойствами речевого сигнала как случайного процесса. Временные диаграммы ЛСК (рис. 1) показывают явное различие в поведении ЛСК при смене фонем. На диаграммах четко прослеживаются границы фонем по большинству ЛСК. Исследования статистических характеристик ЛСК фонем позволили сделать выводы об их изменениях при переходе от фонемы к фонеме. Всегда существуют такие ЛСК, гистограммы которых (для различных фонем) перекрываются незначительно. Это говорит о небольшой априорной вероятности ошибки разделения фонем по значениям ЛСК. Исходя из вышесказанного, можно сделать вывод о возможности разделения фонем по значениям ЛСК в пространствах или подпространствах ЛСК.

Фонем 1 , Фонема 2 , Фонема 3

ЛСК

Рис. 1. Временные диаграммы ЛСК

и п | Д5

иен

|Чч*Ч1| »иМмц

•^"¡тИ

Гистограммы различных номеров ЛСК (1-10) на участках РС, соответствующих каждой отдельной фонеме, между собой не перекрываются. Это обстоятельство выгодно отличает ЛСК, рассчитанные выбранным для исследования в настоящей работе методом ((3) частный случай 4), от ЛСК, рассчитанных остальными методами ((3) частные случаи 1 - 3): применение ЛСК, рассчитанных предлагаемым методом, дает возможность использовать значение каждого отдельно взятого спектрального корня в качестве координаты признакового пространства.

О 05 1 15 2 25 Э

Рис. 2. Гистограммы ЛСК фонем «а» и «у» (1000 кадров, 15 дикторов)

ЛСК 1

а) б)

Рис. 3. Пара фонем в плоскости (а) и в пространстве ЛСК (б)

Оценка вероятностей ошибок классификации фонем проведена на основе расчета площадей перекрытия гистограмм «одноименных» корней фонем. В ряде, подпространств ЛСК фонемы можно уверенно разделить простыми линейными границами, используя при этом подпространства малых размерностей (пары или тройки ЛСК) (рис. 3). На рис. 3 (а) в плоскости ЛСК отображены кластеры двух фонем, полученных от пяти дикторов и проведена возможная разделяющая граница.

Выбор метода расчета ошибки классификации. Для расчета вероятности суммарной априорной ошибки разделения фонем предложено использовать метод центра тяжести - базовый подход в рамках метода динамических сгущений (МДС), используемый для подавляющего числа методов классификации.

Если использовать в качестве признаков отдельного звука речи р ЛСК, то каждый кадр РС будет отображен в виде точки в /»-мерном пространстве ЛСК.

При /7 = 2 объект характеризуется (описывается) парой ЛСК и отображается точкой на плоскости (рис. 4).

ЛСК 2 "

0}

Ой

м

ал .

1 ки п ш и т и 133

Рис. 4. Иллюстрация метода расчета ошибки разделения пары фонем в плоскости ЛСК

Если зараннее известно, к какому классу принадлежит каждая точка (известны тестовые выборки), легко подсчитать ошибку классификации. Будем считать, что элемент является неправильно классифицированным, если он к центру «чужого» класса ближе, чем к центру «своего». В качестве меры близости используется обычное евклидово расстояние.

Вероятность суммарной априорной ошибки разделения для случая (рис.4) рассчитывается по формуле

3._П12+П21

где N1, N2 — число точек-представителей классов 1 и 2, пц - число точек-представителей класса 1, находящихся ближе к центру тяжести класса 2, щ\ -число точек-представителей класса 2, находящихся ближе к центру тяжести класса 1.

Выбор МДС обусловлен тем, что он наилучшим образом подходит для реализации на ЭВМ: алгоритмически прост, точен и требует минимальных вычислительных ресурсов.

Исследование динамики уменьшения ошибки классификации с ростом числа используемых ЛСК. Расчет функций зависимости ошибки разделения от размерности вектора признаков (числа используемых в процедуре распознавания ЛСК) для различных сочетаний фонем показал, что минимум ошибки достигается при использовании 5-6 признаков. Следовательно, можно сократить размерность пространства с 10 до 5-6. При этом никаким дополнительным преобразованиям ЛСК не подвергались.

Применение преобразования Карунена-Лоэва для оценки информативности ЛСК как признаков РС. Исследуемые наблюдения Хь Х2,..., Х„ (массивы ЛСК) извлечены из некоторой р-мерной генеральной совокупности. Ковариационная матрица £ = (о^) рассчитывается следующим образом

= М(х(,) -я(1))(ха) -я(Л), и = 12,...,р. (4)

здесь л® компоненты вектора а средних значений признаков х(,). Их отклонения от своих выборочных средних значений

г(0 _ ~(0 _ =(/) уО) _ IV гю

Лу — Л-у Лу 9 Л / ; Лу

(5)

Назовем г'-й главной компонентой (ГК) (г = 1, 2,... , и) такую нормированную линейную комбинациюр исходных признаков х(1), х( \ .., х^

ХО = к„хт + И,2хт +... + V' = А/ X, (6)

которая из всех прочих линейных нормированных (/г* + +... + /г* = 1) комбинаций, некоррелированных со всеми предшествующими главными компонентами У", . , (т. е. со\( у{1), У°) = М( У° У,) = 0 для у < г), обладает наибольшей дисперсией; здесь X - многомерное (р-мерное) наблюдение.

Вектор к, является г'-м собственным вектором ковариационной матрицы

наблюдений (4). Его компоненты Д2,...,йгр определяются как нормирован-

р

ное - О решение системы уравнений

(2-Л,Щ=0, (7)

где Л, - г'-й по величине корень уравнения

(2-Х1) = 0, (8)

где I - единичная матрица.

После сопоставления (6), (7) и (8) получаем Цу(,) = Я:. Таким образом, ковариационная матрица главных компоненту, у<2\ ..., У^ имеет вид

4 О О О О

о ^ о о о

о о о о яр

где X, - Цу®, О/'5 - дисперсия г-й главной компоненты.

Переход от исходных компонент X к главным компонентам У осуществляется так:

У = НХ,

где Н - матрица собственных векторов ковариационной матрицы (4). Обобщенная дисперсия \Еу\ и сумма дисперсий (БУ!)+ ОУ2)+...+ Цу^') главных компонент равны обобщенной дисперсии ¡2У и сумме дисперсий (Ох(1)+ Ш(2)+...+ Ъх^) исходных признаков. Последнее дает возможность вынести решение о том, сколько последних главных компонент можно без особого ущерба исключить из рассмотрения, сократив тем самым размерность исследуемого пространства.

Результаты, полученные после применения метода, можно интерпретировать двояко. В обоих случаях получаются совокупности точек, являющихся

проекциями многомерных наблюдений, например, на плоскость двух первых главных компонент.

Если в матрице наблюдений

(7)

рассматривать в качестве наблюдения столбцы Х;, то классифицируемыми объ-_ ектами (в количестве п штук) будут объекты, на каждом из которых было заме' рено пор признаков х'2>, ..., х®, характеризующих его состояние. Если же в качестве «наблюдения» рассматривать строки этой матрицы, то классифицируемыми объектами будут уже сами признаки (в количестве р штук), рассматриваемые, соответственно в п - мерном пространстве.

ГК 2 !

х\г *13 -х1п

„¡ч II х21 х22 *23 -х2п

х , Р1 ХР2 х , рз ..X рп

ГК 1

Рис. 5. Проекция 10-и 1000-мерных наблюдений на плоскость 2-х первых главных компонент В этом случае наличие однородных групп признаков позволяет сделать вывод о близости (коррелированности, взаимном дублировании) признаков, входящих в одну группу и существенно снизить размерность исходного признакового пространства X, оставив для дальнейшего рассмотрения лишь по одному представителю от каждой такой группы.

Из рис. 5 следует, что разброс значений вдоль первой ГК во много раз превышает разброс вдоль второй ГК, что говорит о большой информативности первой ГК и о сравнительно небольшой информативности второй ГК.

9 к

Рис. 6. Относительная доля суммарной дисперсии, вносимая первыми к главными компонентами

Остальные ГК практически не вносят никакой дополнительной информации об объекте.

График на рис. б показывает относительную долю суммарной дисперсии, вносимой первыми к главными компонентами. Видно, что 90% информации содержится в трех первых признаках. Таким образом, можно исключить из использования все признаки, начиная с четвертого.

Формирование рабочего словаря признаков фонем. Ошибка разделения пары фонем по любому спектральному корню может быть рассчитана МДС. Если после этого упорядочить все корни по возрастанию ошибки и исследовать зависимость ошибки от числа ЛСК, то можно сделать вывод о том, какие ЛСК и какое их количество лучше оставить для использования в процедуре распознавания фонем. В первом случае (рис. 7, кривая 1), признаки добавляются по порядку следования номеров ЛСК (1, 2, ..., 10), во втором (кривая 2) - признаки упорядочены по возрастанию вероятности ошибки разделения и добавляются по порядку возрастания ошибки разделения. Видно, что во втором случае пологий участок кривой начинается значительно раньше - увеличение количества признаков начиная с двух практически не приводит к уменьшению ошибки классификации.

Рис. 7. Зависимость вероятности ошибки классификации фонем от размерности векторов признаков

Для разделения фонем без увеличения вероятности ошибки требуется 2-3 ЛСК, что приводит к результатам, полученным в результате преобразования Карунена-Лоэва. При этом использование МДС позволяет значительно проще решить задачу формирования рабочего словаря признаков - выбрать для описания фонем минимальное число наиболее информативных ЛСК.

Глава 3 посвящена формированию кластеров фонем и разработке методов распознавания.

Признаки фонем первого уровня. Под признаками фонем первого уровня понимаются значения ЛСК. Для разделения фонем в подпространствах ЛСК предложен метод разделения фонем на основе простой многоступенчатой классификации - дерева принятия решений (ДПР), чего ни одна из известных систем признаковых описаний РС до сих пор не позволяла. На рис. 9 показан вариант ДПР для разделения гласных фонем. В узлах ДПР - номера ЛСК, определяющие подпространства.

Рис. 9. Вариант ДПР для разделения гласных фонем.

В основу формирования ДПР положен МДС, модифицированный автором настоящей работы. Идея метода заключается в поиске такого стартового подпространства (а затем и остальных подпространств для узлов дерева) заданной размерности, в котором вероятность суммарной априорной ошибки разделения двух групп (в любой комбинации) всех существующих в этом подпространстве объектов была бы минимальна.

Для стартового пространства ДПР ошибка 8 рассчитывается по формуле

... п „+«„

(8)

где к - размерность подпространства; г, j - номера классов или сочетаний классов ¿-мерных объектов. Ы„ - число точек-представителей классов г и у, пу -число точек-представителей класса г, оказавшихся ближе к центру тяжести класса у, пл - число точек-представителей класса оказавшихся ближе к центру тяжести класса г.

Для узлов ДПР расчет ошибки производится по (8), но при этом каждая, определенная на предыдущем уровне ДПР, подруппа объектов рассматривается в отдельных ветвях ДПР (рис. 9).

Такое построение процедуры разделения позволяет ввести избыточность в алгоритм принятия решения за счет добавления параллельных ветвей (рис. 9), и, таким образом, повысить вероятность правильного распознавания.

Признаки фонем второго уровня. В качестве дополнительных признаков фонем в работе предлагается использовать значения параметров распределений ЛСК.

Основываясь на том, что дисперсия выборочного среднего случайной величины всегда меньше дисперсии самой случайной величины и определяется размером выборки, кластеры фонем предложено формировать в подпростран-

ствах скользящих средних (СС) ЛСК. При этом в модель формирования кластеров введен дополнительный параметр - величина окна усреднения Ь.

0.12 0,14 0,16 0,18 о,08 0,1 в,12 0,14 0,16 8,18 в,2

й) б)

Рис 10. Кластеры фонем в подпространствах СС ЛСК: а) размер окна 120 отсчетов, шаг окна 120 отсчетов, ¿=120; б) размер окна 120 отсчетов, шаг окна 120 отсчетов, 1=20;

Влияние Ь хорошо видно, если сравнить иллюстрации на рис. 10 (а,б). На них отображены кластеры фонем в плоскостях СС ЛСК при одинаковых значениях шага и размера окна и различными Ь. Переход от ЛСК к СС ЛСК приводит к повышению компактности кластеров.

В качестве дополнительных акустических признаков второго уровня фонем могут быть использованы скользящие дисперсии ЛСК и (или) значения собственных векторов ковариационных матриц фонем. Эти возможности отражены в диссертационной работе, но требуют более глубоких исследований. Последние могут рассматриваться в качестве дальнейших возможных направлений исследований.

Для реализации требуемых уточняющих расчетов и тестирования алгоритмов разработан программный комплекс - инструмент для анализа ЛСК. Реализованы в виде программы для ЭВМ все предложенные в работе методы анализа РС. С использованием предложенных методов программно реализованы:

- автоматический подбор параметров ЛП-модели и подпространств ЛСК, оптимальных в смысле ошибки распознавания;

- расчет функций зависимости вероятности ошибки от параметров расчета ЛСК;

- процедуры формирования кластеров с использованием признаков фонем первого уровня (ЛСК) и второго уровня (скользящие средние ЛСК, значения собственных векторов ковариационных матриц фонем);

- процедура формирования ДПР с параметром размерности узловых подпространств. При этом определяется вероятность суммарной априорной ошибки принятия правильного решения для каждого узла дерева.

- процедуры обучения и распознавания.

В главе 4 приведены результаты экспериментальных исследований. Проверка основных теоретических выводов и положений, полученных в диссерта-

ционной работе, проводилась на основе моделей, созданных в профессиональных математических пакетах программ и с использованием специально разработанного программного обеспечения. Программно реализованные методы описаны выше.

Применение признаков первого уровня (ЛСК) для описания фонем в совокупности с методом классификации на основе ДПР дало возможность выделять фонемы из речевого потока с вероятностью правильного принятия решения 65%. Относительно других предложенных в работе алгоритмов, такой алгоритм выделения фонем требует минимальных вычислительных затрат.

Использование в качестве признаков фонем СС ЛСК в совокупности с алгоритмом распознавания на основе максимального сходства с эталонами (использовалась евклидова метрика) первоначально привело к высокому проценту ошибки. Это связано с наличием переходных участков (дифтонгов), которые в подпространствах СС ЛСК преобразовываются в межкластерные траектории. Вследствие случайного расположения кластеров в подпространствах СС, траектории могут пересекать границы кластеров или проходить вблизи к ним. При вышеописанном способе принятия решения (по близости точки к одному из центров тяжести кластеров) часть точек, соответствующих дифтонгам, интерпретируется неверно. Введение в алгоритм распознавания дополнительного параметра - времени нахождения точки вблизи одного и того же центра тяжести -позволило снизить ошибку до 19 %.

Наилучший результат (15% ошибок) был достигнут с применением комбинированного алгоритма распознавания: рассчитывались СС ЛСК и далее принятие решения о принадлежности к одному из классов проводилось на основании отнесения точки-представителя к той или иной ветке построенного ДПР.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Выделены проблемные блоки в обобщенной структуре СРР - неудовлетворительное качество акустических признаков речевого сигнала, диктороза-висимость, недостаточная проработка фонемного уровня распознавания.

2. Предложены новые акустические признаки фонем русской речи - ЛСК, которые до сих не применялись в СРР.

3. Разаработана параметрическая модель расчета ЛСК для ЭВМ. На ее основе исследованы свойства ЛСК, произведена оценка влияния параметров модели (размер временного окна и его шага) на качество разделения фонем в пространствах ЛСК.

4. Предложен метод расчета вероятности ошибки классификации фонем, основанный на методе динамических сгущений.

5. Предложен статистический метод оценки информативности ЛСК, позволивший сократить в 3-4 раза размерность признакового пространства.

6. Разработаны методы формирования кластеров фонем, в основе которых лежат статистические свойства ЛСК.

7. Предложен метод минимизации ошибки распознавания, возникающей вследствие наличия дифтонгов.

8. Разработана программная модель фонемного уровня распознавания СРР для ПЭВМ.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ

1. Кисляков C.B. Ортогональные полиномы в распознавании речевых сигналов //51-я НТК: тез. докл. / СПбГУТ. СПб, 1998.

2. Кисляков C.B. и др. Применение преобразования Карунена-Лоэва для классификации фонем при дикторонезависимом распознавании речи // Труды учебных заведений связи / СПбГУТ. СПб, 2000. №166.

3. Кисляков C.B. и др. Модель дикторонезависимого распознавания речи. // 2-я Межд. НТК «Техника и технология связи» / СПбГУТ. СПб, 2000.

4. Кисляков C.B. и др. Анализ признаков речевых фонем, полученных на основе полинома Гурвица // 53-я НТК: тез. докл. / СПбГУТ. СПб, 2001.

5. Кисляков C.B. Некластерный алгоритм разделения согласных звуков речи независимо от диктора // 53-я НТК: тез. докл. / СПбГУТ. СПб, 2001.

6. Кисляков C.B. и др. Метод расчета максимальной внутриклассовой ошибки распознавания фонем для систем реального времени. // 3-я Межд. научно-практическая конференция «Компьютерные технологии в науке, производстве, социальных и экономических процессах». / Новочеркасск, 2002.

7. Кисляков C.B. Выбор порядка ЛП-модели при построении системы распознавания речи // 54-я НТК: тез. докл. / СПбГУТ. СПб, 2002.

8. Кисляков C.B. Современное состояние проблемы создания систем речевого диалога человека и ЭВМ // 54-я НТК: тез. докл. / СПбГУТ. СПб, 2002.

9. Кисляков C.B. и др. Оценка качества признаков речевых единиц в задаче распознавания // 55-я НТК: тез. докл. / СПбГУТ. СПб, 2003.

10. Фундаментальные аспекты новых информационных и ресурсосбере- * гающих технологий: Отчет / рук. Е.А. Шульгин. НИР №190-93-054. СПб, 2002.

РНБ Русский фонд

2006-4 1196

ннойт

Оглавление автор диссертации — кандидата технических наук Кисляков, Сергей Викторович

ВВЕДЕНИЕ.

I АНАЛИЗ ПРОБЛЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ.

1.1 Основные задачи построения систем распознавания.И f 1.2 ВОСПРИЯТИЕ УСТНОЙ РЕЧИ.

1.3 Общая структура распознающей системы.

1.4 анализ состояния исследований по проблеме автоматического распознавания речи.

1.5 Обзор рынка программных средств.

1.6 сравнительный анализ методов выделения признаков речевых сигналов.

1.6.1 Анализ сигнала возбуждения г олосового тракта.

1.6 2 Анализ клиппированного сигнала.

1.6 3 Формантный анализ.

1.6.4 Спектральный анализ.

1.6.5 Корреляционный анализ.

1.6.6 Скрытое марковское моделирование.

1.6.7 Вейвлет-преобразование.

1.6.8 Линейное предсказание.

1.7 Выводы.

2 ФОРМИРОВАНИЕ РАБОЧЕГО СЛОВАРЯ ПРИЗНАКОВ ФОНЕМ.

2.1 Оценка параметров речевого сигнала.

2.2 анализ точности модели линейного предсказания.

2.3 Статистические свойства ЛСК.

2.4 Выбор метода оценки ошибки разделения фонем в подпространствах ЛСК.

2.4.1 Использование статистичьског о критерия на основе гистограмм.

2.4.2 Использование метода динамических сгущений.

2.5 Расчет ошибки разделения фонем с использованием МДС.

2.5.1 Оцшка разделимости фонем в двумерном подпространстве ЛСК.

2.5.2 Оценка разделимости фоньм в трехмерном подпространстве ЛСК.

2.5.3 Оце нкл размерности вектора признаков.

2.6 Применение преобразования Карунена-Лоэва для сокращения размерности векторов признаков.

2.7 Влияние ранжирования признаков на размерность векторов признаков.

2.8 Оценка влияния параметров расчета ЛСК на качество разделения фонем.

2.9 Выводы.

3 ФОРМИРОВАНИЕ КЛАСТЕРОВ ФОНЕМ НА ОСНОВЕ РАБОЧЕГО СЛОВАРЯ ПРИЗНАКОВ.

3.1 Поиск оптимальных параметров расчета ЛСК.

3.1.1 Выбор размера bplml иного окна.

3.1.2 Выбор шага временного окна.

3.2 Формирование признаковых подпространств.

3.3 Значения ЛСК - признаки первого уровня.

3.3.1 формирование дерева принятия решений (ДПР).

3.3.2 Поиск стартового подпространства ДПР.

3.3.3 Формирование узлов (переходов) ДПР.

3.3.4 связь размерности подпространств и величины ошибки в узлах ДПР.

3.4 Признаки второго уровня.

3.4.1 формирование кластеров фонем на основе скользящих средних ЛСК.

3.4.2 скользящие дисперсии как дополнительные признаки фонем.

3.4.3 Собственные векторы ковариационных матриц фонем - альтернативные признаковые подпространства.

3.5 Выводы.

4 РАСПОЗНАВАНИЕ ФОНЕМ НА ОСНОВЕ ЛСК.

4.1 Метод распознавания на основе ЛСК с использованием ДПР.

4.1.1 Процедура обучения.

4.1.2 Исследование алгоритма распознавания.

4.2 Метод распознавания на основе СС ЛСК.

4.2.1 Процедура обучения.

4.2.2 Исследование алгоритма распознавания.

4.2.3 Нейтрализация влияния дифтонгов.

4.3 Распознавание на основе комбинированного алгоритма с нейтрализацией влияния дифтонгов.

4.4 ВЫВОДЫ.

Введение 2004 год, диссертация по радиотехнике и связи, Кисляков, Сергей Викторович

До недавнего времени процесс речевого общения человека и компьютера был непременным атрибутом научно-фантастических романов и никем не воспринимался всерьез. Несколько лет назад ситуация кардинально изменилась. Сегодня использование речевых технологий в прикладных программах в качестве альтернативного средства взаимодействия в системе «человек-компьютер» приобретает все больший размах. Такой процесс носит вполне обоснованный и объективный характер в силу ряда причин. Во-первых, развитие речевых средств взаимодействия с персональным компьютером лежит в рамках мировой тенденции «очеловечивания» ПК, т.е. позволяет создавать интерфейсы, максимально дружественные пользователю. Во-вторых, миниатюризация современных средств управления и связи требует принципиально новых подходов к осуществлению взаимодействия пользователя с такого типа устройствами. Для современных технологий не представляет большого труда создание, например, мобильного телефона размером с авторучку, однако механический набор номера на таком телефоне будет сопряжен с определенными трудностями. Голосовой набор номера и авторизация в этом случае являются очевидным и наиболее подходящим выходом. В-третьих, для большого круга пользователей речевой способ общения с ПК является единственно возможным в силу ограниченности их физических возможностей (люди с нарушениями опорно-двигательного аппарата, другими физическими недостатками, слепые и т.д.) либо специфики профессии.

Большое значение приобрели также задачи, связанные с быстрым поиском и получением от больших информационно-вычислительных систем («информационных банков») нужных сведений в виде обычных речевых сообщений, передаваемых по телефонным каналам. Все это сделало проблему автоматического распознавания речи разносторонней и актуальной.

Можно указать на следующие, наиболее перспективные области применения автоматического распознавания и синтеза речи:

- сжатие речи для передачи ее по более простым и экономичным узкополосным линиям связи;

- установление прямой речевой связи с ЭВМ специального назначения и с поисково-информационными системами, снабжающими абонентов различной информацией;

- управление голосом (посредством устных команд) различными процессами и машинами (в том числе боевыми) без помощи других управляющих средств или в комбинации с ними;

- идентификация или верификация личности по голосу;

- автоматический синхронный перевод с одного языка на другой;

- создание устройств для понимания устной речи глухими и чтения книг слепыми.

В настоящее время сильно развивается синтетическая телефония. При этом тесно связываются между собой такие области как цифровая обработка сигналов (ЦОС), синтез речи, анализ (распознавание) речи. Теоретические и практические разработки в области ЦОС, кодирования и передачи PC ведутся российскими и зарубежными учеными многие годы. Большой вклад в теоретическом и практическом планах внесли А.А. Пирогов, В.Н. Трунин-Донской, А.А. Ланнэ, JI. Рабинер, Р. Шафер, Д. Макхоул и др.

Исследования по машинному распознаванию речи ведутся сравнительно недавно, однако за это время написано множество теоретических работ и предложен ряд практических реализаций систем распознавания речи (СРР). При этом достаточно большое количество идей взято из области ЦОС. Существенный вклад в развитие СРР внесли советские и российские ученые В.Н. Трунин-Донской, Т.К. Винцюк, Н.Г. Загоруйко, Ю.А. Косарев, JI.JI. Мясников, зарубежные ученые Д.Д. Маркел, А.Х. Грей, Б. Гоулд, Г. Фант и др. Тем не менее задача качественного распознавания русской речи еще не решена.

Восприятие речи есть сложный многоуровневый процесс, в котором тесно переплетены различные уровни - акустический, лингвистический, смысловой. В многоуровневой модели распознавания речи ее качество (надежность) определяется качеством реализации каждого отдельно взятого уровня.

На настоящий момент лингвистическая часть модели проработана удовлетворительно, что подтверждается многими исследователями, а также наличием программ, распознающих написанный или напечатанный текст. Этого нельзя утверждать применительно к акустической части модели распознавания. Объясняется это следующими причинами:

1. Неустойчивостью и случайностью параметров PC, их изменением при смене дикторов, различными внешними факторами (механические перегрузки, пониженные температуры окружающей среды, темнота и т. д.). Основными причинами затруднений при разработке акустической части СРР является отсутствие на настоящий момент системы признаков, позволяющей с высокой точностью определять «что поступает» на вход распознающей системы независимо от обозначенных причин.

2. Недостаточной адекватностью используемых моделей PC, что не позволяет получить качественные признаки для их дальнейшей обработки.

3. Большинство исследователей считает, что нельзя «хорошо понимать» речь, не используя при этом закономерности фонетического уровня.

Объектом исследования являются модели и методы выделения акустических признаков фонем для систем распознавания русской речи.

Предметом исследования являются линейные спектральные корни (JICK) применительно к задаче распознавания речи на фонетическом уровне.

Состояние проблемы и задачи исследования. К настоящему времени известно большое число моделей и методов выделения первичных (акустических) признаков PC. Одним из самых перспективных методов многие исследователи (Ю.А. Косарев, С.В. Виноградов, Н.Г. Загоруйко, Д. Макхоул и др.) считают аппарат линейного предсказания (ЛП): полученные на основе ЛП признаки обладают рядом практически полезных свойств - они просто рассчитываются, дают компактное представление PC, позволяют контролировать устойчивость, наименее чувствительны к действиям помех. Наиболее широко при разработке «речевых» систем используются JICK, предложенные Итакурой. С появлением обобщающей теории JICK (А.А. Ланнэ «Новая теория линейных спектральных корней») оказалось возможным получать новые (отличные от уже известных) ЛСК, которые еще не исследованы с точки зрения применимости в СРР.

Целью диссертационной работы является исследование ЛСК для их использования в качестве акустических признаков фонем в CP слитной русской речи.

Для достижения поставленной цели необходимо в ходе выполнения теоретических и экспериментальных исследований решить следующие задачи:

1. Провести анализ существующих структур СРР и методов формирования признаков фонем в СРР на акустическом уровне.

2. Разработать математическое и программное обеспечение для проведения исследований и тестирования разработанных моделей.

3. Исследовать свойства ЛСК как признаков фонем:

- разработать параметрическую модель расчета ЛСК для ПЭВМ;

- исследовать статистические свойства ЛСК;

- исследовать влияние параметров расчета ЛСК на качество разделения фонем в пространствах ЛСК;

- на основании предложенных критериев осуществить выбор оптимальных параметров расчета ЛСК.

4. Разработать компактный рабочий словарь признаков фонем, опираясь на известные свойства ЛСК.

5. Разработать метод формирования кластеров фонем на основе рабочего словаря признаков фонем.

6. Построить тестовую программную модель распознавания фонем для ЭВМ.

7. Осуществить проверку предложенного метода распознавания фонем путем проведения машинных экспериментов на тестовых PC.

Методы исследования. Решение указанных задач осуществлено на основе применения методов теории вероятности и математической статистики, теории синтеза линейных электрических цепей, цифровой обработки сигналов.

Основные положения, выносимые на защиту:

1. J1CK - акустические признаки фонем, обладающие высокой компактностью и слабой чувствительностью к смене диктора.

2. Применение преобразования Карунена-Лоэва (на этапе формирования рабочего словаря признаков фонем) позволяет ввести ранжирование признаков по степени их информативности. Исключение из описания фонем «неинформативных» признаков позволяет получить компактный рабочий словарь признаков с размерностью векторов признаков не более трех.

3. Решение задачи повышения надежности распознавания фонем на основе J1CK может быть решена путем поиска наилучших (в смысле минимума ошибки распознавания) параметров модели линейного предсказания методом динамических сгущений.

4. Методы формирования кластеров фонем на основе признаков «первого уровня» (значений JTCK) и «второго уровня» (скользящих средних JTCK) позволяют сформировать признаковые подпространства малых размерностей (2-3), в которых образы фонем хорошо разделяются независимо от диктора. Решена задача поиска оптимальных (в объявленном смысле) подпространств, в которых ошибка разделения фонем минимальна.

5. Алгоритмы распознавания фонем с использованием предлагаемых методов формирования кластеров позволяют выделять фонемы из речевого потока независимо от диктора.

Практическая ценность. На основании результатов исследований сделаны выводы о возможности применения J1CK в СРР, разработана и доведена до практической реализации на ПЭВМ модель акустического блока СРР, исследована её надежность (качество распознавания).

Результаты внедрения. Разработанные методы, модели и программы являются частью работ, проводимых в рамках НИР № 190-93-054 по каф. ЦВТИ в 2000-2002 г. СПбГУТ под руководством д.т.н., проф. Е.А. Шульгина.

Результаты научных исследований и практические разработки используются «Центром речевых технологий» Санкт-Петербурга, теоретические результаты внедрены в учебный процесс СПбГУТ им. проф. М.А. Бонч-Бруевича.

Апробация работы. Основные положения, выводы и практические результаты диссертационной работы обсуждались на конференциях:

- 2-я международная научно - техническая конференция студентов, аспирантов и молодых специалистов СПбГУТ в 2000 г;

- Международная научно-практическая конференция «Компьютерные технологии в науке, производстве, социальных и экономических процессах», г. Новочеркасск, 2002 г;

- 52-я, 53-я, 54-я, 55-я научно-технические конференции СПбГУТ.

Часть результатов и выводов представлена в отчете по НИР № 190-93-054, проводившейся в СПбГУТ в 2000-2002 гг. под руководством д.т.н., проф. Е.А. Шульгина.

По теме диссертационной работы опубликовано 10 печатных работ, в том числе отчет по НИР.

Объем и структура диссертации. Диссертационная работа включает введение, четыре главы, заключение, список литературы и приложения. Вся работа изложена на 193 страницах текста, включающих в себя 47 страниц приложений, 67 рисунков, 9 таблиц. Количество библиографических ссылок -101.

Заключение диссертация на тему "Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания"

- 1404.4 Выводы

1. Произведена оценка качества распознавания фонем на тестовых речевых сигналах. Машинные эксперименты по распознаванию фонем показали хорошее соответствие результатов оценок, расчетов и эксперимента.

2. Применение признаков первого уровня (JICK) для описания фонем в совокупности с методом классификации на основе ДПР дало возможность выделять фонемы из речевого потока с вероятностью правильного принятия решения 65%. Относительно других предложенных в работе алгоритмов, такой алгоритм выделения фонем требует минимальных вычислительных затрат.

3. Причина невысокого качества распознавания фонем на основе СС ЛСК связано с наличием переходных участков (дифтонгов), которые в подпространствах СС ЛСК преобразовываются в межкластерные траектории. Вследствие случайного расположения кластеров в подпространствах СС ЛСК, траектории могут пересекать границы кластеров. При этом возникает дополнительная ошибка распознавания. Предложен метод минимизации ошибки за счет введения в алгоритм распознавания дополнительного параметра - времени нахождения точки-представителя распознаваемого объекта внутри границ кластера. В результате использования предложенного метода удалось повысить качество распознавания до 81%.

4. Наилучший результат (15% ошибок) достигнут с применением комбинированного алгоритма распознавания: рассчитывались СС ЛСК и далее принятие решения о принадлежности к одному из классов проводилось на основании отнесения точки-представителя окна PC к той или иной ветке оптимизированного ДПР.

- 141-ЗАКЛЮЧЕНИЕ

Речевой сигнал существенно отличается от всех искусственных, технических сигналов своей сложностью, неустойчивостью параметров, избыточностью. Если сравнить осциллограммы или спектрограммы одного и того же слова, произнесенного дважды одним и тем же диктором, а тем более разными дикторами, то бросаются в глаза значительные отличия уровней, длительностей участков, формы колебаний, спектральных картин. Поскольку органы речеобразования практически находятся в состоянии непрерывной перестройки, в речевом сигнале трудно указать границы отдельных фонем. Эти границы можно указать лишь с большой долей условности, при этом переходные участки обладают большим разнообразием и вносят основные трудности в процесс классификации звуков. При акустическом анализе речи формируют различные системы признаков (спектральные, автокорреляционные и др.). Области, отображающие фонемы (кластеры), в любой известной системе признаков частично перекрываются, что является первопричиной исходной неопределенности речи. Вряд ли возможна такая система признаков, в которой фонемы живой разговорной речи разделялись бы без ошибок. Даже человек не может безошибочно членить речевой поток на фонемы на основе только акустической информации, т. е. на основе знания фонетического состава речи. Основные результаты работы состоят в следующем:

1. Предложены новые акустические признаки фонем русской речи - ЛСК, которые до сих не применялись в СРР.

2. Разработана параметрическая модель расчета ЛСК для ЭВМ. На ее основе исследованы свойства ЛСК, произведена оценка влияния параметров модели (размер временного окна и его шага) на качество разделения фонем в пространствах ЛСК.

3. Предложен метод расчета вероятности ошибки классификации фонем, основанный на методе динамических сгущений.

4. Предложен статистический метод оценки информативности ЛСК, позволивший сократить в 3-4 раза размерность признакового пространства.

- 1425. Разработаны методы формирования кластеров фонем, в основе которых лежат статистические свойства ЛСК.

6. Предложен метод минимизации ошибки распознавания, возникающей вследствие наличия дифтонгов.

7. Разработана программная модель фонемного уровня распознавания СРР для ПЭВМ.

Библиография Кисляков, Сергей Викторович, диссертация по теме Системы, сети и устройства телекоммуникаций

1. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связь, 1963. 452 с.

2. Fralik S.C. Learning of recognize pattern without a teacher. // IEEE Trans.- 1997.- IT-13.-№1.

3. Айвазян C.A., Бажаева З.И., Староверов O.B. Классификация многомерных наблюдений.- М.: Статистика, 1974.

4. Арчер Т., Уайтчепел Э. «Visual С++ .net». Издательство «Диалектика», 2003.

5. Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сиг-налов.-М : Связь, 1980.

6. Вентцель Е.С. Теория вероятностей.- М.: Наука, 1964.

7. Виноградов С.В. Методы предварительной обработки речевого сигнала в системах распознавания речи. Л., ЛИИАН, 1987 г.

8. Вокодерная телефония. Методы и проблемы. Под. ред. А.А. Пирогова.

9. Выгодский Я.Н. Справочник по элементарной математике. М.: Наука, 1967.

10. Г. Корн, Т. Корн «Справочник по высшей математике». Издательство «Наука», Москва, 1984.

11. Г.Н. Воробьева, А.Н. Данилова «Практикум по вычислительной математике».

12. Г.Стренг «Линейная алгебра и ее применение». Издательство «Мир», 1980.

13. Галунов В.И. Бионическая модель системы распознавания речи. // Исследование моделей речеобразования и речевосприятия.- Л.: 1981, С. 36-51.

14. Галунов В.И., Жаков М.Л. и др. Первичный анализ в системах автоматического распознавания. // Тез. докл. 15 Всесоюз. шк.-семинара" Автоматическое распознавание слуховых образов".- Таллинн: ИК АН ЭССР, 1989.- С. 49-58.

15. Горелик A.JL, Скрипкин В.А. Методы распознавания. Учебное пособие для вузов- М., Высшая школа, 1984 г.

16. Загоруйко Н.Г. Комбинированный метод принятия решений. Сб. тр. ИМСО АНСССР «Вычислительные системы» вып. 19, Новосибирск, 1965.

17. Загоруйко Н.Г. Методы распознавания и их применение. М., Советское радио, 1972 г.

18. Загоруйко Н.Г., Елкина В.Н., Емельянов С.В., Лбов Г.С. Пакет прикладных программ ОТЭКС. М.: Финансы и статистика, 1986.

19. Зигангиров К.Ш., Сорокин В.Н. Об использовании последовательного декодирования для распознавания слитной речи. // ППИ. 1977 №4. с. 81-88.

20. Зяблов В.В. Речевая информатика. М.: Наука, 1989.

21. Кельманов А.В. О некоторых проблемах построения систем распознавания инвариантных к диктору. // Тез.докл 15 Всесоюз.шк.-семинара" Автоматическое распознавание слуховых образов".- Таллинн: ИК АН ЭССР, 1989.- С. 103-104.

22. Косарев Ю.А. Естественная форма диалога с ЭВМ. Л.: Машиностроение. Ле-нингр. отд- ние, 1989. - 143с.

23. Косарев Ю.А., Естественная форма диалога с ЭВМ Л., Машиностроение, 1989г.

24. Кулагина О.С. Исследования по машинному переводу. -М.: Наука, 1979.

25. Ланнэ А.А. Оптимальный синтез линейных электрических цепей. — М: Связь, 1969.

26. Ланнэ А.А., Матюшкин Б.Д., Улахович Д.А. Основы цифровой обработки сигналов.-Л: ВАС, 1995.

27. Ланнэ А.А., Улахович Д.А. Передача информации о состоянии фильтра-предсказателя с помощью спектральных пар // Радиоэлектроника и связь. 1991г.29,3033,34,35,36,37.38,39.40,41.

28. Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука (Сибирское отделение), 1981.

29. Любимов А.Ю., Евсиков М.М. Линейное предсказание речи это просто // Монитор №4, 1995.

30. Люблинская В.В. Восприятие речи. Общие представления и подходы к исследованию. // Тез. докл. 15 Всесоюз. шк.-семинара "Автоматическое распознавание слуховых образов". Таллинн, ИК АН ЭССР, 1989. - С.32-36. Макхоул Д. Линеное предсказание. Обзор.

31. Маркел Д Д., Грей А.Х. Линейное предсказание речи: Пер. с англ. М: Связь, 1980.

32. Мышкис А.Д. Лекции по высшей математике. М: Наука, 1969.

33. Покровский Н.Б. Расчет и измерение разборчивости речи. М.: Связь, 1962.391с.

34. Попов Э.В. Общение с ЭВМ на естественном языке. М., Наука, 1982 г. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов.- М.: Радио и связь, 1981.

35. Файн B.C. Распознавание образов и машинное понимание естественного языка. -М.: Наука, 1987.

36. Чичагов А.В., Математическое моделирование сигналов. /М.:ВЦ РАН, 1995.

37. Чучупал В.Я., Маковкин К.А. Распознавание последовательностей слов для компьютерной телефонии. /Современные речевые технологии. Сборник трудов 9 сессии Российского акустического общества. -М.: ГЕОС, 1999, с. 81-84.

38. Чучупал В.Я., Маковкин К.А. Система распознавания слитно-произносимых названий цифр для телекоммуникационных приложений. /М.:ВЦ РАН, 1997.

39. Улахович Д.А., Сергеев М.В. Статистические свойства спектральных корней русской речи. // Труды учебных заведений связи / СПбГУТ.-СПб, 1988, №64.

40. Бьерн Страуструп «Язык программирования С++. Специальное издание». Издательство «Бином», 2001.1. ОПУБЛИКОВАННЫЕ СТАТЬИ

41. Кисляков С.В. Ортогональные полиномы в распознавании речевых сигналов // 51-я НТК: тез. докл. / СПбГУТ. СПб, 1998.

42. Кисляков С.В., Шульгин Е.А. Применение преобразования Карунена-Лоэва для классификации фонем при дикторонезависимом распознавании речи // Труды учебных заведений связи / СПбГУТ. СПб, 2000. №166.

43. Кисляков С.В., Симонина О.А. Модель дикторонезависимого распознавания речи. // 2-я Межд. НТК «Техника и технология связи» / СПбГУТ. СПб, 2000.

44. Кисляков С.В. Шульгин Е.А. Анализ признаков речевых фонем, полученных на основе полинома Гурвица // 53-я НТК: тез. докл. / СПбГУТ. СПб, 2001.

45. Кисляков С.В. Некластерный алгоритм разделения согласных звуков речи независимо от диктора // 53-я НТК: тез. докл. / СПбГУТ. СПб, 2001.

46. Кисляков С.В. Выбор порядка ЛП-модели при построении системы распознавания речи // 54-я НТК: тез. докл. / СПбГУТ. СПб, 2002.

47. Кисляков С.В. Современное состояние проблемы создания систем речевого диалога человека и ЭВМ // 54-я НТК: тез. докл. / СПбГУТ. СПб, 2002.

48. Кисляков С.В., Шульгин Е.А. Оценка качества признаков речевых единиц в задаче распознавания // 55-я НТК: тез. докл. / СПбГУТ. СПб, 2003.

49. Фундаментальные аспекты новых информационных и ресурсосберегающих технологий: Отчет / рук. Е.А. Шульгин. НИР №190-93-054. СПб, 2002.1. ПРИЛОЖЕШ1М