автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Преобразование речи в текст. Фонемный подход

кандидата технических наук
Медведев, Максим Сергеевич
город
Красноярск
год
2007
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Преобразование речи в текст. Фонемный подход»

Автореферат диссертации по теме "Преобразование речи в текст. Фонемный подход"

□ОЗОВ84ТТ

На правахрукописи

Медведев Максим Сергеевич

ПРЕОБРАЗОВАНИЕ РЕЧИ В ТЕКСТ. ФОНЕМНЫЙ ПОДХОД

05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Красноярск - 2007

003068477

Работа выполнена в ФГОУ ВПО «Сибирском федеральном университете» Политехническом институте

Научный руководитель:

кандидат технических наук, доцент Кирякова Г.С.

Официальные оппоненты:

доктор технических наук, профессор Доррер Г.А.

доктор технических наук, профессор Миркес Е.М.

Ведущая организация:

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева г. Красноярск

Защита состоится 27 апреля 2007 г. в 14 часов на заседании диссертационного совета К 212.099.05 в ФГОУ ВПО «Сибирском федеральном университете» Политехническом институте по адресу: 660074, г. Красноярск, ул. Киренского, 26, ауд. Г4-17, тел. 912-095, факс (8-3912) 49-79-90.

С диссертационной работой можно ознакомиться в научной библиотеке ФГОУ ВПО «Сибирского федерального университета» Политехнического института.

Сайт, на котором размещен автореферат диссертации: www.kgs.fivt.krgtu.rn

Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу: 660074, г. Красноярск, ул. Киренского, 26, ФГОУ ВПО «Сибирский федеральный университет» Политехнический институт, ученому секретарю диссертационного совета К 212.099.05.

Автореферат разослан «_» марта 2007 г.

Ученый секретарь

диссертационного совета

кандидат технических наук, профессор

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Устная речь и сегодня остается самым оперативным и распространенным способом передачи информации в любой сфере человеческой деятельности, являясь основной формой выражения намерений, целей, желаний. Это продуктивный, естественный и удобный способ передачи информации. В современных компьютерных системах все больше внимания уделяется построению интерфейса речевого ввода-вывода, эффективность которого основана на практически неограниченных возможностях формулировки на естественном языке всевозможных задач в самых различных областях человеческой деятельности. Системы речевого ввода являются наиболее перспективными на сегодняшний день.

Существующие системы понимания речи пока еще значительно уступают речевым способностям человека, что свидетельствует об их недостаточной адекватности и ограничивает применение речевых технологий в промышленности и бьпу. Из имеющихся программных продуктов рынка систем распознавания речи лишь немногие поддерживают русский язык.

Разработка эффективных алгоритмов распознавания русской речи является ключевым моментов в решении задач:

- преобразования речи в текст,

- понимания речи,

- голосового управления,

- автоматического перевода,

- распознавания речи в телефонии (голосовые меню вместо набора цифр).

Исследованиям проблем распознавания речи занимаются: университет Карнеги Меллон (США), университет Иллинойс (США), Орегонский институт науки и технологий (США), Вычислительный центр РАН (Ю. И. Журавлев, В. Я. Чучупал), Институт проблем передачи информации РАН (В. Н. Сорокин), Институт математики СО РАН и Новосибирский государственный университет (Н. Г. Загоруйко и В. М. Величко), Московский государственный университет им. М. В. Ломоносова (О. Ф. Кривнова), Ml ТУ им. Н. Э. Баумана (Ю. Н. Жшулевцев), Московский энергетический институт (А. И. Евсеев), Московский государственный лингвистический университет (Р. К. Потапова), Московский технический университет связи и информатики (Ю. Н. Прохоров), Санкт-Петербургский государственный университет (В. И. Галунов), Санкт-Петербургский институт информатики и автоматизации РАН. В данной области ведут исследования такие компании как IBM, Philips, Dragon Systems, Cognitive Technologies, Истрасофт, Сакрамент и др., что говорит об ее актуальности.

В диссертации рассматривается проблема создания системы преобразования русской речи в текст, построенной на основе нейросети, использующей для формирования описательных признаков единиц распознавания крат-номасштабное вейвлет-преобразование речевых сигналов фонем.

Цель. Основная цель работы заключается в исследовании моделей фонем русского языка, разработке методов и алгоритмов преобразования речи в текст, позволяющих сократить время обучения и повысить качество распознавания. Для решения поставленной задачи необходимо:

- систематизировать методы и алгоритмы, используемые для построения систем распознавания речи;

- провести сравнительный анализ характеристик существующих систем распознавания речи;

- организовать и сформировать обучающую выборку фонем русского языка;

- разработать архитектуру и алгоритмы вероятностно-нейросетевой системы преобразования речи в текст;

- выполнить программную реализацию системы преобразования речи в

текст;

- оценить качество распознавания разработанной системы.

Методы исследования. Методы исследования связаны с цифровой обработкой сигналов, теорией нейронных сетей, временных рядов, теорией вероятности, математической статистикой и случайными процессами, фонологией и программированием.

Научная новизна.

1. Построена модель фонемы русского языка с использованием крат-номаспггабного вейвлет-преобразования (базис Добеши 8).

2. Разработаны алгоритмы построения грамматической формы слова с использованием вероятностей фонемных сочетаний русского яз'ыка, для корректного преобразования речи в текст.

3. Создана программная реализация вероятностно-нейросетевой системы преобразования речи в текст, основанной на фонемном подходе, не требующем дополнительного обучения системы при расширении словаря распознаваемых слов.

Практическая ценность. Созданные методы, алгоритмы и программные средства системы преобразования речи в текст являются практически значимыми. Разработанное программное обеспечение позволяет автоматизировать процесс ввода текстовой информации в ЭВМ. База данных фонем русского языка может использоваться для разработки и экспериментальной оценки качества работы речевых приложений.

Апробация работы. Основные положения диссертации были представлены на семинаре ВЦ СОР АН г. Красноярск (2006), Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2004), Международной конференции "Системный анализ и информационные технологии" (Переславль-Залесский, 2005), Международной конференции молодых ученых «Информационные технологии в науке, образовании, телекоммуникации и бизнесе» (Украина, Крым, Ялта-Гурзуф, 2005), IV Всероссийской научно-практической конфе-

ренции студентов, аспирантов и молодых ученых "Молодежь и современные информационные технологии" г. Томск, 2006.

Сведения о внедрении. Система преобразования речи в текст внедрена в учебный процесс в Красноярском Государственном Техническом Университете (акт о внедрении №190000/5126 от 18.12.2006).

Публикации. По результатам работы опубликованы статьи в Вестнике КрасГУ 2006'8, Вестнике СибГАУ 1(14) 2007, две статьи, депонированные в ВИНИТИ (рег.№ 1300- В2005,1544-В2006), а также 7 докладов на Международных, Всероссийских и межвузовских конференциях.

Основные положения, выносимые на защиту. Разработанные алгоритмы и программное обеспечение, реализующие решение перечисленных ниже речевых проблем, в частности:

1. Модель фонемы русского языка, построенная на основе вейвлет-преобразования (базис Добеши 8).

2. Алгоритм построения грамматической формы слова с использованием вероятностей фонемных сочетаний русского языка.

3. Программная реализация вероятностно-нейросетевой системы преобразования русской речи в текст с использованием фонемно-ориентированного метода построения.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность работы по преобразованию речи в текст, формируются цель и задачи исследования, приводится краткое содержание по главам.

Первая глава. Анализируются существующие системы распознавания речи (Dragon NaturallySpeaking, Sakrament ASR Engine, Voice-Mode, SIRIUS и др.), их основные характеристики, оценивается качество работы. Результаты сравнительного анализа систем распознавания представлены в таблице 1.

Анализ систем показывает, что существующие программы распознавания речи можно разделить на

- большие специализированные системы или комплексы для разработки речевых приложений, дающие высокую точность распознавания, но при небольшом словаре распознаваемых команд;

- пользовательские приложения, ориентированные на голосовое управление компьютером и системы речевого ввода текста с низким качеством распознавания.

В большинстве систем для создания моделей речевых единиц используется преобразование Фурье, лишь немногие поддерживают русский язык, так как необходимы дополнительные исследования лингвистической составляющей процесса преобразования русской речи в текст.

Таблица 1 - Сравнительный анализ систем распознавания речи

Название системы / Разработчик Назначение Единица распознавания Акустические параметры Метод распознавания Обучение Размер словаря Поддерж ка русского языка Коэфф. расп.

SIRIUS /Санкт-Петербургский институт ифор-матихи и автоматизации РАН, Россия Понимание речи Фонема в виде трифона мел-частотные кепстральные коэффициента с 1-й и 2-й производной, Скрытые Марковские модели Да 1 850 слов Да 94%

HMM/ANN Hybrids for ASR / Орегонский институт науки и технологий, США Распознавание речи фонема мел-частотные кепстральные коэффициенты, энергетические характеристики Нейронная сеть, поиск Вигерби Да - Нет -

ASR, Automatic Speech recognition / Spirit, США Голосовое управление Слово мел-частотные кепстральные коэффициенты Скрытые Марковские модели Нет 50 слов Да 99%

Sakrament ASR Engine / Сакрамеят и ИТ, Белорусь Речевой интерфейс - - Гибридный подход Доп. Словари по заказу - Любой 95%

VoiceMode / VoiceSignal Technology Речевой интерфейс для мобильных телефонов Слово - Скрытые Марковские модели Да - Да -

Dragon Naturally Speaking Preferred / Dragon Systems Голосовое управление, распознавание речи - - - Нет 62 000 слов Нет 90%

При распознавании русской речи необходимо учитывать фонологические особенности русского языка:

- большое количество фонем - 42. Причем из них 36 согласных и 6 гласных. Распознавать согласные сложнее, они менее стабильны и имеют меньшую длительность;

- длина слова в среднем значительно длиннее, чем в других языках (7.2 фонем);

- структура словообразования чрезвычайно сложна (приставки, суффиксы, окончания);

- имеется множество словоформ.

Для английского языка существуют многочисленные речевые базы данных (обычной речи, телефонной, и т.д.) в том числе и свободно доступные. Для русского языка такие базы данных только начинают создаваться и, как правило, являются закрытыми для общего пользования.

Качество работы системы преобразования речи в текст зависит от выбора единицы распознавания. Это решение существенно влияет как на описательные признаки, так и архитектуру системы в целом. В качестве единиц

распознавания могут быть использованы: аллофоны, фонемы, дифоны, слоги, слова или некоторые их сочетания. Результаты анализа использования различных речевых единиц в задаче распознавания русской речи представлены в таблице 2.

Таблица 2 - Анализ речевых единиц для русского языка

Речевая единица Определение достоинства / недостатки / количество классов

Аллофон Набор звуков, имеющих одинаковые свойства. Реализация фонемы, обусловленная конкретным фонетическим окружением. + дают информацию о границах слогов и слов, полезную при распознавании; - зависят от окружения, методы определения аллофонов достаточно сложны; Количество классов: 3420.

Фонема Минимальная смыслораз-личительная единица устного языка, имеющая временную упорядоченность. + непосредственно включается в лексику; - трудно акустически распознать фонемы и их границы. Определенные звуки могут принадлежать более чем одной фонеме; Количество классов: 42.

Дифон Звуковая единица, имеющая протяженность от середины одного звука до середины последующего. + содержит переходную информацию, полезную для выделения единицы из речи; - большинство существующих фонологических правил нелегко применить к дифонам; Количество классов измеряется тысячами.

Слог Ядро гласной (или слоговое ядро) и функционально связанные с ним соседние согласные. + слоговое ядро довольно легко обнаружить и распознать, условия слоговой границы включены в фонологические правила; - сложность определения слоговых границ; Количество классов: порядка тысячи.

Слово Основная единица языка. Характеризуется: фонетической и грамматической оформленностью, фразео-логичностью значения. + исключается значительный объем распознавательной деятельности; - подбор шаблонов становится трудным при обширных словарях; Количество классов: более 170 000.

В настоящее время при проектировании систем распознавания речи используются в основном два подхода: один из них связан с распознаванием целых слов, что удобно для применения в системах с ограниченным словарем, например, для ввода и распознавания небольшого набора команд (порядка 100-200), другой - требует формирования базы знаний фонем и основан на их выделении из потока речи.

Сравнив методы распознавания целых слов и фонем, получаем, что при небольшом количестве слов, используемых диктором, более высокую надежность и скорость работы обеспечивает распознавание целых слов, но при увеличении их количества, коэффициент распознавания снижается. Размер словаря системы распознавания уже в сотню слов требует перехода к новой единице распознавания - слогу, фонеме. Набор фонем для любого языка

представляет собой наименьшее число отличительных фонологических классов, которые должны быть распознаны. Систему достаточно обучить один раз, а расширения словаря распознаваемых слов происходит путем простого добавления слов в него, что позволяет сократить время для формирования обучающих выборок.

В любой системе распознавания речи всегда присутствует этап сравнения входного сигнала с имеющимися эталонами. Обобщенная структурная схема системы распознавания речи представлена на рисунке 1.

Рисунок 1 - Общая структурная схема системы распознавания речи

Сигнал представляет собой вектор в установленном параметрическом пространстве, который в дальнейшем будет сравниваться с хранящимися векторами характеристик фонем, для определения его принадлежности к определенному классу. В зависимости от способов реализации составляющих системы распознавания, разделяют функциональный и нейросетевой подходы.

Функциональный подход к распознаванию основан на сравнении с эталоном каждого класса, сформированным в процессе обучения. Классификация основывается на заранее выбранном критерии подобия, т.е. если входной образ лучше соответствует эталону i-oro класса, чем любому другому, то входной образ классифицируется как принадлежащий к i-ому классу. Для сравнения необходимо сделать измерения на входном образе. Проблемы, возникающие при принятии решения, обусловлены изменчивостью границ слова и просодических параметров, поэтому приходится применять методы динамического программирования, скрытых цепей Маркова.

При нейросетевом подходе в процессе обучения настраиваются веса связей нейронной сети, при которых определенная входная комбинация приводит к требуемому множеству на выходах. Нейронные сети обеспечивают распознавание образов со способностями обобщения и принятия решений, основанных на неполном или нечетком наборе входных данных.

Для решения задачи классификации целесообразно использовать нейронную сеть с архитектурой двухслойного персептрона. К ее достоинствам можно отнести сравнительную простоту анализа и достаточно высокую эф-

фективность классификации. Благодаря использованию непрерывной функции возбуждения такие сети способны к обобщению обучающей выборки.

Вторая глава посвящена разработке вероятностно-нейросетевой модели преобразования речи в текст и реализации рассмотренных методов в рабочие алгоритмы. Рассматриваются акустическая и лингвистическая составляющие задачи преобразования речи в текст (рисунок 2).

Речевой сигнал

Акустическая компонента

Алгоритм

I Лингвистическая Текст

| компонента

Рисунок 2 — Схема преобразования речи в текст

Wl=(4(w,),S(w,)), (1)

где w¡ - i-e речевое высказывание; Aj(w,) — j-e акустическое представление речевого высказывания; S(w,)— символьное представление информации, содержащейся в речевом высказывании; S - словарь.

Построение системы преобразования речи в текст предполагает решение целого комплекса сложных задач:

1. Преобразование в цифровую форму и предварительная обработка речевого сигнала, включает задачи

- выбора частоты дискретизации при преобразовании в цифровую форму;

- построения алгоритма выделения полезной информации из речевого потока;

- подавления шума;

- нормализации сигнала;

2. Вычисление признаков речевого сигнала, включает задачи выбора

- метода вычисления признаков и его параметров;

- длины сегмента речевого сигнала;

3. Классификация речевых единиц:

- выбор архитектуры и алгоритма обучения нейронной сети;

- оптимизация количества нейронов в скрытых слоях;

- выбор функции активации;

- построение интерпретатора ответа сети;

4. Лингвистические задачи:

- выбор речевой единицы;

- создание правил, накладывающих ограничения на структуру слов, фраз при формировании фонетического, грамматического представления речевых сигналов;

- формирование словаря;

5. Подготовка речевых данных для обучения и экспериментального исследования качества работы системы.

Предлагаемая вероятностно-сетевая модель преобразования речи в текст приведена на рисунке 3.

Рисунок 3 — Вероятностно-сетевая модель системы преобразования речи в

текст

Особенности данной системы:

- вычисление признаков фонем осуществляется на основе вейвлет-преобразования;

- распознавание фонем осуществляется нейронной сетью (двухслойным персептроном);

- для повышения качества построения фонетической транскрипции применяются вероятности сочетаний фонем русского языка;

- в состав системы входит словарь, позволяющий формировать корректные грамматические формы слов;

- расширение словаря не требует дополнительного обучения системы вследствие использования фонемно-ориентированного метода построения системы.

В режиме обучения на вход системы подается последовательность фонем, представляющая собой обучающее множество. Запись речевого сигнала осуществляется с использованием микрофона, подключенного к входу звуковой карты компьютера, выполняется преобразование сигнала в цифровую форму с заданными параметрами частоты дискретизации - 22050 Гц и разрядности - 16. Далее оцифрованный сигнал поступает на блок предварительной обработки, который подавляет шум, проводится нормализация сигнала

по амплитуде и его разбиение на фиксированные интервалы во временной области, на которых будут определяться характеристики. В блоке выделения признаков рассчитываются параметры, характеризующие данную фонему-эталон. Вычисленные характеристики сохраняются в базе данных признаков. Следующим этапом является обучение нейронной сети, с этой целью формируется обучающее множество, представленное в виде наборов признаков фонем. Значения весов связей нейросети, обученной под конкретного диктора сохраняются и в дальнейшем используются при распознавании.

В режиме распознавания на вход системы подается речевой сигнал, в виде изолированного слова. В блоке распознавания рассчитанные вектора параметров последовательно подаются на входы обученной нейросети, которая их классифицирует (определяет принадлежность к определенной фонеме). Таким образом, на выходе блока распознавания формируется последовательность распознанных сегментов фонем, которая затем передается в блок формирования слова. Используя БД вероятностей фонемных сочетаний и БД слов, происходит построение грамматической формы распознаваемого слова. Рассмотрим организацию и принцип работы блоков, входящих в состав данной системы.

Предварительная обработка. Для повышения точности вычисления признаков и для уменьшения числа операций по обработке сигнала необходимо отделить сигнал от речевых пауз. Алгоритм выделения слов основан на измерении кратковременной энергии речевого сигнала.

Для удаления шумов обычно используется хорошо известный из техники фильтрации прием - удаление высокочастотных составляющих из спектра сигнала. Эта задача решается с помощью вейвлет-преобразования ограничением уровня детализирующих коэффициентов. Кратковременные особенности сигнала, а к ним можно отнести и шумы, создают детализирующие коэффициенты с высоким содержанием шумовых компонент, имеющих большие случайные выбросы значений сигнала. Поэтому уровень шума можно понизить, сделав нулевыми значения детализирующих коэффициентов меньше выбранного порога.

Важным этапом предварительной обработки является нормализация амплитуды оцифрованного речевого сигнала. Это позволяет уменьшить ошибки распознавания, связанные с тем, что диктор может произносить слова с различным уровнем громкости.

Функционирование нейронной сети. При использовании нейронной сети для классификации фонем решались следующие проблемы:

1. Выбор размера нейросети с учетом количества распознаваемых классов и сложности образа (проблема исследовалась экспериментально).

2. Анализируя алгоритм обучения и функционирование сети, определялась функция активации.

3. Проблема инвариантного распознавания сетью образов ударных и безударных гласных фонем с целью уменьшения количества фонетических классов.

В построенной модели использован алгоритм обучения "с обратным распространением ошибки". На входы нейронной сети подаются вычисленные признаки фонем. Количество нейронов входного слоя определяется числом компонент входного вектора признаков. Количество нейронов на скрытом слое подбиралось экспериментально и равно 38. Размер выходного слоя сети зависит от числа распознаваемых фонем и включает 42 выхода. Используется сигмоидная активационная функция.

Создание обучающей выборки проводилось следующим образом:

1. Для каждого фонетического класса производилась запись слов, в которых фонемы выступали в различных сочетаниях, употреблялись в начале и конце слова, а также находились в безударных и ударных позициях.

2. Из речевых сигналов выбранных слов выделялись участки, соответствующие конкретным фонемам.

3. На основе сформированной базы данных фонем эталонов, вычислялись признаки, представляющие собой обучающее множество.

Наиболее трудоемкими процессами является подготовка исходных данных для обучения и само обучение. Обучающая выборка формировалась вручную, из-за нерешенности задачи автоматического выделения фонем из речевого образа слова. Кроме того, для каждой фонемы необходимо сформировать выборку слов, в которых ее произнесение изменялось бы в зависимости от окружения и места расположения в слове. Для экспериментальных исследований необходимо располагать значительным объемом речевого материала, с этой целью разработано оригинальное программное обеспечение.

Ответ, выдаваемый нейронной сетью, формируется на основе выходных значений нейронов выходного слоя сети, являющихся числами, из диапазона [0; 1]. Таким образом, на выходе сети мы имеем вектор, каждый компонент которого лежит в указанном интервале. Используется интерпретация ответа сети по максимуму: номер нейрона, выдавшего максимальный по величине сигнал, является номером класса, к которому относится предъявленный сети входной вектор. Каждому нейрону выходного слоя ставиться в соответствие определенный фонетический класс (рисунок 4).

Рисунок 4 - Классификация фонемных сегментов нейронной сетью

По значениям на выходе нейросети, определяется принадлежность входных векторов признаков к определенным фонемам. Из полученных ре-

12

зультатов распознавания формируется символьная последовательность.

Построение грамматической формы слова. Проблема преобразования символьной последовательности, полученной на выходе нейросети в грамматическую форму решается различными методами. Для построения грамматической формы слова по символьной строке характеризующей последовательность сегментов фонем был разработан алгоритм формирования слов и реализована программная модель (рисунок 5).

Рисунок 5 — Структурная схема блока формирования слов

Так как временной интервал, на котором рассчитываются характеристики фонемы меньше ее средней длины (50 мс), то цепочка включает повторяющиеся сегменты, которые используются для формирования отдельных фонем (рисунок 6).

Последовательность участков фонем Последовательность фонем

В В В A AAA А А ФФ 3 3 ЗА А А А-► В АФ 3 А

В А Ф 3 А

Рисунок 6 - Формирование фонем из повторяющихся сегментов

Для формирования правильной фонетической формы распознаваемого слова из полученной фонемной строки используются вероятностные характеристики сочетаний фонем в данном языке (русский). При выявлении некорректной последовательности фонем, анализировались вероятностные характеристики сочетаний фонем в слове, выбиралась фонема, вероятность появления которой в слове была максимальна. Например: так как Р{ф/а)< Р(з/а), то принималось решение: ВАФЗА -» ВАЗА.

Задача получения грамматической формы слова, соответствующего его фонемной транскрипции связана с тем, что при произнесении слов, многие буквы не озвучиваются. Например, грамматической форме слова "СОЛНЦЕ" соответствует фонетическое представление [СОНЦЕ]. При возникновении ошибочного распознавания отдельных фонем, также необходимо найти наиболее подходящее слово. Для поиска в системе предусмотрен словарь, который содержит грамматические словоформы распознаваемых слов. Использо-

вание словоформы на роль основной единицы словаря приводит к увеличению его объема, но упрощает процедуру идентификации единиц текста при их восприятии.

Ключевым моментом поиска по сходству является выбор степени "похожести". Одним из распространенных методов поиска по сходству в словаре является метрика (функция) Левенштейна, которую также часто называют расстоянием редактирования. Для расстояния Левенштейна набор элементарных операций состоит из операции замены, вставки и удаления одной буквы.

Пусть ¿ц есть расстояние между префиксами строк х и у, длины которых равны, соответственно, т и п:

_ _ с/у-фс,,^), (2)

где / =1,т; у = 1 .п.

Расстояния ¿ц вычисляются в соответствии с рекуррентными соотношениями:

du = mm i/ir, + w(s, , (3)

rfj-ij-.+ MX;,^)

где w(xj,e) - цена удаления г'-го символа строки х (замена на пустой символ е); w(e^) - цена вставки/-го символа строки х, w(*ii)i) - цена замены /-го символа строки х j-м символом строки у.

Используются следующие значения цены редактирования w: w(x„e)= 1,

Чад) = 1,

Mxtfj) = 1, если х, * yj, ™0>ад) = 0, если х, = уу

В процессе вычислений формируется матрица размером (от+1, и+1) элементами которой являются значения dtp

Таким образом, принятие решения о соответствии фонемной транскрипции определенному слову, выполняется путем расчета расстояний Левенштейна между грамматическими словоформами из словаря и полученным фонетическим представлением с дальнейшим выбором варианта с минимальным значением.

Третья глава посвящена построению модели фонемы русского языка на основе вейвлет-преобразования. Речевой сигнал является примером нестационарного процесса, в котором информативным является сам факт изменения его частотно-временных характеристик (рисунок 7).

Процесс построения моделей фонем русского языка связан с выбором метода вычисления признаков речевого сигнала фонемы. Рассматриваются

методы вычисления признаков речевого сигнала, основанные на преобразовании Фурье, в частности использование гомоморфного анализа, позволяющего определить частоту основного тона путем вычисления кепстра речевого сигнала и измерить формантные частоты с помощью кепстрально-сглаженного логарифма спектра.

и « «I « м Ч» Ш т»

Чктоп (Гц)

Рисунок 7 - Частота о-временное представление речевого сигнала

Кепстральные характеристики использовались при построении моделей фонем в разработке центра понимания разговорного языка Орегонского института науки и технологий и Санкт-Петербургского института информатики и автоматизации РАН. Модель фонемы представлена набором акустических параметров:

Ф={К<Ъ ЛК,Ъ В, 6Е, (}, (4)

где К12 ~ двенадцать мел-частотных кепстральных коэффициентов; — двенадцать характеристик дельты мел-частотных кепстральных коэффициентов; Е - энергетическая характеристика; АЕ - дельта характеристика энергии; (- временная длина кадра

Преобразование Фурье в своем традиционном виде не приспособлено для анализа нестационарных сигналов, в том числе локализованных на некотором временном интервале, так как теряется информация о временных характеристиках сигнала. Например, дискретное преобразование Фурье (5) не позволяет отличить сигналы, состоящие из двух синусоид с разными частотами, один из которых равен сумме синусоид (б) , второй - последовательно следующие друг за другом синусоиды (7).

, к = О,..., N-1, (5)

= ^¿«(л) + зт(Зп), (6)

51п(п),п < О ¡¡п(3п),п > О

В обоих случаях их спектр будет представлять собой два пика на фиксированных частотах. Одним из подходов к анализу нестационарных сигналов является оконное преобразование Фурье. В данном случае нестационарный сигнал, предварительно разбивается на сегменты (окна), в пределах которого он рассматривается как стационарный. Это позволяет определить факт присутствия в сигнале частоты, и временной интервал ее присутствия, что значительно расширяет возможности метода по сравнению с классическим преобразованием Фурье.

Однако, исходя из принципа неопределенности Гейзенберга, нельзя утверждать факт наличия частоты в сигнале в момент времени /о - можно лишь определить, что спектр частот (и/], и>2) присутствует в интервале (/), /2)-Причем разрешение по частоте (по времени) остается постоянным вне зависимости от области частот (времен), в которых производится исследование. Данный математический аппарат хорошо себя зарекомендовал в области распознавания речи, имеется множество методик обработки сигналов, использующих в своей основе преобразование Фурье. Не смотря на это, постоянно ведутся работы по поиску иных путей параметризации речи. Одним из таких направлений, является вейвлет-анализ.

Вейвлеты, как средство многомасштабного анализа позволяют выделять, одновременно как основные характеристики, так и короткоживущие высокочастотные явления в речевом сигнале. Это свойство является существенным преимуществом в задачах обработки речевого сигнала по сравнению с оконным преобразованием Фурье, где, варьируя ширину окна, приходится выбирать масштаб явлений, которые необходимо выделить в сигнале. Получение дополнительной информации при разных масштабах времени и разных масштабах разрешения сигнала может улучшить точность распознавания речи.

Предлагается использовать кратномасштабный вейвлет-анализ, идея которого состоит в представлении сигнала последовательностью образов с разной степенью детализации, позволяющий выявлять локальные особенности сигнала и классифицировать их по интенсивности. Многомасштабный вейвлет-анализ основывается на разложении сигнала по функциям, образующим ортонормированный базис. Любую функцию можно разложить на некотором заданном уровне разрешения (масштабе) /„ в ряд вида:

где ^ и У j}¡: - масштабированные и смещенные версии скейлинг-функции (масштабной функции) <р и «материнского вейвлета» у; ^ - коэффициенты аппроксимации; <1)Х — детализирующие коэффициенты.

»=0 " у.у„ <»0

(8)

Модель фонемы Ф представляется набором средних значений энергии вейаяет-коэффициентов для каждого уровня детализации:

Ф={ Гм д»к ' Ь (9)

где Жц - значения средней энергии вей влет-коэффициентов для N уровней детализации (№=ДО); Дзначения среднего квадратмческого отклонения ве й в лет- коэффициенте в для N уровней детализации; Я - число уровней детализации вейвлет-преобразования; / - временная длина кадра

Средняя энергия вейвлет-коэффициентов для определенного уровня детализации у, определяется как:

где - детализирующие коэффициенты; А — номер вейвлет-коэффициента; - количество вейвлет-коэффициентов в анализируемом окне на уровне}. Метод вейвлег-анализа сигналов не содержит сложных последовательностей действий. Признаки, получаемые в результате вычислений, характеризуют сигнал и во временной и частотной плоскости,

В качестве признаков, характеризующих речевой сигнал фонемы, предложено использовать коэффициенты детализации ортогонального вейвлет-преобразования. Исследовались вейвлет-базисы: Добеши 2, Добеши 4, Добеши 8, Добеши 16. Проведенные экспериментальные исследования показали, что наилучшие результаты достигаются для базиса Добеши 8 (рисунок 8,9).

Рисунок 8 - Вейвлет-базисы: а) Добеши 2 6) Добеши 4 в) Добеши 8 г)

Добеши 16

(№2 (1М аьв

Рисунок 9 - Сравнительный анализ качества распознавания изолированных слов для разных типов вейвлетов

Поскольку базис Добеши является орто нормированным, используется быстрый алгоритм вычисления вейвлет-коэффициентов на каждом частотном уровне через найденные коэффициенты на уровне с более высокой частотой. Необходимо определить число уровней детализации, соответствующее размеру анализируемого частотного диапазона. Частотный диапазон речи равен примерно 20 - 20 ООО Гц. Вейвлет у (х) Добеши $ имеет центральную частоту ^г = 0,6667 Гц. При частоте дискретизации Рс1 = 22050 отсчетов в секунду получаем центральную частоту вейвлета, используемого для первого уровня разложения (П).

Рг!~ Рг ■ /ч/, Ргк= 0,6667 Гц ■ 22050 = 14701 Гц

(И)

С каждым следующим уровнем разложения частота вейвлета будет уменьшаться в два раза. Центральная частота вейвлета на десятом уровне разложения будет равна 28,7 Гц. Таким образом, показано, что вейвлет-коэффициенты для десяти уровней разложения отражают характеристики сигнала в частотном диапазоне речи (рисунок 10).

10 л.о

I 0.)

иг » &3

«7 .5

1--1-1-1--Г-1---1 1' -------"Г-■

-—длд/у\д^

"т-1 |

лл Ь—___I I

И:

•ч*

3 »

-0Л1

, 0.05

а-, ъ

, Щ

О, ■

1 48

I »ЦНИИ**-**

1

4М|

Й*'......

о.о: од о.15 0.2 о.25 о.э о.ч о.«

Время, с

Рисунок 10 - Коэффициенты вейвлет-разложения речевого сигнала на десять уровней детализации

Определялась длина фиксированного сегмента во временной области, на котором должны рассчитываться признаки речевого сигнала. Данный интервал должен быть меньше времени звучания фонемы. В русском языке длительности фонем изменяются в пределах 50 - 250 мс. Значение длины сегмента должно обеспечивать вычисление признаков речевого сигнала. Нижняя граница анализируемого частотного диапазона равна 28,7 Гц, в выделенный сегмент должен укладываться по крайней мере один период данной частотной составляющей. Исходя из времени звучания фонемы в русском языке и анализируемого частотного диапазона, длина сегмента, удовлетворяющая изложенным требованиям, будет равна 36 мс.

Четвертая глава посвящена вопросам практического создания приложения на основе разработанных алгоритмов и архитектур. Проводится описание и выбор средств разработки. Исследуется качество распознавания системы «Речь-Текст».

Программная реализация системы преобразования речи в текст выполнена с использованием системы Matlab. Для моделирования структуры нейронной сети был выбран пакет Neural Networks. Компонент системы - Wavelet Toolbox, предоставляет разнообразные возможности обработки сигналов с помощью вейвлетов. В стандартный пакет аудио поддержки системы Matlab включены функции, позволяющие произвести запись звукового сигнала. Среда разработки пользовательского интерфейса Matlab GUIDE позволяет реализовывать элементы визуально-ориентированного программирования (кнопки, меню и т.д.). Таким образом, применение системы Matlab наиболее полно отвечает задаче разработки системы преобразования речи в текст.

В программной модели системы преобразования речи в текст реализованы следующие функции:

• формирование обучающей выборки;

• обучение нейросети классификации фонем;

• преобразование в текст речевого сигнала слова;

• сохранение обучающей выборки в виде БД признаков фонем;

• автоматическая сегментация сигнала на речь и паузы с построением списка выделенных сегментов;

• формирование эталонов фонем путем их выделения в графическом окне отображения речевого сигнала;

• создание и редактирование словаря грамматических форм распознаваемых слов с возможностями его сохранения и загрузки;

• настройка параметров моделирования нейронной сети;

• сохранение значений весов связей обученной нейросети;

• параметры нейросети (размер скрытого слоя, ошибка обучения);

• настройка параметров записи (частота дискретизации, разрядность);

• импорт данных, хранящихся в виде wav-файлов;

• сохранение сигнала в формате wav-файла;

• воспроизведение сигнала;

• формирование фонем-эталонов путем их графического выделения из слов.

Разработанный интерфейс (рисунок 11), позволяет пользователю сформировать базу данных фонем, провести обучение нейронной сети с заданными параметрами на сформированной обучающей выборке и выполнить преобразование в текст входного речевого сигнала. Имеются возможности управления записью/воспроизведением звука, настройки параметров записи, открытия и сохранения звуковых файлов, а также графического отображения речевого сигнала.

Рисунок 11 - Пользовательский интерфейс программы

Для оценки качества работы системы преобразования речи а текст были созданы базы данных фонем русского языка, включающие образцы речевых сигналов фонем дикторов различного пола и возраста. Проводились экспериментальные исследования функционирования нейронной сети. Исследовался процент правильно классифицированных нейросетью примеров фонем в зависимости от количества классов при обучении. Результаты эксперимента приведены на рисунке 12.

1 2 Э А 5 в 7 В 9 10 11 12 13 14 15 16 17 1в 19 20 21 22 23 24 25 26 27

Количество классов

Рисунок 12 - Зависимость коэффициента распознавания фонем от количества

классов

Проводились эксперименты по распознаванию фонем и слов. После обучения нейросети на сформированной базе признаков фонем-эталонов (по 20 примеров - около 100 векторов признаков для каждой фонемы) диктором, проводившим обучение, произносились отдельные слова, грамматические формы которых имелись в подключенном словаре (по 10 вариантов на каждое). Распознавание проводилось с использованием вероятностей фонемных сочетаний и без них. По результатам экспериментов определялся коэффициент распознавания модулем речевых единиц. Также измерялось время преобразования речевого сигнала слова в его текстовое представление в зависимости от размера словаря (рисунок ]3).

0,350

л

I 0.300

г

™ 0,250

5 0.200 !

* 0,150

I

» 0.100 §

i 0.050 f £

° 0.000 1

0.133

0.2011

0.217

0:227..0,237 . 0.241

0.250

0,262 0.263" 0 277

OJ2S8

0.154

0,165

10 110 210 310 410 510 610 710 310 910 1010 1110 1210 Размер словаря (слое)

Рисунок 13 - Зависимость времени распознавания слова от размера словаря

Получены данные: от 154 мс для списка из 10 слов до 288 мс для словаря, содержащего 1210 слов. В таблице 3 приведены результаты распознавания слов разработанной системой «Речь-текст», с использованием модели фонемы на основе вей влет-преобразован и я и системой SIRIUS, использующую модель фонемы на основе кенстральных характеристик. Экспериментальные данные показали, что применение вероятностей сочетаний фонем русского языка при формировании грамматической формы позволяет повысить коэффициент распознавания слов с 84% до 90%.

Таблица 3 - Сравнительный анализ распознавания слов

Система Модель фонемы Средний коэффициент распознавания Среднее время распознавания слова

SIRIUS Преобразование Фурье (кепстральные характеристики) 94,0 % (целосновное распознавание) ¡160 мс

80,4 % (морфемное распознавание) 670 мс

«Речь-текст» Вей влет-преобразование (базис Добеши 8) 90,0 % 288 мс

Приведенные для сравнения характеристики системы SIRIUS показывают высокий процент целословного распознавания, в связи с применением сложной лингвистической обработки, однако время распознавания не удовлетворяет среднему темпу речи. Использование морфемного метода позволяет сократить время, но при одновременном понижении качества распознавания.

Средний коэффициент распознавания слов разработанной системой «Речь-текст» составил 90,0%. Среднее время распознавания слова составило 288 мс, что удовлетворяет среднему темпу речи: одно слово за 500 мс. Небольшое значение среднего времени распознавания позволяет улучшить качество распознавания путем усовершенствования лингвистической составляющей системы, привлечения семантического и синтаксического анализа.

Основные результаты работы

1. Разработана модель фонемы русского языка на основе кратномас-штабного вейвлет-преобразования (базис Добеши 8).

2. Построен алгоритм формирования грамматической формы слова, с использованием вероятностей фонемных сочетаний русского языка.

3. Выполнена программная реализация вероятностно-нейросетевой системы преобразования русской речи в текст с использованием средств разработки Matlab.

4. Создана база данных фонем русского языка.

5. Экспериментально подтверждена эффективность разработанной системы преобразования речи в текст.

Основные публикации по теме диссертации

1. Медведев, М. С. Использование вейвлет-преобразования для построения моделей фонем русского языка / М. С. Медведев // Вестник КрасГУ, серия Физ. Мат. Науки. - 2006'8.

2. Медведев, М. С. Исследование моделей фонем русского языка / М. С. Медведев; Краснояр. гос. техн. ун-т. - Красноярск, 2006. - 12 е.: - Библи-огр.: 8 назв. - Рус. - Деп. в ВИНИТИ 13.12.06, № 1544-В2006.

3. Медведев, М. С. Модуль преобразования речи в текст на основе нейросети / М. С. Медведев; Первая Международная конференция "Системный анализ и информационные технологии" САИТ-2005 (12-16 сентября 2005 г.,Переславль-Залесский, Россия): Труды конференции. Т. 2. 2005. 336 с.

4. Кирякова, Г. С. Вероятностно-сетевая модель преобразования речи в текст. / Г. С. Кирякова, М. С. Медведев; Краен, гос. техн. ун-т. - Красноярск, 2005.-9 с.-Деп. в ВИНИТИ 11.10.05, № 1300 - В2005.

5. Медведев, М. С. Проектирование речевой БД для модуля преобразования речи в текст / М. С. Медведев, А. А. Петров // IV Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых "Молодежь и современные информационные технологии" Труды конференции, г. Томск. 2006.

6. Медведев, М. С. Экспериментальные исследования выбора базиса вейвлет-преобразования в системе «Речь-текст». / М. С. Медведев, И. И. Акулова // Молодежь и наука: начало XXI века. Материалы всероссийская научно-техническая конференции студентов, аспирантов и молодых ученых ч.2 2006 ИПЦ КГТУ 2006 с. 184 -166

7. Медведев, М. С. Модуль преобразования речи в текст на основе нейросети / М. С. Медведев // Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых. - Красноярск, 2005.

8. Медведев, М. С. Измерение характеристик речевого сигнала в среде Ма^аЬ 6.5. / М. С. Медведев; Информатика и информационные технологии: Межвуз. сб. научн. тр./ Под. ред. Е. А. Вейсова, Ю.А. Шитова. Красноярск: ИПЦ КГТУ, 2003.292 с.

9. Леонович, А. А. Распознавание фонем: функциональный и нейросе-тевой подходы / А. А. Леонович, М. С. Медведев // XXXII международная конференция III международная конференция молодых ученых «Информационные технологии в науке, образовании, телекоммуникации и бизнесе» 1Т + 8&Е'05 Майская сессия Украина, Крым, Ялта-Гурзуф, 2005.

10. Медведев, М. С. Фонемная сегментация речевого сигнала с использованием вейвлет-преобразования. / М. С. Медведев; V Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям. Новосибирск, 2004. Тезисы докладов.

11. Медведев, М. С. Модели фонем русского языка, использующие кратномасштабное вейвлет-преобразование / М. С. Медведев // Вестник Сиб-ГАУ 1 (14)-2007.

Медведев Максим Сергеевич Преобразование речи в текст. Фонемный подход Автореферат диссертации на соискание ученой степени кандидата технических наук Подписано в печать 20.03.2007. Заказ № 62& Формат 60x90. Усл. печ. л. 1 тираж 100 экз. Типография ФГОУ ВПО «Сибирского федерального университета» Политехнического института

Оглавление автор диссертации — кандидата технических наук Медведев, Максим Сергеевич

Введение.

Актуальность проблемы.

Цель работы.

Методы исследования.

Научная новизна.

Практическая ценность.

Апробация работы.

Публикации.

Структура работы.

1 Анализ способов построения систем распознавания речи.

1.1 Сравнительные характеристики систем распознавания речи.

1.2 Особенности русской речи.

1.3 Выбор единицы распознавания.

1.4 Подходы к построению систем распознавания речи.

1.4.1 Функциональный подход.

1.4.2 Нейросетевой подход.

2 Система преобразования речи в текст.

2.1 Акустическая составляющая системы.

2.1.1 Ввод речевого сигнала.

2.1.2 Предварительная обработка сигнала.

2.1.3 Вычисление признаков речевого сигнала.

2.2 Лингвистическая составляющая системы.

2.2.1 Алгоритм формирования фонетической формы слова на основе вероятностей сочетаний фонем русского языка.

2.2.2 Алгоритм формирования грамматической формы слова.

2.3 Вероятностно-нейросетевая система "Речь-текст".

3 Исследование моделей фонем.

3.1 Классификация фонем.

3.2 Модель фонемы на основе гомоморфного анализа

3.2.1 Модель образования речи.

3.2.2 Кепстральный анализ речевого сигнала.

3.3 Модель фонемы на основе вейвлет-преобразования.

3.3.1 Вейвлет-преобразование речевого сигнала.

3.3.2 Выбор вейвлет-базиса.

3.3.3 Параметры модели фонемы на основе вейвлет-преобразования .66 4 Разработка программного обеспечения.

4.1 Среда разработки Matlab 7.

4.2 Особенности программной реализации системы "речь-текст".

4.3 Компоненты системы "речь-текст".

4.4 Создание базы данных фонем русского языка.

4.5 Оценка качества распознавания речи.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Медведев, Максим Сергеевич

Актуальность проблемы. Устная речь и сегодня остается самым оперативным и распространенным способом передачи информации в любой сфере человеческой деятельности, являясь основной формой выражения намерений, целей, желаний. Это продуктивный, естественный и удобный способ передачи информации. В современных компьютерных системах все больше внимания уделяется построению интерфейса речевого ввода-вывода, эффективность которого основана на практически неограниченных возможностях формулировки на естественном языке всевозможных задач в самых различных областях человеческой деятельности. Системы речевого ввода являются наиболее перспективными на сегодняшний день.

Существующие системы понимания речи пока еще значительно уступают речевым способностям человека, что свидетельствует об их недостаточной адекватности и ограничивает применение речевых технологий в промышленности и быту. Из имеющихся программных продуктов рынка систем распознавания речи лишь немногие поддерживают русский язык.

Разработка эффективных алгоритмов распознавания русской речи является ключевым моментов в решении задач:

- преобразования речи в текст,

- понимания речи,

- голосового управления,

- автоматического перевода,

- распознавания речи в телефонии (голосовые меню вместо набора цифр).

Исследованиям проблем распознавания речи занимаются: университет Карнеги Меллон (США), университет Иллинойс (США), Орегонский институт науки и технологий (США), Вычислительный центр РАН (Ю. И. Журавлев, В. Я. Чучупал), Институт проблем передачи информации РАН (В. Н. Сорокин), Институт математики СО РАН и Новосибирский государственный университет (Н. Г. Загоруйко и В. М. Величко),

Московский государственный университет им. М. В. Ломоносова (О. Ф. Кривнова), МГТУ им. Н. Э. Баумана (Ю. Н. Жигулевцев), Московский энергетический институт (А. И. Евсеев), Московский государственный лингвистический университет (Р. К. Потапова), Московский технический университет связи и информатики (Ю. Н. Прохоров), Санкт-Петербургский государственный университет (В. И. Галунов), Санкт-Петербургский институт информатики и автоматизации РАН. В данной области ведут исследования такие компании как IBM, Philips, Dragon Systems, Cognitive Technologies, Истрасофт, Сакрамент и др., что говорит об ее актуальности.

Цель. Основная цель работы заключается в исследовании моделей фонем русского языка, разработке методов и алгоритмов преобразования речи в текст, позволяющих сократить время обучения и повысить качество распознавания. Для решения поставленной задачи необходимо:

- систематизировать методы и алгоритмы, используемые для построения систем распознавания речи;

- провести сравнительный анализ характеристик существующих систем распознавания речи;

- организовать и сформировать обучающую выборку фонем русского языка;

- разработать архитектуру и алгоритмы вероятностно-нейросетевой системы преобразования речи в текст;

- выполнить программную реализацию системы преобразования речи в текст;

- оценить качество распознавания разработанной системы.

Методы исследования. Методы исследования связаны с цифровой обработкой сигналов, теорией нейронных сетей, временных рядов, теорией вероятности, математической статистикой и случайными процессами, фонологией и программированием.

Научная новизна.

1. Построена модель фонемы русского языка с использованием кратномасштабного вейвлет-преобразования (базис Добеши 8).

2. Разработаны алгоритмы построения грамматической формы слова с использованием вероятностей фонемных сочетаний русского языка, для корректного преобразования речи в текст.

3. Создана программная реализация вероятностно-нейросетевой системы преобразования речи в текст, основанной на фонемном подходе, не требующем дополнительного обучения системы при расширении словаря распознаваемых слов.

Практическая ценность. Созданные методы, алгоритмы и программные средства системы преобразования речи в текст являются практически значимыми. Разработанное программное обеспечение позволяет автоматизировать процесс ввода текстовой информации в ЭВМ, проводить экспериментальные исследования в области распознавания речи. База данных фонем русского языка может использоваться для разработки и экспериментальной оценки качества работы речевых приложений.

Апробация работы. Основные положения диссертации были представлены на семинаре ВЦ СОР АН г. Красноярск (2006), Всероссийской конференции молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2004), Международной конференции "Системный анализ и информационные технологии" (Переславль-Залесский, 2005), Международной конференции молодых ученых «Информационные технологии в науке, образовании, телекоммуникации и бизнесе» (Украина, Крым, Ялта-Гурзуф, 2005), IV Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых "Молодежь и современные информационные технологии" г. Томск, 2006. Демонстрационные работы внедрены в учебный процесс.

Сведения о внедрении. Система преобразования речи в текст внедрена в учебный процесс в Красноярском Государственном Техническом Университете (акт о внедрении №190000/5126 от 18.12.2006).

Публикации. По результатам работы опубликованы статьи в Вестнике КрасГУ 2006'8, Вестнике СибГАУ 1(14) 2007, две статьи, депонированные в ВИНИТИ (рег.№ 1300- В2005, 1544-В2006), а также 7 докладов на Международных, Всероссийских и межвузовских конференциях.

Структура работы. Диссертационная работа состоит из введения, четырех глав, заключения и библиографического списка использованных источников. Она содержит 98 страниц основного текста, 37 рисунков и 10 таблиц, расположенных в тексте диссертации. Список литературы включает 100 наименований.

Заключение диссертация на тему "Преобразование речи в текст. Фонемный подход"

Выводы. В четвертой главе описывалась созданная с использованием Matlab программная реализация системы «Речь-текст». Приведено подробное описание компонентов и возможностей созданного программного обеспечения. Освящен вопрос создания базы данных фонем русского языка с описанием ее структуры. Представлены данные экспериментов по исследованию зависимости времени обучения нейронной сети и коэффициента распознавания фонем от количества классов, измерялось среднее время преобразования слов в текст - 288 мс, что удовлетворяет среднему темпу речи и позволяет улучшить качество распознавания путем усовершенствования лингвистической составляющей системы, привлечения семантического и синтаксического анализа.

В результате экспериментальных исследований определялся коэффициент распознавания слов - 90,0%, что является хорошим показателем для существующих систем. Установлено, что использование вероятностей фонемных сочетаний русского языка позволяет повысить качество распознавания.

ЗАКЛЮЧЕНИЕ

В диссертации исследовались модели фонем русского языка. Выделены проблемы, требующие решения при построении системы преобразования речи в текст. Описан нейросетевой подход к решению поставленной задачи. Установлено, что наиболее предпочтительным для построения системы преобразования речи в текст является фонемно-ориентированный метод. Разработан эффективный способ получения признаков речевого сигнала фонем с помощью кратномасштабного вейвлет-преобразования (базис Добеши 8).

Создана вероятностно-нейросетевая система преобразования речи в текст, основанная на фонемном методе построения, не требующем дополнительного обучения системы при расширении словаря;

Разработан алгоритм формирования грамматической формы слова с использованием функции Левенштейна и вероятностей сочетаний фонем. Построена база данных эталонов фонем русского языка.

На основе представленных алгоритмов в среде Matlab 7 была разработана система преобразования речи в текст, позволяющая проводить экспериментальные исследования и оптимизацию разработанных методов и алгоритмов. Приведено подробное описание компонентов и возможностей созданного программного обеспечения. Эксперименты по определению качества работы системы показали, что коэффициент распознавания слов составил 90%. Небольшое значение среднего времени распознавания позволит улучшить качество распознавания путем усовершенствования лингвистической составляющей системы, привлечения семантического и синтаксического анализа.

На основе полученных результатов можно сделать выводы об возможности применения разработанной модели фонемы на основе вейвлет-анализа (базис Добеши 8) в задаче преобразования речи в текст.

Библиография Медведев, Максим Сергеевич, диссертация по теме Теоретические основы информатики

1. Алексеев, В. Услышь меня, машина/В. Алексеев. //Компьютерра, 1997. -№49. - С.26-43.

2. Алексеев, П.М. Автоматизация подготовки словарей/П.М. Алексеев.-М., 1988.-С. 3-63.

3. Аракин, В.Д. Сравнительная типология английского и русского языков/В.Д. Аракин; 3-е изд. М.:Физматлит, 2005. - 231 с.

4. Астафьева, Н.В. Вейвлет-анализ: основы теории и примеры применения/Н.В. Астафьева //Успехи физич. наук. 1996. - №11. - С. 1145.

5. Барский, А.Б. Нейронные сети: распознавание, управление, принятие решений/А.Б. Барский. -М.:Финансы и статистика, 2004. 176 с.

6. Баскаков, С.И. Радиотехнические цепи и сигналы/С.И. Баскаков. -М.:Высш. шк., 2002. 214 с.

7. Беллами, Дж.К. Цифровая телефония: пер. с англ./Дж.К. Беллами. -М.:Эко-Трендз, 2004. 639 с.

8. Бернштейн, С.И. Словарь фонетических терминов/С.И. Бернштейн. -М.:Вост. лит., 1996.- 175 с.

9. Блаттер, К. Вейвлет-анализ. Основы теории/К. Блаттер. М.: Техносфера, 2004. - 280 с.

10. Бондарев, В.Н. Цифровая обработка сигналов: методы и средства/В.Н. Бондарев, Г. Трестер, B.C. Чернега. Севастополь: СевГТУ, 1999. -398 с.

11. Бондаренко, В.П. Исследование структуры речевых сигналов гласных звуков/В.П. Бондаренко, В.П. Коцубинский, И.О. Маркивский//Методы и алгоритмы автоматизации технологических процессов:сб.статей; под ред. В.П. Тарасенко. Томск, 1995. - С.72-81.

12. Бондарко, JI.B. Звуковая система русского языка в свете задач компилятивного синтеза/Jl.B. Бондарко, В.И. Кузнецов, П.А. Скрелин//Бюл. фонетического фонда рус. яз. 1997. - №6. - С 17-23.

13. Буря, А.Г. Информационная система для хранения и управления образцами оцифрованной речи/А.Г. Буря, А.В. Чекмарев//Научно-техническая конференция студентов, аспирантов и молодых специалистов МГИЭМ: тез. докл. М., 1999. - С. 57.

14. Васильев, В.В. Кепстральный анализ/В.В. Васильев, А.Н. Яковлев. -Новосибирск: НЭТИ, 1980. 26 с.

15. Вентцель, Е.С. Теория случайных процессов/Е.С. Вентцель. М.: Высш. шк., 2000. - 383 с.

16. Винцюк, Т.К. Анализ, распознавание и интерпретация речевых сигналов/Т.К. Винцюк. Киев: Нав. думка, 1987. - 264 с.

17. Галунов, В.И Речевые базы данных русского языка в рамках европейских программ "SPEECHDAT'/В.И. Галунов, Ю.Л. Кочанина, А.В. Остроухов//ЮО лет экспериментальной фонетике в России: матер, междунар. конф. СПб., 2001. - 192 с.

18. Гольдберг, J1.M. Цифровая обработка сигналов/Jl.М. Гольдберг, Б.Д. Матюшкин, М.Н. Поляк.- М.: Радио и связь, 1990. 256 с.

19. Губарев, В.В. Вероятностные модели/В.В. Губарев. -Новосибирск:НЭТИ, 1992 198 с.

20. Гультяев, А. Визуальное моделирование в среде Matlab/A. Гультяев. -СПб.: Питер, 2000.-432 с.

21. Диброва, Е. Т. Современный русский язык. Теория. Анализ языковых единиц: Фонетика и орфоэпия. Графика и орфография. Морфемика. Словообразование/Е.Т. Диброва. М.:Академия, 2006. - 480 с.

22. Добеши, И. Десять лекций по вейвлетам/И. Добеши; НИЦ «Регулярная и хаотическая динамика». Москва-Ижевск, 2001. - 464 с.

23. Дремин, И.М. Вейвлеты и их использование/И.М. Дремин, О.В. Иванов, В.А. Нечитайло//Успехи физич. наук. 2001. - №5. - С. 465500.

24. Дьяконов, В. MATLAB/B. Дьяконов.- СПб.: Питер, 2001. 560 с.

25. Дьяконов, В. П. Matlab 6.5 SP1/7/7 SP1/7 SP2 + Simulink 5/6. Инструменты искусственного интеллекта и биоинформатики/В.П. Дьяконов, В.В. Круглов. М.:Солон-Пресс, 2006. - 453 с.

26. Дьяконов, В.П. Вейвлеты. От теории к практике/В.П. Дьяконов. -М.:Солон-Пресс, 2004. 448 с.

27. Зверев, В.А. Численное моделирование случайных акустических сигналов/В. А. Зверев, Н.В. Литвак//Акуст. журн. 1999. -№56.-С. 807-815.

28. Земская, Е. А. Современный русский язык: Словообразование/Е.А. Земская. М.:Флинта, 2005. - 324 с.

29. Зиндер, JI.P. Общая фонетика /Л.Р. Зиндер. М.:Высш. шк., 1979. -251 с.

30. Зиновьева, Н.В. Прикладные системы с использованием фонетических знаний/Н.В. Зиновьева, О.Ф. Кривнова//Проблемы фонетики. М., 1993. - С. 16-35.

31. Иглин, И.Г. Математические расчеты на базе Matlab/С.П. Иглин. М.-СПб.:ВНУ, 2005. - 649 с.

32. Иконин, С.Ю. Система автоматического распознавания речи SPIRIT ASR Engine /С.Ю. Иконин, Д.В. Сарана/ДДифровая обработка сигналов. 2003. - №4. - С. 5-13.

33. Истомина, Т.В. Применение теории wavelets в задачах обработки информации/Т.В. Истомина, Б.В. Чувыкин, В.Е. Щеголев. Пенза: Изд-во Пенз. гос. ун-та, 2000. - 188 с.

34. Кинтцель, Т. Руководство программиста по работе со звуком/Т. Кинтцель. М.: ДМК пресс, 2000. - 432 с.

35. Кодзасов, С.В. Общая фонетика/С.В. Кодзасов, О.Ф. Кривнова. М.: РГГУ, 2001. - 592 с.

36. Колемаев, В.А. Теория вероятностей и математическая статистика/В .А. Колемаев. -М.:Инфра, 1997. 302 с.

37. Кормен, Т. Алгоритмы: построение и анализ/Т. Кормен, Ч. Лейзерсон, Р. Ривест. М.:МЦНМО, 1999. - 960с.

38. Косарев, Ю.А. Естественная форма диалога с ЭВМ/Ю.А. Косарев. -Л.: Машиностроение, 1989. 143 с.

39. Коцубинский, В.П. Особенности формирования звучной речи/В.П. Коцубинский//Интеллектуальные системы в управлении, конструировании и образовании/под ред. А.А.Шелупанова. Томск, 2001.-С. 33-42.

40. Круглое, В. Нечеткая логика и искусственные нейронные сети/В. Круглов, М. Дли, Р. Голунов. М.:Физматлит, 2001. - 224 с.

41. Левенштейн, В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов/В.И. Левенштейн//Докл. АН СССР. -1965. Т. 163, №4. - С. 845-848.

42. Ли, У. Методы автоматического распознавания речи: пер. с англ. -М.:Мир, 1983.- 328 с.

43. Миркес, Е.М. Учебное пособие по курсу нейроинформатика/Е.М. Миркес. Красноярск: ИПЦ КГТУ, 2002. - 347 с.

44. Моттль, В.В. Скрытые марковские модели в структурном анализе сигналов/В.В. Моттль, И.Б. Мучник. -М.:Физматлит, 1999. 352 с.

45. Назаров, М.В. Методы цифровой обработки и передачи речевых сигналов/М.В. Назаров, Ю.Н. Прохоров. М.:Радио и связь, 1985. -176 с.

46. Нейроинформатика/А.Н. Горбань, B.JT. Дунин-Барковский, А.Н. Кардин и др. Новосибирск:Наука, 1998. - 296 с.

47. Новиков, J1.B. Основы вейвлет-анализа сигналов/JT.B. Новиков. -СПб.: СПбГТУ, 1999. 152 с.

48. О некоторых подходах к проблеме компьютерного распознавания устной русской речи/О.А. Дорохин, А.В. Засыпкин, Н.А. Червин и др. //Знания-Диалог-Решение:сб. науч. тр. междунар. конф. Ялта, 1997. -Т.1. - С.234-240.

49. Оппенгейм, Э. Применение цифровой обработки сигналов:пер. с англ./Э. Оппенгейм. М.:Мир, 1980. - 550 с.

50. Петухов, А.П. Введение в теорию базисов всплесков/А.П. Петухов. -СПб.: СПбГТУ, 1999. 132 с.

51. Поликар, Р. Введение в вейвлет преобразование/Р. Поликар. - СПб.: АВТЭКС, 1999,- 259 с.

52. Поршнев, С.В. Matlab 7: Основы работы и программирования/С.В. Поршнев. М.:Бином, 2006. - 319 с.

53. Потапова, Р.К. Речь: коммуникация, информация, кибернетика/Р.К. Потапова. М.:Едиториал УРСС, 2003. - 568 с.

54. Потемкин, В. Введение в MATLAB/B. Потемкин. М.Диалог-МИФИ, 2000.-247 с.

55. Рабинер, Л. Теория и применение цифровой обработки сигналов:пер. с англ./Л. Рабинер, Б. Гоулд .- М.:Мир, 1978. 834 с.

56. Рабинер, JI.Р. Цифровая обработка речевых сигналов: пер. с англ./Л.Р. Рабинер, Р.В. Шафер; под ред. М.В Назарова, Ю.Н. Прохорова. -М.:Радио и связь, 1981. 496 с.

57. Ракуш, В. В. Алгоритмы распознавания изолированных слов на основе скрытых Марковских моделей/В.В. Ракуш, А.С. Рылов //Вопросы криминологии, криминалистики и судебной экспертизы: сб. науч.тр.- Минск, 1998. Вып.13,- С. 234-238.

58. Распознавание речи/К. Асаи, В. Дзюндзо, И. Сокуке и др.// Прикладные нечёткие системы; под ред. Т. Тэрано, К. Асаи, М. Сугено. -М.:Мир, 1993.-С. 157- 170.

59. Ронжин, А.Л. Система распознавания русской речи SIRIUS/А.Л. Ронжин, А.А. Карпов, И.В. Ли; С.-Петерб. ин-т информатики и автоматизации РАН. СПб., 2005. - 112 с.

60. Секунов, Н. Обработка звука на РС/Н. Секунов. СПб.:БХВ-Петербург, 2001.- 1238 с.

61. Сергиенко, А. Цифровая обработка сигналов/А. Сергиенко. СПб.: Питер, 2005. - 608 с.

62. Системы искусственного интеллекта: сб. студ. науч. ст./отв. ред. Г.С. Кирякова. Красноярск: ИПЦ КГТУ, 2002. - 112 с.

63. Смоленцев, Н.К. Основы теории вейвлетов. Вейвлеты в Matlab/H.K. Смоленцев. М.:ДМК Пресс, 2005. - 304 с.

64. Теория статистики с основами теории вероятностей/И.И. Елисеева, B.C. Князевский, Л.И. Ниворожкина и др. М.ЮНИТИ, 2001.- 446 с.

65. Трубецкой, Н. С. Основы фонологии/Н.С. Трубецкой. М.:Аспект пресс, 2000. - 352 с.

66. Уоссермен, Ф. Нейрокомпьютерная техника: Теория и практика:пер. с англ./Ф. Уоссермен. М.: Мир, 1992. - 105 с.

67. Хайкин, С. Нейронные сети: полный курс/С. Хайкин. М.:Вильямс, 2005.- 1104 с.

68. Цифровая обработка сигналов и ее применение: IV междунар. конф. -М.:МЦТНТИ, 2002.-291 с.

69. Чекмарев, А. Речевые технологии проблемы и перспективы/А. Чекмарев// Компьютера. - 1997. - №49. - С. 26-43.

70. Чуй, К. Введение в вэйвлеты/К. Чуй. М. :Мир, 2001. - 412 с

71. Шмелева, А. Правда о распознавании речи/А. Шмелева// Компьютерпресс. 1998. - №1.- С.306-316.

72. Ярцева, В.Н. Большой энциклопедический словарь. Языкознание/В.Н. Ярцева; 2-ое изд. -М.:Большая Российская Энциклопедия, 1998. 685 с.

73. Allen, L. Scripting for Dragon NaturallySpeaking 9/L. Allen. San Francisco: SoftNet Systems Inc, 2006. - 130 p.

74. Bett, S. The number of phonemes in English/S. Bett // J. of the Simplified Spelling Society. 2002. - №1. - P. 8-13.

75. Coghill, J. English Grammar/J. Coghill, S. Magedanz. Indianapolis: Wiley, 2003.-313 p.

76. Cohen, M.H. Voice user interface design/M.H. Cohen, J.P. Giagola, J. Balogh. Redwood City: Addison Wesley Longman Publishing, 2004. -336 c.

77. Davis, G.M. Noise reduction in speech applications/G.M. Davis. -Washington: CRC Press, 2002. 432 p.

78. Esling, J. Handbook of the international phonetic association. A guide to the use of the international phonetic alphabet. Cambridge:Cambridge Univ. Press, 2003.-216 p.

79. Fundamentals of Wavelets: theory, algorithms, and applications/C. Jaideva, C. Goswami, K. Andrew et al. Indianapolis:Wiley-Intersci. Publ., 1999.-306 p.

80. Furui, S. Advances in speech signal processing/S. Furui, M.M. Sandhi. -New York: Marcel Dekker, 1996. 416 p.

81. Furui, S. Toward spontaneous speech recognition and understanding / S. Furui. New York: CRC Press, 2003. - 43 p.

82. Gale, Т. I VOICE launches i Voice speech software developers kit v.3.0 / T. Gale. Boynton Beach: Worldwide Videotex, 2003. - 7 p.

83. Haffner, P. Multi-state time delay neural networks for continuous speech recognition//Advances in neural information processing system/P. Haffner, A. Waibel. San Mateo:Morgan Kaufmann Publ., 1992. - Vol. 4. - P. 579588.

84. Heht-Nielsen, R. Theory of the backpropagation neural network/R. Heht-Nielsen//Neural networks for human and mashine perception; Ed. H.Wechsler. Boston: Acad. Press, 1992. - № 2. - P. 65 - 93.

85. Hori, C. A statistical approach to automatic speech summarization/C. Hori, R. Furui, H. Malkin, A. Waibel//J. Appl. Signal Processing. 2003. - № 2.-P. 128-139.

86. Hosom, J.P. Speech recognition using neural networks at the center for spoken language understanding/J.P. Hosom, R. Cole, M. Fanty//Center for Spoken Language Understanding. Portland:Oregon Graduate Inst, of Sci. andTechnol., 1999.-P. 5-20.

87. Huang, X. Spoken language processing, A guide to theory, algorithm and system development/X. Huang, A. Acero, H. Hon. NY: Prentice Hall PTR, 2001.-960 p.

88. Kammerer, B. Experiments for isolated-word recognition with single and multi-layer perceptron/B. Kammerer, W. Kupper//Abstracts of 1-st annual INNS meeting. Boston, 1988. - P. 693 - 706.

89. Kanal, K.M. Initial evaluation of a continuous speech recognition program for radiology/K.M. Kanal, N.J. Hangiandreou, A.M. Sykes et al. // J. of Digital Imaging. 2002. - № 14. - P. 30-37.

90. Minker, W. Speech and human-machine dialog/W. Minker. London: Kluwer Acad. Publ., 2004. - 93 p.

91. Mossberg, W. A phone that takes dictation: testing voice-to-text function/ W. Mossberg // The Wall Street J. 2005. - №4. - P. 4.

92. Phoneme recognition: Neural networks vs. hidden Markov Models/A. Waibel, T. Hanazawa, G. Hinton et al.//ICASSP 88: Int. Conf. Acoust. Speech and Signal Process. New York City, 1988. - V.5, №1. - P. 107110.

93. Portnoff, M.R. Time-frequency representation of digital signals and systems based on short-time Fourier analysis/ M. R. Portnoff// IEEE Transactions on Acoustic, Speech, and Signal Processing. 1980. - Vol. 28. - P. 55-69.

94. Rabiner, L. Fundamentals of speech recognition/L. Rabiner, B. Juang. -New Jersey: Prentice Hall, Eaglewood Cliffs, 1993. 507 p.

95. Regis, J. Voice & data communications handbook/J. Regis, 'Bud' Bates, W. Donald. Emeryville: McGraw-Hill Osborne Media, 2001. - 1032 p.

96. Ronzhin, R. Survey of russian speech recognition systems/R. Ronzhin, I. Vusupov, A. Leontieva// In Proc. of 11-th International Conference SPECOM'2006. St. Petersburg, 2006. - P. 54-60.

97. Sweldens, W. Wavelets: What next?/W. Sweldens//Proc. IEEE. 1996. -Vol. 84.-P. 680.

98. Tebelskis, J. Speech recognition using neural networks/J. Tebelskis. -Pittsburgh:School of Computer Science, Carnegie Mellon University, 1995.- 180 p.