автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Модели и программная реализация распознавания русской речи на основе морфемного анализа

кандидата технических наук
Карпов, Алексей Анатольевич
город
Санкт-Петербург
год
2007
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и программная реализация распознавания русской речи на основе морфемного анализа»

Автореферат диссертации по теме "Модели и программная реализация распознавания русской речи на основе морфемного анализа"

ии30532В1

На правах рукописи"-""'

КАРПОВ Алексей Анатольевич

МОДЕЛИ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ НА ОСНОВЕ МОРФЕМНОГО АНАЛИЗА

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2007

003053261

Работа выполнена в Санкт-Петербургском институте информатики и автоматизации РАН.

Научный руководитель: кандидат технических наук

Официальные оппоненты: доктор технических наук, профессор

доктор технических наук, профессор

Ведущая организация: Центральный научно-исследовательский институт робототехники и технической кибернетики (ЦНИИ РТК)

Защита состоится « 6 » марта 2007 г. в 14:00 часов на заседании диссертационного совета Д.002.199.01 при Санкт-Петербургском институте информатики и автоматизации РАН по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского института информатики и автоматизации РАН

Автореферат разослан « 1 » февраля 2007 г.

Ученый секретарь

диссертационного совета Д.002.199.01 '

Ронжин Андрей Леонидович

Ронжин Андрей Леонидович

Соколов Борис Владимирович Геппенер Владимир Владимирович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Вопросами автоматического распознавания речи ученые стали заниматься с момента появления первых компьютеров, поскольку текстовый интерфейс взаимодействия с ЭВМ не обеспечивал приемлемой скорости и естественности работы. За годы исследований был разработан широкий спектр методов и компьютерных программ, направленных на решение проблем распознавания речи.

Сегодня получены многообещающие результаты и созданы действующие коммерческие системы, в основном, для английского языка, а также испанского, французского, японского, китайского и арабских языков. Это во многом связано с экономическими и политическими аспектами развития речевых технологий. Например, английский язык является наиболее распространенным и поэтому инвестиции в развитие технологий для обработки английской речи окупились достаточно быстро. В то же время речевым технологиям других языков уделяется недостаточно внимания, вследствие чего развитие этих технологий несколько сдерживается.

Между тем, русский язык является одним из самых популярных языков мира, на нем говорит свыше двадцати процентов населения Европы. Несмотря на это, действующих систем автоматического распознавания русской слитной речи фактически не существует. Кроме экономических проблем, на развитие Российских речевых технологий, в первую очередь, влияют особенности русского языка и речи, вызывающие сложности в процессе обработки. Основные из них: отсутствие строгих грамматических конструкций построения предложений, а также многочисленные правила словообразования, фонетического представления слов и расстановки ударений с большим количеством исключений.

Для оценки эффективности разрабатываемых систем автоматического распознавания речи применяют много показателей, интегральными же критериями оценки производительности таких систем служат точность распознавания речи (звуков, слов или фраз) и скорость обработки речевого сигнала. В идеальном случае система должна обеспечивать практически 100% точность распознавания речи при мгновенном выводе результата. Тем не менее, учитывая ограниченные возможности существующих вычислительных ресурсов при решении таких сложных интеллектуальных задач как автоматическое распознавание речи человека, приходится находить компромисс между точностью и скоростью обработки.

Для улучшения характеристик распознавания русской слитной речи (в первую очередь скорости обработки), в диссертации предложен дополнительный морфемный уровень описания языка и речи, который вводится в каждый из двух этапов функционирования модели: обучение и распознавание. При этом за счет декомпозиции слов на морфемы обеспечивается акустико-лексическое моделирование большого количества

словоформ языка при существенном сокращении размера словаря распознавания, что позволяет улучшить производительность и другие характеристики модели распознавания русской речи. Данный подход может быть также успешно использован и для других синтетических языков, например славянских языков (чешский, польский, украинский, и т.д.), имеющих сходные с русским языком механизмы словообразования.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка модели дикторонезависимого распознавания русской слитной речи с большим словарем, которая обеспечивает ускорение процесса обработки речи при сохранении точности распознавания. Для достижения поставленной цели в ходе диссертационной работы поставлены и решены следующие задачи:

1. Анализ подходов к распознаванию английской и русской речи.

2. Выбор языковых единиц, наиболее подходящих для распознавания русской речи с большим словарем.

3. Разработка методов для модели обучения распознавателя русской речи, учитывающего специфику и морфологические особенности русского языка.

4. Разработка методов для модели распознавания русской речи с морфемным уровнем обработки языка и речи.

Методы исследования. Для решения поставленных задач в работе используются методы теории информации, теории множеств, методы теории вероятности, экспертного и статистического анализа. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Положения, выносимые на защиту:

1. Модель обучения распознавателя русской речи с морфемным представлением распознаваемого словаря и модели языка.

2. Модель распознавания русской речи с морфемным уровнем обработки языка и речи.

3. Программная реализация модели дикторонезависимого распознавания русской слитной речи с большим словарем.

Научная новизна работы состоит в следующем:

1. Разработана модель обучения распознавателя русской речи, включающая создание акустических моделей русских фонем, декомпозицию словоформ языка и создание словаря языковых единиц размером меньше слова (морфем), а также морфемной статистической модели языка прикладной области.

2. Разработана модель автоматического распознавания слитной русской речи, учитывающая механизмы словообразования и морфологические характеристики лексики русского языка и позволяющая существенно ускорить процесс распознавания за счет сокращения размера словаря.

3. Создана программная реализация распознавателя русской слитной речи с большим словарем SIRIUS, содержащая морфемный уровень обработки.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет тщательного анализа состояния исследований в данной области, корректностью предложенных моделей, алгоритмов и результатов, полученных при компьютерной реализации, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные модели и программные средства направлены на разрешение проблемы распознавания русской речи с большим словарем, возникающую из-за многочисленных морфологических характеристик русского языка.

Предложенная модель обучения морфемного распознавателя русской речи позволяет на выходе получить три основных компонента, необходимых для функционирования модели распознавания: морфемный словарь с фонетическими транскрипциями, статистическую морфемную модель языка предметной области и модели акустических фонетических единиц речи. Причем, за счет введения в модель уровня морфемного представления сокращается размер распознаваемого словаря, так как в процессе словоизменения часто используются одни и те же морфемы, а также обеспечивается более полное покрытие пространства слов языка.

Разработанная модель распознавания речи, основанная на стохастическом моделировании речи посредством скрытых Марковских моделей и статистическом n-граммном м оделировании языка предметной области с введением дополнительного уровня морфемного распознавания и синтеза слов, позволяет производить процесс распознавания с приемлемой точностью, обеспечив при этом значительный рост скорости обработки и устойчивости к синтаксическим отклонениям произнесенной фразы в ходе человеко-машинного взаимодействия по сравнению с традиционной целословной моделью распознавания речи.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: ЕС FP6-IST-2002-507609 SIMILAR Network of Excellence «The European taskforce creating human-machine interfaces SIMILAR to human-human communication»; 1NTAS № 04-77-7404 «Development of multi-voice and multi-language Text-to-Speech (TTS) and Speech-to-Text (STT) conversion system (languages: Belarussian, Polish, Russian)» и INTAS № 05-1000007-426 «Introduction of the automatic Russian speech récognition system SIRIUS in télécommunications»; ОИТВС РАН № 4.2 «Разработка методов статистической обработки речи для дикторонезависимых инфотелекоммуникационных приложений»; СПб НЦ РАН № М06-2.1К-29 «Разработка методов и программного обеспечения для

дикторонезависимого распознавания русской речи с большим словарем». Кроме того, результаты диссертационной работы использованы при разработке средств голосового доступа к рубрикатору электронного справочного каталога «Желтые Страницы» в рамках инновационного проекта совместно с компанией «NewVoice».

Апробация результатов работы. Основные положения и результаты диссертационной работы представлялись на Международных конференциях: «Interspeech - ICS LP 2006» (США, 2006); «Европейской конференции по обработке сигналов» EUSIPCO (Италия, 2006; Турция, 2005); «Intelligent Information Processing and Web Mining» (Польша, 2005); «Интеллектуальные многопроцессорные системы. Искусственный интеллект» (Украина, 2006; Россия, 2005); «Речь и Компьютер» SPECOM (Санкт-Петербург, 2006, 2004, 2002; Греция, 2005; Москва, 2003).

Публикации. Основные результаты по материалам диссертационной работы опубликованы в 24 печатных работах, в том числе в трех журналах ВАК («Известия ТРТУ», «Известия вузов. Приборостроение» и «Pattern Récognition and Image Analysis») и монографии серии «Информатика: неограниченные возможности и возможные ограничения» издательства «Наука».

Структура и объем работы. Диссертация объемом 129 машинописных страниц содержит введение, четыре главы и заключение, список литературы (121 наименование), 8 таблиц, 44 рисунка.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована важность и актуальность развития российских речевых технологий, сформулированы цели диссертационной работы и решаемые задачи, определяется научная новизна работы и ее практическая значимость, кратко описаны разработанные методы и алгоритмы, а также основные результаты реализации модели дикторонезависимого распознавания русской слитной речи с большим словарем.

В первой главе диссертации представлен анализ состояния дел в области автоматического распознавания речи в целом, а также русской речи, в частности. При решении задачи распознавания речи необходимо принимать во внимание множество факторов. В первую очередь, параметры микрофона и окружающей акустической обстановки, диалектные и индивидуальные вариации в речи, тип ввода речи (слитный/изолированный), лексические ограничения предметной области и т.д. В настоящее время ведущие системы стремятся обеспечить дикторонезависимое распознавание слитной речи с большим словарем в реальном масштабе времени.

Анализ последних обзорных публикаций показал, что большинство систем автоматического распознавания речи строятся на основе нескольких подходов: скрытых Марковских моделей (СММ), искусственных нейронных сетей и сравнения речевых образов методом динамического программирования. Причем подход на основе СММ доминирует, так как

обеспечивает дикторонезависимость и обработку слитной речи при достаточной проработанности математического аппарата. Приводится описание базовой архитектуры дикторонезависимого распознавания слитной речи, которая использует аппарат непрерывных СММ, начало которому было положено начале 20 века петербургским профессором А.А. Марковым. Обоснована необходимость моделирования и обучения дикторонезависимых акустических моделей фонем при распознавании речи с большим словарем (начиная от тысяч слов). Также представлены наиболее популярные методы для создания моделей языка, основанные на статистических п-граммных моделях, предложенных в середине 1980 гг. Ф. Джелинеком и грамматических правилах. Приводится описание способа объединения акустико-фонетических моделей слов с языковой моделью и представлен метод передачи маркеров (token passing) по состояниям объединенной модели, позволяющий производить распознавание слитной речи.

Представлен обзор методов и технологий, применяемых для распознавания русского языка. Приводятся технические показатели исследовательских моделей распознавания речи со времени первых советских систем распознавания с начала 40-х годов по настоящее время. Отмечается, что сейчас не существует готовых к использованию систем дикторонезависимого распознавания русской речи с большим словарем. Немногочисленные попытки выпустить такие системы на рынок быстро проваливались из-за невысокой надежности этих систем. Проблема тут видится в том, что они недостаточно учитывали специфику русского языка, а пытались напрямую применить типовые подходы, неплохо зарекомендовавшие себя для английского языка.

Таким образом, анализ моделей и существующих подходов к распознаванию русской речи показал, что проблема еще далека от своего решения и необходимы более глубокие исследования структуры языка для реализации работоспособных автоматических систем. Поэтому в диссертации предлагаются методы, специально ориентированные на обработку русского языка и речи, а также некоторые модифицированные стандартные подходы к распознаванию речи.

Во второй главе приводится описание модели обучения распознавателя русской речи с применением морфемного представления слов русского языка и модели языка.

В начале главы описываются особенности разработки модели распознавания русской речи. Отмечается, что в отличие от английского или французского языков, русский язык обладает развитой системой словоизменения, а как следствие резко увеличивается общее количество словоформ языка и размер распознаваемого словаря, что приводит к падению точности и скорость распознавания. Поэтому для решения данной проблемы в общепринятую архитектуру распознавания речи вводится дополнительный уровень морфемной обработки языка и речи. Это позволяет

сократить размер распознаваемого словаря и улучшить производительность системы.

Приводится описание модели обучения распознавателя русской речи с включением морфемного анализа языка. Для обучения акустико-лексических единиц русской речи разработана модель, архитектура которой представлена на рисунке 1.

Рис. 1. Архитектура модели обучения распознавателя русской речи

Работа модели обучения осуществляется в несколько этапов, первый из которых выполняется с привлечением разработчиков и экспертов предметной области, а остальные этапы, связанные с обработкой текста, автоматизированы:

1) Подготовка баз данных предметной области (текстовых и речевых корпусов).

2) Декомпозиция слов предметной области на морфемы.

3) Создание статистической морфемной модели языка.

4) Фонетическое преобразование текстов предметной области.

5) Создание морфемного словаря.

6) Обучение акустических моделей фонем.

На выходе модели обучения создаются: морфемный словарь М с фонетическими транскрипциями, морфемная модель языка прикладной области ЬМ и набор СММ акустико-фонетических единиц речи Я.

Для разделения всех слов и текстов предметной области на морфемы автором был разработан алгоритм, использующий электронные базы данных морфем русского языка и морфологический словарь. Обычно в русском языке выделяют 6 позиционных типов морфем: префикс (префикс), корень, интерфикс, суффикс, окончание, постфикс. Были проведены эксперименты С несколькими вариантами разбиения слов на морфемы (или псевдоморфемы) и наилучшие результаты получены при разбиении слов максимально на три последовательные части: приставка, корень, концовка (псевдоокончание). Причем, концовкой в данном контексте может являться последовательность суффикса (суффиксов), окончания (флексии) и постфикса (-ся, -сь и т.д.). Процесс декомпозиции словоформы в цепочку морфем в общем случае может быть представлен следующим образом:

/>:м>,->£(м>,) = т„...,1яг, от, е ./ ,

где И является функцией декомпозиции слова , из текста Т в цепочку морфем от из словаря морфем языка J.

Суть алгоритма разделения слов на морфемные лексические единицы заключается в следующем:

а) определение основы слова и его частеречной принадлежности, используя доступные в электронном виде морфологические базы данных словоформ языка.

б) часть слова, которая следует после основы, считается концовкой слова и является самостоятельной морфемой. В случае нулевого окончания в слове, оно не учитывается и не является морфемой.

в) основа слова делится на две части (приставку и корень), используя базы данных корней и приставок русского языка (с указанием частей речи, для которых они применимы).

Например, слово «переключитесь» разбивается в модели на 3 морфемы: «пере» (приставка), «ключ» (корень) и «итесь» (концовка).

На основе анализа обучающих текстов соз дается морфемная модель языка. Используется статистическая п-граммная модель, где языковыми единицами являются не слова, а морфемы. Ранее проводились исследования, которые показали низкую эффективность длинных цепочек слов п-граммных языковых моделей, так как в русском языке наблюдается практически свободный порядок слов и учет истории слов во фразе недостаточно эффективен, поэтому иногда применяют модели со свободным порядком слов. Используемая же в работе п-граммная морфемная модель позволяет учесть порядок стыковки морфем и правила словообразования и в то же время не задает жестких ограничений на порядок следования слов во фразе.

При этом формула вычисления вероятности составления фразы из цепочки распознанных морфем принимает следующий вид:

V

Р(Рк) = П | т,_„+1, 1и,_„+1,..., т,_,),

(=1

где каждое слово м» из фразы РИ разделено на ряд морфем т посредством функции й(у>), V — общее число морфем во фразе. Для используемой биграммной модели языка данная формула может быть записана следующим образом:

Р(Щ = -¡¿Щр(тг I «и-.^Км I ту_2)...Р(т2 К),

где М(РИ) является функцией нормализации по длине фразы.

Модель языка может оцениваться рядом параметров: количество лексических единиц в модели (размер словаря), процент покрытия текста (ои1-о1-УосаЬи1агу) в тестовом материале, коэффициент неопределенности и т.д. Рисунок 2 показывает сравнение моделей языка, основанных на различных языковых единицах (словах, морфемах, слогах) по количеству таких единиц в словаре распознавания и проценту непокрытых слов в тестовом материале.

300

0 5 10

объем текста, млн. слов

0 100 200 объем словаря, тью. единиц

-Морфемы

Словоформы

-Слоги

Рис. 2. Показатели размера словаря (слева) и процента непокрытия слов

текста (справа)

Для получения данных результатов был обработан корпус текстов художественной литературы электронной библиотеки. Для разделения слов на морфемы, применялся алгоритм, описанный выше, а для членения слов на слоги была разработана процедура, использующая принцип восходящей звучности, при котором звуки в слоге располагаются от наименее к наиболее

звучному. Анализ приведенных графиков показывает, что чем меньше размер используемых языковых единиц, тем меньше их встречается в языке и тем более полно они покрывают пространство слов языка. Так, например, цепочки морфем могут образовывать правильные словоформы, которых не было в словаре распознаваемых слов. Процент же непокрытых слов как раз учитывает слова, которые встречаются в тестовом материале, но не встречаются в обучающих текстах и поэтому не могут быть распознаны моделью. Приведенные графики показывают преимущество слоговой и морфемной моделей языка перед целословной по данным показателям.

Моделирование речи с большим словарем распознавания должно вестись по фонемам (звукам), так как практически невозможно собрать акустический материал для надежного обучения дикторонезависимых целословных акустических моделей. Поэтому все слова разбиваются на цепочки фонем и обучаются СММ для каждой фонемы. При этом в обучающем материале произнесение каждой фонемы должно встречаться тысячи раз для разных дикторов, что необходимо для создания дикторонезависимых СММ. В работе автором предложено использовать набор из 48 фонем русского языка: 12 для гласных (включая ударные и безударные варианты) и 36 для согласных (включая мягкие и твердые варианты). Примененный фонетический алфавит отличается от международных фонетических русских алфавитов (например, SAMP А) тем, что учитывает ударные и безударные варианты гласных звуков, которые хорошо различимы на слух. В русском языке слова произносятся обычно не так как они пишутся, поэтому необходимо преобразование "буква->фонема". Для преобразования обучающий текст предварительно обрабатывается и в словах помечаются ударения, после чего применяется процедура фонетического (фонематического) транскрибирования, которая заключается в последовательном применении правил для позиционных изменений согласных звуков, изменения гласных звуков под ударением и безударных гласных в предударных и заударных слогах, а также изменения сочетаний согласных.

На этапе обучения акустических единиц речи, используя алгоритм Витерби, сегментируются речевые записи из базы данных и на их основе переобучаются параметры СММ фонем. Процедура переоценки параметров выполняется итеративно, используя на каждом шаге значения параметров модели, полученные на предыдущем шаге. Выполнение процедуры переоценки продолжается до тех пор, пока не будет достигнута некоторая предельная точка по критерию максимума правдоподобия СММ. На выходе модуля обучения СММ акустических единиц создаются модели фонем, моделируя, таким образом, голос «среднего» диктора (или нескольких кластеров) и возможные отклонения по каждому из параметров.

Таким образом, для более адекватного моделирования русского языка и речи в модель распознавания был введен дополнительный уровень -

морфемный. За счет разделения словоформ языка предметной области на морфемы словарь распознаваемых лексических единиц значительно сокращается, так как в процессе словообразования часто используются одни и те же морфемы.

Третья глава описывает разработанную автором модель распознавания русской слитной речи с большим словарем, имеющую морфемный уровень обработки. Архитектура модели представлена на рисунке 3. На рисунке выделены уровни обработки речи, которые претерпели изменения по сравнению с архитектурой распознавания слитной речи.

Рис. 3. Архитектура морфемной модели распознавания речи

Уровень распознавания фонем не претерпел изменений по сравнению с базовой моделью, здесь используется метод передачи маркеров. Однако далее в методе модели фонем объединяются не в модели слов, а в модели морфем. После распознавания цепочек фонем и подбора наиболее вероятных цепочек морфем получившаяся лучшая гипотеза (или набор из нескольких лучших гипотез) используется далее для формирования цепочек слов. Этот процесс может быть представлен как функция композиции (синтеза)

цепочки распознанных морфем М = тит2,...т0 Во фразу IV, состоящую из К слов:

У:М IV = и\,м12,...,м>к .

На рисунке 4 приведен алгоритм синтеза цепочки слов (гипотезы фразы) из цепочки распознанных морфем т количеством £>.

Основной проблемой является нахождение границ слов в потоке морфем, т.е. нахождение морфем, которые являются последними морфемами слов, за которыми нужно поставить разделитель (пробел) во фразе. В цикле производится проверка каждой морфемы из гипотезы в соответствии со следующим условием:

= граничнморфема, (т, е Бтот) V (т, е Бкорн л тм е 5ко/)„) V (тм е 8„рист) [нет, иначе '

где 30К0НЧ - множество концовок, Бкор„ - множество корневых морфем и Зприст- множество префиксов языка предметной области. Причем множества на этапе обучения выбираются таким образом, что подчиняются условию:

^прист ^ ^корн ^ ^оконч ^ '

Когда найдена граничная (последняя) морфема в синтезируемом слове, после него ставится разделитель и продолжается обработка оставшейся части морфемного потока. Преимуществом предложенной модели синтеза слов является ее скорость, так как в данном случае для определения границ слов достаточно информации, содержащейся в самой гипотезе фразы.

Рис. 4. Алгоритм композиции слов из потока морфем

На выходе распознавателя слитной речи выдается гипотеза фразы, представляющая собой цепочку слов с разделителями между словами, которая затем может использоваться в системе понимания речи для определения смысла фразы.

Таким образом, представленная в третьей главе модель распознавания русской речи опирается на морфемный анализ, используя морфемную

модель языка и лексический словарь. Результаты экспериментов с моделью распознавания для прикладной задачи приведены в следующей главе.

В четвертой главе приводятся данные по реализации разработанных алгоритмов в экспериментально-исследовательских моделях, использующих слитный ввод русской речи. М одели обучения и распознавания, а также модули для записи речевых баз данных и анализа результатов распознавания собраны в единый программный комплекс, получивший название SIRIUS (SPIIRAS Interface for Recognition and Integral Understanding of Speech). Ha основе этого комплекса разработаны: модель голосового доступа к рубрикатору электронного каталога "Желтые Страницы Санкт-Петербурга" и модель бесконтактного управления компьютером.

Общее количество рубрик в модели голосового доступа составляет 2050 (например, «Институты академии наук» или «Рестораны французской кухни»), размер словаря слов в данной задаче 1850, а при разбиении всех слов на морфемы размер словаря сокращается до 1360. Для работы с моделью были записаны 25 голосов дикторов (в возрасте от 20 до 29 лет), каждый из дикторов произнес по 500 фраз из данной предметной области. Все файлы 20-ти дикторов использовались для задачи обучения модели и 5-ти оставшихся дикторов для тестирования модели распознавания.

На рисунке 5 приводится результат сравнения четырех моделей распознавания (целословного (1), морфемного (2), слогового (3) и фонемного (4) распознавания речи) по двум основным критериям: точности и времени распознавания. Для целословной и морфемной модели приведены (рисунок 5, слева) точность распознавания фонем (столбец 1), точность распознавания слов (столбец 2) и точность распознавания фраз (столбец 3). Точность распознавания слов для слоговой и фонемной модели посчитать затруднительно, так как неизвестно алгоритма однозначного членения распознанной цепочки слогов (или фонем) на слова. Границы слов для морфемной модели распознавания проставляются по принципу, который был описан в третьей главе.

Рис. 5. Сравнение моделей по точности и времени распознавания

Были проанализированы результаты и ошибки распознавания речи при применении морфемной модели распознавания. Оказалось, что наиболее частой причиной ошибок является неправильное распознавание концовок словоформ (в рамках одной и той же лексемы), которые произносятся обычно не так чётко как начала, а ошибки при распознавании слов приводят к тому, что происходит ошибка в распознавании всей фразы из-за несогласованности слов. Поэтому была модифицирована модель морфемного распознавания, не учитывающая при распознавании концовки, а принимающая во внимание только приставки и корни. Это возможно сделать, так как в данной задаче искажение концовки слова не приводит к искажению смысла фразы (в отличие от приставок и корней).

Такая модификация алгоритма распознавания позволила повысить точность распознавания фраз по сравнению с базовой морфемной моделью с 84.2% до 90.1% (относительное улучшение составило 7%) и практически достичь по этому показателю уровня целословной системы распознавания речи. При этом морфемная модель распознавания функционирует значительно быстрее целословной (см. рисунок 5 справа). Средняя длина фразы по всем тестовым файлам составила 1.7 с. (принимается равным реальному времени - RT), таким образом, скорость обработки речи при пословной модели распознавания равняется 2.24 RT (real-time factor), а при применении морфемной модели распознавания 1.28 RT, таким образом, улучшение составило 75%. При вводе же сигнала с микрофона задержка между окончанием ввода фразы и реакцией (ответом) модели распознавания составляет примерно 0.3 RT или 0.5 е., что является приемлемым для диалоговых системах.

Кроме того, в рамках Европейского научного сообщества SIMILAR на базе программных средств SIRIUS реализована многомодальная модель для бесконтактного управления компьютером, предназначенная, в основном, для помощи людям, имеющим проблемы с двигательными функциями рук или же вообще без рук. Вместо клавиатуры и мыши для управления графическим интерфейсом здесь используется голосовой ввод и движения головой. В 2006 году эта многомодальная модель получила первый приз на Международном конкурсе многомодальных интерфейсов Loco Mummy Contest в Брюсселе.

Таким образом, с помощью предложенных и разработанных в диссертационной работе моделей и программного обеспечения были созданы эффективные средства человеко-машинного взаимодействия с речевым вводом. Применение морфемного уровня представления русского языка и речи позволило повысить скорость обработки в задачах распознавания русской речи с большим словарем, практически не ухудшив при этом точность распознавания.

ЗАКЛЮЧЕНИЕ

В результате диссертационной работы были разработаны модели, предназначенные для обработки русской слитной речи на различных уровнях и предложен подход к распознаванию, использующий морфемный уровень представления русского языка и речи, что позволяет значительно сократить количество распознаваемых языковых единиц в модели и за счет этого повысить скорость обработки, сохранив при этом приемлемую точность распознавания.

Предложены модели обучения распознавателя речи и дикторонезависимого распознавания русской слитной речи. Модель обучения позволяет создать статистическую морфемную модель языка прикладной области, морфемный словарь с фонетическими транскрипциями и акустико-фонетические модели русской речи. Эти базы данных необходимы для функционирования модели распознавания, которая содержит морфемный уровень представления русского языка и речи, и позволяет производить распознавание речи по морфемным единицам с последующим синтезом гипотез слов и фраз из цепочек морфем.

В ходе экспериментов морфемная модель сравнивалась с целословной, слоговой и фонемной моделями и показала оптимальные результаты по критериям точности распознавания и времени обработки. Также оценка моделей языка показала преимущество морфемной модели перед целословной.

Модели обучения и распознавания объединены в программную реализацию SIRIUS, позволяющую производить дикторонезависимое распознавание русской слитной речи с большим словарем. На базе данной реализации разработаны прикладные модели для голосового доступа к справочному электронному каталогу и многомодальная модель для бесконтактного управления компьютером. Разработанные в диссертационной работе методы, модели и программные средства будут использованы в дальнейшем при создании интеллектуальных приложений человеко-машинного речевого и многомодального взаимодействия.

ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ В

РАБОТАХ

В рецензируемых журналах из списка ВАК:

1. Карпов, A.A. SIRIUS - система дикторонезависимого распознавания слитной русской речи / A.A. Карпов, A.JI. Ронжин, И.В. Ли // Известия ТРТУ, № 10, 2005. - С. 44-53.

2. Карпов, A.A. Многомодальные интерфейсы в автоматизированных системах управления / A.A. Карпов, A.JI. Ронжин. // Известия вузов. Приборостроение, Т. 48, № 7, 2005. - С. 9-14.

3. Karpov, A.A. Russian Voice Interface / A.L. Ronzhin, A.A. Karpov // Pattern Recognition and Image Analysis, T. 15, № 2,2005. - C. 432-434.

В других изданиях:

4. Karpov, A. Robust Speech Understanding for a Voice Control System / Yu. Kosarev [et al.] // Proc. of 7-th International Workshop SPECOM'2002, St.Petersburg: "Evropeiski Dom", 2002. - pp. 13-18.

5. Karpov, A. Elaboration of the intellectual speech interface provided accuracy, robustness and adaptability / A. Ronzhin [et al.] // Proc. of 8-th International Workshop SPECOM'2003, Moscow, 2003. - pp. 231-236.

6. Карпов, A.A. Робастный метод определения границ речи на основе спектральной энтропии / A.A. Карпов // Искусственный интеллект,-Донецк, Украина, № 4. 2004. - С. 607-613.

7. Карпов, A.A. Речевые технологии в многомодальных интерфейсах / А.А.Карпов [и др.] // Труды СПИИРАН. Вып. 2, т.1 — СПб: СПИИРАН, 2004. - С. 183-193.

8. Karpov, A.A. Implementation of morphemic analysis for Russian speech recognition / A.L. Ronzhin, A.A. Karpov // Proc. of 9-th International Conference SPECOM'2004, St. Petersburg: "Anatoliya", 2004, pp. 291-296.

9. Карпов, A.A. Разработка и применение системы распознавания слитной русской речи / A.J1. Ронжин, A.A. Карпов, И.В. Ли // Интегральное моделирование звуковой формы естественных языков: Сборник статей. - СПб.: Институт филологических исследований, 2005. — С. 12-19.

10. Карпов, A.A. Система автоматического распознавания русской речи SIRIUS / А.Л. Ронжин, A.A. Карпов, И.В. Ли // Научно-теоретический журнал «Искусственный интеллект», № 3.— Донецк, Украина, 2005. — С. 590-601.

11. Karpov, A.A. Assistive multimodal system based on speech recognition and head tracking / A.L. Ronzhin, A.A. Karpov // Proc. of 13-th European Signal Processing Conference EUSIPCO'2005, Antalya, Turkey, 2005.

12. Karpov, A.A. Large Vocabulary Automatic Speech Recognition for Russian Language / A.L. Ronzhin, A.A. Karpov // Proc. of 2-nd Baltic Conference on Human Language Technologies, Tallinn, Estonia, 2005. - pp. 329-334.

13. Karpov, A.A. Russian Speech Recognition for Telecommunications / A. Ronzhin, A. Karpov, I. Li. // Proc. of 10-th International Conference SPECOM'2005, Patras, Greece, 2005. - pp. 491-494.

14. Karpov, A. Combined Gesture-Speech Analysis and Synthesis / M. Sargin [et al.] // Proc. of 1-st eNTERFACE Summer Workshop on Multimodal Interfaces, Möns, Belgium, 2005. - pp. 1-12.

15. Karpov, A.A. Multimodal human-computer interface for assisting neurosurgical system / A.L. Ronzhin [et al.] // Proc. of 11-th International Conference on Human-Computer Interaction HCII'2005, Las Vegas, USA, Mira Digital Publishing, 2005.

16. Karpov, A.A. Speech Interface for Internet Service Yellow Pages / A.A. Karpov, A.L. Ronzhin // Intelligent Information Processing and Web Mining: Advances in Soft Computing, Springer-Verlag, 2005. -pp. 219-228.

17. Karpov, A. Automatic speech recognition services in common telephone network / A. Karpov, A. Ronzhin // Proc. of 2-nd IASTED International Multi-Conference on Automation, Control, and Information Technology. ACTA Press, Novosibirsk, Russia, 2005. - pp. 220-225.

18. Карпов, A.A. Современные средства ввода информации для управления подвижными объектами / A.JI. Ронжин, A.A. Карпов // Материалы 7-й конференции молодых ученых «Навигация и управление движением», Санкт-Петербург: ЦНИИ «Электроприбор», 2006. - С. 64-70.

19. Karpov, A.A. ICANDO: Intellectual Computer AssistaNt for Disabled Operators / A. Karpov, A. Ronzhin // Proc. of 14-th European Signal Processing Conference EUSIPCO'2006, Florence, Italy, 2006.

20. Karpov, A.A. Audio-Visual Speech Recognition for Slavonic Languages (Czech and Russian) / P. Cisar [et al.] // Proc. of 11-th International Conference SPECOM'2006, St. Petersburg: "Anatoliya", 2006. pp. 493-498.

21. Карпов, A.A. Система бесконтактного управления компьютером на основе распознавания речи и движений головы / A.A. Карпов, А.Л. Ронжин // Искусственный интеллект, № 3.- Донецк, Украина, 2006.-С. 521-531.

22. Карпов, A.A. Фонетико-морфологическая разметка речевых корпусов для распознавания и синтеза русской речи / А .Л. Ронжин [и др.] // Информационно-управляющие системы, Вып. 25, т. 6. — СПб.: ГУАП, 2006. - С. 24-34.

23. Karpov, A.A. A multi-modal system ICANDO: Intellectual Computer AssistaNt for Disabled Operators / A. Karpov, A. Ronzhin, A. Cadiou // Proc. of 9-th International Conference ICSLP'2006, Pittsburgh, USA, 2006. — pp.1998-2001.

24. Карпов, A.A. Речевой и многомодальный интерфейсы. Информатика: неограниченные возможности и возможные ограничения / А.Л. Ронжин, A.A. Карпов, И.В. Ли. - М.: Наука, 2006. - 173 с.

Оригинал - макет А.А.Карпов. Объем 1 печ. л. Тираж 100 экз. Заказ № 163 Ризограф СПИИРАН (199178, Санкт-Петербург, ВО., 14 линия, 39)

Оглавление автор диссертации — кандидата технических наук Карпов, Алексей Анатольевич

Введение.

Положения, выносимые на защиту:.

Глава 1. Анализ требований и подходов к автоматическому распознаванию речи.

1.1. Основные требования к современным системам распознавания речи.

1.2. Базовые подходы к автоматическому распознаванию речи.

1.3. Распознавание речи на основе вероятностных моделей.

1.3.1. Признаковое описание речевого сигнала.

1.3.2. Акустико-фонетическое моделирование речи.

1.3.3. Статистическое моделирование языка предметной области.

1.3.4. Метод распознавания слитной речи.

1.4. Обзор моделей распознавания русской речи.

Выводы по главе 1.

Глава 2. Модель обучения распознавателя русской речи с морфемным представлением языка.

2.1. Особенности разработки модели распознавания русской речи.

2.2. Архитектура модели обучения с включением морфемного анализа русского языка.

2.3. Подготовка текстовых и речевых баз данных модели обучения.

2.4. Декомпозиция слов предметной области на морфемы.

2.5. Создание и оценка морфемной модели языка.

2.6. Фонетическое транскрибирование обучающих текстов.

2.6.1. Выбор фонетического алфавита.

2.6.2. Фонетическое транскрибирование текста.

2.7. Создание и обучение моделей акустико-фонетических единиц речи.

Выводы по главе 2.

Глава 3. Модель распознавания русской речи с морфемным уровнем обработки.

3.1. Выделение речи в звуковом сигнале методом анализа спектральной энтропии.

3.1.1. Математическая основа метода.

3.1.2. Экспериментальная проверка метода.

3.2. Выбор метода признакового описания речи.

3.2.1. Спектрально-разностные признаки речевого сигнала.

3.2.2. Оценка систем параметрического представления речи.

3.3. Метод распознавания русской слитной речи с включением морфемной обработки языка и речи.

Выводы по главе 3.

Глава 4. Программная реализация модели распознавания русской речи

4.1. Архитектура программной реализации модели распознавания русской речи SIRIUS.

4.2. Модель голосового доступа к электронному справочному каталогу.

4.2.1. Описание модели голосового доступа к каталогу.

4.2.2. Сравнение моделей распознавания русской речи по точности распознавания.

4.2.3. Сравнение моделей распознавания русской речи по скорости обработки.

4.3. Модель бесконтактного управления компьютером.

4.3.1. Архитектура модели.

4.3.2. Модуль распознавания голосовых команд оператора.

4.3.3. Эксперименты с моделью бесконтактной работы с компьютером.

Выводы по главе 4.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Карпов, Алексей Анатольевич

Актуальность темы диссертации. Вопросами автоматического распознавания речи ученые стали заниматься с момента появления первых компьютеров, поскольку текстовый командный интерфейс взаимодействия с ЭВМ не обеспечивал приемлемой скорости и естественности работы. За многие годы исследований был разработан широкий спектр методов и компьютерных программ, направленных на решение проблем распознавания речи.

Сегодня получены многообещающие результаты и созданы действующие коммерческие системы, в основном, для английского языка, а также испанского, французского, японского, китайского и арабских языков. Это во многом связано с экономическими и политическими аспектами развития речевых технологий. Например, английский язык является наиболее распространенным и поэтому инвестиции в развитие технологий для автоматизированной обработки английской речи окупились достаточно быстро. В то же время речевым технологиям других языков уделяется недостаточно внимания, вследствие чего их развитие несколько сдерживается.

Между тем, русский язык является одним из самых популярных языков мира, на нем говорит свыше двадцати процентов населения Европы. Несмотря на это, действующих систем автоматического распознавания русской слитной речи фактически не существует. Кроме экономических проблем, на развитие Российских речевых технологий, в первую очередь, влияют особенности русского языка и речи, вызывающие сложности в процессе обработки. Основные из них: отсутствие строгих грамматических конструкций построения предложений, а также многочисленные правила словообразования, фонетического представления слов и расстановки ударений с большим количеством исключений.

Для оценки эффективности разрабатываемых систем автоматического распознавания речи применяют много показателей, интегральными же критериями оценки производительности таких систем служат точность распознавания речи (звуков, слов или фраз) и скорость обработки речевого сигнала. В идеальном случае система должна обеспечивать практически 100% точность распознавания речи при мгновенном выводе результата. Тем не менее, учитывая ограниченные возможности существующих вычислительных ресурсов при решении таких сложных интеллектуальных задач как автоматическое распознавание речи человека, приходится находить компромисс между точностью и скоростью обработки.

Для улучшения характеристик распознавания русской слитной речи (в первую очередь скорости обработки), в диссертации предложен дополнительный морфемный уровень описания языка и речи, который вводится в каждый из двух этапов функционирования модели: обучение и распознавание. При этом за счет декомпозиции слов на морфемы обеспечивается акустико-лексическое моделирование большого количества словоформ языка при существенном сокращении размера словаря распознавания, что позволяет улучшить производительность и другие характеристики модели распознавания русской речи. Данный подход может быть также успешно использован и для других синтетических языков, например языков славянской группы (чешский, польский, украинский, белорусский, и т.д.), имеющих сходные с русским языком механизмы словообразования.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка модели дикторонезависимого распознавания русской слитной речи с большим словарем, которая обеспечивает ускорение процесса обработки речи при сохранении точности распознавания. Для достижения поставленной цели в ходе диссертационной работы поставлены и решены следующие задачи:

1. Анализ подходов к распознаванию английской и русской речи.

2. Выбор языковых единиц, наиболее подходящих для распознавания русской речи с большим словарем.

3. Разработка методов для модели обучения распознавателя русской речи, учитывающего специфику и морфологические особенности русского языка.

4. Разработка методов для модели распознавания русской речи с морфемным уровнем обработки языка и речи.

Методы исследования. Для решения поставленных задач в работе используются методы теории информации, теории множеств, теории вероятности, экспертного и статистического анализа. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Научная новизна работы состоит в следующем:

1. Разработана модель обучения распознавателя русской речи, включающая блоки создания акустических моделей русских фонем, декомпозиции словоформ языка и создания словаря лексических единиц с размером меньше слова (морфем), а также морфемной статистической модели языка прикладной области.

2. Разработана модель автоматического распознавания слитной русской речи, учитывающая механизмы словообразования и морфологические характеристики лексики русского языка и позволяющая существенно ускорить процесс распознавания за счет сокращения размера словаря.

3. Создана программная реализация распознавателя русской слитной речи с большим словарем SIRIUS, содержащая морфемный уровень обработки. Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет тщательного анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, алгоритмов и согласованностью результатов, полученных при компьютерной реализации, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные модели, алгоритмы и программные реализации направлены на разрешение проблемы распознавания русской речи с большим словарем, возникающую из-за богатых механизмов словообразования и морфологических характеристик русского языка.

Предложенная модель обучения морфемного распознавателя русской речи позволяет на выходе получить три основных компонента, необходимых для функционирования модели распознавания: морфемный распознаваемый словарь с соответствующими фонетическими транскрипциями, статистическую морфемную модель языка предметной области и модели акустических фонетических единиц речи. Причем, за счет введения в модель уровня морфемного представления сокращается размер распознаваемого словаря, так как в процессе словообразования часто используются одни и те же морфемы, а также обеспечивается более полное покрытие пространства слов языка.

Разработанная модель распознавания речи, основанная на стохастическом моделировании речи посредством скрытых Марковских моделей и статистическом n-граммном моделировании языка предметной области с введением дополнительного уровня морфемного распознавания и синтеза слов, позволяет производить процесс распознавания с приемлемой точностью, обеспечив при этом значительный рост скорости обработки и устойчивости к синтаксическим отклонениям произнесенной фразы в ходе человеко-машинного взаимодействия по сравнению с традиционной целословной моделью распознавания речи.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: ЕС FP6-IST-2002-507609 SIMILAR Network of Excellence «The European taskforce creating human-machine interfaces SIMILAR to human-human communication»; INTAS № 04-77-7404 «Development of multi-voice and multi-language Text-to-Speech (TTS) and Speech-to-Text (STT) conversion system (languages: Belarussian, Polish, Russian)» и INTAS № 05-1000007-426 «Introduction of the automatic Russian speech recognition system SIRIUS in telecommunications»; ОИТВС PAH № 4.2 «Разработка методов статистической обработки речи для дикторонезависимых инфотелекоммуникационных приложений»; СПб НЦ РАН № М06-2.1К-29 «Разработка методов и программного обеспечения для дикторонезависимого распознавания русской речи с большим словарем». Кроме того, результаты работы использованы при разработке средств голосового доступа к рубрикатору электронного каталога «Желтые Страницы» в рамках инновационного проекта совместно с компанией «NewVoice».

Апробация результатов работы. Основные положения и результаты диссертационной работы представлялись на Международных конференциях: «Interspeech - ICSLP 2006» (США, 2006); «Европейской конференции по обработке сигналов» EUSIPCO (Италия, 2006; Турция, 2005); «Intelligent Information Processing and Web Mining» (Польша, 2005); «Интеллектуальные многопроцессорные системы. Искусственный интеллект» (Украина, 2006; Россия, 2005); «Речь и Компьютер» SPECOM (Санкт-Петербург, 2006, 2004, 2002; Греция, 2005; Москва, 2003).

Публикации. Основные результаты по материалам диссертационной работы опубликованы в 24 печатных работах, в том числе в трех журналах ВАК («Известия ТРТУ», «Известия вузов. Приборостроение» и «Pattern Recognition and Image Analysis») и монографии серии «Информатика: неограниченные возможности и возможные ограничения» издательства «Наука».

Структура и объем работы. Диссертация объемом 129 машинописных страниц, содержит введение, четыре главы и заключение, список литературы (121 наименование), 8 таблиц, 44 рисунка.

Заключение диссертация на тему "Модели и программная реализация распознавания русской речи на основе морфемного анализа"

Выводы по главе 4

1) Представлена программная реализация SIRIUS, включ ающая в себя разработанные в ходе диссертационной работы модели обучения и распознавания русской речи, а также модули для записи речевых данных и анализа результатов распознавания речи.

2) Приведено сравнение реализованных целословной, морфемной, слоговой и фонемной моделей автоматического распознавания русской речи по критериям точности распознавания на уровне фонем, слов и фраз, а также времени распознавания фраз. Отмечен рост скорости распознавания при применении морфемной модели на 75% при незначительном падении точности распознавания.

3) Разработанные в диссертации модели были реализованы в диалоговой модели голосового доступа к электронному справочному каталогу, представлена архитектура данной модели и результаты ее тестового применения. Предложенная модель голосового доступа, не учитывает концовки слов в распознанной гипотезе фразы, что позволяет поднять точность распознавания фраз на 7% по сравнению с базовой морфемной моделью и практически достичь уровня целословного распознавания речи.

4) Реализована многомодальная модель ICanDo для бесконтактного управления компьютером (полностью без клавиатуры и мышки), использующая модули автоматического распознавания голосовых команд и отслеживания положения головы оператора для работы с графическим пользовательским интерфейсом персонального компьютера. Модель предназначается, в основном, для пользователей-инвалидов, имеющих проблемы с двигательными функциями рук и показала хорошие результаты в ходе экспериментов с потенциальными пользователями.

Заключение

При автоматическом распознавании речи для любого языка существует ряд общих проблем, для решения которых прикладываются усилия ученых и разработчиков всего мира. Основными из них являются: обеспечение слитного ввода речи, дикторонезависимость, повышение точности и скорость обработки речи, улучшение робастности систем и т.д. Вторую группу проблем составляют особенности конкретных языков, для которых применяются распознаватели. Так, для русского языка (а также для многих славянских и ряда других языков) такой особенностью является сложный механизм словообразования, из-за чего образуется огромное количество словоформ в языке.

В результате проведенной работы были разработаны модели, предназначенные для обработки русской слитной речи на различных уровнях и предложен подход к распознаванию, использующий морфемный уровень представления русского языка и речи, что позволяет значительно сократить количество распознаваемых языковых единиц в модели и за счет этого повысить скорость обработки, сохранив при этом приемлемую точность распознавания.

Предложены модели обучения распознавателя речи и дикторонезависимого распознавания русской слитной речи. Модель обучения позволяет создать статистическую морфемную модель языка прикладной области, морфемный словарь с фонетическими транскрипциями и акустико-фонетические модели русской речи. Эти базы данных необходимы для функционирования модели распознавания, которая содержит морфемный уровень представления русского языка и речи, и позволяет производить распознавание речи по морфемным единицам с последующим синтезом гипотез слов и фраз из цепочек морфем. В ходе экспериментов морфемная модель сравнивалась с целословной, слоговой и фонемной моделями и показала оптимальные результаты по критериям точности распознавания и времени обработки.

Предложенные модели обучения и распознавания объединены в программную реализацию SIRIUS, позволяющую производить дикторонезависимое распознавание русской слитной речи с большим словарем. На базе данной реализации разработаны прикладные модели для голосового доступа к справочному электронному каталогу и многомодальная модель для бесконтактного управления компьютером. Разработанные в диссертационной работе методы, модели и программные средства будут использованы в дальнейшем при создании интеллектуальных приложений человеко-машинного речевого и многомодального взаимодействия.

Библиография Карпов, Алексей Анатольевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Александров, В.В. Структурный анализ диалога / В.В. Александров,

2. A.В. Арсентьева, А.И. Семенков // Ленинград: ЛНИВЦ, 1983, 49 с.

3. Афанасьев, В.П. Архитектура речевого телефонного терминала МАРС-2 «Электроника МС7602» / В.П. Афанасьев и др. // Труды Всесоюзного семинара АРСО-14, Каунас, 1986, С. 77.

4. Баранников, В.А. Пакет программ построения систем распознавания речи /

5. B.А. Баранников, А.А. Кибкало // Труды III Всероссийской конференции «Теория и практика речевых исследований» АРСО-2003. Москва, МГУ им. М.В. Ломоносова, Сентябрь 2003, С. 7-12.

6. Беллман, Р. Динамическое программирование / Р. Беллман; М.: ИЛ, 1960, 400 с.

7. Бияков, О.А. Медианное сглаживание временных рядов / О.А. Бияков // Вестник КузГТУ. 1999. № 3. С. 55 -56.

8. Васьков, C.T. Открытые системы реального времени / C.T. Васьков, В.Н. Вьюхин, И.И. Коршевер // Информатика и вычислительная техника. М.: Изд-во ВИМИ, 1995, вып. 1-2, С. 96-106.

9. Винцюк, Т.К. Модуль анализатора речи СРД «Речь-2» / Т.К. Винцюк, А.Г. Скрипник // Тезисы докладов 16-го всесоюзного семинара (АРСО 16), 1991.-С. 250-251.

10. Винцюк, Т. К. Распознавание слов устной речи методами динамического программирования/ Т.К. Винцюк //М.: Кибернетика, 1968.- №1.1. C. 15-22.

11. Галунов, В.И. Состояние исследований в области речевых технологий и задачи, выдвигаемые государственными заказчиками / В.И. Галунов, и др. // Доклад на секции по автоматическому распознаванию и синтезу речи РАН. М., 2002.

12. Галушкин, А.И. Теория нейронных сетей / А.И. Галушкин; М.:ИПРЖР, 2000,416 с.

13. И. Геппенер, В.В. Вейвлет-преобразование в задачах цифровой обработки сигналов: Учебное пособие / В.В. Геппенер, Д.А. Черниченко, С.А. Экало // СПб.: Изд-во СПбГЭТУ, 2002. 78 с.

14. Гринберг, Д. Квантитативный подход к морфологической типологии языков / Д. Гринберг // HJI. Вып. III. М., 1963.

15. Дегтярев, Н.П. Параметрическое и информационное описание речевых сигналов / Н.П. Дегтярев // Минск: Объединенный институт проблем информатики НАН Беларуси, 2003, 216 с.

16. Джелинек, Ф. Разработка экспериментального устройства, распознающего раздельно произносимые слова / Ф. Джелинек // ТИИЭР. Речевая связь с машинами, т.73, №11, 1985, с. 91-100.

17. Джелинек, Ф. Распознавание непрерывной речи статистическими методами /Ф. Джелинек//ТИИЭР 64, №4, 1976, с. 131-160.

18. Зализняк, А.А. Грамматический словарь русского языка: Словоизменение / А.А. Зализняк // 4-е изд., испр. и доп. — М.: Руские словари, 2003.

19. Иванова, Т.И. Компьютерные технологии в телефонии / Т.И. Иванова // Эко-Трендз, М., 2002.

20. Карпов, А.А. SIRIUS система дикторонезависимого распознавания слитной русской речи / А.А. Карпов, A.JI. Ронжин, И.В. Ли // Известия ТРТУ, № ю, 2005, С. 44-53.

21. Кибкало, А.А. Разработка системы распознавания русской речи / А.А.Кибкало и др. // Вопросы атомной науки и техники. Сер. Математическое моделирование физических процессов. 2003. Вып. 3. С. 8-20.

22. Косарев, Ю.А. Естественная форма диалога с ЭВМ /Ю.А. Косарев -Л.: Машиностроение, 1989. 143 с.

23. Ли, И.В. Проектирование систем речевого диалога / И.В. Ли, А.Л. Ронжин // Труды СПИИРАН. Вып. 3, т. 1. — СПб.: Наука, 2006, С. 320-338.

24. Мазуренко, И.Л. Многоканальная система распознавания речи / И.Л. Мазуренко // Сборник трудов VI всероссийской конференции «Нейрокомпьютеры и их применение», Москва, 2000.

25. Маркел, Д.Д. Линейное предсказание речи / Д.Д. Маркел, А.Х. Грей; М.: Связь, 19В0.-308 с.

26. Марков, А.А. Об одном применении статистического метода / А.А. Марков // Известия АН, сер.6, X, №4,1916, 239 с.

27. Моттль, В.В. Скрытые Марковские модели в структурном анализе сигналов / В.В. Моттль, И.Б. Мучник; М.: Физматлит, 1999, 351 с.

28. Мясников, Л.Л. Объективное распознавание звуков речи / Л.Л. Мясников // ЖТФ. 1943. -№ 3. - С. 109-115.

29. Никифоров, В.О. Адаптивное и робастное управление с компенсацией возмущений / В.О. Никифоров // СПб.: Наука, 2003,282 с.

30. Осовский, С. Нейронные сети для обработки информации / С. Оссовский, пер. с польского И. Рудинского. -М.: Финансы и статистика, 2004, 344 с.

31. Петровский, А.А. Методы построения устройств распознавания речи на базе гибрида нейронная сеть/скрытая Марковская модель / А.А. Петровский // Нейрокомпьютеры: разработка, применение, 2002, № 12, с. 26-36.

32. Потапова, Р.К. Речевое управление роботом / Р.К. Потапова // М.:КомКнига, 2005,328 с.

33. Потапова, Р.К. Речь: коммуникация, информация, кибернетика / Р.К. Потапова //М.:Едиториал УРСС, 2003, 568 с.

34. Рабинер, Л. СММ и их применение в избранных приложениях при распознавании речи / Л. Рабинер // ТИИЭР. 1989. - Т. 77. - №2. -С. 86-120.

35. Рабинер, Л. Цифровая обработка речевых сигналов / Л. Рабинер, Р. Шафер М.: Радио и связь, 1987.

36. Распознавание слуховых образов. / Под ред. Н.Г. Загоруйко -Новосибирск: «Наука», 1970.-340 с.

37. Ронжин, А. Метод распознавания слитной речи на основе анализа сигнала в скользящем окне и теории размытых множеств / А. Ронжин и др. // Научно-теоретический журнал «Искусственный интеллект», №4. Донецк, Украина, 2002, С. 256-263.

38. Ронжин, A.J1. Речевой и многомодальный интерфейсы / A.JL Ронжин, А.А. Карпов, И.В. Ли; М.: Наука, 2006 - (Информатика: неограниченные возможности и возможные ограничения), 173 с.

39. Ронжин, А.Л. Система автоматического распознавания русской речи SIRIUS / А.Л. Ронжин, А.А. Карпов, И.В. Ли // Научно-теоретический журнал «Искусственный интеллект», № 3.- Донецк, Украина, 2005, С. 590-601.

40. Ронжин, А.Л. Фонетико-морфологическая разметка речевых корпусов для распознавания и синтеза русской речи / А.Л. Ронжин и др. // Информационно-управляющие системы, Вып. 25, т. 6. — СПб.: ГУАП, 2006, С. 24-34.

41. Русская грамматика: В 2 т. / Редкол.: Н.Ю. Шведова (гл. ред.) и др.. Т. 1: Фонетика. Фонология. Ударение. Интонации. Словообразование. Морфология / [Н.С. Авилова, А.В. Бондарко, Е.А. Брызгунова и др.] М. : Наука, 1980, 783 с.

42. Сайт белорусской компании Сакрамент http://www.sakrament.com/viewprod.php?TopId=30&ProdId=24

43. Сайт библиотеки М. Мошкова http://www.lib.ru/

44. Сайт инструментария Hidden Markov Model Toolkit http://htk.eng.cam.ac.uk/

45. Сайт компании Истрасофт http://www.istrasoft.ru/voice cmd.html

46. Сайт телекоммуникационной компании NewVoice http://www.newvoice.ru/

47. Сайт компании Nuance Corporation http://www.nuance.com

48. Сайт конкурса многомодальных интерфейсов Loco Mummy Contest http://www.locomummv.net

49. Сайт проекта Oomnik / Корнеслов http://www.oomnik.ru

50. Сайт Европейского проекта FP6 SIMILAR Network of Excellence http://www.similar.ee

51. Сайт проекта STARLING http://starling.rinet.ru

52. Сайт рабочей группы АОТ http://www.aot.ru

53. Сайт системы «Telepat» https://www.telepat.ru

54. Сайт системы «Горыныч» http://www.nd.ru/voice/

55. Сайт системы SAMPA http://www.phon.ucl.ac.uk/home/sampa/home.htm

56. Сайт электронного каталога «Желтые страницы» http://www.vell.ru/

57. Сайт Центра речевых технологий http://speechpro.com/production/?id=471 &fid=44

58. Сапожков, М.А. Речевой сигнал в кибернетике и связи / М.А. Сапожков; -М.: Связьиздат, 1963. 452 с.

59. Сборник статей профессионально-реабилитационного центра Санкт-Петербурга, «Человек и здоровье», 2006, 135 с.

60. Скрелин, П.А. Сегментация и транскрипция / П.А. Скрелин; СПб.: СПбГУ, 1999.

61. Современный русский литературный язык / под ред. П.А. Леканта. М., 1996, 160 с.

62. Сокирко, А.В. Морфологические модули на сайте www.aot.ru / А.В. Сокирко // Труды Международной конференции Диалог-2004, М.: Наука, 2004. С. 559.

63. Соколов, Б.В. Концептуальные основы оценивания и анализа качества моделей и полимодельных комплексов / Б.В. Соколов, P.M. Юсупов // Теория и системы управления. 2004. -№ 6 -С. 5-16.

64. Станкевич, Л.А. Интеллектуальные роботы и системы управления / Л.А. Станкевич // Нейрокомпьютеры: разработка и применение, № 8-9, 2005.

65. Страуструп, Б. Язык программирования С++ / Б. Страуструп // М.:БИНОМ, 2001.- 1099 с.

66. Трунин-Донской, В.Н. Опознавание набора слов с помощью цифровой вычислительной машины / В.Н. Трунин-Донской // Работы по технической кибернетике. М.: ВЦ АН СССР, 1967. - С. 37-51.

67. Ушакова, Т.Н. Проблема внутренней речи в психологии и психофизиологии. Психологические и психофизиологические исследования речи / Т.Н. Ушакова М.: Наука, 1985. - С. 13-26.

68. Фант, Г. Анализ и синтез речи / Г. Фант; пер. с англ. B.C. Лозовского и Н.В. Бахмутовой под ред. Н.Г. Загоруйко. Новосибирск, «Наука», 1970,167 с.

69. Холоденко, А.Б. Использование лексических и синтаксических анализаторов в задачах распознавания для естественных языков /

70. A.Б. Холоденко // Интеллектуальные системы. T.4, вып. 1-2, 1999, с. 185-193.

71. Холоденко, А.Б. О построении статистических языковых моделей для систем распознавания русской речи / А.Б. Холоденко // Интеллектуальные системы, т.6, вып. 1-4, 2002. С. 381-394.

72. Цымбал, В.П. Теория информации и кодирование / В.П. Цымбал // Киев.:Высшая Школа, 1977, 288 с.

73. Чучупал, В.Я. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи / В.Я. Чучупал, К.А. Маковкин, А.В. Чичагов // Искусственный интеллект, 2002, №2, с. 575-579.

74. Шелепов, В.Ю. К проблеме пофонемного распознавания / В.Ю. Шелепов,

75. B.Ю. Ниценко // Искусственный интеллект. 2005. - № 4. - С. 662-668.

76. Щерба, Л.В. Языковая система и речевая деятельность / Л.В. Щерба; Л., 1974.

77. Arisoy, Е. A Unified Language Model for Large Vocabulary Continuous Speech Recognition of Turkish / E. Arisoy, et al // Signal Processing, № 86(10), 2006, pp.2844-2862.

78. Atal, B.S. Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification / B.S. Atal // Journal of the Acoustical Society of America, Vol. 55,1974, pp. 1304-1312.

79. Baum, L.E. An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes / L.E. Baum // Inequalities, vol.3,1972, pp. 1-8.

80. Bouguet, J.-Y. Pyramidal implementation of the Lucas-Kanade feature tracker / J.-Y. Bouguet // Technical Report, Intel Corporation, Microprocessor Research Labs, 2000.

81. Chesta, C. Connected Digit Recognition Using Short and Long Duration Models / C. Chesta, P. Laface, F. Ravera // Proceedings of ICASSP'99 Conference, Phoenix, USA, 1999.

82. Cox, R.V. Speech and Language Processing for Next-Millennium Communications Services / R.V. Cox, et al // Proceedings of the IEEE, Vol. 88, No. 8, 2000, pp. 1314-1337.

83. Creutz, M. Unsupervised discovery of morphemes / M. Creutz, K. Lagus. // Proceedings of ACL/SIGPHON'2002, 2002, pp. 21-30.

84. Freeman, D. A Voice Activity Detector for the Pan-European Digital Cellular Mobile Telephone Service / D. Freeman, C. Sonthcott, I. Boyd // IEEE Colloquium Digitized Speech Communication via Mobile Radio, 1988, pp. 61-65.

85. Fujimoto, M. Evaluation of noisy speech recognition based on noise reduction and acoustic model adaptation on the AURORA2 tasks / M. Fujimoto, Y. Ariki //Proceedings of ICSLP'2002, Denver, USA, 2002.

86. Furui, S. 50 years of progress in speech and speaker recognition / S. Furui // Proceedings of SPECOM'2005, Patras, Greece, 2005, pp. 3-9.

87. Haton, J.-P. Automatic speech recognition: Past, Present and Future / J.-P. Haton // Proceedings of SPECOM'2004, St. Petersburg: "Anatoliya", 2004, pp. 3-7.

88. Hirsimaki, Т. Unlimited Vocabulary Speech Recognition with Morph Language Models Applied to Finnish / T. Hirsimaki, et al // Computer Speech and Language, Vol. 20, № 4, 2006, pp. 515-541.

89. Hori, T. An extremely-large-vocabulary approach to named entity extraction from speech / T. Hori, A. Nakamura // Proceedings of ICASSP'2006, Toulouse, France, 2006.

90. International Phonetic Association. Handbook of the International Phonetic Association: A guide to the use of the International Phonetic Alphabet. Cambridge: Cambridge University Press, 1999.

91. Jelinek, F. Perplexity A measure of difficulty of speech recognition tasks / F. Jelinek, R.L. Mercer, L.R. Bahl // Proceedings of 94-th Meeting of the Acoustical Society of America, 1977.

92. Kanevsky, D., Monkowski M., Sedivy J. Large vocabulary speaker-independent continuous speech recognition in Russian language / D. Kanevsky, M. Monkowski, J. Sedivy // Proceedings of SPECOM'1996, St.Petersburg, 1996, pp.117-121.

93. Kanungo, T. An Efficient k-Means Clustering Algorithm: Analysis and Implementation / T. Kanungo, et al // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002, vol. 24, №7. p. 881-892.

94. Karpov, A. A multi-modal system ICANDO: Intellectual Computer AssistaNt for Disabled Operators / A. Karpov, A. Ronzhin, A. Cadiou // Proceedings of Interspeech'2006, Pittsburgh, PA, USA, 2006, pp. 1998-2001.

95. Karpov, A. Hands-free Mouse Control System for Handicapped Operators / A. Karpov, A. Cadiou // Proceedings of SPECOM'2006, St. Petersburg: "Anatoliya", 2006, pp. 525-529.

96. Katz, S. Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer / S. Katz // IEEE Transactions on Acoustic, Speech and Signal Processing, 1987, vol. 35, №. 3, pp. 400-401.

97. Kosarev, Yu. Robust Speech Understanding for a Voice Control System / Yu. Kosarev, et al // Proceedings of SPECOM'2002, St. Petersburg, 2002, pp. 13-18.

98. Kurimo, M. Unsupervised Segmentation of Words into Morphemes Morpho Challenge 2005. Application to Automatic Speech Recognition / M. Kurimo, et al //Proceedings of Interspeech'2006, Pittsburg, USA, pp. 1021-1024.

99. Kwon, O.W. Korean large vocabulary continuous speech recognition with morpheme-based recognition units / O.W. Kwon, J. Park // Speech Communication, №39,2003, pp. 287-300.

100. Manning, C.D. Foundations of Statistical Natural Language Processing / C.D. Manning, H. Schutze; MIT Press, 1999.

101. Oparin, I. Stem-Based Approach to Pronunciation Vocabulary Construction and Language Modeling for Russian / I. Oparin, A. Talanov // Proceedings of SPECOM'2005, Patras, Greece, 2005, pp. 575-578.

102. Oviatt, S.L. Multimodal interfaces / S.L. Oviatt // Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies and Emerging Applications. Lawrence Erlbaum Assoc. Mahwah, NJ, USA, 2003, pp. 286-304.

103. Picone, J. Continuous Speech Recognition Using Hidden Markov Models / J. Picone // IEEE ASSP Magazine, Vol. 7, No. 3, 1990.

104. Pollard, С J. Head-driven Phrase Structure Grammar / C.J. Pollard, I.A. Sag; Chicago University Press, Chicago, 1994.

105. Potapova, R. Identification of prosodic features of emotional state of a speaker / R. Potapova, V. Potapov // Proceedings of SPECOM'2005. Patras, Greece,2005, pp. 25-32.

106. Potapova, R. To the problem of multi-language phonetic database formation: vibrants in English, German, Russian and Chechen / R. Potapova, E. Loseva // Proceedings of SPECOM'2006, St. Petersburg: "Anatoliya", 2006, pp. 445-448.

107. Potryasaev, S. Quality and Quantity Estimation and Analysis of Multimodal Systems for Human-Computer Interaction / S. Potryasaev, B. Sokolov, R. Yusupov // Proceedings of SPECOM'2006, St. Petersburg: "Anatoliya",2006, pp. 158-167.

108. Psutka, J. Large Vocabulary ASR for Spontaneous Czech in the MALACH Project / J. Psutka, et al // Proceedings of Eurospeech'2003, Geneva, Switzerland, 2003, pp. 1821-1824.

109. Rabiner, L. Fundamentals of Speech Recognition / L. Rabiner, B. Juang New Jersey: Prentice-Hall, Englewood Cliffs, USA, 1993.

110. Rabiner, L.R. A tutorial on Hidden Markov Models and Selected Applications in SpeechRecognition / L.R. Rabiner // Proceedings of the IEEE, vol, 77. no.2, 1989, pp. 257-284.

111. Shen, J.-L. Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environments / J.-L. Shen, J.-W. Hung, L.-S. Lee // Proceedings of ICSLP'1998, Sydney, Australia, 1998.

112. Strom, N. Continuous Speech Recognition in the WAXHOLM Dialogue System / N. Strom // Stockholm QPSR, 1996. pp. 67-95.

113. Surendran, D. Dialog Act Tagging with Support Vector Machines and Hidden Markov Models / D. Surendran, G. Levow // Proceedings of Interspeech'2006, Pittsburgh, PA, USA, 2006, pp. 1950-1953.

114. Tang, M. Improvements to Bucket Box Intersection Algorithm for Fast GMM Computation in Embedded Speech Recognition Systems / M. Tang, A. Ganapathiraju // Proceedings of Interspeech'2006. Pittsburgh, USA, pp. 617-620.

115. Timofeev, A.V. Development of man-machine interfaces and virtual reality means for integrated medical systems / A.V. Timofeev, et al. // Proceedings of SPECOM'2006, St. Petersburg: "Anatolya", 2006, pp. 175-178.

116. Trentin, E. A survey of hybrid ann/hmm models for automatic speech recognition / E. Trentin, M. Gori // Neurocomputing, vol. 37, no. 1-4, 2001, pp. 91-126.

117. Turunen, M. Evaluation of a Spoken Dialogue System with Usability Tests and Long-term Pilot Studies: Similarities and Differences / M. Turunen, J. Hakulinen, A. Kainulainen // Proceedings of Interspeech'2006, Pittsburgh, USA, 2006, pp. 1057-1060.

118. Varile, G. Survey of the State of the Art in Human Language Technology / G. Varile, A. Zampolli // Cambridge University Press, 1997.

119. Viterbi, A.J. Error bounds for convolutionalcodes and an asymmetrically optimum decoding algorithm / A.J. Viterbi // IEEE Transactions on Information Theory, 1967. vol. IT-13, pp. 260-267.

120. Waheed, K. A robust algorithm for detecting speech segments using an entropy contrast / K. Waheed, K. Weaver, F. Salam // Proceedings of MWSCAS'2002, Oklahoma, USA, 2002.

121. Whittaker, E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English / E.W.D. Whittaker // PhD thesis, Cambridge University, Cambridge, 2000.

122. Young, S. The НТК Book / S. Young, et al // Cambridge University Engineering Department, 2002.

123. Young, S.J. Token Passing: A Conceptual Model for Connected Speech Recognition Systems / S.J. Young, N.H. Russel, J.H.S. Russel // CUED Technical Report, Cambridge University, 1989.

124. Комиссия в составе: председателя А.В. Лебедева, членов комиссии: М.Ю. Трибиса, Д.С. Солонского, рассмотрев представленные материалы по теме диссертационной работы Карпова А.А, установила, что:

125. Основные положения диссертационной работы были использованы при проведении совместных научно-исследовательских работ компании по инновационному проекту INTAS № 05-1000007-426.

126. Предложенные в работе алгоритмы и модели распознавания речи были реализованы в экспериментальной модели голосового доступа к рубрикатору электронного справочного каталога «Желтые Страницы».

127. Использование морфемной модели распознавания русской слитной речи позволило повысить скорость распознавания для задач с большим словарем, что особенно важно для телекоммуникационных задач массового обслуживания.

128. Внедрение программной реализации SIRIUS автоматического распознавания русской речи позволяет разрабатывать новые высокотехнологичные интеллектуальные платформы с возможностью автоматизации операторских функций.

129. Председатель комиссии: Технический директор1. Члены комиссии:

130. Руководитель отдела интеллектуальных сетей связи1. М.Ю.Трибпс1. Инженер-программист1. Д.С. Солонский197046, Сонкт — Петербург,П(''фог!нл,смя наб. 34,тел. +7 (812)335-05-15 факс; +7 812) 322-91--00, о —mail: conlact@newvoice.ru www.newvoice.ru

131. Председатель комиссии Руководитель отдела Информационных Технологий С.В. Рулев1. Члены комиссии

132. Технический директор Гуторов С.М.1. Технолог Балина Т.С.1. UCL Г1.boratoire de Telecommunications et Teledetection Universite catholique de Louvain (UCL) Louvain-la-Neuve, Belgique

133. University ! Щ catholique ye=i de Louvaint1. STATEMENT

134. After using A.A. Karpov's thesis:

135. Models and software realization for Russian speech recognition based on morphemic analysis"

136. The UCL committee, formed by Prof. Benoit Macq, Eng. Imre Varadi and Alexandre Cadiou considered the presented materials and decided that:

137. The speech recognition algorithms and models described in the thesis were realized in the multimodal system for hands-free computer control ICANDO.

138. The created software systems are used during the exhibitions (Loco Mummy Contest), research experiments and learning courses in our University.