автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи
Автореферат диссертации по теме "Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи"
На правах рукописи
КИПЯТКОВА Ирина Сергеевна
МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА ФОНЕТИКО-ЯЗЫКОВОГО МОДЕЛИРОВАНИЯ В СИСТЕМАХ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ
Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Санкт-Петербург 2011
1 3 ОКТ 2011
4856851
Работа выполнена в Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН.
Научный руководитель:
кандидат технических наук Карпов Алексей Анатольевич
Официальные оппоненты: доктор технических наук,
профессор Александров Виктор Васильевич
кандидат технических наук,
доцент Станкевич Лев Александрович
Ведущая организация:
Государственное образовательное учреждение высшего профессионального образования «Санкт-Петербургский государственный университет аэрокосмического приборостроения».
Защита состоится «27» октября 2011г. в 15.30 часов на заседании диссертационного совета Д.002.199.01 при Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.
С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Санкт-Петербургского института информатики и автоматизации РАН
Автореферат разослан «23» сентября 2011г.
Ученый секретарь
диссертационного совета Д.002.199.01
Нестерук Филипп Геннадьевич
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальпость темы диссертации. Большинство современных систем автоматического распознавания речи способны эффективно анализировать только изолированно произнесенные слова или прочитанные фразы. Распознавание разговорной речи затрудняется ее вариативностью: различные дикторы могут произносить одно и то же слово по-разному, кроме того, произношение одного и того же диктора может меняться в зависимости от коотекста и темпа речи. Поэтому при разработке систем распознавания разговорной речи важно учитывать вариативность произношения слов.
Для функционирования системы автоматического распознавания речи необходим словарь слов с их орфографическим и фонематическим представлением, который создается, как правило, с использованием канонических фонетических правил транскрибирования для определенного языка. Для разговорного стиля речи характерны явления ассимиляции (объединения звуков), а также редуцирования (сокращения длительности определенных звуков вплоть до полного исчезновения), причем эти явления могут возникать как внутри слова, так и на стыках слов. Это приводит к значительному снижению точности автоматического распознавания речи. Для учета явлений фонетической редукции и ассимиляции необходимо расширить словарь системы распознавания путем добавления альтернативных вариантов произношения слов к базовым. То есть для каждого слова в словаре должны содержаться транскрипции, которые описывают потенциально возможную вариативность произношения слов, характерную для разговорной речи.
Альтернативные транскрипции могут быть созданы экспертным путем, однако это является трудоемким процессом и, кроме того, при создании новой системы с другим словарем придется создавать транскрипции заново. Для решения указанных проблем в работе предложен метод автоматической генерации альтернативных транскрипций на основе применения разработанных правил, учитывающих явления редукции и ассимиляции звуков русской речи.
Следующим этапом после распознавания слов является генерация грамматически правильных и осмысленных гипотез произнесенной фразы с помощью некоторой модели языка. Одним из подходов к построению языковых моделей являются статистические «-граммы, которые оценивают вероятность появления слова в зависимости от последовательности из п произнесенных до этого слов. Существующие модели в большинстве исследований были апробированы на английском языке и, как следствие, не отвечают специфике русского языка, для которого характерен практически свободный порядок слов в предложениях и наличие большого количества словоформ в каждой лексеме. Для того чтобы учесть далыюдействугощие связи между словами во фразе, в работе предложен метод построения модифицированной языковой модели, при создании которой производится одновременно синтаксический и статистический анализ обучающих текстовых данных.
Экспертный анализ обучающих акустических, фонетических, текстовых данных при создании систем распознавания речи - трудоемкий процесс,
значительно препятствующий внедрению речевых технологий, поэтому разработка математического и программного обеспечения, направленного на автоматизацию способов создания фонетико-языковых моделей русской разговорной речи, приобретает особую актуальность.
Цель работы и задачи исследования. Основной целью диссертационной работы является разработка методов, алгоритмов и программных средств акустико-фонетического моделирования вариативности произношения слов и синтаксическо-статистического моделирования языка для повышения точности распознавания разговорной русской речи. Для достижения поставленной цели в работе решены следующие задачи:
1. Анализ современных методов и подходов к фонетико-языковому моделированию разговорной речи.
2. Разработка методов и алгоритмов для создания множественных транскрипций, учитывающих различные варианты возможного произнесения одного и того же слова в разговорной речи, и коррекция транскрипций по обучающему корпусу.
3. Разработка методов и программных средств статистического и синтаксического анализа обучающих текстовых корпусов для создания эффективной стохастической модели русского языка.
4. Разработка программных средств и количественное оценивание качества автоматического распознавания разговорной русской речи со сверхбольшим словарем.
Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки сигналов, теории информации, теории множеств, статистического анализа, автоматического анализа текста. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентировашюго подхода.
Положения, выносимые на защиту:
1. Комбинированный метод генерации множественных вариантов акустико-фонематических транскрипций словаря распознавания.
2. Метод создания синтаксическо-статистической модели русского языка системы автоматического распознавания речи.
3. Комплекс программных средств для системы распознавания русской речи со сверхбольшим словарем.
Научная новизна работы состоит в следующем:
1. Разработан комбинированный метод генерации множественных вариантов акустико-фонематических транскрипций слов для словаря системы распознавания разговорной русской речи, отличающийся объединением методов, основанных на знаниях и данных, полученных при анализе речевых корпусов.
2. Разработан метод построения стохастической модели русского языка системы автоматического распознавания речи, отличающийся совместным применением статистического и синтаксического анализа обучающих текстовых данных и позволяющий учесть дальнодействующие грамматические связи между словами во фразе.
3. Создан комплекс программных средств по обработке разговорной русской речи, отличающийся применением разработанных методов фонстико-языкового моделирования и возможностью оперативного обновления моделей при разработке систем автоматического распознавания русской речи со сверхбольшим словарем.
Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.
Практическая ценность работы. Разработанные модели, алгоритмы и программные средства для фонетико-языкового моделирования направлены на решение проблемы повышения точности автоматического распознавания разговорной русской речи и сокращение объема экспертной работы на этапе обучения систем распознавания. Метод фонематического транскрибирования, реализованный в комплексе программных средств, позволяет создавать как базовые фонематические транскрипции для списка независимых слов, так и альтернативные транскрипции слов, которые учитывают различные варианты возможного произнесения одного и того же слова в разговорной речи, и позволяет моделировать вариативность произношения слов в разговорной речи. Предложенный метод позволяет создавать и обучать посредством речевого корпуса акустико-фонетические модели речевых единиц. Предложенная в работе модель языка создается за счет объединения результатов статистического и синтаксического анализа текстов. Использование дополнительного синтаксического анализа обучающего корпуса при создании модели языка позволяет учесть далыюдействующие грамматические связи между словами в предложении и тем самым расширить модель языка. Модель позволяет увеличить точность распознавания русской речи, сохранив при этом приемлемую скорость распознавания.
Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: НОТ Министерства образования и науки РФ «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК №14.740.11.0357, 20102012 гг. и «Разработка методов, моделей и алгоритмов для автоматического распознавания аудиовизуальной русской речи», ГК№П2579, 2009-2011 гг. в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России»; грант РФФИ № 08-08-00128-а «Моделирование нефонемных речевых элементов и создание альтернативных транскрипций для распознавания спонтанной русской речи»; гранты Комитета по науке и высшей школе Правительства Санкт-Петербурга для молодых ученых №26-05/051 «Разработка программного модуля преобразования "буква-фонема" для системы стенографирования разговорной русской речи» 2009 г. и «Разработка
программного модуля языкового моделирования системы стенографирования разговорной русской речи» 2010 г.
Апробация результатов работы. Результаты диссертационного исследования представлялись на Международной конференции «Речь и Компьютер» вРЕСОМ (Санкт-Петербург, 2009), Международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» 08Т18-2011 (Минск, 2011), Международной филологической конференции (Санкт-Петербург, 2008, 2009, 2011), междисциплинарном семинаре «Анализ разговорной русской речи» (2007, 2008, 2010), Международной научно-практической конференции «Искусственный интеллект. Интеллектуальные системы» ИИ-2008 (Кацивели, Украина, 2008); Международной конференции «Региональная информатика» (Санкт-Петербург, 2010).
Публикации. По материалам диссертации опубликованы 22 печатные работы, включая 3 публикации в научных журналах, рекомендованных ВАК («Известия вузов. Приборостроение» и «Информационно-управляющие системы»), получены 4 свидетельства о регистрации программ и базы данных в Федеральной службе по интеллектуальной собсгвешюсти, патентам и товарным знакам.
Структура и объем работы. Диссертация объемом 136 машинописных страниц, содержит введение, четыре главы и заключение, список литературы (124 наименования), 20 таблиц, 26 рисунков, одно приложение с копиями актов внедрения.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована важность и актуальность темы диссертации, сформулированы цели диссертационной работы и решаемые задачи, определена научная новизна работы и ее практическая значимость, кратко описаны разработанные методы и алгоритмы.
В первой главе диссертации описаны базовые методы и модели автоматического распознавания речи. Дается классификация моделей распознавания речи по размеру словаря, необходимости предварительной настройки на голос пользователя и типу распознаваемой речи.
Представлены методы акустико-фонетического моделирования разговорной речи. Основными подходами к моделированию вариативности произношения в разговорной речи являются методы, основанные на данных, и методы, основанные на знаниях. Эти методы, в свою очередь, делятся на прямые и косвенные. В методах, основанных на знаниях, прямое моделирование осуществляется путем последовательного анализа каждой базовой транскрипции и добавления альтернативных вариантов произношения с учетом знаний эксперта. При косвенном моделировании используется некоторый набор правил редукции и ассимиляции звуков, которые приметаются для синтеза альтернативных транскрипций по имеющемуся списку базовых транскрипций. При прямом моделировании в методах, основанных на данных, в качестве альтернативных транскрипций используются только часто встречающиеся в обучающем корпусе варианты произношения слов. При косвенном
моделировании выявляются наиболее характерные изменения в произпошении одинаковых цепочек фонем в различных словах, то есть по речевому корпусу определяют правила наиболее типичных изменений на уровне фонем. Наиболее перспективными следует признать комбинированные методы моделирования вариативности произношения.
Представлен обзор методов языкового моделирования разговорной речи на основе разновидностей л-грамм. л-граммы представляют собой последовательность из п элементов (например, слов), а л-граммная модель языка используется для предсказания элемента в последовательности, содержащей л-1 предшественников. Проанализированы расширенные модели, основанные на классах слов, триггерные модели, модели, основанные на частях слов, включая морфемы, далыюдействующие и категорные модели. Наиболее перспективными для русского языка следует признать комбинированные методы, объединяющие как статистический, так и грамматический анализ.
Проведен аналитический обзор существующих систем распознавания речи с большим и сверхбольшим словарем. Анализ публикаций показал, что на данный момент фактически не существует систем распознавания русской речи со сверхбольшим словарем. Кроме того, ведущиеся исследования не учитывают особенности грамматики русского языка при построении и применении языковых моделей, а используют только базовые статистические методы обработки текста. Поэтому в диссертации предложены методы фонетико-языкового моделирования, ориентированные на обработку русской речи.
Во второй главе описан разработанный метод и алгоритм создания фонематических транскрипций слов, учитывающих вариативность произношения в разговорной речи.
В начале главы дана формальная постановка задачи моделирования фонетических единиц речи. Имеется множество слов, для которых необходимо
создать транскрипции 5 = .....,*„}, где И- количество слов. Тогда словарь,
содержащий базовые и альтернативные транскрипции- г = {у,.....V,.....Уд,}, его
элемент представляет собой пару V,. =< о,,7; >, где О, - орфографическое написание 1-го слова, Т\ - множество транскрипций для 1-го слова. Орфографическое написание 1-го слова представлено в виде вектора: о, = (о".....о'),
где х - длина слова в буквах, о,е £, где £ ={/,,,/,...../„}- множество букв русского
языка, /0 - символ ударения. Множество транскрипций для 1-го слова т, »,',../,*} включает базовую транскрипцию 1-го слова и множество альтернативных транскрипций ^,.■•,'7}. <р - количество альтернативных транскрипций для слова ¡, </ , и>/е У , где У={уъ..., уА6} - множество фонем русского языка и речи.
Базовый словарь системы распознавания речи г° строится только на
основе базовых транскрипций слов, элементы словаря представляют собой множество пар у" =<0,,/" >. Также формируется частотный фонематический словарь: У'"1где у/"" =<о,,т;,/=;.>, частота появления базовой и
альтернативных транскрипций для 1-го слова представляет собой множество F, .../"}, где f/ex - множество натуральных чисел.
Обучение акустико-фонетических единиц для системы распознавания речи производится по обучающему корпусу речи D=<C,fl/(>, состоящему из орфографического С, фонематического В, акустического А представления текстовых данных. Орфографическое представление текстовых данных обучающего речевого корпуса содержит некоторую последовательность слов- С=(с],...где у/ - количество слов в обучающем корпусе. Фонематическое представление звуковых данных этого речевого корпуса имеет вид: B=(b\,...,bv). Акустическое представление речевого сигнала, состоящего из последовательности цифровых отсчетов: А=(аи.. .,аа).
При создании базовых транскрипций словаря У° используется множество канонических фонетических правил транскрибирования: Q={q\,--.,qA, где - количество правил словообразования. Для расширения словаря V> и формирования словаря V можно использовать две группы правил: 1) множество правил внутрисловной и межсловной редукции: R={rb...,rp}, где р- количество правил редукции; 2) множество правил межсловной ассимиляции звуков речи: H={hi,...,hf,}, где ft- количество правил ассимиляции.
Тогда с учетом введенных элементов задачу акустико-фонетического моделирования речи можно сформулировать следующим образом. Для заданного обучающего корпуса D на основе базовых правил транскрибирования Q и комбинации правил редукции R и ассимиляции А требуется построить множество альтернативных транскрипций Г, для множества слов S, произвести последующий отбор с учетом частоты их встречаемости F, в речевом корпусе и сформировать словарь к'"1, содержащий базовые и альтернативные транскрипции. Указанная задача может быть представлена в виде последовательности отображений:
S в ) у О К.Ч ) у Г) ) yfreq F ? ybes,
В диссертации приведены базовые правила фонематического транскрибирования, которые применяются для создания канонических транскрипций слов. Для их создания использовалась база данных словоформ русского языка с отмеченным ударением, полученная в результате объединение двух баз данных, доступных в Интернете: 1) созданная в ходе проекта STARLING; 2) являющаяся частью морфологического анализатора, разработанного A.B. Сокирко. Объем объединенной базы данных превысил 2 млн 300 тыс. различных словоформ. Канонические правила транскрибирования слов, применяемые для изолированной речи, не полностью соответствуют разговорному стилю речи, поскольку не учитывают явлений редукции и межсловной ассимиляции звуков. В данной работе были проанализированы и адаптированы для задачи распознавания разговорной русской речи правила учета возможной редукции и
ассимиляции звуков речи, предложенные фонетистами. Для осуществления автоматического транскрибирования текста был разработан метод, позволяющий получить фонематическую транскрипцию из любого исходного текста или отдельных слов. Схема метода транскрибирования русскоязычных текстов показана на рисунке 1.
Список слов
Набор базовых фонетических правил
Набор правил внутрисловной и межсловной редукции
Набор правил межсловной ассимиляции звуков
Обучающий корпус речи
Словарь с наилучшими альтернативными транскрипциями___
32.
Обучение моделей фонем с учетом экспертной разметки речевых данных
Ж
Переобучение моделей фонем с автоматической разметкой
А
Принудительное выравнивание транскрипций
Расстановка ударений в < о
словах
^
в Базовое фонетическое
транскрибирование
я Учет внутрисловной и
межсловной редукции звуков
Л
н Учет межсловной
ассимиляции звуков
Словарь словоформ с ударениями
Базовый фонематический словарь
Полный фонематический словарь
Частотный фонематический словарь
&
ybe.it Выбор часто употребляемых
транскрипций по порогу
Рис. 1. Схема метода генерации фонематического словаря системы распознавания речи
Вначале создаются базовые транскрипции словоформ. После чего полученный список базовых транскрипций поступает на уровень учета внутрисловной и межсловной редукции, где для каждой базовой транскрипции слова определяется, какие фонемы подвержены редукции. Если таких потенциальных фонем в слове больше одной, то производится
генерация всех возможных вариантов транскрипций, учитывающих данные редукции. Далее на уровне учета межсловной ассимиляции производится анализ первых и последних фонем в транскрипции, в случае обнаружения фонем, подверженных ассимиляции, производится генерация всех возможных вариантов транскрипций. Полученный таким образом набор транскрипций теоретически должен содержать все варианты произношений, которые могут возникать в разговорной речи различных людей.
В качестве вероятностных моделей фонем используется набор непрерывных скрытых Марковских моделей (СММ) первого порядка с тремя состояниями. Начальное создание и обучение моделей фонем производится с учетом экспертной разметки части речевого корпуса, а затем модели дополнительно обучаются с использованием автоматической разметки. Для выбора из множества альтернативных транскрипций и сокращения избыточности словаря осуществляется их принудительное выравнивание (forced alignment), при котором распознаватель выбирает из списка альтернативных транскрипций наиболее подходящую речевому сигналу и сегментирует сигнал на фонемы с их временными метками. В этом случае выбор транскрипции происходит только между альтернативными транскрипциями одного и того же слова, а не между транскрипциями разных слов. Для уменьшения избыточности словаря производится анализ того, насколько часто каждая альтернативная транскрипция выбиралась в ходе обучения, и создается частотный словарь транскрипций. Таким образом, в итоговый расширенный словарь добавляются только те транскрипции, относительная частота появления которых выше определенного задаваемого эмпирически порога k,ranjreqt с которым сравнивается отношение числа появлений транскрипции в речевом корпусе к числу появлений слова в орфографическом представлении обучающего корпуса D:
В результате создается расширенный словарь фонематических транскрипций, содержащий наилучшие транскрипции для каждого слова.
Третья глава описывает процесс создания стохастической модели языка. В начале главы представлено формальное описание модели языка. Текстовые данные, собранные для обучения модели языка: Х=(х\,...^сх), где Х- количество слов. Нормализованный обучающий текстовый корпус: 2=(2\,...^а), где а- количество слов в обучающем текстовом корпусе. Множество и-грамм слов: и»"={,{'•',...,„'"}, где <"=^.9,**"), где - л-грамма
= (?■""'■■■■,яГ'Ь гДе п~ размерность л-грамм, в'"1 - частота появления п-граммы в обучающем корпусе. Статистическая модель языка:
добавить t в словарь V*™
иначе, пропустить i
мх""={п*1'а\...,т;!'"}> т™=(<"",р'Г) > Где р."1' - вероятность появления «-граммы.
Множество /?-грамм слов, полученных в результате синтаксического анализа: и'уы ={<;>,,,',.„,«Г,}> где е/1'") , где е?ы - грамматически связанная
пара слов, е»" = - частота ее появления в обучающем корпусе.
Синтаксическо-статистическая модель языка: м*"* »{иГ-.....м?"}, т*уЫ =(е;уп,,р?ш),
где р^ - вероятность появления «-граммы по обучающим данным.
С учетом введенных элементов задачу языкового моделирования можно сформулировать следующим образом. Для заданного обучающего текстового корпуса 2 на основе статистического и синтаксического анализа текста требуется построить модель языка Ыуп\ отражающую обучающие данные: х пигя г ■'"" >и*"",г тп" , и=и"а'ии*уп1, и—.
Для создания модели языка используется корпус, сформированный из текстовых данных интернет-сайтов ряда электронных газет. Схема метода обработки текстового корпуса и создания и-граммной модели языка представлена на рисунке 2.
Нормализованный текстовый корпус
Предварительная обработка данных
Статистический анализ
л-граммная модель языка
Исходные текстовые данные
Списки л-грамм слов
Синтаксический анализ
ж:
Выявление синтаксических -¡2}
групп
Синтаксические группы
Объединение списков п-грамм
ЛГ" Создание //-граммной модели 1ТШ
Ж
1Г
и
Создание расширенной модели
-У
Рис. 2. Схема метода создания модели языка
Вначале происходит разбиение текстового массива на предложения, при этом предложения, содержащие прямую и косвенную речь, разделяются на отдельные предложения, кроме того, точка с запятой считается границей раздела двух предложений. Начало и конец предложения отмечаются метками <б> и </в> соответственно. Удаляются повторяющиеся предложения. Затем происходит удаление текста, написанного в любых скобках, удаление предложений, состоящих из пяти и меньшего количества слов (как правило— это заголовки, составленные не по грамматическим правилам для полных предложений). Затем происходит расшифровка общепринятых сокращений, знаки препинания из текста удаляются. Общий объем собранного корпуса после его обработки и нормализации составляет свыше 110 млн словоупотреблений (около 750 Мб данных).
Проведен анализ, насколько словарь словоформ русского языка с ударениями 0={оь...,описанный в главе 2, покрывает обрабатываемый текстовый корпус. Для этого вычисляется относительное количество внесловарных (ои1-оГ-уосаЬи1агу) слов, которое определяется как:
Л=1^£1.Ю0% т
На рисунке За представлен график отношения количества уникальных словоформ и внесловарных словоформ к общему количеству словоформ в зависимости от размера текстового корпуса. График показывает, что с ростом размера текстового корпуса относительное количество уникальных словоформ, встречающихся в этом корпусе, падает и составляет менее 2 % при размере текстового корпуса в 60 млн словоформ.
6«.
в 4% ■9-
1%
0»,
45 I
10 30 40 50 60
Ра шер текстового корпуса (шли. слов)
—уникальные слово формы
—уникальные словоформы, отсутсвгощпе в словаре
.....словоформы, отсутсвукчцпев словаре
а)
10 100 Частота встречаемости
Бпграммы — Триграммы
б)
Рис. 3. Статистический анализ текстового корпуса: а) Зависимость относительного количества словоформ от размера корпуса; б) Распределение частоты встречаемости различных и-грамм
На базе собранного русскоязычного текстового корпуса был создан частотный словарь, размер которого составляет 937 тыс. уникальных словоформ. Статистическая модель языка была создана с помощью открытого программного модуля обработки и анализа текстов СМ1Г БЬМ. На рисунке 36 представлены графики распределения (рейтинговые оценки) частот встречаемости биграмм и триграмм в собранном текстовом корпусе. Эти графики показывают, что в текстах присутствует достаточно много редких и-грамм. Почти 50 млн уникальных биграмм встретились в текстовом корпусе только один раз. Зачастую, это «-граммы, содержащие слова, написанные с опечатками. Поэтому для сокращения списка и-грамм и
скорости обработки целесообразно удалять редкие «-граммы. Для этого вводится порог К[геч, и л-граммы, у которых частота появления меньше удаляются из модели языка:
В данной работе были созданы модели с различными значениями порога. В ходе экспериментов по распознаванию речи с использованием моделей языка с различными значениями порога был выбран порог
Затем для слов, которые использовались в этих моделях языка, были автоматически созданы транскрипции, «-граммы со словами, для которых транскрипции не могли быть созданы автоматически, были удалены из модели языка. Таким образом, в биграммной модели количество уникальных словоформ составило 208 тыс., количество биграмм — 6,01 млн. Также были созданы униграммпые и триграммные модели. Кроме того, была создана униграммная модель с полным словарем 2 млн словоформ, в которую вошли все слова из базы данных словоформ с ударениями. В этой модели частота словоформ, которые присутствовали в обучающем текстовом корпусе, равна частоте их появления в этом корпусе, остальным словоформам приписывалась частота встречаемости, равная единице.
Вследствие нежесткого порядка слов в русском языке многие грамматически связанные пары слов оказываются в предложении разделены другими словами, и в результате при статистическом анализе текста не появляются биграммы, содержащие такие пары слов, а л-граммные модели языка оказываются недостаточно эффективными. Увеличить количество создаваемых в результате обработки обучающего текста различных л-грамм и тем самым повысить качество модели языка позволяет выявление грамматически связанных пар слов за счет синтаксического анализа предложений обучающего корпуса.
В данной работе был использован открытый модуль синтаксического анализа русскоязычных текстов У1зиа18упап 1.0 проекта АОТ. Процесс создания расширенной биграммной модели языка показан на рисунке 2. После выполнения синтаксического анализа производится обработка полученных результатов, выявляются грамматически связанные пары слов (синтаксические группы), которые были разделены в тексте другими словами, то есть дальнодействующие связи. Эти пары слов добавляются к списку биграмм, полученному в результате статистической обработки.
В результате синтаксического анализа обучающего текстового корпуса было получено 900 тыс. новых биграмм с частотой появления больше единицы. Таким образом, общее число биграмм в расширенной модели языка составило 6,9 млн, то есть размер синтаксическо-статистической модели языка вырос на 15 % по сравнению с базовой моделью. Были вычислены значения информационной энтропии и коэффициента неопределенности
О^К1™1, оставить и. в множестве и иначе, удалить и1 из 17
расширенной модели языка. Величина информационной энтропии составила 9,59 бит/слово, коэффициент неопределенности - 772. Полученные значения коэффициента неопределенности и информационной энтропии являются достаточно большими. Например, для английского языка при размере словаря в 200 тыс. слов, коэффициент неопределенности для биграммной модели языка равен 232.
В четвертой главе представлен комплекс программных средств для обработки и распознавания разговорной русской речи, в котором реализованы описанные выше модели, методы и алгоритмы. Комплекс включает в себя следующие элементы: блок обучения моделей акустических единиц речи, блок предварительной обработки текстового материала, блок создания транскрипций слов, блок выбора наилучших транскрипций, блок создания стохастической модели языка, блок распознавания речи. Комплекс программных средств предназначается для автоматического распознавания (декодирования) слов и фраз слитной русской речи, поступающей в виде звукового сигнала непосредственно от микрофона или из базы данных.
Для тестирования разработанных методов создания альтернативных транскрипций были проведены эксперименты по дикторонезависимому распознаванию слитно произнесенных слов из речевого корпуса, содержащего записи произнесений номеров телефонов длиной до семи слов. При распознавании речи с базовым словарем объемом в 37 слов количество неправильно распознанных слов составило 3,72 %. После применения правил редукции и ассимиляции объем словаря увеличился по отношению к базовому более чем в 7 раз и составил 264 транскрипции. При этом количество неправильно распознанных слов уменьшилось на 0,07 %. После исключения из словаря тех транскрипций, которые ни разу не выбрались при обучении, объем словаря составил 181 транскрипцию. Введение порога позволило повысить точность распознавания. Наименьшее количество неправильно распознанных слов (3,38 %) было достигнуто при пороге При данном пороге для каждого слова в среднем было по 2,03 транскрипции. Таким образом, автоматическое создание альтернативных транскрипций позволило уменьшить ошибку на 10 % (в относительных значениях) по отношению к распознаванию с базовыми транскрипциями.
Для тестирования системы распознавания с использованием различных моделей языка был записан корпус слитной речи. В корпус вошли 100 слитно произнесенных фраз длиной до 20 слов, состоящих из 1068 слов (7191 графемы); фразы взяты из материалов интернет-газеты «Фонтанка.ги». Результаты распознавания слов и графем (под графемами понимаются буквы и знак пробела) с применением различных моделей языка представлены в таблице 1. Применение моделей языка позволило существенно повысить точность распознавания по отношению к распознаванию с использованием нульграммной модели языка (то есть при распознавании только на базе словаря и акустических моделей фонем). Наилучшие результаты были
достигнуты при применении расширенной биграммной модели с синтаксическим анализом (СА).
Таблица 1. Результаты распознавания слов и графем с использованием
различных моделей языка
Тип модели языка Размер словаря, тыс. слов Ошибка распозн. слов, % Ошибка распозн. графем, %
З-граммы 208 96,63 39,83
1-граммы 208 69,94 32,53
1 -граммы 2350 69,52 32,60
2-граммы 79 65,36 29,59
2-граммы 208 53,18 24,46
2-граммы с СА 210 52,25 24,39
3-граммы 76 68,82 35,16
Эксперименты по распознаванию с применением словарей различного объема показали, что использование словарей объемом не менее 200 тыс. слов является оптимальным. Словарь объемом менее 100 тыс. слов является недостаточным для распознавания русской речи из-за большого количества внесловарных слов, однако увеличение размера словаря до 2 млн слов не привело к улучшению точности распознавания, поскольку словарь в 200 тыс. слов достаточно хорошо покрывает тестовые данные.
Кроме того, предложено использовать специальный показатель ошибки распознавания для флективных языков в качестве меры оценки качества работы системы распознавания речи. Этот показатель ошибки распознавания приписывает вес всем ошибкам, которые привели к изменению лексемы (грубая ошибка распознавания - замена лексемы) и вес к^_2 всем ошибкам в словах, где было неверно распознано окончание словоформы, но лексема слова осталась правильной (негрубая ошибка Б2 - замена окончания). При этом весовые коэффициенты £,„/ ь к,„/_2, могут задаваться экспертом и принимать значения в диапазоне [0, 1], но кы(_\ > к,„/_2. В этом случае флективная ошибка распознавания слов в речи будет вычисляться следующим образом:
1 + 0 + ктТ ,•5, Ем =--- - 100%
где N— общее число слов в распознаваемом сообщении, / и £) — количество вставленных и удаленных слов соответственно.
В данной работе были использованы значения весовых коэффициентов кшс_1=1,0, 2=0,5. В этом случае флективная ошибка распознавания слов при распознавании речи из тестового корпуса с применением синтаксическо-статистической модели языка составила 48,08 %.
ЗАКЛЮЧЕНИЕ
В ходе исследований, представленных в диссертации, были получены следующие основные результаты:
1. Разработаны метод и алгоритм автоматической генерации базовых и возможных альтернативных транскрипций по орфографическому представлению слов и фраз.
2. Предложен метод создания расширенной синтаксическо-статистической биграммной модели, в которую добавляются выявляемые за счет синтаксического анализа текстового корпуса грамматически связанные пары слов, разделенные в обучающем тексте другими словами (дальнодействующие биграммы).
3. Для обучения и оценивания системы распознавания речи со сверхбольшим словарем записан и размечен речевой корпус, содержащий слитно произнесенные дикторами русскоязычные фразы длиной до 20 слов.
4. Предложен показатель оценки качества работы системы распознавания речи в виде флективной точности распознавания слов, который подразделяет ошибки распознавания на грубые (приводящие к изменению лексемы) и негрубые (ошибки в окончаниях словоформы).
5. Реализован комплекс программных средств для обработки и распознавания разговорной русской речи, объединяющий предложенные модели, методы и алгоритмы.
Совокупность предложенных методов, моделей и программных средств акустико-фонетического моделирования вариативности произношения слов и синтаксическо-статистического моделирования языка, а также их практическая реализация представляют собой решение актуальной научно-технической задачи повышения точности автоматического распознавания разговорной русской речи. Полученные результаты соответствуют п.7 «Человеко-машинные интерфейсы» Паспорта специальности 05.13.11 -«Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей» (редакция от 18 января 2011 года).
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
В рецензируемых журналах из списка ВАК:
1. Кипяткова И.С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-управляющие системы. № 4(53), 2011, С. 53-59.
2. Кипяткова И.С. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи / Кипяткова И.С., Карпов A.A. // Информационно-управляющие системы. № 4(47), 2010, С. 2-8.
3. Кипяткова И.С. Учет особенностей спонтанной речи при создании систем автоматического распознавания / Леонтьева А.Б., Кипяткова И.С. // Известия вузов. Приборостроение. № 11 (51), 2008. С. 51-56.
В других изданиях:
4. Kipyatkova I, Very Large Vocabulary ASR for Spoken Russian with Syntactic and Morphemic Analysis / Karpov A., Kipyatkova I., Ronzhin A. // In Proc. INTERSPEECH-2011 International Conference, ISCA, Florence, Italy, 2011.
5. Кипяткова И.С. Опыт разработки модели распознавания речи со сверхбольшим словарем / Кипяткова И.С., Карпов A.A. // Материалы Международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» (OSTIS-2011), Минск, Беларусь, 2011, С. 409-412.
6. Кипяткова И.С. Разработка и исследование статистической модели русского языка / Кипяткова И.С., Карпов A.A. // Труды СПИИРАН. СПб: СПИИРАН, №1(12), 2010, С. 35-49.
7. Kipyatkova I. Client and Speech Detection System for Intelligent Infokiosk. / Ronzhin A., Karpov A., Kipyatkova I., Zelezny M. // Springer-Verlag Berlin Heidelberg, Petr Sojka et al. (Eds.): TSD 2010, LNAI 6231, 2010, pp. 560-567.
8. Кипяткова И.С. Исследование статистических n-граммных моделей языка для распознавания слитной русской речи со сверхбольшим словарем. Труды четвертого междисциплинарного семинара «Анализ разговорной русской речи» (АРЗ - 2010), 2010, С. 33-40.
9. Кипяткова И.С. Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря / Кипяткова И.С., Карпов A.A. // Труды СПИИРАН. СПб: СПИИРАН, №1(12), 2010, С. 63-74.
10. Kipyatkova I. Multimodal Human Computer Interaction with MIDAS Intelligent Infokiosk / Karpov A., Ronzhin A., Kipyatkova I., Ronzhin Al., Akarun L. // In Proc. 20-th International Conference on Pattern Recognition, IAPR Association, Turkey, Istanbul, 2010, pp. 3862-3865.
11. Кипяткова И.С. Разработка и оценивание модуля транскрибирования для распознавания и синтеза русской речи / Кипяткова И.С., Карпов A.A. // Искусственный интеллект, Донецк, Украина, №3, 2009, С. 178-185.
12. Kipyatkova I. Designing Cognition-centric Smart Room Predicting Inhabitant Activities / Ronzhin A., Karpov A., Kipyatkova I. // Springer, D.D. Schmorrow et al. (Eds.): Augmented Cognition, HCII 2009, LNAI 5638, 2009, pp. 78-87.
13. Kipyatkova I. Creation of Multiple Word Transcriptions for Conversational Russian Speech Recognition/ Kipyatkova I., Karpov A. // In Proc. 13th International Conference "Speech and Computer" SPECOM'2009, St. Petersburg, 2009, pp. 7175.
14. Кипяткова И.С. Модуль фонематического транскрибирования для системы распознавания разговорной русской речи / Кипяткова И.С., Карпов А.А. // Искусственный интеллект, Донецк, Украина, №4, 2008, С. 747-757.
15. Кипяткова И.С. Обзор подходов к моделированию спонтанной речи // Труды второго междисциплинарного семинара «Анализ разговорной русской речи» (АРЗ - 2008), 2008, С. 70-77.
16. Kipyatkova I. An algorithm of generation of alternative phonetic transcriptions for spontaneous Russian speech recognitions. In Proc. International forum "Information and communication technologies. Problems, perspectives", St. Petersburg, 2008. pp. 45-48.
17. Кипяткова И.С. Моделирование нефонемных речевых элементов и создание альтернативных транскрипций для распознавания спонтанной речи / Леонтьева Ал.Б., Кипяткова И.С. // Труды первого междисциплинарного семинара «Анализ разговорной русской речи» (АР3 - 2007). - СПб.: ГУАП, 2007, С. 77-85.
Свидетельства о регистрации ПрЭВМ и баз данных
18. Свидетельство о регистрации ПрЭВМ №2011613965 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 23.05.2011: Кипяткова И., Карпов А., Ронжин А. Компьютерная программа для удаленной экспертной поддержки автоматизированной интеллектуальной информационной системы - MIDAS Wizard.
19. Свидетельство о регистрации ПрЭВМ №2010617640 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 18.11.2010: Ронжин А., Карпов А., Кипяткова И. Многомодальный пользовательский интерфейс для интеллектуальной информационной системы.
20. Свидетельство о регистрации базы данных №2011620085 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 28.01.2011: Карпов А., Ронжин А., Кипяткова И. Мультимедиа корпус аудиовизуальной русской речи - RusAVSpeechCorpus.
21. Свидетельство об отраслевой регистрации разработки №9525 от 25.11.2007: Кипяткова И.С. Создание альтернативных транскрипций слов для моделирования вариативности произношения в системах голосового управления.
Подписано в печать 20.09.2011. Формат 60x90/16 Бумага офсетная. Усл. печ. л. 1,25 Тираж 100 экз. Заказ 428
Отпечатано в типографии ООО «Адмирал»
199048, Санкт-Петербург, В. О., 6-я линия, д. 59 корп. 1, оф. 40Н
Оглавление автор диссертации — кандидата технических наук Кипяткова, Ирина Сергеевна
Введение.
Положения, выносимые на защиту.
Глава 1. Анализ подходов к фонетико-языковому моделированию разговорной речи.
1.1 Основные методы автоматического распознавания речи.
1.2 Методы моделирования вариативности произношения в разговорной речи.
1.3 Методы языкового моделирования разговорной речи.
1.4 Аналитический обзор систем распознавания русской речи с большим словарем.
1.4.1 Обзор автоматических систем распознавания русской речи.
1.4.2 Обзор систем распознавания речи со сверхбольшим словарем.
1.5 Выводы по главе 1.
Глава 2. Моделирование фонетических единиц разговорной русской речи.
2.1 Орфографико-фонематическое преобразование слов.
2.1.1 Используемый фонемный алфавит.
2.1.2 Определение положения ударения в слове.
2.1.3 Базовые правила фонематического транскрибирования слов.
2.1.4 Правила транскрибирования, учитывающие возможную редукцию и ассимиляцию звуков речи.
2.2 Метод автоматического создания базовых и альтернативных транскрипций.
2.3 Анализ частотности правил редукции и ассимиляции.
2.4 Правила транскрибирования текстов.
2.5 Оценка работы метода транскрибирования.
2.6 Выводы по главе 2.
Глава 3. Языковое моделирование разговорной русской речи.
3.1 Сбор и статистическая обработка обучающего текстового корпуса.
3.1.1 Нормализация текстовых данных.
3.1.2 Автоматический анализ текстовых данных.
3.2 Создание базовой статистической модели русского языка.
3.3 Метод создания модели языка с использованием синтаксического анализа.
3.3.1 Элементы синтаксического анализа русского языка.
3.3.2 Создание синтаксическо-статистической модели русского языка.
3.4 Оценка созданной модели языка.
3.4.1 Вычисление энтропии и коэффициента неопределенности.
3.4.2 Вычисление количества внесловарных слов и совпадений я-грамм.
3.5 Выводы по главе 3.
Глава 4. Комплекс программных средств для распознавания разговорной русской речи.
4.1 Архитектура комплекса программных средств для обработки и распознавания речи.
4.1.1 Блок обучения моделей акустических единиц речи.
4.1.2 Блок предварительной обработки текстового материала.
4.1.3 Блок создания фонематических транскрипций слов.
4.1.4 Блок выбора наилучших транскрипций.
4.1.5 Блок создания стохастической модели языка.
4.1.6 Блок распознавания речи.
4.2 Эксперименты по распознаванию русской речи с использованием разработанного программного комплекса.
4.2.1 Критерии оценки качества распознавания речи.
4.2.2 Результаты экспериментов по распознаванию речи с применением множественных вариантов транскрипций.
4.2.3 Результаты распознавания русской речи при использовании различных моделей языка.
4.3 Выводы по главе 4.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Кипяткова, Ирина Сергеевна
Актуальность темы диссертации. Большинство современных систем автоматического распознавания речи способны эффективно анализировать только изолированно произнесенные слова или прочитанные фразы. Распознавание разговорной речи затрудняется ее вариативностью: различные дикторы могут произносить одно и то же слово по-разному, кроме того, произношение одного и того же диктора может меняться в зависимости от контекста и темпа речи. Поэтому при разработке систем распознавания разговорной речи важно учитывать вариативность произношения слов.
Для функционирования системы автоматического распознавания речи необходим словарь слов с их орфографическим и фонематическим представлением, который обычно создается с использованием канонических фонетических правил транскрибирования для определенного языка. Для разговорного стиля речи характерны явления ассимиляции (объединения звуков), а также редуцирования (сокращения длительности определенных звуков вплоть до полного исчезновения), причем эти явления могут возникать как внутри слова, так и на стыках слов. Это приводит к значительному снижению точности автоматического распознавания речи. Для учета явлений фонетической редукции и ассимиляции необходимо расширить словарь системы распознавания путем добавления альтернативных вариантов произношения слов к базовым. То есть для каждого слова в словаре должны содержаться транскрипции, которые описывают потенциально возможную вариативность произношения слов, характерную для разговорной речи.
Альтернативные транскрипции могут быть созданы экспертным путем, однако это является трудоемким процессом и, кроме того, при создании новой системы с другим словарем придется создавать транскрипции заново. Для решения указанных проблем в работе предложен метод автоматической генерации альтернативных транскрипций на основе применения разработанных правил, учитывающих явления редукции и ассимиляции звуков русской речи.
Следующим этапом после распознавания слов является генерация грамматически правильных и осмысленных гипотез произнесенной фразы с помощью некоторой модели языка. Одним из подходов к построению языковых моделей являются статистические «-граммы, которые оценивают вероятность появления слова в зависимости от последовательности из п произнесенных до этого слов. Существующие модели в большинстве исследований были апробированы на английском языке и, как следствие, не отвечают специфике русского языка, для которого характерен практически свободный порядок слов в предложениях и наличие большого количества словоформ в каждой лексеме. Для того чтобы учесть дальнодействующие связи между словами во фразе, в работе предложена модифицированная языковая модель, при создании которой производится одновременно синтаксический и статистический анализ обучающих текстовых данных.
Экспертный анализ обучающих акустических, фонетических, текстовых данных при создании систем распознавания речи - трудоемкий процесс, значительно препятствующий внедрению речевых технологий, поэтому разработка математического и программного обеспечения, направленного на автоматизацию способов создания фонетико-языковых моделей русской разговорной речи, приобретает особую актуальность.
Целью диссертационной работы является разработка методов, алгоритмов и программных средств акустико-фонетического моделирования вариативности произношения слов и синтаксическо-статистического моделирования языка для повышения точности распознавания разговорной русской речи. Для достижения поставленной цели в работе решены следующие задачи:
1. Анализ современных методов и подходов к фонетико-языковому моделированию разговорной речи.
2. Разработка методов и алгоритмов для создания множественных транскрипций, учитывающих различные варианты возможного произнесения одного и того же слова в разговорной речи, и коррекция транскрипций по обучающему корпусу.
3. Разработка методов и программных средств статистического и синтаксического анализа обучающих текстовых корпусов для создания эффективной стохастической модели русского языка.
4. Разработка программных средств и количественное оценивание качества автоматического распознавания разговорной русской речи со сверхбольшим словарем.
Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки сигналов, теории информации, теории множеств, статистического анализа, автоматического анализа текста. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.
Научная новизна работы состоит в следующем:
1. Разработан комбинированный метод генерации множественных вариантов акустико-фонематических транскрипций слов для словаря системы распознавания разговорной русской речи, отличающийся объединением методов, основанных на знаниях и данных, полученных при анализе речевых корпусов.
2. Разработана стохастическая модель русского языка системы автоматического распознавания речи, отличающаяся совместным применением статистического и синтаксического анализа обучающих текстовых данных и позволяющая учесть дальнодействующие грамматические связи между словами во фразе.
3. Создан комплекс программных средств по обработке разговорной русской речи, отличающийся применением разработанных методов фонетико-языкового моделирования и возможностью оперативного обновления моделей при разработке систем автоматического распознавания русской речи со сверхбольшим словарем.
Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.
Практическая ценность работы. Разработанные модели, алгоритмы и программные средства для фонетико-языкового моделирования направлены на решение проблемы повышения точности автоматического распознавания разговорной русской речи и сокращение объема экспертной работы на этапе обучения систем распознавания. Метод фонематического транскрибирования, реализованный в комплексе программных средств, позволяет создавать как базовые фонематические транскрипции для списка независимых слов, так и альтернативные транскрипции слов, которые учитывают различные варианты возможного произнесения одного и того же слова в разговорной речи, а также позволяет моделировать вариативность произношения слов в разговорной речи. Предложенный метод позволяет создавать и обучать посредством речевого корпуса акустико-фонетические модели речевых единиц. Предложенная в работе модель языка создается за счет объединения результатов статистического и синтаксического анализа текстов. Использование дополнительного синтаксического анализа обучающего корпуса при создании модели языка позволяет учесть дальнодействующие грамматические связи между словами в предложении и тем самым расширить модель языка. Модель позволяет увеличить точность распознавания русской речи, сохранив при этом приемлемую скорость распознавания.
Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: НИР Министерства образования и науки РФ «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК №14.740.11.0357, 2010
2012 гг. и «Разработка методов, моделей и алгоритмов для автоматического распознавания аудиовизуальной русской речи», ГК №П2579, 2009-2011 гг. в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России»; грант РФФИ № 08-08-00128-а «Моделирование нефонемных речевых элементов и создание альтернативных транскрипций для распознавания спонтанной русской речи»; гранты Комитета по науке и высшей школе Правительства Санкт-Петербурга для молодых ученых №26-05/051 «Разработка программного модуля преобразования «буква-фонема» для системы стенографирования разговорной русской речи» 2009 г. и «Разработка программного модуля языкового моделирования системы стенографирования разговорной русской речи» 2010 г.
Апробация результатов работы. Результаты диссертационного исследования представлялись на Международной конференции «Речь и Компьютер» БРЕСОМ (Санкт-Петербург, 2009), Международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» (08Т18-2011) (Минск, 2011), Международной филологической конференции (Санкт-Петербург, 2008, 2009, 2011), междисциплинарном семинаре «Анализ разговорной русской речи» (2007, 2008, 2010), Международной научно-практической конференции «Искусственный интеллект. Интеллектуальные системы» ИИ-2008 (Кацивели, Украина, 2008); Международной конференции «Региональная информатика» (Санкт-Петербург, 2010).
Публикации. По материалам диссертации опубликовано 22 печатные работы, включая 3 публикации в ведущих научных журналах, рекомендованных ВАК («Известия вузов. Приборостроение» и «Информационно-управляющие системы»), получены 4 свидетельства об официальной регистрации программ и базы данных в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.
Структура и объем работы. Диссертация объемом 136 машинописных страниц, содержит введение, четыре главы и заключение, список литературы
Заключение диссертация на тему "Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи"
4.3 Выводы по главе 4
1. Модели, методы и алгоритмы, описанные в главах 2 и 3 были реализованы в виде единого комплекса программных средств для обработки и распознавания разговорной русской речи. Комплекс включает в себя следующие блоки: блок обучения моделей акустических единиц речи, блок предварительной обработки текстового материала, блок создания транскрипций слов, блок выбора наилучших транскрипций, блок создания стохастической модели языка, блок распознавания (декодирования) речи. Комплекс программных средств предназначается для автоматического распознавания (декодирования) слов и фраз слитной русской речи, поступающей в виде звукового сигнала непосредственно от микрофона или из базы данных.
2. Для блока предварительной обработки текстового материала был разработан программный модуль нормализации текста; для блока создания транскрипций слов были созданы программные модули определения ударной гласной в слове, создания базовых транскрипций для слов и для аббревиатур, создания альтернативных транскрипций; для блока отбора наилучших транскрипций были разработаны модули подсчета частоты выбора альтернативных транскрипции и выбора часто* употребляемых транскрипций по порогу; для блока создания и-граммной, модели языка разработаны программные модули обработки результатов синтаксического анализа, объединения списков и-грамм, удаления я-грамм с частотой появления, меньшей заданного порога, я-грамм со словами, отсутствующими в словаре, «-грамм со словами, присутствующими не во всех позициях.
3. Для тестирования разработанных методов создания; альтернативных транскрипций были проведены эксперименты по дикторонезависимому распознаванию слитно произнесенных фраз и слов из речевого корпуса, содержащего записи произнесений номеров телефонов длиной до семи слов. Проведенный анализ результатов экспериментов по распознаванию речи показал, что при использовании автоматически созданных альтернативных транскрипций точность распознавания как слов целиком, так и фраз увеличилась по отношению к распознаванию с использованием только базовых транскрипций слов.
4. Для обучения и тестирования системы распознавания речи со сверхбольшим словарем, использующей различные модели языка, записан и размечен речевой корпус, содержащий реальные слитно произнесенные фразы длиной до 20 слов.
5. Предложена мера оценки качества работы системы распознавания речи в виде флективной точности распознавания, которая приписывает вес 1,0 всем ошибкам, которые привели к изменению лексемы и вес 0,5 всем ошибкам в словах, где было неверно распознано окончание словоформы, но лексема слова осталась правильной.
6. Проведены эксперименты по распознаванию слитно произнесенных фраз из тестового корпуса, которые показали, что применение созданных моделей языка позволяет получить точность распознавания слов русской речи на уровне 50 %, а также точность распознавания графем на уровне 15%. Наилучшие результаты были получены с применением предложенной синтаксическо-статистической модели языка.
Заключение
Автоматическое распознавание разговорной русской речи представляет собой крайне сложную задачу по сравнению с распознаванием изолированных слов. Во-первых, произношение слов в разговорной речи сильно варьируется, и фонетическое представление произнесенных слов зачастую не совпадает с транскрипциями слов, сделанными по фонетическим правилам транскрибирования. Во-вторых, при автоматическом, распознавании разговорной речи распознавателю необходима модель языка, описывающая допустимые фразы. Однако в русском- языке отсутствуют жесткие грамматические конструкции предложений, что затрудняет создание моделей языка.
В результате проведенной работы были разработаны методы и алгоритмы для создания альтернативных транскрипций слов, которые позволяют учесть вариативность произношения слов в разговорной речи и* тем1 самым повысить точность распознавания. Альтернативные транскрипции создаются/ за счет применения к базовой транскрипции каждого слова правил учета возможной редукции и ассимиляции звуков. Метод выбора оптимальных вариантов транскрипций слов основан на комбинировании методов, базирующихся на речевых данных и знаниях, то есть правилах фонетического транскрибирования.
Для языкового моделирования разработана синтаксическо-статистическая модель языка. Данная модель языка создана на основе базовой биграммной модели, полученной в результате автоматического статистического анализа обучающего текстового корпуса, собранного, с интернет-сайтов электронных газет. Базовая' биграммная модель была расширена за- счет выполнения синтаксического анализа обучающего текстового корпуса, в ходе которого выявляются грамматически связанные пары слов, разделенные в тексте другими словами. Таким образом, синтаксический анализ позволяет учесть дальнодействующие грамматические связи между словами.
Предложенные методы и алгоритмы были реализованы в комплексе программных средств для обработки и распознавания разговорной русской речи. В зависимости от задачи в качестве обучающего текстового корпуса могут использоваться тексты из различных предметных областей, таким образом, возможно получить предметно-ориентированную систему автоматического распознавания речи. Проведенные эксперименты по распознаванию слитной речи с использованием данного программного комплекса показали, что разработанные методы для фонетико-языкового моделирования разговорной русской речи позволяют повысить точность распознавания слов и графем русской речи.
Таким образом, в ходе исследований, представленных в диссертации, были получены следующие основные результаты:
1. Разработаны методы и алгоритмы автоматической генерации базовых и возможных альтернативных транскрипций по орфографическому представлению слов и фраз.
2. Предложена расширенная синтаксическо-статистическая биграммная модель, в которую добавляются выявляемые за счет синтаксического анализа текстового корпуса грамматически связанные пары слов, разделенные в обучающем тексте другими словами (дальнодействующие биграммы).
3. Для обучения и оценивания системы распознавания речи со сверхбольшим словарем записан и размечен речевой корпус, содержащий слитно произнесенные дикторами русскоязычные фразы длиной до 20 слов.
4. Предложен показатель оценки качества работы системы распознавания речи в виде флективной точности распознавания слов, который подразделяет ошибки распознавания на грубые (приводящие к изменению лексемы) и негрубые (ошибки в окончаниях словоформы).
5. Реализован комплекс программных средств для обработки и распознавания разговорной русской речи, объединяющий предложенные модели, методы и алгоритмы.
Совокупность предложенных методов, моделей и программных средств обработки речи и текста направлена на решение актуальной задачи повышения точности автоматического распознавания разговорной русской речи за счет акустико-фонетического моделирования вариативности произношения слов и синтаксическо-статистического моделирования языка.
Библиография Кипяткова, Ирина Сергеевна, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Автоматическая обработка текста. Исходники словарей и программ. http://www.aot.ru/download.php (дата обращения: 16.05.2011).
2. Александров В.В. Развивающиеся процессы и системы. Степенные законы// Журн. «Информационные системы и технологии». 2007. -№1(1). —С. 58-83.
3. Александров В.В., Кулешов C.B. Компьютерный симулятор рече-визуального интерфейса управления и контроля летательным аппаратом // Материалы конференции «Человеческий фактор в авиации и космонавтике» Москва-Ярополец, 13-15 июня 2007 г.
4. Антонова A.A., Мисюрев A.B. Об использовании синтаксического анализатора Cognitive Dwarf 2.0 // Труды ИСА РАН. Т 38, 2008, С 91-109.
5. Баглей С.Г., Антонов A.B., Мешков B.C., Суханов A.B. Статистические распределения слов в русскоязычной текстовой коллекции. Материалы международной конференции «Диалог 2009». Москва, 2009, С. 13-18.
6. Боумедин Шаннаг, Александров В.В. Морфологический анализатор для арабского языка (SAMA1) «Информационно-измерительные и управляющие системы», №11, т.7, 2009. - С.60-62.
7. Библиотека синтаксического анализа текста RCO Syntactic Engine SDK. http://www.rco.ru/product.asp?obno=15 (дата обращения: 16.05.2011).
8. Веб-сайт программы Emsa HTML Tag Remover http://www.e-systems.ro/
9. Викторов А.Б., Грамницкий С.Г., Гордеев С.С., Ескевич MIB., Климина Е.М. Универсальная методика подготовки компонентов обучения систем распознавания речи // Речевые технологии, Народное образование №2. 2009. С. 39-55.
10. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. — Киев: Наук, думка, 1987. 264 с.
11. Винцюк Т.К., Скрипник А.Г. Модуль анализатора речи СРД "Речь-2" -Тезисы докладов 16-го всесоюзного семинара (АРСО 16), 1991. - С. 250251.
12. Гейльман Н.И. Разговорная речь // Проблемы и методы экспериментально-фонетического анализа речи/под ред. JI.P. Зиндера и JI.B. Бондарко. Л.: изд-во СПбГУ, 1980. С.110-122.
13. Горностай Т., Васильев А., СкадинынР., СкадиняИ. Опыт латышско-прусского машинного перевода// Материалы международной конференции «Диалог 2007». Москва. 2007. С. 137-146.
14. Джелинек Ф. Распознавание непрерывной речи статистическими методами // ТИИЭР. 1976. - Т. 64. - № 4. - С. 131-160:
15. Дружкин К.Ю., Цинман Л.Л. Синтаксический анализатор лингвистического процессора ЭТАП-3: Эксперименты по ранжированию. Материалы международной конференции «Диалог 2008». Москва, 2008.
16. Зализняк A.A. Грамматический словарь русского языка: Словоизменение // 4-е изд., испр. и доп. — М.: Руские словари, 2003.
17. Захаров J1.M. Акустическая вариативность звуковых единиц в русской речи // Язык и речь: проблемы и решения. Сборник научных трудов к юбилею профессора J1. В. Златоустовой / Под ред. Г.Е. Кедровой и1. B.В. Потапова. М. 2004.
18. Земская Е.А. (ред.) Русская разговорная речь. М.: Наука, 1973. 485 с.
19. Иванова Т.И. Компьютерные технологии в телефонии. Эко-Трендз, М., 2002.
20. Кагиров И.А., Леонтьева Ан.Б. Автоматический синтаксический анализ русских текстов на. основе грамматики составляющих // Известия вузов. Приборостроение. 2008. Т. 51, № 11. С. 47-51.
21. Карпов A.A. Модели и программная реализация распознавания русской речи на основе морфемного анализа. Диссертация на соискание ученой степени кандидата технических наук. 2007. 129 с.
22. Карпов A.A., Ронжин А.Л., Кипяткова И.С. Мультимедиа корпус аудиовизуальной русской речи RusAVSpeechCorpus // Свидетельство о государственной регистрации базы данных №2011620085 — М: РОСПАТЕНТ ФГУ ФИПС, 2011.
23. Карпов A.A., Ронжин А.Л., Ли И.В. SIRIUS — система дикторонезависимого распознавания слитной русской речи // Известия ТРТУ. № 10. 2005. С. 44-53.
24. Кибкало A.A., Лотков М.М., Рогожкин И.Г., Туровец A.A. Разработка системы распознавания русской речи // Вопросы атомной науки и техники. Сер. Математическое моделирование физических процессов. 2003. Вып. 3.1. C. 8-20.
25. Кипяткова И.С. Создание альтернативных транскрипций слов для моделирования вариативности произношения в системах голосового управления // Свидетельство ОФАП №9525. 2007.
26. Кипяткова И.С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-управляющие системы. № 4, Т. 53, 2011, С. 53-59.
27. Кипяткова И.С., Карпов A.A. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. -СПб: СПбГУАП, № 4(47), 2010, С. 2-8.
28. Кипяткова И.С., Карпов A.A. Модуль фонематического транскрибирования для системы распознавания разговорной русской речи // Искусственный интеллект, Донецк, Украина, № 4, 2008, С. 747-757.
29. Компьютерный фонетический алфавит SAMPA. http://www.phon.ucl.ac.uk/home/sarnpa/ (дата обращения: 16.05.2011).
30. Корпус русского литературного языка, www.narusco.ru (дата обращения: 16.05.2011).
31. Косарев Ю.А. Естественная форма диалога с ЭВМ. JL: Машиностроение, 1989.- 143 с.
32. Крестьянинов C.B. Интеллектуальные сети и компьютерная телефония. М., «Радио и связь», 2001.
33. Кузнецов В.И. Вокализм связной речи. СПб.: изд-во СПбГУ, 1997. 247с.
34. Лаптева O.A. Живая русская речь с телеэкрана: разговорный пласт телевизионной речи в нормативном аспекте. М., 2007.
35. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов. Докл. АН СССР, 163, 4, стр. 845-848, 1965.
36. Моттль В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов / М.: Физматлит, 1999. 351 с.
37. Национальный корпус русского языка, www.ruscorpora.ru (дата обращения: 16.05.2011).
38. Ножов И.М. Реализация автоматической синтаксической сегментации русского предложения. Диссертация на соискание ученой степени кандидата технических наук. 2003, 140 с.
39. Охтилев М.Ю., Соколов Б.В., Юсупов P.M. Интеллектуальные технологии мониторинга и управления структурной динамикой сложных технических объектов. М.: Наука, 2006. 410 с.
40. Пилипенко В.В. Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных// Искусственный интеллект. 2006. № 3. С. 548-557.
41. Пилипенко В.В., Робейко В.В. Автоматизированный стенограф украинской речи // Искусственный интеллект. 2008. № 4. С. 768-775.
42. Потапова Р.К. Речь: коммуникация, информация, кибернетика. 2003. — 568 с.
43. Проект «Эволюция языка». Русские словари и морфология. http://starling.rinet.ru/morpho.php?lan=ru (дата обращения: 24.03.2011).
44. Протасов C.B. Вывод и оценка параметров дальнодействующей триграммной модели языка// Материалы международной конференции «Диалог 2008». Москва. 2008. С. 443-449.
45. Прохоров A.M. (гл. ред.) Большая советская энциклопедия. Т. 23. М.: Советская энциклопедия, 1976, 638 с.
46. РонжинА.Л. Топологические особенности морфофонемного способа представления словаря для распознавания русской речи // Вестник компьютерных и информационных технологий. №9. 2008. С. 12-19.
47. Ронжин А.Л., Карпов A.A., Кипяткова И.С. Многомодальный пользовательский интерфейс для интеллектуальной информационнойсистемы// Свидетельство о регистрации ПрЭВМ №2010617640 - М.: РОСПАТЕНТ ФГУ ФИПС, 2010.
48. Роижин А.Л., Карпов A.A., Ли И.В. Речевой и многомодальный интерфейсы. М.: Наука, 2006 - (Информатика: неограниченные возможности и возможные ограничения), 173 с.
49. Сайт компании «ООО Диктум». http://www.dictum.ru/ (дата обращения: 16.05.2011).
50. Сайт компании MetaProducts. http://www.metaproducts.com/default.asp (дата обращения: 16.05.2011).
51. Светозарова Н.Д. Некоторые особенности фонетики русской спонтанной речи//Бюллетень фонетического фонда русского языка №8, Фонетические свойства русской спонтанной речи. СПб: Бохум, 2000. С. 7-15.
52. Скороходько Э.Ф. Семантические сети и автоматическая обработка текста. Киев, 1983. - 112 с.
53. Скрелин П.А. Формальные методы анализа речи: проблемы интерпретации результатов. Материалы XXXVI международной филологической конференции. СПб. 2007. С. 3-14.
54. Сокирко A.B. Морфологические модули на сайте www.aot.ru // Труды Международной конференции «Диалог-2004. Компьютерная лингвистика и интеллектуальные технологии». М.: Наука, 2004. С. 559-564.
55. Станкевич Л.А. Адаптивные поведенческие системы на нейрологических сетях. 11-я Национальная конференция по искусственному интеллекту с международным участием (КИИ-08), 29.09-3.10. 2008.
56. Станкевич Л.А., Серебряков C.B. Когнитивные системы и агенты. В Сб. Труды СПИИРАН, под общей ред. P.M. Юсупова». Вып. 3, т.1. - СПб.: Наука, 2006, С.71-87.
57. Станкевич Л.А., Тихомиров В.В., Троцкий Д.И. Распознавание трехмерных объектов на основе структурного описания. «Нейрокомпьютеры», №6, 2006, С. 121-136.
58. Старостин А.С., Мальковский М.Г. Алгоритм синтаксического анализа, используемый в системе морфо-синтаксического анализа «Treeton». Материалы международной конференции «Диалог 2007». Москва, 2007, С. 516-524.
59. Холоденко А.Б. О построении статистических языковых моделей для систем распознавания русской речи // Интеллектуальные системы. Т.6. Вып. 1-4. 2002. С. 381-394.
60. Шведова Н.Ю. (гл. ред.) и др. Русская грамматика: В 2 т.. М.: Наука, 1980, 783 с.
61. Шеннон К. Работы по теории информации и кибернетике. — М.: Изд. иностр. лит., 2002.
62. Amdal I. Learning pronunciation variation. A data-driven approach to rule-based lexicon adaptation for automatic speech recognition. PhD thesis. Department of Telecommunications Norwegian University of Science and Technology. Norway. 2002.
63. Arisoy E., Dutagaci H., Arslan, L. A unified language model for large vocabulary continuous speech recognition of Turkish. Signal Processing, Elsevier, 86(10):2844-2862, 2006.
64. BahlL.R., de SouzaP.V., Gopalakrishman P.S., Nahamoo D., Picheny M.A. Decision trees for phonological rules in continuous speech. Proc. ICASSP-91, Toronto, Canada, 1991. pp. 185-188.
65. Benesty J., Sondhi M., Huang Y. (eds.) Springer Handbook of Speech Processing. Springer, 2008, 1176 p.
66. Bolotova O., Gusev M., Smirnov V. Speech Recognition System for the Russian Speech. In Proc. of 12-th International Conference on Speech and Computer SPECOM. Moscow. Russia. 2007. pp. 475-480.
67. Clarkson P., Rosenfeld R. Statistical language modeling using the CMU-Cambridge toolkit// Proc. of EUROSPEECH. Rhodes. Greece. 1997. pp.*2707-2710.
68. Cole et al. Survey of the state of the art in human language technology, Cambridge University Press, New York, NY, 1997.
69. Fosler-Lussier J.E. Dinamic pronunciation models for automatic speech recognition. PhD thesis. University of California. Berkeley. 1999.
70. Fosler-Lussier E., Morgan N. Effect of speaking rate and word frequency on pronunciations in conversational speech. Speech Communication, vol. 29. 1999. pp. 137-158.
71. Ganapathiraju A., Hamaker J., Picone, J. Hybrid SVM/HMM Architectures for Speech Recognition. Proceedings of Speech Transcription Workshop, 2000. pp. 504-507.
72. Hirschman L., Thompson H.S. Overview of evaluation in speech and natural language processing. In: R. Cole et al. (eds.) "Survey of the State of the Art in Human Language Technology", Cambridge University Press, 1997.
73. HirsimakiT., PylkkonenJ., Kurimo M. Importance of High-Order N-Gram Models in Morph-Based Speech Recognition, IEEE Trans, on Audio, Speech and Language Processing, 17(4):724-732,2009.
74. Humphries J.J., Woodland P.C., Pearce D. Using accent-specific pronunciation modeling for robust speech recognition. Proc. ICSLP-96, Philadelpia (PA), USA, 1996. pp. 2324-2327.
75. Jing Z., Min, Z. Speech recognition system based improved DTW algorithm. Proceedings of the International Conference on Computer, Mechatronics, Control and Electronic Engineering CMCE-2010, vol. 5, 2010. pp. 320-323.
76. Ipsic I., Martincic-Ipsic S. Croatian Speech Recognition // Advances in Speech Recognition / Noam R. Shabtai, editor(s). Rijeka, Croatia: SCIYO, 2010. pp. 123-140.
77. Ircing P., Hoidekr J., Psutka J. Exploiting Linguistic Knowledge in Languagei
78. Modeling of Czech Spontaneous Speech. Proceedings of LREC 2006. Paris: ELRA, 2006, pp. 2600-2603.
79. Kanevsky D., Monkowski M., Sedivy J. Large Vocabulary Speaker-Independent Continuous Speech recognition in Russian Language// Proc. International Workshop SPECOM'96. St.Petersburg. Russia. 1996. pp. 117-121.
80. Karahanoglu N. Likelihood minimizing beamforming. PhD thesis. Friedrih-Alexander-University-Erlangen-Nuremberg. Germany. 2006.
81. Kessens J.M., Wester M., Strik H. Modeling Within-word and Cross-word Pronunciation Variation to Improve the Performance of a Dutch CSR. Proc. of thel4 th Int. Congress of Phonetic Sciences, San Francisco, 1999. pp. 16651668.
82. Kessens J. M., Wester M., Strik H. Improving the performance of Dutch CSR by modeling within-word and cross-word pronunciation variation. Speech Communication, vol. 29. 1999. pp. 193-207.
83. Kurimo M., HirsimakiT., TurunenV.T., Virpioja S., Raatikainen N. Unsupervised decomposition of words for speech recognition and retrieval //
84. Proceedings of 13-th International Conference «Speech and Computer» SPECOM'2009. St. Petersburg. 2009. pp. 23-28.
85. Ladefoged P. A Course in Phonetics. Harcourt Brace Jovanovich, Inc., New York, 1975.
86. Merkel A., Klakow D. Improved Methods for Language Model Based Question Classification// Proceedings of 8th Interspeech Conference. Antwerp. 2007. pp 322-325.
87. Moore G.L. Adaptive Statistical Class-based Language Modelling. PhD thesis. Cambridge University. 2001. 193 p.
88. Nouza J., Silovsky J. Adapting Lexical and Language models for Transcription of Highly Spontaneous Spoken Czech// Springer-Verlag Berlin Heidelberg. Petr Sojka et al. (Eds.): TSD 2010. LNAI 6231. 2010. pp. 377-385.
89. Oparin I., Glembek O., Burget L., Cernosky J. Morphological random forest forlanguage modeling of inflectional languages. In Proc. 2nd IEEE Workshop on Spoken Language Technology, Goa, India, 189-192, 2008.
90. Oparin I., Talanov A. Stem-Based Approach to Pronunciation Vocabulary Construction and Language Modeling for Russian // Proc. of 10-th International Conference on Speech and Computer SPECOM, Patras, Greece, 2005, pp. 575578.
91. Psutka J., Ircing P., Psutka J.V., Hajic J., Byrne W.J., Mirovsky J. Automatic Transcription of Czech, Russian, and Slovak Spontaneous Speech in the MALACH Project // Proceedings of Eurospeech. Lisboa. Portugal. Sept. 4-8. 2005. pp. 1349-1352.
92. Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Prentice Hall. -1993.-507 p.
93. Ragni A. Initial Experiments with Estonian Speech Recognition// Proc. of the 16-th Nordic Conference of Computational Linguistics NODALIDA-2007. Nivre J. et al. (Eds). Tartu. 2007. pp. 249-252.
94. Riley M.D. A Statistical Model for Generating Pronunciation Networks. Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, pp. 737-740, Toronto, Canada, May 1991.
95. Riley M.D., Ljolje A. Automatic speech and speaker recognition: Advanced topics, ch. Automatic generation of detailed pronunciation lexicons. Kluwer. 1996. pp. 285-301.
96. Rotovnik T., Maucec M.S., Kacix Z. Large vocabulary continuous speech recognition of an inflected language using stems and endings. Speech Communication, Vol.49, No.6, 2007. pp. 437-452.
97. Saraclar M. Pronunciation Modeling for Conversational Speech Recognition. PhD thesis. Baltimore, USA. 2000.
98. Schwarz P., Matejka P., Cernocky J. Hierarchical structures of neural networks for phoneme recognition, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP-2006, Toulouse, France, 2006.
99. Serva M., Petroni F. Indo-Iuropean languages tree by Levenshtein distance. EPL (Europhysics Letters), vol. 81, no. 6, pp. 68005-pl:p5, March 2008.
100. Solera-Urena R., Martin-Iglesias D., Gallardo-Antolin A., Pelaez-Moreno C., Diaz-de-Maria F. Robust ASR Using Support Vector Machines // Speech Communication, vol. 49, № 4, 2007. pp. 253-267.
101. Stephenson T. A., Escofet J., Magimai-Doss, M., Bourlard H. Dynamic Bayesian Network Based Speech Recognition with Pitch and Energy as Auxiliary Variables. In: IEEE International Workshop on Neural Networks for Signal Processing NNSP-2002. 2002.
102. Strom N. Continuous Speech Recognition in the WAXHOLM Dialogue System // Stockholm QPSR, 1996. pp. 67-95.
103. Stuker S., Schultz T. A grapheme Based Speech Recognition System for Russian // Proc. International Conference SPECOM'2004. St.Petersburg. Russia. 2004 pp. 297-303.
104. Svenson M., Bhanuprasad K. Errgrams A Way to Improving ASR for Highly Inflective Dravidian Languages. Proc. 3rd International Joint Conference on Natural Language Processing IJCNLP'08, India, 805-810, 2008.
105. Szarvas M., Furui S. Finite-state transducer based modeling of morphosyntax with applications to Hungarian LVCSR. in Proc. ICASSP, HongKong, China, 368-371,2003.
106. TarjanB., MihajlikP. On Morph-Based LVCSR Improvements// Proc. of 2nd International Workshop on Spoken Languages Technologies for Under-resourced Languages (SLTU-10). 2010. pp 10-16.
107. The CMU Statistical Language Modeling (SLM) Toolkit. http://www.speech.cs.cmu.edu/SLMinfo.html (дата обращения: 16.05.2011).
108. The Hidden Markov Model Toolkit (НТК), http://htk.eng.cam.ac.uk/ (дата обращения: 16.05.2011).
109. Trentin E., Gori M. A Survey of Hybrid ANN/HMM Models for Automatic Speech Recognition // Neurocomputing, vol. 37, № 1-4, 2007. pp. 91-126.
110. Vaiciunas A. Statistical Language Models of Lithuanian and Their Application to Very Large Vocabulary Speech Recognition. Summary of Doctoral Dissertation. Vytautas Magnus University. Kaunas. 2006. 35 p.
111. Vesa S., Teemu H., Mathias C., Mikko K. Unlimited vocabulary speech recognition based on morphs discovered in an unsupervised manner. Proceedings of Eurospeech, 2003. pp. 2293-2296.
112. Weintraub M., Fosler E., Galles C., Kao Y., Khudanpur S., Saraclar M., Wegmann S. Automatic Learning of Word Pronunciation from Data. 1996 LVCSR Summer Workshop Technical Reports, 1996.
113. Whittaker E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English. PhD thesis. Cambridge University, 2000, 140 p.
114. Whittaker E.W.D., Woodland P.C. "Efficient class-based language modelling for very large vocabularies", in Proc. ICASSP'01 Conference, Salt Lake City, USA, 545-548,2001.
115. Wolf M., Eichner M., Hoffmann R. Automatic learning and optimization of pronunciation dictionaries. Proc. ISCA ITRW Adaptation method for speech recognition, Sophia-Antipolis, France, 2001. pp. 159-162.
116. Young S. et al. The HTK Book (for HTK Version 3.4). Cambridge. UK, 2009. 375 p.
-
Похожие работы
- Технология автоматизации создания и оценки качества программных средств анализа речи с учетом особенностей малоресурсных языков
- Модели и программная реализация распознавания русской речи на основе морфемного анализа
- Преобразование речи в текст. Фонемный подход
- Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи
- Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность