автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка алгоритмов построения оценок достоверности для систем распознавания речи

кандидата технических наук
Нгуен Минь Туан
город
Москва
год
2008
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка алгоритмов построения оценок достоверности для систем распознавания речи»

Автореферат диссертации по теме "Разработка алгоритмов построения оценок достоверности для систем распознавания речи"

□□3454954

На правах рукописи

Нгуеи Минь Туан

РАЗРАБОТКА АЛГОРИТМОВ ПОСТРОЕШ1Я ОЦЕНОК ДОСТОВЕРНОСТИ ДЛЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ

Специальность 05.13.11 -Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертация на соискание ученой степени кандидата технических наук

Москва - 2008

003454954

Работа выполнена в Вычислительном центре им. А. А. Дородницына Российской академии наук

Научный руководитель: кандидат физико-математических наук, в.н.с.

Чучупал Владимир Яковлевич

Официальные оппоненты: доктор технических наук, с.н.е.

Бондарос Юлия Григорьевна

кандидат технических наук Кринов Сергей Николаевич

Ведущая организация: Институт проблем передачи информации РАН

Защита состоится «_/&_» д^/г/г^? X 2008г. в /_5" часов на заседании диссертационного совета Д002.017.02 в Вычислительном центре им. А. А. Дородницына Российской академии наук по адресу: 119333, г. Москва, ул. Вавилова, 40, конференц-зал.

С диссертацией можно ознакомиться в библиотеке ВЦ РАН. Автореферат разослан «/-}-» мг->1()г.2008г.

Учёный секретарь диссертационного совета доктор физико-математических наук, профессор

В. В. Рязанов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Астуальность темы.

Прогресс современного общества в значительной мере обусловлен развитием автоматических и роботизированных систем. Компьютеры и микропроцессоры стали неотъемлемым атрибутом жизни людей в индустриально развитых странах. Научно-техническая проблема создания адекватных средств для взаимодействия человека с компьютерными системами приобрела в последние десятилетия важный социальный статус.

Одним из наиболее очевидных и перспективных путей организации взаимодействия человека с компьютером является использование человеческой речи, в частности, автоматическое распознавание речевых сообщений. Исследования по автоматическому распознаванию речи начались более пятидесяти лет назад, в середине прошлого века и интенсивно продолжаются в настоящее время.

Несмотря на достигнутые успехи в создании методов и технологий, показатели эффективности систем распознавания речи (например, вероятность пословной ошибки распознавания) при применении в естественных условиях эксплуатации пока далеки от желаемых. Основная причина кроется в вариативности речевого сигнала, которая обуславливается, например, индивидуальными особенностями дикторов, характеристиками каналов связи, а также влиянием окружающей обстановки. На эффективность распознавания речи также оказывают существенное влияние условия прикладной области, в частности, состав и размер словаря. Обычно словарь системы распознавания является замкнутым, то есть содержит все слова, которые в принципе могут быть произнесены. Увеличение размера словаря, вообще говоря, снижает вероятность правильного распознавания.

Потребность распознавания естественной, неограниченной, по словарному составу, речи, приводит к тому, что требование правильного распознавания всего высказывания вряд ли осуществимо и обычно не требуется. Поскольку в данном случае словарь системы является открытым, необходимо

3

предусмотреть возможность отказа от распознавания частей речевого высказывания, которые содержат новые, не входящие в словарь, выражения и слова. Таким образом, развитие речевой технологии в направлении анализа и распознавания естественной речи приводит к необходимости решения проблемы идентификации в речевом потоке новых, так называемых, несловарных (OOV, «out of vocabulary») слов или иных акустических событий. Естественным способом решения этой проблемы является синтез оценок достоверности результатов распознавания, на основе значений которых можно, в частности, идентифицировать OOV.

Под оценкой достоверности («confidence measure») для некоторого результата распознавания речи, под которым может подразумеваться отдельное слово, звук или предложение, далее будет пониматься число, в интервале от О до 1, которое характеризует степень доверия или уверенности в правильности этого результата. При анализе результата распознавания оценка достоверности сравнивается с некоторым пороговым значением. Если её значение больше порога, то слово считается правильно распознанным. В противном случае соответствующая результату последовательность признаков считается незнакомым словом.

Применение оценок достоверности также повышает эффективность использования традиционных систем распознавания речи, которые оперируют с замкнутыми словарями. Часто эти системы используются как составная часть более крупных автоматических систем, например, управления робототехническими комплексами, доступа к информационным ресурсам и т.п. В этом случае существует возможность коррекции ошибок автоматического распознавания на основе дополнительной информации, которой располагает «большая» система. Такая коррекция возможна, если система распознавания речи предоставит расширенную информацию о результате распознавания, включающую не только предполагаемые слова, но и примерную оценку достоверности их распознавания.

Важность решения проблемы построения эффективных оценок достоверности для систем распознавания речи увеличивается по мере дальнейшего прогресса в области речевых технологий. Это обстоятельство определяет актуальность исследований в этом направлении.

Цель диссертационной работы.

Основная цель диссертационной работы заключалась в исследовании и разработке эффективных алгоритмов построения оценок достоверности для систем автоматического распознавания речи.

Для достижения этой цели в ходе выполнения диссертационной работы решались следующие основные задачи:

1. Исследование существующих методов моделирования и автоматического распознавания речи, а также известных методов построения оценок достоверности для систем распознавания речи.

2. Разработка новых методов и алгоритмов построения оценок достоверности результатов работы систем распознавания речи.

3. Программная реализация предлагаемых алгоритмов и проведение экспериментальных исследований их эффективности.

Методы исследований.

В работе использовались методы математического анализа, методы цифровой обработки сигналов, теории распознавания образов, теории вероятностей, теории оптимизации и теории формальных языков.

Научная новнзна.

Научная новизна диссертационной работы заключается в том, что предложен новый метод построения оценок достоверности для систем распознавания речи, который основан на построении дополнительных моделей для распределения признаков речевого сигнала. Разработаны алгоритмы оценивания значений параметров дополнительных моделей, а также выбора оптимального количества их параметров. Проведены экспериментальные исследования и получены численные значения показателей эффективности для предложенных оценок.

Практическая ценность диссертации.

Предложенный метод формирования оценок достоверности показал высокую эффективность при верификации результатов распознавания речи. Исследования были выполнены в рамках работ по проектам «Разработка и тестирование системы распознавания речевых команд управления в акустико-фоновой обстановке кабины пилота» и «Разработка и исследование методов распознавания речи на основе комбинированных моделей звуков» (гранты РФФИ № 06-08-1534 и № 07-01-00657).

Апробация работы.

Полученные в работе научные и практические результаты докладывались и обсуждались на XII Международной конференции «Речь и Компьютер» SPECOM'2007 (г. Москва, 2007 г.), на XIX сессии Российского Акустического Общества (г. Нижний Новгород, 2007 г.), на XIII Всероссийской конференции «Математические методы распознавания образов» (г. Санкт-Петербург, 2007 г.), на VII Открытом немецко-российском семинаре «Распознавание образов и понимание изображений» (г. Эттлинген, 2007 г.), а также на семинаре отдела математических проблем распознавания и методов комбинаторного анализа ВЦ РАН (г. Москва, 2008 г.).

Публикации.

По материалам диссертации опубликовано 6 печатных работ, в том числе одна в журнале, входящем в список изданий, рекомендованных ВАК РФ. Список опубликованных работ приведён в конце автореферата.

Структура и объём работы.

Диссертация состоит из введения, трёх глав, заключения, двух приложений и библиографического списка использованных источников из 85 наименований. Общий объём работы составляет 102 страницы, в том числе 13 рисунков и 20 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во Введении обоснована актуальность диссертационной работы, сформулированы цель и задачи исследования, аргументирована научная новизна исследований и показана практическая значимых полученных результатов. Дана краткая характеристика основных разделов диссертационной работы.

Первая глава является обзорной. В ней рассмотрены современные методы распознавания речи и оценивания достоверности результатов распознавания.

Проведен обзор вероятностного подхода к моделированию и распознаванию речи. Задача автоматического распознавания речи, на основе вероятностного подхода, сформулирована так: найти самое вероятное предложение (цепочку слов) 5* языка Ь, которое соответствует последовательности векторов признаков X речевого высказывания, т.е.

5' = аг8 тах 1X) = аг8 шах Р(Х \ 5)Р(3) .

Выделены основные компоненты (модули) систем распознавания речи: извлечения векторов признаков сигнала, акустико-фонетического моделирования, моделирования языка и декодирования. Извлечение векторов признаков речевого сигнала является первым этапом при распознавании речи. На этом этапе входной речевой сигнал преобразуется в набор векторов признаков X, пригодных для дальнейшего анализа и обработки. В качестве системы признаков, используемой в численных экспериментах диссертационной работы, выбраны мел-кепстральные коэффициенты. Приведены обоснование выбора этой системы признаков и описание алгоритма формирования векторов признаков. Целью акустико-фонетического моделирования является оценка вероятности Р{Х 15) появления последовательности векторов признаков X при заданной цепочке слов 5. Описана скрытая Марковская модель (СММ), которая является на сегодняшний день наиболее широко применяемым и эффективным подходом к проблеме построения акустической модели. Приведены критерии обучения СММ.

Модель языка служит для описания пространства всех допустимых гипотетических предложений и оценки вероятности P(S) каждого предложения языка L. Рассмотрены методы построения модели языка с помощью формальных грамматик и статистических n-грамм. Декодирование речевого сигнала заключается в поиске цепочки слов S' из множества допустимых цепочек слов языка L. Приведено описание метода поиска, основанного на использовании алгоритма Витерби.

Рассмотрены способы измерения эффективности оценок достоверности. Эффективность оценок достоверности результатов распознавания часто оценивается в терминах ошибок первого и второго вида. Графический способ представления эффективности оценок достоверности состоит в построении характеристик DET («detection error trade-off») или ROC («receiver operating characteristic»). Также описаны скалярные показатели эффективности оценок достоверности, такие как равная частота ошибок первого и второго рода (EER, «equal error rate»), минимум сумы частот ошибок первого и второго рода (MTER, «minimum total error rate»), общая частота ошибок (CER, «classification error rate»).

Проведено исследование существующих алгоритмов построения оценок достоверности для систем распознавания речи. Оценки достоверности предложено условно разделить на три группы: элементарные оценки, оценки на основе апостериорных вероятностей и оценки на основе отношения правдоподобия.

К элементарным оценкам достоверности слова относится любая числовая характеристика, получаемая в процессе декодирования. Эти характеристики могут иметь акустическую или грамматическую природу. В качестве оценок достоверности берутся такие характеристики, у которых функция распределения вероятности для правильно распознанных слов существенно отличается от функции распределения вероятности для неправильно распознанных слов. Более хорошего результата можно достичь путем комбинирования нескольких, взаимно независимых характеристик. В то же

8

время, экспериментально показано, что простые характеристики обладают высокой корреляционной зависимостью. Поэтому комбинирование простых характеристик часто не приводит к заметному повышению эффективности, по сравнению с использованием характеристик по отдельности. Методы, основанные на вычислении простых характеристик, просты и не требуют больших вычислительных ресурсов.

Методы формирования оценок достоверности второй группы заключаются в вычислении вероятности наблюдения последовательности векторов признаков Р(Х). В этом случае в качестве оценки достоверности для слова W используется апостериорная вероятность P(W\Xw), которая вычисляется согласно формуле Байеса

"(.■X-w)

где Xw - соответствующая последовательность векторов признаков слова W. На практике невозможно оценить точно значение P(XW). Имеются несколько алгоритмов, которые аппроксимируют значения Р(Х) с помощью списка из N лучших гипотез («N-best list») или словного графа («Word graph»). Таким образом, для применения методов, которые используют в качестве оценок правдоподобия апостериорные вероятности необходимо выполнить построение словного графа или списка N лучших гипотез. Построение словного графа или списка N лучших гипотез обычно приводит к большому объему вычислений.

Подход, основанный на формировании отношения правдоподобия, предлагает рассматривать задачу оценки достоверности результата распознавания с точки зрения проблемы проверки гипотез. Пусть имеются распознанное слово W и соответствующая ему последовательность векторов признаков Xw, тогда рассмотрим 2 гипотезы:

На: последовательность векторов признаков Х№ является реализацией слова W.

Я,: последовательность векторов признаков Х„. не является реализацией слова IV и была некорректно распознана как слово IV. и соответствующее отношение правдоподобия:

Р(Х,у I и,д

Р(Х№\Н1)

Если значение Ы1(1У,Х№) больше значения порога г, то принимается гипотеза #0, в противном случае принимается гипотеза //,. Таким образом, при известных вероятностях Р(Х№\На) и Р{ХЯ, | //,) можно определить, является ли слово \У на выходе из распознавателя корректно распознанным. Чтобы использовать решение на основе отношения правдоподобия, для каждого слова IV из словаря системы строятся 2 акустические модели: Я^ (целевая модель) и (альтернативная модель) такие, что Р(Х\ Н0)~ Р(Х\ Ая,) и Р(Х\Н\) = Р(Х\АГ) для любого сегмента сигнала X. Основная проблема методов, основанных на использовании отношении правдоподобия, заключается в удачном выборе и моделировании альтернативных моделей. Это объясняется тем, что множество акустических событий, которые должны моделироваться альтернативными моделями обычно очень большое.

Подход, основанный на построении отношения правдоподобия, представляется наиболее перспективным для решения проблемы построения оценок достоверности.

Во второй главе представлены предложенные в диссертации методы формирования оценок достоверности для систем распознавания речи, которые относятся к классу методов на основе построения отношения правдоподобия. В отличие от существующих методов данного класса, где отношения правдоподобия вычисляются для каждого слова или части слова, в работе предлагается использовать значения отношения правдоподобия на уровне отдельных векторов признаков.

Пусть дана система распознавания речи, основанная на вероятностном подходе с использованием скрытых Марковских моделей (СММ). Тогда для

10

последовательности векторов признаков X = (хг...,хт), распознанной как слово W, можно однозначно найти оптимальную последовательность состояний

СММ Q = (<?,.....qT) в соответствии с соотношением

Q = arg шах Р(Х | (<7,,..., qT), Я)

(?1 г-Чт)

= arg шах (д:,)^, (*2)...я?г_„А М

где Л - параметры СММ для слова W, я - вероятность начального состояния qx, bq (х) вероятность появления вектора признаков х в состоянии q,, aq ? -вероятность перехода от состояния к состоянию qt. Таким образом, каждый вектор признаков х, ассоциируется с некоторым состоянием qt.

Предлагается определить целевую и альтернативную модели Фд и , соответственно, для состояния q, следующим образом:

P{x„q, | X - корректно распознана) = Р(х, | ) P(x„q, | X - некорректно распознана) = Р(х, 1)

где /'(л:[Ф?) и Р{х\ 4^) - распределения, являющиеся смесями нормальных распределений

к

Р(х IФ,) = £^A'(x,moi,vw.) ы

здесь с01 >0 и с, k > О - веса нормальных распределений, которые

м„ м,

удовлетворяют условиям =^]cu = l; N(x,m,v) - нормальное

распределение со средним m и дисперсией v.

Согласно правилу принятия решения по максимуму апостериорной вероятности, принимается гипотеза о корректном распознавании последовательности векторов признаков X = (х,,...,.гг), если

Р(х, I Ф„ )

LR(x.,q.) = ——i-—— > т .

В противном случае, последовательность векторов признаков X = {х[,...,хт) считается некорректно распознанной.

Введено определение элементарной функции достоверности на уровне вектора признаков

C(x"9l)'i+(ьк1,ч,)Г '

Предлагается следующий метод формирования оценки достоверности Cm(W,X), названный одноуровневым методом, на основе средних значений элементарных функций достоверности:

Ст(Иг,Х) = ^1 а,С {х,, )

1=1 ( Т

Ст(1¥,Х) - ехр ^а,\пС(х„д,)

Чм )

где а,> 0 - весовые коэффициенты, удовлетворяющие условию ^а, = 1.

м

Для системы распознавания речи с большим объемом словаря акустические модели, как правило, строятся для контексто-зависимых реализаций фонем или фонов. Поэтому, кроме распознанного слова IV, на выходе из декодера также определена соответствующая ему последовательность образующих фонов. Тогда для слова IV, состоящего из N фонов (Й/ = «1...«ЛГ), оценка достоверности формируется как арифметическое или геометрическое среднее оценок достоверности для составляющих его фонов:

Ст{Ш,Х) = ехр(-1£ 1п Ст(и„,Хи)

\ * * П=1

где Ст(и„,Хи ) - оценка достоверности для фона и„ и соответствующей

последовательности векторов признаков Хи , которая вычисляется с помощью

предложенного одноуровневого метода. Предложенный, таким образом, метод формирования оценок достоверности для слова называется двухуровневым методом.

Различия между одноуровневым и двухуровневым методами формирования оценок достоверности для слов наглядно представлены на следующем рисунке.

Одноуровневый метод

ФОНЫ! ы.

Векторы признаков:] ... х, • .\Г1 ... х-,. |...; х;>

I 1 1 I

Оптимальные состояния:! — — | -) -

С(х,г,):[

Ст(Я\Х)

Двухуровневый метод

Фоны:|

Векторы признаков-', х, 1

Оптимальные состояния} ?.-

С{х„?,):Г

\|/ м/ \ Ч7

Ст Ст(и.,Х^) ■■■ Ст(их.Х

Рисунок 1. Схемы формирования одноуровневых и двухуровневых оценок достоверности.

Для каждой пары моделей Ф и Ч* определена дискриминационная

величина с1„

4 аг +<т,

Ч 'ч

где цг и аг - среднее и дисперсия значений элементарной функции векторов признаков выборки 2Ц\ С и /? - выборки векторов признаков, которые определяются следующим образом: пусть имеется выборка из К последовательностей векторов признаков {Х(,)}(1</<£), где Х(,) =(х['>,...,хг')), и каждая из последовательностей векторов признаков Хт распознана декодером как слово с соответствующей оптимальной

последовательностью состояний ={д\'\...,д^). Выборка {А"(,)} считается

большой и содержит достаточное количество как корректно распознанных, так и некорректно распознанных последовательностей векторов признаков для каждого слова словаря системы распознавания речи. Для каждой пары (х'^ </< К, 1 <га<7]) определим функцию

о о)«. _есликорректно распознана как слово

( т'Чт) сс;ш^(о некорректно распознана как слово 1¥(,) Тогда

=длб(х*\д«)) = 1л1<1<К л\<т<Т,}

Предлагается использовать следующий способ задания значений весовых коэффициентов:

а.Ш-ккТ

Жг (1)

где р > О - числовой параметр.

Обучение целевых и альтернативных моделей состоит в нахождении значений их параметров согласно критерию обучения. К числу параметров каждой целевой или альтернативной модели, которые подлежат нахождению, относятся размерность модели (т.е. количество смесей нормальных распределений), веса, средние и дисперсии смесей. Обучение проводится на

выборках векторов признаков С и Для каждого вектора признаков х выборки Сц считается, что имеет место ошибка, если И{(х,д) < тц. Аналогично для каждого вектора признаков х выборки / имеет место ошибка, если . Обучение целевых и альтернативных моделей предлагается проводить отдельно для каждой пары (Ф^Ч* ) таким образом, чтобы сумма частот ошибок /-"(Ф ,4? ,г ) была минимальной, т.е.

<®,,ч>,>

= а^тт

г\{х\хеСчлЩх,д)<тч) \ +1 }х|д;с/,лЩх,д)>тц}|Л

= аг£тт

\С,\ |/,|

I 'я 1

где

1 + ехр [а, 5(х, я) (1п Щх,д) - Ъч)] ач >0, Ъч - числовые параметры, выбираемые в зависимости от значения тц.

Показано, что обучение моделей согласно выбранному критерию можно осуществлять с помощью метода градиентного спуска. Однако данный метод обладает некоторыми недостатками. Первым недостатком, свойственным алгоритму градиентного спуска, является зависимость вычисленных значений параметров от начального приближения. Второй недостаток заключается в том, что необходимо заранее выбрать число компонентов смесей нормальных распределений, которые будут использованы для описания распределений

В диссертационной работе предложен улучшенный алгоритм оценки параметров моделей, который позволяет решить проблемы выбора размерности моделей и начального приближения. Идея алгоритма заключается в следующем. Имея целевую и альтернативную модели, распределения Р(х\ Ф?)

и Р(х \ Ч^) которых являются смесями нормальных распределений из Мф и Мч компонентов, попытаться увеличить Мф или Mv на единицу с целью уменьшения значения функционала 4,Wf,Tq). На начальном шаге алгоритма распределения Р(л;|Ф?) и 75(x|vF9) описываются однокомпонентными смесями, т.е. Л/ф = = 1.

Для реализации алгоритма предложен способ генерирования новой модели 0' из имеющейся модели 0, где распределения /|(д:|0) и | Q') являются смесями из М и М + 1 компонентов, соответственно:

А/ М* I

р(Х

к=1

Генератор новой модели зависит от выборки векторов признаков Z и параметра г(1 < г < М), т.е. 0' = Генерирование^,Z,г). Обозначим через Z(r) множество векторов признаков, где

ZM = х|хеZлargmax[q.N{x,mk,v¿)\ = r> . I \ik<M )

С помощью метода k-средних находим значения векторов jua и fj{, которые минимизируют сумму

j(zir),M)= z Ih^-wll >

«z(r)

где A:(x) = argm¡n(¡x-^,j|). Начальные значения векторов /лй и д задаются ¡=0,1

следующим образом

V0=E{x\xe Z(r)}-s /j¡=E{x¡xeZ(r)} + £

где е - вектор, элементы которого являются достаточно малыми числами. В качестве начальных значений параметров модели 0' берутся

(ck,mL,vt\k*r (c\,m\,v\) = \(cr/2,v0,vr),k = r ,\<k<M + l . (cr/2,u,vr),k = Af +1

Окончательные значения параметров модели получаются в результате применения алгоритма ЕМ (expectation maximization) для того, чтобы максимизировать функцию правдоподобия

xeZ

Ниже приводится пошаговое описание предлагаемого алгоритма обучения целевой и альтернативной моделей для некоторого состояния q СММ. Алгоритм обучения целевой и альтернативной моделей. 1. Инициализировать модели Фагг = {с01,т01,у01} и 1Ра;,г = {с, „/?/,_,,vM}, где

1

"'од ="

I |

хеС, I J д I xelt

=Т7^г2 (х. -mo,i,,)2> =7771>, "«и,)2

I I «С, I q I nil,

и установить

Мф= 1, Мч, = 1 = ГрадпентныйСпуск(Фсигг,Ч>с11п,т)

2. Для всех е {(1,0),...>(МФ,0),(0,1),...(05Л/Ч,)} выполнять

Ф 4ф-'/=о

'••' I Геисрироеаиие(Фсигг ), / # О

[Генерирование^ ,j),j * О (OjJ,4/'J) = ГрадиентныйСпуск(Ф1],Ч'и,т)

3. Установить

(;*,/) = argmin(F(®;y,^,r))

М0 = Мф +1, если /* * О Мч = Mv +1, если j* * О

4. Если Д = -Р(Ф4и,, , г) - Р(Ф',. Г, Ч^., г) > О, то установить

5. Если Д<£ и Л/ф + Mv >Мтш, то закончить алгоритм с моделями Ф4м, и Ч/Ье5( для целевой и альтернативной модели соответственно. Иначе перейти к шагу 2.

В третьей главе приведены результаты практического применения предложенных в работе методов и алгоритмов.

Приведено описание корпуса речевых данных FaVoR, на котором выполнялись практические применения. FaVoR содержит записи слитной речи 1673 дикторов. Все записи корпуса оцифрованы с частотой дискретизации 22,050 кГц и хранятся в файлах формата Microsoft Wave. Словарь корпуса состоит из 14 слов и содержит цифры от 0 до 9, и служебные слова «да», «нет», «старт» и «стоп». Корпус FaVoR записан в естественной, достаточно шумной акустико-фоновой обстановке (среднее отношение сигнал/шум равно 15 дБ), с присутствием значительного количества различных незнакомых слов и экстралингвистических событий (кашель, заполненные паузы, смех и т.п.).

Описаны модули базовой системы распознавания речи, основанной на вероятностном подходе. Модуль извлечения признаков преобразует входной речевой сигнал в последовательность векторов признаков, состоящих из 13 мел-кепстральных коэффициентов, логарифма энергии, их первых и вторых производных. Для акустического моделирования речевого потока был выбран подход на основе построения т.н. контекстно-зависимых моделей звуков речи, которые моделировались с помощью СММ. Приведены результаты работы базовой системы распознавания на настроечной и тестовой выборках.

Проведено обучение целевых и альтернативных моделей предложенным методом обучения со значением минимальной суммы компонентов смесей Мтш =8 и значением е = 0.01. Для вычисления значения функции ошибки

/*■(Ф,,^,^) параметры ач и установлены равными 1 и 0, соответственно.

При анализе результатов обучения целевых и альтернативных моделей установлено, что значения дискриминационных величин для каждого отдельного слова имеют тенденцию к убыванию на краях реализации слова, что подтверждает известный эмпирический подход к взвешиванию оценок правдоподобия данных для отдельных кадров анализа. На следующем рисунке представлен график зависимости значения дискриминационных величин от состояния для слов «Два», «Три» и «Семь».

Состояние

Рисунок 2. График зависимости значения дискриминационной величины от состояния.

Проведено сравнение эффективности предложенного в работе алгоритма обучения целевых и альтернативных моделей с алгоритмом градиентного спуска. Результаты показали, что предложенный алгоритм обучения обеспечивает лучший выбор количества смесей целевых и альтернативных моделей. Типичные результаты обучения на примере одного из состояний СММ представлены в следующей таблице.

Алгоритм м„ Л/, ^(Ф^.г,)

обучения Минимум Максимум Среднее

4 4 0.095566 0.156027 0.111625

Градиентный 4 8 0.022771 0.088676 0.050130

спуск 6 6 0.028989 0.116700 0.067049

8 8 0.023937 0.095824 0.053019

Предлагаемый алгоритм 4 8 0.01556

Проведены исследования эффективности предложенных методов формирования оценок достоверности. Для случаев, когда весовые коэффициенты вычислялись при р = 0 (1), получены следующие показатели эффективности: равная частота ошибок первого и второго ЕЕЯ составляла 12.045, общая частота ошибок СЕЯ=2.746. Проведены эксперименты по нахождению значения числового параметра р, при котором показатель равной частоты ошибок является наименьшим. Получен показатель ЕЕЯ= 11.911. Аналогичные эксперименты проведены для показателя СЕК, которые позволили получить значение СЕЯ=2.533. Анализ результатов применения показал, что двухуровневый метод формирования оценок достоверности превосходит одноуровневый метод. В следующей таблице представлены сравнительные результаты применения предложенной в работе оценки достоверности и известных современных оценок достоверности.

Оценка достоверности Относительное улучшение показателя СЕЯ (%)

Элементарная 0.9%

На основе апостериорных вероятностей 21.7%

На основе отношения правдоподобия 9.0%

Предлагаемая 31.0%

Результаты показывают, что по сравнению с известными оценками достоверности, предложенные в работе оценки достоверности обладают более высокой эффективностью.

В приложениях приведены пример аннотации речевой записи из корпуса РаУоК и результаты работы базовой системы распознавания речи на настроечной и тестовой выборках для каждого слова словаря.

В Заключении сформулированы основные теоретические и практические результаты диссертационного исследования.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИОННОЙ РАБОТЫ

Основные результаты диссертационной работы заключаются в следующем:

1. Проведено исследование современных методов построения систем распознавания на основе вероятностного подхода.

2. Проведен анализ существующих подходов к формированию оценок достоверности для систем распознавания речи.

3. Введены определения целевых и альтернативных моделей распределения векторов признаков речевого сигнала и приведен способ построения элементарной функции достоверности для вектора признаков. Предложен новый метод построения оценок достоверности для систем распознавания речи, который основан на построении целевых и альтернативных моделей для распределения признаков речевого сигнала.

4. На основе предложенного метода построения функции достоверности для вектора признаков разработан алгоритм построения целевых и альтернативных моделей, который позволяет решить проблему выбора количества параметров этих моделей.

5. Выполнена практическая реализация и проведены численные измерения показателей эффективности предложенных методов и алгоритмов. Результаты экспериментов показали более высокую эффективность

21

предложных в работе оценок достоверности по сравнению с известными оценками.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. М. Т. Нгуен. Оценка достоверности результатов автоматического распознавания речи // Труды Института системного анализа РАН. Динамика неоднородных систем, выпуск 10(2), 2006, стр. 405-414.

2. М. Т. Нгуен. Обнаружение новых слов и невербальных событий при распознавании речи И Модели, методы, алгоритмы и архитектуры систем распознавания речи, 2006, стр. 119-137.

3. М. Т. Нгуен. Построение оценок достоверности результатов распознавания речи с использованием альтернативных моделей // Сборник докладов XIII Всероссийской конференции «Математические методы распознавания образов», 2007, стр. 370-371.

4. М. Т. Нгуен, В. Я. Чучупал. Верификация результатов автоматического распознавания речи // Сборник трудов XIX сессии Российского Акустического Общества, 2007, т. 3, стр. 63-67.

5. М. Т. Nguyen, V. J. Chuchupal. Word verification method for automatic speech recognition II Proceedings of the XII International conference "Speech and Computer" Specom'2007, v. 1, pp. 152-156.

6. M. T. Nguyen, V. J. Chuchupal. Word confidence measure based on frame likelihood score // Pattern recognition and image analysis. Advances in mathematical theory and application, 2008, n. 3, pp. 431-433.

Подписано в печать 12.11.2008 г.

Печать трафаретная

Заказ №1168 Тираж: 100 экз.

Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferai.ni

Оглавление автор диссертации — кандидата технических наук Нгуен Минь Туан

Содержание.

Введение.

Глава 1. Обзор современных методов распознавания речи и оценивания достоверности результатов распознавания.

1.1 Вероятностный подход к моделированию и распознаванию речи

1.1.1 Извлечение признаков речевого сигнала.

1.1.2 Моделирование речевого сигнала на акустическом уровне

1.1.3 Моделирование языковых ограничений.

1.1.4 Декодирование речевого сигнала.

1.2 Методы оценки достоверности результатов распознавания.

1.2.1 Элементарные оценки достоверности.

1.2.2 Оценки достоверности на основе вычисления апостериорных вероятностей.

1.2.3 Оценки достоверности на основе формирования отношения правдоподобия.

1.3 Выводы.

Глава 2. Оценки достоверности на основе отношения правдоподобия.

2.1 Выбор моделей для построения отношения правдоподобия.

2.2 Методы формирования оценок достоверности.

2.2.1 Двухуровневый метод формирования оценок достоверности.

2.2.2 Задание весовых коэффициентов.

2.3 Обучение целевых и альтернативных моделей.

2.3.1 Критерий обучения моделей.

2.3.2 Обучение моделей методом градиентного спуска.

2.3.3 Улучшенный алгоритм обучения моделей.

2.4 Выводы.

Глава 3. Экспериментальные применения.

3.1 Корпус речевых данных FaVoR.

3.2 Базовая система распознавания речи.

3.2.1 Извлечение векторов признаков речевого сигнала.

3.2.2 Акустические модели звуков речи.

3.2.3 Модель языка для корпуса данных FaVoR.

3.2.4 Эффективность распознавания для базовой системы.

3.3 Результаты экспериментов.

3.3.1 Оценка параметров целевых и альтернативных моделей.

3.3.2 Применения предлагаемых методов формирования оценок достоверности.

3.3.3 Сравнение эффективности предложенного метода с известными оценками достоверности.

3.4 Выводы.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Нгуен Минь Туан

Прогресс современного общества в значительной мере обусловлен развитием автоматических и роботизированных систем. Компьютеры и микропроцессоры стали неотъемлемым атрибутом жизни людей в индустриально развитых странах. Научно-техническая проблема создания адекватных средств для взаимодействия человека с компьютерными системами приобрела в последние десятилетия важный социальный статус.

Одним из наиболее очевидных и перспективных путей организации взаимодействия человека с компьютером является использование человеческой речи, в частности, автоматическое распознавание речевых сообщений. Исследования по автоматическому распознаванию речи начались более пятидесяти лет назад, в середине прошлого века [19] и интенсивно продолжаются в настоящее время.

Первоначально основной целью автоматического распознавания речи была разработка методов точного преобразовании акустического речевого сигнала в текстовое сообщение для создания так называемой «фонетической пишущей машинки» [8].

С течением времени, с учетом опыта практической реализации систем распознавания речи, произошла переоценка целей и задач этой научной области, на передний план вышли вопросы распознавания и понимания естественной речи, а также создания диалоговых систем. В таких условиях наблюдаемый речевой сигнал может содержать, помимо известных системе слов, также различные акустические события, например, незнакомые слова, обрывки речи, кашель, смех и т.п.

Сейчас задача автоматического распознавания речи трактуется как преобразование речевых сообщений в адекватную речевому высказыванию последовательность действий, в том числе, орфографическую запись высказывания. Для диалоговых систем, например, систем резервирования билетов на транспорт, систем управления бортовой аппаратурой самолета или робототехнического устройства точная текстовая запись высказывания, вообще говоря, не требуется, здесь важно понять значения отдельных терминов. Например, для систем резервирования авиабилетов это могут быть имена пунктов вылета и прилета, дата и время полета.

Успехи в создании методов и технологий распознавания речи очевидны. С точки зрения известного японского специалиста С. Фуруи [28] наиболее значимыми научными и технологическими результатами, полученными за последние годы являются:

- переход от распознавания на основе шаблонов слов к статистическому моделированию речи с помощью Скрытых Марковских Моделей и п-грамм.

- переход от мер сходства на основе расстояний к мерам близости на основе правдоподобия

- использование дискриминантных методов для распознавания речи

- использование контекстно-зависимых акустических моделей звуков

- переход от распознавания изолированно произносимых слов к распознаванию слитной речи

- переход от систем распознавания с небольшими словарями к системам со словарями в десятки тысяч слов

- распознавание речи в условиях телефонного канала

- распознавание речи произвольного человека

- распознавание естественной речи

- распознавание речи в ситуациях полилогов

- понимание речевых сообщений

- развитие мультимодальных систем распознания речи

- реализация сложных систем распознавания целиком на уровне программного кода

- развитие специального программного обеспечения, его стандартизация

- появление коммерчески успешных продуктов с использованием распознавания речи Успехи, достигнутые научными коллективами, можно количественно измерить результатами (например, в терминах основной характеристики эффективности систем распознавания речи - вероятности пословной ошибки распознавания), которые получены при решении специально выбранных тестовых заданий. В следующей таблице приведены вероятности пословной ошибки распознавания для лучших лабораторных систем распознавания речи, которые были получены при испытаниях на четырех индикативных проблемно-ориентированных задачах. Для сведения также приведены характеристики сложности задач - размер словаря и перплексия (коэффициент ветвления) языка [40].

Таблица 1

Характеристики нескольких современных систем распознавания речи

Задача Размер словаря Перплексия языка Вероятность ошибки

Распознавание слитно произносимых цифр 11 11 0.5%

Деловые новости (читаемая речь) 20000 200 3%

Новости (читаемая речь) 64000 - 10%

Телефонные разговоры 64000 - 20%

Из представленных данных следует, что распознавание естественной произвольной речи, тем более в ограниченном по полосе частот, канале передачи, каким является телефонный канал, далеко от удовлетворительного: каждое пятое слово распознается неправильно. В этом нет ничего необычного, поскольку распознавание речи у человека неразрывно связано с ее пониманием и мультимодальной обработкой, то есть анализом смысла высказывания, учетом контекстной информации, мимики и т.п.

Основная причина относительно невысокой эффективности систем речевой технологии заключается в вариативности речевого сигнала, которая обуславливается, например, индивидуальными особенностями дикторов, характеристиками каналов связи, а также влиянием окружающей обстановки.

На эффективность автоматического распознавания речи также оказывают существенное влияние условия прикладной области, в частности, размер словаря. Как правило, словарь системы распознавания является замкнутым, то есть содержит все слова, которые могут быть произнесены и должны быть распознаны. Увеличение размера словаря, вообще говоря, снижает вероятность правильного распознавания.

Потребность распознавания естественной, неограниченной, по словарному составу, речи, приводит к тому, что требование правильного распознавания всего высказывания вряд ли осуществимо и обычно не требуется. Поскольку в данном случае словарь системы является открытым, необходимо предусмотреть возможность отказа системы от распознавания каких-то частей речевого высказывания, которые содержат новые, не входящие в словарь системы, выражения и слова. Таким образом, появляется необходимость решения проблемы идентификации в речевом потоке новых, так называемых, несловарных (OOV, «out of vocabulary») слов или иных акустических событий. Естественным способом решения этой проблемы является синтез так называемых оценок достоверности для результатов распознавания, на основе значений которых можно, в частности, идентифицировать OOV.

Под оценкой достоверности (английский термин «confidence measure») для некоторого результата распознавания речи, под которым может подразумеваться отдельное слово, звук или предложение, здесь и далее будет пониматься число, в интервале от 0 до 1, которое характеризует степень доверия или уверенности в правильности этого результата.

Применение оценок достоверности также может повысить эффективность использования традиционных систем распознавания речи, оперирующих с замкнутыми словарями. Часто эти системы используются как составная часть более крупных автоматических систем, например, управления робототехническими комплексами, доступа к информационным ресурсам, диалоговых систем. В этом случае существует возможность коррекции ошибок автоматического распознавания речи на основе дополнительной информации, которой располагает система верхнего уровня. Такая коррекция будет более успешна, если система распознавания речи предоставит расширенную информацию о результате распознавания, включающую не только предполагаемые слова, но и оценку их достоверности.

Важность решения проблемы построения эффективных оценок достоверности для систем распознавания речи увеличивается по мере дальнейшего прогресса в области речевых технологий. Это обстоятельство определяет актуальность исследований в этом направлении.

Цель диссертационной работы заключается в исследовании и разработке эффективных алгоритмов построения оценок достоверности для систем автоматического распознавания речи.

Достижение указанной цели предполагает решение следующих основных задач:

1. Исследование существующих методов моделирования и автоматического распознавания речи, а также известных методов построения оценок достоверности для систем распознавания речи.

2. Разработка новых методов и алгоритмов построения оценок достоверности результатов работы систем распознавания речи.

3. Программная реализация предлагаемых алгоритмов и проведение экспериментальных исследований их эффективности.

В качестве методов исследования использовались методы математического анализа, методы цифровой обработки сигналов, теории распознавания образов, теории вероятностей, методы кластеризации, теории оптимизации, теории формальных языков.

Научная новизна заключается в том, что предложен новый метод построения оценок достоверности для систем распознавания речи, который основан на построении дополнительных моделей распределения признаков речевого сигнала. Разработаны алгоритмы оценивания значений параметров дополнительных моделей, а также выбора оптимального количества их параметров.

Практическая ценность диссертации. Предложенный метод формирования оценок достоверности показал высокую эффективность при верификации результатов распознавания речи. Исследования были выполнены в рамках работ по проектам «Разработка и тестирование системы распознавания речевых команд управления в акустико-фоновой обстановке кабины пилота» и «Разработка и исследование методов распознавания речи на основе комбинированных моделей звуков» (гранты РФФИ № 06-08-1534 и №07-01-00657).

Основные научные результаты диссертации, выносимые на защиту:

1. Метод формирования оценок достоверности для систем распознавания речи, основная идея которого заключается в построении специальных (дополнительных) моделей распределения векторов признаков речевого сигнала.

2. Алгоритм оценивания параметров дополнительных моделей распределения по обучающей выборке

3. Алгоритм выбора оптимального количества параметров дополнительных моделей.

Апробация работы. Результаты диссертация докладывались на XII международной конференции «Речь и Компьютер» SPECOM'2007 (Москва, 2007 г.), на XIX сессии Российского Акустического Общества (Нижний Новгород, 2007 г.), на XIII всероссийской конференции «Математические методы распознавания образов» (Санкт-Петербург, 2007 г.), на VII Открытом немецко-российском семинаре «Распознавание образов и понимание изображений» (Эттлинген, 2007 г.), а также на семинаре отдела математических проблем распознавания образов и методов комбинаторного анализа ВЦ РАН (Москва, 2008 г.).

Публикации. По результатам диссертационной работы опубликовано 6 статей в научных изданиях [1-6].

Диссертационная работа состоит из введения, трех глав, заключения, двух приложений и библиографического списка использованных источников. Общий объем составляет 102 страницы, в том числе 13 рисунков и 20 таблиц. Библиографический список включает 85 наименований.

Заключение диссертация на тему "Разработка алгоритмов построения оценок достоверности для систем распознавания речи"

Основные результаты диссертационной работы заключаются в следующем:

1. Проведено исследование современных методов построения систем распознавания на основе вероятностного подхода.

2. Проведен анализ существующих подходов к формированию оценок достоверности для систем распознавания речи.

3. Введены определения целевых и альтернативных моделей распределения векторов признаков речевого сигнала и приведен способ построения элементарной функции достоверности для вектора признаков. Предложен новый метод построения оценок достоверности для систем распознавания речи, который основан на использовании значений элементарной функции от составляющих векторов признаков.

4. На основе предложенного метода построения элементарной функции достоверности для вектора признаков разработан алгоритм построения целевых и альтернативных моделей, который позволяет решить проблему выбора количества параметров этих моделей.

5. Выполнена практическая реализация и проведены численные измерения показателей эффективности предложенных методов и алгоритмов. Результаты экспериментов показали более высокую эффективность предложных в работе оценок достоверности по сравнению с известными оценками.

Заключение

В диссертационной работе представлены результаты исследований и разработки алгоритмов построения оценок достоверности для систем распознавания речи.

Библиография Нгуен Минь Туан, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Нгуен М. Т. Оценка достоверности результатов автоматического распознавания речи // Труды Института системного анализа РАН. Динамика неоднородных систем, 2006, в. 10(2), с. 405-414

2. Нгуен М. Т. Обнаружение новых слов и невербальных событий при распознавании речи // Модели, методы, алгоритмы и архитектуры систем распознавания речи, 2006, с. 119-137

3. Нгуен М. Т. Построение оценок достоверности результатов распознавания речи с использованием альтернативных моделей // Сборник докладов 13-ой Всероссийской конференции «Математические методы распознавания образов», 2007, с. 370-371

4. Нгуен М. Т., Чучупал В. Я. Верификация результатов автоматического распознавания речи // Сборник трудов XIX сессии Российского Акустического Общества, 2007, Т. 3. с. 63-67

5. Nguyen М. Т., Chuchupal V. J. Word verification method for automatic speech recognition // Proceedings of the XII International Conference "Speech and Computer" Specom'2007, 2007, V. 1, p. 152-156

6. Nguyen M. Т., Chuchupal V. J. Word confidence measure based on frame likelihood score // Pattern recognition and image analysis. Advances in mathematical theory and application, 2008, N. 3, p. 431-433

7. Десятчиков А. А., Ковков Д. В., Лобанцов В. В., Маковкин К. А., Матвеев И. А., Мурынин А. Б., Чучупал В. Я. Комплекс Алгоритмов Для Устойчивого Распознавания Человека // Известия РАН, Теория и Системы Управления, 2006, с. 119-130

8. Обжелян Н. К., Трунин-Донской В.Н Машины, которые говорят и слушают // Кишинев, Штиница, 1987

9. Aho A. V., Ullman J. D. The Theory of Parsing, Translation and Computing // Prentice Hall, 1972

10. Atal B. S., Schroeder M. R. Predictive Coding of Speech Signal // Proceedings of the International Congress on Acoustic, 1968

11. Bahl L. R., Jelinek F., Mercer R. L. A Maximum Likelihood Approach to Continuous Speech Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1983, pp. 179-190

12. Baum L. E. An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of a Markov Process // Inequalities, 1972, V. 3, pp. 1-8

13. Benitez M. C., Rubio A., Torre A. Different Confidence Measures for Word Verification in Speech Recognition // Speech Communication, 2000, V. 32, pp. 79-94

14. Bilmes J. A. A Gentle Tutorial of the EM Algorithm and Its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models,1998

15. Bouwman G., Boves L., Koolwaaij J. Weighting Phone Confidence Measure for Automatic Speech Recognition // Workshop on Voice Operated Telecom Services, 2000, pp. 59-62

16. Charlet D. Optimizing Confidence Measure Based on HMM Acoustical Rescoring // Proceedings of the ISCA Tutorial and Research Workshop ARS2000, 2000, pp. 203-206

17. Chase L. Word and Acoustic Confidence Annotation for Large Vocabulary Speech Recognition // Proceedings of the European Conference on Speech Communication and Technology, 1997, pp. 815-818

18. Cox S., Rose R. Confidence Measures for the Switch-board Database // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1996, pp. 511-514

19. Davis К. H., Biddulph R., Balashek S. Automatic Recognition of Spoken Digits // The Journal of the Acoustical Society of America, 1952, V. 24,1. 6, pp. 637-642

20. Demuynck K., Van Compernolle D., Wambacq P. Doing Away with the Viterbi Approximation // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2002, pp. 717-720

21. Deriven M. Dynamic Bayesian Networks for Speech Recognition // Proceedings of the National Conference on Artificial Intelligence, 2002, pp. 981-981

22. Egan J. P. Signal Detection Theory and ROC Analysis // Academic Press, 1975

23. Eide E., Gish H., Jeanrenaud P., Mielke A. Understanding and Improving Speech Recognition Performance Through the Use of Diagnostic Tools // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1995, pp. 221-224

24. Erzin E., Cetin A. E., Yardimci Y. Subband Analysis for Robust Speech Recognition in the Presence of Car Noise // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1995, pp. 417-420

25. Fabian Т., Lieb R., Gunther R., Matthias T. Impact of Word Graph Density on the Quality of Posterior Probability Based Confidence Measures // Proceedings of the European Conference on Speech Communication and Technology, 2003, pp. 917-920

26. Fawcett T. An Introduction to Roc Analysis // Pattern Recognition Letters, 2006, pp. 861-874

27. Franzini M., Witbrock M., Lee K. A Connectionist Approach to Continuous Speech Recognition // Proceedings of the International Conference on Acoustics, Speech and Signal Processing, 1989, pp. 425-428

28. Furui S. Fifty Years of Progress in Speech and Speaker Recognition // The Journal of the Acoustical Society of America, 2004, V. 116, I. 4, pp. 24972498

29. Gold В., Morgan N. Speech and Audio Signal Processing // John Wiley and Sons, 2000

30. Gowdy J. N., Tufekci Z. Mel-scaled Discrete Wavelet Coefficients for Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2000, pp. 1351-1354

31. Harrison Т., Fallside F. A Connectionist Model for Phoneme Recognition in Continuous Speech // Proceedings of the International Conference on Acoustics, Speech and Signal Processing , 1989, pp. 417-420

32. Huang X. D., Ariki Y., Jack M. A. Hidden Markov Models for Speech Recognition // Edinburgh University Press, 1990

33. Humphrys M. Introduction to Artificial Intelligence, 2008, http://www.computing.dcu.ie/~humphrys/ca300/index.html

34. Hunt A., McGlashan S. Speech Recognition Grammar Specification Version 1.0// W3C, 2004

35. Itakura F., Saito S. Analysis Synthesis Telephony Based on the Maximum Likelihood Method // Proceedings of the International Congress on Acoustic, 1968, pp. 17-20

36. Jelinek F. Statistical Method for Speech Recognition // MIT Press, 1997

37. Jelinek F. The Development of an Experimental Discrete Dictation Recognizer//Proceedings of the IEEE, 1985, pp. 1616-1624

38. Jia В., Zhu X., Luo Y., Hu D. Utterance Verification Using Modified Segmental Probability Model // Proceedings of the European Conference on Speech Communication and Technology, 1999, pp. 45-48

39. Jiang L., Huang X. D. Vocabulary-independent Word Confidence Measure Using Subword Features // Proceedings of the International Conference on Spoken Language Processing, 1998

40. Jurafsky D., Martin J. H. Speech and Language Processing // Prentice Hall, 2008

41. Kemp Т., Schaaf T. Estimating Confidence Using Word Lattices // Proceedings of the European Conference on Speech Communication and Technology, 1997, pp. 827-830

42. Kim K., Youn D. H., Lee C. Evaluation of Wavelet Filters for Speech Recognition // Proceedings of the IEEE International Conference on Systems, Man and Cybernetics, 2000, v. 4, pp. 2891-2894

43. Levinson S. E. Continuously Variable Duration Hidden Markov Models for Automatic Speech Recognition // Computer Speech and Language, 1986, pp. 29-45

44. Lleida E., Rose R. C. Efficient Decoding and Training Procedure for Utterance Verification in Continuous Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1996, pp. 507-510

45. Lleida E., Rose R. C. Utterance Verification in Continuous Speech Recognition : Decoding and Training Procedures // IEEE Transactions on Speech and Audio Processing, 2000, pp. 126-139

46. Macherey K., Bender O., Ney H. Multi-level Error Handling for Tree-Based Dialogue Course Management // Proceedings of the ISCA Tutorial and Research Workshop on Error Handling in Spoken Dialogue Systems , 2003, pp. 123-128

47. Marlcel J. D., Gray A. H. Linear Prediction of Speech // Springer-Verlag, 1976, pp. 31-35

48. Martin A., Doddington G., Kamm Т., Ordowski M., Pryzybocki M. The DET Curve in Assessment of Detection Task Performance // Proceedings of the European Conference on Speech Communication and Technology, 1997, pp. 1895-1898

49. Mathan L., Miclet L. Rejection of Extraneous Input in Speech Recognition Applications, Using Multi-layer Perceptrons and the Trace of HMMs // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1991, pp. 93-96

50. Moreau N., Jouvet D. Use of a Confidence Measure Based on Frame Level Likelihood Ratios for the Rejection of Incorrect Data // Proceedings of the European Conference on Speech Communication and Technology, 1999, pp. 291-294

51. Neti C. Y., Roukos S., Eide E. Word-based Confidence Measures as a Guide for Stack Search in Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1997, pp. 883-886

52. Ney H., Martin S., Wessel F. Statistical Language Modeling Using Leaving-one-out // Corpus-based Methods in Language and Speech Processing, 1997, pp. 174-207

53. Normadin Т., Lacouture R., Cardin R. MMIE Training for Large Vocabulary Continuous Speech Recognition // Proceedings of the International Conference on Acoustics, Speech and Signal Processing , 1994, pp. 13671370

54. Picone J. W. Signal Modeling Techniques in Speech Recognition // Proceedings of the IEEE, 1993, pp. 1215-1247

55. Pinto J., Sitaram R. N. V. Confidence Measures in Speech Recognition Based on Probability Distribution of Likelihoods // Proceedings of the European Conference on Speech Communication and Technology Interspeech'2005, 2005, pp. 3001-3004

56. Rabiner L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proceedings of the IEEE, 1989, pp. 257-286

57. Rabiner L. R., Juang В. H. Fundamentals of Speech Recognition 11 Prentice Hall, 1993

58. Rabiner L. R., Juang В. H., Levinson S. E., Sondhi M. M Recognition of Isolated Digits Using Hidden Markov Models with Continuous Mixture Densities // AT&T Technical Journal, 1985, pp. 1211-1234

59. Rahim M. G., Lee С. H. Discriminative Utterance Verification for Connected Digits Recognition // IEEE Transactions on Speech and Audion Processing, 1997, pp. 266-277

60. Razik J., Mella O., Fohr D., Haton J. P. Local Word Confidence Measure Using Word Graph and N-Best List // Proceedings of the European Conference on Speech Communication and Technology, 2005, pp. 3369-3372

61. Robinson A. J., Fallside F. A Dynamic Connectionist Model for Phoneme Recognition // Neural Networks from Models to Applications, 1988, pp. 541550

62. Rose R. C., Juang В. H., Lee С. H. A Training Procedure for Verifying String Hypothesis in Continuous Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1995, pp. 281-284

63. Sanderson C., Bengio S., Boulard H., Mariethoz J., Collobert R., BenZeghiba M. F., Cardinaux F., Marcel S. Speech and Face Based Biometric Authentification at IDIAP // Proceedings of the International Conference on Miltimedia and Expo , 2003, pp. 1-4

64. San-Segundo R., Pellom В., Hacioglu K.,Ward W. Confidence Measures for Spoken Dialogue Systems // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2001, pp. 393-396

65. Schaaf Т., Kemp T. Confidence Measures for Spontaneous Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1997, pp. 875-878

66. Sigurdsson S., Peterson К. В., Lehn-Schioler T. Mel Frequency Cepstral Coefficients: An Evaluation of Robustness of MP3 Encoded Music // Proceedings of the International Conference on Music Information Retrieval, 2006, pp. 286-289

67. Siu M. H., Mark В., Au W. H. Minimization of Utterance Verification Error Rate as a Constrained Optimization Problem // IEEE Signal Processing Letters, 2006, v. 13, pp. 760-763

68. Siu M., Gish H. Evaluation of Word Confidence for Speech Recognition Systems // Computer Speech And Language, 1999, pp. 299-319

69. Soong F. K., Lo W. K. Generalized Posterior Probability for Minimum Error Verification of Recognized Sentences // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2005, pp. 85-88

70. Sukkar R. A. Rejection for Connected Digit Recognition Based on GPD Segmental Discrimination // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1994, pp. 393-396

71. Sukkar R. A., Lee С. H. Vocabulary Independent Discriminative Utterance Verification for Nonkeyword Rejection in Subword Based Speech Recognition // IEEE Transactions on Speech and Audio Process, 1996, V. 4, pp. 420-429

72. Uhrik C., Ward W. Confidence Metrics Based on N-gram Language Model Back-off Behaviors // Proceedings of the European Conference on Speech Communication and Technology, 1997, pp. 2772-2774

73. Ullman J. D., Hopcroft J. E. Introduction to Automata Theory, Language and Computation // Addison Wesley, 1979

74. Weintraub M., Beaufays F., Rivlin Z., Konig Y., Stolcke A. Neural-network Based Measures of Confidence for Word Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1997, pp. 887-890

75. Weitraub M. LVCSR Log-likelihood Ratio Scoring for Keyword Spotting // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1995, pp. 297-300

76. Wessel F. Word Posterior Probabilities for Large Vocabulary Speech Recognition // Ph.D. Thesis,RWTFI Aachen University, German, 2002

77. Wessel F., Macherey K., Ney H. A Comparison of Word Graph and N-Best List Based Confidence Measures // Proceedings of the European Conference on Speech Communication and Technology, 1999, pp. 315-318

78. Wessel F., Macherey K., Schluter R. Using Word Probabilities as Confidence Measures // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1998, pp. 225-228

79. Wessel F., Schluter R., Macherey K., Ney H. Confidence Measures for Large Vocabulary Continuous Speech Recognition // IEEE Transactions on Speech and Audio Process, 2001, pp. 288-298

80. Wessel F., Schluter R., Ney H. Using Posterior Word Probabilities for Improved Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2000, pp. 1587-1590

81. Young S. J. A Review of Large-Vocabulary Continuous Speech Recognition // IEEE Signal Processing Magazine, 1996, pp. 45-57

82. Young S., Evermann G., Hain T. Kershaw D., Moore G., Odell J., Ollason D., Povey D., Valtchev V., Woodland P. The НТК Book // Cambridge University Engineering Department, 2002

83. Zhang R., Rudnicky A. I. Word Level Confidence Annotation Using Combinations of Features // Proceedings of the European Conference on Speech Communication and Technology, 2001, pp. 2105-2108

84. Zweig G. Speech Recognition with Dynamic Bayesian Networks // Ph.D. Thesis, University of California, Berkeley 1998