автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях
Автореферат диссертации по теме "Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях"
На правах рукописи
Зулкарнеев Михаил Юрьевич
РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ И АЛГОРИТМОВ ПОИСКА КЛЮЧЕВЫХ СЛОВ В АУДИО-СООБЩЕНИЯХ
Специальность 05.13.18 — Математическое моделирование, численные методы и комплексы программ
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
РОСТОВ-НА-ДОНУ 2006 г.
Работа выполнена в Южно-Российском региональном центре информатизации Ростовского государственного университета (ЮГИНФО РГУ)
Научный руководитель:
кандидат технических наук, старший научный сотрудник ЛЕДНОВ Дмитрий Анатольевич
Официальные оппоненты:
доктор физико-математических наук, профессор ПОТЕТЮНКО Эдуард Николаевич
кандидат физико-математических наук, доцент РАШИДОВА Елена Викторовна
Ведущая организация:
Федеральное государственное унитарное предприятие «Научно-исследовательский институт «Квант», г. Москва
Защита диссертации состоится »г/» г г: 2006 г. в 11 часов на заседании диссертационного совета К.212.208.04 по физико-математическим и техническим наукам в Ростовском Государственном Университете по адресу: 344090, г. Ростов-на-Дону, пр. Стачки 200/1, корпус 2, ЮГИНФО РГУ, к. 206.
С диссертацией можно ознакомиться в научной библиотеке РГУ по адресу: г. Ростов-на-Дону, ул. Пушкинская, 148.
Автореферат разослан /У 2006 г.
Ученый секретарь диссертационного совета, кандидат физико-математических наук
Муратова Г. В.
Общая характеристика работы
Актуальность темы. Развитие компьютерной техники, компьютерных технологий и интернета, приводит к росту объема информации, с которым приходится сталкиваться современному человеку. В связи с этим актуальной является проблема автоматической обработки информации, включая сортировку, хранение и быстрый поиск.
В этом смысле, не остается в стороне и задача автоматической обработки речевых данных, целью которой является выявление содержания речевых сообщений для сокращения их объема. Для решения этой задачи используются технологии распознавания речи, которые бурно развиваются последние четыре десятилетия, и к настоящему времени в этой области достигнуты значительные успехи. Так, преобразование речи, записанной из программ радиовещания, в текст выполняется с точностью распознавания слов 83-87%, спонтанной речи, записанной из стандартного телефонного канала — с точностью 71-75%.
Технологии распознавания речи в настоящее время используются в целом ряде практических приложений таких как:
• Поиск и классификация речевых сообщений в больших массивах речевых данных по их содержанию;
• Диалоговые системы «Человек - компьютер», «Человек - автоматическая справочная система» и т.д.;
• Управление промышленными, бытовыми и другими устройствами с использованием естественного языка;
• Автоматические системы перевода.
Однако не всегда требуется полное преобразование речи в текст, в некоторых приложениях может оказаться достаточной возможность определить наличие в сообщении лишь некоторых слов, или фраз. Эту задачу решают системы поиска ключевых слов в аудио-сообщениях. В настоящее время наиболее перспективными из них считаются системы поиска ключевых слов, основанные на полном распознавании речи, от которых они отличаются размером словаря — размер словаря системы поиска ключевых слов намного меньше (порядка 1000 слов), чем размер словаря системы распознавания речи (десятки тысяч слов и более).
Несмотря на достигнутые успехи, существует ряд практических задач, для которых точность поиска ключевых слов остается все еще не достаточной для практического
использования. К таким задачам относится поиск ключевых слов в речевых сообщениях, записанных с сотовых телефонов или в условиях низкого отношения сигнал/шум (менее ЮдБ). Точность поиска ключевых слов для таких систем может не превышать 40-50% в зависимости от уровня шума.
В связи с этим актуальной является задача разработки новых моделей и методов поиска ключевых слов, которые позволили бы повысить точность поиска ключевых слов.
Цель и задачи работы. Цель данной работы является разработка математических моделей и алгоритмов, позволяющих повысить точность поиска ключевых слов в аудио-сообщениях за счет: создания более точных акустических моделей ключевых слов и оптимизации словаря заполнения.
В соответствии с этими целями сформулирован и решен ряд задач:
• Введено понятие длинноконтекстных акустических моделей фонем, предназначенных для создания акустических моделей ключевых слов;
• Введено понятие показателя влияния контекста на параметры акустических моделей фонем, основанное на близости акустических моделей фонем, разработан метод и алгоритм его расчета;
• Разработан метод аппроксимации длинноконтекстных акустических моделей фонем, оптимальный с точки зрения показателя влияния контекста на параметры моделей;
• Поставлена задача формирования словаря заполнения как задача разбиения слов языка на непересекающиеся подмножества, для которой в качестве критерия взят критерий минимума средней ошибки распознавания и записана соответствующая целевая функция;
• Доказана лемма, на основании которой целевая функция процедуры разбиения слов языка на непересекающиеся подмножества может быть заменена функцией языковых вероятностей и перекрестной энтропии СММ;
• Разработан метод и алгоритм расчета перекрестной энтропии СММ;
• Предложен алгоритм кластеризации, который может быть использован для разбиения слов языка на непересекающиеся подмножества с использованием полученной целевой функции;
• Разработана программная реализация и выполнены экспериментальные исследования системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения.
• Создана программная реализация системы, предназначенной для оценки параметров длинноконтекстных акустических моделей фонем, а также проведены экспериментальные исследования предлагаемого метода аппроксимации длинноконтекстных акустических моделей фонем;
Методы исследования. В работе использованы методы распознавания естественной речи, основанные на скрытых Марковских моделях, в том числе теория цифровой обработки сигналов, теория распознавания образов и элементы теории вероятностей и математической статистики.
Научная новизна. Предложен новый подход к созданию акустических моделей ключевых слов с использованием длинноконтекстных акустических моделей фонем, отличающихся от известных контекстнозависимых моделей переменной длиной учитываемого контекста. Впервые поставлена и решена задача формирования словаря заполнения, оптимального с точки зрения средней ошибки распознавания. Выполнен ряд экспериментов, подтверждающих эффективность предлагаемых методов.
Достоверность. Представленные в диссертации леммы и теоремы имеют строгое математическое обоснование, предложенные методы исследованы теоретически и проверены экспериментально.
Практическая значимость. Предложен метод и алгоритм создания акустических моделей ключевых слов с использованием длинноконтекстных моделей фонем. Предложен метод и алгоритм формирования словаря заполнения, оптимального с точки зрения минимума средней ошибки распознавания, который позволяет повысить точность поиска ключевых слов.
Результаты диссертации были применены при выполнении следующих работ:
• НИР "Ключ", НИР "Живец-1 СВА", ОКР "Творение-2А", заказчик - ФГУП "18 ЦНИИ" МО РФ;
• НИР "Беседа", НИР "Хоровод", НИР "Хор-Р", заказчик - ФГУП "НИИ "КВАНТ";
• НИР "Речь-О", заказчик — ФГНУ НИИ "Спецвузавтоматика".
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на седьмой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2006" (Кацивели, Украина, 2006), на XVI сессии Российского акустического общества (Москва, 2005), на международной конференции Speech and Computer "Specom-2004" (Санкт-Петербург, 2004), на
международной научной конференции Speech and Computer "Specom-2005" (Patras, Greece, 2005), на шестой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2005" (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2005).
Публикации. По теме диссертации опубликовано 25 печатных работ. Из них 10 статей в научных журналах, 13 тезисов докладов и два свидетельства об официальной регистрации программ для ЭВМ.
Личный вклад автора. Вклад автора в совместные работы заключается: в формировании постановки проблемы [4,5,6,7,8,9,13,14,16,17,21,24,25], теоретическом обосновании [5,6,7,8,21,22], совместном теоретическом обосновании [2,9,10,13,14,15,24], постановке и анализе численных экспериментов [1,3,6,13,19,24,25].
Структура и объем диссертации. Диссертация состоит из введения, трех глав и списка литературы. Общий объем диссертации - 124 страницы, в том числе 31 рисунок, 6 таблиц. Список литературы содержит 101 наименование.
Содержание работы
Во введении раскрывается актуальность темы диссертации, изложены основные цели и задачи диссертации, показана их практическая значимость, представлена структура диссертации и сформированы основные положения, выносимые на защиту.
В первой главе рассматриваются существующие методы и алгоритмы поиска ключевых слов в аудио-сообщениях, основанные на скрытых Марковских моделях1.
В первом разделе первой главы описывается статистический подход к решению задачи распознавания речи, основанный на Байесовской теории принятия решений. Особенности этого подхода состоят в следующем:
1. Речевое сообщение, представленное в виде звукового файла, преобразуется в последовательность векторов признаков О = ох,..,от.
2. Решение о содержании речевого сообщения W - w,,...^ принимается на основании Байесовского критерия минимума средних потерь, который в случае матрицы
1 Рабинер Л.Б. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // ТИИЭР, т.77, № 2, февраль 1989 — с. 86-120.
потерь 10 =1-30, где — символ Кронекера, преобразуется в критерий максимума апостериорной вероятности:
где Р(01IV) — вероятность того, что последовательность слов IV может быть представлена последовательностью векторов признаков О; Р(1¥) — вероятность последовательности слов IV.
3. Для расчета вероятности Р(0 |Ж) используется акустическая модель.
4. Для расчета вероятности Р(1У) используется модель языка.
Во втором разделе первой главы описывается этап преобразования речевого сигнала в последовательность векторов признаков. Выдвигаются требования, которым должна удовлетворять результирующая последовательность О, чтобы обеспечить наиболее качественный и в то же время эффективный процесс распознавания. Эти требования связаны с предположениями, выдвигаемыми акустической моделью по отношению к процессу речеобразования.
Далее во втором разделе описывается РЬР -преобразование речевого сигнала, которое в настоящий момент дает наилучшее качество распознавания речи для систем, основанных на скрытых Марковских моделях, при этом указывается, что при выборе преобразования руководствуются результатами психоакустических экспериментальных исследований.
В третьем разделе первой главы описываются скрытые Марковские модели (СММ), которые в настоящее время широко используются для моделирования акустического сигнала при распознавании речи.
Определение 1 Скрытая Марковская модель — это система с конечным числом состояний, которая каждый момент времени I переходит из состояния в состояние в соответствии с вероятностью перехода а^. = | = /') и генерирует вектор признаков о, в
соответствии с выходной вероятностью Ь] (о), характерной для текущего состояния.
Параметры а1], Ь. (о) обладают свойствами, которые являются следствием их вероятностной природы:
Р
У/ = шах Р(IV | О) = аг§ шах— =
(1)
= а^ шах Р(О, IV) = шах Р(IV) Р (О | IV)
аи £0, = 1, 1
оеО
где N — количество состояний СММ-модели.
Ъг (о,) Ь2(о2) ¿)3(о3) ¿4(о4) ¿4(о5) Рисунок 1 — Пример СММ-модели
В третьем разделе первой главы описываются СММ-модели, которые используются в системах распознавания речи для моделирования акустического сигнала. Это так называемые СММ-модели типа «слева-направо» (см. рисунок 1). Множество состояний этих моделей является упорядоченным, и при этом переход из некоторого состояния возможен либо в это состояние, либо в следующее. Для удобства вводятся начальное и конечное состояния, в которых система находится перед началом и после завершения процесса генерации. Эти состояния не соответствуют реальным векторам признаков из последовательности векторов признаков О.
Также в диссертации конкретизируется вид Ъ; (о): в качестве Ь, (о) используется смесь нормальных распределений
«(•>-£—5е-(2>
где
М — количество элементов смеси;
мл я, д м, I,. т - соответственно вес, среднее вектор и корреляционная матрица т -й компоненты состояния ; # — знак транспонирования.
Параметры смеси обладают следующими свойствами: м^ £0, / = 2,...,ЛГ-1, т = \,...,М ,
и
И=1
х%1х>0 У.х*0, / = 2,...,7/-1, т = \,...,М .
Таким образом, акустическая модель Т1(1У) гипотезы IV характеризуется множеством параметров
Лярг, = : и = ■ г = 2,...,ы-\,т = 1,...,Л/} ,
где — количество состояний модели Ш(ЦГ).
По аналогии для обозначения множества параметров всех СММ-моделей системы распознавания речи в диссертации используется символ Л:
любая возможная последовательность слов|.
Далее в третьем разделе описывается способ построения СММ-модели последовательности слов . Существуют два разных подхода к моделированию акустического сигнала при распознавании речи:
1) Минимальными структурными элементами языка являются слова. В этом случае модель последовательности слов строится конкатенацией моделей слов, из которых она состоит.
2) Минимальными структурными элементами языка являются составные элементы слов (слоги, фонемы и т.д.), в этом случае модель слова строится конкатенацией моделей структурных элементов, из которых оно состоит, а модель последовательности слов строится конкатенацией моделей слов, из которых эта последовательность состоит.
Первый подход используется при распознавании речи с ограниченным словарем. Второй подход является более предпочтительным для больших словарей. В настоящей диссертационной работе используется второй подход, в котором в качестве структурных элементов выступают фонемы, при этом фонема моделируется тремя состояниями, из
которых первое моделирует часть фонемы, подверженную влиянию предшествующей фонемы, последнее — часть фонемы подверженную влиянию последующей фонемы, а центральное состояние моделирует «чистую» часть фонемы. На рисунке 1 показана СММ фонемы, а также сгенерированная моделью последовательность векторов признаков О = о,,..,о5. Также на рисунке показаны начальное и конечное состояния модели, в которых система находится перед началом и после завершения процесса.
В третьем разделе первой главы описывается способ вычисления вероятности Р(01IV) при помощи СММ:
Р{О\ш) = ^Р{О,Х\Ш) (3)
х
где ПН — СММ последовательности слов Ж, суммирование ведется по всем последовательностям состояний Х = х1,...,хт модели Ш.
Вероятность Р{0,Х\ ЯЛ) рассчитывается по формуле:
где
Р{Х | ЯЛ) = ац ,
р(о\х,т) = У1ьх(о1), 1=1
где Т — длина последовательности О, N — количество состояний модели ЭЛ.
В четвертом разделе первой главы описываются основные подходы к оценке параметров СММ-моделей. Процедура обучения в общем случае сводится к нахождению таких параметров СММ-моделей Я, которые бы максимизировали некоторую целевую функцию Р{Х)\
Я = ш^тах/^Л.) (4)
я
Наиболее распространенным для обучения СММ является метод максимального правдоподобия, в котором в качестве целевой функции выступает величина правдоподобия:
где Р(0 |2Л) рассчитывается по формуле (3), О — обучающая последовательность векторов признаков, а IV — последовательность слов, соответствующая этой последовательности.
Однако непосредственное использование выражения (5) для нахождения параметров СММ является весьма трудной задачей, поэтому для нахождения оптимальных параметров используется вспомогательная функция которая зависит от двух наборов
параметров СММ-моделей Л и Я, и связана с функцией следующими
соотношениями:
Qkoe - QMLE < FMLE - PMLE
öFule
дЛ
Из этих выражений следует, что <2л/а£ (^Д) возрастает одновременно с Р^^Л), а с другой стороны они одновременно достигают экстремума.
Непосредственная оптимизация вспомогательной функции <2А/1Е (л,л) по параметрам
Л приводит к итерационным формулам для расчета параметров СММ-моделей.
В пятом разделе первой главы описывается и-граммная модель языка2, которая используется для моделирования языка. Название объясняется тем, что основным рассматриваемым в данной методике объектом являются грамматики («-граммы) — последовательности слов длиной п. Модель языка предназначена для расчета вероятности
/=1
где для оценки вероятностей используется формула
2 Moore G.L. Adaptive Statistical Class-based Language Modelling // Ph.D thesis, Cambridge University, 2001.
: 1 < С(и'/_я+1,...,н'1.) ^ к,
где
= ........| и',-п+1,...,'илч),
где С(м'(._я+1,...,и').) - количество встреч грамматики обучающем тексте.
Основной особенностью этой модели является так называемый метод отхода, позволяющий рассчитывать вероятности последовательностей слов, которые не встречались в обучающем тексте.
В шестом разделе первой главы описывается декодер, выполняющий поиск оптимальной гипотезы в соответствии с (1). В диссертации описывается Витерби-декодер, который в настоящее время используется в системах распознавания речи, основанных на СММ-моделях. В качестве практической реализации Витерби-декодера описывается алгоритм перемещающегося маркера, который может быть использован для решения различных задач распознавания речи.
В заключение первой главы рассматриваются недостатки существующих методов, основным из которых является низкая точность поиска ключевых слов в каналах с повышенным уровнем шума, и предлагаются направления их разрешения, а также выполняется постановка задачи исследования.
Во второй главе предлагается понятие, а также метод обучения длинноконтекстных акустических моделях фонем, которые используются для создания более точных СММ-моделей ключевых слов.
Пусть IV — некоторое ключевое слово и РН{м>) = ^ — его фонетическая
транскрипция, где \<*1< N^{у}, — /'-я фонема транскрипции. Акустическая модель
ключевого слова м строится конкатенацией акустических моделей фонем. В диссертации для создания акустических моделей ключевых слов предлагаются так называемые длинноконтекстные модели фонем:
Определение 2 длинноконтекстной моделью (ДК-моделью) фонемы рИ1 называется модель, зависящая от всей последовательности фонем ЬС,{у^) = предшествующих данной фонеме в фонетической транскрипции слова, и всей последовательности фонем КС,(м>) = рНм,..,рИы^, следующих за данной фонемой в
фонетической транскрипции слова. £С( (м') и ЯС< (и>) называются соответственно левым и правым контекстом данной длинноконтекстной модели. Тройка элементов d = {LCi{w),ph¡,RCi{w)) называется описателем данной длинноконтекстной модели (ДК-описателем).
Определение 3 Между двумя описателями и существует отношение включенности <1х<с1г, если описатель г/, полностью содержится в описателе с/2, когда совмещаются их центральные фонемы.
Во второй главе предлагается следующий метод обучения ДК-моделей. Когда количество речевых участков, соответствующих ДК-модели меньше некоторого минимального значения N(d)<Nmin ДК-модель аппроксимируется моделью
и при этом описатели моделей находятся в отношении включенности И-<с1.
Поскольку существует множество описателей г?, которые могут находиться в отношении включенности с описателем с1, стоит проблема выбора наиболее подходящего в некотором смысле описателя д.. В диссертации предлагается выбирать описатель д., который получается из описателя с! отбрасыванием контекста с = с! \ 3, и при контекст минимальным образом влияет на параметры модели 9Л(й?) .
Для оценки величины влияния контекста на параметры модели во второй главе вводится понятие показателя влияния контекста на параметры модели:
(6)
которая имеет достаточное количество обучения
(7)
Определение 4 Пусть заданы две акустические модели — 9Л и ЯЛ'. Их критерием близости называется величина
*{<т,ж) = Етщ (.р{о 19Л')) = £*г (ЯП,Ж),
Т=1
где Ер{рщ (•) означает математическое ожидание по плотности распределения вероятностей Р(0 | ПЯ), интеграл берется по многомерной величине dO = dol х do2 х... х doT. Определение 5 Пусть имеются две ДК-модели с описателями, находящимися в отношении включенности d'<d. Контекст c = d\d' отличает модель SOt(rf') от модели Показателем влияния контекста с на параметры модели ЗЛ (<i) называется величина
CIF (d, с) = v ;—V—- •
Таким образом, для аппроксимации модели ffl(d) в соответствии с (6) выбирается модель с описателем
d = argminC/F(d,d\d'), (8)
и при этом для описателя d выполняется условие (7), D' — множество описателей, находящихся в отношении включенности с описателем d.
Таким образом, для аппроксимации ДК-модели с описателем d предлагается использовать модель, удовлетворяющую условию (8).
Однако для расчета величины CIF(d,d\d') требуется модель Wl(d), параметры
которой неизвестны. В связи с этим в диссертации величину CIF(d,d\d') в выражении (8) предлагается заменить величиной
<9)
которая называется средним показателем влияния контекста на параметры модели D7l(d'). Множество D" — множество всех описателей, находящихся в отношении
включенности с описателем d'.
В заключение второй главы приводится описание программной реализации системы поиска ключевых слов, использующей ДК-модели. Программная реализация создана для
проверки возможностей предлагаемых ДК-моделей и методов их обучения. Она состоит из двух экспериментальных стендов:
— стенд обучения ДК-моделей;
— стенд тестирования с использованием ДК-моделей.
Стенды представляют собой консольные приложения, являющиеся набором Рег1-скриптов, которые управляют последовательностью вызовов утилит для работы с СММ-моделями, словарями, и др., написанные на языке С.
В таблице 1 представлены результаты экспериментальных исследований системы поиска ключевых слов, использующей ДК-модели фонем. В таблице указаны две величины: вероятность правильного распознавания в процентах и количество ложных вызовов.
Таблица 1 - Результаты экспериментов для системы поиска ключевых слов, использующей ДК-модели
^^^-^встречаемость 50 100
длина
уч. контекста
2 82.07 82.70
254 396
3 76.37 81.43
186 361
4 73.42 80.38
162 353
Сравнение полученных результатов с результатами экспериментов со стандартной системой поиска ключевых слов показывает, что использование ДК-моделей дает увеличение вероятности правильного распознавания на 3.8 % при максимальной длине учитываемого контекста, равной 2 и Nmia =100 (стандартная система дает вероятность распознавания Р = 78.9%, количество ложных вызовов 244).
При увеличении максимальной длины учитываемого контекста происходит падение вероятности правильного распознавания, особенно для случая Л^ = 50. Причиной этого является так называемый эффект переобучения, который состоит в том, что при оценке параметров СММ-моделей они становятся слишком настроены под данные, на которых они обучались и в меньшей степени начинают моделировать данные, которые не присутствовали в обучающей выборке. Фактически, переобучение проявляется в
15
заниженных значениях дисперсий компонент смесей, моделирующих состояния СММ-моделей.
В третьей главе предлагается метод формирования словаря заполнения системы распознавания ключевых слов, оптимальный с точки зрения минимума средней ошибки распознавания, а также разрабатывается алгоритм для его реализации.
Для постановки задачи формирования словаря заполнения вводится понятие модели распознавания:
Определение 6 Пусть С множество возможных последовательностей с е С слов языка и U - множество возможных последовательностей ueU элементов словаря V. Моделью распознавания называется отображение множества С на множество U:
U-.C-+U. (10)
В диссертации используется частный случай модели распознавания (10), которая задает способ распознавания отдельных слов языка:
v: У -» F,
где Y — множество слов языка, V — словарь заполнения.
Поскольку слов языка гораздо больше, чем слов в словаре заполнения, одному слову vk словаря заполнения в модели распознавания будет соответствовать целое множество Yk слов языка:
v(>>) = wei;,vi6F, (П)
при этом предполагается, что Ykf]Y,=0, то есть множества Yk являются попарно непересекающимися.
Таким образом, модель распознавания (11) разбивает множество слов языка на попарно непересекающиеся подмножества Yk и задача нахождения словаря заполнения сводится и нахождению этого разбиения и соответствующих каждому множеству Yk элементов словаря заполнения vt, такому, что оптимизируется некоторая целевая функция F(v):
v = arg max F (v), (12)
В диссертации в качестве целевой функции используется статистика, которая используется в решающем правиле (1):
/r(v) = Z1°g/'(v(^)ia) = Z0ogP(O„v(^))-logF(Or)). (13)
r=l г=I
Вид целевой функции предполагает, что для ее расчета требуется обучающая выборка речевых сообщений {иг }*_,, Я — их количество с соответствующими словесными транскрипциями • Обучающая выборка представлена в виде множества
последовательностей наблюдений - транскрипция, получаемая
преобразованием V каждого слова эталонной транскрипции 1УГ.
Необходимо отметить, что второе слагаемое в (13) не влияет на решение задачи (12), потому что не зависит от V. Поэтому вместо целевой функции (13) можно рассматривать целевую функцию
^ЬЕ^ОЯ.^)). (14)
г=1
Выбор целевой функции (13) определяется тем, что в этом случае решение задачи нахождения модели распознавания (12) становится Байесовским. Использование Байесовского критерия в данном случае имеет два преимущества:
— Байесовский критерий принятия решений минимизирует средние потери, что в случае систем распознавания речи означает минимизацию средней ошибки распознавания;
— При распознавании (решающее правило (1)), используется та же статистика, это означает, что модель распознавания у(«) является оптимальной в том смысле, что при распознавании вероятность реализации этой модели максимальна.
В третье главе доказывается лемма, которая позволяет рассчитать значение целевой функции (14) без использования реальных данных. При этом источником акустической и языковой информации являются СММ-модели и модель языка: Лемма 1: Целевая функция (14)
г=I
является состоятельной оценкой величины
V. уеГ сеС уеГ )
где N — количество слов в обучающей выборке, у — языковой множитель, С - множество различных последовательностей слов уеУ длиной л-1, где п - размер грамматик используемой модели языка, у (с) — последовательность слов, которая получается
преобразованием V над последовательностью слов с, — среднее значение
величины Р(о \ v(y)) по плотности распределения вероятностей Ру (О):
О — последовательность наблюдений, соответствующих реализации слова у, а Р (О) — ее плотность распределения вероятностей.
В третьей главе предлагается метод и алгоритм расчета величины а(ух,уг), уиугеУ, в случае, когда для аппроксимации плотности распределения вероятностей Р^ (О) используется акустическая вероятность Р{01 ЗЯ^,)) СММ-модели слова ух:
В этом случае «(у,,д^) становится перекрестной энтропией для скрытых Марковских моделей.
Основным результатом доказанной в третьей главе леммы является факт, что целевая функция (14)
F = ¿log^>(Or,v(w;))
Г=1
является состоятельной оценкой функции (15)
уеГ сеС >*еГ )
Это означает, что при неограниченном возрастании размера обучающей выборки N оо целевая функция стремится к функции в вероятностном смысле:
Откуда следует, что при неограниченном возрастании размера обучающей выборки можно заменить целевую функцию ^ функцией F', поскольку для расчета функции не требуется реальная речевая база, и размер вымышленной базы может быть каким угодно, в том числе неограниченно большим.
Далее в третьей главе показывается, что если в языковых вероятностях в (16) пренебречь зависимостью от предшествующей последовательности слов р(у | с) = р(у), то функция F' примет вид
уеу
где
d {у>v {у)) = р (у) {у loS Р (v Ü0)+ а (^ v М)} (17)
характерный для целевой функции метода кластеризации K-средних3. Однако метод IC-средних не может быть использован непосредственно, поскольку он разработан для евклидового пространства, а в задаче разбиения слов это не так, как это видно из выражения (17).
В связи с этим в третьей главе предлагается модифицированный алгоритм IC-средних, в котором изменен шаг, связанный с нахождением центров кластеров, поскольку на этом шаге алгоритма используется евклидовость данных. Для нахождения центров кластеров в третьей главе предлагается использовать перебор всех возможных претендентов:
V, = arg шах ^^(д'.У)« Для всех v(eF.
y'<J у er,
В третьей главе описывается программная реализация системы распознавания ключевых слов, использующей оптимальный словарь заполнения, которая состоит из двух стендов:
— стенд формирования оптимального словаря заполнения;
- стенд тестирования.
Программная реализация представляет собой консольные приложения, реализованные в виде набора Perl-скриптов, которые осуществляют вызов утилит, выполняющих основные расчеты. Утилиты представляют собой консольные приложения и написаны на языке С.
Таблица 2 - Результаты поиска ключевых слов с использованием оптимального словаря
1 5 10 15 17.5 20 22.5 25 30
Рн 76.37 75.74 79.11 79.11 78.06 80.17 77.64 78.69 78.06
FA 309 292 311 278 267 297 264 269 261
В заключение третьей главы описываются результаты экспериментальных исследований, выполненных при помощи созданной программной реализации. В
3 Дуда Р., Харт П. Распознавание образов и анализ сцен. - М.: Мир, 1976. - 511 с.
19
результате исследований был проведен ряд экспериментов, в ходе которых менялся языковой множитель у. Зависимости вероятности правильного распознавания и количества ложных вызовов от языкового множителя приведены в таблице 2.
Сравнение полученных результатов с результатами тестирования стандартной системы показывает, что использование процедуры оптимизации словаря заполнения приводит к повышению точности системы выделения ключевых слов в случае, когда у = ю, у = \5, на 0.21% и в случае, когдау = 20, на 1.27%.
К защите представлены следующие результаты:
• Разработан метод и алгоритм обучения длинноконтекстных моделей фонем
• Разработан метод формирования словаря заполнения, основанный на разбиении слов языка на непересекающиеся подмножества, оптимальные с точки зрения критерия минимума средней ошибки распознавания
• Доказана лемма о целевой функции процедуры разбиения слов языка на непересекающиеся подмножества
• Создана программная реализация и проведены экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем
• Создана программная реализация и проведены экспериментальные исследования системы поиска слов, использующей оптимальный словарь заполнения
Основные результаты диссертации опубликованы в следующих
работах:
1. Аграновский A.B., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Двухслойная модель распознавания слитной речи // Интеллектуальные и многопроцессорные системы-2001, Материалы второй международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2001, с. 36-39.
2. Аграновский A.B., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Организация иерархической модели распознавания слитной речи // Научно-теоретический международный журнал "Искусственный интеллект", № 3, 2001, Донецк: Изд. HAH Украины, с. 17-22.
3. Аграновский A.B., Леднов Д.А., Зулкарнеев М.Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Сборник трудов XI сессии
20
РАО, 19-23 ноября 2001, ТЗ, Акустика речи. Медицинская и биологическая акустика, Москва: Изд. ГЕОС, 2001, с.38-41.
4. Аграновский A.B., Леднов Д.А., Зулкарнеев М.Ю. Поэлементный метод распознавания слов // Материалы второй всероссийской конференции "Теория и практика речевых исследований" (АРСО-2001), Москва, 2001, с. 39-41.
5. Аграновский A.B., Леднов Д.А., Сулима П.М, Зулкарнеев М.Ю. Формантное представление речевого сигнала для решения задач обработки речи // Известия ТРТУ, Тематический выпуск: Материалы всероссийской научно-технической конференции с международным участием "компьютерные технологии в инженерной и управленческой деятельности", № 2 (25), Таганрог: ТРТУ, 2002, с. 92-95.
6. Аграновский A.B., Леднов Д.А., Зулкарнеев М.Ю. Применение скрытых Марковских моделей в распознавании отдельных слов // Акустика речи и прикладная лингвистика, Ежегодник Российского акустического общества, Выпуск
3, Москва, 2002, с. 31-34.
7. Аграновский A.B., Можаев О.Г., Леднов Д.А., Зулкарнеев М.Ю. Автоматическая идентификация языка // Научно-теоретический журнал "Искусственный интеллект", № 4,2002, Донецк: Изд. HAH Украины, с. 142-150.
8. Аграновский A.B., Можаев О.Г., Леднов Д.А., Зулкарнеев М.Ю. Метод идентификации языка, основанный на фонетическом содержании сообщения // Интеллектуальные и многопроцессорные системы-2002, Материалы третьей международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2002, с. 29-31.
9. Agranovsky A.V., Lednov D.A., Zulkarneyev M.Y. Statistical Approach to Creating Phonetic Transcription // Proc of Int. Workshop "Speech&Computer", "Specom-2002", St.Petersburg, Russia, 2-5 September 2002, pp.99-101.
Ю.Аграновский A.B., Леднов Д. А., Зулкарнеев М.Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Акустический журнал, т.48,
4, с.560-562.
П.Аграновский A.B., Леднов Д. А., Телеснин Б. А., Зулкарнеев М.Ю. Экспериментальный стенд для тестирования системы поиска ключевых слов в непрерывном потоке русской речи// Свидетельство об официальной регистрации программы для ЭВМ №2003611308.
12. Аграновский A.B., Леднов Д.А., Телеснин Б.А., Зулкарнеев М.Ю. Классификатор аудио-файлов по языкам // Свидетельство об официальной регистрации программы для ЭВМ №2003611311.
13. Аграновский A.B., Леднов Д.А., Зулкарнеев М.Ю. Моделирование вариативности произношения для распознавания русской речи // Научно-теоретический международный журнал «Искусственный интеллект», №3, 2003, Донецк: дон ГИИИ, с. 388-393.
14. Аграновский A.B., Свирепо O.A., Леднов Д.А., Зулкарнеев М.Ю. Эксперименты по моделированию вариативности произношения // Интеллектуальные многопроцессорные системы-2003, Материалы четвертой международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2003, с. 170-172.
15. Свирепо O.A., Зулкарнеев М.Ю. Исследование возможности применения классификации фонетических ошибок в моделировании вариативности произношения (на материале русского языка) // Интеллектуальные и многопроцессорные системы-2003, Материалы четвертой международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2003, с. 173-175.
16. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска ключевых слов, часть 1. Схемы, не использующие верификацию результатов распознавания // Телекоммуникации, № 4, 2004 г., с. 8-13.
17. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска ключевых слов, часть 2. Схемы, использующие верификацию результатов распознавания // Телекоммуникации, № 5, 2004 г., с. 16-23.
18. Зулкарнеев М.Ю. Учет корреляции в последовательности векторов признаков, характеризующей высказывание // Интеллектуальные и многопроцессорные системы-2005, Материалы шестой международной научно-практической конференции, т.З, Таганрог: Изд. ТРТУ, с. 291-294.
19. Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Влияние глубины учета динамики на точность идентификации дикторов // Сборник трудов XIV международной научной конференции "Информатизация и информационная безопасность правоохранительных органов". Москва: Академия управления МВД России, 2005. с. 359-361.
20. Зулкарнеев М.Ю. Использование автоматической фонетической разметки речевой базы для обучения системы распознавания непрерывной речи // Сборник трудов XVI сессии РАО, T.III, Москва: ГЕОС, 2005, с. 40-44.
21.Ivanov V.D., Potapova R.K., Zulkarneyev M.Y. A heuristic method of grapheme-to-phoneme conversion // Proceedings of 10th International Conference on SPEECH and COMPUTER "Specom2005", v. I, pp.263-264.
22. Зулкарнеев М.Ю. Представление CMM с линейными предсказателями в виде базовых СММ для задач распознавания речи // Обозрение прикладной и промышленной математики том 12, выпуск 4, с. 972-973.
23. Zulkarneyev M.Y. An approach to compensation for language modeling errors in the key-spotting systems // Proceedings of 9th International Conference of SPEECH and COMPUTER "Specom2004", pp. 348-350.
24. Иванов В.Д., Зулкарнеев М.Ю. Оптимальный метод формирования словаря заполнения для задачи распознавания ключевых слов в аудио-сообщениях // Научно-теоретический международный журнал "Искусственный интеллект", №3, 2006, Донецк: дон ГИИИ, 2006, с. 510-520.
25. Сатуновский П.С., Зулкарнеев М.Ю. Метод построения фонетической транскрипции слов // Интеллектуальные и многопроцессорные системы-2006, Материалы седьмой международной научно-практической конференции, Т.2. Таганрог: Изд. ТРТУ, 2006, с.З90-393.
Тип. ООО «ФЕНИКС» Заказ № 892 от 10.11.2006 г. Тираж 100 экз.
Оглавление автор диссертации — кандидата физико-математических наук Зулкарнеев, Михаил Юрьевич
Принятые обозначения и сокращения.
Введение.
1 Математические модели, методы и алгоритмы поиска ключевых слов, основанные на скрытых Марковских моделях.
1.1 Байесовский критерий минимума средних потерь.
1.2 Предобработка акустического сигнала.
1.3 Моделирование акустического сигнала при помощи скрытых Марковских моделей.
1.3.1 Определение скрытой Марковской модели.
1.3.2 Моделирование акустического сигнала при помощи СММ.
1.3.3 Учет контекстной зависимости при моделировании акустического сигнала с помощью СММ.
1.3.4 Расчет акустической вероятности Р(0\Ш)
1.4 Оценка параметров скрытых Марковских моделей.
1.4.1 Метод максимального правдоподобия.
1.4.2 Дискриминативные методы оценки параметров акустических моделей.
1.5 Моделирование языка.
1.6 Декодирование.
1.6.1 Витерби-декодирование.
1.6.2 Алгоритм перемещающегося маркера.
1.6.3 Компенсация ошибок языковой и акустической моделей при помощи штрафа добавления слова и языкового множителя.
1.7 Системы поиска ключевых слов, основанные на скрытых Марковских моделях .48 1.7.1 Величины, характеризующие качество работы системы поиска ключевых слов
1.8 Недостатки и направление их разрешения.
1.9 Постановка задачи исследования.
Выводы.
2 Длинноконтекстные акустические модели фонем для уточненного моделирования ключевых слов.
2.1 Длинноконтекстные акустические модели фонем.
2.2 Критерий близости скрытых Марковских моделей.
2.2.1 Расчет интеграла I
2.2.2 Итеративный алгоритм расчета критерия близости для скрытых Макровких моделей.
2.2.3 Аппроксимация акустической близости.
2.3 Показатель влияния контекста на параметры акустических моделей фонем.
2.4 Аппроксимация длинноконтекстных акустических моделей фонем, оптимальная с точки зрения влияния контекста на параметры моделей.
2.5 Программная реализация и экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем.
2.5.1 Программная реализация системы поиска ключевых слов, использующей длинноконтекстные модели фонем.
2.5.2 Экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем.
Выводы.
3 Словарь системы поиска ключевых слов, оптимальный с точки зрения минимума средней ошибки распознавания.
3.1 Задача формирования словаря заполнения как задача разбиения слов языка на непересекающиеся подмножества.
3.2 Целевая функция разбиения слов языка на непересекающиеся подмножества.
3.3 Расчет перекрестной энтропии пары скрытых Марковских моделей.
3.3.1 Расчет интеграла l(x(y),xmm).
3.3.2 Итеративный алгоритм расчета перекрестной энтропии для скрытых Марковских моделей.
3.4 Метод кластеризации слов языка на непересекающиеся подмножества.
3.5 Программная реализация и экспериментальные исследования системы поиска ключевых слов, использующей метод формирования словаря заполнения, оптимальный с точки зрения минимума средней ошибки распознавания.
3.5.1 Программная реализация системы поиска ключевых слов, использующей оптимальный метод формирования словаря заполнения.
3.5.2 Экспериментальные исследования системы поиска ключевых слов, использующей оптимальный метод формирования словаря заполнения.
Выводы.
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Зулкарнеев, Михаил Юрьевич
Актуальность темы. В начале 90-х годов XX века в мире возобновился интерес к автоматическим системам распознавания речи после весьма скромных успехов в 70-х годах XX века. Этот интерес был связан прежде всего с техническим прогрессом в области информационных технологий и телекоммуникационных систем, а в частности:
• с развитием компьютерной техники и появлением более дешевых и более быстродействующих процессоров;
• с расширением сферы использования персональных компьютеров, и соответствующим ростом количества неквалифицированных пользователей ПК, для которых голосовой интерфейс взаимодействия с компьютером был бы наиболее предпочтительным;
• с развитием Интернета, мультимедиа, а также голосовых телекоммуникационных систем.
В связи с техническим прогрессом на первый план выдвинулись следующие практические задачи, связанные с распознаванием речи:
• автоматические телефонные сервисы;
• диалоговые системы "человек-компьютер", использующие естественный язык;
• голосовые системы управления проборами, роботами, технологическими процессами и т.д.;
• автоматическая обработка медиа-информации (видео, звук) с целью ее классификации и цензурирования;
• автоматические системы перевода с одного языка на другой.
Необходимо отметить, что значительные усилия исследователей к настоящему времени привели к серьезным успехам при создании систем распознавания речи [35, 40, 48, 93]. В таблице 1 приводятся характеристики некоторых из них. Из таблицы видно, что очень хорошие результаты достигнуты при создании систем распознавания речи с малыми словарями, в частности систем распознавания последовательностей цифр (0.3 - 5.0 %). Немного отстают от них системы транскрибирования новостных программ и распознавания читаемой речи (2.0 - 17.0 %). Однако весьма далеки от совершенства системы распознавания речи с большими словарями в случае, когда они применяются к спонтанной телефонной речи (25-29 %) и особенно к речи, записанной из сотовых каналов связи (40 %).
В связи с этим, несмотря на достигнутые успехи, весьма актуальными в настоящее время остаются работы, направленные на повышение точности систем распознавания речи вообще и для этих условий работы в частности.
Таблица 1 - Современный уровень точности, достигнутый при решении различных задач распознавания речи
Речевая база Тип речи Размер словаря Ошибка распознавания слов
Распознавание цифр Спонтанная 11 0.3 %
- TI Database
Распознавание цифр Спонтанная 11 2.0 %
- Mall Recordings ШЯШШЯШШЯШЯЁ
Распознавание цифр Разговорная 11 5.0 %
- HMIHY
RM (Resouce Читаемая речь 1000 2.0 %
Management)
ATIS (Airline travel Спонтанная 2500 2.5 % information system)
NAB (North Читаемая речь 64000 6.6 %
American Business)
Broadcast News Новостные программы 210000 13-17%
Switchboard Телефонный разговор 45000 25-29 %
Call Home Телефонный разговор 28000 40%
В данной диссертационной работе рассматривается одна из задач распознавания речи - задача поиска ключевых слов в аудио-сообщениях [96, 97]. В отличие от распознавания речи, под которым обычно понимается преобразование речевого сигнала в текстовое сообщение, при поиске ключевых слов необходимо обнаружить наличие в речевом сигнале слов из некоторого набора ключевых слов.
Объект исследований. Объектом исследования является система распознавания ключевых слов, основанная на скрытых Марковских моделях.
Цель и задачи работы. Целью диссертационной работы является разработка математических моделей и алгоритмов, позволяющих повысить точность поиска ключевых слов за счет: 1) создания более точных по сравнению с существующими на данный момент 7 акустических моделей ключевых слов; 2) создания словаря заполнения, оптимального с точки зрения средней ошибки распознавания. Для достижения этой цели в работе решаются следующие задачи:
1. Предложить понятие длинноконтекстных акустических моделей фонем, предназначенных для создания более точных по сравнению с существующими акустических моделей ключевых слов;
2. Разработать метод обучения длинноконтекстных акустических моделей фонем, позволяющий качественно оценивать параметры длинноконтекстных моделей фонем;
3. Разработать программную реализацию и выполнить экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем;
4. Поставить задачу формирования словаря заполнения как оптимизационную задачу, в которой в качестве критерия используется критерий Байеса;
5. Получить выражение для целевой функции, соответствующей критерию Байеса, и разработать алгоритм процедуры формирования словаря заполнения, использующий полученную целевую функцию;
6. Разработать программную реализацию и выполнить экспериментальные исследования системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения.
Методы исследования. Для решения поставленных задач используются методы теории случайных процессов (цепи Маркова), Байесовская теория принятия решений, теория информации, методы статистической обработки сигналов.
Научная новизна. В процессе исследований предложен новый подход к созданию акустических моделей ключевых слов с использованием длинноконтекстных акустических моделей фонем, отличающихся от известных контекстнозависимых моделей переменной длиной учитываемого контекста. Впервые поставлена и решена задача формирования словаря заполнения, оптимального с точки зрения средней ошибки распознавания. Выполнен ряд экспериментов, подтверждающих эффективность предлагаемых методов. Основные научные результаты заключаются в следующем:
1. Введено понятие длинноконтекстных акустических моделей фонем, предназначенных для создания акустических моделей ключевых слов;
2. Введено понятие показателя влияния контекста на параметры акустических моделей фонем, основанное на близости акустических моделей фонем, разработан метод и алгоритм его расчета;
3. Разработан метод аппроксимации длинноконтекстных акустических моделей фонем, оптимальный с точки зрения показателя влияния контекста на параметры моделей;
4. Поставлена задача формирования словаря заполнения как задача разбиения слов языка на непересекающиеся подмножества, для которой в качестве критерия взят критерий минимума средней ошибки распознавания и записана соответствующая целевая функция;
5. Доказана лемма, на основании которой целевая функция процедуры разбиения слов языка на непересекающиеся подмножества может быть заменена функцией языковых вероятностей и перекрестной энтропии СММ-моделей;
6. Разработан метод и алгоритм расчета перекрестной энтропии СММ-моделей;
7. Предложен алгоритм кластеризации, который может быть использован для разбиения слов языка на непересекающиеся подмножества с использованием полученной целевой функции;
8. Разработана программная реализация и выполнены экспериментальные исследования системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения.
9. Создана программная реализация системы, предназначенной для оценки параметров длинноконтекстных акустических моделей фонем, а также проведены экспериментальные исследования предлагаемого метода аппроксимации длинноконтекстных акустических моделей фонем.
Практическую ценность работы представляют:
1. Метод и алгоритм обучения длинноконтекстных моделей фонем, позволяющие строить более точные по сравнению с существующими акустические модели ключевых слов.
2. Метод и алгоритм расчета критерия близости скрытых Марковских моделей, который позволяет рассчитать близость скрытых Марковских моделей в пространстве признаков.
3. Метод и алгоритм расчета показателя влияния контекста на параметры акустических моделей фонем.
4. Программная реализация системы поиска ключевых слов, использующей длинноконтекстные модели фонем.
5. Метод и алгоритм формирования словаря заполнения, оптимального с точки зрения минимума средней ошибки распознавания.
6. Метод и алгоритм расчета перекрестной энтропии для СММ-моделей.
7. Программная реализация системы поиска ключевых слов, использующей предложенный метод формирования словаря заполнения.
Использование результатов работы. Результаты диссертационной работы были применены при создании программных средств [78, 79] а также при выполнении следующих работ:
• НИР "Ключ", НИР "Живец-1 СВА", ОКР "Творение-2А", заказчик - ФГУП "18 ЦНИИ" МО РФ;
• НИР "Беседа", НИР "Хоровод", НИР "Хор-Р", заказчик - ФГУП "НИИ "КВАНТ";
• НИР "Речь-О", заказчик - ФГНУ НИИ "Спецвузавтоматика".
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на седьмой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2006" (Кацивели, Украина, 2006), на XVI сессии Российского акустического общества (Москва, 2005), на международной конференции Speech and Computer "Specom-2004" (Санкт-Петербург, 2004), на международной научной конференции Speech and Computer "Specom-2005" (Patras, Greece, 2005), на шестой международной научно-практической конференции "Интеллектуальные и многопроцессорные системы-2005" (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2005).
Основные положения, выносимые на защиту. На защиту выносятся следующие положения:
• Метод и алгоритм обучения длинноконтекстных моделей фонем
• Метод формирования словаря заполнения, основанный на разбиении слов языка на непересекающиеся подмножества, оптимальные с точки зрения критерия минимума средней ошибки распознавания
• Доказательство леммы о целевой функции процедуры разбиения слов языка на непересекающиеся подмножества
• Программная реализация и экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем
• Программная реализация и экспериментальные исследования системы поиска слов, использующей оптимальный словарь заполнения
Краткое описание работы. Работа состоит из введения, трех глав и заключения.
В первой главе проведен анализ методов и алгоритмов, используемых при создании систем распознавания речи, основанных на скрытых Марковских моделях. Основной акцент делается на методах, которые используются при создании систем поиска ключевых слов. Дается общая схема системы распознавания речи, использующей СММ-модели. Описываются методы обучения акустических моделей, среди которых можно выделить методы, основанные на максимизации величины правдоподобия. Также описываются так называемые дискриминативные методы, в которых в качестве критерия выступает не максимальное соответствие моделей обучающим данным, как в методах, основанных на величине правдоподобия, а дискриминативная способность моделей, то есть способность разделять различные гипотезы. Описываются методы декодирования, используемые при распознавании речи. В основе современных подходов к декодированию речи лежит декодер Витерби и его реализация, используемая в распознавании речи - метод перемещающегося маркера. Показаны особенности системы поиска ключевых слов, использующей описанные в первой главе методы. Основной особенностью является то, что словарь системы поиска ключевых слов состоит из двух частей - словаря ключевых слов и словаря элементов заполнения. Проведен анализ недостатков существующих методов и выявлены пути повышения качества системы поиска ключевых слов. На основе выявленных путей повышения качества системы поиска ключевых слов поставлены задачи исследования.
Во второй главе описывается метод создания акустических моделей ключевых слов, основанный на длинноконтекстных моделях фонем. Описывается метод обучения длинноконтекстных моделей, основанный на аппроксимации моделей, если для них не существует достаточного количества обучения. Описывается метод выбора аппроксимирующей модели, основанный на понятии показателя влияния контекста на параметры модели, и приводится метод и алгоритм для его расчета. На основе предложенного метода во второй главе создана программная реализация системы поиска ключевых слов, использующая длинноконтекстные модели, и проведены экспериментальные исследования, показывающие, что предлагаемый метод позволяет повысить точность поиска ключевых слов по сравнению с существующими системами на 3.8 %.
В третьей главе предлагается метод формирования словаря заполнения, оптимальный с точки зрения минимума средней ошибки распознавания. Описывается постановка задачи формирования словаря заполнения, основанная на понятии модели распознавания. Модель распознавания проецирует множество слов языка во множество слов-заполнений, осуществляя разбиение множества слов языка на непересекающиеся подмножества. Таким образом задача формирования словаря заполнений сводится к разбиению множества слов языка на непересекающиеся подмножества. Предлагается метод разбиения, основанный на критерии Байеса, который в случае систем распознавания речи сводится к критерию минимума средней ошибки распознавания. Записывается соответствующая целевая функция процедуры разбиения слов на непересекающиеся подмножества в виде функции от последовательности векторов признаков, представляющей обучающую выборку. Доказывается лемма, которая позволяет представить целевую функцию в виде функции от перекрестной энтропии СММ-моделей и языковых вероятностей. Кроме того, показывается, что если в языковых вероятностях пренебречь зависимостью от предшествующих последовательностей слов, то для выполнения разбиения слов языка на непересекающиеся подмножества можно использовать модифицированный метод кластеризации К-средних. В третьей главе описана программная реализация системы поиска ключевых слов, использующая оптимальный словарь заполнений. На основе созданной программной реализации проведены экспериментальные исследования, которые показывают возрастание вероятности правильного распознавания на 1.27% по сравнению с существующими системами.
Заключение диссертация на тему "Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях"
Выводы
В третьей главе предлагается метод формирования словаря заполнения, оптимальный с точки зрения минимума средней ошибки распознавания.
Для постановки задачи формирования словаря заполнения вводится понятие модели распознавания и в частности понятие модели распознавания на уровне слов. Эта модель проецирует множество слов языка во множество слов-заполнений, таким образом осуществляя разбиение множества слов языка на непересекающиеся подмножества. Таким образом задача формирования словаря заполнений сводится к разбиению множества слов языка на непересекающиеся подмножества.
Существует множество способов, которыми можно выполнить это разбиение. В третьей главе это сделать предлагается используя критерий Байеса, который в случае систем распознавания речи сводится к критерию минимума средней ошибки распознавания. В третьей главе записывается соответствующая целевая функция процедуры разбиения слов на непересекающиеся подмножества в виде функции от последовательности векторов признаков, представляющей обучающую выборку.
В третьей главе доказывается лемма, которая позволяет представить целевую функцию в виде функции от перекрестной энтропии СММ-моделей и языковых вероятностей. Кроме того, показывается, что если в языковых вероятностях пренебречь зависимостью от предшествующих последовательностей слов, то для выполнения разбиения слов языка на непересекающиеся подмножества можно использовать модифицированный метод кластеризации К-средних. Модификация требуется из-за того, что полученные расстояния не являются евклидовыми.
В третьей главе описана программная реализация системы поиска ключевых слов, использующая оптимальный словарь заполнений. Программная реализация выполнена в виде двух стендов, которые представляют собой консольные приложения, написанные на языке программирования Perl, и выполняют последовательность вызовов утилит для работы с моделями, словарями и т.д. Утилиты реализованы на языке программирования С.
С использованием созданной программной реализации проведены экспериментальные исследования, которые показали преимущество разработанных методов по сравнению с существующими - достигнуто приращение вероятности правильного распознавания 1.27%.
Заключение
Диссертация посвящена исследованию возможности повышения точности поиска ключевых слов в аудио-сообщениях за счет создания более точных по сравнению со стандартными акустических моделей ключевых слов, а также разработки метода формирования словаря заполнений, оптимального с точки зрения критерия минимума средней ошибки распознавания.
Для решения общей задачи исследования в первой главе был поставлен ряд частных задач, которые в ходе исследования были полностью решены.
В ходе решения первой задачи дано определение понятия длинноконтекстных моделей фонем, а также определения понятия описателя длинноконтекстных моделей и отношения включенности между ними.
Для решения второй частной задачи введено понятие критерия близости между СММ-моделями, а также понятие показателя влияния контекста на параметры моделей. С использованием введенных понятий предложен метод аппроксимации длинноконтекстных моделей фонем в случае, если для их обучения не хватает обучающих данных. В качестве аппроксимации длинноконтекстной модели с описателем d, если для нее не существует достаточного количества обучения, предлагается использовать качественно обученную длинноконтекстную модель с описателем d', если он находится в отношении включенности с описателем d d' -<d и при этом контекст d \ d' минимальным образом влияет на параметры модели 97t(d).
Для решения третьей частной задачи были разработаны методы и алгоритмы расчета критерия акустической близости СММ-моделей, а также метод и алгоритм расчета показателя влияния контекста на параметры СММ-моделей.
В результате решения этой задачи создана программная реализация системы поиска ключевых слов, использующей длинноконтекстные модели фонем в виде двух стендов, представляющих собой консольные приложения, написанные на языке программирования Perl, которые осуществляют вызовы утилит, предназначенных для работы с СММ-моделями, словарями, транскрипциями и т.д.
Другим результатом решения третьей частной задачи были экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем. Результаты экспериментальных исследований показали преимущества разработанных моделей по сравнению с существующими - вероятность правильного распознавания ключевых слов возросла на 3.8%.
Для решения четвертой частной задачи введено понятие модели распознавания, а также ее частный вид, отображающий множество слов языка на множество слов словаря заполнения. Таким образом, модель распознавания разбивает слова языка на непересекающиеся подмножества.
Результатом решения четвертой частной задачи является постановка задачи формирования словаря заполнения как задачи разбиения слов языка на непересекающиеся подмножества, в качестве критерия которой используется критерий Байеса минимума средней ошибки распознавания.
При решении пятой частной задачи в качестве целевой функции записана сумма логарифмов апостериорных вероятностей для некоторой обучающей выборки. Доказана лемма, результатом которой является представление записанной целевой функции в виде функции перекрестной энтропии СММ-моделей и языковых вероятностей.
Далее для решения пятой частной задачи показывается, что если в языковых вероятностях пренебречь зависимостью от предшествующих последовательностей слов, то для формирования словаря заполнения можно использовать модифицированный метод кластеризации К-средних. Модификация требуется из-за того, что полученные расстояния не являются евклидовыми.
Результатом решения шестой частной задачи является программная реализация системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения. Программная реализация выполнена в виде двух стендов, которые представляют собой консольные приложения, написанные на языке программирования Perl, и выполняют последовательность вызовов утилит для работы с моделями, словарями и т.д. Утилиты реализованы на языке программирования С.
Другим результатом решения шестой частной задачи являются результаты экспериментальных исследований системы. Они показывают, что разработанный в диссертационной работе метод формирования словаря заполнения позволяет увеличить точность поиска ключевых слов на 1.27% по сравнению с существующими методами.
Библиография Зулкарнеев, Михаил Юрьевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Горелик А.Л., Скриикин В.А. Методы распознавания. Учеб. Пособие для вузов. М.: Высшая школа, 1989.
2. Рабинер Л.Б. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор //ТИИЭР, т.11, № 2, февраль 1989 с. 86-120.
3. Миллер Б.М., Панков А.Р. Теория случайных процессов в примерах и задачах. М.: ФИЗМАТЛИТ, 2002.
4. Хемминг Р.В. Цифровые фильтры. Москва, Советское радио, 1980.
5. Рабинер Л. Р., Шафер Р.В. Цифровая обработка речевых сигналов, М., Радио и связь, 1981.
6. Hermansky Н. Perceptual Linear Predictive (PLP) Analysis of Speech // J. Acoust. Soc. Am., v. 87, no 4., p. 1738-1751.
7. Good I.J. The Population Frequencies of Species and the Estimation of Population Parameters // Biometrika 1953, vol. 40 (3,4) pp. 237-264
8. Katz S.M. Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recogniser // IEEE Transactions on Acoustic, Speech and Signal Processing 1987, vol. 35 no. 3 pp. 400-401
9. Ney H., Essen U., Kneser R. On Structuring Probabilistic Dependences in Stochastic Language Modelling // Computer Speech and Language 1994, vol.8 no.l pp.1-38
10. Kapadia S. Discriminative training of Hidden Markov Models // Cambridge University, PhD dissertation, 1998
11. Черноусько, Ф. Л. Динамическое программирование // Соросовский образовательный журнал, № 2, 1998 г., с. 139-144.
12. Jelinek F. A. Fast Sequential Decoding Algoritm Using a Stack // IBM J Research and Dev, Vol 13, Nov 1969.
13. Leggetter P.C. Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density HMMs // Computer Speech & Language, Vol. 9, No. 2, pp. 171-186.
14. Gales M.J.F. Mean and Variance Adaptation Within the MLLR Framework // Computer Speech & Language, Vol. 10, pp. 249-264.
15. Woodland P. et al. CU-HTK STT Systems for RT03 // Rich Transcription Workshop, May 19,2003.
16. Povey D., Woodland P.C. Minimum Phone Error and I-Smoothing for Improved Discriminative Training // Proceedings of the IEEE, ICASSP02, Orlando.
17. Brown P. The Acoustic-Modelling Problem in Automatic Speech Recognition // Ph.D. thesis, Carnegie-Mellon University, 1987.
18. Povey, Woodland P.C., Gales M.J.F. Discriminative MAP for acoustic model adaptation //Proc. of ICASSP'03, Detroit, pp.312-315.
19. Valchev V., Odell J.J., Woodland P.C., Young S.J. MMIE training of large vocabulary recognition systems // Speech Communication, 22 (1997), pp. 303-314.
20. Stolcke A., König Y., Weintraub M. Explicit Word Error Minimization in N-Best List Rescoring // In Proc. Eurospeech'97, pp. 163-166.
21. Mangu L., Brill E., Stolcke A. Finding Consensus Among Words: Lattice-Based Word Error Minimization // In Proc. Eurospeech'99, pp. 495-498, Budapest.
22. Weintraub M. LVCSR Log-Likelihood Ratio Scoring for Keyword Spotting // In Proc. ICASSP'95, vol. 1, page 297, Detroit, USA.
23. Katagiri S, Juang B.-H., Lee C.-H. Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method // Proceedings of the IEEE, vol. 86, No 11, November 1998.
24. Зулкарнеев M. Ю. Использование автоматической фонетической разметки речевой базы для обучения системы распознавания непрерывной речи // Сборник трудов XVI сессии Российского акустического общества. T.III. М.: ГЕОС, 2005, 235 е., стр. 4044.
25. Засорина JI. Н. Частотный словарь русского языка. Москва, 1977.
26. Jelinek F. Continuous speech recognition by statistical methods // Proc. IEEE, vol. 64, pp. 532-556, Apr. 1976.
27. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов.- Киев: Наукова думка, 1987.
28. Evermann G., Woodland P.C. Large Vocabulary Decoding and Confidence Estimation using Word Posterior Probabilities // Proc.ICASSP'2000, pp. 1655-1658, Istanbul.
29. Evermann G., Woodland P.C. Posterior Probability Decoding, Confidence Estimation and System Combination// Proc. Speech Transcription Workshop, College Park.
30. Bahl L.R., Brown P.F., de Souza P.V. Mercer R.L. Speech recognition with continuous parameters hidden Markov models // Computer Speech & Language, Vol. 2, No3/4, pp. 219-234, 1987.
31. Chen S.F An Empirical Study of Smoothing Techniques for Language Modeling. // TR-10-98, Computer Science Group, Harvard University.
32. Gopalakrishnan D. An Inequality for Rational Functions with Applications to some Statistical Estimation Problems .// IEEE Trans. Information Theory, Vol. 37, 1991 pp. 107-113.
33. Hain T. Recent Experiments with the CU-HTK Hub5 System // Presented at Hub5 Workshop, June 1999.
34. Kneser R., Ney H Improved Clustering Techniques for Class-Based Statistical Language Modelling // Proc. Eurospeech'93, pp. 973-976, Berlin.
35. Kumar N. Investigation of Silicon-Auditory Models and Generalisation of Linear Discriminant Analysis for Improved Speech Recognition // PhD thesis, John Hopkins University, 1997
36. Kenny P., Lenning M., Mermelstein P. A linear predictive hmm for vector-valued observation with application to speech recognition // IEEE Trans. ASSP, Vol. 38, pp. 220225.
37. Woodland P.C. Hidden markov models using vector linear prediction and discriminative output distributions // In Proc. ICASSP, Vol. I, pp. 509-512.
38. Matsoukas T. The BBN 2001 English Conversational Speech System // Presentation at 2001 NIST Large Vocabulary Conversational Speech Recognition Workshop.
39. Martin S., Ney H. Algorithms for Bigram and Trigram Clustering // Proc. Eurospeech'95, pp. 1253-1256, Madrid.
40. Niesler T.R., Whittaker E.W.D. Comparison of Part-Of-Speech and Automatically Derived Category-Based Language Models for Speech Recognition // Proc. ICASSP'98, pp. 177-180, Seattle.
41. Schlueter R., Mueller B. Interdependence of Language Models and Discriminative Training // Proc. IEEE ASRU Workshop, pp. 119-122, Keystone, Colorado.
42. Uebel L.F. Improvements in Linear Transform Based Speaker Adaptation // Proc. ICASSP'2001, Salt Lake City.
43. Valtchev V. MMIE Training of Large Vocabulary Speech Recognition Systems // Speech Communication, Vol. 22, pp 303-314.
44. Woodland P.C., Pye D., Gales M.J.F. Broadcast News Transcription Using НТК // Proc. ICASSP'97, pp. 719-722, Munich.
45. Woodland P.C., Pye D., Gales M.J.F. Large Scale Discriminative Training of Hidden Markov Models for Speech Recognition // Computer Speech and Language Vol. 16 No. 1, pp. 25-47.
46. Woodland P.C. Tree-Based State Tying for High Accuracy Acoustic Modelling // Proc. 1994 ARPA Human Language Technology Workshop, pp. 307-312, Morgan Kaufmann.
47. Kenny P. A* Admissible Heuristics for Rapid Lexical Access // Proc ICASSP, S10.1, Toronto, 1991
48. Горяинов В.Б., Павлов И.В., Цветкова Г.М. Математическая статистика, М.: Издательство МГТУ им. Н.Э. Баумана, 2001.
49. Андерсен Т. Введение в многомерный статистический анализ: Пер. с англ. М. : Физматгиз, 1963.
50. Блейхут Р. Быстрые алгоритмы цифровой обработки сигналов: Пер. с англ. М.: Мир, 1989.
51. Винцюк Т.К., Куляс Ф.И. Универсальная программа анализа речи в реальном масштабе времени // Автоматическое распознавание слуховых образов. Тбилиси: Мецниереба, 1978. - с.182-184.
52. Фланаган Д.Л Анализ, синтез и восприятие речи. М.:Связь, 1968.
53. Феллер В. Введение в теорию вероятностей и ее приложения. В 2-х томах. Т.2. Пер. с англ. Мир, 1984.
54. Aubert Xavier A brief overview of decoding techniques for large vocabulary continuous speech recognition, ASR-2000, 91-97.
55. Bahl L.R. et al. Language-model / acoustic channel balance mechanism // IBM Technical Disclosure Bull. 23 (7B), pp.3464-3465, Dec. 1980
56. Rose R.C., Paul D.B. A hidden Markov model based keyword recognition system // Proc. of ICASSP'90, pp. 129-132, 1990.
57. Lleida E., Marino J. В., Salavedra J., Bonafonte A. Syllabic Fillers for Spanish HMM Keyword Spotting // In Proc. Int. Conf. Spoken. Lang. Processing, pages 5-8, Banff, 1992.
58. Коршунов Ю.М. Математические основы кибернетики. Учебное пособие для втузов. М.: Изд-во «Энергия», 1972.
59. Juang B.H., Rabiner L.R. A probabilistic distance measure for hidden Markov models // AT&T Tech. J., vol.64, no.2, pp. 391-408, Feb.1985.
60. Theodoridis S., Koutroumbas K. Pattern recognition. Elsevier academic press, 2003.
61. Дуда P., Харт П. Распознавание образов и анализ сцен. М.: Изд-во "Мир", 1976.
62. Аграновский А.В., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Организация иерархической модели распознавания слитной речи // Научно-теоретический международный журнал "Искусственный интеллект", № 3, 2001, Донецк: Изд. НАН Украины, с. 17-22.
63. Аграновский A.B., Леднов Д.А., Зулкарнеев М.Ю. Поэлементный метод распознавания слов // Материалы второй всероссийской конференции "Теория и практика речевых исследований" (АРСО-2001), Москва, 2001, с. 39-41.
64. Аграновский A.B., Леднов Д.А., Зулкарнеев М.Ю. Применение скрытых Марковских моделей в распознавании отдельных слов // Акустика речи и прикладная лингвистика, Ежегодник Российского акустического общества, Выпуск3, Москва, 2002, с. 31-34.
65. Аграновский A.B., Можаев О.Г., Леднов Д.А., Зулкарнеев М.Ю. Автоматическая идентификация языка // Научно-теоретический журнал "Искусственный интеллект", № 4,2002, Донецк: Изд. HAH Украины, с. 142-150.
66. Agranovsky A.V., Lednov D.A., Zulkarneyev M.Y. Statistical Approach to Creating Phonetic Transcription // Proc of Int. Workshop "Speech&Computer", "Specom-2002", St.Petersburg, Russia, 2-5 September 2002, pp.99-101.
67. Аграновский A.B., Леднов Д.А., Зулкарнеев М.Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Акустический журнал, т.48,4, с.560-562.
68. Аграновский A.B., Леднов Д.А., Телеснин Б.А., Зулкарнеев М.Ю. Экспериментальный стенд для тестирования системы поиска ключевых слов в непрерывном потоке русской речи // Свидетельство об официальной регистрации программы для ЭВМ №2003611308.
69. Аграновский A.B., Леднов Д.А., Телеснин Б.А., Зулкарнеев М.Ю. Классификатор аудио-файлов по языкам // Свидетельство об официальной регистрации программы для ЭВМ №2003611311.
70. Аграновский A.B., Леднов Д.А., Зулкарнеев М.Ю. Моделирование вариативности произношения для распознавания русской речи // Научно-теоретический международный журнал «Искусственный интеллект», №3, 2003, Донецк: дон ГИИИ, с. 388-393.
71. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска ключевых слов, часть 1. Схемы, не использующие верификацию результатов распознавания //Телекоммуникации, № 4, 2004 г., с. 8-13.
72. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска ключевых слов, часть 2. Схемы, использующие верификацию результатов распознавания // Телекоммуникации, № 5, 2004 г., с. 16-23.
73. Zulkarneyev M.Y. An approach to compensation for language modeling errors in the key-spotting systems // Proceedings of 9th International Conference of SPEECH and COMPUTER "Specom2004", pp. 348-350.
74. Сатуновский П.С., Зулкарнеев М.Ю. Метод построения фонетической транскрипции слов // Интеллектуальные и многопроцессорные системы-2006, Материалы седьмой международной научно-практической конференции, Т.2. Таганрог: Изд. ТРТУ, 2006, с.390-393.
75. Moore G.L. Adaptive Statistical Class-based Language Modelling // Ph.D thesis, Cambridge University, 2001.
76. Rabiner L. Challenges in speech recognition and natural language understanding // Proc. Of 11th international conference "Speech and computer" (Specom-2006), 25-29 june 2006.
77. Juang В., Rabiner L. Hidden Markov Models for Speech Recognition // Technometrics, 33(3), August, 1991.
78. Young S., Woodland P. State clustering in hidden Markov model-based continuous speech recognition // Computer speech & language, 8(4), October 1994.
79. Rose R. Keyword detection in conversational speech utterances using hidden Markov model based continuous speech recognition // Computer speech & language, 9(4), October 1995.
80. Wilopon J., Rabiner L., Lee C. Automatic Recognition of Keywords in Unconstrained Speech Using Hidden Markov Models // IEEE transactions on acoustics, speech, and sign, 38(11), November 1990.
81. Huang X., Acero A., Hon H.W. Spoken language processing: a guide to theory, algorithm, and system development. Prentice-Hall Inc., 2001.
82. Jiang L., Hon H.W., Huang X.D. Improvements on a Trainable Letter-to-Sound Converter //Eurospeech'97, Rhodes, Greece, 1997.
83. Poritz A.B. Linear predictive hidden Markov models and the speech signal // in Proc. ICASSP'82, pp. 1291-1294.
84. Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях» при выполнении работ ФГУП "НИИ "Квант"
85. Использование этих результатов диссертационной работы позволило повысить точность поиска ключевых слов.1. Отв. исполнителя
86. Консультант ФГУП "НИИ "Квантм1. В.М. Агеев1. Экз. № i1. УТВК РЖЯЛЮ1. ВРИС О РФ1. ГА Савельев1. АКТо внедрении результатов диссертационной работы Зулкарнеева М.Ю.
87. Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях» на соискание ученой степени кандидата физико-математических наук
88. Метод и алгоритм расчета перекрестной .энтропии скрытых Марковских моделей.
89. Метод и алгоритм формирования словаря заполнения, оптимального с точки зрения минимума средней ошибки распознавания, позволяющий повысить точность поиска ключевых слов в аудио-сообщениях.
90. Данные теоретические и практические результаты были использованы при в НИР "Ключ", "Живец-1 СВА", ОКР «Творение-2», ОР «Проза», выполненных в ФГУП «18 ЦНИИ» МО РФ в период с 2000 г. по 2006 г.
91. Председатель комиссии Члены комиссии
92. Захарченко А.Н. Бублий A.B. Куцор. А.И.1. УТВЕРЖДАЮ
93. Директор ФГНУ НИИ "Спецвузавтоматика"кпрофессори5 " смеХс1. А.В/Аграновский2003 г1. АКТо внедрении результатов диссертационной работы Зулкарнеева М.Ю.
94. Разработка математических моделей и алгоритмов поиска ключевых слов ваудио-сообщениях"
95. Старший научный сотрудник, кандидат физико-математических наук1. А.Ю. Гуфан1. Доцент,кандидат технических наук1. О.Ю. Берг
-
Похожие работы
- Алгоритмы поиска ключевых слов в радиотехнических устройствах обработки речевой информации, устойчивые к воздействию мешающих факторов
- Методы повышения показателей качества фильтрации DLP-систем на основе предметно-ориентированной морфологической модели естественного языка
- Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики
- Разработка и исследование теоретических основ создания естественно-языковых интерфейсов применительно к информационным транспортным системам
- Разработка методики проектирования режимов бортового информирования водителя в рамках задач интеллектуальных транспортных систем
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность