автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Применение авторегрессионных скрытых марковских моделей в задачах распознавания изолированных слов и идентификации дикторов
Автореферат диссертации по теме "Применение авторегрессионных скрытых марковских моделей в задачах распознавания изолированных слов и идентификации дикторов"
БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
УДК 519.217.2
од
2 4 тг)п 2303
ХЕЙДОРОВ Игорь Эдуардович
ПРИМЕНЕНИЕ АВТОРЕГРЕССИОННЫХ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В ЗАДАЧАХ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ И ИДЕНТИФИКАЦИИ ДИКТОРОВ
05.13.16- применение вычислительной техники, математического моделирования и математических методов в научных исследованиях
Автореферат диссертации па соискание ученой степени кандидата физико-математических наук
МИНСК-2000
Работа выполнена в Белорусском государственном университете
Научные руководители: доктор технических наук, член-корреспондент НАНБ,
профессор Кухарчик Петр Дмитриевич кандидат физико-математических наук, доцент Бовбель Евгений Иванович
Официальные оппоненты: доктор физико-математических наук, профессор Харин Юрий Семенович доктор технических наук,
вед.н.с. Лобанов Борис Мефодьевич
Оппонирующая организация - Белорусский государственный
Защита состоится: « 30 » июня 2000 т. в 10"часов на заседании совета по защите диссертаций Д 02.01.14 при БГУ, по адресу: г.Минск, пр.Франциска Скорины, 4, ауд. 206; телефон ученого секретаря 226-65-41
С диссертацией можно ознакомится в библиотеке БГУ
Автореферат разослан « 30 » мая 2000г.
И.о.ученого секретаря совета по защите диссертаций, доктор физико-математических наук,
университет информатики и радиоэлектроники
профессор
Г.А.Медведев
З-И-Я/Я./,, I)
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы диссертации Диссертационная работа посвящена статистическому моделированию речевых сигналов в задачах распознавания изолированных слов и идентификации дикторов. Для описания временной и акустической изменчивости речевых сигналов в задачах обработки речи широко используются статистические методы на основе скрытых марковских моделей (СММ). Однако стандартные СММ используют ряд предположений относительно акустических характеристик речевых сигналов, что не позволяет описывать их с высокой точностью. Для более эффективного представления временной и акустической изменчивости речи необходимо учитывать статистические зависимости между соседними фрагментами речевых сигналов. Использование принципа авгорегрессии позволяет снять ряд ограничений, присущих стандартным скрытым марковским моделям, в том числе и предположение о независимости фрагментов речевых сигналов. В связи с этим разработка методов и алгоритмов построения авторегрессионных скрытых марковских моделей (АРСММ) является дальнейшим усовершенствованием аппарата статистического моделирования речевых сигналов и обладает актуальностью.
Связь работы с крупными научными программами и темами Диссертационная работа выполнена в рамках НИР, проводимой на факультете радиофизики и электроники и включенной в план фундаментальных исследований Республики Беларусь "Радиофизика. Электромагнитные волны в неоднородных и нелинейных средах" (Волна), и также в рамках следующих НИР: "Разработка высокоэффективных систем распознавания слитной речи", выполнявшейся в 1996-1998гг., № ГР 19963406 согласно распоряжениям Минобразования №05-8/39 от 27.02.96, №05-9/5 от 13.01.97; "Разработка методов выделения информационных признаков в сложных акустических сигналах", выполнявшейся в 1996-1998гг., № ГР 19963451 согласно приказа по БГУ №216-Дот 19.03.96; "Методы и алгоритмы распознавания речи в системах управления и коммуникации", выполнявшейся в 1998г., № ГР 19982707 согласно
приказа по БГУ К° 205-Д от 13.09.98. Кроме этого, результаты, полученные по теме диссертации, были использованы при выполнении международного проекта В-95 "Теория и методы дискретных динамических систем в приложениях к задачам цифровой обработай сигналов" (1997-2000гг.) по линии Международного научно-технического центра (г.Москва).
; Цель и задачи исследования
Целью диссертационной работы является разработка авторегрессионной скрытой марковской модели, алгоритмов и программ для решения задач распознавания изолированных слов и идентификации дикторов с учетом психоакустических принципов восприятия речи.
Для достижения данной цели были поставлены и решены следующие задачи:
1. Анализ принципов и основных процедур формирования вектора признаков речевого сигнала с учетом психоакустического подхода к восприятию речи.
2. Разработка алгоритмов и программ для описания речевых сигналов на основе скрытых марковских моделей.
3. Разработка авторегрессионной скрытой марковской модели для решения задач дикторозависимого распознавания изолированных слов и идентификации дикторов по ключевым словам.
4. Разработка эффективных процедур и алгоритмов оценки параметров авторегрессионной скрытой марковской модели на основе самоорганизующихся кар г Кохонена и адаптивного фильтра Калмана.
5. Экспериментальное определение характеристик системы распознавания изолированных слов и идентификации дикторов по ключевым словам на основе авторегрессионных скрытых марковских моделей.
Объект и предмет исследования
Объектом исследования, выполненного в диссертации, являются статистические методы распознавания речи и идентификации дикторов. Предмет исследования - авторегрессионная скрытая марковская модель.
Методология и методы проведенного исследования
В основе исследования лежит методология скрытых марковских моделей, . усовершенствованная применительно к решаемым в диссертации задачам распознавания речи и идентификации дикторов.
Научная новизна и значимость полученнных результатов
1. Экспериментально исследованы характеристики мел-кепстральных векторов признаков для систем распознавания изолированных слов и идентификации дикторов на основе анализа алгоритмов формирования вектора признаков речевого сигнала и психоакустического подхода.
2. Впервые разработана авторегрессионная скрытая марковская модель для задачи идентификации дикторов по ключевым словам. С использованием разработанных программных средств исследованы статистические зависимости между векторами признаков речевого сигнала и определены параметры авторегрессионной скрытой марковской модели.
3. Разработана эффективная процедура оценки параметров авторегрессионной скрытой марковской модели с использованием ЕМ- алгоритма. Впервые разработана процедура начальной оценки параметров авторегрессионной скрытой марковской модели на основе самоорганизующихся карт Кохонена и адаптивного фильтра Калмана.
4. Разработана структура и базовый интерфейс систем распознавания изолированных слов и идентификации дикторов на основе авторегрессионной скрытой марковской модели для многозадачных приложений.
5. Исследованы характеристики разработанных систем дикторозависимого распознавания изолированных слов и идентификации дикторов по ключевым словам на основе авторегрессионной скрытой марковской модели и экспериментально определены оптимальные параметры модели.
Практическая значимость полученных результатов
Разработанные физико-математические модели, алгоритмы и программы могут быть использованы при разработке систем распознавания речи и идентификации дикторов. Разработана
компьютерная модель- системы дикторозависимого распознавания изолированных слов и идентификации дикторов на основе АРСММ.
Основные положения, выносимые на защиту На защиту выносятся:
1. Алгоритм формирования вектора признаков речевого сигнала на
■ основе психоакустических принципов, позволяющий уменьшить
изменчивость акустических харатериетик.
2. Авторефессионная скрытая марковская модель для задач дикторозависимого распознавания изолированных ' слов и идентификации дикторов по ключевым словам, отличающаяся от известных статистическим описанием связей между акустическими векторами признаков.
3. Оценка параметров авторегрессионной скрытой марковской модели на основе самоорганизующихся карт Кохонена и адаптивного фильтра Калмана, которая, в отличие от известных, позволяет в значительной степени уменьшить требуемый объем обучающих данных.
4. Компьютерная модель системы дикторозависимого распознавания изолированных слов и системы идентификации дикторов по ключевым словам на основе авторегрессионной скрытой марковской модели.
Личный вклад соискателя Автор разрабатывал представленные в диссертации физико-математические модели, алгоритмы и программы. Вклад соавторов связан с помощью в разработке алгоритмов и программных реализаций, а также с обсуждением полученных результатов.
Апробация результатов диссертации Основные результаты работы докладывались: на международной конференции "EUROSPEECH'99" (September 5-9, 1999, Budapest, Hungary); на международном семинаре "Models and analysis of vocal emissions for biomedical applications" (September 1-3, University of Firenze, Italy); на генеральной ассамблее "The XXVIth General Assembly of the International Union of Radio Science (URSI)" (August 14-21, 1999, University of Toronto, Ontario, Canada); на международном семинаре "The IEEE International
Workshop on Intelligent Signal Processing" (September 4-7, 1999, Budapest, Hungary); на международном симпозиуме "Symposium AeroSence SPIE-99" (April 8-12, 1999, Florida, USA); "2nd IMACS International Conference on: Circuits, Systems and Computers" (October 26-29, 1998, Piraeus, Greece); на международной конференции "XI European Signal Processing Conference EUSIPCO 98" (September 8-11, 1998, Rhodes, Greece); на международной конференции "13th International Conference on Digital Signal Processing" (July 2-4, 1997, Santorini, Greece); на международной конференции "Компьютерный анализ данных и моделирование" CD AM, (4-8 сентября, 1995, Минск); на 18-ом международном симпозиуме студентов и молодых ученых (April 29-30, Zielona Gura, 1996).
Опубликованность результатов
По теме диссертации опубликовано всего 18 научных работ, в том числе 1 статья в научном журнале, 4 статьи в сборниках научных трудов и 13 докладов в грудах международных конференций. Общее число страниц опубликованных материалов - 101.
Структура и объем диссертации.
Диссертация состоит из введения, общей характеристики работы, четырех глав, заключения, списка использованных литературных источников и приложения. Общий объем диссертации составляет 98 страниц. Диссертация содержит 22 рисунка на 15 страницах и 6 таблиц на 3 страницах. Список литературы включает 91 наименование.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ.
Во введении дана краткая оценка предмета исследований, охарактеризовано состояние ira настоящий момент и показана необходимость написания данной работы.
В общей характеристике работы обоснована актуальность и новизна рассматриваемой проблемы, отражена связь с крупными научными программами и проектами, сформулированы цель и задачи, раскрыты объект, предмет и методология проведенного исследования, научная новизна полученных результатов, изложены защищаемые положения, показан личный вклад автора, приведены апробация и
опубликованность результатов, изложена структура и объем диссертации.
Первая глава посвящена анализу принципов и алгоритмов формирования вектора признаков речевого сигнала для статистических методов описания речевого сигнала на основе психоакустического подхода к восприятию речи.
Рассматриваются алгоритмы и процедуры формирования вектора речевых параметров на основе психоакустических принципов для задач распознавания изолированных слов и идентификации диктора. Отмечается, что классические системы обработки сигналов, основанные на линейной спектральной шкале, не способны эффективно решать такого рода задачи, поскольку не используют обобщенную модель приемника. В данной главе автором рассматриваются три основные психоакустические величины, наибольшим образом влияющие на акустическую изменчивость речевых сигналов: абсолютный порог слышимости, критические диапазоны и маскирование. Показано, что вычисление абсолютного порога слышимости позволяет устранить из речевого сигнала информацию, не воспринимаемую человеческим ухом, а следовательно, и не имеющую для анализа значения. Критическая полоса частот определяется как полоса частот, на которой субъективно выделяются резкие изменения в звуковом сигнале. Порог обнаружения узкополосного источника звукового сигнала между двумя маскирующими тонами остается постоянным до тех пор, пока область частотного разделения между двумя тонами будет лежать в пределах критической полосы частот. Для аппроксимации критической полосы частот ВЖС автором реализованы и исследованы три шкалы- мел, барк и шарф.
В данной главе автором экспериментально доказывается, что введение психоакустических принципов в процедуру формирования вектора признаков речевого сигнала позволяет провести сглаживание спектра и снизить вариации произношения слов для диктора при сохранении его индивидуальных особенностей. В связи с этим в работе для формирования вектора речевых параметров автором предложено использовать 12 мел- кепстральных коэффициентов, полученных на основе метода максимальной
энтропии и психоакустического анализа. Для учета динамики речевых сигналов в вектор признаков вводится 12 производных от основных параметров.
Исследовано распределение мел-кепстральных
коэффициентов и экспериментально установлено, что в рамках слова закон распределения мел-кепстральных коэффициентов не может быть представлен с использованием распределения Гаусса. На основе проведенных исследований автором сделан вывод о необходимости введения статистической модели для эффективного описания речевых сигналов.
Вторая глава посвящена разработке методов и алгоритмов описания речевых сигналов на основе статистических моделей.
В рамках данной главы автором делается обзор основных процедур и алгоритмов статистического моделирования речевых сигналов. Выделяются основные причины, приводящие к необходимости введения статистической модели речевых сигналов для решения задач распознавания изолированных слов и идентификации дикторов. Отмечается, что использование статистической модели речевого сигнала позволяет иммитйровать источник и изучать его с достаточно высокой степенью точности, обеспечивая на практике возможность эффективной реализации систем предсказания, распознавания и идентификации.
В работе рассмотрены два основных метода описания акустического пространства. Автором показано, что в зависимости от предположений о форме распределения акустических параметров и вводимых ограничений можно построить статистические модели речевых сигналов нескольких типов, наиболее популярными из которых являются модель на основе эталона и скрытая марковская модель. Рассмотрен алгоритм динамического временного выравнивания для распознавания речи на основе эталона. К достоинствам данного метода относятся простота реализации, легкая обучаемость и универсальность модели. Автором выделены два основных недостатка такого подхода: неэффективность использования эталона для учета акустической изменчивости
речевых сигналов, и затрудненность использования данного метода моделирования для единиц речи, меньших слова.
Показано, что для эффективного моделирования акустической и временной изменчивости речевой сигнал может быть представлен в виде последовательности квази-стационарных состояний на основе СММ. Предполагается, что наблюдаемый в момент времени г вектор признаков о, является некоторой вероятностной функцией состояния / (о,), где 7 = 1,...,Л', № число состояний. Тогда в большинстве представляющих практический интерес случаев она может быть представлена в виде взвешенной суммы из К нормальных распределений
М
где с)к - весовой коэффициент к-ой компоненты в состоянии ], /и ,к-среднее значение А-ой компоненты в состоянии у, Е^ - ковариация для к- ой компоненты в состоянии у.
В работе вводится определение скрытой марковской модели как дважды стохастического случайного процесса, заданного в виде Л-{П, IV,Б), где П- матрица начальных вероятностей, IV- матрица переходных вероятностей, в[с1к,ц^,1,1к)- набор параметров плотностей распределений для каждого состояния. Автором рассмотрены основные достоинства и недостатки СММ различных типов: дискретной СММ, СММ с непрерывной плотностью и полунепрерывной СММ.
Исследована вычислительная сложность алгоритмов оценки акустической вероятности Р(0 \Х), где О- последовательность векторов признаков, в зависимости от длительности последовательности наблюдений Т и числа состояний СММ N. Показано, что вычислительная сложность алгоритма Баум-Уэлча равна Ы2Т, в то время как вычислительная сложность прямого метода оценки акустической вероятности составляет 2ТЫт.
Исследованы автокорреляционные функции и диаграммы рассеяния для мел-кепстральных коэффициентов в различных словах. Автором экспериментально установлено, что
• предположение скрытых марковских моделей о независимости векторов наблюдений друг от друга верно только вне границ некоторого диапазона;
• коэффициент и временной интервал корреляции между векторами наблюдений зависят от диктора, что может быть использовано в задачах идентификации и верификации дикторов;
• коэффициент и временной интервал корреляции зависят от фонетического состава слов. Наиболее сильная корреляция наблюдается внутри акустических единиц, составляющих слово, наименьшая - между сегментами, принадлежащими разным фонемам.
Третья глава посвящена разработке авторегрессионных скрытых марковских моделей, а также методов и алгоритмов оценки параметров АРСММ на основе ЕМ-алгоритма.
Рассмотрены процедуры обучения СММ и декодирования, основанные на критерии максимума апостериорной вероятности Р(ЛУ\О,0Г) - вероятности генерации последовательности наблюдений О скрытой марковской моделью с набором параметров 0„. Для алгоритма оценки вероятности Р[л,\0,в,) вводится два этапа — лингвистическое и акустическое моделирование, согласно правилу Байеса
= (2)
Для оптимизации (2) предполагается независимость О от в в процессе обучения, поэтому процедура обучения адекватна поиску
где 2- число обучающих выборок. Автором показывается, что в частном случае СММ разработанные для оптимизации (3) ЕМ-алгоритмы приводят к алгоритму прямого-обратного хода.
Для уменьшения вычислительной сложности оценки вероятностей и процедуры обучения СММ вводится ряд предположений и допущений, которые позволяют свести процедуру обучения СММ к оценке вероятностей перехода между состояниями и плотности вероятности появления векторов в каждом состоянии. Для учета статистической связи между векторами признаков автором предложено ввести авторегрессионную модель временного ряда в
виде выхода фильтра, заданного линейным разностным уравнением
+««. . (4)
где х,- последовательность на выходе фильтра, а1 - линейные коэффициенты, и,- входная возбуждающая, последовательность. Применение модели авторегрессии в случае .СММ позволяет -аппроксимировать данные вне окна анализа -для; получения неискаженных оценок и снять предположение СММ о независимости наблюдений. Компоненты вектора наблюдений о, считаются независимыми и модель авторегрессии вводится автором для каждого компонента вектора признаков отдельно. ,.,.- -•.■■;<■•
Впервые введена авторегрессионная скрытая марковская модель для задачи идентификации дикторов по ключевым словам. Показывается, что в случае АРСММ функция плотности распределения в некотором состоянии / имеет вид
= I *м.....Х«-Р) = т=Т«р| "¿И хг
I V м
(5)
При моделировании состояния на основе суммы К гауссовых распределений выражение для Ь (г,) представляется как
где каждый член Ьл(х,} имеет вид (5) со , :своими значениями коэффициентов предсказания .
Автором разработана эффективная процедура обучения предложенной авторегрессионной скрытой марковской модели Л на основе ЕМ- алгоритма. При разработке алгоритма переоценки параметров АРСММ введена прямая и обратная вероятности для компонент вектора признаков. Автором впервые предлагается использовать фильтр Калмала для начальной оценки параметров авторегрессии, позволяющий значительно уменьшить требуемый объем обучающих данных. Впервые предложено использовать самоорганизующуюся карту признаков Кохонена для начальной оценки плотности распределения акустических векторов в состояниях СММ. Автором экспериментально исследуются условия и скорость сходимости процедуры обучения самоорганизующейся карты Кохонена.
Четвертая глава посвящена разработке стуктуры и базового интерфейса систем распознавания изолированных слов и идентификации дикторов на основе АРСММ для многозадачных приложений, а также экспериментальному определению оптимальных параметров АРСММ.
В данной главе автором разрабатывается и описывается интерфейс взаимодействия для систем распознавания изолированных слов и идентификации дикторов. Описана внутренняя структура и особенности реализации модуля прямого распознавания речи и идентификации дикторов по ключевым словам. Особое внимание уделяется вопросам совместимости разработанного интерфейса и структуры с современными операционными системами. Рассмотрены преимущества использования технологии многопоточности при разработке модуля распознавания изолированных слов и идентификации дикторов.
Автором описывается алгоритм и программная реализация блока принятия решений. Отмечается, что модуль распознавания работает в режиме поканальной АРСММ, и после завершения процедуры распознавания для каждого слова имеется набор из 24-х вероятностей, соответствующих каждому каналу. Автором
разработана процедура определения сравнительной суммарной характеристики соответствия речевого сигнала АРСММ на основе классификации вероятностей всех моделей по убыванию для каждого из 24 каналов и определения веса каждого канала.
В данной главе описывается созданная автором компьютерная модель системы дикторозависимого распознавания изолированных слов и идентификации дикторов по ключевым словам на основе АРСММ, а также база данных, созданная для проведения экспериментов по определению оптимальных параметров и характеристик системы. Для оптимизации характеристик системы выбраны следующие четыре параметра: количество состояний АРСММ, размер кодовой книги, требуемый объем обучающих данных и тип используемой нормализации энергии.
Автором экспериментально исследуется зависимость точности идентификации дикторов от числа состояний АРСММ N и определяется оптимальное значение N-6. Также исследована зависимость точности идентификации дикторов от размерности кодовой книги М и определяется оптимальное значение М=169. Исследуется зависимость точности идентификации дикторов от типа нормализации энергии и установливается, что использование покадровой нормализации позволяет улучшить точность идентификации по набору ключевых слов на 3%.
Показано, что система идентификации дикторов на основе разработанной АРСММ с оптимальными параметрами обеспечивает точность 92% для 5 обучающих выборок на слово и 98% для 30 обучающих выборок. В работе . также: показано, что система дикторозависимого распознавания изолированных слов на основе разработанной АРСММ с оптимальными параметрами обеспечивает точность 95% для 5 обучающих выборок на слово и 99% для 30 обучающих выборок.
ЗАКЛЮЧЕНИЕ
Результаты проведенных исследований позволяют сделать следующие основные выводы:
1. Рассмотрены и реализованы современные алгоритмы построения вектора признаков речевого сигнала на основе психоакустического подхода к восприятию речи [14]. Установлено,
, что введение психоакустических принципов в процесс формирования вектора признаков позволяет провести сглаживание спектра и уменьшить акустическую изменчивость сигналов при сохранении индивидуальных особенностей дикторов [11, 12]. Для эффективного описания речевых сигналов.-в. задачах распознавания речи и идентификации дикторов.выбран вектор признаков, состоящий из 12 мел-кепстральных коэффициентов и 12 их производных [2, 5].
2. Сделан обзор основных процедур и алгоритмов статистического моделирования . речевых сигналов [1, 7, 15]. Показано, что речевой сигнал может быть представлен в виде последовательности квази-стационарных состояний на основе СММ [16]. Исследована вычислительная сложность алгоритмов оценки акустической вероятности в зависимости от длительности последовательности: наблюдений Т и числа состояний СММ N. Показано, что вычислительная сложность алгоритма Баум-Уэлча равна ЫгТ, в то время как вычислительная сложность прямого метода оценки акустической вероятности составляет 2ТЫ' [18]. Экспериментально установлено, что между речевыми векторами признаков в интервале 20-70 мс наблюдается корреляция, коэффициент которой зависит от диктора [4, 10].
3. Установлено, что использование модели авторегрессии позволяет снять ряд ограничений СММ, в том числе и предположение о' независимости векторов признаков [3, 13]. Впервые предложено использовать АРСММ для задачи идентификации дикторов по ключевым словам [8]. Разработана эффективная процедура оценки параметров авторегрессионной скрытой марковской модели с использованием ЕМ- алгоритма. Впервые разработана и реализована процедура начальной оценки параметров АРСММ на основе
самоорганизующихся карт Кохонена и адаптивного фильтра Калмана [6].
4. Разработана структура и базовый интерфейс систем распознавания речи и идентификации дикторов на основе АРСММ для многозадачных приложений. Создана компьютерная модель системы дикторозависимого распознавания изолированных слов и идентификации дикторов по ключевым словам [10].
5. Экспериментально определены оптимальные параметры АРСММ - число состояний 1V~6 и размер кодовой книги М-169. Показано, что система идентификации дикторов по пяти ключевым словам обеспечивает точность 92% при использовании для обучения АРСММ 5 выборок и 98% при обучении по 30 выборкам [11].
6. Показано, что система дикторозависимого распознавания изолированных слов на основе разработанной АРСММ с оптимальными параметрами обеспечивает точность 95% при обучении моделей по 5 выборкам и 99% для 30 обучающих выборок [9, Ю, 17].
СПИСОК ОПУБЛИКОВАННЫХ РАБОТ.
1. Бовбель Е.И., Хейдоров И.Э. Статистические методы распознавания речи: скрытые марковские модели // Зарубежная радиоэлектроника.Успехи современной радиозлектроники.-1998. -№3 - Москва,- С. 45-65.
2. Бовбель Е.И., Семенчик В.Г., Хейдоров И.Э. Параметры и алгоритмы для распознавания речи // Современные вопросы оптики, радиационного материаловедения, информатики, радиофизики и электроники: Сб.научн.тр. / БГУ: Под общ. ред.А.Ф.Чернявского. - Минск, 1996.-Ч.1- С. 272-276.
3. Bovbel E.I., Kheidorov I.E, Tkachova P.P. Autoregressive Hidden Markov Models for Isolated Words Recognition // Recent Advances in Information Science and Technology. - Word Scientific, 1998.-P.211-214.
4. Бовбель Е.И., Ткачева П.П, Хейдоров И.Э. Распознавание изолированных слов на основе авторегрессионной скрытой
марковской модели // Интеллектуальные системы: Сб.научн.тр./ ИТК НАНБ; Под общ. ред. А.М.Крота,- Вып.2,-Минск:, 1999. -С.50-59.
5. Бовбель Е.И., Хейдоров И.Э. Разработка и исследование алгоритмов арифметического преобразования Фурье для систем автомагического распознавания речи // Интеллектуальные системы: Сб.научн.тр/ ИТК НАНБ; Под общ. ред. А.М.Крота. -Минск, 1999.-С.60-66. i
6. Bovbel E.I., Kukharchik I'.D., Kheidorov I.E. The joint speech/video signal processing based on the autoregressive hidden Markov models and neural networks // IEEE International Workshop on Intelligent Signal Processing: ProcJ Budapest, Hungary, September 4-8, 1999. -Budapest, 1999.-P. 45-47.
7. Bovbel E.I., Kukharchik P.D., Kheidorov I.E. Speech Recognition for Digital Mobile Communication Systems // XVIth General Assembly of the International Union of Radio Science (URSI): Proc./ Toronto, Canada, August 13-21, 1999-Toronto, 1999.-P.689.
8. Bovbel E.I., Kukharchik P.D., Kheidorov I.E. The joint speech/video signal processing for persons with limited physical possibilities // Models and analysis of vocal emissions for biomedical applications: Workshop proc./ Firenze, Italy, September 2-5, 1999.- Firenze, 1999-P.144-145.
9. Кухарчик П.Д., Бовбель Е.И., Хейдоров И.Э. Распознавание изолированных цифр при помощи акустико-фонетической скрытой марковской модели // Компьютерный анализ данных и моделирование: Труды междунар.конф.- Минск, 1995.- С.58-62.
10.Bovbel E.L, Kheidorov I.E, Tkachova P.P. The usage of hidden Markov models based on autoregressive principles for isolated words recognition II Symposium AeroSence SPIE-99: Proc.- Florida, 1999.-vol. 3720.-P. 434-443.
11.Bovbel E.I., Kheidorov I.E, Tkachova P.P. The analysis of speaker individual features based on autoregressive hidden Markov models // EUROSPEECH'99: Conf. Proc.- Budapest, 1999. - vol.3.- P.l 191-1194.
12.Bovbel E.I., Kheidorov I.E, Tkachova P.P. Autoregressive hidden Markov models for applied tasks of vocal fold pathology detection //
Models and analysis of vocal emissions for biomedical applications: Workshop proc., Firenze, 1999.-P. 108-И1.
13.Bovbel E.I., Kheidorov I.E, Tkachova P.P. Autoregressive Hidden Markov Models for Words Recognition II 2nd IMACS International Conference on: Circuits, Systems and Computers (IMACS-CSC'98): Proc.- Piraeus, 1998.-Vol.l .-P.453-456.
14.Bovbel Е.Г., Kheidorov E.I. Speech Parameters Vector Based on Arithmetic Fourier Transfrom U XI European Signal Processing Conference EUSIPCO 98: Proc.-Rhodes, 1998. -P.713-717.
15.Bovbel E.I., Kheidorov I.E. Statistical Recognition Methods Application for Isolated Word Recognition // 13th International Conference on Digital Signal Processing: Proc.- Santorini, 1997.-Vol.2.-P. 821-824.
16.Bovbel E.L, Kheidorov I.E. Statistical Image Recognition Methods for Isolated Word Recognition // International Conference CDAM-98: Proc.-Minsk, 1998.-P.234-238.
17.Kheidorov I.E. A Phone-Based HMM and Vector-Quantization for Isolated Belarusian Words Recognition // 18th International Simposium of students and young scientists: Proc.-Zielora Gura, 1996.- C.68-73.
18.Бовбель Е.И., Семенчик В.Г., Хейдоров И.Э. Распознавание слитной речи: скрытые марковские модели и нейронные сети // Современные методы обработки сигналов в системах измерения, контроля, диагностики и управления: Тр.науч. 1995.-C.92-9S.
РЕЗЮМЕ
Хейдоров Игорь Эдуардович. Применение авторегрессионных скрытых марковских моделей в задачах распознавания изолированных слов и идентификации дикторов.
Ключевые слова: скрытые марковские модели, модель авторегрессии, распознавание речи и идентификация дикторов.
Рассмотрены особенности статистического моделирования речевых сигналов с учетом психоакустических принципов для систем распознавания изолированных "слов и идентификации дикторов. Предложено использовать авторегрессионные скрытые марковские
модели для эффективного описания акустической изменчивости речевых сигналов. Разработаны эффективные алгоритмы обучения авторегрессионных скрытых марковских моделей на основе самоорганизующихся карт Кохонена и адаптивного фильтра Калмана, Разработана компьютерная модель системы дикторозависимого распознавания изолированных слов и идентификации дикторов по ключевым словам. Экспериментально определены оптимальные параметры авторегрессиошюй скрытой марковской модели и характеристики системы распознавания и идентификации.
РЭЗЮМЭ
Хейдарау 1гар Эдуардашч. Скарыстанне аутарэгрэсшных скрытых маркаусюх мадэляу у задачах распазнання 1заляваных слоу г щэнтыфкацьи дыктарау.
Ключавыя словы: скрытыя маркауск'ш мадэл!, : мадэль аутарэгрзси, распазнанне мовы 1{дэнтыфшацыя дыктарау.
Разгледзены асабливасщ статыстычнага мадэлявання моуных агнатау з улкам ггахаакустычных прынцыпау для стстэм распазнання ¡заляваных слоу I ¡дэнтыфжацьп дыктарау. Прапанавана выкарыстоуваць аутарэгрэсшныя скрытые маркаусюя мадэл1 для эфектыунага ашсання акустычнай зменлтасш моуных агналау. Распрацаваны эфектыуныя алгарытмы абучэння аутарэгрэсшных скрытых маркауских мадэляу на падставе самааргаюзуючыхся карт Коханена и адаотыунага фшьтра Калмана. Распрацавана кампутарная мадэль астзмы дыктаразавюмага распазнання паляваных слоу 1 щэнтыфкацьи дыктарау па ключавым словам. Экспериментальна вызначаны аптымальныя параметры аутарэгрэсшнай скрытай маркаускай мадэ.'п 1 характарыстьш истэмы распазнання 1 доштфшацыь
SUMMARY
Kheidorov Igor. The application of autoregressive hidden Markov models for isolated words recognition and speaker identification tasks.
Key words: hidden Markov models, autoregressive model, speech recognition and speaker identification.
The particularities of speech signals statistical modelling for isolated words recognition and speaker identification systems are examined based on psychoacoustical principles. It is proposed to use autoregressive hidden Markov models for acoustical variability of speech signals. Effective algorithms based on Kohonen self- organizing maps and adaptive Kalman filter are developed for autoregressive hidden Markov models training. It is developed a computer model of the system of speaker dependent isolated words recognition sand speaker identification by keywords. Optimal parameters of the hidden Markov model and recognition and identification system characteristics are experimentally defined.
-
Похожие работы
- Система разделения дикторов на основе вероятностного линейного дискриминантного анализа
- Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений
- Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов
- Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи
- Разработка методики использования широких фонетических категорий в задачах верификации диктора
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность