Математические модели и комплекс программ для автоматического распознавания дикторов

Адель Саллам Мохамед Хайдер

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математические модели и комплекс программ для автоматического распознавания дикторов

кандидата технических наук: Адель Саллам Мохамед Хайдер
город: Санкт-Петербург
год: 2004
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Математические модели и комплекс программ для автоматического распознавания дикторов»

Автореферат диссертации по теме "Математические модели и комплекс программ для автоматического распознавания дикторов"

На правах рукописи

Адель Саллам Мохамед Хайдер

МАТЕМАТИЧЕСКИЕ МОДЕЛИ И КОМПЛЕКС ПРОГРАММ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ДИКТОРОВ.

Специальность: 05.13.18,- Математическое моделирование,

численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 2004

Работа выполнена в Санкт-Петербургском государственном электротехническом университете "ЛЭТИ" имени В.И. Ульянова (Ленина)

Научный руководитель -

доктор технических наук, профессор Геппенер В.В.

Официальные оппоненты:

доктор технических наук, профессор Куприянов М.С. кандидат технических наук, доцент Макулов В.Б.

Ведущая организация - Санкт-Петербургский институт информатики и автоматизации РАН

Защита состоится " " 2004 г. вчасов на заседании

диссертационного совета Д 212.238.01 Санкт-Петербургского государственного электротехнического университета "ЛЭТИ" имени В.И. Ульянова (Ленина) по адресу: 197376, Санкт-Петербург, ул. Проф. Попова, 5.

С диссертацией можно ознакомиться в библиотеке университета.

Автореферат разослан

10

2004 г.

Ученый секретарь диссертационного

Пантелеев М.Г.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В последние годы отмечается существенный рост интереса к автоматическим системам опознавания (идентификации и верификации) говорящего по голосу. Потребность в разработке таких систем главным образом диктуется наличием широкого круга практических приложений, где требуется подтвердить или опознать определенную личность. Системы автоматического распознавания говорящего могут использоваться для следующих целей: задачи обеспечения безопасности (контроль за физическим доступом в помещения; доступ к базам данных, вычислительным системам и ПК; управление различными запорными механизмами; контроль над транспортными средствам и оружием; доступ к банковским счетам), задачи криминалистической экспертизы (анализ записей телефонных переговоров и отождествление их с подозреваемым; доказательства при судебных разбирательствах; идентификация «телефонных хулиганов» по записи). Особый интерес представляет собой использование систем опознавания на телефонных каналах, например, для получения баланса банковского счета, подтверждения денежных транзакций или оплаты услуг.

Направление, связанное с разработкой и исследованием систем автоматической идентификации и верификации дикторов является в данный момент прогрессирующим, к нему проявляют интерес многие крупные исследовательские и коммерческие организации. И если не сегодня, то в ближайшем будущем такие системы будут востребованы в полной мере.

В связи с вышесказанным весьма актуальным является разработка моделей и методов распознавания дикторов для различных условий применения.

Существующие решения этой задачи в настоящее время не обеспечивают достаточно высокой надежности распознавания дикторов. Поэтому актуальной задачей является сравнительное исследование различных моделей распознавания дикторов и определение наиболее перспективных направлений их создания. В работе проведен анализ моделей формирования признакового описания речевых сигналов и исследованы различные модели систем распознавания дикторов. Важное внимание уделено рассмотрению задачи распознавания дикторов в условиях помех.

Общее содержание диссертационной работы соответствует научному направлению "Распознавание образов и обработка изображений" Государственной научно-технической программы "Перспективные информационные технологии".

Цель и задачи диссертационной работы. Целью работы является разработка и исследование моделей и алгоритмов для решения задач распознавания дикторов в различных условиях. Для достижения этой цели в диссертации решались следующие задачи:

БИБЛИОТЕКА ] С.Петср}уг>удо 1 ^ О»

1. Анализ особенностей построения распознающих систем для распознавания дикторов в различных условиях.

2. Исследование моделей построения различных признаковых описаний в задачах распознавания дикторов.

3. Разработка алгоритмов распознавания дикторов, основанных на использовании моделей динамического искажения времени, скрытых марковских моделей, нейронных сетей и векторного квантования.

4. Разработка методов распознавания дикторов в условиях шумового искажения речевого сигнала.

5. Разработка программных систем для распознавания дикторов, реализующих рассмотренные в работе теоретические модели.

6. Проведение сравнительного экспериментального исследования разработанных алгоритмов и программных средств при обработке сигналов реальных речевых баз.

Методы исследования. В диссертационной работе используется аппарат теории вероятностей, случайных процессов, математической статистики, цифровой обработки сигналов, теории распознавания образов, теории построения математических моделей.

Научную новизну работы составляет:

• Модель слоистой нейронной сети для верификации дикторов, обеспечивающая существенное снижение вычислительных затрат по сравнению с полносвязной сетью.

• Модель системы верификации дикторов на основе скрытых марковских моделей, обладающая высокой потенциальной эффективностью.

• Модифицированный алгоритм векторного квантования Ллойда для тек-стонезависимой идентификации дикторов, позволяющий существенно улучшить качество кодовых книг базы эталонов.

• Подход к построению системы верификации дикторов в условиях шумового окружения, основанный на совместном использовании оптимальной фильтрации* и вейвлет-преобразования для подавления шумов.

Практическая ценность работы заключается в следующем:

• Разработаны конкретные алгоритмы, положенные в основу создания систем верификации/идентификации дикторов.

• Разработан комплекс программного обеспечения для ПЭВМ для распознавания дикторов на основе различных теоретических моделей .

• Проведено сравнительное экспериментальное исследование разработанных в диссертации моделей верификации/идентификации дикторов, позволившее выбрать наиболее эффективные модели построения систем распознавания дикторов

• Предложенные в работе модели и алгоритмы могут быть положены в основу разработки коммерческих систем распознавания дикторов.

Внедрение результатов работы. Работа выполнялась в рамках Федеральной целевой научно-технической программы "Исследования и разработка по приоритетным направлениям развития науки и техники на 2000-2006 гг." - НИР "Методы распознавания образов, обработки сигналов и изображений для самоорганизующихся систем", выполняемой Государственным предприятием "Научно-инженерный центр СПбГЭТУ".

Разработанные программные средства и методические материалы использовались в учебном процессе при проведении лабораторных и курсовых работ по курсам «Системы цифровой обработки сигналов», "Распознавание речевых сигналов и изображений" для студентов специальностей 220400 и 010200 в СПбГЭТУ.

Апробация работы. Основные положения и результаты работы докладывались и обсуждались на научно-технических конференциях СПбГЭТУ в 2003-2004 гг.; на 6-ой международной конференции "Распознавание образов и анализ изображений: новые информационные технологии" (РОАИ-6-2002), Великий Новгород, 2002г.; на 5-ой международной научно-технической конференции "Распознавание-2003", Курск, 2003 г.; на 11-й Всероссийской конференции "Математические методы распознавания образов" (ММРО-11), Москва, 2003 г.; на Международной конференции по мягким вычислениям и измерениям (SCM'2004), С.-Петербург, 2004 г., на 58-ой научно-технической конференции СПбНТО РЭС им. А. С Попова, С.Петербург, 2003 г.; на 59-ой научно-технической конференции СПбНТО РЭС им. А.С Попова, С.-Петербург, 2004 г.; на 9-ой Международной конференции "Speech and computer" (Specom 2004), С.Петербург, 2004 г.

Публикации. По теме диссертации опубликовано 9 печатных работ, из них 3 статьи , 4 доклада и тезисы к 2-м докладам на международных и всероссийских научно-технических конференциях.

Структура и объем диссертации. Диссертация состоит из введения, шести глав, заключения и списка литературы, включающего 91 наименование. Основная часть работы изложена на 152 страницах машинописного текста. Работа содержит 81 рисунок и 34 таблицы.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении показана и обоснована актуальность работы, сформулированы основные цели и задачи, научная новизна и практическая ценность диссертационной работы.

В первой главе, рассматривается классификация систем определения индивидуальности говорящего по речи, в том числе рассматриваются идентификация, верификация, текстозависимые и текстонезвисимые системы распознавания дикторов.

Приведена общая схема идентификации и верификации (рис. 1,2)

Рис.2. Схема задачи верификации.

Показано, что количество информации, которое необходимо получить в задаче идентификации, оказывается, как правило, больше, чем при решении задачи верификации. Поэтому естественно ожидать, что при прочих равных условиях качество распознавания (т.е. вероятность принятия правильного решения) в случае верификации будет выше, чем в случае идентификации.

Наиболее типичная стратегия тексто-зависимой верификации диктора состоит в том, чтобы создать эталонный файл речевых сигналов (в функции времени) для каждого пользователя, а затем в процессе верификации сравнивать параметры речи неизвестного говорящего с параметрами эталона в эквивалентных точках временной оси.

Как видно из рис.1, 2. система верификации (идентификации) говорящего по речи разбивается на три сравнительно независимые части:

• выделение различительных признаков, или способа параметризации речевого сообщения;

• процедуры построения эталона для данного диктора (дикторов);

• принятие решения об индивидуальности говорящего.

Выбор параметров речевого сигнала, является самым важным этапом при построении автоматических систем распознавания дикторов.

Рассмотрены основные типы признаков, такие как спектральное описание, коэффициенты линейного предсказания (КЛП) и кепстральные параметры.

Рассматриваются способы описания речевого сообщения в целом, а также основные подходы к построению систем принятия решений при распознавании дикторов, как-то динамическое искажение времени (ДИВ), скрытые марковские модели (СММ), векторное квантование (ВК), и нейронные сети (НС).

Рассмотрены критерии эффективности систем верификации. Одним из факторов, по которым определяют эффективность биометрических систем, является частота появления ошибок. Эффективность верификации диктора обычно характеризуется измерениями двух ошибок: ошибки пропуска и ошибки отклонения. Ошибки пропуска соответствует вероятности пропуска говорящего при условии что он злоумышленник, а ошибки отклонения соответствует вероятности отклонения говорящего, если известно что он клиент и пропорциональна числу попыток злоумышленника, которые заканчиваются допуском.

Приведен обзор современных систем распознавания дикторов. Сформулированы основные задачи совершенствования систем распознавания дикторов. Предложено уделить основное внимание разработке текстозависимой системы распознавания дикторов на основе использования нейронных сетей и методов ДИВ.

Во второй главе рассмотрена проблема выбора признаков описания речевого сигнала. Рассмотрены методы первичной обработки речевых сигналов в задаче распознавания дикторов. Базовыми операциями первичной обработки являются: дискретизация речевого сигнала, дискретное преобразование Фурье, использование оконных функций, цифровая фильтрация и нормализация по уровню.

Анализируются методы измерения и выбора совокупности параметров речевого сигнала, пригодных охарактеризовать индивидуальность диктора (система признаковых описаний речи). При этом также необходимо выделить информативные признаки речевого сигнала, описывающие сигнал в наиболее краткой форме без существенной потери информации. Рассмотренные методы обработки речевых сигналов базируется на получении :

- спектральных признаков;

- признаков, основанных на линейном предсказании;

- кепстральных признаков.

В основу кодирования с линейным предсказанием положена идея о том, что любое значение речевого сигнала может быть представлено как линейная комбинацияр предыдущих отсчетов. Пусть дискретизованный исходный сигнал представляется последовательностью х1. Тогда значение предсказываемой величины может быть записано как

б

где ак- коэффициенты предсказания, а x„_t- к-е предыдущее значение сигнала перед х„. Величина р определяется числом полюсов передаточной функции голосового тракта и обычно достаточно невелика.

Рассматривается Mel шкала как наиболее распространенный метод для логарифмического сжатия диапазона частот (приведено несколько вариантов шкалы):

(2)

где /- частота в спектре, Гц, а fmei - частота в новом пространстве, Mel.

Эти шкалы сходны со шкалой частотного восприятия человека, и построены на основе психофизиологических экспериментов. Соответственно используется понятие Mel банка фильтров (рис. 3).

При этом каждый фильтр в банке имеет треугольную полосу пропускания частотной характеристики и длина этой полосы постоянна в Mel шкале и различна в линейной шкале. Полосы пропускания фильтров в банке наполовину перекрываются.

В работе подробно исследовались признаковые описания речевого сигнала на основе кепстральных представлений. Рассмотре-

Чаетота (Гц) на эФФективность приме-

нения трех видов вычисле-Банк Mel фильтров. ния кепстральных коэффи-

циентов (КК) : Mel кепстр на основе быстрого преобразования Фурье (Mel БПФ КК), кепстр линейного предсказания ( ЛП КК) и Mel кепстр линейного предсказания (Mel ЛП КК). Показано преимущество использования Mel кеп-стра БПФ , определяемого как

v s /

и = 0,1.....N

(3)

где Б(к) - средняя спектральная мощность фильтра к , и - общее количество фильтров, N - количество кепстральных коэффициентов.

где к - номер фильтра (от 1 до 18), М(к) - начальная частота фильтра к, N(k) - ширина фильтра к, м>(к,1) - весовая функция (треугольной формы), X(i) - амплитуда дискретного преобразования Фурье.

Также рассматриваются методы выделения границ фразы. В работе предложен видоизмененный, по сравнению с известными, алгоритм выделения границ фраз. В алгоритме вместо простого значения энергии используется ее логарифм, что значительно снижает зависимость результатов от громкости записанной речи. Вместо числа переходов через нуль используется логарифм среднего квадрата разности соседних отсчетов. Причем наиболее точные результаты были получены для разности между значениями расположенными на расстоянии в 5 отсчетов (или 0.5 мс).

В третьей главе рассматриваются теоретические основы моделей принятия решений в задачах распознавания дикторов. Рассматривается метод сопоставления с эталоном. При сопоставлении с эталоном описания речевых сигналов сравниваются с заранее запасенными эталонными описаниями и вычисляется степень их подобия. Результатом распознавания является наиболее похожий эталонный образ. При распознавании диктора путем сопоставления возникает несколько проблем, среди которых наиболее типичными являются временные изменения характерных речевых сигналов и влияние размеров органов речи. Первая проблема связана с необходимостью подстраивать временные интервалы при сопоставлении (временная нормализация). Известно много способов согласования длительностей, которые сильно различаются по эффективности и объему вычислений. В некоторых допускаются пропуски элементов эталона, в некоторых разрешены пропуски элементов реализации, иногда накладывается ограничение на множество вариантов растяжения реализации и эталона, позволяющие учесть ограничения на вариации темпа произнесения слова.

Рассматривается линейное сопоставление как самый простой способ согласования длительностей эталонного элемента и распознаваемой реализации слова, в результате которого сигнал равномерно сжимается или растягивается до величины эталона. Главный недостаток этого метода заключается в том, что при удалении или добавлении новых элементов не учитывается их значимость в речевой последовательности, а это ведет к неадекватной сопоставимости двух речевых участков.

В настоящей работе использовался метод временного согласования на основе процедуры динамического программирования (алгоритм ДИВ). Алгоритм динамического искажения времени устраняет временные различия между двумя последовательностями речевых характеристик, искажая временную ось одной последовательности для максимального совпадения с другой.

Основным свойством алгоритма является небольшая ресурсоёмкость и полиномиальная зависимость требуемых вычислительных затрат от размера входных данных.

Проведен анализ свойств алгоритмов ДИВ. Для симметричного алгоритма ДИВ предложен оптимизированный алгоритм поиска минимального наименьшего маршрута. Рассмотрена реализация асимметричного алгоритма ДИВ, имеющего ряд преимуществ по сравнению с симметричным.

Предоставлена методология использования скрытых марковских моделей для реализации статистического подхода к моделированию распознавания диктора. Разработана перспективная архитектура системы верификации дикторов с использованием СММ. Показана возможность вычисления вероятности появления последовательности наблюдений в СММ. Рассмотрены алгоритмы обучения и распознавания СММ. Представлена общая функциональная диаграмма работы системы на этапах регистрации пользователя, обучения и верификации.

Рассмотрены основы построения нейронных сетей. Предложена структура НС для системы распознавания дикторов. В работе были использованы 2 структуры: полносвязные нейронные сети и нейронная сеть с локальными связями.

Показано что основной проблемой полносвязной сети является ее размер. Этот фактор становиться особенно важным в практической реализации, когда время обучения не может быть слишком долгим. Чем больше и сложнее структура НС, тем больше времени тратиться на ее обучение, и тем дольше проходит процесс верификации. Для уменьшения размера сети предлагается подход к построению архитектуры НС на основе использования слоистой структуры (НС с локальными связями). Общая структура такой сети выглядит следующим образом. Входной слой делится на независимые участки - каждый для определенного вектора характеристик. Каждый участок делится на перекрывающиеся зоны. Нейроны скрытого слоя также делятся на участки, соответствующие участкам входного слоя, а каждый нейрон определенного участка связан с одной зоной входного слоя того же самого участка. Следующий нейрон этого участка скрытого слоя связан со следующей зоной и т.д. Выходной слой состоит из одного нейрона, который связан со всеми нейронами скрытого слоя (рис. 4).

В главе показано преимущество слоистой структуры, состоящее в со-

кращении времени обучения НС.

Для обучения нейронной сети был использован наиболее приемлемый метод - алгоритм обучения на основе обратного распространения.

Рис. 4. слоистая сеть

Рассмотрен метод векторного квантования при решении задачи текстонезависи-мой идентификации.

Показано, что при построении кодовой книги необходимо, чтобы выбор кластера для очередного вектора признаков был осуществлен по минимуму меры искажения. Процесс идентификации по существующему набору кодовых книг (база данных дикторов) похож на процесс обучения. Из речи тестового диктора извлекается множество векторов признаков

Х = {х(|/ = 1.....Л}. Затем определяется, какой из кодовых книг в базе данных

лучше соответствует полученное множество кодовых векторов. База данных дикторов состоит из множества кодовых книг (эталонов) - В = {С,.....С^}, где

N - количество дикторов в базе данных, а С, = {с,,,.,.,^}- кодовая книга соответствующая ьму диктору (К - размер кодовой книги). Рассмотрена модификация алгоритма Ллойда, наиболее популярного алгоритма в задачах кластеризации и построения кодовой книги, позволившая существенно улучшить качество кодовых книг базы эталонов.

В четвертой главе рассматриваются основные теоретические модели устранения влияния шумового окружения при решении задач распознавания дикторов. Дана классификация помех при распознавании речевых сигналов. К основными подходами к решению задач устранения влияния помех на распознавание речевых сигналов можно отнести:

• методы оптимальной фильтрации;

• методы адаптивной фильтрации;

• методы подавления шумов с использованием вейвлет-преобразования.

Рассмотренный метод оптимальной фильтрации Винера, как один из

известных методов выделения сигналов на фоне аддитивных шумов, заключается в пропускании смеси сигнала и шума через фильтр, в котором шум подавляется, а сигнал практически не изменяется. Такой оптимальный фильтр является фильтром с постоянными параметрами, однако в большинстве практических приложений шумы являются нестационарными и для удаления этих шумов необходимо использоваться адаптивные фильтры.

Рассмотрены модели устранения шумов на основе вейвлет-преобразования. Дана общая структура алгоритма шумоочистки с использованием вейвлет-преобразования.

Предложена комплексная процедура устранения шумов, основанная на совместном использовании модели оптимальной фильтрации и вейвлет-преобразования.

В пятой главе рассмотрены результаты экспериментальных исследований, выполненных с использованием разработанного программного обеспечения.

На базе разработанного программного обеспечения были проведены эксперименты по распознаванию дикторов, а также исследования по распознаванию речевых сигналов в условиях помех. Основными целями этих экспериментов являлись:

• экспериментальная проверка работоспособности программных функциональных модулей, реализующих алгоритмы распознавания дикторов;

• сравнение эффективности использования различных методов распознавания дикторов;

• сравнение эффективности использования методов получения признакового описания сигнала;

• экспериментальный анализ эффективности использования совместной работы вейвлет-преобразования и метода оптимальной фильтрации для подавления шума.

Экспериментальные исследования проводились с использованием реальных и модельных сигналов с помощью разработанных автором программ. Полученные результаты подтвердили правильность представленных в работе теоретических моделей распознавания.

Проводились исследования методов верификации дикторов на основе использования нейронных сетей. Была разработана модель системы, этапы работы которой изображены на рис. 5.

рис. 5. Схема регистрации.

На рис. 5 показана схема регистрации нового пользователя в разработанной системе. При регистрации с микрофона записывается несколько (в данной работе 5) повторений речевого фрагмента (парольной фразы) клиен-

та.

рис. 6. Схема верификации.

На рис. 6 изображена схема верификации зарегистрированного клиента. Из поступившей записи извлекается полный набор характеристик. Из полного набора на основе модели клиента выбирается подмножество значимых характеристик, которое приводится к эталону модели клиента. Веса связей нейронной сети устанавливаются из модели клиента. Дальше нормализованная входная последовательность поступает на вход сети. Выходное значение НС сравнивается с порогом, и на основе этого сравнения принимается решение о пропуске или отклонении тестируемого диктора.

Исследовалась структура слоистой НС с фиксированным размером зон и заданным перекрытием во входном слое. Рассматривалась частота появления ошибок при изменении ширины зоны с максимальным перекрытием. Как показывают данные из таблицы 1, размер зоны входного слоя заметно влияет на результаты., Начиная с самой узкой зоны в два нейрона, при ее увеличении уменьшается количество ошибок системы и достигает своего минимума при 5 нейронах. Однако дальнейшее увеличение размера зоны не только не увеличивает эффективность верификации, но, как видно из таблицы 1, даже вносит большее количество ошибок.

Таблица 1

Ширина зоны / Ошибка Ошибка

перекрытие: пропуска, % отклонения, %

2/1 0.46 1.5

4/3 0.37 1.5

5/4 0.18 1.0

6/5 0.22 1.5

8/7 0.32 1.5

10/9 0.41 1.5

Сравнительные результаты работы системы верификации для полносвязной сети и слоистой сети приведены в таблице 2.

_Таблица 2

Тип сети Ошибка пропуска, % Ошибка отклонения, %

Полносвязная 0.32 3.0

Слоистая 0.46 1.5

Эти данные показывают, что слоистая сеть может работать не хуже полносвязной, давая при этом существенную экономию вычислительных затрат.

Проводились исследования методов параметризации речевых сигналов на основе алгоритма динамического искажения времени. Проводилось сравнение результатов для трех методов представления сигнала - с использованием спектральных признаков, коэффициентов линейного предсказания и кепстрального представления на основе Ме1-шкалы при решении задачи идентификации. Спектральное описание формировалось на основе банка фильтров в диапазоне 50-4500 гц, размерность вектора Ме1-кепстра 18. Для обоснования выбора размерности описания на основе коэффициентов линейного предсказания проводился предварительный эксперимент по идентификации сигналов по всей базе данных. На рис. 7.

Ошибка идентификации в % при использовании КПП

15

10

Нттт

Ш1111

8 10 12 14 15 18 Количество коэффицентов КПП РИС. 7.

приведены график зависимости ошибки идентификации от размерности вектора КЛП. С ростом размерности ошибка монотонно уменьшается, однако как показали эксперименты при размерности больше 12 начинают существенно возрастать вычислительные затраты. Учитывая этот фактор для дальнейших экспериментов была принята размерность вектора КЛП - 14.

Были также проведены исследование влияния параметров расчета Mel кепстральных коэффициентов на качество верификации при использовании алгоритмов ДИВ.

Результаты экспериментов по выбору наилучших характеристик были получены для НС, обученной только на 10 из всех 25 клиентов, и для каждого из этих 10 клиентов для обучения НС выбиралось не более 5 записей. При верификации же, использовались все записи всех доступных клиентов. Таким образом, системе предъявлялись записи злоумышленников, о которых она ничего не знала, что максимально приближает условия эксперимента к реальным условиям применения системы верификации.

Показано, что результаты для Mel БПФ КК не отличаются от Mel ЛП КК, в то время как обычный кепстр ЛП сильно им уступает.

Проводились исследования свойств алгоритмов динамического искажения времени (ДИВ). Было исследовано влияния параметра степени искажения ДИВ на качество верификации. По результатам тестирования получено, что наименьшая ошибка распознавания получается при степени искажения Р=3. Это значение использовалось как базовое для дальнейших исследований.

Проводились экспериментальные исследования верификации дикторов на основе использования скрытых марковских моделей. Для оценки эффективности системы верификации используется критерий принятия решения на основе введенного показателя корректности. Проведенный статистический анализ поведения показателя корректности позволил установить, что использование порога принятия решения менее 40 неприемлимо для надежной верификации так как дает слишком большое число ошибок пропуска злоумышленника.

Были исследованы методы уменьшения числа гипотез при работе алгоритма Витерби : лучевой поиск и оконный поиск. На основе проведенного статистического анализа сделан вывод о том, что оба метода: и лучевой и оконный поиск, дают приблизительно одни и те же результаты, не отличающиеся существенно друг от друга. Кроме того, из проведенного анализа видно, что лучевой поиск более предпочтителен при условии, что потери при пропуске злоумышленника выше потерь отказа клиенту. Соответственно, оконный поиск, требующий меньших вычислительных ресурсов, больше подходит в противном случае (такой случай возникает реже).

Проведено исследование топологии СММ. Топология модели должна быть определена перед реализацией процедуры верификации. В частности, следует определить число состояний и допустимые переходы. Число состояний фонемной СММ (СММ для одной фонемы) может быть адаптировано

используя характеристики отдельной фонемы. В то же время, экспериментальные результаты показывают, что установка числа состояний 3 для всех фонем приводит к лучшим результатам

При обучении изолированных фонем и последующей процедуры объединения производится накапливание информации о реализациях каждой фонемы (т.е. о гауссовских распределениях каждой реализации). Процедура обучения на уровне фонем производит слияние функций гауссовских распределения с наибольшими дисперсиями. Число таких гауссовских распределений может быть различным.

Исследование влияния числа итераций при обучении на качество верификации показывало, что (за исключением единичных случаев) чем больше число шагов обучения модели, тем точнее получаются результаты верификации, при этом наилучшие результаты получаются с использованием полносвязной модели, что подразумевает повышенную загрузку процессора на этапах обучения и распознавания.

Описаны результаты исследования идентификации дикторов на основе использования векторного квантования. Была проведена серия различных экспериментов. Одни из них относятся к анализу быстродействия предложенных алгоритмов и ее зависимости от их параметров. Другие - к точности идентификации в зависимости от параметров и особенностей тестовых фрагментов речи. Приводятся результаты этих экспериментов. Исследовались зависимости времени работы алгоритмов идентификации и построения кодовой книги от ее размера. Исследовалось время работы алгоритмов кластеризации и качество, построенной ими кодовой книги.

В качестве оценки качества кодовой книги используется среднеквадра-тическая ошибка (MSE). Строилась кодовая книга размера в 128 элементов по фрагменту речи. Результаты показывают, что с увеличением количества итераций алгоритма случайного локального поиска (RLS), качество кодовой книги улучшается, однако, время, требуемое на построение кодовой книги, возрастает пропорционально количеству итераций. Алгоритм Ллойда (GLA) работает значительно быстрее RLS, но и качество кодовой книги хуже. Приведены усредненные значения по нескольким экспериментам. Обычно в задачах распознавания время, требуемое на обучение системы, не является критичным, поэтому имеет смысл пользоваться алгоритмом RLS для получения более качественной кодовой книги.

Приводятся сравнительные результаты верификации, полученные в 3-х экспериментах для распознавания дикторов на основе единой базы данных с использованием нейронных сетей, алгоритма ДИВ с классификацией по минимуму расстояния и на основе СММ (Таблица 3). Для проведения экспериментов была взята база речевых данных из 15 дикторов. Для каждого диктора использовались 15 записей заданного текста - слово "распознавание". Для обучения использовались 5 записей и соответственно для распознавания 10 оставшихся записей. В качестве исходного описания использовался Ме1-кепстр, каждый сегмент описывался 18 отсчетами. Ниже приво-

дятся результаты тестирования трех программных систем. Протоколы испытаний приводятся в приложении 1.

Таблица 3. Сравнительные результаты работы различных программных систем___

Программа Ошибка отклонения % Ошибка пропуска %

Neuro-D 2.0 0.13

DWT-speech 2.0 0.26

НММ Person Verification 2.0 1.09

Сравнительный анализ всех результатов показал, что система на базе нейронных сетей показала наилучшие результаты. Необходимо отметить, что система верификации с использованием СММ обладает высокой потенциальной эффективностью, достигнуть которую можно при использовании расширенной русскоязычной речевой базы данных.

Было экспериментально исследовано влияние аддитивного гауссовско-го шума на эффективность работы системы верификации. Использовался шум с равномерным спектром (белый шум), как наиболее трудный с точки зрения его устранения. Рассмотрена модель системы верификации на основе эталонного метода с использованием ДИВ.

Для оценки степени влияния шума на сигнал использовалось отношение сигнал/помеха SNR в децибеллах, определяемое как:

SNR=201g (стУстп) , где стс - СКО полезного сигнала, оп - СКО шумовой помехи.

Экспериментально исследована двухэтапная процедура шумоочистки речевого сигнала на основе вейвлет-фильтрации и оптимальной фильтрации реконструированного сигнала. Исследование проводилось с использованием пакета программ Wavelet Toolbox, входящего в программную систему Mat-Lab 6.5. Для проведения экспериментов использовался программный модуль Wavemenu. При проведении экспериментов наилучшие результаты получены с использованием вейвлетов db3 с 5 уровнями разложения. Для улучшения качества шумоочистки, использовалась вторичная очистка на основе оптимальной фильтрации. Приведены примеры зашумленного речевого сигнала при различных значениях SNR и результаты шумоочистки на каждом из этапов - после вейвлет-фильтрации и оптимальной фильтрации. Экспериментально показана существенная эффективность двухэтапной процедуры подавления шумов на основе совместного использования вейвлет-фильтрации и оптимальной фильтрации.

В шестой главе приводится описание разработанного автором комплекса программ для автоматического распознавания дикторов: "Neuro-D" - программа для верификации дикторов на основе модели нейронной сети;

"DWT-speech" - программа для исследования моделей динамического искажения времени;

" НММ Person Verification" - программа для моделирования распознавания дикторов на основе использования скрытых марковских моделей; 'VC-recognition" - программная система для решения задач текстонезависи-мой идентификации дикторов;

Приведено описание структуры и пользовательских интерфейсов разработанного программного обеспечения.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Представленная диссертационная работа содержит результаты исследований по разработке моделей и методов распознавания дикторов.

Основные научные и практические результаты работы можно сформулировать следующим образом:

• Сформулированы основные задачи совершенствования систем распознавания дикторов. Предложено уделить основное внимание разработке текстозависимых систем распознавания дикторов на основе использования нейронных сетей и методов ДИВ.

• Предложен новый алгоритм для выделения границ фразы, отличающийся повышенной помехоустойчивостью.

• При проведении спектрального анализа предлагается использовать нелинейную частотную шкалу Мелла. Применение нелинейной шкалы позволяет согласовать результаты спектрального анализа с психофизиологическими характеристиками слухового аппарата человека. Показано преимущество описания речевого сигнала мел-кепстральными признаками перед остальными.

• Предложена структура системы верификации дикторов, использующей нейронную сеть со слоистой архитектурой.

• Разработана модель текстонезависимой системы идентификации с использованием модели векторного квантования, позволяющая существенно улучшить качество кодовых книг базы эталонов.

• Проведен анализ свойств алгоритмов ДИВ. Для симметричного алгоритма ДИВ предложен оптимизированный алгоритм поиска минимального наименьшего маршрута. Рассмотрена реализация асимметричного алгоритма ДИВ, имеющего ряд преимуществ по сравнению с симметричным.

• Предложена процедура верификации дикторов в условиях шумового окружения основанная на совместном использования оптимальной фильтрации и вейвлет-преобразования для подавления шумов.

• Разработана структура системы верификации дикторов на основе скрытых марковских моделей.

• Разработан комплекс программ для исследования разработанных моделей распознавания дикторов.

Разработанные модели распознавания могут быть использованы для создания различных практических приложений связанных с распознаванием

дикторов. Дальнейшие исследования в этой области могут быть направлены

на создание эффективных текстонезависимых систем распознавания дикторов.

По теме диссертации опубликованы следующие работы:

1. Хайдер А.С. Сравнение методов параметризация речевых сигналов при решении задачи распознавания дикторов. // Известия СПбГЭТУ "ЛЭТИ", серия "Информатика, управление и компьютерные технологии" вып.1, 2004, с. 36-42.

2. Мишенин В.Н., Хайдер А.С. Алгоритмы векторного квантования в задаче автоматического распознавания диктора по голосу// Труды 6-ой международной конференции "Распознавание образов и анализ изображений: новые информационные технологии" (РОАИ-6-2002), Великий Новгород, 21 по 26 октября 2002г., с. 374-377.

3. Mishenin V.N., Haider A.S. Vector quantization algorithms in automatic speaker recognition (Автоматическое распознавание дикторов с использованием алгоритмов векторного квантования)// Pattern Recognition and Image Analysis, Vol. 13 No. 1,2003, pp 49-50.

4. Mishenin V.N., Haider A.S. Vector quantization algorithms in automatic speaker recognition (Автоматическое распознавание дикторов с использованием алгоритмов векторного квантования )// Pattern Recognition and Image Analysis, Vol. 13 No. 3,2003, pp 465-469.

5. Мишенин В.Н., Хайдер А.С. Проблемы создания систем автоматического распознавания диктора по голосу// Санкт-Петербург, 58-я научно-техническая конференция НТО РЭС им. А.С Попова, 2003г., с. 40-44

6. Геппенер В.В., Хайдер А.С. Система верификации дикторов на основе использования нейронной сети// V международная научно-техническая конференция"Распознавание-2003", Курск, 22-25 октября 2003 г.в 2-х ч., 4.1, с. 103-105.

7. Геппенер В.В., Хайдер А.С. Сравнительное исследование эффективности различных описаний речевых сигналов в задаче верификации дикторов// Труды 11-й Всероссийской конференции "Математические методы распознавания образов" (ММРО-11), Москва, 23-29 ноября 2003 г., с.275-278.

8. Геппенер В.В., Хайдер А.С, Шлягин СМ. Экспериментальное исследование нейронных сетей в задаче верификации дикторов. //Международная конференция по мягким вычислениям и измерениям (SCM'2004'): Сборник докл., С.-Петербург. 17-19 июня 2004/ изд. СПБГЭТУ "ЛЭТИ", СПБ, в 2-х т., T.I, C286-289.

9. Геппенер В.В., Хайдер А.С. Методы принятия решений в задачах распознавания дикторов// Материалы 59-ой научно-технической конференции СПбНТО РЭС им. А.С Попова, изд-во СПбГЭТУ "ЛЭТИ", 2004г., с. 2526.

Подписано в печать 07.10.2004. Формат 60x84/16. Отпечатано с готового оригинал-макета в типографии ЗАО «КопиСервис». Печать ризографическая. Заказ № 1/710. П. л. 1.0. Уч.-изд. 1.0. Тираж 100 экз.

ЗАО «КопиСервис», 194017, Санкт-Петербург, Скобелевский пр., д. 16

Тел.:(812)234 4333

#19 2 9 0

РНБ Русский фонд

2 0 0S-4 1б343

Оглавление автор диссертации — кандидата технических наук Адель Саллам Мохамед Хайдер

ВВЕДЕНИЕ.

ГЛАВА 1. Обзор методов и систем распознавания дикторов.

1.1. Классификация систем определения индивидуальности говорящего по речи.

1.1.1. Идентификация и верификация.

1.1.2. Групповая идентификация.

1.1.3. Текстозависимые и текстонезависимые распознавание.

1.1.4. Автоматические и экспертные системы.

1.2. Научная сторона проблемы.

1.2.1. Различительные признаки.

1.2.2. Способы описания речевого сообщения в целом.

1.2.3. Проблема эталона и его обновление.

1.2.4. Решающие правила.

1.2.5. Шумы, помехи, искажения.

1.3. Критерии эффективности систем верификации.

1.4. Обзор современных программных продуктов.

1.4.1. CAVE.

1.4.2. PICASSO.

1.4.3. CV-UCP.

1.4.4. SpeakEZ.

1.5. Основные проблемы создания систем распознавания дикторов.

1.6. Выводы.

ГЛАВА 2. Методы построения признаковых описаний в задаче автоматического распознавания дикторов.

2.1. Ввод речи и ее цифровое представление.

2.2. Предварительная обработка и выделение первичных признаков.

2.2.1. Дискретное преобразование Фурье.

2.2.2. Цифровые фильтры.

2.2.3. Использование оконных функций.

2.3. Нормализация уровня сигнала.

2.4. Выделение границ фразы.

2.5. Методы получения признакового описания сигнала.

2.5.1. Спектральные методы.

2.5.2. Коэффициенты линейного предсказания.

2.5.3. Кепстральное описание.

2.6. Выделение наиболее информативных характеристик.

2.6.1. Последовательный прямой поиск (ППП).

2.6.2. Последовательный обратный поиск (ПОП).

2.7. Выводы.

ГЛАВА 3. Основные математические модели принятия решений в задачах распознавания дикторов.

3.1. Системы распознавания дикторов, основанные на сопоставлении с эталонами.

3.2. Мера сходства речевого сигнала с эталоном.

3.2.1. Статистический подход.

3.2.2. Некоторые меры сходства.

3.3. Линейное выравнивание времени.

3.4. Алгоритм динамического искажения времени(ДИВ).

3.4.1. Описание алгоритма ДИВ.

3.4.2. Принцип оптимизации Беллмана и Динамическое программирование.

3.4.3. Симметричный алгоритм ДИВ.

3.4.4. Алгоритм поиска глобального наименьшего маршрута.

3.4.5. Ассиметричный алгоритм ДИВ.

3.5. Скрытые марковские модели.

3.5.1. Статистическое распознавание речи.

3.5.2. Структура системы распознавания СММ.

3.5.3. Вычисление вероятности появления последовательности наблюдений в СММ.

3.5.4. Обучение СММ.

3.5.5. Распознавание при помощи СММ.

3.5.6. Архитектура системы распознавания дикторов на основе СММ.

3.6. Нейронные сети.

3.6.1. Алгоритм обратного распространения ошибки.

3.6.2. Алгоритм обучения RProp.

3.6.3. Полносвязная нейронная сеть.

3.6.4. Нейронная сеть с локальными связями.

3.7. Векторное квантование и построение кодовой книги при решении задач текстонезависимой верификации/идентификации.

3.7.1. Меры искажения.

3.7.2. Алгоритмы построения эталона.

3.7.3. Идентификация по кодовой книге.

3.8. Выводы.

ГЛАВА 4. Модели устранения влияния шумового окружения в задачах распознавания дикторов.

4.1. Классификация помех в речевом канале.

4.2. Методы оптимальной фильтрации в задаче подавления стационарных шумовых помех.

4.3. Спектральное вычитание.

4.3.1. Метод.

4.3.2. Описание алгоритма.

4.4. Методы адаптивной фильтрации в задаче шумоочистки речевых сигналов.

4.5. Wavelet-преобразование в задаче шумоочистки речевых сигналов.

4.5.1. Использование дискретного вейвлет-преобразования для подавления шумов в речевом сигнале.

4.5.2. Совместное использование вейвлет-преобразования и оптимальной фильтрации.

4.6. Выводы.

ГЛАВА 5. Экспериментальные исследования.

5.1. Цели и задачи экспериментов.

5.2. Исследование методов верификации дикторов на основе использования нейронных сетей.

5.2.1. Общая схема разработанной системы верификации для НС.

5.2.2. Выбор речевых характеристик.

5.2.3. Выделение наиболее информативных фарактеристик.

5.2.4. Исследование структуры НС.

5.2.5. Исследование влияния размера входного слоя НС.

5.3. Исследование свойств алгоритмов динамического искажения времени (ДИВ).

5.3.1. Выбор метрики расстояния.

5.3.2. Исследование влияния параметра степени искажения

ДИВ на качество верификации.

5.3.3. Исследование методов параметризации речевых сигналов на основе алгоритма динамического искажения времени.

5.4. Экспериментальное исследование верификации дикторов на основе использования скрытых марковских моделей (СММ).

5.4.1. Выходные параметры системы " НММ Person Verification".

5.4.2. Оценка эффективности системы верификации критерий принятия решения в системе " НММ Person Verification ".

5.4.3. Исследование методов уменьшения числа гипотез при работе алгоритма Витерби.

5.4.4. Выбор топологии СММ.

5.4.5. Исследование влияния числа итераций при обучении на качество верификации.

5.5. Результаты исследования идентификации дикторов на основе использования векторного квантования (ВК).

5.5.1. Исследование зависимости времени работы алгоритмов идентификации и построения кодовой книги от ее размера.

5.6. Сравнительные результаты тестирования различных систем верификации дикторов.

5.7 . Исследование влияния шумовых помех на эффективность распознавания дикторов.

5.8. Выводы.

ГЛАВА 6. Разработка программного обеспечения для решения задач распознавания дикторов.

6.1. "Neuro-D" - программа для верификации дикторов на основе модели нейронной сети.

6.2. "DWT-speech" - программа для исследования моделей динамического искажения времени.

6.3. " НММ Person Verification" - программа для моделирования распознавания дикторов на основе использования скрытых марковских моделей.

6.4. Реализация системы "VC - recognition" для автоматической идентификации диктора на основе векторного квантования.

6.4.1. Особенности реализации.

6.4.2. Пользовательский интерфейс.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Адель Саллам Мохамед Хайдер