автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов

кандидата технических наук
Юрков, Павел Юрьевич
город
Таганрог
год
2006
специальность ВАК РФ
05.13.19
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов»

Автореферат диссертации по теме "Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов"

На правах рукописи

/

Юрков Павел Юрьевнч

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ И СРЕДСТВ ГОЛОСОВОЙ АУТЕНТИФИКАЦИИ С ДИНАМИЧЕСКИ ИЗМЕНЯЕМЫМ МНОЖЕСТВОМ КЛЮЧЕВЫХ СЛОВ.

С не цнальности:

05.13.19 - Методы и системы защиты информации,

информационная безопасность 05.13.17- Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Таганрог - 2006

Работа выполнена в Таганрогском государственном радиотехническом университете на кафедре «Безопасности информационных технологий»

ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ: доктор технических наук, профессор Дворянкин СергеЛ Владимирович,

(Московский государственный технический университет им, Н.Э. Баумана, г. Москва)

доктор технических наук, профессор Липок Виктор Игнатьевич,

(Таганрогский государственный радиотехнический университет', г. Таганрог)

ВЕДУЩАЯ ОРГАНИЗАЦИЯ; Институт информатики и проблем регионального управления КБНЦ РАН, г. Нальчик.

Защита диссертации состоится декабря 2006 г. в 14.00 на заседании диссертационного совета ДМ 212.259.06 по техническим наукам Таганрогского государственного радиотехнического университета по адресу:

347928, Ростовская область, г. Таганрог, ул. Чехова, 2, аул. И-425

Отзывы на автореферат просьба направлять по адресу: 347928, Ростовская область, г. Таганрог, пер. Некрасовский, 44, Таганрогский государственный радиотехнический университет, Ученому секретарю диссертационного совета ДМ 212.259,06 Галуеву Г.А.

С диссертацией можно ознакомиться в библиотеке Таганрогского государственного радиотехнического универм

НУЧНЫЙ РУКОВОДИТЕЛЬ:

1 • доктор технических наук, профессор Бабенко Людмила Климентьевна

Ученый секретарь диссертационного сове доктор технических на с.н.с.

347922, Ростовская об;

Автореферат разослан

Галуев Г.А.

\

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Системы автоматической аутентификации и идентификации личности по биометрическим параметрам являются одним из активно развивающихся направлений современной науки ц. техники. Особое место среди них занимают системы, основанные на голосовых биометрических признаках, т.к. в данном случае для проведения аутентификации не требуется непосредственного контакта пользователя с аппаратурой. Поэтому системы аутентификации по голосу применимы там, где использование других методов практически невозможно, например, для предоставления удаленного доступа к услугам и данным по телефонным каналам или через Internet.

Однако широкое применение биометрических систем влечет за собой повышенный интерес со стороны злоумышленников, направленный на разработку атак по их взлому. Наиболее часто применяемой является гер1ау-атака, суть которой заключается в том, что в систему передаются биометрические признаки, предъявленные ранее, например, силиконовый муляж пальца или магнитофонная запись парольной фразы. Таким образом, разработку систем биометрической аутентификации / идентификации необходимо вести с учетом защиты их от этих атак.

Одной из перспективных с точки зрения защиты от гер!ау-атак может быть система аутентификации, основанная на предъявлении случайно сформированной последовательности ключевых слов из словаря фиксированного размера. Тогда задачи, решаемые такой системой, можно разделить на две части. Первая —собственно решение задачи голосовой аутентификации, при этом разрабатываемый метод должен быть контекстно-независимым. Вторая заключается в решении задачи распознавания изолированных слов независимо от голоса диктора. При этом в системе предусматривается возможность смены всех ключевых слов.

Для повышения качества распознавания предлагается разработать новые методы описания речевого сигнала в пространстве признаков, позволяющие наиболее эффективно распознавать речевой сигнал независимо от голоса диктора. С другой стороны, необходимо найти методы, позволяющие выделять индивидуальные особенности говорящего. Кроме того, предлагается разработать новые решающие правила, которые дают лучшие результаты распознавания ло сравнению с существующими методами и являются комбинацией нейро-сетевых методов и методов нечеткой логики.

Целью диссертационной работы является разработка и исследование методов и средств формирования признаков речевых сигналов, распознавания фонем и слов, предназначенных для построения безопасных систем аутентификации по голосу, а также определение оптимизированных параметров процедуры аутентификации для понижения уровня равновероятной ошибки.

В соответствии с поставленной целью необходимо решить следующие задачи:

- выработать требования и разработать структуру системы аутентификации, эффективно решающей задачу распознавания голоса диктора и затрудняющей проведение replay-атаки;

-разработать модель речевосприятия,на основе методов вейвлет-анализа с целью формирования информативных векторов речевых признаков для решения задачи распознавания изолированных слов независимо от голоса диктора;

- разработать метод распознавания фонем, основанный на комбинации нечетких и нейросегевых принципов классификации с использованием информации об акустической классификации звуков для решения задачи распознавания изолированных слов;

- разработать эталонную модель и метод распознавания изолированных слов, позволяющих выполнять распознавание без процедуры обучения;

- разработать подсистему текста независимой аутентификации голоса и провести экспериментальные исследования для нахождения оптимизированных параметров векторов

биометрических признаков и размеров нейронной сети (НС), позволяющих понизить процент равновероятной ошибки при решении задачи аутентификации.

Объектом исследования диссертации являются системы аутентификации по голосу, речевой сигнал и модель представления слова. Исследования проводятся на предмет усовершенствования методов формирования векторов признаков речевого сигнала и эффективного решения задачи распознавания изолированных слов с возможностью быстрой смены словаря с целью построения безопасных систем аутентификации и понижения уровня равновероятной ошибки при решении задачи распознавания голоса диктора.

Методы исследования. В работе использованы основные положения теории цифровой обработки сигналов, спектрального анализа, теории цифровой фильтрации и вейвлет-анализа, основы теорий речеобразования и физиологии восприятия речи человеком, а также методы распознавания образов, а именно, аппарата искусственных нейронных сеггей и теории нечеткой логики. При программной реализации системы распознавания использовались методы структурного и объектно-ориентированного программирования.

Научная новизна работы заключается в сочетании усовершенствованных методов распознавания голоса диктора и разработанных новых методах обработки и распознавай ия-слов, базирующихся на взйвлет-анализе, нейро-нечетком распознавании фонем и методах формирования шаблона эталонного слова без этапа обучения, что в результате позволяет разрабатывать безопасные системы аутентификации, затрудняющие проведение replay-агакн, и понижает процент равновероятной ошибки при решении задачи распознавания голоса диктора.

Практическая значимость работы состоит в следующем.

Разработанные методы и программы можно использовать при построении безопасных систем текстонезависимой биометрической аутентификации голоса пользователя различного назначения, например, для предоставления удаленного доступа к ресурсам и услугам по телефонным каналам или Internet

Основные научные результаты, выносимые на защиту.

1.Выработаны требования и разработана структура системы аутентификации, состоящая из текстонезависимой подсистемы аутентификации голоса и дикторонезависимой подсистемы контроля ключевых слов и затрудняющая проведение гер!ау-атаки,

2. Разработана новая математическая модель системы речевое приятия на основе методов вейвлет-анализа и базирующийся на ней метод формирования векторов речевых признаков. Полученная модель имеет компактное и простое математическое представление, что позволяет быстро перенастраивать ее под требования решаемой задачи. Благодаря объединению вейвлет-функций с функцией компенсации громкости впервые появилась возможность получения модели первичной обработки сигнала в системе речевое приятия в виде единого преобразования. За счет использования нейронных сетей с узким горлом, использующих нелинейные активационные функции, впервые получены компактные векторы признаков, основанные на модели системы речевосприягия, которые сохраняют информацию как о частотных, так и о временных составляющих речевого сигнала, что является более информативным при распознавании по сравнению с традиционными методами.

3.Разработан метод распознавания фонем, основанный на сочетании нейросетевых методов и методов нечеткого вывода, который обеспечивает более качественное распознавание фонем по сравнению с чисто нейросетевым. При этом благодаря использованию акустической классификации звуков получена возможность разделения множества фонем по дихотомическому принципу, что уменьшает сложность разделяющей гиперплоскости пространства признаков и как следствие повышает точность распознавания, уменьшает размер и время обучения нейронных сетей,

4. Разработаны эталонная модель и метод распознавания слов, основанные на методах нечеткой логики и нечеткого динамического программирования, которые позволяют выпол-

нять распознавание, минуя процедуру обучения, и как следствие обеспечивают возможность оперативкой смены рабочего словаря в системе аутентификации, что затрудняет проведение гер!ау-атаки, так как уменьшает имеющееся у злоумышленника время для формирования набора ключевых слов.

5. Экспериментальным путем получены оптимизированные параметры векторов биометрических признаков и размеров нейронной сети, позволяющие существенно понизить процент равновероятной ошибки до 1.3% при решении задачи аутентификации.

Реализация результатов работы.

Материалы диссертационной работы были использованы в следующих работах:

- в х/д НИР №16107 - «Разработка инженерно-технических решений по защите от НСД к аппаратным средствам, программам н данным рабочей станции» использованы методы, алгоритмы и программы текстонезависстмой аутентификации пользователя по голосу;

- в г/б НИР №г.р. 16153 «Разработка и исследование нейросетевых методов распознавания речи как интеллектуальных средств современных образовательных систем, шифр "Фонема"» использованы методы, модели и программы подсистемы контроля ключевых слов;

- методы и программы текстонезависимой аутентификации пользователя по голосу использованы в лабораторном стенде по изучению методов и систем биометрической аутентификации курса "Программно-аппаратная защита информации" кафедры БИТ.

Использование результатов диссертационной работы подтверждено актами внедрения.

Апробация работы. Основные научные результаты работы докладывались и обсуждались:

- на Всероссийской научно-технической конференции с международным участием «Компьютерные технологии в инженерной и управленческой деятельности», Таганрог, 1999;

- на втором научно-практическом семинаре "Информационная безопасность — Юг России", Таганрог, 2000;

- на ХЬУ! и Х1ЛХ научно-технических конференциях профессорско-преподавательского состава, аспирантов и сотрудников ТРТУ, Таганрог, 2001,2003 годов;

- на международных научно-практических конференциях "Информационная безопасность", Таганрог, 2001,2002, 2003, 2004 годов;

- на X Всероссийской научно-практической конференции «Проблемы информационной безопасности в системе высшей школы», МИФИ, Москва, 2003;

- на международной научной конференции "Моделирование устойчивого регионального развития", Нальчик, 2005.

Публикации. По результатам диссертационной работы опубликовано 13 печатных работ ИЗ них 7 тезисов докладов н 6 статей; 4 работы опубликованы в журнале "Известия ТРТУ" и 1 в журнале "Нейрокомпьютеры. Разработка, применение", входящих в перечень, рекомендованный ВАК РФ для публикации результатов диссертационных работ.

Структура и объем работы. Диссертационная работа содержит введение, 4 раздела и заключение общим объемом 140 страниц. В работе приведены графический материал в объеме 39 рисунков, 59 формул, 3 таблицы. Библиографический список состоит из 109 наименований.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность разработки систем аутентификации, защищенных от возможных атак злоумышленников, формулируются цели работы, решаемые в ней задачи, определяются научная новизна и практическая ценность выносимых на защиту результатов.

В первом разделе диссертации проводится аналитический обзор существующих систем аутентификации по голосу.

Классическая структура системы аутентификаций представлена на рис. 1. Основное отличие между используемыми в настоящее время системами аутентификации заключается в степени их зависимости от парольной фразы, С этой точки зрения существуют системы

аутентификации, основанные на одной парольной фразе, множестве парольных фраз, множестве ключевых слов. База данных (БД) биометрических эталонов в таких системах содержит модели представления диктора, которые отражают как распределение биометрических векторов в пространстве признаков, так и порядок их следования. Использующиеся при этом алгоритмы сравнения основаны либо на методах динамического программирования (Dynamic Time Warping- DTW), либо на методах скрытых Марковских моделей (Hidden Markov Models- НММ). Таким образом, модели представления диктора в данном случае являются текстозавнсимымн, а для смены парольной фразы пользователю необходимо заново проходить процедуру обучения. Отметим, однако, что в системах третьего типа могут быть использованы текстонезависимые модели, основанные на моделях гауссовых смесей (Gauss Mixed Models - GMM) или на искусственных нейронных сетях. При использовании таких моделей в структуру системы аутентификации добавляется еще один модуль, задача которого состоит в контроле правильности произнесенной фразы.

Анализ возможных действий злоумышленника по преодолению систем биометрической аутентификации позволяет выявить следующие 8 типов атак (рис. 1): обман системы с помощью муляжа; воспроизведение ранее сохраненных биометрических параметров; замена модуля формирования векторов признаков; перехват и замена сформированных векторов признаков, в случае если модуль формирования векторов признаков и модуль сравнения разделены; изменение модуля сравнения векторов признаков; изменение базы эталонных признаков; атака на канал передачи эталонных признаков; изменение модуля принятия решения. Для систем аутентификации по голосу атаки первого и второго типа можно объединить, т.к.' по сути они ничем не отличаются (разница заключается в способе их проведения). Эти атаки в дальнейшем будем называть replay-атаками.

Как правило, системы аутентификации по голосу используются для удаленного доступа к ресурсам и услугам. В соответствии с зтим система делится па две части клиентскую, предназначенную для считывания биометрических параметров, и серверную, выполняющую собственно процедуру аутентификации. Если серверная часть надежно защищена, то атаки 3-8 выполнить невозможно, т.к. для зтого требуется доступ к программному обеспечению. Соответственно наиболее опасными для систем голосовой аутентификации являются атаки первого и второго типа, т.е. гер1ау-атаки.

Системы аутентификации первого типа являются наименее устойчивой к replay-агаке, т.к. для ее проведения злоумышленнику требуется записать всего одну фразу, а затем воспроизвести. При проведении гер1ау-атаки для систем второго и третьего типов злоумышленнику нужно сформировать базу с записями парольных фраз (или ключевых слов), а также иметь специализированное устройство, позволяющее быстро найти и воспроизвести требус-

Рисуно* 1. Структур! сктеыы биометрической «укнтификакт: строками указаны испмаАкыв нагфАЬЛекня итак ъ-юумыш-кгкмнк»

б

мую запись. Т.к. в силу используемых моделей представления диктора в данных системах редко производится смена парольных фраз (ключевых слов), то у злоумышленника есть неограниченный запас времени для формирования соответствующей базы записей. Также в этих системах используются небольшие по объему множества парольных фраз (ключевых слов), что позволяет злоумышленнику с одной стороны быстро сформировать все множество записей, а с другой - легко находить и воспроизводить требуемую запись при осуществлении гер]ау-атаки,

Следовательно, для того, чтобы максимально затруднить (в идеале — предотвратить) возможность проведения злоумышленником гер]ау-атакн, необходимо выполнение следующих требований:

1,Уменьшить время использования множества ключевых слов. Данное требование необходимо для того, чтобы отнять у злоумышленника основное преимущество - неограниченный запас времени для записи всего ключевого множества. Частота смены множества ключевых слов зависит от интенсивности использования пользователем системы аутентификации. Идеальным вариантом было бы использование новой последовательности слов при каждом входе в систему.

2. Увеличить объем множества ключевых. Данное требование связано с тем, чтобы увеличить время, затрачиваемое злоумышленником на формирование базы записей ключевых слов и максимально затруднить возможность выполнения гер1ау-атаки.

Исходя из перечисленных выше требований, разрабатываемая система аутентификации должна обладать следующими свойствами:

1. Осуществлять аутентификацию голоса диктора независимо от произносимой им последовательности слов.

1.Контролировать правильность произнесения заданных слов.

3.Обеспечивать возможность быстрой смены всего множества ключевых слов без привлечения пользователей системы.

Структура системы аутентификации, предлагаемая автором и удовлетворяющая перечисленным выше требованиям и свойствам, представлена на рисунке 2. Основу данной системы составляют подсистема контроля ключевых слов, в которой независимо от голоса диктора осуществляется проверка правильности произнесенных слов, и текстонезависимая подсистема аутентификации диктора.

Подсистема контроля ключевых слов состоит из: модуля цифровой обработки сигнала (ЦОС), акустико-фонетнческого модуля, предназначенного для распознавания фонем,

модуля распознавания слов и модуля принятия решения.

В диссертации были рассмотрены основные модели представления слов и принято решение использовать модель, описывающую полностью все слово, потому что данная модель обладает высоким по сравнению с другими процентом распознавания и наиболее подходит для систем с небольшой базой слов.

Предложенная структура подсистемы контроля ключевых слов обладает рядом преимуществ. Во-первых, использование акусгико-фонетического модуля дает возможность анализировать фрагменты рече-

Рнсунок 2. Структура системы аутентификации, устойчивой к

вого сигнала в терминах естественного языка. Во-вторых, использование промежуточного пространства векторов признаков позволяет отделить модуль ЦОС от модуля распознавания слов, что дает возможность разработки и усовершенствования данных модулей не зависимо друг от друга. Й-третьих, использование фонетических векторов признаков в качестве входных для модуля распознавания слов позволит разработать модель слова, в которой можно миновать этап обучения при формировании эталона.

Для обеспечения возможности быстрой смены множества ключевых слов подсистема аутентификации диктора должна использовать текстонезависимую модель представления диктора.

В заключении раздела подводятся итоги и делается постановка задач, решение которых необходимо для успешной реализации системы аутентификации.

Во втором разделе диссертации представлена разработка модуля ЦОС, предназначенного для формирования векторов речевых признаков в подсистеме контроля ключевых слов. На сегодняшний момент при решении задач обработки и распознавания речи используется две модели представления речевого сигнала: на основе моделирования системы рече-образования и на основе моделирования системы речевосприятия.

Векторы признаков, полученные на основе модели речеобразования, несут информацию о параметрах фильтра речевого тракта диктора. Поскольку форма и строение речевого тракта у каждого человека строго индивидуальны, то данные модели в основном применимы при решении задач аутентификации / идентификации.

Использование модели системы речевосприятия позволяет получить векторы признаков, которые содержат как спектральную, так и временную информацию, что намного информативнее. Однако существующие модели громоздки, медленно работают, а получаемые при этом данные являются информативными, но в тоже время и чрезмерно избыточными, что не позволяет их широко использовать. Несмотря на наличие изложенных выше недостатков, предлагается в модуле ЦОС использовать модель речевосприятия, смягчив недостатки следующим образом. В качестве модели базилярной мембраны предлагается использовать методы вей влет-анализа. При этом также необходимо найти метод сжатия полученных данных без потери информативности.

Модель системы речевосприятия работает в три этапа На первом этапе осуществляется моделирование преобразований во внешнем, среднем и внутреннем ухе. На втором -моделирование спектральных преобразований в улитке на базилярной мембране. На третьем этапе — моделирование преобразований смещения базилярной мембраны в нервные импульсы в органе Корти.

Преобразование сигнала в системе наружного, среднего, внутреннего уха можно представить как каскад фильтров, суммирующее воздействие которых аналогично следующему выражению:

,<*) = 3.64 -3.3?). О)

+ 0 001 * Ы>00 У

Смысл этого преобразования заключается в том, что человеческий слух воспринимает сигналы с различной частотой и равной амплитудой как сигналы с различным уровнем громкости. С цепью отражения данных преобразований в разрабатываемую модель была введена функция ус(х), компенсирующая громкость сигнала на разных частотных составляющих. Данная функция является обратной по отношению к функции у(х) в выражении (1).,

Второй этап моделирует процессы, происходящие на базилярной мембране, суть которых заключается в том, что различные частотные составляющие входного сигнала вызывают смещение различных участков'тела базилярной мембраны. Следовательно, модель базилярной мембраны можно представить в виде совокупности полосовых фильтров с низкой

добротностью, при этом разрешающая способность по частоте оказывается наилучшей на низких частотах, а по времени - на высоких.

Исходя из анализа механизмов работы базилярной мембраны, предлагается в качестве се математической модели использовать вей влет-преобразование. При этом в качестве базисной функции использовать вейвлет Морле, поскольку частотно-временные характеристики данной функции аналогичны характеристикам базилярной мембраны.

Одним из важных моментов при формировании модели базилярной мембраны с помощью вейв лет-функций является подстройка материнской функции под известные параметры. Рассмотрим выражение (2).

Scale = ЛТ, к = 1 : 0.25 : 6.5 . (2)

Здесь j = V- 1 , х имеет смысл времени, Scale- масштаб вейвлет-фуншии. Наибольший интерес представляют параметры /с к fb, определяющие центральную частоту и полосу пропускания материнской вейвлет-функции. Изменяя значения данных параметров, можно настроить материнскую вейвлет-функцию на требуемые характеристики. В результате было получено семейство из 23-х функций, частотные характеристики которых были близки по своим значениям к характеристикам критических полосок слуха по Цвикеру, Таким образом, использование вейвлет-преобразования позволяет раскрыть основное функциональное назначение модели базилярной мембраны — нелинейное изменение значений центральной частоты и размера полосы пропускания при увеличении частоты.

Поскольку вейвлет-преобразованне вычисляется в частотной области, то возможно объединение вей влет-функций с функцией ус(х), компенсирующей громкость сигнала во внешнем, среднем и внутреннем ухе. Для этого на каждом масштабе вычисляется центральная частота, затем в соответствии с функцией у^х) находится масштабный коэффициент и умножается на фурье-преобразованне вейвлет-функции. Результирующее семейство вэйв-лст-функций представлено на рисунке 3.

Третий этап моделирует преобразования сигнала в органе Кортн, в котором возникает поток нервных импульсов, вызванных механическими колебаниями мембраны при движении в одном направлении. Причем частота импульсов пропорциональна колебаниям мембраны. Поэтому упрощенно модель преобразований в органе Корти можно представить в виде функции выпрямления периодического колебания (Half Wave Rectification):

Рисунок 3. Банк взНалст-функций для моделирования базилярной мембраны а) исходная последовательность, б) после компенсации уровня громкости.

О, если

л , если

I > О х 5 О

(3)

где х — действительная часть вей влет-преобразования, те!.....23 - номер соответствующего

масштаба. Моделированием преобразований в органе Корти завершается формирование модели системы речевосприятия.

Прн формировании векторов речевых признаков, полученные на 23-х масштабах последовательности нервных импульсов разбивались на пересекающиеся кадры длиной 256 отсчетов с шагом 128. Для получения инвариантных к сдвигу векторов признаков на каждом масштабе внутри кадра вычислялась автокорреляционная функция. Поскольку существует связь между автокорреляционной функцией и энергетическим спектром сигнала, то два сигнала, имеющие одинаковые амплитудные спектры, но разную фазу, будут иметь одинаковую автокорреляционную функцию, что косвенно позволяет сохранить информацию о временных характеристиках сигнала. Для сжатия динамического диапазона над автокорреляционной функцией выполнялось логарифмирование. В результате был получен вектор признаков размерностью 5888 точек, что чрезмерно избыточно. Однако, используя свойство симметричности автокорреляционной функции, исходный размер входного вектора речевых при* знаков можно уменьшить почти в два раза до 2967 точек. Отметим также, что автокорреляционная функция, особенно на низкочастотных интервалах, представляет собой медленно меняющийся периодический сигнал, который можно представить меньшим числом точек. С згой целью предлагается использовать нейронные сети с узким горлом, которые представляют собой многослойный персептрок с одним скрытым слоем. При этом количество нейронов выходного слоя совпадает с размерностью входных данных, а число нейронов скрытого слоя много меньше входного. Нейронная сеть обучается восстановлению входных данных. Таким образом, в скрытом слое осуществляется сжатие данных, а в выходном — восстановление. В штатном режиме работы используется только скрытый слой. В зависимости от масштаба использовалось от 4-х до 64-х нейронов скрытого слоя, а размерность вектора речевых признаков удалось сократить до 350 точек, т.е. более чем в 8 раз.

Таким образом, были разработаны новая математическая модель системы речевосприятия и метод формирования векторов речевых признаков, которые в сжатом виде содержат информацию как о частотных, так и о временных характеристиках речевого сигнала и позволяют осуществлять распознавание слов инвариантно к голосу диктора.

В третьем разделе диссертации представлена разработка методов распознавания фонем, эталонной модели и методов распознавания слов, позволяющих выполнять распознавание без процедуры обучения, для модулей подсистемы контроля ключевых слов.

Задача распознавания фонем заключается в том, что обучающейся системе необходимо найти отношение между множеством векторов речевых признаков И7^^/, ..., \тц}> где Т- размерность вектора, и множеством фонем а* .... а^}. Т.е. необходимо найти

границы, разделяющие Г-мерное пространство векторов речевых признаков у1^ ¡"¡..И, на М-классов, соответствующие фонемам а^ /..А/.

Суть метода состоит в использовании дополнительного множества признаков Р={р$, каждый из которых разбивает множество векторов речевых признаков У* по дихотомическому признаку на 2 класса. В один класс попадают фонемы, которые имеют данный признак, а во второй фонемы, не имеющие данный признак. При этом Ъ<М. Каждый признак рассматривается как логический, а заключение о принадлежности вектора речевых признаков V/ к фонеме йу выполняется на основании разработанной системы правил.

В качестве множества признаков Р принято решение использовать акустическую классификацию звуков, т.к. она содержит девять признаков и позволяет описывать как гласные, так и согласные звуки. Для простаты реализации системы в это множество признаков был добавлен еще один: шум/не шум - отсутствие или наличие речевого сигнала в канале.

Описание классов фонем на языке данных признаков осуществляется в форме логических соотношений между признакам ни классами как это показано в выражении (4).

[а]= -.конеона!ггный & вокальный & -|Высокий &

■ (4)

компактный & -пбемольный

Мерой сходства в разрабатываемом методе распознавания фонем был выбран аппарат искусственных нейронных сетей. Поскольку при реализации модели формального нейрона в диссертации используется сигмоидальная функция, значения которой лежат в интервале (0, 1), то ответы нейронной сети можно интерпретировать как "степень уверенности"-качественную характеристику того насколько уверенно можно отнести объект к данному классу. Такая интерпретация понятий "истина" и "ложь4 соответствует задачам, использующим методы нечеткой логики. Таким образом, предлагается интерпретировать выходы нейронных сетей в виде нечетких степеней прммдлежности признаков акустической классификации звуков, а алгоритм распознавания фонем строить на основе правил нечеткого вывода.

При разработке метола распознавания фонем в систему правил нечеткого вывода была введена лингвистическая переменная <р, Т. X, Сг, М>, описывающую входные данные. В данном случае Р "Входной речевой вектор4; Т — базовое терм-множество, состоящее из нечетких переменных <а, X, А>, имена которых соответствуют признакам акустической классификации звуков. Областью определения X нечетких переменных является многомерное пространство векторов речевых признаков. При этом функция, описывающая степень принадлежности речевых векторов из А'к соответствующей нечеткой переменной, формируется на этапе обучения нейронной сети.

Необходимо отметить, что классический способ вычисления логической связки "И" в данном случае не подходит, т.к. не отражает в полной мере ее смысловую нагрузку. Поэтому в диссертации предлагается использовать нестандартную функцию, которая эквивалентна вычислению геометрического среднего;

к* - м, • <5>

где д - степень принадлежности к соответствующей нечеткой переменной а, ■

Выходным параметром алгоритма распознавания фонем является вектор О - элементами которого являются значения степени истинности нечет-

кой высказывательной переменной следующего вила:

(/,="Анализируемый вектор есть фонема (6)

где ¡=1..3б,А', 'О', 'У',...}- множество классов фонем. Степень истинности высказывательной переменной (б) изменяется каждый раз при поступлении на вход алгоритма распознавания нового вектора речевых признаков и зависит от значений нечетких переменных из базового терм-множества лингвистической переменной р.

База правил системы нечеткого вывоза представляет собой множество правил продукций вида ЕСЛИ "Р есть а" ТО с!„ которые отражают взаимосвязь между входной лингвистической переменной Р и множеством высказывательных переменных вида (б). Например, для фонемы [А] правило нечеткой продукции выглядит следующим образом: ПРАВИЛО <#>: ЕСЛИ "Д есть НЕ«, И о, И НЕ а, И о, К НЕ а," ТО

"Анализируемый вектор есть фонема [А}". (7)

Таким образом, была сформирована база из 36 нечетких нечетких продукций, аналогичных выражению (7) и полностью описывающих множество классов распознаваемых фонем.

При разработке метода распознавания слов, необходимо решить две задачи. Первая заключается в разработке метода формирования шаблона эталонного слова согласно вы-

бранной в первом разделе модели слова. Вторая — в разработке метода сравнения входного слова с шаблоном.

Пусть на вход подсистемы контроля ключевых слов подается речевой сигнал, соответствующий слову "ноль". Предположим, что на выходе акустико-фонетического модуля была получена последовательность фонетических векторов. Тогда имеется возможность анализа степеней принадлежности всех тридцати шести фонем. Поведение во времени степени принадлежности для группы согласных фонем [н], [л'] и для фонемы {О] показано на рнсунке 4.

«> 1,_____ 6)

Рисунок 4. Поведение степени принадлежности а) к фонемам [н], [л'] и б) к фонеме [о] на всем протяжении слова "ноль".

Как видно из рисунка, степень принадлежности в начале фонемы возрастает, затем достигает определенного максимума в середине и убывает в конке, что объясняется эффектами коартикуляиии, т.е. движениями органов рсчсобраэования. Поэтому предлагается представить модель слова в виде набора нечетких функций, которые будут Отражать поведение во времени степени принадлежности каждой фонемы в слове, например, как это показано на рисунке 5. При этом функция, использующаяся в эталонном слове, имеет следующий вид:

' /[(*;л(>с|)- всли /1<*;а,,с,) < ГЛх\аг,сг) > если /2(*;л15Сз) < /,(*;«,, с,)

где /¡(х-.а^сЦ и представляют со-

Дх.а ^с^а^с^; =

*

И I

/ \ / X / \

/ \ / Ч / \

/ \ \ / \

V 1

к

/ \ / \

/ \ / 4

Рисунок 5. Пример построения функций степеней принадлежности фонем для эталонного слова "ноль".

бой сигмоидальные функции, <з;>0, ^<0-параметры, определяющие наклон функций, с)<сг смещение, х=],2,...,п- номера векторов в эталонном слове. Таким образом, с помощью набора простых функций можно описать поведение степени принадлежности каждой фонемы в эталонном слове.

Для определения степени схожести входного и эталонного слов используются методы нечеткого динамического программирования, которые основаны на наблюдении, что оптимальный путь к точке (¡, ,0 в двумерной матрице должен проходить либо через точки (¡-1, Л (И, .¡-1), (¡, ^-1), либо

через точки (¡, .¡-1), <¡-1, (¡-2, _)-!}. Возможные варианты выбора оптимального пути полностью зависят от решаемой задачи. Общий оптимальный путь к точке (¡, з) с использованием правил нечеткой логики определяется следующим соотношением:

D(iJ) = &(/■"(!, _/),max(D)),

(9)

где функция эквивалентности, определяющая соответствие между параметрами эта-

лонной модели слова в момент / и неизвестным входным словом в момент }\ тах(0)- функция выбора оптимального из трех возможных путей.

В качестве функции эквивалентности Р(Ц) предлагается использовать функцию эквивалентности по площади:

Здесь в выражении <10) значение степени принадлежности к-й фонемы в эта-

лонном слове в момент времени /, значение степени принадлежности к-й фонемы во

входном слове в момент времени j. Процедура рекурсивно вычисляет расстояние столбец за столбцом, чтобы определить оптимальное общее расстояние из начальной точки в конечную, Операция нечеткой конъюнкции вычисляется в соответствии с выражением (5),

В диссертации было разработано два метода формирования шаблона эталонного слова. Первый основан на процедуре обучения. Для этого требуется наличие размеченной базы данных слов, где каждому звуковому файлу поставлен в соответствие текстовый файл, в котором перечислены фонемы, входящие в состав слова, а так же указаны их начало и конец. На первом этапе процедуры обучения определяется длина эталонного слова L в кадрах по 256 отсчетов с шагом 128. Далее определяется длина и центр каждой фонемы, после чего вычисляются параметры с, н с2, определяющие вид функции принадлежности в выражении (8). Данная процедура выполняется для каждого слова, при этом необходимо, чтобы в обучении участвовало как можно большее количество дикторов.

Второй вариант метода формирования модели слова основывается на свойствах алгоритма DTW, Поскольку, в ограничениях алгоритма указывается, что при нахождении оптимального пути должен участвовать каждый кадр входного речевого сигнала, то, соответственно, входная последовательность кадров является фиксированной, а все остальные операции выполняются относительно эталона. Тогда все переходы из одного состояния в другое можно интерпретировать следующим образом. При переходе из состояния (i-I j-1) в состояние (ij) время развивается одинаково как в эталонном слове, так и во входном. При горизонтальном переходе из состояния (¡j-1) в состояние (ij) происходи остановка времени в эталонном слове, в результате чего эталонное слово растягивается. При вертикальном переходе из состояния (¡-1 j) в состояние (¡j) или при переходе из состояния (j-2j-l) в состояние (ij), т.е. при пропуске фрейма эталона, происходит ускорение времени в эталонном слове, в результате чего эталонное слово сжимается. Таким образом, оптимальный путь находится путем операций сжатия и растяжения эталонной последовательности слова. Поэтому, предлагается вычислять значения с/ и с;, исходя из предположения, что длительности всех фонем в слове равны друг другу, а длина эталонного слова L равна длине входного слова. В результате этого достигается возможности формирования эталонных моделей слов без этапа обучения.

В экспериментах по распознаванию слов участвовало 52 диктора. Каждый диктор произносил слова из рабочего словаря объемом 45 слов по четыре раза. Таким образом, было надиктовано в общей сложности 9360 слов по 208 раз каждое. В обучении нейронных сетей, определяющих признаки для нейро-нечеткого метода распознавания фонем, участвовало 12 дикторов.

Эксперименты проводились по двум параметрам. Первый параметр заключался в различных вариантах выбора оптимального пути ma*(D) в выражении (9). Второй - в формировании шаблона эталонного слова с использованием процедуры обучения или без нее. Результаты экспериментов представлены в таблице 1.

F a,j) = 1

Z I"- <*> - M* <А>|

(10)

Оптимальный путь 1 Оптимальный путь 2

Эталонная модель по метолу 1 92.3% 92.5%

Эталонная модель по методу 2 88.9% 89.1%

Из таблицы 1 следует, что результаты распознавания при использовании шаблона слова по методу 2 на 3% ниже, что не намного хуже, чем при использовании метода 1. Это позволяет выполнять распознавание, минуя процедуру обучения.

Таким образом, в результате была разработана подсистема контроля ключевых слов, которая имеет возможность быстрой смены рабочего словаря.

В четвертом разделе диссертации проведена разработка текстонезависимой подсистемы аутентификации голоса пользователя и экспериментальные исследования параметров распознавания.

Для формирования векторов биометрических признаков была выбрала математическая модель представления сигнала на основе кепстральных КПП коэффициентов, т.к. получаемые с ее помощью признаки дают наименьшее перекрытие с признаками других дикторов, а также низкую вариативность внутри множества признаков своего диктора. В качестве математической модели представления диктора был выбран аппарат искусственных нейронных сетей.

В экспериментах по аутентификации диктора использовались те же данные, что и в экспериментах по распознаванию слов. Из 52 дикторов было отобрано 10 для обучения нейронных сетей и тестирования подсистемы аутентификации. Голоса остальных 42 дикторов использовались для оиенкм реакции подсистемы на потенциального злоумышленника. В качестве показателя качества подсистемы использовался уровень равновероятной ошибки (EER). Эксперименты проводились с целью исследования трех параметров: длины кадра (256, 512, 768 и 1024 отсчетов) и количества кепстральных КЛП коэффициентов (12-30 с шагом 2) при формировании вектора признаков, а также количества нейронов в скрытом слое (15-60 с шагом 15). НС обучались на одной сессии, состоящей из 45 слов. Для оценки реакции системы на голос "своего" диктора было сформировано 117 размером 15 слов с максимальным перекрытием между любыми двумя выборками не выше 5 слов. При тестировании НС на голос незарегистрированного пользователя было сформировано 504 теста.

При обработке результатов весь диапазон ответов НС разбивался иа 10 равных интервалов. Далее для каждого диктора оценивалась средняя частота попадания ответов НС в

каждый из 10 интервалов, после чего данные усреднялись по всем дикторам. Анализ результатов показал следующее.

При увеличении числа кепстральных КЛП коэффициентов происходит смещение вправо наиболее вероятного значения ответа НС в F RR тесте. При этом также незначительно смешаются влево ответы НС в FAR тесте. Т.е. при увеличении размерности пространства признаков улучшается качество распознавания, что в результате даст уменьшение значения EER ошибки, см. рис. 6.

Увеличение длины кадра при формировании векторов признаков также вызывает сдвиг вправо наиболее вероятных значений ответов ИС в PRR тесте. При этом наблюдается незначительный сдвиг вправо ответов НС в FAR тесте и увеличение значения

Î i Î : CCM.......U....:..,;,. ....ï.....,.ï.......

M \ l

\\\ ; \ ; t ;1 wt :

\S Y' 1

\ " HX'VÎ.......!..... .............^______

.......i .^SiLisSfe1.1^ f j

! j -Ч*"-

Рисунок 6. Зависимость EÉR ошибки при изменении числа кеплврдыгых КЛП доэффивдентов и числа нейронов в енритом слое.

аргумента ЕЕИ ошибки на оси абсцисс. Это можно объяснить тем, что при увеличении длины кадра уменьшается число векторов признаков в обучающей выборке, следовательно, НС не хватает данных для формирования разделяющих гиперплоскостей. Дальнейшее увеличение длины кадра резко ухудшит теетонезависимые свойства системы, т.к. в данном случае кадр может содержать фрагменты нескольких фонем.

Количество нейронов в скрытом слое также оказывает влияние на обобщающие способности НС, особенно при малом количестве кепстральных КЛП коэффициентов. При этом существует некоторый минимум значения ЕЕИ ошибки при числе кепстральных КЛП коэффициентов, находящихся в интервале от 26 до 29. Дальнейшее увеличение числа коэффициентов увеличивает значение ЕЕК ошибки. При 15 нейронах разделяющие способности сети ниже, чем при 30 и 45. Это говорит о недостаточном количестве нейронов и плохих разделяющих способностях полученных НС. Однако при 60 нейронах обобщающие способности НС также уменьшаются. Это вызвано эффектом переобуй енностн- НС дает хорошие результаты только на обучающей выборке.

Таким образом, в результаты экспериментов были получены следующие параметры, позволяющие эффективно решать задачу аутентификации при минимальной ЕЕК ошибке, равной 1.3%: длина кадра для формирования векторов биометрических признаков 1024 отсчета, число кепстральных КЛП коэффициентов в векторе признаков 28, количество нейронов в скрытом слое 45. Из литературных источников следует, что полученные данные значительно лучше аналогичных тексгонезависимых систем аутентификации, где уровень ошибки ЕЕК колеблется от 4-5% до 11%.

В заключении работы подводятся итоги н делаются выводы об основных научных результатах, достигнутых в данной работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

В соответствии с поставленными целями и задачами, в результате проведенных исследований и разработок были получены следующие результаты.

1. Проведен анализ систем аутентификации по голосу, рассмотрены основные типы атак, и показано, что наиболее легко реализуемой является гер(ау-атака. Выработаны требования к системе аутентификации, способной затруднить (в идеале - предотвратить) возможность проведения данной атаки. Разработана структура системы аутентификации, удовлетворяющая разработанным требованиям.

2. Разработана новая математическая модель системы речевоспрнятия на основе методов вэйвлет-анализа, отличающаяся простотой реализации и возможностью быстрой адаптации под решаемую задачу за счет изменения шага масштабирования. Благодаря объединению вэйвлет-функций с функцией компенсации громкости на разных частотах впервые появилась возможность получения модели первичной обработки сигнала в системе речевосприятня в виде единого преобразования. Разработанный на основе данной модели метод формирования векторов речевых признаков за счет использования нейронных сетей с узким горлом позволяет получать компактные векторы признаков, которые в сжатом виде содержат информацию как о.частотных, так и о временных характеристиках речевого сигнала, что намного информативнее стандартных методов, содержащих только частотные характеристики.

3. Разработан нейро-нечеткий метод распознавания фонем, который позволяет за счет использования НС выполнять процедуру фаззификации над многомерными векторами речевых признаков. Использование дихотомических признаков акустической классификации звуков позволяет более точно распознавать речевой сигнал, а также анализировать полученные результаты в виде терминов естественного языка за счет применения алгоритмов нечеткого вывода.

4. Разработаны алгоритм распознавания, эталонная модель и методы формирования шаблона слова, которые позволяют выполнять распознавание без этапа обучения за счет использования нечетких функций и методов нечеткого динамического программирования. Разрабо-

тайные средства позволяют создавать подсистемы контроля ключевых слов с возможностью быстрой смены всего множества слов. Благодаря этому система аутентификации диктора, основанная на данной подсистеме, удовлетворяет выработанным требованиям безопасности и способна затруднить или предотвратить возможность проведения repJay-атаки, 5. Проведены экспериментальные исследования с целью выбора параметров распознавания для эффективного решения задачи аутентификации диктора. В результате удалось получить стабильные биометрические признаки, определить характеристики НС, обладающей лучшими обобщающими способностями, и достичь уровня EER ошибки, равного 1.3%, что лучше аналогичных текстонезависимых систем аутентификации.

По теме диссертационной работы опубликованы 13 работ, из которых можно выделять следующие:

1. Юрков П.Ю., Бабенко JI.K., Федоров В.М. Неросетевое распознавание фонем с использованием вейвлет-преобразования, — Сборник трудов второго научно-практического семинара "Информационная безопасность- Юг Росс и". Таганрог, 2000. с. 128-130.

2. Юрков П.Ю., Бабенко Л,К., Федоров В.М. Применение вейвлет-преобразования для предобработки речевых сигналов в системе распознавания речи.- Известия ТРТУ. Специальный выпуск "Материалы XLVI научно-технической конференции",- Таганрог: ТРТУ, 2001. №1(19).

3. Юрков П.Ю., Бабенко J1.K., Федоров В.М. Распознавание фонем русского языка с помощью нейронных сетей на основе вейвлет-преобразования.— Научно-технический журнал "Нейрокомпьютеры. Разработка, применение".- №7-8,2001.

4. Юрков П.Ю. Система биометрической аутентификации пользователя по голосу с использованием нейронных сетей,- Известия ТРТУ,- Таганрог: ТРТУ, 2003. №4,- с. 149-151.

5. Макаревич O.E., Бабенко Л.К., Федоров В.М., Юрков П.Ю. Текстонезависимая аутентификация / идентификация по голосу в системах управления доступом.— X Всероссийская научно-практическая конференция "Проблемы информационной безопасности в системе высшей школы",- М: МИФИ, 2003. с. 28-29.

6. Юрков П.Ю., Бабенко Л.К., Федоров В.М. Метод формирования векторов признаков на основе акустической модели речевосприятия с использованием вейвлет-преобразования для системы распознавания речи,— Материалы VI Международной научно-практической конференции "Информационная безопасность",- Таганрог: ТРТУ, 2004.

7. Бабенко Л.К., Федоров В.М., Юрков П.Ю. Аутентификация диктора с использованием изменяемого множества ключевых слов,- Известия ТРТУ. Специальный выпуск "Материалы научной конференции ТРТУ".- Таганрог: ТРТУ, 2004, № 1,

8. Юрков П.Ю. Нейро-нечеткий алгоритм распознавания фонем.— Материалы международной научной конференции "Моделирование устойчивого регионального развития",— Нальчик, 2005. с. 225-227,

9. Юрков П.Ю. Анализ распознавания слой с использованием методов нечеткого динамического программирования. "Искусственный интеллект".— ISSN 1561-5359,2005. №4. с, 669676.

Личный вклад автора в работах, написанных в соавторстве, состоит в следующем: [1.2,3]- разработка алгоритмов обработки речевых сигналов с помощью вейвлет-преобразования и алгоритма распознавания фонем, [4,5,7]- разработка алгоритмов аутентификации пользователя по голосу, [6]- разработка модели речевосприятия с использованием методов вейвлет-анализа.

Тип.ТРТУ Заказ fWäfmp. 120экз.

Оглавление автор диссертации — кандидата технических наук Юрков, Павел Юрьевич

ВВЕДЕНИЕ.

1. АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ БИОМЕТРИЧЕСКОЙ АУТЕНТИФИКАЦИИ ПО ГОЛОСУ И РАЗРАБОТКА СИСТЕМЫ, ЗАТРУДНЯЮЩЕЙ ПРОВЕДЕНИЕ REPLAY-АТАКИ, С ИСПОЛЬЗОВАНИЕМ ИЗМЕНЯЕМОГО МНОЖЕСТВА КЛЮЧЕВЫХ СЛОВ.

1.1 Классификация существующих биометрических сис1ем распознавания пользователя по голосу.

1.2 Анализ возможных атак злоумышленника на биометрические системы аутентификации.

1.3 Выбор сгруктуры системы аутентификации но юлосу, затрудняющей проведение гер1ау-атаки.

1.4 Определение состава сис1емы биомегрической аутентификации по голосу с использованием изменяемого множества ключевых слов.

1.5 Выводы.

2. РАЗРАБОТКА МОДЕЛИ РЕЧЕВОСПРИЯТИЯ С ИСПОЛЬЗОВАНИЕМ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ И МЕТОДОВ ФОРМИРОВАНИЯ ВЕКТОРОВ РЕЧЕВЫХ ПРИЗНАКОВ.

2.1. Обоснование выбора модели представления речевого сигнала.

2.2. Использование непрерывного веивлеч-преобразования для обработки речевых сигналов.

2.3. Разработка модели речевосприяшя на основе вейвлеыфеобразования.

2.4. Разработка метода формирования речевых векторов признаков.

2.5. Выводы.

3. РАЗРАБОТКА МЕТОДОВ РАСПОЗНАВАНИЯ ФОНЕМ И СЛОВ ДЛЯ ПОДСИСТЕМЫ КОНТРОЛЯ КЛЮЧЕВЫХ СЛОВ.

3.1. Разработка метода распознавания фонем для акусшко-фонаического модуля

3.2. Разработка метода распознавания слов.

3.3. Результаты экспериментов.

3.4. Выводы.

4. РАЗРАБОТКА ТЕКСТОНЕЗАВИСИМОЙ ПОДСИСТЕМЫ АУIЕН ГИФИКАЦИИ ДИКТОРА И ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ПАРАМЕТРОВ РАСПОЗНАВАНИЯ.

4.1. Выбор математической модели представления речевою сшнала для подсистемы аутентификации диктора.

4.2. Выбор модели предствления диктора для решения задачи аутентификации диктора.

4.3. Экспериментальные исследования эффективных параметров распознавания для решения задачи аутентификации голоса диктора.

4.4. Выводы.

ЗАКЛЮЧЕНИИ.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Юрков, Павел Юрьевич

Актуальность темы.

Сиаемы автоматической аутентификации и идентификации личносш по биометрическим параметрам в последнее время являю 1ся бурно развивающейся отраслью. Широкое применение данных систем обусловлено тем, что биометрические признаки уникальны для каждого человека и, как считалось до последнего времени, не отчуждаемы от владельца, т.е. в отличие от ключа, смар1-карт, брел ков и пр. их невозможно украсть. Однако широкое применение шких систем влечет за собой повышенный интерес со с троны злоумышленников, направленный на разработку атак по их взлому. Наиболее часю применяемой является гер1ау-атака, суть которой заключается в том, что в сис1ему передаются биометрические признаки, предъявленные ранее. Например, системы, основанные на сканировании отпечатков пальцев, можно обойти, предъявив силиконовый муляж, а для голосовых систем, предъявив магнитофонную запись парольной фразы. Таким образом, разработку систем биометрической аутентификации/идентификации необходимо вести с учетом защиты их от этих атак.

Особое место среди систем биометрической аутентификации занимают системы, основанные на юлосовых биометрических признаках. Досюинсшо их заключается, прежде всего, в том, что для проведения аутентификации не требуется непосредственного контакта пользователя с аппаратурой. Поэтому данные системы применимы там, где использование других методов практически невозможно, например, для предоставления удаленного доступа к базам данных, банковским счетм, вычислительным системам, системам дистанционного обучения по 1елефонным каналам или через Internet.

В настоящее время в области распознавания речи веде1ся интенсивный поиск новых методов описания речевого сигнала в пространстве признаков. Разрабатываются методы, позволяющие наиболее эффективно распознавать речевой сигнал независимо от голоса диктора, с друюй стороны ведется поиск методов, позволяющих выделять индивидуальные особенности говорящего. Кроме того, разрабатываю 1ся новые решающие правила, дающие лучшие результаты, чем используемые в настоящее время. Как правило, основаны они на статистических методах или выполняются на основе аппарата искусственных нейронных сетей.

По мнению автора, перспективной с точки зрения защиты от гер1ау-атак может быть система аутентификации, основанная на предъявлении случайно сформированной последовательности ключевых слов из словаря фиксированного размера. Тогда задачи, решаемые шкой системой, можно разделить на две части. •

Первая - собственно решение задачи голосовой аутентификации, при этом разрабатываемый метод должен быть коптексшо-независимым. Вторая заключается в решении задачи распознавания изолированных слов независимо от голоса диктора. При этом в системе предусматривается возможность смены всех ключевых слов.

Для повышения качества распознавания предлагается pajpa6oiaib систему правил, являющихся комбинацией нейросетевых методов и методов нечеткой логики. Необходимо отметить, что методы нечеткой лотики представляюi собой мощный инструмент распознавания и позволяют формировать решающие правила в наиболее удобной для понимания человеком форме.

Разработке новых методов обработки и распознавания речевых сигналов при аутешификации посвящена данная работа.

Цели и задачи работы.

Целью диссертационной работы является разработка и исследование методов и средств формирования признаков речевых сигналов, распознавания фонем и слов, предназначенных для построения безопасных систем аутентификации по голосу, а так же определение оптимизированных параметров процедуры аутентификации для понижения уровня равновероятной ошибки.

В соответствии с поставленной целью необходимо решить следующие задачи:

- выработать требования и pa3pa6oiaib структуру системы аутешификации, эффективно решающей задачу распознавания голоса диктора и затрудняющей проведение гер1ау-агаки;

- разработать модель речевосприятия на основе меюдов вейвлет-анализа с целью формирования информативных векторов речевых признаков для решения задачи распознавания изолированных слов независимо oi юлоса диктора;

- разработать метод распознавания фонем, основанный на комбинации нечетких и нейросетевых принципов классификации с использованием информации об акустической классификации звуков для решения задачи распознавания изолированных слов; разработать эталонную модель и метод распознавания изолированных слов, позволяющих выполняв распознавание без процедуры обучения; разработть подсистему тексюнезависимой аутентификации голоса и провести экспериментальные исследования для нахождения ошимизированных параметров векторов биометрических признаков и размеров нейронной сети (НС), позволяющих понизить процент равновероятной ошибки при решении задачи аутентификации.

Объект исследования.

Объектом исследования диссергации являются системы аутентификации по голосу, речевой сигнал и модель представления слова. Исследования проводя 1ся на предмет усовершенствования методов формирования векторов признаков речевою сигнала и эффективною решения задачи распознавания изолированных слов с возможностью быстрой смены словаря с целью построения безопасных сиаем аутентификации и понижения уровня равновероятной ошибки при решении задачи распознавания голоса диктора.

Методы исследования.

В работе использованы основные положения 1еории цифровой обработки сигналов, спектрального анализа, теории цифровой фильтрации и вейвлет-анализа, основы теорий речеобразования и физиологии восприяшя речи человеком, а также методы распознавания образов, а именно, аппарата искусственных нейронных сетей и теории нечеткой логики. При программной реализации системы распознавания использовались методы структурного и объектно-ориентированною про1раммировапия.

Научная новизна работы заключается в сочетании усовершенствованных методов распознавания голоса диктора и разработанных новых методах обработки и распознавания слов, базирующихся на вейвлет-анализе, нейро-нечетком распознавании фонем и методах формирования шаблона эталонного слова без этапа обучения, что в результате позволяет разрабатывать безопасные системы аутентификации, затрудняющие проведение тер1ау-атаки, и понижает процент равновероятной ошибки при решении задачи распознавания голоса диктора.

Основные научные результаты:

1. Выработаны требования и разработана структура системы аутентификации, состоящая из подсистемы текстонезависимой аутентификации голоса и дикторонезависимой подсистемы контроля ключевых слов и затрудняющая проведение гер1ау-атаки.

2. Разработана новая математическая модель системы речевосприятия на основе методов вейвлет-анализа и базирующийся на ней метод формирования векторов речевых признаков. Полученная модель имеег компактное и простое математическое представление, что позволяет быстро перенастраивать ее под требования решаемой задачи. Благодаря объединению вейвлет-функций с функцией компенсации громкоеiи впервые появилась возможность получения модели первичной обработки сигнала в системе речевосприятия в виде единого преобразования. За счет использования нейронных сетей с узким горлом, использующих нелинейные активационные функции, впервые получены компактные векторы признаков, основанные на модели системы речевосприятия, которые сохраняют информацию как о частотных, так и о временных составляющих речевого сигнала, что является более информа1ивным при распознавании по сравнению с традиционными методами.

3. Разработан метод распознавания фонем, основанный на сочетании нейросетевых методов и алгоритмов нечеткого вывода. Разработанный метод обеспечивает более качественное распознавание фонем по сравнению с чисю нейросетевым. При этом благодаря использованию акустической классификации звуков получена возможность разделения множества фонем по дихотомическому принципу, что уменьшает сложность разделяющей гиперплоскости пространства признаков и как следствие повышает точность распознавания; уменьшает размер и время обучения нейронных сетей.

4. Разработаны эталонная модель и меюд распознавания слов, основанные на методах нечеткой логики и нечеткого динамического программирования, которые позволяют выполнять распознавание, минуя процедуру обучения, и как следствие обеспечивают возможность оперативной смены рабочего словаря в системе аутентификации, что затрудняет проведение гер1ау-атаки, г.к. уменьшает имеющееся у злоумышленника время для формирования базы ключевых слов.

5. Экспериментальным путем получены оптимальные параметры векторов биометрических признаков и размеров нейронной сети, позволяющие существенно понизить процент равновероятной ошибки до 1.3% при решении задачи ау1ешификации.

Практическая значимость работы состоит в следующем.

Разрабо1анные методы и программы можно использовав при построении безопасных систем текстонезависимой биометрической аутентификации голоса пользователя различного назначения, например, для предоставления удаленного доступа к ресурсам и услугам по телефонным каналам или Internet

На защиту выносятся следующие результаты:

- требования, предъявляемые к структуре и ре1ламенгу работы систем биометрической аутентификации пользователя по голосу, позволяющие максимально затруднить злоумышленнику возможность проведения гер1ау-атак;

- модель речевосприятия на основе методов вейвлет-анализа и меюд формирования векторов речевых признаков для распознавания фонем, основанный на данной модели;

- пейро-нечеткий метод распознавания фонем;

- методы формирования эталонной модели слова и распознавания изолированных слов, основанные на методах нечеткой jioihkh и нечеткого динамического программирования;

- полученные экспериментальным путем параметры формирования векторов биомегрических признаков и нейронных сетей, позволяющие существенно снизить процент равновероятной ошибки.

Реализация результатов работы.

Материалы диссертационной работы были использованы в следующих работх:

- вх/д НИР №16107 - «Разработка инженерно-технических решений но защше 01 ПСД к аппаратным средствам, программам и данным рабочей станции» использованы методы, алгоришы и программы 1екстонезависимой аутентификации пользователя по голосу;

- в г/б НИР №г.р. 16153 «Разработка и исследование нейросетевых методов распознавания речи как интеллектуальных средств современных образовательных систем, шифр "Фонема"» использованы методы, модели и программы подсистемы контроля ключевых слов;

- меюды и про1раммы текстопезависимой аутентификации пользователя по голосу использованы в лабораюрном стенде по изучению методов и систем биометрической аутентификации курса "Программно-аппаратная защита информации", читаемого на кафедре БИТ.

Использование результатов диссертационной работы подтверждено актами внедрения, которые приводятся в приложениях.

Апробация работы.

Основные научные результаты работы докладывались и обсуждались:

- на Всероссийской научно-технической конференции с международным участием «Компьютерные технологи в инженерной и управленческой деятельности», Таганрог, 1999;

- на втором научно-практическом семинаре "Информационная безопасность - Юг России", Таганрог, 2000;

- на XLVI научно-технической конференции профессорско-преподавательского состава, аспирантов и сотрудников 'ГРТУ, TaiaHpor, 2001;

- на научно-практической конференции "Информационная безопасность", Таганрог, 2001;

- на научно-практической конференции "Информационная безопасность", Таганрог, 2002;

- па X Всероссийская научно-пракшческая конференция «Проблемы информационной безопасности в системе высшей школы», Москва, 2003;

- па XLIX научно-технической и научно-методической конференции профессорско-преподавательского состава, аспирантов и сотрудников ТРТУ, Таганрог, 2003;

- на V международной конференции "Информационная безопасность", Таганрог, 2003;

- на VI Международной научно-практической конференции "Информационная безопасность", Таганрог, 2004;

- на международной научной конференции "Моделирование устойчивого регионального развития", Пальчик, 2005.

Публикации.

По резулыатам диссертационной работы опубликовано 13 печатных работ из них 7 тезисов докладов и 6 статей; 4 работы опубликованы в журнале "Известия ТРТУ" и 1 в журнале "Нейрокомпьютеры. Разработка, применение", входящих в перечень, рекомендованный ВАК РФ для публикации резулыаюв диссертационных работ.

Структура и объем работы.

Диссертационная работа содержит введение, 4 раздела и заключение общим объемом 140 страниц. В pa6oie приведены: 1рафический материал в объеме 39 рисунков, 59 формул, 3 таблицы. Библиографический список состоит из 109 наименований.

Заключение диссертация на тему "Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов"

4.4. Выводы

В главе проведена разработка текстонезависимой подсистемы аутентификации голоса диктора. С этой целью был осуществлен выбор математической модели представления речевого сигнала и модели представления диктора и проведены экспериментальные исследования параметров данных моделей для эффективного решения задачи распознавания.

При выборе математической модели представления речевого сигнала на основе системы речеобразования были рассмотрены три модели: кепстральные коэффициенты на основе преобразования Фурье, коэффициенты линейного предсказания (КЛП), кепстарльные коэффициенты на основе КЛП. Показано, что кепстральные КЛП коэффициенты являются наилучшим выбором, т.к. они дают меньшее перекрытие с признаками других дикторов, а также низкую вариативность внугри множества признаков одного и того же диктора и, при этом, менее чем другие методы чувствительны к изменению фоновых шумов.

При выборе текстонезависимых моделей преде гавления диктора были рассмотрены модели гауссовых смесей (GMM) и нейросетевые модели. Выбор был сделан в пользу нейросетевых моделей, т.к. последние требуют меньших затрат памяти, чем модели GMM; позволяют в автоматическом режиме формировать разделяющие гиперплоскости; благодаря использованию нелинейных активационных функций и при наличии достаточного количества скрытых слоев они позволяют формировать области решений более сложной формы, чем при использовании методов GMM.

Результаты проведенных экспериментов по выбору параметров распознавания для эффективного решения задачи аутентификации позволяют сделать следующие выводы:

1. При увеличении длины кадра и размерности вектора признаков (т.е. числа коэффициентов) при формировании биометрических векторов признаков наблюдается смещение вправо наиболее вероятного значения ответов нейронной сети при FRR тесте и незначительное смещение влево при FAR тесте, что приводит к уменьшению уровня равновероятной ошибки, EER. Это объясняется тем, что коэффициенты более высоких порядков (с 16-го и выше) несут в себе информацию об индивидуальных особенностях голоса диктора, а увеличение длины кадра уменьшает вариативность значений внутри пространства признаков диктора.

2. Исследования зависимости качества работы сети от числа нейронов в скрытом слое показывают следующее. При 15 нейронах значение EER ошибки, как правило, выше, чем при 30 и 45. Это говорит о недостаточном их количестве и плохих разделяющих способностях полученных сетей. Дальнейшие исследования показывают, что разделяющие способности сетей с числом нейронов в скрытом слое от 30 до 45 приблизительно равны, при этом, увеличение числа нейронов в скрытом слое до 60 приводит к эффекту переобученности.

Таким образом, лучшими параметрами, позволяющими эффективно решать задачу аутентификации при минимальной EER ошибке 1.3%, являются следующие: длина кадра для формирования векторов биометрических признаков 1024 отсчета, число кепегральных КЛП коэффициентов в векторе признаков 28, количество нейронов в скрытом слое 45. Полученные данные лучше аналогичных тексюнезависимых систем аутентификации [93], где уровень равной ошибки, EER, колеблется от 4-5% до 11%.

ЗАКЛЮЧЕНИЕ

В соответствии с поставленными целями и задачами, в результате проведенных исследований и разработок были получены следующие результаты.

1. Проведен анализ существующих систем аутентификации но голосу и рассмотрены варианты возможных действий злоумышленника по взлому систем данного типа. Показано, что наиболее легко реализуемой является гер1ау-атака (атака с помощью магнитофонной записи). Выработаны требования к системе аутентификации по голосу, способной затруднить (в идеале - предотвратить) возможность проведения злоумышленником атаки данного типа. Для этого система должна осуществлять аутентификацию голоса диктора вне зависимости от произносимой им последовательности слов; контролировать правильность произнесенных слов; обеспечивать возможность быстрой смены всего множества ключевых слов без привлечения пользователей системы. Разработана структура системы аутентификации, удовлетворяющая вышеперечисленным требованиям, которая состоит из текстонезависимой подсистемы аутентификации пользователя и подсистемы контроля ключевых слов, независящей от голоса диктора.

2. Рассмотрены существующие модели представления речевого сигнала. Показано, что для распознавания слов независимо от голоса диктора наиболее подходящей является модель представления сигнала на основе системы речевосприятия, а для решения задачи аутентификации / идентификации пользователя по голосу - на основе системы речеобразования. Разработана модель речевосприятия, в основе которой лежат методы вейвлет-анализа. Достоинство данной модели заключается в возможности выполнения операции свертки с помощью алгоритмов БПФ, что экономит вычислительные ресурсы. Благодаря возможности изменения шага масштабирования, полученная модель может быстро перенастраиваться под требования решаемой задачи. При этом за счет объединения вейвлет-функций, моделирующих критические полосы слуха, с функцией компенсации громкости на разных частотах, впервые появилась возможность получения модели первичной обработки сиг нала в системе речевосприятия в виде единого преобразования. Разработан метод формирования векторов речевых признаков на основе предложенной модели речевосприятия. Для устранения избыточности вектора признаков предлагается использовать нейронные сети с узким горлом. Благодаря наличию в них нелинейных активационных функций исходную размерность вектора признаков удалось сократить с 2967 до 350 точек (более чем в 8 раз). Полученный таким образом вектор речевых признаков в сжатом виде содержит в себе информацию как о частотных, так и о временных характеристиках речевого сигнала, что намного информативнее стандартных методов, содержащих только частотные характеристики.

3. Разработан нейро-нечеткий меюд распознавания фонем для акустико-фонетического модуля подсистемы контроля ключевых слов, который обеспечивает преобразование вектора речевых признаков в фонетический вектор, содержащий значения степени принадлежности к каждой фонеме из множества классов фонем системы. Использование нейросетевых методов дает возможность выполнения процедуры фаззификации многомерных векторов речевых признаков и интерпретации их в виде нечетких переменных, при этом дальнейшее распознавание осуществляется с помощью процедур нечеткого вывода. Использование дихотомических признаков акустической классификации звуков позволяет более точно распознавать речевой сигнал, а так же анализировать полученные результаты в виде терминов естественного языка за счет применения алгоритмов нечеткого вывода.

4. Разработаны эталонная модель слова, основным достоинством которой является возможность формирования шаблона без этапа обучения за счет использования нечетких функций; методы формирования шаблона слова с использованием процедуры обучения и без нее; метод распознавания слов на основе нечеткого динамического программирования, обеспечивающий сравнение входной фонетической последовательности с шаблоном эталонного слова. Данные модели и методы являются основой модуля распознавания слов в подсистеме контроля ключевых слов. Экспериментальные исследования показывают, что точность метода распознавания без использования процедуры обучения составляет 89,1%, что сопоставимо с существующими аналогами, основанными на моделях с использованием процедуры обучения. Достоинством разработанной подсистемы контроля ключевых слов является возможность быстрой смены всего множества ключевых слов без привлечения пользователей системы. Благодаря этому система аутентификации диктора, основанная на данной подсистеме, удовлетворяет выработанным требованиям безопасности и способна затруднить (в идеале-предотвратить) возможность проведения гер1ау-атаки.

5. Разработан текстонезависимый модуль аутентификации пользователя по голосу и проведены экспериментальные исследования с целью выбора эффективных параметров для решения задачи распознавания. Полученные результаты позволяют сделать следующие выводы. Увеличение длины кадра при формировании биометрического вектора признаков, а также увеличение его размерности (т.е. числа коэффициентов) приводит к уменьшению уровня равновероятной ошибки. Это можно объяснить тем, что коэффициенты более высоких порядков (с 16-го и выше) несут в себе информацию об индивидуальных особенностях голоса диктора, а увеличение длины кадра уменьшает вариативность значений внутри пространства признаков диктора. Исследования зависимости качества работы сети от числа нейронов в скрытом слое показали, что при 15 нейронах значение EER ошибки, как правило, выше, чем при 30 и 45. При этом разделяющие способности сетей с числом нейронов в скрытом слое от 30 до 45 приблизительно равны, а дальнейшее увеличение числа нейронов в скрытом слое приводит к эффекту переобученноеги. Эксперимешы показали, что лучшими параметрами, позволяющими эффеетивно решать задачу аутентификации при минимальной EER ошибке, равной 1,3%, являются следующие: длина кадра для формирования векторов биометрических признаков 1024 отсчета, число кепстральных КЛП коэффициентов в вееторе признаков 28, количество нейронов в скрытом слое 45. Полученные данные лучше аналогичных текстонезависимых систем аутентификации, где уровень равновероятной ошибки колеблется от 4-5% до 11%.

Разработанные методы могут быть использованы для построения безопасных систем аутентификации по голосу, способных затруднять или предотвращать возможность проведения гер1ау-атаки, а так же для решения задач распознавания изолированных слов, где требуется возможность быстрой смены всею множества ключевых слов. Результаты диссертационной работы использованы в стенде при проведении лабораторных работ по изучению методов и систем биометрической аутентификации курса "Программно-аппаратная защита информации", читаемого на кафедре БИТ, а также в следующих научно исследовательских работах: х/д НИР №16107 «Разработка инженерно-технических решений по защите от НСД к аппаратным средствам, программам и данным рабочей станции», г/б НИР №г.р. 16153 «Разработка и исследование нейросетевых методов распознавания речи как интеллектуальных средств современных образовательных систем, шифр "Фонема"»,- что подтверждено аетами внедрения, приведенными в приложении В.

Библиография Юрков, Павел Юрьевич, диссертация по теме Методы и системы защиты информации, информационная безопасность

1. Романец Ю.В., Тимофеев П.А., Шаньгин В.Ф. Защита информации в компьютерных системах и сетях. М.: Радио и связь, 2001.

2. Столллингс В. Криптография и защита сетей. Принципы и практика. М.: Издательский дом "Вильяме", 2001.

3. Шнайер Б. Секреты и ложь. Безопасность данных в цифровом мире. Спб.: Питер, 2003.

4. Atal В. S. Automatic recognition of speakers from their voices, Proc. IEEE, vol. 64, pp. 460—475, 1976.

5. Doddington G. R. Speaker recognition—Identifying people by their voices, Proc. IEEE, vol. 73, pp. 1651-1664, Nov. 1985.

6. Basseville M. Distance measures for signal processing and pattern recognition, Signal Process., vol. 18, pp. 349-369, 1989.

7. Che C., Lin Q. Speaker recognition using HMM with experiments on the YOIIO database, in Proc. EUROSPEECH, Madrid, Italy, pp. 625-628, 1995.

8. Furui S. Cepstral analysis technique for automatic speaker verification, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-29, pp. 254-272, 1981.

9. Reynolds D., Carlson B. Text-dependent speaker verification using decoupled and integrated speaker and speech recognizers, in Proc. EUROSPEECH, Madrid, Spain, 1995, pp. 647-650.

10. Higgins A., Bahler L., Porter J. Speaker Verification Using Randomized Phrase Prompting, Digital Signal Processing, Vol. 1, pp.89-106. 1991.

11. Rodriguez-Linares L., Garcia-Mateo C. A novel technique for the combination of utterance and speaker verification systems in a text-dependent speaker verification task, in ICSLP 98, 1998.

12. J. Markowitz "Ieri, Oggi, Domani. Speaker Recognition Yesterday, Today And Tomorrow". Evanston, II 60201 Usa. 2000.

13. G. Doddington Personal Identity Verification Using Voice, Proc. ELECTRO-76, pp. 22-4, 1-5, May 11-14, 1976.

14. Аврин С. "Опознание личности по голосу в системах разграничения доступа". Банковские технологии, №1, 1997 г.

15. Soong F. К., Rosenberg А. Е., Rabiner L. R., Juang В.-Н. A vector quantization approach to speaker recognition, in Proc. Int. Conf. Acoustics, Speech, and Signal Processing, Tampa, FL, 1985, pp. 387-390.

16. Tishby N. Z. On the application of mixture AR hidden Markov models to text independent speaker recognition,- IEEE Trans. Acoust., Speech, Signal Processing, vol.39,no. 3,pp. 563-570, 1991.

17. Reynolds D.A., Rose R.C. Robust text-independent speaker identification using Gaussian mixture speaker models,- IEEE Trans Speech, and Audio Processing, vol. 3, no. 1, pp. 72-83, 1995.

18. Gish H., Schmidt M. Text-independent speaker identification,- IEEE Signal Processing Mag, vol. 11, pp. 18-32, 1994.

19. Reynolds D. Speaker identification and verification using Gaussian mixture speaker models, Speech Commun , vol. 17, pp. 91-108, 1995.

20. Oglesby J., Mason J.S. Optimization of neural models for speaker identification,- in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP '90), vol. 1, pp. 261-264, Albuquerque, NM, USA, April 1990.

21. Bennani Y., Gallinari P. Connectionist approaches for automatic speaker recognition, in Proc. 1st ESC A Workshop on Automatic Speaker Recognition, Identification and Verification, pp. 95-102, Martigny, Switzerland, April 1994.

22. Farrell K. R., Mammone R., Assaleh K. Speaker recognition using neural networks and conventional classifiers, IEEE Trans. Speech, and Audio Processing, vol. 2, no. l,pp. 194-205, 1994.

23. U. Uludag, A. Jain. Attacks on Biometric Systems: a Case Study in Fingerprints. In Proc. SPIE-EI 2004, Security, Steganography and Watermarking of Multimedia Contents VI, 2004.

24. N.K. Ratha, J.H. Connell, R.M. Bolle. An analysis of minutiae matching strength. Proc. AVBPA 2001, Third International Conference on Audio- and Video-Based Biometric Person Authentication, pp. 223-228, 2001.

25. J. Markowitz "Hands-on With. Illinois Dept. of Revenue" Voice ID Quarterly, Vol. 2 (4), October 1998, pp. 1 & 5.

26. J. Markowitz "Hands-on With. BMC Software" Voice ID Quarterly, Vol. 3(3), July 1999, pp. 1 &5.

27. J. Markowitz "Hands-on With. The Home Shopping Network" Voice ID Quarterly, Vol. 3 (4), Oct. 1999, pp. 1 & 5.

28. Горелик А.Л., Скрипкин B.A. Методы распознавания: Учеб. пособие для вузов.- 4-е изд., испр.- М.: Высш. шк., 2004.- 261 с.

29. Tebelskis J. Speech Recognition using Neural Networks. Ph. D. Thesis-Pittsburg.: Cranegie Mellon University, 1995 180 p.

30. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов.- Киев: Наук. Думка, 1987.- 264 с.

31. Рабинер Л.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор- ТИИЭР: т.77, №2, 1989.- с. 86-120.

32. Горелик А.Л., Скриикин В.А. Некоторые вопросы построения систем распознавания. М., 1974.

33. Загоруйко Н.Г. Структура проблемы распознавания слуховых образов и методы ее решения.- В кн.: Распознавание слуховых образов. Новосибирск, 1970, с. 3-54.

34. Искусственный интеллект. Системы сообщения и экспертные системы. Кн. 1/ Под ред. Э.В.Попова.- М.: Радио и связь, 1990.- 461 с.

35. Турбович И.Т., Юрков Е.Ф., Гитис В.Г. Детерминированный метод принятия решения при опознавании образов (метод эталонов).- В кн.: Опознавание образов. М., 1964, с. 40-66.

36. Лорьер Ж.Л. Системы искусственного интеллекта. М.: Мир, 1991.

37. Люгер Д. Ф. Искусственный интеллект. Стратегии и методы решения сложных проблем, 4-е издание.: Пер. с англ.- М.: Издательский дом "Вильяме", 2003.- 864 с.

38. Picone J. Signal Modeling Techniques In Speech Recognition. Proceedings of the IEEE. Final copy: June 3. 1993.

39. Сорокин B.H. Теория речеобразования M.: Радио и связь, 1985.-312с.

40. Маркел Дж., Грэй А.Х. Линейное предсказание речи: Пер с англ./Под ред. Ю.Н. Прохорова, B.C. Звездина М.: Связь, 1980 - 308 с.

41. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ./Под ред. М.В. Назарова, Ю.Н. Прохорова М.: Радио и связь, 1981 - 495 с.

42. Рабинер Л., Гоулд. Б. Теория и применение цифровой обработки сигналов: Пер. с англ./Под ред. Ю.Н. Александрова М.: Мир. 1978 - 848 с.

43. Опенгейм А.В., Шафер Р.В. Цифровая обработка сигналлов: Пер. с англ./Под ред. С.Я. Шаца.-М.: Связь, 1979.-416 с.

44. Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сигналов: Пер. с англ./ Под ред. И.Б. Фоменко.- М.: Связь, 1980.

45. Сапожков М.А., Речевой сигнал в кибернетике и связи М.: Радио и связь - 1963.-452 с.

46. Фант Г. Акустическая теория речеобразования М.: Наука, 1964 - 283с.

47. Чистович Л.А., Венцов А.В., Гранстем М.П. и др., Физиология речи. Восприятие речи человеком. В серии «Руководство по физиологии».- Л.: Наука, 1976.-388 с.

48. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации: Пер. с нем./Под ред. Б.Г. Белкина М: Связь, 1971 - 256 с.

49. Фалашан Дж. Анализ, синтез и восприятие речи: Пер. с англ./Под ред. А.А. Пирогова.-М.: Связь, 1968.- 396 с.

50. Лабутин В.К., Молчанов А.Г1. Модели механизмов слуха- М. Энергия, 1973.-200 с.

51. Сиберт У. Преобразование стимула в периферической слуховой системе.- В кн.: Распознавание образов: Пер. с англ./ Под ред. Л.И. Тиюмира.- М.: Мир, 1970.-321 с.

52. Загоруйко Н.Г. Методы распознавания и их применение,- М.: Сов. радио, 1972,- 206 с.

53. Дворянкин С.В. Речевая подпись / Под ред. Заслуженного деятеля науки РФ, д.т.н. проф. А.В. Петракова.- М.: РИО МТУСИ, 2003,- 184 с.

54. S. Seneff. Pitch and spectral estimation of speech based on an auditory synchrony model. In Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP-84, pages 3621-3624, 1984.

55. S. Seneff. A joint synchrony/mean-rate model of auditory speech processing. Journal of Phonetics, 16(1):57—76, 1988.

56. Zue V.W., Glass J., Philips M. and Seneff S. Acoustic Segmentation and Phonetic Classification in the SUMMIT System. Proc. IEEE ICASSP (1989) 389-392.

57. Lyon R. F.: A Computational Model of Filtering, Detection, and Compression in the Cochlea. Proc IEEE-ICASSP (1982) 1282-1285.

58. Lyon R. F.: Computational Models of Neural Auditory Processing. Proc. IEEE-ICASSP (1984) 36.1.1-36.1.4.

59. Slaney M.: Lyon's Cochlear Model. Tech. Rep. # 13, Apple Inc., Cupertino, Ca. (1988).

60. Slaney M., Lyon R.F. On the importance of time a temporal representation of sound, in Visual Representation of Speech Signals, M. Cooke, S. Beet and M. Crawford (eds.), John Wiley & Sons Ltd, 1993, pp. 95-116.

61. Slaney M., Lyon R.F. A Perceptual Pich Detector. Proc. IEEE-ICASSP (1990)357-360.

62. Daubechies I. Ten Lectures on Wavelets. Society for Industrial and Applied Mathematics, 1992,- 357 pp.

63. Qi Li, Frank K. Soong, Olivier Siohan. A high-performance auditory feature for robust speech recognition,- in Proc. ICSLP, pp. 439-442, 1996.

64. Kaiser, G., 1994: A Friendly Guide to Wavelets. Birkhfluser, 300 pp.

65. Farge, M., 1992: Wavelet transforms and their applications to turbulence. Annu Rev FluidMech, 24, 395-457.

66. Daubechies, I., 1990: The wavelet transform time-frequency localization and signal analysis. IEEE Trans. Inform Theory, 36, 961-1004.

67. Астафьева H.M. Вейвлет-анализ. УФН, 1996, т. 166, cc. 1144-1170.

68. Meyers, S. D., B. G. Kelly, and J. J. O'Brien, 1993: An introduction to wavelet analysis in oceanography and meteorology: With application to the dispersion of Yanai waves. Mon. Wea Rev., 121,2858-2866.

69. Torrence C., Compo G. P.: A Practical Guide to Wavelet Analysis, Bulletin of the American Meteorological Society, Vol. 79, 1998, pp. 61-78

70. Donoho, D. L., and I. M. Johnstone, 1994: Ideal spatial adaptation by wavelet shrinkage. Biometrika, 81,425^155.

71. Farge M., E. Goirand, Y. Meyer, F. Pascal, and M. V. Wickerhauser, 1992: Improved predictability of twodimensional turbulent flows using wavelet packet compression. FluidDyn Res., 10, 229-250.

72. Percival, D. P., 1995: On estimation of the wavelet variance. Biometrika, 82,619-631.

73. Hudgins, L., C. A. Friehe, and M. E. Mayer, 1993: Wavelet transforms and atmospheric turbulence. Phys. Rev. Lett., 71, 3279-3282.

74. Perrier, V., T. Philipovitch, and C. Basdevant, 1995: Wavelet spectra compared to Fourier spectra. J. Math Phys., 36, 1506-1519.

75. Кравченко В.Ф., Рвачев B.A. "Wavelet''-системы и их применение в обработке сигналов. Зарубежная радиоэлектроника, №4,1996 г., сс. 3-20.

76. Новиков JI.B. Основы вейвлет-анализа сигналов. Учебное пособие. СПб, ООО "Модус+", 1999 г., 152 с.

77. Новиков JI.B. Спектральный анализ сигналов в базисе всплесков.-Научное приборостроение, т. 10, № 3,2000 г., сс. 57-64.

78. Петухов А.П. Введение в теорию базисов всплесков. СПб: Издательство СПбГТУ, 1999. 132 с.

79. Петухов А.П. Кратномасштабный анализ и всплеск-разложения пространств периодических распределений. Доклады РАН 356(1997), № 2, с. 303306.

80. Новиков И.Я., Стечкин С.Б. Основные конструкции всплесков. Фундаментальная и прикладная математика. 1997.3, 1. С.999-1028.

81. Секунов Н.Ю. Обработка звука на PC.- СПб.: БХВ-Петербург, 20011248 с.

82. Чуй Ч. Введение в вейвлеты: Пер. с англ.- М.: Мир, 2001.-412 с.

83. Сергиенко А.Б. Цифровая обработка сигналов. СПб.: Пигер, 2002608с.

84. Ежов А.А., Шумский С.А. Нейрокомпьютинг и его приложения в экономике и бизнесе. Лекции Экономико-аналитического института МИФИ, МИФИ, 1998,-222с.

85. Осовский С. Нейронные сети для обработки информации / Пер. с польского И.Д. Рудинского М.: Финансы и статистика, 2002.- 344 с.

86. Современный русский язык./ Под ред. Белошапковой В.А.- М.: Высшая школа, 1989 800 с.

87. Горбань А.Н. Нейронные сети на персональном компьютере. Новосибирск.: Наука, 1996.-340 с.

88. Леоненков А.В. Нечеткое моделирование в среде MATLAB и fuzzyTECH.- СПб.: БХВ-Петербург, 2003.- 736 с.

89. Zimmerman H.-J. Fuzzy set theory and its applications.- 2nd ed.- Kluwer Academic Publishers, 1990.- 399 p.

90. Tebelskis J. Speech Recognition using Neural Networks. Ph. D. Thesis-Pittsburg.: Cranegie Mellon University, 1995 180 p.

91. Kingston A. Speech Recognition by Machine./ Tech. Report Wellington.: Victoria University of Wellington, 1992 - 53 p.

92. Bimbot F., Reynolds D. et al. A Tutorial on Text-Independent Speaker Verification.- EURASIP Journal on Applied Signal Processing.- Hindawi Publishing Corporation, 2004:4, p.43(M51.

93. Campbell J.P. Speaker Recognition: A Tutorial./ Proceedings of the 1ЕЕЕ,-Vol. 85, No. 9, September 1997, p. 1437-1462.

94. Рамишвили Г. С. Автоматическое опознавание говорящего по голосу,-М.: Радио и связь, 1981.

95. Липок В.И. О Выделении звуков в изолированных словах речи-Известия ТРТУ. Специальный выпуск "Материалы XLVI научно-технической конференции".- Таганрог: ТРТУ, 2001. №1(19).

96. Литюк В.И., Кокорева В.А. Статистическое моделирование устройства определения начала и конца звуковой реализации // Пятая Международная конференция и выставка. Тезисы докладов. Т.2. М.: 2003. - С. 370-371.

97. Юрков П.Ю., Бабенко Л.К., Федоров В.М. Нейросетевое распознавание фонем с использованием вейвлет-преобразования. Сборник трудоввторого научно-практического семинара "Информационная безопасность Юг России". Таганрог, 2000. с. 128-130.

98. Федоров В.М., Юрков П.Ю. Применение дискретною вейвлет-преобразования для фильтрации речевого сигнала- Сборник трудов научно-практической конференции "Информационная безопасность".- TaiaHpor, 2001, с. 130-134

99. Юрков П.Ю., Бабенко J1.K., Федоров В.М. Распознавание фонем русского языка с помощью нейронных сетей на основе вейвлет-преобразования-Паучно-технический журнал "Нейрокомпьютеры. Разработка, применение".- №78, 2001, с. 87-93

100. Макаревич О.Б., Юрков П.Ю., Федоров В.М. Применение рекуррентных нейронных сетей для текстонезависимой идентификации диктора-Сборник трудов "Информационная безопасность".- Таганрог, 2002, с. 200-201.

101. Бабенко JI.K., Федоров В.М., Юрков П.Ю. Аутентификация диктора с использованием изменяемого множества ключевых слов- Известия ТРТУ.

102. Специальный выпуск. Материалы XLIX научно-технической и паучно-меюдической конференции профессорско-преподавательского состава, аспирантов и сотрудников ТРТУ, Таганрог: Изд-во ТРТУ, 2004. №1(36). 289с.

103. Юрков П.Ю. Нейро-нечеткий алгоритм распознавания фонем-Материалы международной научной конференции "Моделирование устойчивого регионального развития".- Нальчик, 2005. с. 225-227.

104. Юрков П.Ю. Алгоритм распознавания слов с использованием методов нечеткого динамического программирования. "Искусственный интеллект".- ISSN 1561-5359, 2005. №4. с. 669-676.