автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.19, диссертация на тему:Технология голосовой идентификации личности на основе проекционных методов анализа многомерных данных

кандидата технических наук
Малинин, Петр Владимирович
город
Барнаул
год
2015
специальность ВАК РФ
05.13.19
Автореферат по информатике, вычислительной технике и управлению на тему «Технология голосовой идентификации личности на основе проекционных методов анализа многомерных данных»

Автореферат диссертации по теме "Технология голосовой идентификации личности на основе проекционных методов анализа многомерных данных"

На правах рукописи

Малинин Петр Владимирович

ТЕХНОЛОГИЯ ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ НА ОСНОВЕ ПРОЕКЦИОННЫХ МЕТОДОВ АНАЛИЗА МНОГОМЕРНЫХ ДАННЫХ

Специальность 05.13.19 - Методы и системы защиты информации, информационная безопасность

Автореферат диссертации на соискание ученой степени кандидата технических наук

5 АВГ ?015

Барнаул - 2015

005571129

072119550

Работа выполнена в Алтайском государственном университете (г. Барнаул)

Научный руководитель —

доктор физико-математических наук профессор

Поляков Виктор Владимирович

Официальные оппоненты: доктор технических наук профессор

Якунин Алексей Григорьевич, заведующий кафедрой вычислительных систем и информационной безопасности Алтайского государственного технического университета им. И.И. Ползунова (г. Барнаул)

кандидат технических наук доцент Костюченко Евгений Юрьевич, доцент кафедры комплексной информационной безопасности электронно-вычислительных систем Томского государственного университета систем управления и радиоэлектроники

Ведущая организация — Новосибирский государственный технический

университет

Защита состоится «1» октября 2015 г. в 15 ч. 15 мин. часов на заседании диссертационного совета Д 212.268.03 при Томском государственном университете систем управления и радиоэлектроники (ТУСУР) по адресу: 654050 г. Томск, пр. Ленина, 40, каб. 201.

С диссертацией можно ознакомиться в научной библиотеке ТУСУРа по адресу: г. Томск, ул. Красноармейская, 146 и на сайте ТУСУРа: http://www.tusur.ru/ru/science/education/dissertations/2015-005.html

Автореферат разослан «£?» ¿?7 2015 года.

Ученый секретарь диссертационного совета Д212.268.03 ^ Д.Д.Зыков

Общая характеристика работы

Актуальность темы исследования. Влияние информационной сферы на развитие современного общества непрерывно возрастает. В связи с этим обеспечение информационной безопасности становится одним из приоритетов национальной политики государства. Содержание проблем, объединяемых понятием «информационная безопасность», в последний период времени определяется прежде всего быстрым распространением новых информационных технологий.

Развитие новых методов и средств обеспечения информационной безопасности призвано прежде всего предотвратить угрозы доступа к информационным ресурсам посторонних лиц, не имеющих доступа. Современные идентификация и аутентификация включают в себя различные системы и способы биометрической идентификации личности.

Одной из наиболее распространенных биометрических характеристик человека является его голос, обладающий набором индивидуальных особенностей, относительно легко поддающихся измерению (например, частотный спектр голосового сигнала). К достоинствам голосовой идентификации относятся также удобство применения и использования, достаточно невысокая стоимость устройств, применяемых для идентификации (например, микрофонов).

Возможности идентификации личности по голосовым данным захватывают весьма широкий спектр задач, что выделяет их среди других биометрических систем. Прежде всего, голосовая идентификация достаточно давно и широко используется в различных системах разграничения доступа к физическим объектам и информационным ресурсам. Перспективным представляется ее новое применение в системах, основанных на телекоммуникационных каналах связи. В качестве примера, в мобильной связи с помощью голоса можно осуществлять управление услугами, причем внедрение голосовой идентификации способствует защите от мошенничества.

Большая роль голосовой идентификации обусловлена также решением такой важной задачи, как защита речевой информации. Эта идентификация применяется при создании новых технических средств и программно-аппаратных устройств защиты речевой информации от утечки по акустическим и виброакустическим каналам!

Весомый вклад в развитие этого направления работ внесли многие отечественные и зарубежные ученые: В.Н. Сорокин, Г.С. Рамишвили, М.А. Сапожков, В.Р. Женило, Р.К. Потапова, C.B. Дворянкин, G. Fant, S. Furui, X. Huang, J.P. Campbell, D.A. Reynolds, G.R. Doddington, A.F. Martin и др.

Несмотря на широкую применимость и перечисленные выше достоинства, используемые методы идентификации личности по голосовым данным обладают рядом серьезных недостатков. К ним относятся, прежде всего, невысокая различающая способность методов и значительный процент ошибок как первого рода (ложно отвергнутые лица, имеющие право на

допуск), так и наиболее опасного второго рода (ложно допускаемые к конфиденциальной информации лица, права на допуск к ней не имеющие). Особо усложняет ситуацию проведение идентификации в реальных условиях, сопровождающихся набором неблагоприятных внешних факторов.

Идентификация личности по голосу, проводимая в реальных условиях, встречается со следующими серьезными затруднениями. Во-первых, при такой идентификации возникают всевозможные аппаратные искажения и помехи, обусловленные особенностями аппаратуры и устройств для записи, обработки и хранения информации. Во-вторых, на голосовой сигнал неизбежно накладываются внешние акустические шумы, которые могут существенно искажать индивидуальные информативные характеристики. В силу этого системы идентификации, демонстрировавшие достаточно высокую эффективность в лабораторных условиях, при анализе речевой информации с внешними шумами могут показать надежность, значительно более низкую. Наконец, в ряде задач приходится проводить идентификацию в весьма сложных условиях наложения голосов нескольких дикторов, в том числе с близкими акустическими характеристиками. Отметим, что исследования возможностей голосовой идентификации для этого наиболее сложного случая практически не проводились.

Проведение голосовой идентификации включает в себя комплекс технических, алгоритмических и математических методов, охватывающих все этапы, начиная с записи голоса и заканчивая классификацией голосовых данных. Рассмотренные трудности и недостатки приводят к выводу, что дальнейшее развитие систем голосовой идентификации настоятельно требует разработки новых подходов, направленных на обработку больших массивов экспериментальных акустических сигналов, их эффективный анализ и надежную классификации. Это свидетельствует об актуальности исследований по созданию новых математических методов обработки, анализа и классификации голосовых данных, обеспечивающих надежность и достоверность идентификации личности.

Цель и задачи исследования. Основной целью диссертационного исследования являлось повышение надежности голосовой идентификации личности в условиях внешнего механического шума.

В соответствии со сформулированной целью в работе были поставлены следующие задачи:

1. Выбрать информативные признаки акустических голосовых сигналов для применения математического аппарата многомерного анализа данных.

2. Разработать алгоритмы применения проекционных методов многомерного анализа, ориентированных на обработку голосовых сигналов.

3. Сформировать базу данных голосовых сигналов дикторов, предназначенную для тестирования систем голосовой идентификации личности.

4. Исследовать влияния искажений голосового сигнала, различных видов и величины внешнего шума при идентификации дикторов в реальных условиях.

5. Рассчитать ошибки первого и второго рода для оценки надежности разработанного подхода.

Научная новнзна.

1) Технология голосовой идентификации на основе проекционных методов анализа многомерных данных, отличающаяся применением метрики Махаланобиса для классификации идентифицируемых сигналов и позволившая повысить разделимость сигналов с близким акустическими характеристиками.

2) Алгоритм идентификации по голосовым данным, отличающийся применением методов главных компонент и проекций на латентные структуры с иерархическим разбиением кластеров голосовых сигналов.

3) Методика разграничения доступа к данным на основе голосовой идентификации, включающая оригинальную архитектуру системы защиты информации, отличающуюся уменьшением влияния величины внешнего шума и искажений акустических сигналов на результат голосовой идентификации.

Практическая значимость результатов.

Результаты работы могут применяться при разработке систем и программно-аппаратных устройств биометрической идентификации личности, в различных системах разграничения доступа, в том числе использующих телекоммуникационные каналы связи.

Предложенные и апробированные алгоритмы построения баз голосовых данных могут использоваться при создании технических систем голосовой идентификации, при оценке надежности работы таких систем. Результаты исследования влияния внешнего шума могут быть применены при апробации и проверке методов и технических средств оценки защищенности речевой информации от утечки по различным каналам.

Предложенный в диссертации иерархический подход обеспечивает практическое проведение достоверной классификации данных и последующую идентификацию личности в наиболее сложных случаях наложения записей голосов большого числа дикторов с близкими частотными характеристиками голоса. Это может быть использовано в задачах криминалистической экспертизы при расследовании компьютерных преступлений, когда возникает необходимость проведения идентификации неизвестных голосовых записей.

Результаты работы внедрены в ряде специализированных организаций, они использованы также при подготовке учебных дисциплин для студентов, обучающихся по специальности «Комплексное обеспечение информационной безопасности автоматизированных систем» и направлению магистратуры «Информационная безопасность». На Международной выставке научно-технических и инновационных разработок

«Измерение, мир, человек- 2011» подготовленный по результатам работы экспонат был удостоен серебряной медали.

Достоверность и обоснованность полученных результатов. Достоверность полученных результатов подтверждается применением современных математических методов исследования, статистической обработкой результатов классификации, анализом решения задачи с помощью различных способов, а также соответствием полученных данных и результатов исследований других авторов.

Положения, выносимые на защиту:

1. Разработанная технология голосовой идентификации на основе проекционных методов анализа многомерных данных с применением метрики Махаланобиса обеспечивает повышение на 10-13% разделимости акустических сигналов.

2. Алгоритм идентификации по голосовым данным при применении методов главных компонент и проекций на латентные структуры с иерархическим разбиением кластеров голосовых сигналов обеспечивают повышение на 810% надежности идентификации по голосовым данным.

3. Методика разграничения доступа на основе голосовой идентификации и разработанная архитектура системы защиты позволяют уменьшить влияние внешнего механического шума на результаты идентификации пользователей на 8-12%.

Связь диссертационных исследований с научно-техническими программами и проектами.

Исследования по диссертационной работе выполнялись в рамках проекта Аналитической ВЦП «Развитие научного потенциала высшей школы на 2009-2011 г.г.» (per. номер НИР 01200959307) и проектом № 8.1664.2011 по государственному заданию Министерства образования и науки РФ на 2012-2014 г.г.

Апробация результатов.

Материалы диссертационной работы докладывались на следующих научных конференциях: VI Всероссийская научно-практическая конференция молодых ученых (г. Оренбург, 2007 г.); Межрегиональный семинар «Проблемы правовой и технической защиты информации» (г. Барнаул, 2008 г.); VIII научно-практическая конференция студентов, аспирантов и молодых ученых «Безопасность информационного пространства» (г. Челябинск, 2009 г.); X конференция молодых ученых «Наука и инновации XXI века» (г. Сургут, 2009 г.); XI Всероссийская научно-практическая конференция «Проблемы информационной безопасности государства, общества и личности, безопасность нанотехнологий» (г. Томск, 2009 г.); XII Всероссийская научно-практическая конференция «Проблемы информационной безопасности государства, общества и личности» (г. Белокуриха, 2010 г.); XIII Всероссийская научно-практическая конференция «Проблемы информационной безопасности государства, общества и личности» (г. Новосибирск, 2012 г.), Всероссийская научно-практическая конференция «Многоядерные процессоры,

параллельное программирование, ПЛИС, системы обработки сигналов» (г.Барнаул, 2013 г.), Междисциплинарная межвузовская конференция студентов, магистрантов и аспирантов «Проблемы правовой и технической защиты информации - 2014» (г. Барнаул, 2014 г.), а также на Международной выставке научно-технических и инновационных разработок «Измерение, мир, человек - 2011» (г. Барнаул, 2011 г.).

Личный вклад автора. Автор лично участвовал в проведении теоретических и экспериментальных исследований по теме диссертации, их обсуждении, в анализе и интерпретации полученных результатов; в совместных работах автор лично участвовал в обсуждении результатов исследований с соавторами.

Соответствие диссертации паспорту специальности.

Цель диссертационного исследования соответствует п. 13 паспорта специальности 05.13.19 «Принципы и решения (технические, математические, организационные и др.) по созданию новых и совершенствованию существующих средств защиты информации и обеспечения информационной безопасности» и п. 11 «Технологии идентификации и аутентификации пользователей и субъектов информационных процессов. Системы разграничения доступа». Разработанная в диссертации технология голосовой идентификации на основе проекционных методов анализа многомерных данных, позволившая повысить разделимость сигналов с близким акустическими характеристиками», соответствует п. 13 паспорта специальности 05.13.19 «Технологии идентификации и аутентификации пользователей и субъектов информационных процессов. Системы разграничения доступа». Предложенный алгоритм идентификации по голосовым данным, отличающийся применением методов главных компонент и проекций на латентные структуры с иерархическим разбиением кластеров голосовых сигналов, соответствует п. 13 паспорта специальности 05.13.19 «Принципы и решения (технические, математические, организационные и др.) по созданию новых и совершенствованию существующих средств защиты информации и обеспечения информационной безопасности». Разработанная методика разграничения доступа к данным на основе голосовой идентификации, отличающаяся уменьшением влияния величины внешнего шума и искажений акустических сигналов на результат идентификации, соответствует п. 11 паспорта специальности 05.13.19 «Технологии идентификации и аутентификации пользователей и субъектов информационных процессов. Системы разграничения доступа» и п. 13 «Принципы и решения (технические, математические, организационные и др.) по созданию новых и совершенствованию существующих средств защиты информации и обеспечения информационной безопасности».

Публикации. Содержание диссертации изложено в 18 публикациях, в том числе в 6 публикациях из перечня ВАК, получены свидетельство о государственной регистрации программы для ЭВМ и свидетельство о государственной регистрации базы данных.

Структура и объем диссертации. Диссертационная работа состоит из введения, 4 глав, заключения, списка литературы и дух приложений. Диссертация содержит 139 страниц, 54 рисунка. Список цитируемой литературы включает 136 наименований.

Содержание работы

Во введении отражены актуальность исследования, обоснованы цель и задачи работы, приведены научная новизна и практическая значимость результатов, дана краткая характеристика работы.

В первой главе «Обзор методов и технологий идентификации личности по голосу» рассмотрена сложившаяся классификация различных методов биометрической идентификации личности. Проведено сопоставление идентификации личности по голосу с другими методами идентификации, проанализированы достоинства и недостатки голосовой идентификации. Проведено обсуждение основных задач, в которых применяется голосовая идентификация, а именно: аутентификация пользователей (разграничение доступа), поиск подозреваемого по голосу в телекоммуникационных голосовых каналах связи, фоноскопическая экспертиза, использование в мобильной связи при управлении услугами, создание технических программно-аппаратных средств защиты речевой информации, управление компьютерными системами с помощью голосовых команд.

Особое внимание обращено на использование голосовой идентификации в реальных условиях, при которых ее надежность значительно понижается. Внешний шум и помехи влияют на разных этапах голосовой идентификации, они выступают негативным фактором при обработке, анализе и классификации голосовых данных.

Системы идентификации личности, предполагающие разграничение доступа к информации по голосу, обладают невысокой различающей способностью, что может приводить к значительным ошибкам. В связи с этим необходимо разработать новые технологии, призванные за счет математической обработки акустических голосовых сигналов повысить надежность результатов голосовой идентификации.

Проведенный анализ различных методов голосовой идентификации, основанных на применении гауссовых смесей, нейронных сетей, опорных векторов, марковских процессов, показывает, что всем им присущи определенные недостатки, прежде всего высокая чувствительность к наложению внешнего шума. Это затрудняет их использование в реальных условиях.

В значительной степени удается уменьшить влияние указанных недостатков при обработке голосовых сигналов с помощью проекционных методов анализа многомерных данных. В то же время для специфических задач голосовой идентификации личности требуется развития новых технологий, решений и алгоритмов применения этих методов.

В заключительном разделе главы содержится постановка задачи исследования.

Во второй главе «Методика выбора информативных голосовых признаков для проекционных методов анализа» рассмотрен математический аппарат анализа многомерных данных в применимости к акустическим голосовым сигналам. Предложена структура алгоритма классификации голосовых сигналов (рис. 1) на основе проекционных методов. Общая идея проекционных методов заключается в замене больших массивов экспериментальных данных их геометрическими проекциями на подпространство, которое ориентируется таким образом, чтобы выявить исследуемое свойство на фоне шума.

Рис. 1. Структура алгоритма идентификации голосовых сигналов.

При обработке и анализе голосовых сигналов в качестве исходных экспериментальных данных выступают записи голосов дикторов, как правило, искаженные внешним шумом и помехами. Исходные экспериментальные данные формируются из характеристик акустических частотных спектров. В качестве выявляемых свойств или латентных закономерностей выступает принадлежность голосовых сигналов соответствующим дикторам.

Первым этапом для голосовой идентификации личности является запись исходных голосовых сигналов дикторов. На этапе предварительной обработки (рис. 1) обычно производится нормализация сигнала по амплитуде, длительности и другим характеристикам речевого сигнала. Следующим важнейшим этапом, обеспечивающим успешное применения метода главных компонент к задаче идентификации личности по голосу, является выбор характеристик голосового сигнала. Основным требованием для этого выбора является максимальная информативность таких характеристик. В качестве информативных характеристик обычно использовались коэффициенты Фурье-разложения голосовых сигналов. Однако они не достаточно описывали индивидуальные особенности частотных спектров (различия в тембрах голоса), поскольку различие между ними определяется набором дальних гармоник, вклад которых относительно мал и на которых сказываются случайные искажения сигнала. В настоящей работе предложено и обосновано использование мел-кепстрального

9

разложения, усиливающего относительную роль особенностей исходных сигналов, связанных с дальними гармониками, и нивелирующего вклад случайных искажений. Мел-кепстральное преобразование учитывает также нелинейные свойства человеческого слуха.

Для выбора признаков, обеспечивающих наилучшую разделимость голосов дикторов, были проведены расчеты остаточной дисперсии. В качестве сравниваемых признаков использовались коэффициенты Фурье преобразования, мел-частотных полос преобразования Фурье, кепстральных коэффициентов, мел-кепстральных коэффициентов. В случае коэффициентов Фурье рассчитанное значение остаточной дисперсии равнялось 0,05, в случае мел-частотных полос преобразования Фурье — 0,049, в случае кепстральных коэффициентов - 0,047, в случае мел-кепстральных коэффициентов - 0,038. Это означает, что мел-кепстральные коэффициенты являются наболее информативными признаками для проекционных методов, обеспечивающими лучшую разделимость голосовых сигналов.

В заключительной части главы 2 описаны процедуры шкалирования и центрирования, применявшиеся для предварительной обработки элементов матрицы признаков.

В третьей главе «Алгоритмы и методы классификации голосовых данных» предложены алгоритмы и методы голосовой идентификации дикторов, основанные на развитом в предыдущей главе математическом аппарате. В случае метода главных компонент был разработан алгоритм идентификации представленный на рис. 2. Этот алгоритм включал в себя составление обучающей базы данных, используемой для дальнейшей идентификации (верхняя часть рис. 2), и собственно процедуру тестирования идентифицируемого голосового сигнала (нижняя часть рис. 2).

I-----------------------------------------------------1

Алгоритм обучения

Этап 1 Этап 2 Этап 3 Этап 4 Этап 5 Этап 6

Формирование исходных данных Нормализация исходных данных Формирование матрицы признаков Построение моделей дикторов Анализ моделей дикторов Составление калибровочной базы данных

Алгоритм тестирования I * -------- -------

Этап 1 Этап 2 Этап 3 Этап 4 Этап 5 Этап 6

Формирование исходных данных Нормализация ИСХОДНЫХ данных Формирование матрицы признаков Построение моделей дикторов Классификация модели Анализ результатов классификации

Рис. 2. Схема алгоритма идентификации.

Этот алгоритм включал в себя последовательность операций объединенных в отдельные этапы, начинавшиеся с формирования исходных экспериментальных данных и завершавшихся анализом результатов и оценкой ошибок идентификации.

Разработка алгоритма идентификации потребовала составление голосовой базы дикторов, ориентированной на апробацию методов голосовой идентификации. Известные базы голосовых данных не позволяли провести идентификацию в связи с отсутствием повторяющихся голосовых записей одних и тех же дикторов.

Составленная калибровочная база данных содержала голосовые записи 50 дикторов, в том числе мужчин и женщин разного возраста, при этом записи каждого диктора характеризовались 100 повторами. Эти записи представляли из себя наборы слов, содержащих основные фонемы. Достоинством сформированной базы данных явилось существенное снижение роли случайных физиологических и поведенческих факторов, вносившых искажения в голосовые сигналы.

Для реализации алгоритма использовалась специально составленная программа «Классификация голосовых сигналов для разграничения доступа к конфиденциальной информации», позволявшая по наборам опытных данных проводить калибровку и тестирование голосовых данных.

По вычисленным признакам — коэффициентам кепстрального разложения - производился расчет главных компонент ГК1, ГК2, ГКЗ и т. д. с выбором пар компонент, представление в пространстве которых являлось наиболее информативными. Интерпретация получаемых результатов проводилась с помощью так называемого графика счетов, изображавшего положение голосовых сигналов в пространстве главных компонент. Отдельная точка на графике счетов изображала какую-либо одну голосовую запись конкретного диктора. Для классификации сигналов использовались модифицированный в настоящей работе метод ближайших соседей и специально разработанный для данной задачи иерархический метод, алгоритм которого представлен на рис. 3. Программное обеспечение разрабатывалось отдельно для каждого метода классификации.

В модифицированном методе ближайших соседей вся многомерная совокупность сигналов, относящихся к одному диктору, представлялась в виде многомерного эллипсоида, строившегося по максимальному разбросу точек на графике счетов (то есть наиболее удаленные друг от друга точки попадали на поверхность эллипсоида). Каждый отдельный эллипсоид описывал голосовые данные одного диктора. Принадлежность неизвестных голосовых данных конкретному диктору определялась по попаданию точки, описывавшей эти данные, в объем соответствующего эллипсоида. В качестве метрики использовалось расстояние Махаланобиса, учитывавшее ковариацию между объектами. Идентифицируемый голосовой сигнал характеризовался минимальным расстоянием Махаланобиса до поверхности ближайшего эллипсоида, которое сопоставлялось с расстоянием Махаланобиса от соответствующей точки поверхности до центра масс эллипсоида.

В качестве иллюстрации на рис. 4 приведены в пространстве трех первых главных компонент голосовые данные для двух дикторов (Д1 и Д2),

Рис. 3. Блок-схема алгоритма иерархического подхода.

при этом рис. 4 а изображает результаты расчетов в пространстве ГК1, ГК2, ГКЗ, а рис. 4 б, в, г - на соответствующих главных плоскостях. Как видно из рис. 4, идентифицируемый голосовой сигнал, изображаемый точкой X, попадает в область точек, соответствующих диктору Д1. Из рис. 4 б видно, что в плоскости первых главных компонент ГК1 и ГК2 области дикторов Д1 и Д2 (проекции эллипсоидов на соответствующую плоскость) перекрываются и попадание идентифицируемой точки в объем эллипсоида Д1 заметно только в плоскости следующих компонент.

Возможны ситуации, когда идентифицируемый сигнал сравнивается с записями большого числа дикторов или идентифицируются записи голосов

ООО Д1

XXX Д2

— X

Рис. 4. Представление голосовых записей двух дикторов в пространстве главных компонент.

Д1 — счета 1-го диктора. Д2 — счета 2-го диктора, залитая точка — неизвестный идентифицируемый диктор; а - главные компоненты ГК1,ГК2,ГКЗ, б — главные компоненты ГК1.ГК2, в — главные компоненты ГК2.ГКЗ, г — главные компоненты ГК1,ГКЗ.

нескольких дикторов. В этих случаях неизбежно появление голосовых сигналов с близкими амплитудно-частотными характеристиками, что крайне усложняет идентификацию. С позиции изложенных методов это усложнение проявится в том, что многомерные области данных, описывающих голоса разных дикторов, будут перекрываться. Для таких случаев в настоящей работе предложен метод, призванный обеспечить разделение перекрывающихся голосовых данных. Сущность этого метода заключается в следующем. Частично перекрывающиеся области на графике счетов, характеризующие голосовые записи большого числа дикторов, разбиваются на отдельные обособленные группы. Эти группы рассматриваются как кластеры, возникающие из объективной близости физических характеристик

ООО Д1

ххх Д2

сиз ДЗ

лдд Д4

Д5

ООО Дб

ост» ю

+++ Д8

Д9

0«0 Д10

и* XI, Х2

ООО Д1

ххх Д2

НО ДЗ

ДДЛ Д4

*Пч, Д5

Д7

«к] Д9

ООО Д10

и* XI,Х2

□□□ ДЗ

Д7

<м< Д9

••• Х1,Х2

5 10 15 ГК1 В

Рис. 5. Разбиение голосовых данных на кластеры, а - начальное состояние, б - разбиение для кластера Д1, Д2, ДЗ, Д4, Д5, Д7, Д9, Д10, в - разбиение для кластера ДЗ, Д7, Д9.

голосов дикторов. К каждому из таких кластеров последовательно применяется та же процедура регрессии на главные компоненты, что и для всех данных в целом. В результате отдельные кластеры распадаются на кластеры меньших размеров, описывающие уменьшившееся число дикторов. Процедура разбиения продолжается до тех пор, пока не произойдет разделение сигналов на неперекрывающиеся области, каждая из которых идентифицируется как принадлежащая одному конкретному диктору, или пока идентификация не будет признана невозможной. Предложенный подход предполагает иерархию данных при проведении классификации и может

быть назван иерархическим методом, по своему содержанию он является модификацией общего метода регрессии на главные компоненты.

В качестве иллюстрации на рис. 5 приведено разбиение голосовых данных на кластеры, описывавшие голосовые сигналы группы из 10 дикторов. Как видно из рис. 5 а, в плоскости главных компонент сформировались кластеры из перекрывающихся голосовых данных дикторов Д1, Д5 и дикторов Д2, ДЗ, Д6, Д7. Рис. 5 б и рис. 5 в иллюстрируют результат разбиения этих кластеров в результате применения иерархического метода.

В четвертой главе «Голосовая идентификация личности в условиях помех и внешнего шума» показаны результаты исследования влияния внешнего акустического шума, а также приведены расчеты ошибок первого и второго рода при различных условиях голосовой идентификации.

Идентификация личности по голосу, проводимая в реальных условиях, встречается с рядом серьезных затруднений. Во-первых, возможны искажения, связанные непосредственно с диктором и обусловленные особенностями его психофизического состояния. Эти искажения с помощью любой системы обработки и классификации исключить нельзя, можно лишь уменьшить их влияние. Во-вторых, возникают аппаратные искажения на различных участках прохождения речевого сигнала при его записи, обработке и хранении. В-третьих, на голосовой сигнал неизбежно накладываются внешние механические шумы, которые могут существенно его искажать. Важнейшей задачей систем голосовой идентификации является уменьшение негативного влияния второго и третьего факторов. Именно решению этой задачи с использованием развиваемого в диссертации подхода посвящена настоящая глава.

В первом разделе главы проведено математическое моделирование искажения голосовых сигналов, использовавшее алгоритм передискретизации, основанный на преобразовании Фурье и позволивший изменять частоту дискретизации в целое или дробное число раз. В качестве величины, количественно характеризовавшей искажения, был использован коэффициент нелинейных искажений. Сами искажения генерировались таким образом, что частота дискретизации изменялась за счет добавления нулевых отсчетов спектра сигнала. Далее акустические сигналы подвергались идентификации с помощью иерархического подхода. В результате моделирования были проведены количественные оценки значений коэффициента нелинейных искажений, при которых возможна правильная идентификация.

Исследование влияния шума на голосовую идентификацию представляет существенный интерес для создания систем по защите информации от утечек по акустическому каналу. Отметим, что роль вида действующего шума была фактически не исследована, что обусловлено недостатками методов классификации голосовых данных, не обеспечивавших количественную оценку различий между разными видами шума.

В диссертации были изучены особенности влияния на идентификацию «белого» шума (равномерное распределение амплитуд в спектре частот), «розового» шума с распределением амплитуд, обратно пропорциональным частоте, «коричневого» шума с распределением амплитуд, обратно пропорциональным квадрату частоты, речеподобного шума и шума улицы. Речеподобный шум специально создавался путем наложения отрезков записей голосов разных дикторов. Шум улицы записывался в реальных условиях оживленной автомагистрали.

Уровень шума задавался с помощью величины:

^ =201оё]„

V у

где Ду- среднеквадратичное значение амплитуды сигнала, Ац— среднеквадратичное значение амплитуды шума. На рис. 6 для сопоставления

/ ° \

/ сС° О

° * 51 •=6 / • 9 • в

7

V УУ

V 1/

-8 -6 -4 —2

ООО д

/ ° \

/ СР° О

г * 1 _ •

6 5

\ п9А • 7 5

\ 3 Т'

ООО л

Рис. 6. Представление голосовых записей в главных компонентах при наложении шума, а - шум улицы, б - речеподобный шум;

Д - данные без шума, Ш - данные с наложенным шумом Я5ы: 1 - 15 дБ, 2 - 10 дБ, 3 - 7 дБ, 4-5 дБ, 5-0 дБ, 6 - -5 дБ, 7 - -7 дБ,8- -10 дБ, 9- -15 дБ.

в качестве примера изображено представление голосовых записей в главных компонентах в условиях шума улицы (рис. 6 а) и речеподобного шума (рис. 6 6), величина задавалась в пределах от 15 дБ до -15 дБ. Выход серии точек, описывавших сигналы с наложенным шумом, за пределы эллипса (характеризовавшего исходные сигналы) означает невозможность правильной идентификации и позволяет оценить величину соответствующего шума. Сопоставление рис. баи рис. 6 б иллюстрирует влияние вида шума на вносимые искажения, именно, речеподобный шум делает невозможной идентификацию личности при заметно меньшем уровне, чем шум улицы. «Белый» и «розовый» шумы вносят искажения, близкие к шуму улицы, а «коричневый» - близкие к речеподобному шуму.

Для оценки надежности и достоверности предложенных подходов определения границ их применимости, а также для выявления наиболее значимых для идентификации факторов были проведены количественные

расчеты ошибок идентификации. При этом под ошибками 1-го рода понималась доля дикторов, которым было ошибочно отказано в идентификации, а под ошибками 2-го рода- доля дикторов, ошибочно идентифицируемых как «свои». Отметим, что для практических целей более опасными являются ошибки 2-го рода, так как при этом достигается допуск к конфиденциальной информации лиц, не имеющих на это право.

Для сопоставления результатов настоящей работы с результатами других авторов на рис. 7 приведены зависимости числа правильно идентифицированных от величины отношения «полезный сигнал/шум». На рис. 7 а приведены результаты расчетов количества правильно идентифицируемых дикторов в условиях наложения шума улицы, полученные с помощью метода гауссовых смесей в работе [Reynolds at al., 2007] (кривая 1), в работе [Crookes, 2011] (кривая 2), метода опорных векторов в работе [Shriberg at al., 2007] (кривая 7) и в настоящей работе (кривая 3). В работах [Reynolds at al., 2007] [Shriberg at al., 2007] идентификация в связи с быстрым ухудшением результатов проводилась до уровня шума, равного исходному голосовому сигналу. Видно, что кривые ведут себя качественно одинаковым образом, при этом результаты наших расчетов обладают существенными преимуществами.

На рис. 7 б приведены результаты аналогичного сопоставления для условий наложения на исходный сигнал «белого» шума, при этом количество правильно идентифицируемых дикторов рассчитывалось как методом гауссовых смесей (работа [Wang at al., 2011], кривая 4), так и методом нейронных сетей (работа [Togneri at al., 2008], кривая 5). Из рис. 7 б следует, что результаты наших расчетов (кривая 3) обеспечивают такие же приемущества, что и полученные для случая шума улицы.

На рис. 7 в приведены результаты аналогичных расчетов для случая речеподобного шума, сопоставление проводилось на рис. 7 в для наших расчетов (кривая 3) и работ [Wang at al., 2011] (кривая 4), [Wang at al., 2014] (кривая 6) и [Shriberg at al., 2007] (кривая 7), основанных на использовании нейронных сетей разного вида и метода опорных векторов. Данный случай представляет наибольший интерес, поскольку речеподобный шум вызывает наиболее сильное влияние на голосовую идентификацию. Это проявляется в том, что на рис. 7 в кривые 3, 4, 6, 7 быстрее спадают с ростом уровня шума, чем на рис. 7 а и рис. 7 б.

Отметим, что значения ошибок настоящего метода при малом шуме были близки к значениям по другим методам (гауссовых смесей, нейронных сетей, опорных векторов), где они принимали значения от 2% до 5%.

Кроме того, были произведены расчеты доли правильно идентифицируемых дикторов с использованием методов настоящей работы, гауссовых смесей, нейронных сетей и машины опорных векторов для одной и той же разработанной нами базы голосовых данных. При увеличении шума до уровня Rsn ~ 5 дБ методы настоящей работы обеспечивали долю правильно идентифицируемых дикторов, на 12-15% большую, чем остальные методы. Таким образом, проведенное сопоставление с расчетами,

Рис. 7. Результаты голосовой идентификации в условиях наложения шума, а - шума улицы, б - «белого» шума, в - речеподобного шума;

1 - настоящая работа, 2 - Crookes at al., 2011,3 -Reynolds at al., 2007, 4 - Wang at al., 2011, 5 - Togneri at al., 2008, 6 - Wang at al., 2014, 7 - Shriberg at al., 2007.

основанными на различных методах и учитывавших влияние шума, свидетельствует о большей надежности и помехоустойчивости предложенного подхода.

Разработанное на основе предложенных алгоритмов программное обеспечение было внедрено для использования при аутентификации пользователей в ряде специализированных организаций.

В заключении сформулированы основные результаты и выводы по работе. В соответствии с целью работы был развит методический подход, основанный на применении математического аппарата многомерного анализа данных к обработке и классификации акустических голосовых сигналов, характеризующих индивидуальные биометрические особенности дикторов. Для развития технологий голосовой идентификации проведено исследование возможностей такой идентификации с помощью проекционных методов анализа. Предложены новые методики, позволившие проводить классификацию голосовых сигналов при наложении нескольких голосов. Достигнуто уменьшения негативного влияния величины внешнего шума, различных помех и искажений на идентифицируемые речевые сигналы. В целом в результате выполнения работы были предложены алгоритмы, программное обеспечение на основе этих алгоритмов и методики проведения идентификации, которые позволили повысить надежность голосовой

идентификации личности, в том числе в реальных условиях наложения внешнего механического шума.

Полученные результаты позволяют сделать следующие основные выводы.

1. Выбранные информативные признаки акустических голосовых сигналов на основе коэффициентов мел-кепстрального разложения позволили при применении проекционных методов повысить разделимость голосов идентифицируемых дикторов на 10-13%.

2. Разработаные алгоритмы обработки и классификации голосовых сигналов, основанные на использованиие методов главных компонент и проекций на латентные структуры, обеспечили повышение надежности идентификации на 8-10%, проявившееся в увеличении доли правильно идентифицируемых дикторов.

3. Разработанная база данных с повторами голосовых сигналов дикторов позволила установить влияние основных параметров голосовых записей на результат идентификации. Эта база данных может быть использована при тестировании аналогичных методов и систем голосовой идентификации.

4. Проведенное с единых позиций систематическое исследование позволило выявить влияние вида внешнего акустического шума и искажений на голосовую идентификацию, что может быть использованы при разработке и тестировании систем защиты от утечек по акустическому каналу.

5. Рассчитанные ошибки 1-го и 2-го рода показали, что разработанный подход дал возможность повысить на 8-12% число правильно идентифицируемых дикторов в условиях значительного уровня внешнего акустического шума и уменьшить влияние роста этого шума на величину ошибок идентификации.

6. Предложенный метод классификации акустических голосовых сигналов, использующий метрику Махаланобиса для построения многомерных эллипсоидов, характеризующих сигналы отдельных дикторов, обеспечил высокую наглядность результатов идентификации. Разработанное иерархическое разбиение кластеров голосовых сигналов дало возможность позволило разделить голоса дикторов с близкими физическими характеристиками.

Список публикаций по теме диссертации

1. Малинин, П.В. Иерархический подход в задаче идентификации личности по голосу с помощью проекционных методов классификации многомерных данных / П.В. Малинин, В.В. Поляков // Доклады ТУСУР. - 2010. - № 1. 4.1. - С. 128-130.

2. Малинин, П.В. Применение методов анализа многомерных данных к задаче идентификации личности по голосу / П.В. Малинин, В.В. Поляков // Известия АлтГУ. - 2010. - № 1. - С. 140-142.

3. Малинин, П.В. Влияние искажений голосового сигнала на идентификацию диктора / П.В. Малинин, В.В. Поляков // Известия

19

АлтГУ. - 2010. - № 1/2. - С. 172-174.

4. Малинин, П.В. Математическое моделирование искажений спектра акустического сигнала при голосовой идентификации личности / П.В. Малинин, В.В. Поляков // Известия АлтГУ. - 2012. - № 1/2. -С. 87-89.

5. Малинин, П.В. Влияние вида акустического шума на голосовую идентификацию личности / П.В. Малинин, В.В. Поляков // Известия АлтГУ. - 2013. - № 1/2. - С. 168-169.

6. Малинин, П.В. Применение распределений мел-частотных кепстральных коэффициентов для голосовой идентификации личности /

A.C. Заковряшин, П.В. Малинин, A.A. Лепендин // Известия АлтГУ. -2014. - №1/1. - С. 156-160.

7. Малинин, П.В. Региональные аспекты технической и правовой защиты информации : монография / В.В. Поляков, В.А. Трушин, И.А. Рева, Вит.В. Поляков, П.В. Малинин и др. - Барнаул : Изд-во Алт. ун-та, 2013. -176 с.

8. Малинин, П.В. Применение корреляционно-признакового метода в аппаратной системе идентификации личности по радужной оболочке глаза / П.В. Малинин, И.Н. Свистун, В.В. Поляков // Современные информационные технологии в науке, образовании и практике : матер. VI Всерос. науч.-практ. конф. г. Оренбург, 27-28 ноября 2007 г. - Оренбург : Изд-во ИПК ГОУ ОГУ, 2007.-С. 447^148.

9. Малинин, П.В. Применение методов многомерного анализа данных в системе разграничения доступа по голосу / П.В. Малинин // Проблемы правовой и технической защиты информации: сб. ст. / под ред.

B.В. Полякова, В.А. Мазурова. - Барнаул: Изд-во Алт. ун-та, 2008. -

C. 124-127.

10. Малинин, П.В. Идентификация личности на основе комбинированных данных отпечатка пальцев и изображения лица / П.В. Малинин // Проблемы правовой и технической защиты информации: сб. ст. / под ред.

B.В. Полякова, В.А. Мазурова. - Барнаул: Изд-во Алт. ун-та, 2008. -

C.163-166.

11. Малинин, П.В. Применение методов анализа многомерных данных в задаче идентификации личности / П.В. Малинин, В.В. Поляков // Проблемы информационной безопасности государства, общества и личности, безопасность нанотехнологий: Материалы 11-й Всероссийской научно-практической конференции, г. Томск, 3-5 июня 2009 г. - Томск : В-Спектр, 2009. - С. 29-33.

12. Малинин, П.В. Идентификация личности по голосу на основе методов анализа многомерных данных / П.В. Малинин // Проблемы информационной безопасности государства, общества и личности : матер. IV Пленума СибРОУМО по образованию в области информационной безопасности и XII Всерос. научно-практ. конф. Томск - Барнаул - Белокуриха, 8-13 июня 2010 г. - Томск : Изд-во «В-Спектр», 2010. - С. 180-181.

13. Малинин, П.В. Метод ПЛС в задаче идентификации личности по голосу / П.В. Малинин // Наука и инновации XXI: мат-лы х конф. молодых ученых г. Сургут, 26-27 ноября 2009 г. - Югры-Сургут : ИЦ СурГУ, 2010. - Т.1. -С. 34-36.

14. Малинин, П.В. Классификация голосовых сигналов для разграничения доступа к конфиденциальной информации. Свидетельство о государственной регистрации программы для ЭВМ № 2011611627, 17 февраля 2011 г.

15. Малинин, П.В. Исследование влияния шума на идентификацию личности по голосу / П.В. Малинин, В.В. Поляков // Проблемы информационной безопасности государства, общества и личности : доклады V Пленума СибРОУМО по образованию в области информационной безопасности и XIII Всерос. научно-практ. конф. Томск - Новосибирск, 5-9 июня 2012 г. -Томск : Изд-во «В-Спектр», 2012. - С. 96-98.

16. Малинин, П.В. Влияние вида шума на голосовую идентификацию личности / П.В. Малинин, В.В. Поляков // Проблемы информационной безопасности государства, общества и личности : доклады V Пленума СибРОУМО по образованию в области информационной безопасности и XIII Всерос. научно-практ. конф. Томск - Новосибирск, 5-9 июня 2012 г. -Томск : Изд-во «В-Спектр», 2012. - С. 98-101.

17. Малинин, П.В. Алгоритмы обработки звуковых сигналов при формировании баз голосовых данных / П.В. Малинин, В.В. Поляков // Сб. статей Всерос. науч.-практ. конф. «Многоядерные процессоры, параллельное программирование, ПЛИС, системы обработки сигналов» г. Барнаул, 28 февраля 2013 г. - Барнаул : изд-во Алт. ун-та, 2013. - С. 85-89.

18. Малинин, П.В. Акустические речевые сигналы для системы идентификации личности по голосовым данным. Свидетельство о государственной регистрации базы данных №2013620132 от 9 января 2013 г.

Подписано в печать 07.07.15. Формат 60x84/16 Усл. печ. л 1,0. Тираж 100 экз. Заказ №228 Типография Алтайского государственного университета 656049, Барнаул, ул. Димитрова, 66