автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ
Автореферат диссертации по теме "Текстозависимая верификация диктора: модель, статистические исследования, комплекс программ"
На нравах рукописи
РУЧАЙ АЛЕКСЕЙ НИКОЛАЕВИЧ
ТЕКСТОЗАВИСИМАЯ ВЕРИФИКАЦИЯ ДИКТОРА: МОДЕЛЬ, СТАТИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ, КОМПЛЕКС ПРОГРАММ
05.13.18 — математическое моделирование, численные методы п комплексы программ
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических паук
2 9 [/;ДР ЇШ
005020733
Челябинск — 2012
005020733
Работа выполнена на кафедре компьютерной безопасности и прикладной алгебры ФГБОУ ВПО «Челябинский государственный университет».
Научный руководитель: доктор физико-математических наук,
профессор Соловьев Александр Артемович
Официальные оппоненты: доктор технических наук, профессор
Лабунец Валерий Григорьевич
кандидат физико-математических наук, доцент Репалов Сергей Анатольевич
Ведущая организация: Учреждение Российской академии наук
Институт проблем передачи информации им. A.A. Харкевича
Защита состоится 19 апреля 2012 г. в 10 часов па заседании диссертационного совета Д 212.296.02 при Челябинском государственном университете но адресу: 454001. Челябинск, ул. Бр. Кашириных, 129.
С диссертацией можно ознакомиться в библиотеке Челябинского государственного университета.
Отзывы в одном экземпляре, с заверенной подписью, просим направлять по адресу: 451001, Челябинск, ул. Братьев Кашириных, 129, Челябинский государственный университет, в диссертационный совет.
Автореферат разослан 15 марта, 2012 г.
Ученый секретарь диссертационного совета, кандидат физ.-мат. наук
' С.Ф. Долбеева
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. В настоящее время актуальной является разработка систем, предназначенных для распознавания диктора. Такие системы активно развиваются в течение последних СО лет. На данный момент задачу нельзя считать решенной, так как существующие системы распознавания диктора не отличаются высокой надежностью, по этой причине продолжается разработка и реализация новых методов и подходов. Преимущества биометрических систем в сравнении с парольными системами очевидны, они имеют большую практическую значимость, что обосновывает важность как теоретических исследований, так н практических разработок.
Цель работы. Целью дайной диссертационной работы является разработка модели текстозависимой верификации диктора и реализация на ее основе системы разграничения прав доступа в операционной системе (ОС) Windows ХР. В соответствии с поставленной целью необходимо решить следующие задачи:
• обзор существующих методов и подходов решения задачи распознавания диктора;
• разработка модели текстозависимой верификации диктора;
• исследование и оценка точности и устойчивости предложенных характеристик речи;
• разработка и тестирование нового метода сегментации речевого сигнала для увеличения надежности распознавания диктора;
• оценка надежности текстозависимой верификации диктора и исследование методов увеличения ее надежности;
• разработка и реализация системы разграничения ирав доступа в ОС Windows на основе модели текстозависимой верификации диктора.
Методы исследования. В процессе теоретических исследований применялись методы обработки речевого сигнала, теории вейвлет преобразования, распознавания образов, теории вероятностей и математической статистики. Для численных экспериментов использовалось тестирование на голосовых базах с реальными речевыми фразами.
Материал исследования. В ходе численных экспериментов использовались четыре голосовые базы, которые были собраны в Челябинском
государственном университете и содержали речевые фразы различных дикторов. Запись фраз велась в естественных условиях на мпкрофопы различных типов.
Область исследования. Областью исследования является разработка и реализация новых методов обработки речевого сигнала для решения задачи текстозависимой верификации диктора.
Предмет исследования. Предметом исследования диссертационной работы являются методы п модели текстозависимой верификации диктора, методы обработки речевых сигналов.
Научная новизна. Научная новизна диссертационной работы состоит в разработке и тестировании нового метода сегментации речевого сиг-пала для уменьшения ошибок текстозависимой верификации диктора.
Практическая значимость работы. Результаты, полученные в ходе исследования, нашли применение при создании системы разграничения прав доступа в ОС Windows ХР, которая была успешно протестирована на кафедре компьютерной безопасности и прикладной алгебры Челябинского государственного университета. Реализованные модули могут быть использованы при построении любых биометрических систем с целью разграничения прав доступа в ОС Windows ХР. Голосовые базы, собранные для численных экспериментов, могут также быть использованы для других исследований в области обработки речевых сигналов.
Основные научные результаты. В процессе выполнения диссертационной работы были получены следующие научные результаты:
1. Получены оценки точности и устойчивости модифицированного метода вычисления формант па основе линейного предсказания.
2. Разработан новый метод сегментации речевого сигнала для увеличения надежности текстозависимой верификации диктора. Новый метод основан на вычислении оценки показателя Гёльдера с помощью непрерывного войвлет преобразования. Получены оценки точности и устойчивости предложенного метода сегментации.
3. Разработан и улучшен формантный метод текстозависимой верификации диктора, получены оценки его надежности.
4. Разработана система разграничения прав доступа в ОС Windows ХР на основе улучшенного формаитиого метода текстозависимой верификации диктора, которая успешно прошла тестирование на кафед-
ре компьютерной безопасности и прикладной ¿ин-ебры Челябинского государственного университета.
На защиту выносятся следующие положения
1. Оценки точности и устойчивости модифицированного метода вычисления формант па основе линейного предсказания.
2. Новый метод сегментации речевого сигнала на основе оценки показателя Гельдсра.
3. Улучшенный формаптный метод тскстозависимой верификации диктора и оценки его надежности.
4. Реализованная система разграничения прав доступа в ОС Windows ХР на основе улучшенного формантного метода текстозавиенмон верификации диктора.
Апробация работы. Основные положения диссертационной работы были апробированы па следующих конференциях и семинарах:
1. «Безопасность информационного пространства», V-VIII международная научно-практическая конференция, 200G-2009.
2. «Студент п научно-технический прогресс», XXXI-XXXII студ. научная и межвузовская научно-практическая конференция, 2007-2008.
3. «SIBINFO», 9-10 Всероссийский конкурс-конференция по информационной безопасности, 2009-2010.
4. «Проблемы теоретической и практической математики», 40-41 Молодежная школа-конференция, 2009-2010.
5. «Современные проблемы математики», 42 молодежная школа-конференция. 2011.
6. «Будущее образование и науки — в руках молодых», молодежная научная конференция, 2009.
7. Семинар кафедры Компьютерной безопасности н прикладной алгебры Челябинского государственного университета, 2007-2012.
Публикации. Основные результаты опубликованы в 16 печатных работах [1]-[1С], среди которых 2 работы [15, 1С] размещены в журналах, включенных в перечень высшей аттестационной комиссией.
Структура и объем работы. Работа состоит из введения, шести глав, заключения, списка литературы, включающего 168 наименований. Объем диссертации составляет 104 страницы.
ОСНОВНОЕ СОДЕРЖАНИЕ
Во введении обосновывается актуальность темы диссертации, ее иа-учная новизна, теоретическая значимость и практическая ценность, указывается предмет и область исследования, определяется цель работы, раскрываются задачи и методы исследования, приводится краткое изложение работы по главам.
Глава 1 посвящена обзору голосовой биометрики, в начале которой вводятся необходимые понятия, даются различные классификации. Обосновывается уникальность и стабильность речи. Далее целый раздел посвящен истории развития распознавания диктора. Описываются основные достижения и исследуются важные вехи в истории развития этой области от самого раннего этапа до современных исследований. Затем рассматривается современное состояние области распознавания диктора и обозначаются перспективы ее дальнейшего развития. Дается описание собранных голосовых баз для проведения различных экспериментов.
Задача распознавания диктора возникла в середине XX века, однако только в 90-е годы XX века и в начале XXI века можно наблюдать повышение интереса к этой области и ее глобальное развитие. Это связано как с развитием компьютерных технологии, так и с существованием нерешенных проблем. Одной из главных проблем является недостаточная надежность распознавания диктора. Этим обосновывается важность и актуальность разработки и реализации новых методов и подходов к распознаванию диктора.
Биометрические системы разграничения доступа имеют большую практическую значимость и развиваются достаточно бурно, что делает эту область перспективной и важной для современного общества.
Обоснование стабильности и уникальности речи достаточно важно для задачи распознавания диктора. Из продемонстрированного анатомического н артикуляционного обоснования следует, что речь человека является стабильной и уникальной. Это дает право говорить о возможности успешного распознавания диктора, хотя эта задача окончательно не решена,
С
Для проведения численных экспериментов целесообразным было создание собственных специализированных голосовых баз. В первой голосовой базе (ГБ1) собрано 20 дикторов, каждый из которых произносит 20 раз фразу из 3 слов. Вторая голосовая база (ГБ2) содержит 100 дикторов, каждый из которых произносит 13-15 раз фразу длшоИ в 10 секунд. Третья голосовая база (ГБЗ) содержит 100 дикторов, каждый из которых произносит 13 раз одно слово. Четвертая голосовая база (ГБ4) содержит 12 дикторов, каждый из которых произносит 50 раз гласный звук.
Глава 2 содержит математическую модель текетозависимой верификации диктора. Сначала дается общая модель распознавания диктора, а затем формантный метод текетозависимой верификации диктора. Описываются необходимые этапы обработки речевого сигнала. Определяются векторы признаков речевою сигнала, на основе которых строится решающее правило.
Опуская технические подробности, будем считать, что речевой сигнал представлен дискретными отсчетами функции. Для успешного решения задачи распознавания диктора предварительно необходимо обработать речевой сигнал. Для этого осуществляются следующие процедуры: шумо-очистка, удаление начальных и конечных пауз, нормализация уровня сигнала.
Гипотетическим множеством й будем называть множество объектов распознавания ш е П, где, соответственно, элемент из 6 й является речевой фразой, принадлежащей диктору.
Индикаторной функцией будем называть функцию д{ш): й -> А/, разбивающую множество О на т непересекающихся классов Й1, ..., й,„. где разные классы соответствуют различным дикторам, а М = {1,..., то} — множество дикторов. Индикаторная функция строится в процессе обучения.
Пусть х{ш): й -»• А' — функция, которая ставит в соответствие каждому объекту ш € й его образ х(и) 6 X, непосредственно воспринимаемый наблюдателем. Тогда множество X будем называть пространством наблюдения.
Решающее правило д(х(си),д) : X х М -> {0,1} позволяет наблюдателю распознать класс д(ш) объекта а» € Й, опираясь на его образ х(ш) в пространстве наблюдений X.
По заранее известному классу П; и по образу х(ш) объекта и, предъявленного фрагмента речи, решающее правило будет состоять из решений: объект распознавания и принадлежит классу й; или противное.
Элементами пространства наблюдений X являются векторы признаков, вычисленные на основе речевого сигнала.
На основаппп данных, полученных с помощью опытов, основные физические проявления индивидуальности речевого сигнала следует искать в формаитиых признаках. В качестве векторов признаков положим фор-мантные наборы.
Опуская физические подробности, под формантой будем понимать локальный максимум амплитуды сглаженного спектра, называемый амплитудой форманты, н соответствующую ему точку экстремума, называемую частотой форманты. Традиционно форманты нумеруются в порядке возрастания их частоты Р1, Р2, КЗ и т.д.
Форманту будем формально обозначать как / = (ь>,а), и> > 0, а > 0. где т — частота форманты, а — амплитуда форманты. Под формантным набором будем понимать набор формант Г = {/¡•}-!=1 = {(г^, &;)};=!' где и € N и и?,- ф щ, если 1ф ], и щ < Ю], если г <
Методы извлечения формант и оценка их точности и устойчивости описаны в Главе 3.
В формантном методе текстозависимой верификации диктора векторы признаков должны вычисляться на определенных сегментах речевого сигнала. В большинстве существующих систем распознавания диктора используется метод покадровой обработки речевого сигнала, в рамках которого сигнал разбивается на пересекающиеся кадры с определенной длиной и шагом смещения.
Метод покадровой обработки речевого сигнала может приводить к появлению провалов спектра сигнала, которые называют аитиформантами, а также сплошного спектра. Данные недостатки влияют на точность значений формант, что сказывается на надежности распознавания диктора.
Идеальным было бы вычисление векторов признаков на тех сегментах речевого сигнала, которые соответствуют слогам, входящим в состав слова. Для этого был предложен новый метод сегментации речевого сигнала. В предложенном методе речевой сигнал сегментируется на непересекающиеся вокализованные сегменты, которые соответствуют слогам. Предлагаемый метод заключается в оценке показателя Гёльдера и описан в Главе 4.
Признаки объектов обозначим через х* 6 V при г = 1,... ,п, где п — это число сегментов фразы.
Пусть в результате обучения дикторов все множество объектов распознавания Я было разбито на непересекающиеся подмножества Пь..., Пт, каждое из которых отвечает' соответствующему диктору.
Для построения решающего правила сначала определим меру близости К/1./2) ДВУХ формант /і = (ші,аі) и /2 = (и,'і,а2)
г(/ь /2) = си. |гі)і - и'2І + С„ |в! - «2І,
где сш и са — весовые коэффициенты, которые определяются из условий нормировки частоты и амплитуды формант. Удобно положить сш равной 1, а ^ - 1000.
Определим меру близости Л(Гі,Р2) между двумя формантними наборами
¿=1
где Гі = {/і«}-=і и = {/»}*=! - формантпые наборы, V - число формант в форыантном наборе.
Близость двух речевых образцов будем оценивать следующим образом
ТІ
где Ы! и о?2 — объекты распознавания, которым соответствует последовательность формантных наборов и
Определим іїч) как меру близости между распознаваемым объектом ш и классом q = 1,2,. ...т, заданным своими объектами {«/} Є Г2„:
^ Л«,
Решающее правило для верификации диктора вводится соотношением
ік*М ,«)=(;• —а)
) 0, иначе,
где А — пороговое значение, которое определяется в зависимости от требуемых ошибок первого п второго рода.
Под ошибкой первого рода будем понимать число ошибок того, что результат решающего правила (1) будет равен значению 0, хотя должно быть 1. То есть ошибкой первого рода является число несовпадения векторов признаков речевых сигналов, принадлежащих одному и тому же диктору.
Под ошибкой второго рода будем понимать число ошибок того, что результат решающего правила (1) будет равен значению 1, хотя должно быть 0. То есть ошибкой второго рода является число совпадения векторов признаков речевых сигналов. принадлежащих разным дикторам.
Под надежностью распознавания диктора будем понимать уровень ошибок первого и второго рода: чем меньше число ошибок, тем надежней система.
Глава 3 посвящена такой индивидуальной характеристике речи как форманта. Вначале делается обзор результатов исследований формант и методов их выделения. Далее описывается один из методов выделения формант — модифицированный метод на основе линейного предсказания. Затем оценивается точность и устойчивость модифицированного метода выделения формант на основе линейного предсказания.
Для модифицированного метода вычисления форманты на основе линейного предсказания были получены оценки точности и устойчивости в экспериментах на голосовой базе ГБ4. На основании результатов экспериментов было установлено, что относительная ошибка значений амплитуд формант может достигать 36%, частот 3 формант — 5% и частот 5 формант — 8%. Поэтому амплитуда форманты неустойчива, значения зависят от типа микрофона, уровня громкости, расстояния до микрофона и других факторов. Следовательно можно сделать вывод, что для построения решающею правила не следует учитывать амплитуды формант.
Также проводились эксперименты по оценке устойчивости значений частоты формант к шумам. На речевые сигналы накладывался аддитивный белый гауссовский шум при отношении сигнала к шуму БЫК, равного 15 и 20 До, и затем оценивалась относительная ошибка значений частот формант. Эксперимент проводился 100 раз, значения относительных ошибок усреднялись. Результаты экспериментов подтверждают установленное другими исследователями свойство неустойчивости к высоким шумам оценок формаитных частот модифицированным методом линейного предсказания. Оценка для частот 5 формант менее устойчива, чем оценка для частот 3 формант.
В главе 4 описан новый метод разбиения речевого сигнала на непересекающиеся вокализованные сегменты. Данный метод основан на оценке показателя сингулярности речевого сигнала через показатель Гёльдера. Оценивается точность и устойчивость предложенного метода сегментации сигнала для выделения формант. Предложенный метод сегментации сигнала сравниваете! со стандартными методами.
Основная идея использования оценки показателя сингулярности речевого сигнала заключается в выделении участков, на которых наблюдаются усложнения сигнала. Эта идея позволяет выделить из речевого сигнала вокализованные участки, которые соответствуют гласным звукам.
В качестве параметра, характеризующего сингулярность функции, был предложен показатель Гёльдера, описывающий гладкость функции. Опишем основную идею применения непрерывного вейвлет преобразования для получения оценки показателя Гёльдера.
Убывание амплитуды вейвлет преобразования в зависимости от масштаба связано с равномерной и точечной гладкостью Гёльдера сигнала. Гладкость функции / в точке v при некоторых предположениях характеризуется теоремой Джаффара.
Показатель а гладкости функции / в точке v является угловым коэффициентом опорпой прямой к графику функции s —>■ |IV"/(i;,s)| в логарифмической шкале, где Wf(i\s) —- вейвлет преобразование функции /•
Опираясь на данную идею, опишем алгоритм сегментации речевого сигнала с помощью оценки показателя Гёльдера.
1. Дискретизируем речевой сигнал /(f).
2. Выполним вещественное вейвлет преобразование Wf(u, s) речевого сигнала /(it) на основе вещественного вейвлета. Гаусса 2-ого порядка с масштабным коэффициентом s = 1,2,.... 16.
3. Построим опорную прямую к графику функции log,? log \\Vf(t, s)|2 с помощью метода наименьших квадратов.
4. График показателя сингулярности a(f) сглаживаем, как двумерные данные {(t,a(t))}^j, с помощью метода, основанного на локальном линейном робастном параметрическом регрессионном анализе, который был предложен Кливлендом. Из практических соображений параметр сглаживания определяется как I = /¿./(5 т). где Д — частота дискретизации сигнала /(f), и m — число отчетов дискрети-знрованиого сигнала /(f).
•5. Выделим интервалы монотонного возрастания графика показателя сингулярности a(t), которые положим в качестве вокализованных сегментов речевого сигнала (см. рисунок 1).
Ко всем фразам из голосовой базы ГБЗ был применен новый метод сегментации. В результате были успешно выделены вокализованные сегмен-
1000 2000 3000 4000 5000 6000 7000 Время
5 з
А
\
I /
С
2 >
\/ У
ы
У
1000 2000 3000 4000 5000 &Э00 7000
Время
Рис. 1: На верхнем рисунке представлен речевой сипни, на нижнем — слаженный график показателя сингулярности а(Ь) для соответствующего речевого сигнала. На рисунках окружностями отмечено начало вокализованного сегмента, квадратами — окончание
ты. Также проводились эксперименты по сегментации с помощью предложенного метода с голосовой базой Г'Б1. Было предложено в качестве одновременно и окончания и начала взять среднее между окончанием одного сегмента и начатом следующего сегмента.
Для улучшения сегментации был предложен следующий модифицированный метод. Речевой сигнал грубо разбивается на сегменты методом, основанным на отношении кратковременной энергии и числа перехода через
нуль, затем из каждого сегмента удаляются неречевые участки методом, основанным па оценке кратковременной эпергнп. После чего применяется отдельно для каждого сегмента предлагаемый метод сегментации на основе оценки показателя Гельдера.
В дальнейших экспериментах использовалась голосовая база ГБ2. Все фразы всех дикторов успешно прошли качественную проверку на соответствие границам сегментирования. На основании результатов работы модифицированного метода сегментации можно утверждать, что данный метод успешно справился с разбиением сигнала.
Проводились также эксперименты по оценке устойчивости предложенного модифицированного метода сегментации к шумам. Использовалась голосовая база ГБ2. На основашш полученных результатов можно сделать вывод, что приемлемые результаты средних отклонений 16 мс можно ожидать только при равным 30 Дб. Помимо этого, при БИЛ равным 30 Дб ошибка числа сегментов составляет 3.6%. Из чего следует, что модифицированный метод сегментации устойчив к уровню шума и помех с БИЯ более 30 Дб.
Проводились также эксперименты по оценке корректности извлеченных формантных частот на сегментах, полученных с помощью предложенного метода сегментации. На основании результатов эксперимента можно сделать вывод о том, что среднее и максимальное относительное отклонение для частот трех формант не больше 0-7%. Поэтому можно утверждать, что оценка частот трех формант является устойчивой.
Для сравнения модифицированного метода сегментации со стандартными были реализованы два метода: первый метод основан на отношении квадратного корня из кратковременной энергии к функции перехода через ноль и второй метод основан на вычислении автокорреляционной функции. На основашш полученных результатов можно говорить о высоких результатах работы модифицированного метода сегментации по сравнению со стандартными методами. Однако, стандартные методы более устойчивы к шумам, устойчивость сохраняется даже при ЯКII равным 15 Дб.
Глава 5 содержит основные результаты численных экспериментов по оценке формантного метода текстозависимой верификации диктора.'Исследуется надежность формантного метода текстозависимой верификации диктора с помощью метода опорных векторов. Экспериментально находится оценка надежности формантного метода текстозависимой верификации диктора. Приводятся результаты экспериментов по улучшению формантного метода текстозависимой верификации диктора.
Было установлено, что только с помощью метода опорных векторов
на основе расширения пространства можно построить разделяющую гиперплоскость без ошибок распознавания. На основании полученных результатов можно сделать вывод о том, что возможно успешное разделение множества образов без ошибок. Однако в системах текстозависиыой верификации с помощью решающего правила на основе метода опорных векторов возможны ошибки. Это следует из того, что обучение системы происходит на выборке малого объема, в итоге обучение будет приводить к ошибкам распознавания.
В результате численных экспериментов были получены оценки надежности формантного метода текстозависнмой верификации диктора, ошибка первого рода составляет 0.3 при ошибке второго рода 0.01. Если сравнивать оценки надежности распознавания диктора с применением метода покадровой обработки и модифицированного метода сегментации сигнала на основе оценки показателя Гёльдера, то можно сделать вывод, что количество ошибок первого рода уменьшилось на 20% при фиксированном количестве ошибок второго рода.
Полученные количественные характеристики надежности формантного метода текстозависнмой верификации диктора позволяют считать возможным успешное распознавание диктора, однако можно предложить ряд способов увеличения надежности. Для этого модифицируем решающее правило (1) при заданном пороговом значении А.
Введем
1, если < А;
I 0, иначе.
1(ыг,щ) =
Положим
¿ОФО,«?) ■
1, если £ ...
Ч€П„ (2)
0, иначе,
где си)- и Ш] — объекты распознавания, соответствующие г-ой и ^'-ой фразе дикторов. Меру близости определим следующим образом
п «=х
где XI и X] — векторы признаков объектов и (но числу сегментов и). Метрику Н{х\.х^) в пространстве формантных наборов V введем
соотношением
1г(х\, аг}) = - Ф в -метР11ке
;=i
или
к{х\,х)) = max в сц-мстрике,
где = {/-,}"=1 и -Tj = {/|;}iLi — формаптные наборы для i-ой координаты векторов признаков а* и Xj и и — число формант (и = 3 или и = 5). Здесь г(/у, /]г) — метрика в пространстве формант Я
с формантами Д = и //, = (to'„a{,) в формаитных наборах ж? и
х}. Мы не учитываем амплитуду формант, так как она неустойчива.
Были получены также оценки надежности улучшенного формантиого метода текстозавпспмой верификации диктора. Для экспериментов была использована голосовая база ГБЗ. Тестирование происходит по методу «jack knife»: по всем дикторам по очереди составляется обучающая выборка из всевозможных комбинаций 3 фраз диктора. Результаты экспериментов позволяют сделать вывод, что достаточно ограничиться только 3 формантами и метрикой со, при которых ошибка первого рода а равна 0.1404 с ошибкой второго рода В равной 0.01.
Можно также увеличить надежность формантиого метода текстозавпспмой верификации диктора, если пороговое значение устанавливать индивидуально для каждого диктора. Для каждого диктора по очереди строится график зависимости ошибок первого it второго рода, при ошибке второго рода в пределе 0.001-0.01 выбирается пороговое значение. Тестирование повторяется уже для всех дикторов с установленными пороговыми значениями, как описывалось выше. В ходе эксперимента проводилось п = 1772 тестов. При этом оказалось, что усредненная ошибка первого рода а равна 0.1664 при ошибке второго рода ¡3 равной 0.0015.
Результаты экспериментов (см. таблицу 1) по оценке устойчивости к шумам улучшенного формантиого метода текстозавпспмой верификации диктора позволяют сделать вывод, что при уменьшении отношения сигнала к шуму надежность распознавания тоже уменьшается. Отсюда мешаю понять, что для успешного распознавания диктора необходимо предварительно осуществлять шумоочистку сигнала.
Таблица 1: Результаты тестирования для голосовой базы ГБЗ при разном отношении 5ДКв_Дб_
SNR, До а ß
50 0.1664 0.0015
40 0.3215 0.0017
30 0.4748 0.00094
Доверительный интервал с надежностью 0.975 для оценки ошибок а, ß найдем как доверительный интервал для оценки математического ожидания при неизвестной дисперсии нормального распределения
_ 2d ^ „ 2а 5 20 „ s 2Д а - —= < а < а + и в--~<в<8 + -т=-
у/П у/п л/П 1/«
По результатам экспериментов для голосовой базы ГБЗ с надежностью 0.975 для оценки ошибки первого рода а был получен доверительный интервал [0.1664 — 0.0091; 0.1664 + 0.0091] и оценки ошибки второго рода ß - [0.0015-0.00017; 0.0015+0.00017]. Для голосовой базы ГБ2 с надежностью 0.975 для оценки ошибки первого рода а был получен доверительный интервал [0.1106-0.0078;0.1106 + 0.0078] и оценки ошибки второго рода ß - [0.00098 - 0.00012; 0.00098 + 0.00012]. Отсюда можно заключить, что при увеличении длительности фразы надежность распознавания диктора увеличивается.
На основании полученных результатов экспериментов можно сделать вывод, что улучшенный формантный метод текстозавпсимой верификации диктора может обеспечивать приемлемую надежность распознавания.
Производилось также сравнение с существующими коммерческими системами распознавания диктора по заявленным ошибкам распознавания. Приведенные оценки позволяют утверждать, что надежность построенной модели текстозавпсимой верификации диктора незначительно уступает заявленной надежности коммерческих систем.
В главе 6 описана реализованная система разграничения прав доступа в операционной системе Windows ХР на основе улучшенного формантпо-го метода текстозавпсимой верификации диктора. Сначала представлен обзор существующих атак и мер защиты, которые относятся к системам распознавания диктора. Затем дается общее описание системы разграничения нрав доступа и далее описываются детали реализации, и интерфейса системы разграничения прав доступа в ОС Windows ХР.
В общей схеме текстозавнснмой верификации диктора на рисунке 2 представлены два режима работы системы: обучение и верификация, для которых есть общая процедура обработки речевого сигнала, состоящая из шумоочнеткп, удаления начальных и конечных пауз, нормализации уровня сигнала.
Рис. 2: Общая схема текстозависимой верификации диктора
Процедура параметризации является общей для режимов обучения и верификации. Сначала применяется разработанный метод сегментации речевого сигнала на основе оценки показателя Гёльдера, затем на каждом сегменте вычисляется формантный набор, го которых формируется вектор признаков.
В режиме обучения пользователю предлагается 3 раза произнести ключевую фразу, ограниченную по длительности 10 секундами. После обработки речевых сигналов и их параметризации создается шаблон диктора, состоящий из векторов признаков речевого сигнала, и затем он сохраняется в системе.
В режиме верификации, проверки подлинности диктора, пользователю предлагается произнести ключевую фразу. После обработки речевых сигналов и их параметризации необходимо провести заключительный этан верификации — проверку принадлежности фразы заданному диктору с помощью решающего правила (2).
Система состоит из трех модулей: модуль обучения и переобучения, модуль верификации диктора и модуль администрирования. Модуль верификации реализован на основе стандартной библиотеки GINA для ОС Windows ХР.
Модуль обучения и переобучения
1. Вводится логин, пароль. В ОС регистрируется пользователь с выбранными правами.
2. Записывается 3 раз одна и та н<е фраза. Проверяется близость и похожесть фраз.
3. Происходит процедура параметризации, после чего формируется шаблон.
4. В СУБД сохраняется имя пользователя и шаблон. Активируется статус допуска, время блокировки, пороговое значение.
5. В системе определяется пороговое значение общее для всех пользователей. Данное значение может индивидуально меняться для каждого пользователя и может запускаться по какому-то регламенту из модуля администрирования.
6. В журнал логов заносится информация об этих событиях.
Модуль верификации
1. При входе в систему пользователь предъявляет логин, который был создан на этапе обучения. Система предварительно проверяет, существует ли данный пользователь в системе и в базе.
2. По нажатию кнопки «Войти», система предупреждает о том, что начинается запись, и просит приготовиться. После нажатия кнопки ОК, начинается запись сигнала в WAV-файл. Затем данный файл вместе с именем пользователя отправляется серверу по безопасному протоколу SSL.
3. Сервер выполняет процедуру верификации диктора. После этого система посылает' ответ, попытка была ли успешна или нет. В последнем случае должен быть указан помор попытки. Если неудачных попыток было больше 3, то система блокирует вход на 30 минут.
4. Ведется журнал логов с успешными и неуспешными попытками, указывается, какие пользователи заблокированы и на какое время.
Модуль администрирования
1. Настройка порогового значения.
2. Получение порогового значения, может запускаться по какому-то регламенту из модуля администрирования.
3. Управление учетными данными пользователей.
4. Управление и просмотр журнала логов, создание отчетов.
На основе анализа модели существующих атак и защиты можно сделать вывод, что многие проблемы и атаки предотвращаются с помощью цифрового кодирования, временных меток п шифрования открытого канала передачи данных. В связи с этим система разграничения прав доступа была реализована с клиент-серверной моделью взаимодействия, что дает следующие преимущества:
• Повышается общая безопасность системы;
• Один мощный сервер сможет одновременно обслуживать множество клиентов;
• Минимальная нагрузка на компьютер клиента;
• Минимизация количества клиентских настроек;
• Сервер можно портировать под любую ОС, а клиентские части останутся неизменными;
• Клиент также можно написать под другую ОС, а сервер останется неизменным.
В работе дается подробное описание схемы разработанной системы разграничения прав доступа,, а также приводятся важные аспекты для реализации такой схемы. Описываются подробно три модуля, пз которых состоит программа, с конкретными деталями реализации, программным интерфейсом. Далее следует краткое руководство пользователя реализованной системы разграничения нрав доступа с примерами и результатами тестирования.
Заключение содержит основные выводы и результаты диссертационной работы.
Публикации по теме диссертации
[1] Ручай, А. Н. РАМ архитектура как средство усиления парольной политики // Безопасность информационного пространства: материалы международной паучпо-практпческой конференции. Екатеринбург : ГОУ ВПО УрГУПС, 2006. С. 67 - 71.
[2] Ручай, А. Н. Построение двухфакториой модели идентификации диктора но его речи // Безопасность информационного пространства VI: сборник трудов межвузовской научно-практической конференции студентов, аспирантов и молодых ученных, Тюмень, 22-23 ноября 2007 г." Тюмень : ТюмГУ, 2007. С. 57 - 59.
[3] Ручай, А. Н. Биометрика как метод идентификации диктора по голосовым данным Ц Студент и научно-технический прогресс: тезисы докладов XXXI студ. научной и межвуз. научно-практической конференции для студентов классических вузов. Челябинск : ЧелГУ, 2007. С. 97 - 98.
[4] Ручай, А. Н. Анализ и реализация методов идентификации диктора по голосу // Студент и научно-технический прогресс: тезисы докладов XXXII студенческой научной конференции. Челябинск : ЧелГУ,
2008. С. 103 - 105.
[5| Ручай, А. Н. Реализация системы текстозависимой верификации диктора по голосу /7 Безопасность информационного пространства: труды VII региональной научно-практической конференции студентов, аспирантов ц молодых ученных. Екатеринбург : УрГУПС, 2008. С. 83 - 84.
[6] Ручай, А. Н. Реализация текстозависимой системы идентификации диктора по голосу Ц Проблемы теоретической и практической математики: труды 40 Молодежной школы-конференции. Екатеринбург : УрО РАН, 2009. С. 316 - 320.
[7] Ручай, А. Н. Разработка текстозависимой системы идентификации диктора по голосу // Научная сессия ТУСУР-2009: Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых. 12-15 мая 2009 г. Томск : В-Спектр,
2009. Ч.З. С. 347 - 352."
[8] Ручай, А. Н. Разработка тскстшсзавпсимой системы идентификации диктора по голосу //' Конкурс грантов студентов, аспирантов н молодых ученых вузов Челябинской области: сборник рефератов научно-исследовательских работ студентов. Челябинск : ЮУрГУ, 2009. С. 10 - И.
[9] Ручай, А. Н. Сингулярность как индивидуальная характеристика речевого сигнала // Безопасность информационного пространства: материалы VIII региональной научно-практической конференции студентов, аспирантов и молодых ученых. Челябинск: ЮУрГУ, 2009. С. 155 - 157.
(10) Ручай, А. Н. Текстозависимая верификация диктора на основе оценки сингулярности речевого сигнала // Будущее образование и науки — в руках молодых: материалы молод, науч. конф. Миасс: Миас. филиал ГОУ ВПО ЧелГУ, 2010. С. 45 - 50.
[И] Ручай, А. Н. К вопросу о формантном методе текстозависимой верификации диктора / А. Н. Ручай, A.A. Соловьев // Научная сессия ТУСУР-2010: Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых, Томск, 4-7 мая 2010 г. Томск : В-Снектр, 2010. Ч.З. С. 194 - 197.
[12] Ручай, А. Н. К вопросу о законе распределения форманты, биометрической характеристики диктора // Проблемы теоретической и практической математики: тезисы 41-й Всероссийской молодежной конференции. Екатеринбург : УрО РАН, 2010. С. 401 - 407.
[13] Ручай, А. Н. Формантный метод текстозависимой верификации диктора // Вестник Челяб. гос. vil. 2010. №23(204). Математика. Механика. Информатика. Вып. 12. С. 121 -131.
[14] Ручай, А. Н. Текстозависимая верификация диктора на основе формантного метода с использованием нового метода сегментации речевого сигнала // Современные проблемы математики: тезисы 42-й молодежной школы-конференции. Екатеринбург : УрО РАН, 2011. С. 164 - 166.
[15] Ручай, А. Н. Модель атак и защиты на биометрическую систему распознавания диктора // Доклады ТУСУР. №1(23). 2011. С. 96 - 100.
[16] Ручай, А. Н. Улучшение надежности формантного метода текстоза-висимой верификации диктора с номощыо нового метода сегментации сигнала // Доклады ТУСУР. №2(24). 2011. С. 241 - 246.
РУЧАЙ АЛЕКСЕЙ НИКОЛАЕВИЧ
ТЕКСТОЗАВИСИМАЯ ВЕРИФИКАЦИЯ ДИКТОРА: МОДЕЛЬ, СТАТИСТИЧЕСКИЕ ИССЛЕДОВАНИЯ, КОМПЛЕКС ПРОГРАММ
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
Подписано в печать 15.03.12 Формат 60 х 84716 Бумага офсетная. Печать офсетная Усл. псч. л. 1. Уч-пзд. л. 1,2 Тираж 100 экз
Отпечатано в ООО «Энерготехнпка» 454048 Челябинск, ул. Техникумовскаи, 32а
-
Похожие работы
- Разработка методики использования широких фонетических категорий в задачах верификации диктора
- Система разделения дикторов на основе вероятностного линейного дискриминантного анализа
- Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии
- Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи
- Распознавание сегментированных временных последовательностей и верификация образов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность