автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи

кандидата физико-математических наук
Репалов, Сергей Анатольевич
город
Ростов-на-Дону
год
2003
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи»

Автореферат диссертации по теме "Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи"

На правах рукописи

Репалов Сергей Анатольевич

РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ И РОБАСТНЫХ АЛГОРИТМОВ ИДЕНТИФИКАЦИИ ДИКТОРОВ ПО ИХ РЕЧИ

05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

Ростов-на-Дону 2003

Работа выполнена в Южно-Российском региональном центре информатизации высшей школы (ЮГИНФО) Ростовского Государственного Университета

Научный руководитель:

кандидат технических нфтс, с.н.с. Александр Владимирович Аграновский

Официальные оппоненты: доктор физико-математических наук,

профессор, Юрий Викторович Дашко

кандидат физико-математических наук, профессор, Яков Михайлович Ерусалимский

Ведущая организация:

Научно-исследовательский институт

многопроцессорных вычислительных

систем Таганрогского радиотехнического университета

Защита диссертации состоится " 20 " ноября 2003 г. в 11 часов на заседании диссертационного совета К.212.208.04 по физико-математическим и техническим наукам в Ростовском Государственном Университете по адресу: 344090, г. Ростов-на-Дону, пр. Стачки 200/1, корпус 2, ЮГИНФО РГУ.

С диссертацией можно ознакомиться в научной библиотеке РГУ по адресу: г. Ростов-на-Дону, ул. Пушкинская, 148.

Автореферат разослан " и« ОкГ^ЬрХ 2003 г.

Ученый секретарь

диссертационного совета, ~

кандидат физико-математических н^тс —Муратова Г. В.

2^21:А (ébi/7

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы идентификации личности по голосу высока, поскольку она оказывается востребованной во многих областях человеческой деятельности. Подтверждением этого является тот факт, что на различных конференциях посвященных акустике и вопросам обработки речи доклады, посвященные вопросам идентификации и верификации дикторов часто выделяются в отдельные секции. Например, на конференции International conference on Acoustics, Speech and Signal Processing (ICASSP) в 2000-м году были представлены 20 докладов, разбитые на две секции. К 2003 году их число увеличилось до 35, а число секций до четырех. Аналогичная картина наблюдается и на других конференциях, например на Eurospeech, международных научных конференциях «Информатизация и информационная безопасность правоохранительных органов».

Возрастающий интерес к задаче идентификации личности по голосу связан как с успехами, достигнутыми в последнее время, так и с большим спектром практических применений данной задачи. Работа крупнейших научных лабораторий и компаний мира, таких как IBM T.J. Watson Research Center, AT&T, Oregon Graduate Institute, MIT Lincoln Laboratory, Philips и т.д., позволила за последние десятилетия перейти от теоретических разработок и лабораторных систем к практическим приложениям обработки речи (управление голосом, диктовка, обеспечение персонализированного доступа) с приемлемыми характеристиками.

Среди направлений практических применений можно выделить такие сферы, как криминалистическая экспертиза фонограмм устной речи с целью установления личности произнесшей записанную на них речь. Это направление, широко используемое в правоохранительных органах, является наиболее проработанным как с практической, так и с теоретической точки зрения. При обработке зашумленных или искаженных записей эксперты вынуждены отказываться от проведения экспертизы. Это обусловлено тем, что до сих пор не разработаны теоретические основы выделения робастных параметров речевого сигнала и методы их обработки.

Системы автоматической идентификации личности по голосу, построенные в последнее десятилетие, достигают значений вероятности ошибок, позволяющих использовать их в практических приложениях. Системы верификации личности по голосу часто используются в банковских приложениях, при доступе клиента к информации своего

банковского счета по телефонной линии. При этом, от пользователя требуют произнесения заранее оговоренной парольной фразы. Системы текстонезависимой идентификации диктора могут использоваться в системах речевого командного интерфейса как для постоянного подтверждения того факта, что команды отдает лицо, имеющее на это право, так и для выделения из непрерывного потока речи команд сказанных заданным диктором. Тем не менее, величина ошибок первого и второго рода даже у лучших систем находится на уровне 10%. Из сказанного вытекает, что задача дальнейшего увеличения точности работы систем текстонезависимой идентификации дикторов является весьма актуальной. При этом, как показывают многочисленные исследования, одной из основных причин ошибок является как аддитивный шум, так и мультипликативный шум, привносимый каналом передачи речевого сигнала.

Вместе с тем, существуют и достаточно давно известны различные робастные характеристики речевого сигнала. Они практически не используются в задачах автоматической и автоматизированной обработки речевого сигнала по причине сложности их обработки. Характеристики лежащие на просодическом и микропросодическом уровне не подвержены влиянию различных шумов канала передачи, и их учет при принятии решения позволяет значительно повышать точность принимаемого решения. Все это обуславливает наличие перспективных путей по созданию математических моделей идентификации дикторов по их речи на основе робастных характеристик речевого сигнала, использующих как статистические, так и динамические характеристики речевого сигнала.

Таким образом, налицо потребность в новых математических моделях идентификации дикторов по их речи, позволяющих разрабатывать робастные алгоритмы текстонезависимой идентификации дикторов, на основе робастных характеристик речевого сигнала.

Цель исследования со стоит в разработке математической модели голоса диктора, позволяющей строить алгоритмы текстонезависимой идентификации повышенной точности, в условиях использования зашумленных или поврежденных записей речи дикторов

Научная задача исследования состоит в разработке математических основ обработки робастных характеристик речевого сигнала и разработке методов теории распознавания образов, использующих робастные характеристики речевого сигнала.

Математический аппарат исследования. В работе использовалась теория метрических пространств, теория цифровой обработки сигналов, теория распознавания образов и элементы теории вероятностей и математической статистики.

Научная новизна работы определяется тем, что впервые разработан и исследован математический аппарат обработки робастных характеристик речевого сигнала. На основании разработанного аппарата, построены методы распознавания речевых образов, использующие робастные характеристики речевого сигнала.

Достоверность проведенных исследований обусловлена тем, что представленные в диссертации теоремы и леммы имеют строгое математическое обоснование. Предложенные методы исследованы теоретически, а так же подтверждены результатами экспериментов.

Практическая ценность и реализация. Результаты проведенных исследований нашли применение при создании систем текстонезависимой идентификации дикторов по их речи.

Основные результаты исследований использованы в учебном процессе в Саровском государственном физико-техническом институте (г. Саров), при выполнении хозрасчетных работ "Индус" и "Чарли-Р", а так же в работе выполняемой СКНЦ ВШ в рамках региональной научно-технической программы.

Результаты исследования могут найти применение при построении систем обработки речевых сообщений, например, в системах распознавания речи и голосовых команд, в системах текстозависимой и текстонезависимой идентификации дикторов и в системах верификации дикторов.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на X международной научной конференции «Информатизация правоохранительных систем» (Москва, 2001), на XI сессии Российского акустического общества (Москва, 2001), на международной конференции Speech and Communications (Москва, 2001), на международной научной конференции «Интеллектуальные и многопроцессорные системы- 2001» (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2001), на XI международной научной конференции «Информатизация и информационная безопасность правоохранительных органов» (Москва,2002), на международной конференции International Association for Forensic Phonetics and E uropean Network of Forensic Science Institution (Москва, 2002).

Публикации. По теме диссертации опубликовано 27 печатных работ. Из них 8 научных статей, 16 тезисов докладов, один патент РФ и два свидетельства об официальной регистрации программы для ЭВМ.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения и списка литературы. Работа содержит 140 страниц основного текста, и включает 30 рисунков, 4 таблицы. Список литературы состоит из 96 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обсуждается актуальность и практическая значимость темы, сформулированы цели и предмет исследования, изложено краткое содержание работы.

В первой главе рассматриваются тенденции развития и проблематики задачи текстонезависимой идентификации дикторов по их речи.

В первом пункте главы описываются различные преобразования исходного речевого сигнала в последовательность векторов признаков. Рассмотрено математическое описание цифровых сигналов и такие преобразования, гак

- спектральное представление,

- коэффициенты линейного предсказания (КЛП),

- кепстральное представление,

- мел-спектры,

- формантные характеристики

При рассмотрении формантаых характеристик выявляется свойство робастности.

Во втором пункте производится обзор и анализ математической модели и методов решения задачи текстонезависимой идентификации диктора по голосу. Производится математическая постановка задачи распознавания дикторов по их речи с точки зрения теории распознавания образов, для чего вводятся понятия:

- гипотетического множества П объектов распознавания теП;

-неизвестной индикаторной функции *М, М = {1,2.....т), объективно

разбивающей множество П на т непересекающихся классов П',П2,...,П";

- пространства наблюдений X, в пределах которого некоторая, так же неизвестная, функция х(со):П—>Х, ставит в соответствие каждому объекту юеП его образ х(м)еХ, непосредственно воспринимаемый наблюдателем.

Задачей обучения состоит в построении решающего правила #(*) :Х—>М, которое позволило бы распознать класс г(ет) скрытого объекта со еП, опираясь на его образ х(®) в пространстве наблюдений X, и при этом «не слишком часто» ошибаться. Доступная наблюдателю информация о функциях ¿{со) и х{а), составляющих вместе с множествами £),МиХ первичную модель источника данных ограничиваются результатами наблюдений над конечным числом объектов со1, у = 1,..., N, составляющих так называемую обучающую совокупность. Каждый объект а>1 в обучающей совокупности представлен номером своего класса = ) и образом в пространстве наблюдений х1 = х(ю]).

Задача идентификации состоит в выделении одного диктора по наблюдаемому голосу х, из множества известных дикторов (множество П).

Определяются понятия текстозависимой и текстонезависимой системы идентификации дикторов, а также задачи открытой и закрытой идентификации дикторов.

Рассматриваются наиболее широко используемые методы текстонезависимой идентификации дикторов.

В первом подпункте рассматривается метод, основанный на векторном квантовании. Суть метода заключается в сохранении небольшого количества векторов из пространства наблюдений X, в качестве математического описания индивидуальности голоса диктора. Данный набор векторов У = {у,}, называется кодовой книгой.

Описывается ряд решающих правил, в том числе и правило основанное на минимальном расстоянии: | т

¿{{*,}Г) = агёт'п-]Г тШ (*,,>-,)]. (1)

\SkSL '

Здесь {х,}\ - последовательность векторов из пространства наблюдения, Ь - количество известных дикторов, Ук - кодовая книга к -го диктора, £/(•,•) - расстояние между двумя векторами из пространства наблюдения.

Рассматривается ряд методов формирования кодовой книги диктора на основе обучающих последовательностей векторов из пространства наблюдения {*,)[. При этом, рассматриваются как хорошо известные методы, использующие для формирования кодовой книги диктора только его обучающие данные (на основе к-средних, ЛБГ алгоритм), так и менее известные методы, использующие для формирования всех кодовых книг все обучающие данные (Метод Обучения векторного квантования - ЬУ(3).

Во втором подпункте описывается метод, получивший в литературе название "гауссовых смесей". Суть метода состоит в использовании идей теории вероятности и состоит в построении плотности вероятности в пространстве наблюдения на основании обучающих данных. При этом используются методы моделирования неизвестной плотности вероятности, предложенные Розенблатом (1956) и Парзеном (1962). Плотность вероятности р(х) для одного вектора из пространства наблюдений задается следующим выражением:

N

p{x\Y) = '^a,p(x\ml,sl), где а, - вес i-ro гауссиана; х (еХ)- вектор из пространства м

наблюдений; т, - вектор математического ожидания i-ro гауссиана; л, - ковариационная матрица i-ro гауссиана; 1' = {у,}?ш, набора параметров, состоит из наборов у,, каждый из которых содержит вес гауссиана, вектор математических ожиданий и ковариационную матрицу, т.е. у, = р(х\у,) - плотность многомерного нормального

распределения.

Описано решающее правило, построенное на основе вычислении суммы коэффициентов правдоподобия:

g(X) = argmax{log(P(* | У,))} = argmax{£log(;,(*, | Yt))}. (2)

mil IikiL

Рассмотрены методы формирования параметров решающего правило. В том числе рассмотрен метод основанный на основе максимизации ожидания (Expectation maximization).

В следующем пункте первой главы рассматриваются некоторые методы нормализации расстояний и вероятностей используемых в решающих правилах (1) и (2). Рассмотрены такие методы как Z-Norm, H-Norm и метод нормализации на основе общей модели (Universal Background Model).

На основании рассмотренных методов, отмечается, что существующие методы текстонезависимой идентификации требуют использования векторов параметров из линейного или евклидового пространства, что существенным образом сужает применимость этих методов в условиях использования зашумленного речевого сигнала Приведены результаты использования рассмотренных методов в условиях несовпадения канала передачи и других условиях. На основании проведенного анализа сформулированы следующие основные недостатки существующих методов:

1) Речевой сигнал с высоким уровнем аддитивного шума сильно искажает используемые представления речевого сигнала и как следствие приводит к ошибкам идентификации.

2) Использование речевого сигнала полученного из различных каналов передачи приводит к большому проценту ошибок идентификации.

3) Решение задачи открытой идентификации дикторов часто требует априорного знания типа канала передачи речи.

Далее в главе формулируются следующие направления преодоления отмеченных недостатков:

1) Поиск новых робастных характеристик речевого сигнала.

2) Усложнение методов принятия решения.

3) Развитие методов работы с уже известными робасгными характеристиками речевого сигнала.

Производится анализ каждого из направлений решения проблемы. На основании проведенного анализа обосновывается необходимость развития математического аппарата и методов работы с робасгными характеристиками. Формулируются задачи исследования, состоящие в развитии математического аппарата для работы с формантными наборами и создании методов текстонезависимой идентификации дикторов и их исследовании на реальных данных.

Вторая глава посвящена рассмотрению робастных характеристик речевого сигнала - формантаых наборов.

В первом пункте представлен новый метод выделения формантных характеристик, состоящий в аппроксимации спектра мощности речевого сигнала суммой функций специального вида:

Параметры <т(1 и <т,2 вычисляются из условий: д,( и'-Ди') = 5'(и'-Ди>), 6Ди'+Д№) = 5(у1'+Ди'), где Ди> - параметр модели, характеризующий полуширину форманты. Количество членов разложения - N выбирается из условия двукратного превышения количества ожидаемых максимумов в спектре. При практической проверке

("ч»,У

Я(ч>)* =£0И, где £/(*") -

дг

А{е '■' < и»,

А,е ,Л , и> > уу,

данного метода было замечено, что количество формант не превышает 11 даже для шипящих звуков. Параметр Дм» выбирался равным 100 Гц.

Понятие форманты и пространства формант, формантного набора и пространства формантных наборов, определяются следующим образом:

Определение: под формантой будем понимать пару положительных вещественных чисел / = (и», а). Здесь и> - представляет собой частоту форманты, а а - ее амплитуду. Определение: под пространством формант будем понимать множество Н с Л2, такое, что любой вектор / = (»,«) е Н удовлетворяет следующим свойствам: и<> 0 и а > 0. Определение: под формантным набором будем понимать набор формант Р = {/, },1, = К", )},!,, такой что

1) ус, * и»,,если

2) N - целое, положительное число.

Определение: под пространством формантных наборов будем понимать множество всех возможных формантных наборов.

Во втором пункте определяется функция сравнения двух формант /, = а,) и /г=(и'г,аг): /!(/,,/,) = тт{г(/,,/2),г(/,,(и-,,0)) + г(/2,(и>2,0))}, где г(/,,/,) - функция, являющаяся метрикой в Л2 и удовлетворяющая, кроме всех свойств метрики, следующему свойству: /•((и>„я1),(и>|,0)) < г((и>,,я,),(»ег,а2))+г((тл>г,о,),(ус2,0)).

Для введенной таким образом функции й(у), доказывается теорема: Теорема: функция Ь^/э) является метрикой в пространстве формант Н, т.е. выполняются следующие утверждения:

1) ВД&)>0, причем ОД/гН) <=>

2) ВД^Н^/,),

3) ад/з^ь^м^).

На основании расстояния между двумя формантами, расстояние между двумя формантными наборами определяется следующей последовательностью определений. Определение: под сопоставленной нулевой формантой к форманте f = {у/,а) будем понимать форманту следующего вида (и-,0).

Определение: под соответствием двух формантных наборов ^ = {/,.,}"', = {(.**,,,а,,)}"', и Г, = = К**', , будем понимать тройку: две последовательности номеров В,, В,

и перестановку шах(Лг,,Дг:) целых чисел В. Состав последовательностей Я, и 8, изображен на рисунке 1.

В,К1,2,3,...,Ыь;1^-1) В2=( 1.2,3 ,• • • ,N2,-1^-1)

Количество-1 равно Количество-1 равно

шахСМ,,Ы2)-К, тах(МьЫ2)-М2

Рисунок I - Состав множеств номеров В1 и В2

Определение: введем функцию сравнения двух формантных наборов следующим образом: л»ИА)

¿(Р],Р2)=пип{ 2]Л(/1„(0,/2>Д2(я(,)))}, где при вычислении функции А, если один из " м

параметров имеет вид /_", л =1 или 2, то под ним понимается соответствующая нулевая форманта ко второму аргументу.

Для введенной таким образом функции сравнения двух формантных наборов доказывается следующая теорема:

Теорема: функция ¿(^ ,Г2) является метрикой в пространстве формантных наборов X, т.е. выполняются следующие утверждения:

1) 0,причем =

2) </(Г„Гг) = </(/?„?,),

3)

В третьем пункте рассматривается практически важный случай, когда имеется центральный формантный набор и последовательность формантных наборов, такая, что при сравнении центрального формантного набора и формантного набора из этой последовательности расстояние не содержит сопряженных с нулем формант. Другими словами, последовательность формантных наборов

и центральный формантный набор

удовлетворяют условию

УгЛ<1<Ы расстояние ¿(Т7,,^) содержит только слагаемые вида ).

Выведен итерационный алгоритм оптимизации центрального формантного набора, уменьшающий сумму расстояний от центрального формантного набора до формантных наборов {/7,},1|, и состоящий в следующей итерационном вычислении по следующим формулам:

^ дао) j. wa,<»

_ _ Рим-3/?+(wi.»,u)-™jf

aj^-r1-j-.w/=tJ!-j-• (3)

v 1 v__ 1

Доказывается теорема, на основании которой делается вывод о том, что построенный метод итерационный алгоритм является сходящимся. Теорема: Пусть имеется последовательность формантных наборов ={(fu,a,j)%}?.,, и формантныйнабор F0 = {(f0j>Wo,j)%) > такие, что

Vi:l<i<N расстояние d(F,,Fa) содержит только слагаемые вида r(f,j,fQJt).

Тогда, для формантного набора F, определяемого (3), справедливо следующее неравенство:

¿¿(^/^¿¿(F.-F,)-

ы /->

На основании построенного алгоритма строится второй алгоритм формирования множества центральных формантных наборов, на основе другого множества формантных наборов путем удвоения их количества и оптимизации некоторых из них по построенному алгоритму:

Пусть на к-м шаге были получены центральные формантные наборы FkJ, / = 1,2,...,2', тогда построение новой кодовой книги описывается следующим алгоритмом увеличения размера кодовой книги:

1) Удвоение размера кодовой книги: Fk*iM ={/j*y2l}% ={/"}%, FWM = {f™™}% = {//•' - //")%, l = 1,2,...,2', где f';J, j = 1,2,..., N0 - некоторые случайные, небольшие вектора из <R2.

2) Разбиение 2* подпоследовательностей предыдущего шага - , I = 1,2,...,2', на 2м подпоследовательностей {F,MJ}%" )%)f,;'J,

I = 1,2,-,2м, по следующему правилу: Для каждого / = 1,2,...,2*, в 2/-ю

подпоследовательность относятся формантные наборы F, из {/^ii!", для

Ä -

которых верно неравенство ). Остальные

1-1 " j-1 '

формантные наборы из , относятся в 2/+1-ю подпоследовательность.

3) В соответствии с доказанной теоремой, используя итерационный процесс, описываемый формулами (3), для каждой 21 +1 -й подпоследовательности можно построить формантные наборы / = 1,2,...,2*, такие, что

= ar^ min Хк/у. /). где / - произвольная форманта Формантные

/ м

наборы р*'1-2' = / = 1,2,...,2*, т.е. оставляются без изменения.

I * —

4) Вычисления среднего расстояния: Ем = —Т min d(F,,Fuv).

5) Если среднее расстояние Ем меньше порога то завершить алгоритм, иначе увеличить номер текущей итерации: к к+1 и перейти к шаху 1.

Для данного алгоритма так же доказывается теорема, на основании которой делается заключение, что он является сходящимся.

Теорема: Пусть на к-м шаге были получены центральные формантные наборы FkJ,

1 = 1,2.....2*, после применения алгоритма увеличения размера кодовой книги были

получены новые центральные формантные наборы Fk*u, I = 1,2,...,2**', тогда выполняется следующее соотношение:

—V min d(F,,FMJ)<—Y min d(.F,,FkJ).

В четвертом пункте рассматриваются некоторые задачи общей теории распознавания образов, предлагается ряд методов, позволяющих использовать пространство формантных наборов в качестве пространства наблюдений при решении задач распознавания образов. При этом получены результаты, служащие математической основой методологии использования формантных наборов в теории распознавания образов.

В первом подпункте построены два решающих правила, позволяющих принимать решение о принадлежности последовательности формантных наборов одному

классу из L классов, описанных своими кодовыми книгами У< = {ykJ}fi ■ Первое основано на вычислении среднего расстояния:

«{*,},'I1) = aigminl£min[</(*,,)0]. (4)

IStS L N й fr.

Второе основано на мажоритарном решении:

к

&({*,}м ) = argmax V m*, где

Т SkSL „1

fl если расстояние min [d(x.,y)] минимально Vk = 1,2.....L

m, = •{ У*>i

[О в другом случае

Во втором подпункте дается постановка задачи обучения, котороая формулируется

следующим образом:

Даны N формантных наборов обучающей выборки: {xt,x2,...,x„}.

Необходимо найти набор формантных наборов У, минимизирующий следующий

1 "

функционал: D(y,{xl}f.l) = —^mind(xl,y).

Предложен первый алгоритм решения поставленной задачи. Предложенный алгоритм пытается построить кодовую книгу, выбирая в качестве кодовых формантных наборов формантные наборы из обучающей выборки и состоит из следующих шагов:

1) случайным образом выбираются S векторов из обучающей выборки, которые и составляют начальную кодовую книгу Y0 = {л0}?,,. номер итерации i <- 0;

2) разбиваем обучающую последовательность на подпоследовательности:

Х[ = {•*, I arg min d(Xj,y) = у[} = {д^}*!,, k = 1.....S, где S'k - количество векторов

yeY1

в к -й подпоследовательности;

3) строим новую кодовую книгу У'*', находя в каждой подпоследовательности

новый центральный формантный набор:

У? = arg min ¿¿(jc^jO;

yexl

4) увеличиваем номер итерации /-«—/ +1;

5) если не выполнен некоторый критерий окончания итераций, то перейти к шагу 2.

Иначе завершить алгоритм. Для данного алгоритма, как и для всех предыдущих доказывается теорема, на основании которой делается заключение что построенный алгоритм гарантированно сходится в том смысле, что последовательность значений минимизируемого функционала сходится к некоторому значению:

Теорема: последовательность шагов 2 и 3, описанного выше алгоритма приводит к построению новойкодовой книги Ум = , такой, что ДУ'*1,)<ДУ',{*;}£,).

Вопрос о единственности разрешается приведением примера, показывающего, что в зависимости от выбора начальной кодовой книги на шаге 1, алгоритм может сходиться к различным, локальным минимумам.

Во втором подпункте производится формальное построение второго метода построения кодовой книги, в основу которого положены алгоритмы третьего пункта второй главы. Для этого построен алгоритм, разбивающий исходную последовательность в набор подпоследовательностей, каждая из которых является последовательностью, которые рассматриваются в третьем пункте. Затем, используя методы третьего пункта, для каждой подпоследовательности формируется своя кодовая книга. Объединяя все построенные кодовые книги, получают результирующую кодовую книгу, построенную по обучающим данным.

В третьей главе рассмотрены вопросы построения математических моделей явления индивидуальности голоса диктора. Показана взаимосвязь разрабатываемых моделей и задачи распознавания образов из области искусственного интеллекта.

В первом пункте, на основании установленной взаимосвязи, а также используя результаты второй главы, производится формальное построение двух методов текстонезависимой идентификации дикторов. Оба построенных метода используют решающее правило (4). Различие между построенными методами заключается в процедуре обучения. Первый метод использует алгоритм из первого подпункта четвертого пункта второй главы. Второй метод использует алгоритм из второго подпункта четвертого пункта второй главы. Как видно, построенные методы не учитывают динамические характеристики.

Для учета динамических характеристик во втором пункте, предлагается метод учета соседних формантных наборов во временной области путем перехода от

последовательности формантных наборов к последовательности целых чисел. На основании полученной последовательности целых чисел, строятся подпоследовательности одинаковой длины получаемые из последовательности целых чисел. Анализируются вопросы построения плотности распределения вероятности р2=р2(6). На основании результатов анализа делается вывод о том, что строить параметрическую функцию для распределения не имеет смысла. Более того, это может оказаться даже вредным, поскольку может привести к сглаживанию особенностей отдельного диктора в сторону некоторой общей для всех дикторов модели, что способно привести к падению точности.

В третьем пункте разрабатывается третий метод текстонезависимой идентификации дикторов, учитывающий как статистические, так и динамические характеристики речевого сигнала Построен метод перехода от вероятности рг = р2(0 к расстоянию: йг =-1о на основании которого построено решающее правило:

£({*,![) = аг8 тт 11{Ук,р*Лх,}]) = агё гшп

Т Т-1

(1 - С2 )£ 1ШП ¿(у^-с^^р^) 1-1 У

основанное на взвешенной сумме двух расстояний, вычисляемых на основании статистических и динамических характеристик.

Четвертая глава посвящена описанию практической реализации разработанных методов текстонезависимой идентификации дикторов.

В первом пункте рассмотрены различные методы вычисления расстояния между формантными наборами, построенного во второй главе. Рассматриваются три различных алгоритма вычисления расстояния.

Во втором пункте проводится сравнения временных характеристик построенных алгоритмов вычисления расстоянм между формантными наборами. Показывается, что при плохой реализации алгоритма увеличение времени вычисления расстояния, по сравнению с наилучшей из предложенных, может достигать 120 раз (см. рисунок 2).

Третий пункт, посвящен описанию программной реализации разработанного программного обеспечения, реализующего построенные методы и алгоритмы.

В четвертом пункте, для практической проверки свойства робастности, производится сравнение точности работы построенных методов с существующим методом, основанным на гауссовых смесях. Для этого был проведен ряд практических экспериментов на реальных данных. Во всех экспериментах рассматривалась задача верификации дикторов. Т.е. система обучалась на одного диктора, после этого для

распознавания подавались образцы речи как этого же диктора, так и других дикторов. Если система для правильного диктора принимала решение, что это не тот диктор, на которого она обучена, то данная ошибка считалась "Пропуском цели" или просто "Пропуском". Если система принимала решение, что анализируемый речевой сигнал принадлежит тому диктору, на которого она обучена, то данная ошибка называлась "Ложной тревогой".

соответственно

Рисунок 2 - Время вычисления одного расстояния различными методами

Используемая для проведения тестирования база содержала записи речи 51 диктора Для обучения использовался образец речи диктора длительностью от 60 до 120 секунд, для тестирования использовался другой образец речи длительностью от 24 до 60 секунд. Речевые сигналы содержались в аудио файлах в формате A-Law с частотой оцифровки 8 кГц. Данное представления данных было выбрано с целью приближения к условиям реальной телефонной линии, поскольку оно описано в качестве стандарта для использования в реальных телефонных линиях (стандарт ГГО-Т 0.711).

В соответствии с описанной методикой проведения экспериментов система обучалась на одного диктора, с использованием обучающего образца речи. Затем на вход системы подавались образцы речи всех дикторов, при этом один образец играл роль

образца речи диктора, на которого система обучена, а остальные 50 играли роль образцов речи дикторов, неизвестных системе.

Для проверки свойства робастносги построенных методов подаваемые для идентификации образцы дополнительно искажались путем добавления белого шума с заданным соотношением сигнал/шум.

На рисунке 3 изображены результаты, полученные при соотношении сигнал/шум равным 10 дБ. На рисунке 4 отображены результаты при отсутствии искажений. Значения эквивалентной ошибки для промежуточных значений соотношения сигнал/шум показаны в таблице 1. Как видно из рисунков 3 и 4, даже при отсутствии искажений, первый из предложенных методов работает хуже чем третий при соотношении сигнал/шум равным 10 дБ. Поэтому в таблице 1 и на рисунке 3 первый из предложенных методов практически не рассматривается.

Для сравнения, на рисунке 3 паказана кривая соответствующая случаю когда решение о принадлежности анализируемой речи диктору принимается на основе вещественной случайной величины, с использованием порогового решающего правила.

4 — - Гауссовы смеси

0,01

- Случайное принятие решения

Предложенный метод 2

Предложенный метод 3

0,01

0,1

Вероятность пропуска

1

Рисунок 3 - сравнение точности работы разработанных методов при соотношении сигнал/шум 10 дБ

— -Случайное

принятие решения

- - 'Предложенный метод 1

— Предложенный метод 2

Предложенный метод 3

Рисунок 4 - сравнение точности работы разработанных методов при отсутствии шума

Таблица 1 - сравнение точности работы разработанных методов при различном соотношении сигнал/шум

Метод идентификации Соотношение Сигнал/Шум (дБ)

10 15 20 25 30 35 40 45

На основе гауссовых смесей 42% 33% 21% 12% 5,5% 3,0% 3,0% 3,0%

Предложенный метод 1 - - - - - - - 12%

Предложенный метод 2 33% 21% 9,5% 6,0% 5,0% 4,6% 4,6% 4,6%

Предложенный метод 3 8,5% 3,2% 2,5 2,2% 2,1% 2,0% 2,0% 2,0%

Из полученных результатов видно, что третий из построенных методов при соотношении сигнал/шум хуже 30 дБ, показывает точность, значительно превосходящую точность остальных методов, в том числе широко используемого метода основанного на гауссовых смесях. При значениях сигнал/шум лучше 30 дБ третий метод оказывается не менее, чем в 1,5 раза лучше, чем другие рассматриваемые методы, в том числе метод, основанный на гауссовых смесях.

В заключении обобщены итоги и результаты проведенных исследований.

Вероятность пропуска

ОСНОВНЫЕ РЕЗУЛЬТАТЫ, ВЫНОСИМЫЕ НА ЗАЩИТУ

1. Предложен метод выделения робастных характеристик речевого сигнала -форматных наборов.

2. Разработан способ введения метрики в пространстве формантных наборов.

3. Предложены математические модели индивидуальности голоса диктора, основанные на формантных наборах

4. Разработаны сходящиеся, итерационные алгоритмы формирования параметров модели индивидуальности голоса диктора.

5. Предложены методы текстонезависимой идентификации дикторов по их речи, использующие построенные математические модели индивидуальности голоса диктора.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ ОПУБЛИКОВАННЫ В СЛЕДУЮЩИХ РАБОТАХ

1. Аграновский A.B., Леднов Д.А., Репалов С.А., Сулима П.М. Сегментация и построение структуры слова первого порядка для систем распознавания речи.// Сб. тез. Всероссийской н.-т. конф. с международным участием «Компьютерные технологии в инженерной и управленческой деятельности», г. Таганрог, 19-21 апреля 2000, стр. 61-64

2. Аграновский A.B., Леднов Д.А., Репалов С.А., Телеснин Б. А. Система автомагической классификации фонем русского языка при ее обучении методом группового учета аргументов // Тез. Докл. Междун. Науч. Конф. 11-16 сен. 2000. Кацивели, Крым, стр. 106-108

3. Аграновский A.B., Леднов Д.А., Репалов CA., Телеснин Б.А. Система автоматической классификации фонем русского языка при ее обучении методом группового учета аргументов //Искусственный интеллект 3'2000, стр.400-403.

4. Аграновский A.B., Леднов Д.А., Репалов С.А. Оценка точности тексгонезависимых систем идентификации дикторов, на основе экспериментальных АЧХ голосовых трактов дикторов. // Телекоммуникации № 6,2000, стр 6-17

5. Аграновский A.B., Леднов Д.А., Потапенко А.Н., Репалов С.А., Сулима П.М. Способ выделения основного тона из речевого сигнала // патент РФ на изобретение № 2184399 от 22.09.2000, МПК 7 J 10 L 15/00

I 21

i

6. Аграновский A.B., Леднов Д.А., Репалов С.А., Сулима П.М. Сегментация и 1 построение структуры слова первого порядка для систем распознавания речи. // Сб.

тез. Всероссийской н.-т. конф. с международным участием «Компьютерные технологии в инженерной и управленческой деятельности», г. Таганрог, 2001, стр. 201-202

7. Репалов С.А. Построение моделей слов, инвариантных относительно изменений ' темпа речи для системы распознавания дискретной речи. II Сборник

«Фундаментальные и прикладные проблемы современной техники». 5-й выпуск, ^ Ростов-на-Дону: изд-во СКНЦ ВШ, 2001. стр 124-129.

8. Аграновский A.B., Зозуля В.А., Леднов Д.А., Мясников А.П., Репалов С.А. Метод текстонезавизимой идентификации диктора, на основе индивидуальности произношения гласных звуков. // Сборник трудов X международной научной конференции «Информатизация правоохранительных систем», стр. 312-314,2001

9. Аграновский A.B., Леднов Д.А., Репалов С.А., A.A. Леонтьев, A.M. Потапенко Модель цифровой фильтрации импульсных шумов в телефонном канале. // Телекоммуникации № 5,2001, стр. 5-8

10. Аграновский A.B., Карпов И.А., Леднов Д.А., Репалов С.В. Использование метода группового учета аргументов для фонетического обучения // Сборник трудов XI сессии Российского акустического общества. Т. 3. «Акустика речи. Медицинская и биологическая акустика.» - М: ГЕОС, 2001. стр. 107-110

11. Agranovsky A.V., Lednov D.A., Potapenko A.M., Repalov S.A. Segmenting a signal containing a conversation of several speakers into monologue constituents. // Proceedings of SPECOM-2001,pp 139-142

, 12. Аграновский A.B., Зулкарнеев М.Ю., Леднов Д.А., Репалов С.А., Организация

иерархической модели распознавания слитной речи // Искусственный интеллект 3'2001, стр. 17-22.

«

13. Карпов И. А., Леднов Д.А., Репалов С.А. Выделение монологических составляющих беседы многих дикторов // Тезисы докладов международной научной конференции «Интеллектуальные и многопроцессорнье системы- 2001». Таганрог: Изд-во ТРТУ, 2001. стр. 92-95

14. Аграновский A.B., Зулкарнеев М.Ю., Леднов Д.А., Репалов С.А., Двухслойная модель распознавания слитной речи // Материалы научной молодежной школы «Интеллектуальные робототехнические системы- 2001», стр.130-132.

15. Аграновский A.B., Леднов Д.А., Репалов С.А., Исследование устойчивости параметров индивидуальности голоса диктора к искажениям голоса// Сборник трудов XI международной научной конференции «Информатизация и информационная безопасность правоохранительных органов», 21-22 мая, 2002, стр. 351-354

16. Репалов С.А., Автоматическое построение разбиения диалога на монологические составляющие при априорной неизвестности параметров голосов дикторов // Материалы Международной научно-технической конференции «Исскуственный интеллект-2002»., Т.2., стр. 32-35

17. Аграновский A.B., Леднов Д.А., Репалов С.А., Метод выделения монологических составляющих беседы многих дикторов в условиях априорной неизвестности параметров голосов дикторов// Искусственный интеллект 4'2002, стр. 151-156

18. Аграновский A.B., Леднов Д.А., Репалов С.А., Метод текстонезависимой идентификации дикторов на основе индивидуальности произношения гласных звуков // Акустика речи н прикладная лингвистика. Ежегодник Российского акустического общества Выпуск 3. М., 2002, стр. 103-115

19. Agrauovsky A.V., Lednov D.A., Repalov S.A., Working out of voice wraping compensation parameters estimation technique // Abstracts of International Association for Forensic Phonetics and European Network of Forensic Science Institution Annual Conference, 1-4 July, 2002, pp. 2-9

20. Леднов Д.А., Мартынов А.П., Репалов C.A., Сыров А.Н., Фомченко В.Н. Математическое описание системы идентификации по речи // Седьмая нижегородская сессия молодых ученых . (математические науки): тезисы докладов. - Н. Новгород: Изд. Гладкова О.В., 2002. - стр. 31-32.

21. Аникеев В. В., Гончаров С. Н,, Мартынов А. А., Марунин М. В., Аграновский А. В., Леднов Д. А., Репалов С.А. Использование метода выделения голосовой информации для обеспечения безопасности промышленных объектов // II сессия молодежной школы-семинара "Экологическая и промышленная безопасность", Тезисы докладов, РФЯЦ-ВНИИЭФ, Саров, 2002. - стр. 77 - 79.

22. Курочкин А. А., Мартынов А. П., Николаев Д. Б., Фомченко В. Н., Булаев В. В., Репапов С. А., Христич С. В. Математическая оценка характеристик систем идентификации // II сессия молодежной школы-семинара "Экологическая и промышленная безопасность", Тезисы докладов, РФЯЦ-ВНИИЭФ, Саров, 2002. - стр. 85-87.

23. Аграновский A.B., Гончаров С.Н., Леднов Д.А., Мартынов А.П., Николаев Д.Б., Репалов С.А., Фомченко В.Н. Исследование построения систем идентификации по речевым характеристикам. Учебно-методическое пособие,- Саров: «ИНФО», 2002.

24. Гончаров С.Н., Курочкин A.A., Мартынов A.A., Мартынов А.П., Леднов Д.А., Репалов С.А. Помехоустойчивость подсистемы идентификации речи в цифровых системах обработки результатов физических экспериментов, Седьмая нижегородская сессия молодых ученых. (Естественнонаучные дисциплины): Тезисы докладов.-Н.Новгород: Нижегородский гуманитарный центр, 2002, стр. 132-133

25. Аграновский A.B., Леднов Д.А., Репалов С.А., Телеснин Б.А. Фильтрация речевых сигналов // Свидетельство об официальной регистрации программы для ЭВМ №20036113 Ю/РОСПАТЕНГ. - М., 29.05.2003.

26. Аграновский A.B., Леднов Д.А., Репалов С.А., Телеснин Б.А. Автоматическая идентификация личности по голосу // Свидетельство об официальной регистрации программы для ЭВМ №2003611312/РОСПАТЕНТ. - М, 29.05.2003.

27. A.B. Аграновский, Р.Э. Арутюнян, С.А. Репалов Выделение монологических составляющих беседы многих дикторов // Акустика речи. Медицинская и биологическая акустика. Сборник трудов XIII сессии Российского Акустического Общества. Т.З. - М.: ГЕОС, 2003, стр. 21-25.

№ 1 «517

2оо?-А

Тип. ООО «ФЕНИКС» Заказ № 892 от 06.10 2003 г. Тираж 100 экз

Оглавление автор диссертации — кандидата физико-математических наук Репалов, Сергей Анатольевич

Принятые обозначения и сокращения.

Введение.

1 Обзор и анализ методов идентификации дикторов по их речи.

1.1 Обзор методов предобработки и представления речевого сигнала используемых для решения задачи идентификации дикторов.

1.1.1 Математическое описание сигнала.

1.1.2 Спектральное представление (дискретное преобразование Фурье).

1.1.3 Коэффициенты линейного предсказания (КЛП).

1.1.3.1 Автокорреляционный метод.

1.1.3.2 Ковариационный метод.

1.1.4 Гомоморфная обработка речи. Кепстральное представление.

1.1.5 Психоакустика. Мел-, Барк- шкалы.

1.1.6 Мел-спектры.

1.1.7 Формантные характеристики.

1.2 Обзор и анализ математической модели и методов решения задачи идентификации диктора.

1.2.1 Методы идентификации диктора по произвольному тексту.^Т^ГЗО

1.2.1.1 Векторное квантование (ВК).

1.2.1.2 Гауссовы смеси.

1.2.1.3 Методы нормализации характеристик.

1.3 Недостатки и направление их разрешения.

1.4 Постановка задачи исследования.

Выводы.

2 Построение пространства формантных наборов и математической модели голоса диктора, использующей формантные наборы.

2.1 Построение пространства формантных наборов.

2.2 Построение метрики для сравнения формантных наборов.

2.3 Нахождение центральных формантных наборов, для последовательностей специального вида.

2.4 Построение методов работы с множествами формантных наборов.

2.4.1 Методы нахождения расстояний между множествами формантных наборов

2.4.2 Первый метод вычисления подмножества.

2.4.3 Второй метод вычисления подмножества.

Выводы.

3 Построение математических моделей голоса диктора и робастных алгоритмов текстонезависимой идентификации дикторов.

3.1 Математические модели индивидуальности голоса диктора, не учитывающие динамических характеристик.

3.1.1 Первый метод тестонезависимой идентификации дикторов по их речи.

3.1.2 Второй метод тестонезависимой идентификации дикторов по их речи.

3.2 Математическая модель индивидуальности голоса диктора учитывающая динамические характеристики.

3.3 Третий метод тестонезависимой идентификации дикторов по их речи.

Выводы.

4 Практическая реализация и анализ разработанных методов.

4.1 Описание алгоритмов вычисления расстояния.

4.2 Сравнение временных характеристик алгоритмов вычисления расстояния.

4.3 Описание программной реализации.

4.4 Сравнение робастности описанных и стандартных методов текстонезависимой идентификации дикторов.

Выводы.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Репалов, Сергей Анатольевич

Актуальность темы идентификации личности по голосу высока, поскольку она оказывается востребованной во многих областях человеческой деятельности. Подтверждением этого является тот факт, что на различных конференциях посвященных акустике и вопросам обработки речи доклады, посвященные вопросам идентификации и верификации дикторов часто выделяются в отдельные секции. Например, на конференции International conference on Acoustics, Speech and Signal Processing (ICASSP) в 2000-м году были представлены 20 докладов, разбитые на две секции. К 2003 году их число увеличилось до 35, а число секций до четырех. Аналогичная картина наблюдается и на других конференциях, например на Eurospeech, международных научных конференциях «Информатизация и информационная безопасность правоохранительных органов».

Возрастающий интерес к задаче идентификации личности по голосу связан как с успехами, достигнутыми в последнее время, так и с большим спектром практических применений данной задачи. Работа крупнейших научных лабораторий и компаний мира, таких как IBM TJ. Watson Research Center, AT&T, Oregon Graduate Institute, MIT Lincoln Laboratory, Philips и т.д., позволила за последние десятилетия перейти от теоретических разработок и лабораторных систем к практическим приложениям обработки речи (управление голосом, диктовка, обеспечение персонализированного доступа) с приемлемыми характеристиками.

Среди направлений практических применений можно выделить такие сферы, как криминалистическая экспертиза фонограмм устной речи с целью установления личности произнесшей записанную на них речь. Это направление, широко используемое в правоохранительных органах, является наиболее проработанным как с практической, так и с теоретической точки зрения. Однако часто, при обработке зашумленных или искаженных записей эксперты вынуждены отказываться от проведения экспертизы. Обусловлено это тем, что до сих пор не разработаны теоретические основы выделения робастных параметров речевого сигнала и методы их обработки.

Системы автоматической идентификации личности по голосу, построенные в последнее десятилетие, достигают значений вероятности ошибок, позволяющих использовать их в практических приложениях. Системы верификации личности по голосу часто используются в банковских приложениях, при доступе клиента к информации своего банковского счета по телефонной линии. При этом, от пользователя требуют произнесения заранее оговоренной парольной фразы. Системы текстонезависимой идентификации диктора могут использоваться в системах речевого командного интерфейса как для постоянного подтверждения того факта, что команды отдает лицо, имеющее на это право, так и для выделения из непрерывного потока речи команд сказанных заданным диктором. Тем не менее, величина ошибок первого и второго рода даже у лучших систем находится на уровне 10% [20]. Из сказанного вытекает, что задача дальнейшего увеличения точности работы систем текстонезависимой идентификации дикторов является весьма актуальной. При этом, как показывают исследования [36], [33], [31] одной из основных причин ошибок является как аддитивный шум, так и мультипликативный шум, привносимый каналом передачи речевого сигнала.

Существуют и достаточно давно известны различные робастные характеристики речевого сигналаю, но они практически не используются в задачах автоматической и автоматизированной обработки речевого сигнала по причине сложности их обработки. Известно, что характеристики лежащие на просодическом и микропросодическом уровне не подвержены влиянию различных шумов канала передачи, и их учет при принятии решения позволяет значительно повышать точность принимаемого решения [38], [29], [6], [3] и [14]. Все это обуславливает наличие перспективных путей по созданию математических моделей идентификации дикторов по их речи на основе робастных характеристик речевого сигнала, использующих как статистические, так и динамические характеристики речевого сигнала.

Таким образом, налицо потребность в новых математических моделях идентификации дикторов по их речи, позволяющих разрабатывать робастные алгоритмы текстонезависиомой идентификации дикторов, на основе робастных характеристик речевого сигнала.

Областью исследования является разработка новых математических основ обработки робастных характеристик речевого сигнала, и математических методов моделирования в теории распознавания речевых образов.

Предметом исследования являются математические основы методов обработки робастных характеристик речевого сигнала, а так же математические модели, методы и робастные алгоритмы идентификации дикторов по их речи, использующие робастные характеристики речевого сигнала.

Цель исследования состоит в разработке математической модели голоса диктора, позволяющей строить алгоритмы текстонезависимой идентификации повышенной точности, в условиях использования зашумленных или поврежденных записей речи дикторов

Научная задача, исследования состоит в разработке математических основ обработки робастных характеристик речевого сигнала и разработке методов теории распознавания образов, использующих робастные характеристики речевого сигнала.

Математический аппарат исследования. В работе использовалась теория метрических пространств, теория цифровой обработки сигналов, теория распознавания образов и элементы теории вероятностей и математической статистики.

Границы исследования. В исследовании рассматриваются математические основы обработки робастных характеристик речевого сигнала и методы распознавания образов, использующие эти характеристики речевого сигнала.

Научная новизна работы определяется тем, что впервые разработан и исследован математический аппарат обработки робастных характеристик речевого сигнала. На основании разработанного аппарата, построены методы распознавания образов, использующие робастные характеристики речевого сигнала.

Практическая ценность и реализация. Результаты проведенных исследований нашли непосредственное применение при создании систем текстонезависимой идентификации дикторов по их речи.

Основные результаты исследований использованы в учебном процессе в Саровском государственном физико-техническом институте (г. Саров), при выполнении хозрасчетных работ "Индус" и "Чарли-Р", а так же в работе выполняемой СКНЦ ВШ в рамках региональной научно-технической программы.

Результаты исследования могут найти применение при построении систем обработки речевых сообщений, например, в системах распознавания речи и голосовых команд, в системах тексозависимой и текстонезависимой идентификации дикторов и в системах верификации дикторов.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на X международной научной конференции «Информатизация правоохранительных систем» (Москва, 2001), на XI сессии Российского акустического общества (Москва, 2001), на международной конференции Speech and Communications

Москва, 2001), на международной научной конференции «Интеллектуальные и многопроцессорные системы- 2001» (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2001), на XI международной научной конференции «Информатизация и информационная безопасность правоохранительных органов» (Москва,2002), на международной конференции International A ssociation for Forensic Phonetics and E uropean Network of Forensic Science Institution (Москва, 2002). Полученные автором результаты изложены в 9 научных статьях и 20 тезисах докладов. Авторство, новизна и полезность принципиальных технических решений защищены патентом РФ.

На защиту выносятся следующие основные положения:

1. Метод выделения робастных характеристик речевого сигнала - форматных наборов.

2. Способ введения метрики в пространстве формантных наборов.

3. Математические модели индивидуальности голоса диктора, основанные на формантных наборах.

4. Сходящийся, итерационный алгоритм формирования параметров математической модели голоса диктора.

5. Методы тестонезависимой идентификации дикторов по их речи, использующие построенные математические модели индивидуальности голоса диктора.

Краткое описание работы. Работа состоит из введения, четырех глав и заключения.

В первой главе рассматриваются тенденции развития и проблематики задачи текстонезависимой идентификации дикторов по их речи. Анализируются различные преобразования исходного речевого сигнала в последовательность векторов признаков, формантные характеристики речевого сигнала. Выявляется свойство робастности формантных характеристик. Отмечается, что существующие методы текстонезависимой идентификации требуют использования векторов параметров из ' линейного или евклидового пространства, что существенным образом сужает применимость этих методов в условиях использования зашумленного речевого сигнала. Далее в главе исследуются различные методы преодоления неробастности используемых векторов параметров на более высоких уровнях, за счет усложнения методов принятия решений. Анализируются различные пути решения проблемы. Обосновывается необходимость развития математического аппарата и методов работы с робастными характеристиками. Формулируются задачи исследования, состоящие в развитии математического аппарата для работы с формантными наборами и создании методов текстонезависимой идентификации дикторов и их исследовании на реальных данных.

Во второй главе представлен новый метод выделения формантных характеристик, состоящий в аппроксимации спектра мощности речевого сигнала суммой функций специального вида, определяется пространство формантных наборов. Доказывается, что оно является метрическим и в явном виде строится метрика. Рассматриваются некоторые задачи общей теории распознавания образов и предлагается ряд методов, позволяющих использовать пространство формантных наборов в качестве пространства наблюдений при решении задач распознавания образов. При этом получены результаты, служащие математической основой методологии использования формантных наборов в теории распознавания образов.

В третьей главе рассмотрены вопросы построения математических моделей индивидуальности голоса диктора. Показана взаимосвязь разрабатываемых моделей и задачи распознавания образов из области искусственного интеллекта. На основании установленной взаимосвязи, а также используя результаты второй главы, производится формальное построение двух методов текстонезависимой идентификации дикторов^ Предлагается метод учета соседних формантных наборов во временной области путем перехода от последовательности формантных наборов к последовательности целых чисел. Рассматриваются подпоследовательности одинаковой длины, получаемые из последовательности целых чисел. Анализируются вопросы построения плотности распределения вероятности. Разрабатывается метод текстонезависимой идентификации дикторов, учитывающий как статистические, так и динамические характеристики речевого сигнала.

Четвертая глава посвящена описанию практической реализации разработанных методов текстонезависимой идентификации дикторов. В ней рассматриваются различные методы вычисления расстояния между формантными наборами. Производится сравнение временных характеристик построенных алгоритмов вычисления расстояния между формантными наборами. Показывается, что при плохой реализации алгоритма увеличение времени вычисления расстояния, по сравнению с наилучшей из предложенных, может достигать 120 раз. Для практической проверки свойства робастности, производится сравнение точности работы построенных методов с существующим методом, основанным на гауссовых смесях. Описывается методика проведения тестирования. На реальных данных производится оценка соотношения ошибок первого и второго рода при различных значениях соотношения сигнал/шум. Показывается, что третий из построенных методов при соотношении сигнал/шум хуже 30 дБ, показывает точность, значительно превосходящую точность существующих методов, в том числе широко используемого метода, основанного на гауссовых смесях.

В заключении обобщены итоги и результаты проведенных исследований.

Заключение диссертация на тему "Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи"

Выводы

В данной главе описаны вопросы практической реализации разработанных методов текстонезависимой идентификации дикторов. Рассмотрены различные методы вычисления расстояния между формантными наборами. Производится сравнение временных характеристик построенных алгоритмов вычисления расстояния между формантными наборами. Показывается, что при неудачной реализации алгоритма увеличение времени вычисления расстояния может достигать 120 раз.

Для практической проверки свойства робастности, производится сравнение точности работы построенных методов с существующим методом, основанным на гауссовых смесях. Описывается методика проведения тестирования. Определяются понятия ошибок первого и второго рода для данного тестирования. Производится теоретическая оценка вероятности совершения ошибок первого и второго рода при случайном принятии решения об идентификации. Затем на реальных данных произведена оценка соотношения ошибок первого и второго рода при различных значениях соотношения сигнал/шум. Показано, что третий из построенных методов при соотношении сигнал/шум хуже 30 дБ, показывает точность, значительно превосходящую точность остальных методов, в том числе широко используемого метода основанного на гауссовых смесях. При значениях сигнал/шум лучше 30 дБ третий метод оказывается не менее, чем в 1,5 раза лучше, чем другие рассматриваемые методы, в том числе метод, основанный на гауссовых смесях.

На основании экспериментальных данных производится оценка некоторых параметров третьей модели текстонезависимой идентификации дикторов. Результатом является тот факт, что для точной идентификации важен учет как статистических, так и динамических характеристик речевого сигнала.

Заключение

Диссертация посвящена исследованию математических основ обработки робастных характеристик речевого сигнала, построению методов распознавания образов и робастных методов текстонезависимой идентификации дикторов. В процессе проведения диссертационного исследования были решены все поставленные задачи.

В процессе решения первой частной задачи было построено робастное преобразование речевого сигнала. В основу разработанного метода были положены процедуры преобразования Фурье и аппроксимации функции суммой функций. Решение этой задачи позволило в дальнейшем строить робастные методы, основываясь на том факте, что при их построении используются робастные характеристики речевого сигнала.

При решении второй частной задачи введены математические объекты, соответствующие формантным наборам и пространство формантных наборов. При исследовании свойств построенного пространства доказаны теоремы, общим результатом которых является тот факт, что построенное пространство является метрическим. В явном виде построена метрика, основанная на вычислении минимальной по всем перестановкам суммы расстояний между сопоставленными формантами. Данный факт дает мощный инструмент для работы с формантными наборами.

В процессе решения третьей задачи построены различные методы работы с формантными пространствами. В частности, построены методы вычислении расстояния между множествами формантных наборов. Построены методы минимизирующие расстояние от исходного множества до формируемого подмножества, что позволяет сформировать подмножество формантных наборов. Так как построенные методы имеют итерационный характер, то для каждого из них доказана сходимость. Отмечен тот факт, что построенное пространство и методы работы с ним могут использоваться не только в задаче текстонезависимой идентификации дикторов по их речи, но и в решении любой задачи обработки речевой информации, требующей использования робастных характеристик речевого сигнала.

Решение четвертой задачи является обобщением материала, полученного в результате решения предыдущих трех задач. На основании этих результатов делается вывод о наиболее предпочтительных моделях индивидуальности голоса диктора, построенных на использовании робастных характеристик. Сделано предположение о том, что для разных дикторов характерны различные последовательности формантных наборов. Для учета взаимосвязи между соседними формантными наборами во временной области предложен метод перехода от последовательности формантных наборов к последовательности целых чисел. Рассмотрены подпоследовательности одинаковой длины, получаемые из последовательности целых чисел. Проанализированы вопросы построения плотности распределения вероятности. Показано, что при практических реализациях нецелесообразно вводить какие-либо параметрические плотности вероятности. Наилучшим выходом является хранение всех подпоследовательностей с эмпирическими вероятностями их появления.

Разработаны две модели индивидуальности голоса диктора:

- основанные на учете статистических характеристик речевого сигнала,

- основанные на учете динамических характеристик речевого сигнала.

В результате решения пятой задачи разработаны три метода текстонезависимой идентификации дикторов по их речи. Первые два метода используют одинаковые характеристики индивидуальности голоса диктора и, как следствие, одинаковое решающее правило. Различие между методами заключается в процедуре формирования параметров модели по эмпирическим данным. Как первый, так и второй методы основаны на использовании статистических характеристик речевого сигнала, без учета их взаимосвязи во времени. Третий метод основан на учете как статистических так и динамических характеристик речевого сигнала. Для этого определено два пространства наблюдений, решающее правило, его параметры и методы формирования параметров решающего правила по эмпирическим (обучающим) данным.

Наконец, при решении шестой задачи произведена оценка точности работы существующих и построенных в пятой главе методов и алгоритмов текстонезависимой идентификации дикторов. Описана методика проведения тестирования. На основании результатов проведенного тестирования продемонстрировано превосходство построенных методов при использовании зашумленных речевых сигналов. Показано, что третий из построенных методов при соотношении сигнал/шум хуже 30 дБ показывает точность, значительно превосходящую точность остальных методов, в том числе широко используемого метода основанного на гауссовых смесях. При значениях сигнал/шум лучше 30 дБ третий метод оказывается не менее, чем в 1.5 раза лучше, чем другие рассматриваемые методы, в том числе метод, основанный на гауссовых смесях.

Библиография Репалов, Сергей Анатольевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Agranovsky A.V., Lednov D.A., Potapenko A.M., Repalov S.A. Segmenting a signal containing a conversation of several speakers into monologue constituents. // Proceedings of SPECOM-2001, pp 139-142

2. Andre Adami, Radu Mihaescu, Douglas Reynolds, John Godfrey MODELING PROSODIC DYNAMICS FOR SPEAKER RECOGNITION, In proc. of International conference on Acoustics, Speech and Signal Processing 2003, Vol. 4, pp. 788-791,2003

3. Auckenthaler R., Carey M., Lloyd-Thomas H. Scorenormalization for text-independent speaker verification systems. Digital Signal Processing, 10(l-3):42-54, January/April/Jul у 2000.

4. Auckenthaler R., Parris E.S., Carey M.J. Improving a GMM Speaker Verication System by Phonetic Weighting // In proc. of International conference on Acoustics, Speech and Signal Processing 1999, Vol. l,pp. 1440-1443,1999.

5. Bottou L., Bengio Y. Convergence properties of the k-means algorithms. Advances in Neural Information Processing Systems 7, pages 585-592. The MIT Press, Cambridge, MA, 1995.

6. Brimberg J., Chen R., Chen D. Accelerating convergence in the Fermat-Weber location problem, Open Research Letters 22 (1998), pp. 151-157

7. Campbell J.P. Speaker Recognition: A Tutorial, Proceedings of the IEEE, Vol. 85, No. 9, pp. 1437-1462, September 1997,

8. Campbell W.M., Assaleh K.T. Polynomial Classier Techniques for Speaker Verication // In proc. of International conference on Acoustics, Speech and Signal Processing 1999, Vol. l,pp. 1448-1451, 1999.

9. Demirekler M., Haydar A. Feature Selection Using Genetics-Based Algorithm and Its Application to Speaker Identication // In proc. of International conference on Acoustics, Speech and Signal Processing 1999, Vol. 1, pp. 1332-1335, 1999.

10. Dempster, A.P., Laird, N.M., and Rubin, D.B. (1977), Maximum likelihood from incomplete data via the EM algorithm, J. of Royal Statistical Society, B39, 1-38.

11. Dunn R.B., Quatieri T.F., Reynolds D.A., Campbell J.P. Speaker Recognition from Coded Speech In Matched and Mismatched Conditions // In Proc. of Odyssey'Ol, Crete, Greece, pp. 522-525,2001.

12. E. Weiszfeld Sur le point pour lequel la somme des distances de n points donnés est minimum, Tôhoku Math. J. 43 (1937), pp. 355-386

13. Fine S., Navratil J., Gopinath R. A hybrid gmm/svm approach to speaker identification, In proc. of International conference on Acoustics, Speech and Signal Processing 2001, Vol. 1, pp. 351-354, 2001.

14. Furui S. Recent advances in speaker recognition, Pattern Recognition Leters, Vol. 18, pp. 859-872, 1997.

15. G.R. Doddington, M.A. Przybocki, A.F. Martin, D.A. Reynolds The NIST speaker recognition evaluation: Overview, methodology, systems, results, perspective. Speech Communication, vol. 31, pp. 225-254

16. Ganesh Ramaswamy, Jiri Navratil, Upendra Chaudhari, Ran Zilca The IBM system for the NIST-2002 cellular speaker verification evaluation, In proc. of International conference on Acoustics, Speech and Signal Processing 2003, vol. 2, pp. 61-64, 2003

17. Garcia A.A., Mammone R.J. Channel-Robust Speaker Identication using Modied-Mean Cepstral Mean Normalization with Frequency Warping // In proc. of International conference on Acoustics, Speech and Signal Processing 1999, Vol. 1, pp. 1444-1447, 1999.

18. Harry Hollien, Forensic voice identification. Academic Press, 2002

19. He J., Liu L., Palm G, A new codebook training algorithm for VQ-based speaker recognition, IEEE Proc. of International Conference on Acoustics, Speech and Signal Processing , 1997, vol. 2, pp. 1091-1094, Munich, Germany.

20. Hermansky H. Perceptual linear predictive (PLP) analysis for speech, J. Acoust. Soc. Am., pp. 1738-1752, 1990.

21. Hermansky H., Morgan N. Rasta processing of speech. IEEE Transactions on Speech and Audio Processing, special issue on Robust Speech Recognition, 2(4):578~589, Oct. 1994.

22. Hermansky H., Morgan N., Bayya A., Kohn P. Compensation for the effect of the commu-trum nication channel in auditory-like analysis of speech (RASTA-PLP), Proc. of Eurospeech '91, pp. 1367-1371, Genova, Italy, 1991.

23. Homayoon A.D., Beigi S.M., Maes S.H. Speaker, Channel and Environment Change Detection, World Automation Congress (WAC), ISSCI 98, Anchorage, Alaska, May 1822, 1998.

24. V. Efimenko Voice Changer Impact on the Speaker Identification Potential // In Proc Of Specom 2001, pp 197-200, Moscov, 2001.

25. Jiri Navratil, Qin Jin, Walter Andrews, Joseph Campbell PHONETIC SPEAKER RECOGNITION USING MAXIMUM-LIKELIHOOD BINARY-DECISION TREE MODELS, In proc. of International conference on Acoustics, Speech and Signal Processing 2003, Vol. 4, pp. 796-799,2003

26. Jordan M.I., Xu L. Convergence results for the EM approach to mixtures-of-experts architectures, Neural Networks, 8,1409-1431,1995.

27. L. Besacier, S. Grassi, A. Dufaux, M. Ansorge, F. Pellandini GSM speech coding and speaker recognition, In proc. of International conference on Acoustics, Speech and Signal Processing 2000, Vol. 2, pp. 1085-1088,2000

28. L.D. Wilcox, F.R. Chen, D. Kimber, V. Balasubramanian Segmentation of Speech Using Speaker Identification, Proceedings of International Conference on Acoustics, Speech and Signal Processing vol. SI, IEEE, Adelaide, Australia, April 1994, pp. 161-164.

29. Marcos Faundez-Zanuy A combination between VQ and covariance matrices for speaker recognition, In proc. of International conference on Acoustics, Speech and Signal Processing 2001, vol. l,pp. 1251-1254, 2001

30. McLaughlin J., R eynolds D.A., G leason T. A S tudy o f C omputation S peed-UPS o f t he GMM-UBM Speaker Recognition System, In Proc. of Eurospeech '99, Vol. 3, pp. 12151218,1999.

31. Navratil J., Chaudhari U.V., Ramaswamy G.N. Speaker Verification Using Target and Background Dependent Linear Transforms and Multi-system Fusion, In Proc/ of EUROSPEECH 2001, pp. 1389-1392.

32. Nicholas W. D. Evans, John S. Mason, Roland Auckenthaler, Robert Stapert Assessment Of Speaker Verification Degradation Due To Packet Loss In The Context Of Wireless Mobile Devices, Cost 275 Workshop: The Advent of Biometrics on the Internet, 2002.

33. Quatieri T.F., Dunn R.B., Reynolds D.A., Campbell J.P., Singer E. Speaker Recognition using G.729 Speech Codec Parameters, In Proc. of ICASSP 2000, Vol. 2, pp. 952-955, 2000.

34. R.M. Gray, D.L. Neuhoff Quantization, IEEE Transactions on information theory, vol. 44, No. 6, October 1998, pp. 1-63

35. Reynolds D.A. Speaker Identification and Verification Using Gaussian Mixture Models, Speech Communication, Vol. 17, pp. 91-108, Aug 1995.

36. Reynolds D.A. Comparison of background normalization methods for text-independent speaker verification, In Proc. Of Eurospeech 97, Vol. 2, pp. 963 966, 1997.

37. Sivakumaran P., Ariyaeeinia A. The use of sub-band cepstrum in speaker verification, In proc. of International conference on Acoustics, Speech and Signal Processing 2000, Vol. 2, pp. 1073-1076, 2000.

38. Sonmez K., Heck L., Weintraub M. Speaker Tracking and Detection with Multiple Speakers, Processing of Eurospeech '99, vol. 5, pp. 2219-2222, Budapest, 1999.

39. T. Kohonen The self-origanzing map, Proc of IEEE, Vol. 78, pp. 1464-1480.

40. Tebelskis J. Speech Recognition Using Neural Networks // PhD thesis, Carnegie Mellon University. 1995.

41. X. Huang, T. Alleva, H.-W.Hon, M.-Y.Hwang, K.F.Lee, R.Rosenfeld. "The SPHINX-II Speech Recognition System: An overview.", Computer Speech Language, 2,2, 1993.

42. Аграновский А.В., Гончаров С.Н., Леднов Д.А., Мартынов А.П., Николаев Д.Б., Репалов С.А., Фомченко В.Н. Исследование построения систем идентификации по речевым характеристикам. Учебно-методическое пособие.- Саров: «ИНФО», 2002.

43. Аграновский А.В., Зулкарнеев М.Ю., Леднов Д.А., Репалов С.А., Двухслойная модель распознавания слитной речи // Материалы научной молодежной школы «Интеллектуальные робототехнические системы 2001», стр.130-132.

44. Аграновский А.В., Зулкарнеев М.Ю., Леднов Д.А., Репалов С.А., Организация иерархической модели распознавания слитной речи // Искусственный интеллект 3'2001, стр. 17-22.

45. Аграновский A.B., Леднов Д.А., Потапенко А.Н., Репалов С.А., Сулима П.М. Способ выделения основного тона из речевого сигнала // патент РФ на изобретение № 2184399 от 22.09.2000, МПК 7 J 10 L 15/00

46. Аграновский A.B., Леднов Д.А., Репалов С.А. Оценка точности текстонезависимых систем идентификации дикторов, на основе экспериментальных АЧХ голосовых трактов дикторов. // Телекоммуникации № 6,2000, стр 6-17

47. Аграновский A.B., Леднов Д.А., Репалов С.А., A.A. Леонтьев, A.M. Потапенко Модель цифровой фильтрации импульсных шумов в телефонном канале. // Телекоммуникации № 5,2001, стр. 5-8

48. Аграновский A.B., Леднов Д.А., Репалов С.А., Метод выделения монологических составляющих беседы многих дикторов в условиях априорной неизвестности параметров голосов дикторов// Искусственный интеллект 4'2002, стр. 151-156

49. Аграновский A.B., Леднов Д.А., Репалов С.А., Телеснин Б.А. Автоматическая идентификация личности по голосу // Свидетельство об официальной регистрации программы для ЭВМ №2003611312/РОСПАТЕНТ. М., 29.05.2003.

50. Аграновский A.B., Леднов Д.А., Репалов С.А., Телеснин Б.А. Система автоматической классификации фонем русского языка при ее обучении методом группового учета аргументов // Тез. Докл. Междун. Науч. Конф. 11-16 сен. 2000. Кацивели, Крым, стр. 106-108

51. Аграновский A.B., Леднов Д. А., Репалов С. А., Телеснин Б.А. Система автоматической классификации фонем русского языка при ее обучении методом группового учета аргументов //Искусственный интеллект 3'2000, стр.400-403.

52. Аграновский A.B., Леднов Д.А., Репалов С.А., Телеснин Б.А. Фильтрация речевых сигналов И Свидетельство об официальной регистрации программы для ЭВМ №200361131 О/РОСПАТЕНТ. М., 29.05.2003.

53. Амосов A.A., Дубинский Ю.А., Копченова Н.В. Вычислительные методы для инженеров: Учеб. Пособие. -М.: Высш. шк., 1994.

54. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы М.: Лаборатория Базовых Знаний, 2001 г.

55. Бояров А.Г., Сулима П.М., Ваксман Г.М., Сердюков В.Д., Коновалов Д.Н. Система экспертной идентификации голоса по произвольной слитной речи // Сборник трудов XI сессии Российского акустического общества. Т.З. М.: ГЕОС, 2001. - стр. 116119.

56. Галяшина Е.И. Судебная фоноскопическая экспертиза. М., 2001.-304 с.

57. Горелик А.Л., Скрипкин В.А. Методы распознавания: Учеб. Пособие для вузов. 3-е изд., перераб и доп. М.: Высш.шк., 1989.

58. Деврой Л., Дьёрфи Л., Непараметрическое оценивание плотности. Ll.-М.: Мир, 1988.74.3абудский Г.Г., Нежинский И.В. Решение задачи размещения в евклидовом пространстве с запрещенной областью, Вестник Омского университета, 1999, Вып. 2., стр. 17-19

59. Карпов И.А., Леднов Д.А., Репалов С.А. Выделение монологических составляющих беседы многих дикторов // Тезисы докладов международной научной конференции «Интеллектуальные и многопроцессорные системы- 2001». Таганрог: Изд-во ТРТУ, 2001.стр. 92-95

60. Кирилов С.Н., Шустиков O.E., Мамушев Д.Ю. Идентификация речевых сигналов дикторов на основе комбинированной системы дикторов // Труды X международной научной конференции "Информатизация правоохранительных систем", М.:Ника принт, 2001. стр. 310-312.

61. Крылов В.И., Бобков В.В., Монастырный П.И. Вычислительные методы, том 1 М.: Наука, 1976.

62. Кудрявцев Л .Д. Математический анализ, т. 1

63. Математическая энциклопедия: Гл. ред. И.М. Виноградов, т. 3 Коо-Од-М.: "Советская энциклопедия", 1982

64. Михайлов В.Г. Акустические измерения в фоноскопической экспертизе // Сборник трудов XIII сессии Росийского акустического общества. Т.З. М.:ГЕОС, 2003. - стр. 130-134

65. Моттль В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов. М. : ФИЗМАТЛИТ, 1999.

66. Р.Дуда, П.Харт Распознавание образов и анализ сцен. Перевод с английского Г.Г.Вайнштейна и А.М.Васьковского, под ред.В.Л.Стефанюка, М.: Мир, 1976.

67. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ./Под ред. М.В. Назарова и Ю.Н. Прохорова. М.: Радио и связь, 1981.-496с.

68. Рамишвили Г. С. Автоматическое опознавание говорящего по голосу. М.: Радио и связь, 1981

69. Репалов С.А., Автоматическое построение разбиения диалога на монологические составляющие при априорной неизвестности параметров голосов дикторов // Материалы Международной научно-технической конференции «Исскуственный интеллект-2002»., Т.2., стр. 32-35

70. Сердюков В.Д. Опознавание речевых сигналов на фоне мешающих факторов, Тбилиси: Мецниерба, 1987.

71. Сердюков В.Д., Сулима П.М. Идентификация и верификация говорящего на основе формантного анализа речи // Сборник трудов XIII сессии Росийского акустического общества. Т.З. М.:ГЕОС, 2003. - стр. 138-140

72. Сорокин В.Н. «Способ распознавания изолированных слов речи с адаптацией к диктору», патент № 2047912, приоритет от 20 апреля 1994 г.

73. Сорокин В.Н. Теория речеобразования. М.: Радио и связь, 1985.

74. Заместитель заведующего кафедройтехническом институте (г. Саров).

75. Радиофизика и электроника»1. А.П. Мартынов

76. Министерство образования Российской Федерации

77. Данная работа имеет большой научно-технических интерес и в дальнейшем будет использоваться для разработки пакета программ для обучения глухих и слабослышащих детей произношению в специализированных образовательных учреждениях региона.1. М.Д. Розин