автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация

кандидата технических наук
Симончик, Константин Константинович
город
Санкт-Петербург
год
2010
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация»

Автореферат диссертации по теме "Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация"

На правах рукописи

Симончик Константин Константинович

МЕТОД И АЛГОРИТМЫ АВТОМАТИЧЕСКОЙ ТЕКСТОНЕЗАВИСИМОЙ ВЕРИФИКАЦИИ ДИКТОРОВ И ИХ ПРОГРАММНАЯ РЕАЛИЗАЦИЯ

Специальность: 05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Vе Ш 20^0

Санкт-Петербург - 2010

004617594

Работа выполнена в Санкт-Петербургском государственном электротехническом университете «ЛЭТИ» им. В.И. Ульянова (Ленина)

Научный руководитель - доктор технических наук, профессор Геппенер Владимир Владимирович

Официальные оппоненты: доктор технических наук,

профессор Шульгин Евгений Александрович

кандидат технических наук,

старший научный сотрудник Егоров Владимир Викторович

Ведущая организация - Учреждение Российской академии наук "Санкт-Петербургский институт информатики и автоматизации Российской академии наук" (СПИИРАН)

Защита диссертации состоится «22» декабря 2010 г. в /$-30 часов на заседании совета по защите докторских и кандидатских диссертаций Д212.23 8.01 Санкт-Петербургского государственного электротехнического университета «ЛЭТИ» им. В.И. Ульянова (Ленина) по адресу: 197376, Санкт-Петербург, ул. Проф. Попова, 5.

С диссертацией можно ознакомиться в библиотеке университета. Автореферат разослан «19» ноября 2010г.

Ученый секретарь совета по защите докторских и кандидатских диссертаций

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящий момент область речевых технологий является одной из наиболее динамично развивающихся областей прикладной науки. Это связано с наличием большого числа актуальных задач, связанных с обработкой речи человека. В последние два десятилетия, в связи с бурным ростом компьютерных технологий, произошел прорыв в области автоматической обработки речевого сигнала. Как оказалось, многие задачи из области речевых технологий представляют интерес как для бизнес-структур, так и для правительственных организаций. Действительно, практически все основные прикладные задачи этой области имеют выход как на чисто коммерческое, так и на специальное (связанное с обеспечением безопасности граждан) применение. Например, система автоматического выделения ключевых слов может использоваться как для индексирования речевых баз данных, так и для поиска в телефонном канале определенных слов и фраз; система идентификации диктора применяется как для контроля доступа пользователей к сервисам частных компаний, так и для выявления преступника по голосу. Поддержка речевых технологий из разных источников привела к развитию собственно автоматических методов, развивающихся и уже активно используемых настоящее время. Тем не менее, в виду сложности и комплексного характера задач, возникающих в процессе обработки естественного речевого сигнала, эти задачи далеки от того, чтобы можно было бы считать их решенными как в практическом, так и в научном плане.

Системы верификации дикторов по голосу относятся к множеству биометрических систем и, как следствие, области их применения пересекаются. Достоинством систем распознавания диктора по голосу является то, что такие биометрические системы чаще всего не требуют дополнительного оборудования и могут быть реализованы с использованием телефонных сетей или устройств ввода-вывода разных типов (микрофонов). Области применения таких систем различны:

- Автоматическая идентификация подозреваемого в телефонном канале. Подобная система позволяет проводить постоянный мониторинг телефонных переговоров (как в телефонном канале, так и для 1Р-телефонии) без присутствия оператора и сигнализировать об обнаружении диктора с голосом, похожим на голос подозреваемого в одном из каналов для дальнейших оперативных мероприятий (запись разговора, определение местоположения говорящих т.п.).

- Обработка речевых баз данных. Система идентификации диктора может выделить все вхождения голоса диктора в произвольной речевой базе данных. В таком случае система освобождает оператора от прослушивания всего звукового массива и предоставляет ему набор наиболее вероятных речевых сегментов, что в значительной степени удешевляет и ускоряет процесс поиска по речевым базам данных.

- Криминалистические исследования. Технология автоматического распознавания диктора по голосу уже сейчас используется в современных лабораториях криминалистических исследований как средство анализа фонограмм подозреваемых.

- Системы контроля доступа. Такие системы могут обеспечить дополнительный контроль доступа как к физическим объектам, так и к удаленным ресурсам в компьютерных сетях.

Задачей автоматической верификации дикторов можно считать создание модели, алгоритмов и, наконец, программного модуля, основанных на такой математической .модели, которая позволила бы приблизиться к результатам, достигаемым человеком и, возможно, улучшить их. Данная диссертация посвящена описанию тех подходов, которые обеспечивают наилучшие результаты автоматической текстонезависимой идентификации дикторов и имеют хорошо просматриваемые перспективы дальнейшего развития. Так, ближайшие несколько лет модели с использованием смесей гауссовых распределений (СГР) и метод опорных векторов (MOB) остаются доминирующими при моделировании голоса диктора в задаче текстонезависимой верификации. На основании этого анализа разрабатывается и исследуется система верификации дикторов с использованием СГР и MOB подхода.

Целью диссертационной работы является разработка и исследование метода и алгоритмов текстонезависимой верификации дикторов по голосу, разработка программных; средств текстонезависимой верификации дикторов, устойчиво работающей в различных каналах связи.

В соответствии с указанной целью в работе сформулированы и решены следующие задачи: -

1. Выполнен обзор методов, алгоритмов и систем текстонезависимой верификации дикторов по голосу.

2. Разработаны: метод и алгоритмы построения систем верификации с использованием СГР-МОВ подхода.

3. Разработано и введено в эксплуатацию программное обеспечение текстонезависимой системы верификации по голосу с использованием СГР-МОВ подхода.

4. Проведено экспериментальное исследование разработанной системы верификации дикторов и выполнен подбор параметров программных модулей системы с целью минимизации равновероятной ошибки пропуска/отклонения (EER).

Предмет и методы исследования. Предметом исследования является текстонезависимая система верификации по голосу. При решении поставленных задач использовался аппарат математического моделирования, численных методов, математической статистики, теории цифровой обработки сигналов, теории случайных процессов, теории распознавания образов.

Научная новизна работы представлена следующими положениями: .

1. Предложен метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.

2. Предложен комплекс алгоритмов предобработки речевого сигнала, позволяющий ■ повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях.

3, Разработана методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и МОВ.

Научные положения, выносимые на защиту:

1. Метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.

2. Комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях.

3. Методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и МОВ.

Практическая значимость работы заключается в реализации предложенных методов и алгоритмов в виде комплекса программ системы текстонезависимой верификации, устойчиво работающего в различных каналах связи, включающего программные модули предобработки речевого сигнала. Также предложены программные реализации методики обучения системы, в том числе и для адаптации системы для работы с фонограммами, записанными в специфических каналах связи.

Достоверность результатов исследования подтверждается корректным использованием математического аппарата, результатами экспериментальных исследований на программных моделях и результатами испытаний реальной системы, при создании которой использовались предложенные методы и алгоритмы.

Внедрение результатов. Результаты работы использовались при проведении в ООО «Центр Речевых Технологий» 2 ОКР и производстве 3 коммерческих продуктов. Работа поддержана программой фонда содействия развитию малых форм предприятий в научно-технической сфере "Участник молодежного движения Научно-Инновационного Конкурса" 2007 года.

Апробация результатов исследования. Основные положения и результаты работы изложены в следующих документах:

1. Отчет по выполнению опытно-конструкторской работы «Разработка и создание автоматизированной фоноскопической системы поиска и учета лиц, представляющих оперативный интерес для правоохранительных органов, в том числе с учетом состояний наркотического опьянения», шифр «Невод-07», № гос. контракта 9/1/2818, 2009 г.

2. Отчет по выполнению опытно-конструкторской работы «Разработка аппаратно-программного комплекса по идентификации лиц, говорящих на разных языках (цыганском, таджикском и др.) и представляющих оперативный интерес для правоохранительных органов», шифр «Этнос-06», 2008 г.

Основные положения и результаты работы докладывались и обсуждались на ряде конференций, в число которых входят следующие:

1. 7-я Международная конференция "Распознавание образов и анализ изображений: новые информационные технологии". Санкт-Петербург, 18-23 октября 2004.

2. Технологии Microsoft в теории и практике программирования. Санкт-Петербург, 1-2 марта 2005.

3. VIII Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 27-29 июня 2005. г .

4. 59-я научно-техническая конференция профессорско-преподавательского состава СПбГЭТУ "ЛЭТП". Санкт-Петербург 24 января-31 февраля 2006.

5. IX Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 27-29 июня 2006.

6. 60 научно-техническая конференция профессорско-преподавательского состава СПбГЭТУ "ЛЭТИ" .Санкт-Петербург 30 января-7 февраля 2007.

7. Технологии Microsoft в теории и практике программирования. Санкт-Петербург, 13-14 марта 2007. "•-■

8. X Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 25-28 июня 2007.

9. 10-я Международная научно-техническая конференция и . выставка "Цифровая обработка сигналов и ее применение". Москва, 28-30 марта 2008.

10.12-я Международная научно-техническая конференция и выставка "Цифровая обработка сигналов и ее применение". Москва, 31 марта - 2 апреля 2010.

Публикации. По теме диссертации опубликовано 14 работ, их них 5 статей опубликованы в журналах, рекомендованных Высшей аттестационной комиссией, и 9 работ в материалах научно-технических конференций.

Структура и объем работы.

Диссертация состоит из введения, пяти глав, заключения, списка литературы, включающего 85 наименований. Основная часть работы изложена на 175 страницах машинописного текста. Работа содержит 50 рисунков и 20 таблиц.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность диссертационной работы, определяются цель и задачи исследования, формулируются научная новизна и практическая ценность результатов.

В первой главе вводятся основные определения задачи сравнения голосов дикторов, приводятся принципы построения систем верификации по голосу, дается краткое описание их основных модулей. Приводятся критерии эффективности систем голосового поиска. Дан обзор современных существующих систем идентификации/верификации по голосу как отечественных, так и зарубежных производителей.

По постановке задачи и методу работы системы поиска голосов и верификации диктора делятся на текстозависимые и текстонезависимые, а также на системы, работающие на открытом или закрытом множестве дикторов.

Система называется текстозависимой, если она заранее обучена на распознавание определенной фразы, которую должен произнести диктор. В реальных системах диктор произносит либо заранее определенную «парольную»

- / -

фразу, либо система сама определяет и запрашивает фразу, которую должен произнести диктор. В любом из этих случаев распознаваемая фраза должна быть произнесена каждым из возможных дикторов в процессе обучения системы. Система распознавания диктора называется текстонезависимой, если она не содержит информации о том, что именно диктор будет произносить. Система обучается и тестируется на произвольных речевых данных. Как следствие, эффективность текстонезависимых систем распознавания обычно ниже, чем текстозависимых.

Одним из факторов, по которым определяют эффективность биометрических систем, является частота появления ошибок. Существует два типа ошибок: ошибка отказа FRR (False Reject Rate), пропорциональная числу попыток клиентов, которые отвергаются и ошибка пропуска FAR (False Accept Rate), пропорциональная числу попыток злоумышленников, которые допускаются. Очень часто исследователи используют критерий равенства частоты появления ошибок FRR и FAR - EER (Equal Error Rate) для описания своих исследовательских систем.

На текущий момент на российском рынке представлены такие системы распознавания дикторов, как система автоматизации фоноучетов "Трал М" ООО "Центр Речевых Технологий" с единым уровнем ошибки EER 8%, система "PhonoBase" компании ООО "Целевые Технологии" с показателями FRR = 10% и FAR=1%.

Во второй главе рассматриваются методы первичной обработки и выбора признаков речевых сигналов в задаче распознавания дикторов. Анализируются методы измерения и выбор совокупности параметров речевого сигнала, пригодных охарактеризовать индивидуальность диктора (система признаковых описаний речи), при этом необходимо выделить информативные признаки речевого сигнала, описывающие сигнал в наиболее краткой форме без существенной потери информации.

Особое внимание уделено выделению индивидуальных характеристик диктора из его речи. Важнейшими из них являются коэффициенты линейного предсказания, кепстрадьные признаки, а также спектрально-формантные.

При передаче речевого сигнала по тракту, включающему в себя помещение, канал записи, канал передачи и канал воспроизведения, на него могут накладываться шумы и помехи, например:

- шумы помещения,

- шумы электронных компонентов каналов записи, передачи и воспроизведения,

- шумы реверберации,

- помехи со стороны других дикторов и других каналов.

Кроме того, в речевой сигнал могут вноситься амплитудно-частотные искажения, определяемые характеристиками помещения, микрофона, каналов записи и передачи. Все эти помехи, шумы и искажения, накладываемые на речевой сигнал при его передаче по каналам связи, могут негативно повлиять на процесс верификации диктора по голосу.

В данной работе предлагается комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в

условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях. Комплекс представлен пятью алгоритмами:

1) алгоритм детектирования щелчков;

2) алгоритм детектирования перегрузов;

3) алгоритм детектирования музыкальных сигналов;

4) алгоритм детектирования гудков;

5) алгоритм детектирования речевого сигнала.

На рис. 1 приведена схема взаимодействия компонент (программных модулей) модуля предобработки.

Фонограмма

Итоговая сегментация

Рисунок 1. Схема модуля предобработки речевого сигнала,

В качестве входных данных для каждого детектора является фонограмма с исходным сигналом (детекторы щелчков и перегрузов) или передискретизированным на 11025 Гц (остальные детекторы). Выходными параметрами является список сегментов целевого для данного детектора сигнала.

Третья глава диссертации посвящена описанию математических методов, используемых при моделировании голоса диктора. Рассматривается использование моделей на основе использования смеси гауссовых распределений (СГР) и метода опорных векторов (MOB).

В данной работе предлагается система текстонезависимой верификации дикторов по голосу, сочетающая метод компенсации канальных искажений

моделей СГР (метод «собственных каналов») и метод опорных векторов для классификации результатов сравнения моделей СГР.

Выбор сочетания использования этих методов обусловлен тем, что метод опорных векторов широко зарекомендовал себя в последнее время для эффективного сравнения СГР моделей голосов дикторов. С другой стороны, одним из основных факторов, влияющих на качество системы верификации, является искажения спектра речевого сигнала, вносимые АЧХ канала связи. Метод «собственных каналов», позволяет компенсировать эти искажения ещё на этапе построения СГР модели голоса, таким образом, облегчая задачу классификатору.

Модель гауссовой смеси голоса диктора представляется набором параметров определенных для каждой г'-ой компоненты смеси: средними векторами Д, матрицами ковариации X, и весами а1. Эта совокупность параметров называется моделью СГР Я:

Я = {а„(2,.,Х(},г = 1,...,АГ, (1)

Для наблюдаемого входного вектора х плотность Гауссовой смеси является взвешенной суммой М компонент смеси, которая задается выражением:

с , \ М / \ м

р(х|Л) = 1а,.рДя), 2а, =1, а, >0, 1 = \,...,М (2)

где х - 23-мерный случайный вектор, р,{х), г = 1,..,М, являются компонентами смеси и а,, {г = 1,...,М} являются весами смеси. Каждая компонента плотности - это функция Гаусса «-мерной случайной величины со средним вектором ц, и Ох О ковариационной матрицой X,:

-в -4 -и о г * в

Рисунок 2. Приведение к линейным комбинация Гауссовых функций.

Основной проблемой при решении задачи верификации для систем с использованием СГР является проблема рассогласования, вызванная помехами, вносимыми каналом записи. Под понятием «канал» подразумевается совокупный эффект влияния микрофона мобильного или стационарного телефона, влияние АЧХ канала соединения и другие искажения, вносимые записывающей аппаратурой. Для компенсации такого рода помех для СГР в данной работе

используется метод «собственных каналов», который предполагает разложение супервектора средних модели СГР на составляющие:

М = 5 + С (4)

где супервектор £ зависит только от диктора, а супервектор С зависит только от эффектов канала (рис. 4).

Вектор 5 выступает в качестве опорного канала, тогда как для определения супервектора С исходят из разложения:

С = й-х, (5)

где х - скрытый низко-размерный вектор каналов, 0 - фиксированная матрица собственных каналов.

Рисунок 3. Разложение дикторе- и каналозависимого вектора М.

Матрица U рассчитывается методом с помощью MLES-алгоритма (Maximum Likelihood Eigen Space). Скрытый вектор х вычисляется методом MLED (Maximum Likelihood Eigen-Decomposition), и представляет собой точку в пространстве собственных каналов для модели СГР, построенной по заданному фрагменту речи.

В качестве классификатора в данной работе используется метод опорных векторов. Современное развитие MOB в распознавании диктора выявило, что самое эффективное его применение - это использование MOB в комбинации с методом СГР. В случае такой гибридной системы, MOB использует в качестве входных данных для классификации супервектора средних /г, СГР.

Для гипотезы HI (диктор спорной и эталонной фонограмм один и тот же) и гипотезы Н2 (дикторы на фонограммах различаются), функция, разделяющая классы в пространстве акустических признаков, будет:

= ' (б)

id

где вектор w = (wu..wn) е R", b е R" - скалярный порог, г, е {0,1} - идеальные выходы классификатора, K(fj,fi,) - ядро классификатора.

Origin'

\ ®

0 /-''Margin

Рисунок 4. Построение оптимальное разделяющей гиперплоскости.

В данной работе в качестве ядра использовалось линейное ядро Кампбелла: На рис. 6 показаны основные компоненты СГР-МОВ системы верификации.

Фонограмма

Модуль предобработки речевого сигнала

Выделитель

речевых характеристик

Модуль оценки СГР модели диктора и компенсации канальных искажений

10 диктора

Ззза эталонных моделей i

d < ® - Принять Решение 4-

опорные вектора

Классификатор ЭУМ

</>•©- Отвергнуть Рисунок 5. Система верификации диктора на основе СГР-ЗУМ.

Роль блока формирования акустических векторов-признаков сводится к предобработке входного речевого сигнала для определения параметров, которые передают дикторозависимую информацию. На выходе этого блока получается последовательность акустических векторов-признаков, представляющих тестовый или тренировочный сегмент: X - {5.....,5?г}, где х, - вектор, / = {1 ,...,Т}.

Блок «оценки модели диктора» выполняет алгоритм обучения СГР модели диктора. Модель диктора строится в рабочем цикле системы, когда требуется верифицировать спорную фонограмму, т.е. определить, относится ли эта

фонограмма к вероятному диктору 5 или нет. Модель диктора СГР, построенная с учетом компенсации канальных искажений методом "собственнных каналов", представляется далее в качестве входных данных для классификатора на базе MOB. С использованием специальной базы СГР моделей, выступающих в качестве опорных векторов, строится гиперплоскость разделяющая пространство речевых признаков на 2 искомых класса: HI и Н2. Количество опорных векторов было выбрано равным 1200 как оптимальное по соотношению скорость верификации/качество.

Качество работы системы верификации на основе использования СГР и MOB напрямую зависит от того, каким образом была обучена универсальная фоновая модель (УФМ) и матрица компенсации канальных искажений U. В данной работе предложена методика обучения системы текстонезависимой верификации по голосу с использованием СГР и MOB, которая представляет собой последовательность из трех этапов:

1) Создание универсальной фоновой модели. Выдвигается требование того, чтобы тренировочная и тестовая речь дикторов для УФМ была собрана на различных микрофонах или каналах, что является принципиальным для достижения хорошей эффективности системы распознавания. Кроме того, при создании УФМ очень важно разделение дикторов по полу при формировании базы данных. Предлагается использовать способ параллельного обучения СГР моделей каждого диктора тренировочного множества с последующим объединение этих моделей в УФМ.

2) Расчет матрицы компенсации канальных искажений. Для расчета матрицы компенсации каналов 0 предлагается алгоритм, основанный на работах Куна и Нгуена. В качестве обучающей речевой базы должна быть выбрана ровно тот набор фонограмм, что и для обучения УФМ. Обучение матрицы Û проходит итерационно. Каждая итерация состоит из 2-х этапов:

- MLED-оценка положения вектора x(s, h) подпространства каналов;

- MLES-оценка значений элементов матрицы 0. Насыщение значений элементов матрицы Û происходит при 20 итерациях.

3) Выбор множества опорных векторов. Выбор опорных векторов (ОВ) происходит подобно тому, как производится подбор фонограмм для создания УФМ. Требование того, чтобы СГР модели ОВ были представлены различными микрофонами или каналами, является принципиальным для достижения хорошей эффективности системы верификации. Приводится зависимость ошибки EER верификации от количества используемых ОВ. Так, показано, что при достижении количества ОВ равного 1200 наступает насыщение ошибки EER - дальнейшее её падение даже1 для фонограмм при малых длительностях речевого сигнала прекращается. Поскольку время работы MOB на этапе классификации пропорционально кубу от мощности множества ОВ, то выбор их количества является компромиссным решением относительно качества и скорости работы системы. Таким образом, рекомендуется использовать порядка нескольких десятков - сотню опорных векторов.

В четвертой главе приводятся исследования разработанной системы верификации на различных речевых базах с целью оптимизации её параметров. В качестве критерия качества использовался показатель БЕЯ. В таблице 1 приведены значения ЕЕЯ на 7-ми собранных базах для системы с оптимальными параметрами.

Таблица 1. Качество работы системы па разных речевых базах.

Канал записи спорной Кол-во Кол-во ERR, %

и эталонной сравнений сравнений "свой-

фонограмм "свой-свой" чужой"

GSM 2505 61739 4:5

IP 1340 49850 7.0

El 1204 20505 " 4.7 :

Радиоканал 568 10409 14.0

Аналоговый 541 10234 7.5

Микрофон 1950 50395 1.5

NIST SRE 2004 5032 12850 2.4

Оценка надежности сравнения фонограмм голосов дикторов в зависимости от длительности фонограмм приведена в таблице 2. В данном исследовании спорная и эталонная фонограммы принадлежали различным каналам связи.

Таблица 2, Значение ЕЕЯ в зависимости от сочетания длительностей фонограмм, канал связи СвМ-

микрофон.

Длительность, сек 4 7 11 18 29 47 ' 77

4 20.2% 19.5% 17.1% 16.6% 15.4% 13.3% 11.9%

7 18.2% 15.4% 13.4% 11.6% 9.5% 8.0%

11 13.0% 11.0% 9.2% 6.7% 5.7%

18 8.0% 6.3% 4.5% 3.8%

29 4.5% 3.1% 2.7%

47 2.5% 1.8%-.

77 1.8%

Проведены экспериментальные исследования влияния алгоритмов предобработки сигнала на показатель EER качества верификации. В таблице 3 приведена зависимость для речевой базы канала записи GSM

Таблица 3. Влияние алгоритмов предобработки на качество верификации для речевой базы GSM.

Детектор щелчков Детектор перегрузов Детектор музыкальный сигналов Детектор гудков Детектор речи EER, %

- - - - 14.5

- - - - + 6.5

- - + + 5.9

- + + + 5.0

- + + + + ■ ■ 4.7

+ + + + + 4.5

Основные результаты работы

Представленная диссертационная работа содержит результаты исследований по разработке системы текстонезависимой верификации дикторов по голосу.

Основные научные и практические результаты работы можно сформулировать следующим образом:

• Проведен обзор современных существующих систем идентификации/верификации по голосу как отечественных, так и зарубежных производителей.

• Предложен комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональиых, музыкальных, а также при нелинейных амплитудных искажениях.

• Предложен метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.

• Разработана методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и MOB.

• Разработано и введено в эксплуатацию программное обеспечение текстонезависимой системы верификации по голосу с использованием СГР-МОВ подхода.

• Проведено экспериментальное исследование разработанной системы верификации дикторов и выполнен подбор параметров программных модулей . системы с целью минимизации равновероятной ошибки пропуска/отклонения (EER).

Разработанная модель системы распознавания дикторов может быть эффективно использована для различных практических приложений. Реализованная программная архитектура позволяет сделать данную систему расширяемой для работы на фонограммах, записанных в условиях специфических канальных помех и искажений, а также для верификации дикторов, говорящих на различных языках.

Статьи, опубликованные в изданиях, включенных в перечень ВАК

1.. Симончик К.К, Геппенер В.В. Разработка систем автоматической верификации дикторов с использованием нейронных сетей // Нейрокомпьютеры: разработка и применение. 2006. №7. Издательство 'Радиотехника", С. 14-23.

2. Design of Speaker Verification Systems with the Use of an Algorithm of Dynamic Time Warping (DTW) (Разработки системы верификации дикторов по голосу с использованием Алгоршма Динамического Искажения Времени (ДИВ)), V. V. Geppener, К. К. Simonchik, and A. S. Haidar, Pattern Recognition and Image Analysis, Vol. 17, No. 4,2007, pp. 470479.

3. Симончик К.К, Головкин ДБ. Исследование проблемы интерполяции дискретных сигналов в аудио приложениях, Известия Государственного электротехнического университета. №5/2005. Издательство СПбГЭТУ "ЛЭТИ", С. 3-12.

4. Козлов Л.В., Лоханова А.И., Симончик КК. Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки, «Научно-технические ведомости СПбПТУ», Издательство Политехнического университета, 2010, №4(103), стр. 7-11.

5. Симончик KJC, Галинина О.С., Капустин А.И. Алгоритм обнаружения речевой активности на основе статистик основного тона в задаче распознавания диктора, «Научно-технические ведомости СПбПТУ», Издательство Политехнического университета, 2010, №4(103), стр. 18-23.

Другие работы

6. Development of an Automatic Speaker-Verification System Using the Dynamic Time-Waiping Algorithm (Разработки системы верификации дикторов по голосу с использованием Алгоритма Динамического Искажения Времени (ДИВ)), V. V. Geppener, К. К. Simonchik, and A, S. Haidar, Pattern Recognition and Image Analysis, Vol. 15, No. 2,2005, p. 397.

7. Разработка систем автоматической верификации дикторов с использованием алгоритма динамического искажения времени (ДИВ), ВБ. Геппенер, КК. Симончик, Технологии Microsoft в теории и пракгаке программирования, Издательство Политехнического университета, 2005г, стр. 60-61.

8. Разработка систем автоматической верификации дикторов с использованием нейронных сетей, Геппенер ВБ., Тихонов Д.В., Симончик КК, сборник докладов VII Международной конференции по мягким вычислениям и измерениям, SCM'2005, СПбГЭТУ «ЛЭТИ», 2005.

9. Разработка библиотеки функций Matlab для использования в задачах верификации дикторов по голосу, В.В. Геппенер, К.К. Симончик, OA Черемушкина, сборник докладов IX Международной конференции по мягким вычислениям и измерениям, SCM'2006, СПбГЭТУ "ЛЭТИ", 2006, том 1, С. 124-127.

10. Разработка встроенной системы автоматической верификации дикторов по голосу, ВБ. Геппенер, К.К. Симончик, Технологии Microsoft в теории и практике программирования (материалы межвузовского конкурса-конференции студентов, аспирантов и молодых ученых Северо-Запада), Издательство Политехнического университета, 2007г, стр. 68-69.

11. Разработка встроенной системы автоматической верификации дикторов по голосу, ВБ. Геппенер, КК. Симончик, сборник докладов X Международной конференции по мягким вычислениям и измерениям, SCM'2007, СПбГЭТУ «ЮТИ», 2007, том 2, стр. 55-58.

12. Разработка встроенной системы автоматической верификации дикторов по голосу, Симончик КК, Доклады 10-й Международной конференции «Цифровая обработка сигналов и ее применение», Инсвязьиздат, Выпуск Х-1, Москва, 2008, том 1, стр. 245-248.

13. Система верификации дикторов по голосу на основе использования СГР-SVM подхода, Капустин А.И., Симончик КК, Доклады 12-й Международной конференции «Цифровая обработка сигналов и ее применение», Инсвязьиздат, Выпуск ХП-1, Москва, 2010, том 1, стр. 207-210.

14. Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки, Лоханова А.И., Симончик К.К., Козлов АБ, Доклады 12-й Международной конференции «Цифровая обработка сигналов и ее применение», Инсвязьиздат, Выпуск ХП-1, Москва, 2010, том 1, стр. 210-213.

Подписано в печать 18.11.2010. Формат 60x84/16 Отпечатано с готового оригинал-макета в типографии ЗАО «КопиСервис». Печать ризографическая. Заказ № 1/1118. П. л. 1.0. Уч.-изд. л. 1.0. Тираж 100 экз.

ЗАО «КопиСервис» Адрес: 197376, Санкт-Петербург, ул. Проф. Попова, д. 3. тел.: (812) 327 5098

Оглавление автор диссертации — кандидата технических наук Симончик, Константин Константинович

ПЕРЕЧЕНЬ СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

НАУЧНЫЕ ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ:.

СТРУКТУРА И ОБЪЕМ РАБОТЫ.

ГЛАВА 1. ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ И СИСТЕМ ВЕРИФИКАЦИИ ПО ГОЛОСУ.

1.1. Задача сравнения голосов дикторов.

1.1.1. Формализация задачи.

1.1.2. Виды задач определения диктора по голосу.

1.1.3. Основные модули систем сравнения голосов дикторов.:.

1.2. Критерии эффективности систем верификации.

1.2.1. Национальный институт стандартов и технологий США.

1.2.2. Меры эффективности.

1.2.3. Результаты автоматического распознавания дикторов N 1ST.

1.3. Обзор существующих систем верификации по голосу.

1.3.1. «PhonoBase» - система автоматизированного учёта и поиска фонограмм.

1.3.2. «Трал М» - Система автоматизации фоноучетов и экспресс-исследований фонограмм речи.

1.3.3. Система «Голос».

1.3.4. Система идентификации дикторов.

1.3.5. Система «Speaker Identification System».

1.3.6. Система «Nuance SpeechSecure™».

1.4. Основные проблемы верификации дикторов.

1.5. Перспективы использования систем сравнения голосов дикюров

1.6. Выводы.

ГЛАВА 2. ПРЕДОБРАБОТКА СИГНАЛА И ВЫДЕЛЕНИЕ ХАРАКТЕРИСТИК РЕЧИ.

2.1. Ввод речи и ее цифровое представление.

2.2. Предварительная обработка и выделение первичных приз1 iakob

2.2.1. Дискретное преобразование Фурье.

2.2.2. Цифровые фильтры.

2.2.3. Использование оконных функций.

2.2.4. Нормализация уровня сигнала.

2.3. Выделение индивидуальных характеристик речевого сигнала.

2.3.1. Спектральные методы.

2.3.2. Коэффициенты линейного предсказания.'.

2.3.3. Кепстральное описание.

2.3.4. Идентификация на основании сравнения спектральных характеристик.

2.3.5. Идентификация на основании статистик основного тона.

2.3.6. Использование информации различных лингвистических уровней.

2.4. Комплекс алгоритмов предобработки речевого сигнала.

2.4.1. Схема модуля предобработки речевого сигнала.

2.4.2. Алгоритм детектирования щелчков.

2.4.3. Алгоритм детектирования гудков.

2.4.4. Алгоритм детектирования перегрузов.

2.4.5. Алгоритм детектирования музыкальных сигналов.

2.4.6. Алгоритм детектирования речевого сигнала.

2.5. Выводы.

ГЛАВА 3. СИСТЕМА ВЕРИФИКАЦИИ ДИКТОРА С ИСПОЛЬЗОВАНИЕМ СГР И MOB.

3.1. Математический аппарат СГР и MOB.

3.1.1. Математический аппарат модели Гауссовых смесей.

3.1.2. Обучение модели Гауссовых смесей.

3.1.3. Оценка метода, основанного на построении модели Гауссовых смесей.

3.1.4. Метод «Собственных Каналов» компенсации канальных искаэюений.

3.1.5. Введение понятия Собственного Канала.

3.1.6. Задачи МП-оценок в Собственных Каналах.

3.1.7. Метод опорных векторов.

3.2. Метод текстонезависимой верификации по голосу на основе использования СГР и MOB.>.Л

3.2.1. Выделитель речевых характеристик.

3.2.2. Создание СГР модели гипотезы диктора.

3.2.3. Модуль классификации методом опорных векторов.

3.2.4. Зависимость результатов верификации от языка.

3.3. Разработка методики обучения системы текстонезависимой системы верификации по голосу.

3.3.1. Создание универсальной фоновой модели.

3.3.2. Расчет матрицы компенсации канальных искажений.

3.3.3. Выбор множества опорных векторов.

3.3.4. Методика обучения системы текстонезависимой системы верификации по голосу.

3.4. ВЫВОДЫ.

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ.

4.1. Описание речевых баз данных для разработки, отладки и исследования системы верификации по голосу.

4.1.1. Условия сбора речевых баз данных для различных типов каналов

4.1.2. Общие характеристики речевой базы данных, записанной в различных типах каналов.

4.2. Оптимизация параметров системы верификации по голосу.

4.2.1. Влияние количества опорных векторов на качество системы верификации на базе INCAS.

4.2.2. Влияние количества опорных векторов на качество системы верификации на базе LASVM.

4.2.3. Оценка влияния предобработки на качество верификации.

4.2.4. Выбор параметров системы верификации по голосу для тест ирования.

4.3. Оценка надежности cpabhei1ия фонограмм голосов лиц в зависимости от длительности ф01ЮГРАММ.

4.4. 0це1ika надежности кросс-канального сравнения фонограмм голосов лиц.

4.5. Оценка надежности сравнения фонограмм, принадлежащих одному каналу связи.

4.6. Исследование качества работы алгоритмов предобработки сигнала.

4.6.1. Исследование алгоритма детектирования щелчков.

4.6.2. Исследование алгоритма детектирования гудков.

4.6.3. Исследование алгоритма детектирования перегрузов.

4.7. Выводы.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Симончик, Константин Константинович

Актуальность темы. В настоящий момент область речевых технологий является одной из наиболее динамично развивающихся областей прикладной науки. Это связано с наличием большого числа актуальных задач, связанных с обработкой речи человека. В последние два десятилетия, в связи с бурным ростом компьютерных технологий, произошел прорыв в области автоматической обработки речевого сигнала. Как оказалось, многие задачи из области речевых технологий представляют интерес как для бизнес-структур, так и для правительственных организаций. Действительно, практически для все основные прикладные задачи этой области имеют выход как на чисто коммерческое, так и па специальное (связанное с обеспечением безопасности граждан) применение. Например, система автоматического выделения ключевых слов может использоваться как для индексирования речевых баз данных, так и для поиска в телефонном канале определенных слов и фраз; система идентификации диктора применяется как для контроля доступа пользователей к сервисам частных компаний, так и для выявления преступника по голосу. Поддержка речевых технологий из разных источников привела к развитию собственно автоматических методов, развивающихся и уже активно используемых настоящее время. Тем не менее, в виду сложности и комплексного характера задач, возникающих в процессе обработки естественного речевого сигнала, эти задачи далеки от того, чтобы можно было бы считать их решенными как в практическом, так и в научном плане.

Системы верификации дикторов по голосу относятся к множеству биометрических систем и, как следствие, области их применения пересекаются. Достоинством систем распознавания диктора по голосу является то, что такие биометрические системы чаще всего не требуют дополнительного оборудования и могут быть реализованы с использованием телефонных сетей или устройств ввода-вывода разных типов (микрофонов). Области применения таких систем различны:

- Автоматическая идентификация подозреваемого в телефонном канале. Подобная система позволяет проводить постоянный мониторинг телефонных переговоров (как в телефонном канале, так и для 1Р-телефонии) без присутствия оператора и сигнализировать об обнаружении диктора с голосом, похожим на голос подозреваемого в одном из каналов для дальнейших оперативных мероприятий (запись разговора, определение местоположения говорящих т.п.).

- Обработка речевых баз данных. Система идентификации диктора может выделить все вхождения голоса диктора в произвольной речевой базе данных. В таком случае система освобождает оператора от прослушивания всего звукового массива и предоставляет ему набор наиболее вероятных речевых сегментов, что в значительной степени удешевляет и ускоряет процесс поиска по речевым базам данных.

- Криминалистические исследования. Технология автоматического распознавания диктора по голосу уже сейчас используется в современных лабораториях криминалистических исследований как средство анализа фонограмм подозреваемых.

- Системы контроля доступа. Такие системы могут обеспечить дополнительный контроль доступа как к физическим объектам, так и к удаленным ресурсам в компьютерных сетях.

Задачей автоматической верификации дикторов можно считать создание модели, алгоритмов и, наконец, программного модуля, основанных на такой математической модели, которая позволила бы приблизиться к результатам, достигаемым человеком и, возможно, улучшить их. Данная диссертация посвящена описанию тех подходов, которые обеспечивают наилучшие результаты автоматической текстонезависимой идентификации дикторов и имеют хорошо просматриваемые перспективы дальнейшего развития. Так, ближайшие несколько лет модели с использованием смесей гауссовых распределений (СГР) и метод опорных векторов (MOB) остаются доминирующими при моделировании голоса диктора в задаче текстонезависимой верификации. На основании этого анализа разрабатывается и исследуется система верификации дикторов с использованием СГР и MOB подхода.

Целью диссертационной работы является разработка и исследование методов и алгоритмов текстонезависимой верификации дикторов по голосу, разработка программных средств текстонезависимой верификации дикторов, устойчиво работающей в различных каналах, связи.

В соответствии с указанной целью в работе сформулированы и решены следующие задачи:

1. Выполнен обзор методов, алгоритмов и систем текстонезависимой ч верификации дикторов по голосу.

2: Разработаны: метод и алгоритмы! построения систем верификации с использованием СГР-МОВ подхода.

3. Проведено экспериментальное исследование разработанной системы верификации дикторов и выполнен подбор параметров программных модулей системы с целью минимизации равновероятной ошибки пропуска/отклонения (EER).

Предмет и методы исследования. Предметом исследования1 является текстонезависимая система верификации по голосу. При решении поставленных задач использовался аппарат математического моделирования, численных методов, математической статистики, теории цифровой обработки сигналов, теории случайных процессов, теории распознавания образов.

Научная новизна работы представлена следующими положениями:

1. Предложен метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.

2. Предложен комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях.

3. Разработана методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и МОВ.

Научные положения, выносимые на защиту:

1. Метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.

2. Комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях.

3. Методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и МОВ.

Практическая значимость работы заключается в реализации предложенных методов и алгоритмов в виде комплекса программ системы текстонезависимой верификации, устойчиво работающего в различных каналах связи, включающего программные модули предобработки речевого сигнала. Также предложены программные реализации методики обучения системы, в том числе и для адаптации системы для работы с фонограммами, записанными в специфических каналах связи.

Достоверность результатов исследования подтверждается корректным использованием математического аппарата, результатами экспериментальных исследований на программных моделях и результатами испытаний реальной системы, при создании которой использовались предложенные методы и алгоритмы.

Внедрение результатов. Результаты работы использовались при проведении в ООО «Центр Речевых Технологий» 2 ОКР и производстве 3 коммерческих продуктов. Работа поддержана программой фонда содействия развитию малых форм предприятий в научно-технической сфере "Участник молодежного движения Научно-Инновационного Конкурса" 2007 года.

Апробация результатов исследования. Основные положения и результаты работы изложены в следующих документах:

1. Отчет по выполнению опытно-конструкторской работы «Разработка и создание автоматизированной фоноскопической системы поиска и учета лиц, представляющих оперативный интерес для правоохранительных органов, в том числе с учетом состояний наркотического опьянения», шифр «Невод-07», № гос. контракта 9/1/2818, 2009 г.

2. Отчет по . выполнению опытно-конструкторской работы «Разработка аппаратно-программного комплекса по идентификации лиц, говорящих: на разных языках (цыганском, таджикском и др.) и представляющих оперативный интерес для правоохранительных органов»; шифр «Этнос-06», 2008 г.

Основные положения и результаты работы докладывались и обсуждались на ряде конференций, в число которых входят следующие:

1. 7-я Международная конференция "Распознавание образов и анализ изображений: новые информационные технологии". Санкт-Петербург, 18-23 октября 2004.

2. Технологии Microsoft в теории и практике программирования. Санкт-Петербург, 1-2 марта 2005

3. VIII Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 27-29 июня 2005

4. 59-я научно-техническая конференция профессорско-преподавательского состава СПбГЭТУ "ЛЭТИ" . Санкт-Петербург 24 января-31 февраля 2006

5. IX Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 27-29 июня 2006

6. 60 научно-техническая конференция профессорско-преподавательского состава СПбГЭТУ "ЛЭТИ" .Санкт-Петербург 30 января-7 февраля 2007

7. Технологии Microsoft в теории и практике программирования. Санкт-Петербург, 13-14 марта 2007

8. X Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 25-28 июня 2007

9. 10-я Международная научно-техническая конференция и выставка "Цифровая обработка сигналов и ее применение". Москва, 28-30 марта 2008.

10. 12-я Международная научно-техническая конференция и выставка "Цифровая обработка сигналов и ее применение". Москва, 31 марта — 2 апреля 2010.

Публикации. По теме диссертации опубликовано 14 работ, их них 5 статей опубликованы в журналах, рекомендованных Высшей аттестационной комиссией, и 9 работ в материалах научно-технических конференций.

Структура и объем работы.

Диссертация состоит из введения, пяти глав, заключения, списка литературы, включающего 85 наименований. Основная часть работы изложена на 175 страницах машинописного текста. Работа содержит 50 рисунков и 20 таблиц.

Заключение диссертация на тему "Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация"

4.7. Выводы

В данной главе приведены результаты экспериментальных исследований влияния параметров системы верификации СГР-МОВ на качество работы. В качестве критерия качества работы системы использовалась ошибка равновероятного пропуска/отклонения EER. Так, показано, что при достижении количества опорных векторов равного 120 наступает насыщение ошибки EER для метода обучения INCAS и 1200 для метода LASVM -дальнейшее её падение даже при малых длительностях речевого сигнала прекращается.

Установлено, что применение всех разработанных алгоритмов предобработки улучшает качество верификации. Максимальная эффективность работы комплекса алгоритмов предобработки достигает на сильно зашумленных сигналах, что часто встречается на практике.

Данные исследования позволили определить оптимальные с точки зрения показателя качества EER параметры системы.

В целом же реализованная программная система верификации СГР-МОВ показывает уровень ошибки EER меньший, чем у таких систем как «Трал М» компании «Центр Речевых Технологий» (по всем тестовым базам) и сравнимый с уровнем ошибки системы «PhonoBase» компании «Целевые Технологии».

Заключение

Представленная диссертационная работа содержит результаты исследований по разработке системы текстонезависимой верификации дикторов по голосу.

Основные научные и практические результаты работы можно сформулировать следующим образом:

• Проведен обзор современных существующих систем идентификации/верификации по голосу как отечественных, так и зарубежных производителей. Предложено уделить основное внимание разработке текстонезависимых систем распознавания дикторов на основе использования СГР и метода опорных векторов.

• Предложен метод текстонезависимой верификации по голосу, совмещающий метод компенсации канальных искажений (метод «собственных каналов») и метод опорных векторов.

• Предложен комплекс алгоритмов предобработки речевого сигнала с целью повышения качества работы системы верификации.

• Разработана методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и MOB.

• Разработано и введено в эксплуатацию программное обеспечение текстонезависимой системы верификации по голосу с использованием СГР-МОВ подхода.

• Проведено экспериментальное исследование разработанной системы верификации дикторов и выполнен подбор параметров программных модулей системы с целью минимизации равновероятной ошибки пропуска/отклонения (EER).

Разработанная модель системы распознавания дикторов может быть эффективно использована для различных практических приложений. Реализованная программная архитектура позволяет сделать данную систему расширяемой для работы на фонограммах, записанных в условиях специфических канальных помех и искажений, а также для верификации дикторов, говорящих на различных языках.

Библиография Симончик, Константин Константинович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Андреев С. В., "Программное обеспечение для создания и использования фонетических баз данных", в сборнике статей "Речевая и музыкальная информатика" /Рос. АН ВЦ отв. редактор В .Я. Чучупал, М.: 1992, с. 81-96

2. Винцюк Т.К., Анализ, распознавание и интерпретация речевых сигналов. Киев. "Наукова думка", 1987.

3. Воробьев В.И., Трибун В.Г., Теория и практика вейвлет преобразования. Военный институт, Санкт-Петербург, 1999.

4. Геппенер В.В., Симончик К.К., Разработка систем автоматической верификации дикторов с использованием нейронных сетей, журнал «Нейрокомпьютеры: разработка и применение», Радиотехника, 2006, №7.

5. Геппенер В.В., Хайдер A.C., Методы принятия решений в задачах распознавания дикторов" Материалы 59-ой научно-технической конференции СПбНТО РЭС им. А.С Попова, изд-во СПбГЭТУ "ЛЭТИ", 2004г., с. 25-26.

6. Гольденберг Л. М., Матюшкин Б. Д., Поляк М. Н. Цифровая обработка сигналов // М.: Радио и связь, 1990.

7. Горелик А. Л., Скрипкин В. А. Методы распознавания: Учеб. пособие для вузов. -3-е изд., перераб. и доп. М.: Высш. шк., 1989. - 232 с.

8. Иванов И.Л. Экспертное исследование параметров распределения ЧОТ. электронный ресурс] http://illidiy.orel.ru/Pub/publ7.htm

9. Каппелини В., А. Дж. Константинидис, П. Эмилиани. Цифровые фильтры и их применение // Пер. с англ. М.: Энергоатомиздат, 1983.

10. Маркел Дж. Д. Грэй А. X Линейное предсказание речи. Пер. с англ./Под ред. Ю. Н. Прохорова — М Связь, 1980.

11. Марпл.-мл. С.JI. Цифровой спектральный анализ и его приложения: Пер. с англ.- М.: Мир.- 1990.

12. Нужный A.C., Шумский С.А., Байесова аппроксимация многомерных данных с помощью вейвлетов, М.: МИФИ, «Нейроинформатика-2003», 2003.

13. Рабинер J1.P, Гоулд Б. Теория и применение цифровой обработки сигналов.// Москва, Изд-во "Мир", 1978.

14. Рабинер J1.P, Шафер Р.В. Цифровая обработка речевых сигналов // Москва, Изд-во "Радио и связь", 1981.

15. С Рамишивили Г.С., Чикоидзе Г.Б. Криминалистическое исследование фонограмм речи и идентификация личности говорящего. Тбилиси, Изд. Мецниереба, 1991.

16. Сергиенко А. Б. Цифровая обработка сигналов. СПБ.: Питер, 2002.

17. Симончик К.К., Разработка встроенной системы автоматической верификации дикторов по голосу, Доклады 10-й Международной конференции «Цифровая обработка сигналов и ее применение», Инсвязьиздат, Выпуск Х-1, Москва, 2008, том 1, стр. 245-248.

18. Солонина А. И., Улахович Д. А., Арбузов С. М. и др. Основы Цифровой обработки сигналов / СПБ.: Петербург, 2003.

19. Фланаган Д.Л., Анализ, синтез и восприятие речи. М.: Связь, 1968. -396 с.

20. Хайдер A.C., Сравнение методов параметризация речевых сигналов при решении задачи распознавания дикторов. // Известия СПбГЭТУ "ЛЭТИ", серия "Информатика, управление и компьютерные технологии" вып. 1,2004, с.36-42.

21. Хэмминг Р. В. Цифровые фильтры // Пер. с англ. М.: Сов. Радио, 1980.

22. Andrews W. D., М. A. Kohler and J. P. Campbell, Phonetic Speaker Recognition, Eurospeech, ISCA, Aalborg, Denmark, 2001, pp. 2517 2520.

23. Andrews W., Kohler M., Campbell J., Godfrey J., Hemandez-Cordero J., "Gender dependent phonetic refraction for speaker recognition", ICASSP, vol. l,p. 149-152, 2002

24. Aronowitz H., Burshtein D. and Amir A., "A session-GMM generative model using test utterance Gaussian mixture modeling for speaker verification," in Proc. ICASSP 2005, Philadelphia, PA, Mar. 2005.

25. Atal B.S., "Automatic speaker recognition based on pitch contours", JASA, vol. 52, pp. 1687-1697, 1972

26. Baum L. E., An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes, Inequalities 3 (19n), 1-8.

27. Bourlard H. and Morgan N. Connectionist speech recognition: a hybrid approach. Kluwer, Dordrecht, 1994

28. Burges C. J. C., "A tutorial on suport vector machines for pattern recognition," Data Mining and Knowledge Discovery, vol. 2, no. 2, pp. 1-47, 1998.

29. Campbell J., Reynolds D., Dunn R., "Fusing high- and low-level features for speaker recognition", Eurospeech ISCA, Geneva Switzerland, 2003

30. Carey M., Parris E. and Bridle J., "A speaker verification system using alpha-nets," in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP '91), vol. 1, pp. 397-400, Toronto, Canada, May 1991.

31. Carey M.J., Parris E.S., Lloyd-Thomas FI., and Bennet S., "Robust prosodic features for speaker identification", Proc. ICSLP-96, Philadelphia, Nov. 1996

32. Dempster A. P., Laird N. M. and D. B. Rubin, Maximum-Likelihood from Incomplete Data via the EM algorithm, Journal of the Royal Statistical Society B (1977), 1-38.

33. Do M., "Fast Approximation of Kullback-Leibler Dis-tance for Dependence Trees and Hidden Markov Models," IEEE Signal Processing Letters, pp. 115118,2003.

34. Doddington G., "Speaker recognition based on idiolectical differences between speakers", Eurospeech, ISCA, Aalborg, Denmark, 2001, pp.2517-2520

35. Doddington G., Some Experiments on Idiolectal Differences among Speakers, 2000.

36. Doddington, G., et al., "The NIST speaker recognition evaluation -Overview, methodology, systems, results, perspective", Speech Communication 31 (2000), pp. 225-254

37. Gales M., "Cluster adaptive training for speech recognition," in Int. Con. Speech Language Processing '98, vol. 5, Sydney, Australia, Nov. 30-Dec.4, 1998, pp. 1783-1786.

38. Hecht R.M., Tishby N. Extraction of Relevant Speech Features Using the Information Bottleneck Method // Proceedings of Interspeech'2005, Lisbon, Portugal, Sept. 4-8, 2005. P. 353-356.

39. Jin Q., Navratil J., Reynolds D., Cambell J., Andrews W., "Combining cross-stream and time dimensions in phonetic speaker recognition", ICASSP 2003

40. Klusacek D., Navratil J., Reynolds D., Campbell J., "Conditional pronunciation modeling in speaker detection", ICASSP 2003

41. Koolwaaij J, Automatic speaker verification in telephony: a probabilistic approach PhD thesis, University of Nijmegen, 2001

42. Koolwaaij J. W. and Boves, L. (1997). On the independence of digits in connected digit strings. In Proceedings of the European Conference on Speech Technology, pages 2351-2354, Rhodes.

43. Kuhn R., Junqua J., Ngyuen P. and Niedzielski N., "Rapid speaker adaptation in eigenvoice space," IEEE Trans, on speech and audio processing, vol. 8, no. 6, pp. 695-707, 2000

44. Kuhn R., Nguyen P., Junqua J.-c., Goldwasser L., Niedzielski N., Fincke S., Field K. and Contolini M., "Eigenvoices for speaker adaptation," in Int. Con! Speech Language Processing '98, vol. 5, Sydney, Australia, Nov. 30-Dec. 4,1998, pp. 1771-1774.

45. Li Q., A fast, sequential decoding algorithm with application to speaker verification, Multimedia Communications Research Laboratory, Bell Labs, Lucent Technologies, 1999.

46. Lucey S. and Chen T., "Improved speaker verification through probabilistic subspace adaptation," in Proc. Eurospeech, Geneva, Switzerland, Sept. 2003.

47. Markel J.D., Gray Jr. A.H. Linear prediction of speech. Berlin: Springer, 1976.- 198 p.

48. Martin A. and Przybocki, M., "The NIST 1999 Speaker Recognition Evaluatioon An Overview", Digital Signal Processing, Vol. 10, Num. 1-3. January/April/July 2000, pp. 1 -18

49. Mason J. and Yu K. (1996). Performance factors in speaker recognition. In Proceedings of the COST-250 workshop on Application of Speaker Recognition Techniques in Telephony, pages 1-5, Vigo.

50. Nguyen P., Wellekens C. and Junqua J.-C., "Maximum likelihood Eigenspace and MLLR for speech recognition in noisy environments," in Proc. Eurospeech '99, vol. 6, Budapest, Hungary, Sept. 1999, pp. 2519-2522.

51. Pekhovsky T., Oparin I., "Eigen Channel Method for Text-Independent Russian Speaker Verification", in Proc. of The XII International Conference "Speech and Computer" SpeCom'08, Moscow, Russia, 2008. pp. 385-390.

52. Pekhovsky T., Oparin I., "Maximum Likelihood Estimations for Session-Independent Speaker Modeling", in Proc. of The XIII International Conference "Speech and Computer" SpeCom'09, St.-Petersburg, Russia, 2009. pp. 267-270.

53. Peskin B., Navratil J., Abramson J., Jones D., Klusacek D., Reynolds D.A., and Xiang B., "Using prosodic and conversational features for high-performnace speaker recognition: Report from JHU WS'02", ICASSP, 2003

54. Przybocki M., Martin A. NIST Speaker Recognition Evaluation Chronicles // Proceedings of the Speaker and Language Recognition Workshop, Odyssey-2004, Toledo, Spain, May 31- June 3, 2004. P. 15-22.

55. Przybocki M., Martin, A. NIST's Assessment of Text Independent Speaker Recognition Performance // COST 275 Workshop Thee Advent of Biometrics on the Internet. P. 25-32.

56. Rabiner L. R. and Juang B. H. (1986). An introduction to hidden Markov models. IEEE Transactions on Acoustics, Speech, and Signal Processing, 4-15.

57. Rabiner L., Juang B.H., Fundamentals of Speech Recognition. Prentice Hall, 1995.

58. Reynolds D. A., Channel Robust Speaker Verification via Feature Mapping, in Proc. IEEE ICASSP, 2003, pp. 53.56.

59. Reynolds D.A. and Rose R.C., Robust text-independent speaker identification using Gaussian mixture speaker models, IEEE Trans. Speech Audio Process. 3 (1995), pp. 72-83.

60. Reynolds D.A., "A Gaussian Mixture Modeling Approach to Text-Independent Speaker Identification." Ph.D. thesis, Georgia Institute of Technology, September 1992.

61. Reynolds D.A., Quatieri, T.F. and Dunn R.B. (2000). Speaker verification using adapted Gaussian mixture models. Digital Signal Processing, 10:19-41.

62. Robinson Tony. Speech Analysis. Lent Term 1998, http://mi.eng.cam.ac.uk/~ajr/SA95/node54.html

63. Rosenberg A. E. and Parthasarathy S. (1996). Speaker background models for connected digit password speaker verification. In Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, pages 81-84, Atlanta.

64. Solomonoff A., Campbell W. and Boardman I., "Ad-vances in Channel Compensation For SVM Speaker Recognition," in ICASSP, vol. 1,2005, pp. 629-632.

65. SuperSID: Exploiting High-Level Information for High-Performance Speaker Recognition // The Center for Language and Speech processing, 2002 Summer Workshop. электронный ресурс] -http://www.clsp.jhu.edu/ws2002/groups/supersid/

66. Thyes О., Kuhn R., Nguyen P. and Junqua J.-c., Speaker Identification and Verification using Eigenvoices, International Conference on Spoken Language Processing (ICSLP) (Beijing, China), Oct. 2000.

67. Tishby N., Pereira F., Bialek W. The Information Bottleneck Method // Proceedings of 37th annual Allerton Conference on Communication, Control and Computing, 1999.

68. Van Leeuwen D. A. Speaker Adaptation in the NTST Speaker Recognition Evaluation 2004 // Proceedings of Interspeech'2005, Lisbon, Portugal, Sept. 48, 2005. P. 1981-1984.

69. Vapnik V. N., The Nature of Statistical Learning Theory, Springer, 1995.

70. Viterbi A.J., Error bounds for convolutional codes and asymptotically optimum decoding algorithm, IEEE Transactions on Information Theory 13, April 1967.

71. Young S. etal., editors (1997). The НТК Book. Cambridge University, Cambridge

72. Zilca R. D., Navratil J., Ramaswamy G. N. Depitch and the role of fundamental frequency in speaker recognition // Proceedings of Internat. Conf. Acoust. Speech Signal Process., 2003. Vol. IT, P. 81-84.

73. Al-Shoshan A.I. "Speech and Music Classification and Separation: A Review", 2006,Department of Computer Science, College of Computer,Qassim University, Saudi Arabia;

74. Barbedo J.G.A., Lopes A. "A Robust and Computationally Efficient Speech/Music Discriminator", 2006, Department of Communications, FEEC, Campinas, SP, Brazil;

75. Carey M.J. Parris E.S. Lloyd-Thomas H. "A comparison of features for speech, music discrimination", 1996, Ensigma Ltd, U.K.;

76. Dixon S. "Onset detection revisited", 2006,Austrian Research Institute for Artificial Intelligence, Austria;

77. Scheirer E., Slaney M. "Construction and evaluation of a robust multifeature speech/music discriminator", 1997,Interval Research Corp., CA, USA;

78. Widmer G., Seyerlehner K., Pohle T., Schedl M. "Automatic music detection in television productions", 2007,Dept. of Computational Perception Johannes Kepler University Linz, Austria and Austrian Research Institute for AI, Vienna;

79. N. Dehak and G. Chollet, "Support Vector GMMs for Speaker Verification," in IEEE Odyssey, San Juan, Puerto Rico, 2006.

80. W. Campbell, D. Sturim, D. Reynolds, and A. Solomonoff, "SVM Based Speaker Verification using a GMM Supervector Kernel and NAP Variability Compensation," in ICASSP, vol. 1,2006, pp. 97-100.

81. P. Moreno, P. Ho, and N. Vasconcelos, "A Generative Model Based Kernel for SVM Classification in Multimedia Applications," in NIPS, 2003.