Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация

Симончик, Константин Константинович

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация

кандидата технических наук: Симончик, Константин Константинович
город: Санкт-Петербург
год: 2010
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация»

Автореферат диссертации по теме "Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация"

На правах рукописи

Симончик Константин Константинович

МЕТОД И АЛГОРИТМЫ АВТОМАТИЧЕСКОЙ ТЕКСТОНЕЗАВИСИМОЙ ВЕРИФИКАЦИИ ДИКТОРОВ И ИХ ПРОГРАММНАЯ РЕАЛИЗАЦИЯ

Специальность: 05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Vе Ш 20^0

Санкт-Петербург - 2010

004617594

Работа выполнена в Санкт-Петербургском государственном электротехническом университете «ЛЭТИ» им. В.И. Ульянова (Ленина)

Научный руководитель - доктор технических наук, профессор Геппенер Владимир Владимирович

Официальные оппоненты: доктор технических наук,

профессор Шульгин Евгений Александрович

кандидат технических наук,

старший научный сотрудник Егоров Владимир Викторович

Ведущая организация - Учреждение Российской академии наук "Санкт-Петербургский институт информатики и автоматизации Российской академии наук" (СПИИРАН)

Защита диссертации состоится «22» декабря 2010 г. в /$-30 часов на заседании совета по защите докторских и кандидатских диссертаций Д212.23 8.01 Санкт-Петербургского государственного электротехнического университета «ЛЭТИ» им. В.И. Ульянова (Ленина) по адресу: 197376, Санкт-Петербург, ул. Проф. Попова, 5.

С диссертацией можно ознакомиться в библиотеке университета. Автореферат разослан «19» ноября 2010г.

Ученый секретарь совета по защите докторских и кандидатских диссертаций

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящий момент область речевых технологий является одной из наиболее динамично развивающихся областей прикладной науки. Это связано с наличием большого числа актуальных задач, связанных с обработкой речи человека. В последние два десятилетия, в связи с бурным ростом компьютерных технологий, произошел прорыв в области автоматической обработки речевого сигнала. Как оказалось, многие задачи из области речевых технологий представляют интерес как для бизнес-структур, так и для правительственных организаций. Действительно, практически все основные прикладные задачи этой области имеют выход как на чисто коммерческое, так и на специальное (связанное с обеспечением безопасности граждан) применение. Например, система автоматического выделения ключевых слов может использоваться как для индексирования речевых баз данных, так и для поиска в телефонном канале определенных слов и фраз; система идентификации диктора применяется как для контроля доступа пользователей к сервисам частных компаний, так и для выявления преступника по голосу. Поддержка речевых технологий из разных источников привела к развитию собственно автоматических методов, развивающихся и уже активно используемых настоящее время. Тем не менее, в виду сложности и комплексного характера задач, возникающих в процессе обработки естественного речевого сигнала, эти задачи далеки от того, чтобы можно было бы считать их решенными как в практическом, так и в научном плане.

Системы верификации дикторов по голосу относятся к множеству биометрических систем и, как следствие, области их применения пересекаются. Достоинством систем распознавания диктора по голосу является то, что такие биометрические системы чаще всего не требуют дополнительного оборудования и могут быть реализованы с использованием телефонных сетей или устройств ввода-вывода разных типов (микрофонов). Области применения таких систем различны:

- Автоматическая идентификация подозреваемого в телефонном канале. Подобная система позволяет проводить постоянный мониторинг телефонных переговоров (как в телефонном канале, так и для 1Р-телефонии) без присутствия оператора и сигнализировать об обнаружении диктора с голосом, похожим на голос подозреваемого в одном из каналов для дальнейших оперативных мероприятий (запись разговора, определение местоположения говорящих т.п.).

- Обработка речевых баз данных. Система идентификации диктора может выделить все вхождения голоса диктора в произвольной речевой базе данных. В таком случае система освобождает оператора от прослушивания всего звукового массива и предоставляет ему набор наиболее вероятных речевых сегментов, что в значительной степени удешевляет и ускоряет процесс поиска по речевым базам данных.

- Криминалистические исследования. Технология автоматического распознавания диктора по голосу уже сейчас используется в современных лабораториях криминалистических исследований как средство анализа фонограмм подозреваемых.

- Системы контроля доступа. Такие системы могут обеспечить дополнительный контроль доступа как к физическим объектам, так и к удаленным ресурсам в компьютерных сетях.

Задачей автоматической верификации дикторов можно считать создание модели, алгоритмов и, наконец, программного модуля, основанных на такой математической .модели, которая позволила бы приблизиться к результатам, достигаемым человеком и, возможно, улучшить их. Данная диссертация посвящена описанию тех подходов, которые обеспечивают наилучшие результаты автоматической текстонезависимой идентификации дикторов и имеют хорошо просматриваемые перспективы дальнейшего развития. Так, ближайшие несколько лет модели с использованием смесей гауссовых распределений (СГР) и метод опорных векторов (MOB) остаются доминирующими при моделировании голоса диктора в задаче текстонезависимой верификации. На основании этого анализа разрабатывается и исследуется система верификации дикторов с использованием СГР и MOB подхода.

Целью диссертационной работы является разработка и исследование метода и алгоритмов текстонезависимой верификации дикторов по голосу, разработка программных; средств текстонезависимой верификации дикторов, устойчиво работающей в различных каналах связи.

В соответствии с указанной целью в работе сформулированы и решены следующие задачи: -

1. Выполнен обзор методов, алгоритмов и систем текстонезависимой верификации дикторов по голосу.

2. Разработаны: метод и алгоритмы построения систем верификации с использованием СГР-МОВ подхода.

3. Разработано и введено в эксплуатацию программное обеспечение текстонезависимой системы верификации по голосу с использованием СГР-МОВ подхода.

4. Проведено экспериментальное исследование разработанной системы верификации дикторов и выполнен подбор параметров программных модулей системы с целью минимизации равновероятной ошибки пропуска/отклонения (EER).

Предмет и методы исследования. Предметом исследования является текстонезависимая система верификации по голосу. При решении поставленных задач использовался аппарат математического моделирования, численных методов, математической статистики, теории цифровой обработки сигналов, теории случайных процессов, теории распознавания образов.

Научная новизна работы представлена следующими положениями: .

1. Предложен метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.

2. Предложен комплекс алгоритмов предобработки речевого сигнала, позволяющий ■ повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях.

3, Разработана методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и МОВ.

Научные положения, выносимые на защиту:

1. Метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.

2. Комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях.

3. Методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и МОВ.

Практическая значимость работы заключается в реализации предложенных методов и алгоритмов в виде комплекса программ системы текстонезависимой верификации, устойчиво работающего в различных каналах связи, включающего программные модули предобработки речевого сигнала. Также предложены программные реализации методики обучения системы, в том числе и для адаптации системы для работы с фонограммами, записанными в специфических каналах связи.

Достоверность результатов исследования подтверждается корректным использованием математического аппарата, результатами экспериментальных исследований на программных моделях и результатами испытаний реальной системы, при создании которой использовались предложенные методы и алгоритмы.

Внедрение результатов. Результаты работы использовались при проведении в ООО «Центр Речевых Технологий» 2 ОКР и производстве 3 коммерческих продуктов. Работа поддержана программой фонда содействия развитию малых форм предприятий в научно-технической сфере "Участник молодежного движения Научно-Инновационного Конкурса" 2007 года.

Апробация результатов исследования. Основные положения и результаты работы изложены в следующих документах:

1. Отчет по выполнению опытно-конструкторской работы «Разработка и создание автоматизированной фоноскопической системы поиска и учета лиц, представляющих оперативный интерес для правоохранительных органов, в том числе с учетом состояний наркотического опьянения», шифр «Невод-07», № гос. контракта 9/1/2818, 2009 г.

2. Отчет по выполнению опытно-конструкторской работы «Разработка аппаратно-программного комплекса по идентификации лиц, говорящих на разных языках (цыганском, таджикском и др.) и представляющих оперативный интерес для правоохранительных органов», шифр «Этнос-06», 2008 г.

Основные положения и результаты работы докладывались и обсуждались на ряде конференций, в число которых входят следующие:

1. 7-я Международная конференция "Распознавание образов и анализ изображений: новые информационные технологии". Санкт-Петербург, 18-23 октября 2004.

2. Технологии Microsoft в теории и практике программирования. Санкт-Петербург, 1-2 марта 2005.

3. VIII Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 27-29 июня 2005. г .

4. 59-я научно-техническая конференция профессорско-преподавательского состава СПбГЭТУ "ЛЭТП". Санкт-Петербург 24 января-31 февраля 2006.

5. IX Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 27-29 июня 2006.

6. 60 научно-техническая конференция профессорско-преподавательского состава СПбГЭТУ "ЛЭТИ" .Санкт-Петербург 30 января-7 февраля 2007.

7. Технологии Microsoft в теории и практике программирования. Санкт-Петербург, 13-14 марта 2007. "•-■

8. X Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 25-28 июня 2007.

9. 10-я Международная научно-техническая конференция и . выставка "Цифровая обработка сигналов и ее применение". Москва, 28-30 марта 2008.

10.12-я Международная научно-техническая конференция и выставка "Цифровая обработка сигналов и ее применение". Москва, 31 марта - 2 апреля 2010.

Публикации. По теме диссертации опубликовано 14 работ, их них 5 статей опубликованы в журналах, рекомендованных Высшей аттестационной комиссией, и 9 работ в материалах научно-технических конференций.

Структура и объем работы.

Диссертация состоит из введения, пяти глав, заключения, списка литературы, включающего 85 наименований. Основная часть работы изложена на 175 страницах машинописного текста. Работа содержит 50 рисунков и 20 таблиц.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность диссертационной работы, определяются цель и задачи исследования, формулируются научная новизна и практическая ценность результатов.

В первой главе вводятся основные определения задачи сравнения голосов дикторов, приводятся принципы построения систем верификации по голосу, дается краткое описание их основных модулей. Приводятся критерии эффективности систем голосового поиска. Дан обзор современных существующих систем идентификации/верификации по голосу как отечественных, так и зарубежных производителей.

По постановке задачи и методу работы системы поиска голосов и верификации диктора делятся на текстозависимые и текстонезависимые, а также на системы, работающие на открытом или закрытом множестве дикторов.

Система называется текстозависимой, если она заранее обучена на распознавание определенной фразы, которую должен произнести диктор. В реальных системах диктор произносит либо заранее определенную «парольную»

- / -

фразу, либо система сама определяет и запрашивает фразу, которую должен произнести диктор. В любом из этих случаев распознаваемая фраза должна быть произнесена каждым из возможных дикторов в процессе обучения системы. Система распознавания диктора называется текстонезависимой, если она не содержит информации о том, что именно диктор будет произносить. Система обучается и тестируется на произвольных речевых данных. Как следствие, эффективность текстонезависимых систем распознавания обычно ниже, чем текстозависимых.

Одним из факторов, по которым определяют эффективность биометрических систем, является частота появления ошибок. Существует два типа ошибок: ошибка отказа FRR (False Reject Rate), пропорциональная числу попыток клиентов, которые отвергаются и ошибка пропуска FAR (False Accept Rate), пропорциональная числу попыток злоумышленников, которые допускаются. Очень часто исследователи используют критерий равенства частоты появления ошибок FRR и FAR - EER (Equal Error Rate) для описания своих исследовательских систем.

На текущий момент на российском рынке представлены такие системы распознавания дикторов, как система автоматизации фоноучетов "Трал М" ООО "Центр Речевых Технологий" с единым уровнем ошибки EER 8%, система "PhonoBase" компании ООО "Целевые Технологии" с показателями FRR = 10% и FAR=1%.

Во второй главе рассматриваются методы первичной обработки и выбора признаков речевых сигналов в задаче распознавания дикторов. Анализируются методы измерения и выбор совокупности параметров речевого сигнала, пригодных охарактеризовать индивидуальность диктора (система признаковых описаний речи), при этом необходимо выделить информативные признаки речевого сигнала, описывающие сигнал в наиболее краткой форме без существенной потери информации.

Особое внимание уделено выделению индивидуальных характеристик диктора из его речи. Важнейшими из них являются коэффициенты линейного предсказания, кепстрадьные признаки, а также спектрально-формантные.

При передаче речевого сигнала по тракту, включающему в себя помещение, канал записи, канал передачи и канал воспроизведения, на него могут накладываться шумы и помехи, например:

- шумы помещения,

- шумы электронных компонентов каналов записи, передачи и воспроизведения,

- шумы реверберации,

- помехи со стороны других дикторов и других каналов.

Кроме того, в речевой сигнал могут вноситься амплитудно-частотные искажения, определяемые характеристиками помещения, микрофона, каналов записи и передачи. Все эти помехи, шумы и искажения, накладываемые на речевой сигнал при его передаче по каналам связи, могут негативно повлиять на процесс верификации диктора по голосу.

В данной работе предлагается комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в

условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях. Комплекс представлен пятью алгоритмами:

1) алгоритм детектирования щелчков;

2) алгоритм детектирования перегрузов;

3) алгоритм детектирования музыкальных сигналов;

4) алгоритм детектирования гудков;

5) алгоритм детектирования речевого сигнала.

На рис. 1 приведена схема взаимодействия компонент (программных модулей) модуля предобработки.

Фонограмма

Итоговая сегментация

Рисунок 1. Схема модуля предобработки речевого сигнала,

В качестве входных данных для каждого детектора является фонограмма с исходным сигналом (детекторы щелчков и перегрузов) или передискретизированным на 11025 Гц (остальные детекторы). Выходными параметрами является список сегментов целевого для данного детектора сигнала.

Третья глава диссертации посвящена описанию математических методов, используемых при моделировании голоса диктора. Рассматривается использование моделей на основе использования смеси гауссовых распределений (СГР) и метода опорных векторов (MOB).

В данной работе предлагается система текстонезависимой верификации дикторов по голосу, сочетающая метод компенсации канальных искажений

моделей СГР (метод «собственных каналов») и метод опорных векторов для классификации результатов сравнения моделей СГР.

Выбор сочетания использования этих методов обусловлен тем, что метод опорных векторов широко зарекомендовал себя в последнее время для эффективного сравнения СГР моделей голосов дикторов. С другой стороны, одним из основных факторов, влияющих на качество системы верификации, является искажения спектра речевого сигнала, вносимые АЧХ канала связи. Метод «собственных каналов», позволяет компенсировать эти искажения ещё на этапе построения СГР модели голоса, таким образом, облегчая задачу классификатору.

Модель гауссовой смеси голоса диктора представляется набором параметров определенных для каждой г'-ой компоненты смеси: средними векторами Д, матрицами ковариации X, и весами а1. Эта совокупность параметров называется моделью СГР Я:

Я = {а„(2,.,Х(},г = 1,...,АГ, (1)

Для наблюдаемого входного вектора х плотность Гауссовой смеси является взвешенной суммой М компонент смеси, которая задается выражением:

с , \ М / \ м

р(х|Л) = 1а,.рДя), 2а, =1, а, >0, 1 = \,...,М (2)

где х - 23-мерный случайный вектор, р,{х), г = 1,..,М, являются компонентами смеси и а,, {г = 1,...,М} являются весами смеси. Каждая компонента плотности - это функция Гаусса «-мерной случайной величины со средним вектором ц, и Ох О ковариационной матрицой X,:

-в -4 -и о г * в

Рисунок 2. Приведение к линейным комбинация Гауссовых функций.

Основной проблемой при решении задачи верификации для систем с использованием СГР является проблема рассогласования, вызванная помехами, вносимыми каналом записи. Под понятием «канал» подразумевается совокупный эффект влияния микрофона мобильного или стационарного телефона, влияние АЧХ канала соединения и другие искажения, вносимые записывающей аппаратурой. Для компенсации такого рода помех для СГР в данной работе

используется метод «собственных каналов», который предполагает разложение супервектора средних модели СГР на составляющие:

М = 5 + С (4)

где супервектор £ зависит только от диктора, а супервектор С зависит только от эффектов канала (рис. 4).

Вектор 5 выступает в качестве опорного канала, тогда как для определения супервектора С исходят из разложения:

С = й-х, (5)

где х - скрытый низко-размерный вектор каналов, 0 - фиксированная матрица собственных каналов.

Рисунок 3. Разложение дикторе- и каналозависимого вектора М.

Матрица U рассчитывается методом с помощью MLES-алгоритма (Maximum Likelihood Eigen Space). Скрытый вектор х вычисляется методом MLED (Maximum Likelihood Eigen-Decomposition), и представляет собой точку в пространстве собственных каналов для модели СГР, построенной по заданному фрагменту речи.

В качестве классификатора в данной работе используется метод опорных векторов. Современное развитие MOB в распознавании диктора выявило, что самое эффективное его применение - это использование MOB в комбинации с методом СГР. В случае такой гибридной системы, MOB использует в качестве входных данных для классификации супервектора средних /г, СГР.

Для гипотезы HI (диктор спорной и эталонной фонограмм один и тот же) и гипотезы Н2 (дикторы на фонограммах различаются), функция, разделяющая классы в пространстве акустических признаков, будет:

= ' (б)

id

где вектор w = (wu..wn) е R", b е R" - скалярный порог, г, е {0,1} - идеальные выходы классификатора, K(fj,fi,) - ядро классификатора.

Origin'

\ ®

0 /-''Margin

Рисунок 4. Построение оптимальное разделяющей гиперплоскости.

В данной работе в качестве ядра использовалось линейное ядро Кампбелла: На рис. 6 показаны основные компоненты СГР-МОВ системы верификации.

Фонограмма

Модуль предобработки речевого сигнала

Выделитель

речевых характеристик

Модуль оценки СГР модели диктора и компенсации канальных искажений

10 диктора

Ззза эталонных моделей i

d < ® - Принять Решение 4-

опорные вектора

Классификатор ЭУМ

</>•©- Отвергнуть Рисунок 5. Система верификации диктора на основе СГР-ЗУМ.

Роль блока формирования акустических векторов-признаков сводится к предобработке входного речевого сигнала для определения параметров, которые передают дикторозависимую информацию. На выходе этого блока получается последовательность акустических векторов-признаков, представляющих тестовый или тренировочный сегмент: X - {5.....,5?г}, где х, - вектор, / = {1 ,...,Т}.

Блок «оценки модели диктора» выполняет алгоритм обучения СГР модели диктора. Модель диктора строится в рабочем цикле системы, когда требуется верифицировать спорную фонограмму, т.е. определить, относится ли эта

фонограмма к вероятному диктору 5 или нет. Модель диктора СГР, построенная с учетом компенсации канальных искажений методом "собственнных каналов", представляется далее в качестве входных данных для классификатора на базе MOB. С использованием специальной базы СГР моделей, выступающих в качестве опорных векторов, строится гиперплоскость разделяющая пространство речевых признаков на 2 искомых класса: HI и Н2. Количество опорных векторов было выбрано равным 1200 как оптимальное по соотношению скорость верификации/качество.

Качество работы системы верификации на основе использования СГР и MOB напрямую зависит от того, каким образом была обучена универсальная фоновая модель (УФМ) и матрица компенсации канальных искажений U. В данной работе предложена методика обучения системы текстонезависимой верификации по голосу с использованием СГР и MOB, которая представляет собой последовательность из трех этапов:

1) Создание универсальной фоновой модели. Выдвигается требование того, чтобы тренировочная и тестовая речь дикторов для УФМ была собрана на различных микрофонах или каналах, что является принципиальным для достижения хорошей эффективности системы распознавания. Кроме того, при создании УФМ очень важно разделение дикторов по полу при формировании базы данных. Предлагается использовать способ параллельного обучения СГР моделей каждого диктора тренировочного множества с последующим объединение этих моделей в УФМ.

2) Расчет матрицы компенсации канальных искажений. Для расчета матрицы компенсации каналов 0 предлагается алгоритм, основанный на работах Куна и Нгуена. В качестве обучающей речевой базы должна быть выбрана ровно тот набор фонограмм, что и для обучения УФМ. Обучение матрицы Û проходит итерационно. Каждая итерация состоит из 2-х этапов:

- MLED-оценка положения вектора x(s, h) подпространства каналов;

- MLES-оценка значений элементов матрицы 0. Насыщение значений элементов матрицы Û происходит при 20 итерациях.

3) Выбор множества опорных векторов. Выбор опорных векторов (ОВ) происходит подобно тому, как производится подбор фонограмм для создания УФМ. Требование того, чтобы СГР модели ОВ были представлены различными микрофонами или каналами, является принципиальным для достижения хорошей эффективности системы верификации. Приводится зависимость ошибки EER верификации от количества используемых ОВ. Так, показано, что при достижении количества ОВ равного 1200 наступает насыщение ошибки EER - дальнейшее её падение даже1 для фонограмм при малых длительностях речевого сигнала прекращается. Поскольку время работы MOB на этапе классификации пропорционально кубу от мощности множества ОВ, то выбор их количества является компромиссным решением относительно качества и скорости работы системы. Таким образом, рекомендуется использовать порядка нескольких десятков - сотню опорных векторов.

В четвертой главе приводятся исследования разработанной системы верификации на различных речевых базах с целью оптимизации её параметров. В качестве критерия качества использовался показатель БЕЯ. В таблице 1 приведены значения ЕЕЯ на 7-ми собранных базах для системы с оптимальными параметрами.

Таблица 1. Качество работы системы па разных речевых базах.

Канал записи спорной Кол-во Кол-во ERR, %

и эталонной сравнений сравнений "свой-

фонограмм "свой-свой" чужой"

GSM 2505 61739 4:5

IP 1340 49850 7.0

El 1204 20505 " 4.7 :

Радиоканал 568 10409 14.0

Аналоговый 541 10234 7.5

Микрофон 1950 50395 1.5

NIST SRE 2004 5032 12850 2.4

Оценка надежности сравнения фонограмм голосов дикторов в зависимости от длительности фонограмм приведена в таблице 2. В данном исследовании спорная и эталонная фонограммы принадлежали различным каналам связи.

Таблица 2, Значение ЕЕЯ в зависимости от сочетания длительностей фонограмм, канал связи СвМ-

микрофон.

Длительность, сек 4 7 11 18 29 47 ' 77

4 20.2% 19.5% 17.1% 16.6% 15.4% 13.3% 11.9%

7 18.2% 15.4% 13.4% 11.6% 9.5% 8.0%

11 13.0% 11.0% 9.2% 6.7% 5.7%

18 8.0% 6.3% 4.5% 3.8%

29 4.5% 3.1% 2.7%

47 2.5% 1.8%-.

77 1.8%

Проведены экспериментальные исследования влияния алгоритмов предобработки сигнала на показатель EER качества верификации. В таблице 3 приведена зависимость для речевой базы канала записи GSM

Таблица 3. Влияние алгоритмов предобработки на качество верификации для речевой базы GSM.

Детектор щелчков Детектор перегрузов Детектор музыкальный сигналов Детектор гудков Детектор речи EER, %

- - - - 14.5

- - - - + 6.5

- - + + 5.9

- + + + 5.0

- + + + + ■ ■ 4.7

+ + + + + 4.5

Основные результаты работы

Представленная диссертационная работа содержит результаты исследований по разработке системы текстонезависимой верификации дикторов по голосу.

Основные научные и практические результаты работы можно сформулировать следующим образом:

• Проведен обзор современных существующих систем идентификации/верификации по голосу как отечественных, так и зарубежных производителей.

• Предложен комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональиых, музыкальных, а также при нелинейных амплитудных искажениях.

• Предложен метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.

• Разработана методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и MOB.

• Разработано и введено в эксплуатацию программное обеспечение текстонезависимой системы верификации по голосу с использованием СГР-МОВ подхода.

• Проведено экспериментальное исследование разработанной системы верификации дикторов и выполнен подбор параметров программных модулей . системы с целью минимизации равновероятной ошибки пропуска/отклонения (EER).

Разработанная модель системы распознавания дикторов может быть эффективно использована для различных практических приложений. Реализованная программная архитектура позволяет сделать данную систему расширяемой для работы на фонограммах, записанных в условиях специфических канальных помех и искажений, а также для верификации дикторов, говорящих на различных языках.

Статьи, опубликованные в изданиях, включенных в перечень ВАК

1.. Симончик К.К, Геппенер В.В. Разработка систем автоматической верификации дикторов с использованием нейронных сетей // Нейрокомпьютеры: разработка и применение. 2006. №7. Издательство 'Радиотехника", С. 14-23.

2. Design of Speaker Verification Systems with the Use of an Algorithm of Dynamic Time Warping (DTW) (Разработки системы верификации дикторов по голосу с использованием Алгоршма Динамического Искажения Времени (ДИВ)), V. V. Geppener, К. К. Simonchik, and A. S. Haidar, Pattern Recognition and Image Analysis, Vol. 17, No. 4,2007, pp. 470479.

3. Симончик К.К, Головкин ДБ. Исследование проблемы интерполяции дискретных сигналов в аудио приложениях, Известия Государственного электротехнического университета. №5/2005. Издательство СПбГЭТУ "ЛЭТИ", С. 3-12.

4. Козлов Л.В., Лоханова А.И., Симончик КК. Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки, «Научно-технические ведомости СПбПТУ», Издательство Политехнического университета, 2010, №4(103), стр. 7-11.

5. Симончик KJC, Галинина О.С., Капустин А.И. Алгоритм обнаружения речевой активности на основе статистик основного тона в задаче распознавания диктора, «Научно-технические ведомости СПбПТУ», Издательство Политехнического университета, 2010, №4(103), стр. 18-23.

Другие работы

6. Development of an Automatic Speaker-Verification System Using the Dynamic Time-Waiping Algorithm (Разработки системы верификации дикторов по голосу с использованием Алгоритма Динамического Искажения Времени (ДИВ)), V. V. Geppener, К. К. Simonchik, and A, S. Haidar, Pattern Recognition and Image Analysis, Vol. 15, No. 2,2005, p. 397.

7. Разработка систем автоматической верификации дикторов с использованием алгоритма динамического искажения времени (ДИВ), ВБ. Геппенер, КК. Симончик, Технологии Microsoft в теории и пракгаке программирования, Издательство Политехнического университета, 2005г, стр. 60-61.

8. Разработка систем автоматической верификации дикторов с использованием нейронных сетей, Геппенер ВБ., Тихонов Д.В., Симончик КК, сборник докладов VII Международной конференции по мягким вычислениям и измерениям, SCM'2005, СПбГЭТУ «ЛЭТИ», 2005.

9. Разработка библиотеки функций Matlab для использования в задачах верификации дикторов по голосу, В.В. Геппенер, К.К. Симончик, OA Черемушкина, сборник докладов IX Международной конференции по мягким вычислениям и измерениям, SCM'2006, СПбГЭТУ "ЛЭТИ", 2006, том 1, С. 124-127.

10. Разработка встроенной системы автоматической верификации дикторов по голосу, ВБ. Геппенер, К.К. Симончик, Технологии Microsoft в теории и практике программирования (материалы межвузовского конкурса-конференции студентов, аспирантов и молодых ученых Северо-Запада), Издательство Политехнического университета, 2007г, стр. 68-69.

11. Разработка встроенной системы автоматической верификации дикторов по голосу, ВБ. Геппенер, КК. Симончик, сборник докладов X Международной конференции по мягким вычислениям и измерениям, SCM'2007, СПбГЭТУ «ЮТИ», 2007, том 2, стр. 55-58.

12. Разработка встроенной системы автоматической верификации дикторов по голосу, Симончик КК, Доклады 10-й Международной конференции «Цифровая обработка сигналов и ее применение», Инсвязьиздат, Выпуск Х-1, Москва, 2008, том 1, стр. 245-248.

13. Система верификации дикторов по голосу на основе использования СГР-SVM подхода, Капустин А.И., Симончик КК, Доклады 12-й Международной конференции «Цифровая обработка сигналов и ее применение», Инсвязьиздат, Выпуск ХП-1, Москва, 2010, том 1, стр. 207-210.

14. Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки, Лоханова А.И., Симончик К.К., Козлов АБ, Доклады 12-й Международной конференции «Цифровая обработка сигналов и ее применение», Инсвязьиздат, Выпуск ХП-1, Москва, 2010, том 1, стр. 210-213.

Подписано в печать 18.11.2010. Формат 60x84/16 Отпечатано с готового оригинал-макета в типографии ЗАО «КопиСервис». Печать ризографическая. Заказ № 1/1118. П. л. 1.0. Уч.-изд. л. 1.0. Тираж 100 экз.

ЗАО «КопиСервис» Адрес: 197376, Санкт-Петербург, ул. Проф. Попова, д. 3. тел.: (812) 327 5098

Оглавление автор диссертации — кандидата технических наук Симончик, Константин Константинович

ПЕРЕЧЕНЬ СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

НАУЧНЫЕ ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ:.

СТРУКТУРА И ОБЪЕМ РАБОТЫ.

ГЛАВА 1. ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ И СИСТЕМ ВЕРИФИКАЦИИ ПО ГОЛОСУ.

1.1. Задача сравнения голосов дикторов.

1.1.1. Формализация задачи.

1.1.2. Виды задач определения диктора по голосу.

1.1.3. Основные модули систем сравнения голосов дикторов.:.

1.2. Критерии эффективности систем верификации.

1.2.1. Национальный институт стандартов и технологий США.

1.2.2. Меры эффективности.

1.2.3. Результаты автоматического распознавания дикторов N 1ST.

1.3. Обзор существующих систем верификации по голосу.

1.3.1. «PhonoBase» - система автоматизированного учёта и поиска фонограмм.

1.3.2. «Трал М» - Система автоматизации фоноучетов и экспресс-исследований фонограмм речи.

1.3.3. Система «Голос».

1.3.4. Система идентификации дикторов.

1.3.5. Система «Speaker Identification System».

1.3.6. Система «Nuance SpeechSecure™».

1.4. Основные проблемы верификации дикторов.

1.5. Перспективы использования систем сравнения голосов дикюров

1.6. Выводы.

ГЛАВА 2. ПРЕДОБРАБОТКА СИГНАЛА И ВЫДЕЛЕНИЕ ХАРАКТЕРИСТИК РЕЧИ.

2.1. Ввод речи и ее цифровое представление.

2.2. Предварительная обработка и выделение первичных приз1 iakob

2.2.1. Дискретное преобразование Фурье.

2.2.2. Цифровые фильтры.

2.2.3. Использование оконных функций.

2.2.4. Нормализация уровня сигнала.

2.3. Выделение индивидуальных характеристик речевого сигнала.

2.3.1. Спектральные методы.

2.3.2. Коэффициенты линейного предсказания.'.

2.3.3. Кепстральное описание.

2.3.4. Идентификация на основании сравнения спектральных характеристик.

2.3.5. Идентификация на основании статистик основного тона.

2.3.6. Использование информации различных лингвистических уровней.

2.4. Комплекс алгоритмов предобработки речевого сигнала.

2.4.1. Схема модуля предобработки речевого сигнала.

2.4.2. Алгоритм детектирования щелчков.

2.4.3. Алгоритм детектирования гудков.

2.4.4. Алгоритм детектирования перегрузов.

2.4.5. Алгоритм детектирования музыкальных сигналов.

2.4.6. Алгоритм детектирования речевого сигнала.

2.5. Выводы.

ГЛАВА 3. СИСТЕМА ВЕРИФИКАЦИИ ДИКТОРА С ИСПОЛЬЗОВАНИЕМ СГР И MOB.

3.1. Математический аппарат СГР и MOB.

3.1.1. Математический аппарат модели Гауссовых смесей.

3.1.2. Обучение модели Гауссовых смесей.

3.1.3. Оценка метода, основанного на построении модели Гауссовых смесей.

3.1.4. Метод «Собственных Каналов» компенсации канальных искаэюений.

3.1.5. Введение понятия Собственного Канала.

3.1.6. Задачи МП-оценок в Собственных Каналах.

3.1.7. Метод опорных векторов.

3.2. Метод текстонезависимой верификации по голосу на основе использования СГР и MOB.>.Л

3.2.1. Выделитель речевых характеристик.

3.2.2. Создание СГР модели гипотезы диктора.

3.2.3. Модуль классификации методом опорных векторов.

3.2.4. Зависимость результатов верификации от языка.

3.3. Разработка методики обучения системы текстонезависимой системы верификации по голосу.

3.3.1. Создание универсальной фоновой модели.

3.3.2. Расчет матрицы компенсации канальных искажений.

3.3.3. Выбор множества опорных векторов.

3.3.4. Методика обучения системы текстонезависимой системы верификации по голосу.

3.4. ВЫВОДЫ.

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ.

4.1. Описание речевых баз данных для разработки, отладки и исследования системы верификации по голосу.

4.1.1. Условия сбора речевых баз данных для различных типов каналов

4.1.2. Общие характеристики речевой базы данных, записанной в различных типах каналов.

4.2. Оптимизация параметров системы верификации по голосу.

4.2.1. Влияние количества опорных векторов на качество системы верификации на базе INCAS.

4.2.2. Влияние количества опорных векторов на качество системы верификации на базе LASVM.

4.2.3. Оценка влияния предобработки на качество верификации.

4.2.4. Выбор параметров системы верификации по голосу для тест ирования.

4.3. Оценка надежности cpabhei1ия фонограмм голосов лиц в зависимости от длительности ф01ЮГРАММ.

4.4. 0це1ika надежности кросс-канального сравнения фонограмм голосов лиц.

4.5. Оценка надежности сравнения фонограмм, принадлежащих одному каналу связи.

4.6. Исследование качества работы алгоритмов предобработки сигнала.

4.6.1. Исследование алгоритма детектирования щелчков.

4.6.2. Исследование алгоритма детектирования гудков.

4.6.3. Исследование алгоритма детектирования перегрузов.

4.7. Выводы.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Симончик, Константин Константинович

Актуальность темы. В настоящий момент область речевых технологий является одной из наиболее динамично развивающихся областей прикладной науки. Это связано с наличием большого числа актуальных задач, связанных с обработкой речи человека. В последние два десятилетия, в связи с бурным ростом компьютерных технологий, произошел прорыв в области автоматической обработки речевого сигнала. Как оказалось, многие задачи из области речевых технологий представляют интерес как для бизнес-структур, так и для правительственных организаций. Действительно, практически для все основные прикладные задачи этой области имеют выход как на чисто коммерческое, так и па специальное (связанное с обеспечением безопасности граждан) применение. Например, система автоматического выделения ключевых слов может использоваться как для индексирования речевых баз данных, так и для поиска в телефонном канале определенных слов и фраз; система идентификации диктора применяется как для контроля доступа пользователей к сервисам частных компаний, так и для выявления преступника по голосу. Поддержка речевых технологий из разных источников привела к развитию собственно автоматических методов, развивающихся и уже активно используемых настоящее время. Тем не менее, в виду сложности и комплексного характера задач, возникающих в процессе обработки естественного речевого сигнала, эти задачи далеки от того, чтобы можно было бы считать их решенными как в практическом, так и в научном плане.

Системы верификации дикторов по голосу относятся к множеству биометрических систем и, как следствие, области их применения пересекаются. Достоинством систем распознавания диктора по голосу является то, что такие биометрические системы чаще всего не требуют дополнительного оборудования и могут быть реализованы с использованием телефонных сетей или устройств ввода-вывода разных типов (микрофонов). Области применения таких систем различны:

- Автоматическая идентификация подозреваемого в телефонном канале. Подобная система позволяет проводить постоянный мониторинг телефонных переговоров (как в телефонном канале, так и для 1Р-телефонии) без присутствия оператора и сигнализировать об обнаружении диктора с голосом, похожим на голос подозреваемого в одном из каналов для дальнейших оперативных мероприятий (запись разговора, определение местоположения говорящих т.п.).

- Обработка речевых баз данных. Система идентификации диктора может выделить все вхождения голоса диктора в произвольной речевой базе данных. В таком случае система освобождает оператора от прослушивания всего звукового массива и предоставляет ему набор наиболее вероятных речевых сегментов, что в значительной степени удешевляет и ускоряет процесс поиска по речевым базам данных.

- Криминалистические исследования. Технология автоматического распознавания диктора по голосу уже сейчас используется в современных лабораториях криминалистических исследований как средство анализа фонограмм подозреваемых.

- Системы контроля доступа. Такие системы могут обеспечить дополнительный контроль доступа как к физическим объектам, так и к удаленным ресурсам в компьютерных сетях.

Задачей автоматической верификации дикторов можно считать создание модели, алгоритмов и, наконец, программного модуля, основанных на такой математической модели, которая позволила бы приблизиться к результатам, достигаемым человеком и, возможно, улучшить их. Данная диссертация посвящена описанию тех подходов, которые обеспечивают наилучшие результаты автоматической текстонезависимой идентификации дикторов и имеют хорошо просматриваемые перспективы дальнейшего развития. Так, ближайшие несколько лет модели с использованием смесей гауссовых распределений (СГР) и метод опорных векторов (MOB) остаются доминирующими при моделировании голоса диктора в задаче текстонезависимой верификации. На основании этого анализа разрабатывается и исследуется система верификации дикторов с использованием СГР и MOB подхода.

Целью диссертационной работы является разработка и исследование методов и алгоритмов текстонезависимой верификации дикторов по голосу, разработка программных средств текстонезависимой верификации дикторов, устойчиво работающей в различных каналах, связи.

В соответствии с указанной целью в работе сформулированы и решены следующие задачи:

1. Выполнен обзор методов, алгоритмов и систем текстонезависимой ч верификации дикторов по голосу.

2: Разработаны: метод и алгоритмы! построения систем верификации с использованием СГР-МОВ подхода.

3. Проведено экспериментальное исследование разработанной системы верификации дикторов и выполнен подбор параметров программных модулей системы с целью минимизации равновероятной ошибки пропуска/отклонения (EER).

Предмет и методы исследования. Предметом исследования1 является текстонезависимая система верификации по голосу. При решении поставленных задач использовался аппарат математического моделирования, численных методов, математической статистики, теории цифровой обработки сигналов, теории случайных процессов, теории распознавания образов.

Научная новизна работы представлена следующими положениями:

1. Предложен метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.

2. Предложен комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях.

3. Разработана методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и МОВ.