автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Система разделения дикторов на основе вероятностного линейного дискриминантного анализа

кандидата технических наук
Кудашев, Олег Юрьевич
город
Санкт-Петербург
год
2014
специальность ВАК РФ
05.13.11
Автореферат по информатике, вычислительной технике и управлению на тему «Система разделения дикторов на основе вероятностного линейного дискриминантного анализа»

Автореферат диссертации по теме "Система разделения дикторов на основе вероятностного линейного дискриминантного анализа"

На правах рукописи

/

Кудашев Олег Юрьевич

СИСТЕМА РАЗДЕЛЕНИЯ ДИКТОРОВ НА ОСНОВЕ ВЕРОЯТНОСТНОГО ЛИНЕЙНОГО ДИСКРИМИНАНТНОГО АНАЛИЗА

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей.

Автореферат

диссертации на соискание ученой степени кандидата технических наук

005555819

2 7 НОЯ 2014

Санкт-Петербург - 2014

005555819

Работа выполнена в Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики

Научный руководитель: кандидат физико-математических наук, доцент,

Пеховский Тимур Сахиевич

Официальные оппоненты: Приоров Андрей Леонидович

доктор технических наук, доцент, Ярославский государственный университет им. П.Г. Демидова, доцент кафедры динамики электронных систем

Гусев Михаил Николаевич

кандидат технических наук,

федеральное государственное унитарное предприятие «Научно-исследовательский институт «Квант», инженер 1-й категории

Ведущая организация:

Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук

Защита диссертации состоится «15» декабря 2014 г. в 14 ч. 00 мин. на заседании диссертационного совета Д.212.227.06 при Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики по адресу: 197101, г. Санкт-Петербург, Кронверский проспект, д. 49, конференц-зал ЦИО.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики по адресу: 197101, г. Санкт-Петербург, Кронверкский проспект, д. 49 и на сайте fppo.ifmo.ru.

Автореферат разослан «_» ноября 2014 года.

Ученый секретарь

диссертационного совета Д.212.227.06

Лобанов Игорь Сергеевич

Общая характеристика работы

Задача разделения дикторов на фонограмме в англоязычной литературе носит название "speaker diarization task". В общем случае термин "diarization" из области обработки звука используется для обозначения ряда задач, связанных с разметкой фонограммы на временные участки, содержащие запись звуков одинакового типа. К таким типам могут быть отнесены: речь целевого диктора, фоновая речь, музыка, различные разновидности шумов и т.п.

Наиболее востребованной и сложной среди подобного рода задач является задача разделения дикторов на фонограмме, которая заключается в выделении на фонограмме речевых сегментов и их кластеризации в соответствии с принадлежностью одному диктору. Таким образом, задача разделения дикторов отвечает на вопрос «Кто когда говорил?».

Наибольшую практическую ценность представляют системы, позволяющие в автоматическом режиме решать поставленную задачу. В данной работе рассматриваются именно такие системы.

Актуальность исследования. Задача разделения дикторов является неотъемлемой частью многих систем автоматической обработки речи. К таким системам в первую очередь следует отнести:

1. Системы автоматического распознавания речи.

Системы автоматического распознавания речи имеют множество применений. В частности, эти системы используются для субтитрирования медиа-контента, для поиска ключевых слов, для автоматического определения тематики разговора или телепередачи. Как показано во многих работах, использование информации о временных границах дикторов позволяет улучшить качество распознавания. Во-первых, имея такую информацию, появляется возможность производить независимую адаптацию параметров системы распознавания для каждого диктора в отдельности. Во-вторых, в случае наличия смены дикторов на фонограмме происходит также и смена контекста, учитывая которую во время декодирования можно заранее отбросить ложные гипотезы. Последнее замечание особенно актуально при решении задачи распознавания спонтанной речи во время активного диалога.

2. Системы автоматического распознавания дикторов по голосу.

Эти системы нашли свое применение при решении многочисленных задач, связанных с поиском целевого диктора в большом объеме звуковых данных. Этот поиск производится путем построения голосовой модели дикторов, присутствующих на аудио-записях, и их дальнейшего сравнения с моделью целевого диктора. Результатом такого сравнения является оценка схожести, анализируя которую можно сделать вывод о присутствии голоса искомого диктора на анализируемой выборке звуковых данных. Для построения голосовой модели диктора в первую очередь необходимо выделить принадлежащие этому диктору речевые сегменты. Во многих случаях, при решении практических задач, помимо искомых речевых сегментов на рассматриваемой фонограмме могут присутствовать также и речевые сегменты других дикторов. Таким образом, в качестве предварительного этапа необходимо решить задачу разделения дикторов на данной фонограмме. Как и для систем распознавания речи, существует ряд работ, показывающих прямую

зависимость эффективности системы распознавания личности по голосу от эффективности системы разделения дикторов.

3. Системы индексации, обработки и хранения аудио-данных.

В условиях постоянного роста аудио- и видео- контента остро стоит вопрос не только со способами его хранения и обработки, но также и с поиском интересующей информации. Для решения последнего вопроса необходимо, в первую очередь, произвести разметку непрерывного потока данных на логические структуры и компоненты и, в частности, осуществить разделение дикторов.

В последнее время наблюдается значительный рост интереса к задаче разделения дикторов. Подобный рост вызван, в первую очередь, быстрым развитием технологий обработки речи, а также увеличением объема звуковых данных. В немалой степени интерес научного сообщества в этой области поддерживается национальным институтом стандартов и технологий США (National Institute of Standards and Technology, NIST), разработавшим методику оценки качества систем автоматической обработки речи (Rieh Transcription Evaluation Project, RTE). Одной из подзадач RTE является задача разделения дикторов ("Metadata Extraction Speaker Diarization Task").

Актуальность темы исследования подтверждается большим количеством публикаций в международных журналах, таких как "Signal Processing Letters", "Speech and Audio Processing", "Acoustics, Speech and Signal Processing", а также многочисленными выступлениями на международных конференциях, таких как SPECOM, Interspeech, ICASSP, Odyssey.

Степень разработанности. В первую очередь необходимо отметить ряд основополагающих работ, посвященных как задачам обработки речевого сигнала в общем, так и задаче разделения дикторов в частности. Это работы таких авторов, как Douglas А. Reynolds, Patrick J. Kenny, Hynek Hermansky. В этих работах широко применяются методы обработки речевого сигнала, разработанные такими авторами как Lawrence R. Rabiner, Ronald W. Schafer, Alan V. Oppenheim, методы машинного обучения на основе теории вероятностей и математической статистики, разработанные и описанные в работах Christopher М. Bishop, Roger R. Berger, David J.C. MacKay.

Задачи разделения дикторов на фонограмме и методы их решения можно классифицировать в соответствии с областью и условиями их применения:

1. Аудиозаписи новостных радио- и телевещаний.

Особенностью таких аудиозаписей является относительно редкая смена дикторов (как правило, не чаще одно раза в 3 секунды), а также отсутствие информации о количестве говорящих. В таких условиях нашли свое широкое распространение методы, основанные на применении байесовского информационного критерия для определения точек смены дикторов и кластеризации речевых сегментов, а также применении смесей гауссовских распределений (СГР) и скрытых марковских моделей (СММ) для создания голосовых моделей дикторов. Достоинством таких методов является их высокое быстродействие и наличие возможности работать в режиме реального времени.

2. Фонограммы телефонных переговоров, семинаров, совещаний, записанных в моно-канале.

Особенность этих условий обуславливается частой сменой дикторов на

фонограмме, а также наличие перекрывающихся речевых сегментов нескольких дикторов. Кроме этого, для таких фонограмм зачастую отсутствует априорная информация о числе дикторов. Примером могут служить аудиозаписи телефонных переговоров, в которых могут встречаться записи автоответчика или факт передачи трубки.

Среди многих работ, посвященных данной тематике, в первую очередь необходимо отметить работы Patrick J. Kenny, N. Dehak. Предлагаемые ими системы разделения дикторов на фонограмме основаны на методах объединенного факторного анализа (Joint Factor Analysis, JFA) в пространствах «собственных голосов» (Eigen Voice, EV) и «полной изменчивости» (Total Variability, TV), на методах вариационного байесовского анализа (Variational Bayesian Analysis, VBA).

Также следует отметить целый ряд работ, посвященных проблеме перекрывающихся речевых сегментов, в которых предлагаются методы их детектирования и устранения.

3. Фонограммы семинаров, совещаний, записанных при помощи мульти-ка-нальных систем.

Мульти-канальные системы обеспечивают синхронную запись звука с большого набора микрофонов, обеспечивая тем самым возможность на начальном уровне обработки звука определять его источник. Существует целое направление, связанное с решением задачи разделения дикторов в таких условиях.

Наиболее сложным из представленных выше условий является второй случай. Методы, разработанные Patrick J. Kenny показывают наилучшие на текущий момент результаты для данных условий. Такие результаты достигаются за счет широкого использования априорной информации при моделировании распределения акустических признаков речевых сегментов дикторов. Однако основным недостатком этих методов является обязательное наличие информации о количестве дикторов. Это условие ограничивает применение указанных методов в ряде практических задач, где эта информация отсутствует.

Учитывая все вышесказанное, а также принимая во внимание рост качества автоматических систем обработки речи, влекущий за собой повышение требований к качеству разделения дикторов, можно сделать вывод о необходимости дальнейшего развития указанным методов.

Таким образом, целью исследования является исследование и разработка методов разделения дикторов, которые с высокой эффективностью осуществляют решение поставленной задачи при условии отсутствия априорной информации о числе дикторов.

Для достижения поставленной цели были сформулированы и решены следующие основные задачи:

1. Исследование современных достижений в области разделения дикторов, а также в смежных областях, таких как тексто-зависимая и тексто-независимая идентификация дикторов по голосу, распознавание речи.

2. Разработка и реализация методов разделения дикторов на фонограмме, позволяющих работать в условиях отсутствия априорной информации о числе дикторов.

3. Подготовка акустических баз дня оценки параметров (обучения) и тестиро-

вания системы разделения дикторов.

4. Реализация программных средств системы разделения дикторов, осуществляющих решение поставленной задачи.

5. Проведение численных экспериментов, осуществляющих оценку качества разработанной системы, а также её сравнение с мировыми аналогами.

Объект исследования. Системы разделения дикторов на фонограмме.

Предмет исследования. Методы, обеспечивающие решение задачи разделения дикторов при условии отсутствия априорной информации о числе дикторов.

Методы исследования. Методы цифровой обработки речевого сигнала, теории вероятности и математической статистики, машинного обучения, тексто-независимой идентификации дикторов по голосу, методы проектирования и разработки программного обеспечения ЭВМ.

Научная новизна.

1. Разработана модель вероятностного линейного дискриминантного анализа (Probability Linear Discriminant Analysis, PLDA), применимая к задаче разделения дикторов.

2. Разработан метод кластеризации речевых сегментов при известном числе дикторов на основе вариационного байесовского анализа и методов спектральной кластеризации в рамках разработанной модели PLDA.

3. Разработан метод модельного отбора числа дикторов на фонограмме на основе PLDA.

4. Разработана система разделения дикторов на фонограмме, осуществляющая эффективное решение поставленной задачи в условиях отсутствия информации о числе дикторов.

5. Реализованы программные средства, включающие в себя набор модулей, осуществляющих оценку параметров и тестирование разработанной системы.

Обоснованность научных достижений и результатов обеспечивается согласованностью между разработанными методами и результатами экспериментальных исследований, апробацией основных положений в ряде ведущих международных конференций, анализе состояния исследований в рассматриваемой области, а также успешным практическим применением разработанных программных средств.

Основные положения, выносимые на защиту:

1. Модель вероятностного линейного дискриминантного анализа, применимая к задаче разделения дикторов.

2. Метод кластеризации речевых сегментов при известном числе дикторов на основе вариационного байесовского анализа и методов спектральной кластеризации в рамках разработанной модели PLDA.

3. Метод модельного отбора числа дикторов на фонограмме на основе PLDA.

4. Система разделения дикторов на фонограмме, осуществляющая эффективное решение поставленной задачи в условиях отсутствия информации о числе дикторов.

5. Программные средства, включающие в себя набор модулей, осуществляющих оценку параметров и тестирование разработанной системы.

Практическая значимость. Система, разработанная в рамках диссертационной работы, дает возможность осуществлять разделение дикторов на фонограмме при условии отсутствия информации о числе дикторов. При этом качество

разделения сопоставимо и в некоторых случаях превышает качество аналогичной системы, работающей в условиях присутствия информации о числе дикторов. Применение разработанной системы в качестве этапа предварительной обработки речевого сигнала позволяет достичь 40 % относительного уменьшения величины равновероятной ошибки системы тексто-независимого распознавания дикторов по голосу, осуществляющей поиск целевого диктора на фонограмме.

Внедрение результатов работы. Результаты, полученные в рамках данной работы, нашли свое практическое применение в качестве программного модуля разделения дикторов, внедренного в состав ряда продуктов общества с ограниченной ответственностью «Центр Речевых Технологий»: АПК «Трал», ПО «VoiceGrid», голосовой поиск «VoiceGrid». Отдельные результаты диссертационной работы были внедрены в учебный процесс кафедры речевых информационных систем НИУ ИТМО в рамках дисциплины «Распознавание дикторов». Результаты внедрения подтверждены соответствующими актами.

Апробация результатов работы. Результаты исследования представлялись и обсуждались на следующих научно-методических конференциях: I и II Всероссийский конгресс молодых ученых (Санкт-Петербург, 2012-2013), XLI научная и учебно-методическая конференция НИУ ИТМО (Санкт-Петербург, 2012), 15th International Conference on Speech and Computer (Пльзень, Чехия, 2013), Acoustics, Speech and Signal Processing (ICASSP) (Флоренция, Италия, 2014). За научные результаты, полученные в ходе исследования, соискателем был получен диплом победителя конкурса грантов правительства Санкт-Петербурга для аспирантов в 2013 году.

Личный вклад автора. Автором лично разработана и обоснована модель вероятностного линейного дискриминантного анализа, применимая к задаче разделения дикторов. На основе предложенной модели автором лично разработаны алгоритмы и методы кластеризации речевых сегментов фонограммы по дикторами, методы определения числа дикторов. Разработаны программные средства, осуществляющие оценку параметров, настройку, тестирование и оценку качества системы разделения дикторов. Проведены исследования, осуществляющие сравнение разработанной системы с мировым аналогом.

Публикации. По теме диссертации опубликовано 8 печатных работ, 6 из которых в изданиях из перечня рецензируемых научных журналов ВАК, 3 из которых в международных журналах, индексируемых в базе данных Scopus.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы (112 наименований). Материал изложен на 158 страницах и включает 27 таблиц и 15 рисунков.

Основное содержание работы

Во введении обоснована актуальность работы, сформулированы цели и задачи исследования, показана научная новизна и практическая значимость, изложены основные положения, выносимые на защиту.

В первой главе представлены все основные этапы современных систем разделения дикторов на фонограмме. Эти этапы включают в себя: построение акустических признаков; выделение речевых участков фонограммы; разбиение фонограммы на сегменты, содержащие речь только одного диктора (поиск точек

смены дикторов); построение робастных голосовых моделей дикторов; кластеризация речевых сегментов в соответствии с принадлежностью одному диктору.

Рассмотрены основные акустические признаки, используемые как в области разделения дикторов, так и в смежных областях, таких как распознавание дикторов по голосу и распознавание речи. Дано подробное описание процедуры построения трёх основных типов акустических признаков: Мел-частотные кепстральные коэффициенты (Mel-frequency cepstral coefficients, MFCC) , коэффициенты линейного предсказания (КЛП), перцепционные коэффициенты линейного предсказания (Perceptual Linear Predictive, PLP) . Показано влияние на рассмотренные признаки типичных акустических помех и искажений, таких как аддитивный шум и реверберация. Представлены основные методы нормализации акустических признаков: нормализация среднего значения коэффициентов (Cepstral Mean Normalization, CMN) , нормализация значения дисперсии (Cepstral Variance Normalization, CVN), STMN (Short Time Mean Normalization), STVN (Short Time Variance Normalization), Features Warping и Short-Time Gaus-sianization . Даны основные методы постобработки, позволяющих добавлять к исходным признакам информацию о динамике речи. К таким методам в первую очередь отнесен подсчет производных 1-го и 2-го порядка по времени.

Представлен обзор основных современных методов построения детектора речевой активности (Voice Activity Detection, VAD), позволяющего производить выделение речевых участков на фонограмме. Отмечено, что алгоритм VAD в общем виде состоит из следующих этапов: разбиение акустического сигнала на кадры; подсчет акустических признаков на каждом кадре; построение классификатора на размеченном множестве признаков обучающей базы; применение классификатора на тестовом множестве признаков и разметка входного сигнала на речевые и неречевые участки. Дан перечень основных акустических признаков, используемых для решения этой задачи: MFCC, КЛП, PLP, Zero Crossing Rate (ZCR), признаки, основанные на анализе оценки дивергенции спектральных полос шума и речи, на анализе значений основного тона. Рассмотрены основные классификаторы, применяемые для детектирования речи: классификатор на основе порогового значения энергии; байесовский классификатор; классификатор на основе метода опорных векторов; классификаторы, основанные на нейронных сетях, генетических алгоритмах, алгоритме Adaptive Boosting. Отдельно отмечен подход, основанный на методе неотрицательной факторизации матриц (Non-negative Matrix Factorization, NMF). Преимущество этого подхода состоит в том, что для оценки его параметров достаточно иметь в обучающем множестве только речевые сегменты.

Рассмотрены методы сегментации фонограммы, они же - методы поиска точек смены дикторов на фонограмме. Отмечено, что наиболее эффективные рассматриваемые методы основаны на анализе значений метрики «схожести» речевых участков фонограммы. К наиболее распространенным метрикам относятся: величина ABIC (Bayesian Information Criterion), обобщенное отношение правдоподобия (Generalized Likelihood Ratio, GLR), дивергенция Кульбака-Лейблера (КЛ-дивергенция).

Рассмотрены наиболее эффективные современные методы построения голосовой модели дикторов. Среди основных проблем, препятствующих построению голосовой модели, обладающей высокой разделяющей и обобщающей способностями, выделены: лингвистическая вариативность; внутридикторская вариатив-

ность, связанная с различным эмоциональным и физическим состоянием диктора; вариативность акустического окружения и канала записи; недостаточное количество данных для оценки значений параметров модели. Среди прочих рассмотрен наиболее эффективный метод, основанный на применении смеси гауссовых распределений (СГР) и факторного анализа в пространстве «полной изменчивости» (Total Variability, TV). Этот метод сводится к построению СГР, аппроксимирующей распределение акустических признаков диктора, путем MAP (Maximum A Posteriori) - адаптации средних значений UBM (Universal Background Model), по формуле:

s = fi + Tw, (1)

где fi - объединенный вектор средних значений UBM; Т - низкоразмерная матрица, столбцы которой задают пространство «полной изменчивости», aw- случайный вектор размерностью D со стандартным нормальным априорным распределением, названный в литературе i-вектором. Для этого подхода приведены методы построения функции правдоподобия и оценки значений апостериорного распределения i-векгора, элементы которого выступают в качестве параметров голосовой модели диктора.

Приведены наиболее распространенные методы кластеризации речевых сегментов по дикторам, среди которых: методы иерархической кластеризации; алгоритм K-средних; методы, основанные на скрытых марковских моделях (СММ). Отдельно рассмотрен метод, основанный на вариационном байесовском анализе (Variational Bayesian Analysis, VBA), который осуществляет оценку апостериорного распределения параметров модели дикторов в пространстве TV, а также апостериорного распределения скрытых бинарных индекс-векторов, являющихся решением задачи кластеризации (метод VBA-TV). Этот метод является на текущих момент наиболее эффективным решением рассматриваемой задачи. Однако, он не позволяет производить оценку числа дикторов на фонограмме.

Рассмотрены способы оценки эффективности систем разделения дикторов. Предложено разделять рассмотренные способы на прямые и косвенные. Прямые способы позволяют непосредственно оценить качество разделения дикторов путем сравнения результатов работы системы с эталонной разметкой по дикторам. К ним отнесены: величина DER (Diarization Error Rate), состоящая из суммы трех типов ошибки (ошибки ложного детектирования речи Ер л, ошибки ложного пропуска речи Emiss и ошибка разделения дикторов Еф:т)\ величины, характеризующие качество кластеризации, а именно средняя чистота кластеров (Average Cluster Purity, АСР), средняя чистота дикторов (Average Speaker Purity, ASP) и их геометрическое среднее К = у/АСР ■ ASP. К косвенным способам относится оценка эффективности тех систем, которые включают в себя рассматриваемую. Так, в качестве оценки качества разделения дикторов можно использовать значение равновероятной ошибки верификации EER (Equal Error Rate) системы тексто-независимого распознавания дикторов по голосу.

В заключении было отмечено, что несмотря на значительный прогресс в решении рассматриваемой задачи за последнее десятилетие, нельзя утверждать, что задача разделения дикторов полностью себя исчерпала. Требуется дальнейшее развитие методов и алгоритмов, позволяющих производить разделение дикторов на фонограмме при различных условиях: частой/редкой смены дикторов; с известным/неизвестным числом дикторов. Также следует уделить особое внимание развитию методов разделения дикторов в контексте решаемой задачи, к

примеру, в контексте распознавания дикторов по голосу или распознавания речи.

Во второй главе представлено описание системы разделения дикторов на фонограмме на основе вероятностного линейного дискриминантного анализа (Probability Linear Discriminant Analysis, PLDA). Дано общее описание метода PLDA, его преимущества перед другими методами тексто-независимого распознавания дикторов по голосу.

PLDA представляет собой следующий этап построения голосовой модели диктора после расчета i-векгора, в результате чего осуществляется компенсация внутри-дикторской вариативности. В соответствии с методом PLDA тексто-независимого распознавания дикторов, каждый элемент множества i-векгоров одного диктора W = {wr 6 R^JyLi может быть представлен в виде:

wr = т + Vy + Uxr + er r=l,...,R, (2)

где m - среднее значение; х,у - случайные вектора размерностью Nx и Ny, имеющих стандартное нормальное априорное распределение; е - случайный вектор, имеющий гауссово распределение с нулевым средним значением и ковариационной матрицей Л-1; V - матрица размерностью [D х Ny), содержащая базис, отвечающий за междикторскую вариативность; U - матрица размерностью [D х Лу, содержащая базис, отвечающий за внутри-дикторскую вариативность. Вектор у задает факторы, отвечающие за индивидуальные характерные особенности голоса диктора, х задает факторы, отвечающие за канальную вариативность. Делается упрощение модели, при котором размер матрицы U Nx принимается равным нулю. Рассмотрены две основные задачи метода PLDA: 1) оценка параметров т, V, U, Л (задача обучения); 2) определение принадлежности двух i-векгоров одному диктору (задача верификации). Отдельно отмечена проблема верификации в случае, когда сравнение производится между i-векторами, построенными на речевых сегментах различной длительности.

Показано, что применение оригинального метода PLDA из задач тексто-независимого распознавания дикторов по голосу, при котором построение i-векгора производится по всей фонограмме, нецелесообразно для решения рассматриваемой задачи, в рамках которой происходит оперирование сверх-корот-кими речевыми сегментами. Была предложена альтернативная модель PLDA, которая применима для решения задачи разделения дикторов. Эта модель заключается в оценке параметров распределения i-векгоров коротких речевых сегментов фонограмм, задаваемые набором W = Uf=i Ur^i* US'8' «Лч,г,ь где S -число дикторов обучающего множества; R(s) - число сессий диктора s; К {г, s) - количество речевых сегментов, полученных из г сессии диктора s. Так, произвольный вектор ws^k можно представить в виде:

Ws,r,k = т + VyS:r + еа>г,к , (3)

Следуя предложенной модели, представлены формулы итерационного приближения оценок параметров PLDA. Эти формулы получены на основе алгоритма ЕМ (Expectation Maximization) и состоят из двух шагов: 1) Е-шаг, на котором оценивается апостериорное распределение скрытых переменных у,,.г по

формулам:

1пР(у,1гК>гд,...,и^А-(в1Г)) = ЩУ'АУ'г^у,,) (4)

£у„г = (К(з,г)УтАУ + 1)-1 , (5)

К(8,Г)

Уз,г = Е "V ' (6)

¡ь=1

2) М-шаг, на котором производится максимизация вспомогательной функции, в результате чего получаются следующие формулы пересчета V,Л:

упеш = (е (у^г)г Е(е (у^г)у) (7)

\ «,г к / \ э,г /

(дне*,)-! = (8)

где

(у«,г)у = (9)

{Уе,гУ1г)у = ¿у.,г + У*Ж,т ■ 0°)

Отмечено существенное преимущество данного подхода, заключающееся в том, что во всех представленных формулах оценки параметров совокупность индексов (в, г) можно заменить на один глобальный индекс, указывающий номер фонограммы. Таким образом, необязательным является наличие информации об идентификаторах дикторов, записанных на фонограммах базы обучения. Как следствие, появляется возможность без существенных трудозатрат расширять базу обучения, включая в неё материал, близкий к условиям эксплуатации, и, тем самым, адаптируя её под эти условия.

Проведен численный эксперимент, в рамках которого осуществлена тексто-независимая верификация при использовании речевых сегментов фонограмм длительностью от 1 до 20 секунд. В результате этого эксперимента было показано, что в случае использования модели РЬБА, применяемой в системах тексто-независимого распознавания дикторов, результаты не только не улучшаются относительно опорной системы, а, наоборот, показывают значительную деградацию качества на сформированных тестовых протоколах. Напротив, предложенная модель демонстрируют увеличение эффективности и устойчивости решения относительно опорной системы.

Рассмотрена задача кластеризации набора речевых сегментов фонограммы, которым соответствует набор ¡-векторов IV = {и^,.. . ,гуд}. Предложен алгоритм кластеризации, состоящий из двух этапов: на первом выполняется кластеризация при фиксированном числе дикторов, изменяющемся в пределах от 1 до 5тах, где 5та1 < Н; на втором этапе для полученных вариантов кластеризации {@ш}т=1 осуществляется оценка функции правдоподобия Р(1У|вт) и выбор итоговой кластеризации, при которой достигается её максимум. В связи с этим, рассматриваемая задача разделяется на две подзадачи: 1) кластеризация при известном числе дикторов; 2) задача модельного отбора, при которой выполняется

выбор наиболее предпочтительной кластеризации из ограниченного множества вариантов. Для каждой из указанных подзадач было предложено решение, основанное на разработанной модели РЬБА.

Для задачи модельного отбора предложено два метода, основанных на подсчете двух различных функций правдоподобия. В основе первой функции правдоподобия лежит идея о независимом рассмотрении всевозможных попарных комбинаций ¡-векторов речевых сегментов фонограммы. Таким образом, вместо входных данных IV = {и.^}^ рассматривается набор данных л

W*

(WL

. Логарифм функции правдоподобия для кластеризации

1 3>г

© в этом случае будет иметь вид:

L1(W\e,V,A) = f^ £ lnp([ 1 |©,V,л) =

i=1 j=!+l \ L J J /

= Л Л Г-i «Я-1^! - 2w{Pw2 + wlH-lw2) + С + /3 ,Zi = Zj hjhtx + 2) +C ,Zi ф Zj

(И)

где Zi - бинарный гшдекс-вектор, указывающих, какому кластеру принадлежит каждый вектор входных данных; £iot = VVT+A~l; Н = (S(oi — VVTY,~^tVVT)\ Р = Y,fo]VVTН~1-, ¡3 - настраиваемый параметр системы, отвечающий за соотношение ошибок АСР и ASP.

Вторая функция правдоподобия основывается на методе PLDA, в основе которого лежит идея о независимости данных, принадлежащих различным кластерам. Показано, что в этом случае функция правдоподобия будет задаваться уравнением:

к

L2(W|©, V, Л) = J21п ■ • •. IV, Л) =

k=1K * (12)

k=1

где Ik = {if,..., ikRk\ - набор индексов i-векгоров, принадлежащих кластеру

k; tVk = (RkVTAV + а/)-1, у к = ¿,JkVTA 52reIk(wr - т) - ковариационная матрица и среднее значение апостериорного распределения скрытых факторов Ук кластера к, а а - настраиваемый параметр системы, аналогичный параметру

Р-

Для решения задачи кластеризации при известном числе дикторов предложено также два подхода. Первый из них основывается на методах спектральной кластеризации, в частности - на алгоритме К-средних с нелинейным ядром (KERNEL K-MEANS), которое задается матрицей «схожести». В качестве требуемой матрицы предлагается использовать матрицу Ар = {a^}fj=1, элементы которой являются оценкой вероятности принадлежности соответствующей пары i-векгоров одному диктору на основе модели PLDA, а также матрицу

Aq, каждый элемент которой является значением гауссова ядра между векторами размерностью R, представляющие собой столбцы матрицы Ар = {Щ = ln(ag/(l-ag))}£=1.

Второй подход был разработан на основе VBA, суть которого состоит в численном итерационном приближении функции апостериорного распределения как параметров PLDA-моделей дикторов Y = {yk}k=i> так и скрытых бинарных индекс-векторов Z = указывающих на принадлежность входных i-векгоров дикторам (метод VBA-PLDA). В итоге, формулы искомого приближения имеют вид:

п

^k1 = {i+Y,4ikVTm аз)

i=l

R

Ук = ±ykVTAj2mkWi (14)

¡=1

In qik = -^wfAwi+y^Awi-^Tr^AVity^MÏ)) (15)

Qik = к'к . , (16)

Ък=1 Ягк

где qik - апостериорная вероятность присутствия диктора к на сегменте i.

В заключении второй главы дано общее описание алгоритма разделения дикторов, основанном на разработанных методах.

В третьей главе представлено описание построения всех основных модулей системы разделения дикторов на фонограмме в соответствии со следующей схемой: в первую очередь произведено построение опорной системы, основывающейся на методе VBA-TV; далее, последовательно произведен выбор и настройка наиболее робастных акустических признаков, произведена настройка модуля сегментации, произведено построение модуля кластеризации речевых сегментов по дикторам и определения числа дикторов на фонограмме на основе методов, разработанных во второй главе.

Дано описание методики оценки эффективности систем, включающее в себя описание используемых акустических баз и критерии оценки качества. На основе указанной методики производилась оценка и выбор наиболее удачных параметров и комбинаций модулей системы.

Все используемые акустические базы разделены на две непересекающиеся по дикторам части: базы оценки параметров системы (базы обучения) и базы тестирования. В качестве обучающих использованы 4 базы, предоставленные NIST в серии международных конкурсов по тексто-независимой идентификации дикторов по голосу за следующие годы: 2004, 2005, 2006, 2008. Эти базы состоят более чем из 30000 фонограмм и включают в себя почти 3000 дикторов, записанных в трех акустических каналах: телефон, гарнитура, дальний микрофон. Также в них представлено более 11 различных языков. Наряду с базами обучения сформированы 11 тестовых баз, состоящих из записей переговоров дикторов в трех аналогичных акустических каналах. Фонограммы тестовых баз содержат различное число дикторов (от 1 до 5), разговаривающих на различных языках, имеют различную длительность (от 2 до 33 минут), имеют различные

значения ОСШ (от 12 до 30 Дб) и реверберации (от 0.27 до 0.66 сек.). В таблице 1 представлены основные характеристики тестовых баз. В качестве критериев

Таблица 1 - Основные характеристики фонограмм тестовых баз

База Языки Канал Кол-во фонограмм Кол-во дикторов на фонограмме Средняя продолжительность записи

NIST2008-ENG английский телефон 100 2 5 мин.

NIST2Û08-FOR китайский, корейский, японский, тайский, хинди, вьетнамский телефон 100 2 5 мин.

AMI-CORPUS английский гарнитура 55 4 33 мин.

STC-MICG русский гарнитура 76 2 6 мин. 40 сек.

STC-MIClm русский дальний микрофон 76 2 6 мин. 40 сек.

STC-MIC2m русский дальний микрофон 76 2 6 мин. 40 сек.

STC-MIC4m русский дальний микрофон 76 2 6 мин. 40 сек.

STC-PHN1 русскии телефон 100 2 2 мин.

STC-PHN2 русскии телефон 433 2-5 2 мин. 30 сек.

NIST2008-MONO английский телефон 100 1 5 мин.

NIST2008-QUAD англиискии телефон 100 4 10 мин.

оценки качества предложено использовать значения ASP, АСР, их геометрическое среднее К, значение EER системы тексто-независимого распознавания дикторов, осуществляющей поиск целевого диктора на фонограмме, а также нормированное значение ошибки разделения дикторов Espkr = Espkr/( 1 — EmiSS).

Построена опорная система, основанная на методе VBA-TV, одним из требований которого является наличие информации о числе дикторов. В качестве акустических признаков использованы 13 коэффициентов MFCC без нормализации и постобработки. В качестве VAD использован детектор речи на основе анализа энергии сигнала в частотном диапазоне от 300 до 1500 Гц. Для принятия решения о присутствии речи на участке фонограммы применен адаптивный порог, рассчитываемый на окне длительностью 10 секунд. В качестве точек смены дикторов опорной системы используются все переходы «речь - не речь», полученные в результате работы VAD. UBM опорной системы состоит из 512 гаус-соид, параметры которых получены при помощи ЕМ-алгоритма. Размерность матрицы Т бралась равной 100.

Исследовано влияние различных акустических признаков (КПП, MFCC и PLP), а также методов их нормализации и постобработки на качество системы разделения дикторов. Наиболее удачными были признаны акустические при-

знаки, полученные путем объединения MFCC и PLP без нормализации и без добавления информации о динамике речи.

Рассмотрен метод сегментации на основе анализа значений ABIC. Проведены эксперименты, показывающие влияние различных значений параметра функции ABIC на эффективность разделения дикторов, а также произведен выбор его оптимального значения.

Далее были применены методы кластеризации речевых сегментов при известном числе дикторов, разработанные во второй главе: методы спектральной кластеризации на основе матриц «схожести» Ар и Aq; метод VBA-PLDA. В результате численных экспериментов было показано, что наилучших результатов можно достичь, используя в качестве основного метода кластеризации метод VBA-TV при его инициализации методом VBA-PLDA.

Основные результаты построения системы разделения дикторов при известном числе дикторов представлены в таблице 2.

Таблица 2 - Результаты разделения дикторов различными системами при известном числе дикторов

Система E, pkr

U Z w ■ 00 a 0 lb 00 СЛ Э С. oi О и S О S ГЧ и E ЧГ и Z

0 c* H СЛ Z 0 H M Z и t § < S 1 и H U5 S 1 и H Э2 £ 1 О E- 1л S 1 О H (Л 5 p- 1 и 6

Опорная система 7.07 8.26 14.55 9.76 11.47 13.32 15.74 12.16

Опорная система + 7.59 7.22 13.89 7.61 8.54 10.86 14.94 6.25

MFCC-PLP + ABIC

KERNEL K-MEANS + 6.68 6.58 21.63 6.00 10.78 12.65 19.85 8.04

VBA-PLDA

KERNEL K-MEANS + 6.07 6.60 14.02 5.53 8.39 10.08 14.26 5.72

VBA-PLDA + VBA-TV

Исследованы разработанные во второй главе методы модельного отбора, основанные на анализе двух функций правдоподобия (¿i и ¿2). Показано, что предложенные параметры а и /3 этих двух функций позволяют производить регулировку соотношения ошибок двух типов: АСР и ASP. На рисунке 1 представлена зависимость между АСР и ASP указанных методов модельного отбора на тестовых базах NIST2008-MONO, NIST2008-ENG, NIST2008-QUAD, AMI-CORPUS, а также для случая, когда число дикторов заранее известно.

Результаты, представленные на этом рисунке, свидетельствуют о высоком уровне качества модельного отбора на основе функции L2 на тестовых базах, близких к обучающему множеству.

Показано, что оптимальные значения параметров а и /3 зависят от условий тестирования.

Проведен эксперимент, показывающий значительную редукцию уровня ошибки EER системы распознавания дикторов по голосу (с 13.8 % до 8.2 %) в случае

0.5 0.6

■•Ч ру, -•v.. Ч ' 1: t t f 1

I 1

....... ¿2

—и i

* ID 1 i

0.7 0.8 0.9 ACP NIST2008-ENG

(а)

а <

э о>

0.9

0.8

Й 0.7

и 0.6 <

0.5 0.6

' it.*.

* ,

X*

V

....... ¿2

---Lx

* ID

0.7 0.8 0.9 1 ACP NIST2008-QUAD

(Ь)

сл 0.9

э

с.

0 0.8 U

I

1 О-7 <

|о.б

0.5 0.6

\ :

л •i:

I:

\\

V_¿_

0.7 0.8 0.9 1 ACP AMI-CORPUS

(с)

0.5

■ ж

4 - ..

\ : \ \ \

....... ¿2

---Li

* ID l

0.6 0.7 0.8 0.9 1 ACP AMI-CORPUS

(d)

Рисунок 1 - Зависимость между АСР и ASP для предлагаемых методов модельного отбора и для случая, когда число дикторов известно

предварительного разделения дикторов на фонограмме при помощи разработанной системы.

В четвертой главе дано описание программных средств реализованной системы разделения дикторов, приведено сравнение с мировым аналогом - системой ьгим.

Разработанная система разделения дикторов состоит из двух основных модулей: Модуль обучения, осуществляющий оценку параметров ЦВМ, Т-матрицы и оценку параметров модели РЬБА (т, V, Л); Модуль тестирования, осуществляющий непосредственное разделение дикторов на фонограмме, используя результаты модуля обучения. На рисунке 2 представлена общая схема модуля тестирования системы. Представленная схема состоит из блоков следующих основных типов: блоки входных и выходных данных (Фонограмма, Итоговая кластеризация); блоки внутренних данных, хранящих промежуточные результаты вычислений (Речевые сегменты, РЬР-МЁСС, ¡-УЕЙСТСЖЗ и т.п.); блоки данных, хранящих параметры ЦВМ, Т-матрицы и модели РЬБА; блоки, осу-

ществляющие вычислительные операции: выделение речевых участков фонограммы (VAD), построение акустических признаков (FE), вычисление статистик Баума-Уэлша (CALC STAT), расчет i-векторов (CALC i-VECTORS), расчет матрицы «схожести» (CALC Aq), кластеризация речевых сегментов (KERNEL K-MEANS, VBA-PLDA, VBA-TV), оценку функции правдоподобия Ь2 и выбор итоговой кластеризации (MODEL SELECTION).

Реализация модуля тестирования разработанной системы осуществлена с использованием языка программирования С++. При этом обеспечена поддержка операционных систем Linux CentOS 5.1 и MS Windows ХР/7 с архитектурой процессора х86 и х64. Для ускорения трудоемких вычислительных операций использовались математические библиотеки IPP (Integrated Performance Primitives) и MKL (Math Kemel Library) компании Intel®. Основным результатом сборки разработанной системы является динамически подключаемая библиотека, содержащая в себе набор функций, позволяющих производить разделение дикторов

на фонограмме, а также набор файлов, содержащие параметры системы.

Приведены расчеты количества потребляемой памяти в зависимости от параметров системы и длительности звукового сигнала. Показано, что для обработки 5-минутной фонограммы требуется в среднем не более 6,5 Мб оперативной памяти ЭВМ. Кроме этого, хранение параметров системы занимает дополнительно 26 Мб, которые не зависят от количества и размера обрабатываемых звуковых файлов.

Представлены результаты измерений быстродействия отдельных вычислительных модулей и всей системы в целом. Общее время обработки одной фонограммы занимает в среднем время, в 18 раз меньшее длительности звукового сигнала.

Дано описание способов распараллеливания вычислений для многоядерных процессоров ЭВМ. Показано, что как для модуля тестирования, так и для модуля обучения существует возможность эффективного распараллеливания с учетом условий их практической эксплуатации.

В центральной части главы представлен сравнительный анализ разработанных программных средств с её широко известным аналогом - системой LIUM. Дано описание системы LIUM и показано, что она представляет собой набор базовых и широко распространенных методов разделения дикторов, описание которых представлено в первой главе.

Сравнительный анализ показал, что система LIUM проигрывает реализованной системе разделения дикторов по размеру потребляемой памяти (550 Мб против 32,5 Мб) и по времени обработки фонограммы (0,58 длительности сигнала против 0,054). В результате ряда численных экспериментов было выявлено, что система LIUM обладает значительно более низким качеством разделения дикторов для тестовых баз NIST2008-MONO, NIST2008-ENG, NIST2008-QUAD.

Заключение

Главным результатом представленной работы является исследование и реализация системы разделения дикторов на фонограмме, которая с высокой эффективностью осуществляет решение поставленной задачи при условии отсутствия априорной информации о числе дикторов.

Наряду с этим в работе были получены следующие основные результаты:

1. Предложено и обосновано применение метода PLDA для решения задачи разделения дикторов на фонограмме. Предложена оригинальная модель, основанная на методе PLDA, применимая в рамках рассматриваемой задачи. Проведен численный эксперимент, показывающий эффективность предложенного подхода.

2. Разработана методика оценки эффективности систем, которая включает в себя набор акустических баз, а также критерии оценки качества. В рамках этой методики подготовлены тестовые базы, включающие в себя разнообразные условия эксплуатации системы: различные акустические каналы записи, различное число дикторов, различные языки, различная длительность фонограмм, различное значение ОСШ и реверберации.

3. На основе предложенной модели разработаны методы кластеризации речевых сегментов фонограммы при известном числе дикторов. Разработанные

методы показывают меньший уровень ошибки на всех тестовых базах по сравнению с опорной системой, основанной на одном из наиболее эффективных современных методов разделения дикторов.

4. На основе предложенной модели разработаны методы модельного отбора, осуществляющих определение количества дикторов на фонограмме, а также позволяющие производить регулировку величины ошибок АСР и ASP. Показано, что на тестовых базах, близких к условиям обучения, разработанные методы показывают устойчивые результаты, а также позволяют определять верное число дикторов на фонограмме. Также показана значительная редукция уровня равновероятной ошибки системы распознавания дикторов по голосу при использовании разработанной системы с целью предварительного разделения дикторов на тестовых фонограммах.

5. Реализованы программные средства системы разделения дикторов на языке программирования С++, включающие в себя набор модулей, осуществляющих оценку параметров и тестирование разработанной системы. Проведен сравнительный анализ разработанных программных средств с мировым аналогом и показано преимущество реализованной системы.

Список работ, опубликованных автором по теме диссертации

в изданиях из перечня ВАК

1. Кудашев О. Ю., Пеховский Т. С. Проблемы инициализации систем сегментации дикторов на основе вариационного байесовского анализа // Научно-технический вестник информационных технологий, механики и оптики. —

2012,- № 3.- С. 83-87.-0,31 пл./ОДб пл.

2. Кудашев О. Ю. Агломеративная кластеризация речевых сегментов фонограммы на основе байесовского информационного критерия // Научно-технический вестник информационных технологий, механики и оптики,—

2013. - № 1. - С. 90-93. - 0,25 п.л.

3. Система идентификации дикторов по голосу для конкурса NIST SRE 2012 / А. В. Козлов, О. Ю. Кудашев, Ю. Н. Матвеев и др. // Труды СПИИРАН. -2013. - № 2. - С. 350-370. - 1,31 п.л./0,22 п.л.

4. Kudashev Oleg, Kozlov Alexander. The Diarization System for an Unknown Number of Speakers // Speech and Computer / Ed. by Milos Zelezny, Ivan Habernal, Andrey Ronzhin.— Vol. 8113 of Lecture Notes in Computer Science.— Springer International Publishing, 2013.— P. 340-344.— 0,31 п.л./0,31 п.л.

5. SVID Speaker Recognition System for NIST SRE 2012 / Alexander Kozlov, Oleg Kudashev, Yuri Matveev et al. // Speech and Computer / Ed. by Milos Zelezny, Ivan Habernal, Andrey Ronzhin.— Vol. 8113 of Lecture Notes in Computer Science.— Springer International Publishing, 2013.— P. 278-285.— 0,5 п.л./0,08 п.л.

6. Bayesian analysis of similarity matrices for speaker diarization / A. Sholokhov, T. Pekhovsky, O. Kudashev et al. // Proceedings - ICASSP, IEEE International

Conference on Acoustics, Speech and Signal Processing. — Institute of Electrical / and Electronics Engineers Inc., 2014. — P. 106-110. — 0,31 n.ji./0,06 n.ji.

в других изданиях

7. Кудашев О. Ю., Т.С. Пеховский. Разработка системы сегментации дикторов на основе вариационного байесовского анализа // Сборник тезисов докладов конгресса молодых ученых, Выпуск 1. Труды молодых ученых / Под ред. проф. В.О. Никифоров д.т.н.- СПб: НИУ ИТМО, 2012,- С. 35-36,- 0,13 п.л./0,13 п.л.

8. Кудашев О. Ю., Т.С. Пеховский. Система разделения дикторов в полилоге // Сборник тезисов докладов конгресса молодых ученых, Выпуск 1,— СПб: НИУ ИТМО, 2013. - С. 29-30. - 0,13 пл.

Подписано в печать 11.11.2014 Формат 60x84 1/16 Цифровая печать Печ. л. 1,0 Тираж 80 экз. Заказ 07/11

Отпечатано в типографии "Фалкон Принт" (197101, г. Санкт-Петербург, ул. Большая Пушкарская, д. 54, офис 2)