автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии
Автореферат диссертации по теме "Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии"
На правах рукописи
Соловьева Елена Сергеевна
Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии
Специальность: 05.13.01 - Системный анализ, управление и обработка информации (приборостроение)
Автореферат диссертации на соискание ученой степени кандидата технических наук
Москва - 2008
003452879
Работа выполнена на кафедре биомедицинских систем Московского государственного института электронной техники (технического университета)
Научный руководитель: доктор физико-математических наук,
профессор Селищев Сергей Васильевич
Официальные оппоненты: доктор технических наук, профессор
Спиридонов Игорь Николаевич
кандидат технических наук Прилуцкий Дмитрий Анатольевич
Ведущая организация:
Федеральное государственное унитарное предприятие «Специализированное конструкторское бюро радиоэлектронной аппаратуры «Радэл»
Защита диссертации состоится «уУ»,
2008
г. в^Й^ч
часов на
заседании диссертационного совета Д 212.134.02 при Московском государстзенном институте электронной техники (техническом университете) в ауд. 3103 по адресу: 124498, Москва, Зеленоград, проезд 4806, д.5, МИЭТ.
С диссертацией можно ознакомиться в библиотеке МИЭТ. Автореферат разослан «_ ¥ » 2008 г.
Соискатель:
Ученый секретарь диссертационного совета, доктор технических наук
А.В. Гуреев
Общая характеристика работы
Актуальность темы. Биометрия в настоящее время переживает период бурного развития. Во многом этот рост связан с решениями правительств ведущих государств о применении биометрических технологий в паспортно-визовых документах.
Наибольшее распространение получили системы идентификации по отпечаткам пальцев, однако в последние годы наблюдается повышенный интерес к голосовой биометрии. Это связано с такими преимуществами голосовой биометрии перед остальными подходами как: использование стандартного оборудования (обычного микрофона, телефона, ПК), бесконтактность, возможность получения дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние,' антропометрические особенности).
Одно из самых перспективных применений голосовой биометрии - использование для проверки идентичности человека перед разрешением доступа к защищенному имуществу (счет в банке, авторизация действия или восстановление пароля). Второе применение - получение дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности). Данное применение является востребованным в области криминалистики, когда нужно идентифицировать звонящего человека, не зарегистрированного в базе данных, или оценить его психоэмоциональное состояние.
Основным недостатком систем идентификации по голосу является использование характеристик речи, которые подвержены влиянию психоэмоционального состояния человека, что снижает процент правильной идентификации. Кроме того, существующие в настоящее время системы не обеспечивают набор методик расчета характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния. Таким образом, разработка интегрированного программно-аппаратного комплекса для решения задач голосовой биометрии является актуальной темой.
Цель работы и задачи исследования. Целью данной диссертационной работы являлось создание методов и алгоритмов для обработки и анализа записей речевого сигнала с целью выявления индивидуальных характеристик голосового тракта диктора для решения основных задач голосовой биометрии, таких как идентификация диктора, определение его акцента/диалекта, антропометрических характеристик и психоэмоционального состояния.
Для достижения поставленной цели в диссертационной работе были решены следующие основные задачи:
1. Исследование и анализ существующих систем и методов для решения задач голосовой биометрии.
2. Разработка методики сбора баз данных и предобработки записей речевого сигнала для выявления информативных участков речи, учитывая специфику решаемой задачи голосовой биометрии.
3. Разработка методов и алгоритмов для расчета основных характеристик голосового тракта человека на основе линейной и нелинейной модели речеобразования.
4. Разработка методов и алгоритмов для классификации основных характеристик голосового тракта человека с целью решения задач голосовой биометрии.
5. Проведение исследований с целью определение эффективного набора речевых характеристик и оптимальных параметров классификаторов для решения задач голосовой биометрии.
6. Практическая реализация разработанных методов и алгоритмов при создании программно-аппаратного комплекса, предназначенного для решения задач голосовой биометрии.
7. Апробация методов и алгоритмов на доступных базах данных.
Научная новизна полученных результатов состоит в теоретическом обосновании, экспериментальном обеспечении и разработке эффективных алгоритмов и методов анализа и
классификации речевого сигнала для решения задач голосовой биометрии.
В ходе выполнения диссертационной работы получены следующие научные результаты.
1. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.
2. С помощью однофакторного дисперсионного анализа выявлен эффективный набор речевых характеристик для определения психоэмоционального состояния диктора.
3. Предложен оптимальный набор параметров классификатора психоэмоционального состояния на основе многослойного перцептрона.
4. Предложен алгоритм для определения пола диктора, использующий значения Q10 (квантиль 10%) по гистограмме частоты основного тона (ЧОТ).
5. Разработанный программно-аппаратный комплекс обеспечивает, как ручную расстановку меток фонем, так и автоматическую на основе метода Learning Vector Quantization (LVQ).
6. Предложенный алгоритм классификации акцента на основе скрытых моделей Маркова (СММ) не требует полной фонетической разметки текста.
7. Для определения роста разработан алгоритм на основе Mel frequency cepstral coefficients (MFCC векторов), квадратичной регрессии и сингулярного разложения. Определены фонемы гласных, дающие точность, достаточную для оценки роста.
Практическая значимость работы.
1. Предложенные методики сбора речевых баз данных и предобработки записей речевого сигнала позволяют выделять значимые участки речи и могут быть использованы для решения задач голосовой биометрии.
2. Разработанный программно-аппаратный комплекс для регистрации, обработки и анализа речевого сигнала может быть использован для идентификации человека, а также определения его антропометрические характеристики, акцента/диалекта и психоэмоционального состояние (Рис.
О-
Рис. 1. Программно-аппаратный комплекс для решения задач голосовой
биометрии
Достоверность полученных результатов подтверждается тестированием программы на доступных базах данных, подтвердившим надежность разработанных методов и алгоритмов.
В результате проведенных исследований получены и выносятся на защиту следующие основные научные результаты:
1. Использование для идентификации диктора, в качестве векторов признаков, МБСС позволяет исключить влияние эмоционального состояния на идентификацию диктора и увеличить ее точность.
2. Предложенные методики сбора речевых баз данных и предобработки записей речевого сигнала на основе фонетически сбалансированных слов и фонемной разметки позволяют выделять участки речи значимые при
идентификации диктора, определении его акцента, антропометрических характеристик и
психоэмоционального состояния.
3. Математическое описание методов и алгоритмов расчета характеристик речевого сигнала, позволяющих выявлять индивидуальные характеристики голосового тракта диктора, на основе линейной и нелинейной модели речеобразования.
4. Предложенный эффективный набор речевых характеристик и оптимальный набор параметров классификаторов обеспечивает надежное использование системы для идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.
5. Разработанный программно-аппаратный комплекс может быть использован для проведения экспериментов по исследованию и выявлению значимых линейных и нелинейных характеристик голосового сигнала при идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.
Апробации работы.
Основные положения и результаты диссертационной работы были представлены и обсуждены:
• на V-й Международной НТК «Электроника и информатика-2005» (Москва, 2005);
• на XIII, XIV, XV всероссийских межвузовских НТК студентов и аспирантов «Микроэлектроника и информатика» (Москва, 2006, 2007, 2008);
• на Всероссийском молодежном научно-инновационном конкурсе - конференции «Электроника - 2006» (Москва, 2006);
• на VII Международной НТК «Физика и радиоэлектроника в медицине и экологии - ФРЭМЭ 2006» (Владимир, 2006);
• на конкурсе молодежных инновационных
предпринимательских проектов «День науки Зеленоград» (Москва, 2006, 2007);
• на XX съезде Физиологического общества им. И.П. Павлова (Москва, 2007);
• The 4th Russian-Bavarian Conference on Bio-Medical Engineering, 2008, Moscow.
Внедрение результатов работы
Разработанные в рамках диссертационной работы методики сбора голосовых баз данных и предобработки записей речевого сигнала, а также предложенный комплекс речевых характеристик и параметров классификаторов были внедрены:
• в ряде научно-исследовательских и опытно-констукторских работ, выполняемых на базе Научно-исследовательского и испытательного центра биометрической техники МГТУ им. Н.Э. Баумана;
• в лабораторном практикуме по курсу «Нейронные сети и вейвлеты» для магистрантов МИЭТ, обучающихся по программе «Электроника биомедицинских систем» направления 210100 «Электроника и микроэлектроника»;
• в учебно-исследовательской работе «Развитие технологической базы, методического и программного обеспечения, учебно-исследовательских работ и научно-инновационной деятельности в области разработки электронных биомедицинских изделий и аппаратуры», выполненной центром формирования компетенций «Электроника биомедицинских и экологических систем» МИЭТ в ходе Инновационной образовательной программы «Современное профессиональное образование для российской инновационной системы в области электроники» (2006-2007).
Публикации. По теме диссертации опубликовано 10 научных работ, из них 1 статья в журнале "Медицинская техника".
Структура и объем работы.
Диссертационная работа состоит из введения, четырех глав,
заключения, списка используемой литературы и приложения, состоящего из шести частей. Общий объем работы составляет 149 страниц, в том числе 68 рисунков, 27 таблиц, 100 библиографических источников, 16 страниц приложений и 2 акта внедрения.
Содержание работы
Во введении обоснована актуальность диссертационной работы; сформулирована цель работы и приведены основные результаты; изложены научная новизна и практическая значимость работы.
В первой главе рассмотрены две модели речеобразования: линейная и нелинейная. Выполнен обзор существующих алгоритмов, методов и основных подходов к идентификации диктора, определению акцента и антропометрических характеристик, а также основных методов исследования эмоциональной речи. Рассмотрены области применения голосовой биометрии такие как, использование для проверки идентичности человека перед разрешением доступа к защищенному имуществу (счет в банке, авторизация действия или восстановление пароля); для электронной подписи документов, с невозможностью отказа от авторства; для контроля присутствия работника на рабочем месте. Определение дополнительных характеристик диктора (акцент, антропометрические характеристики) используется в области криминалистики, когда нужно идентифицировать звонящего человека, не зарегистрированного в базе данных. Кроме того, можно оценить изменение психоэмоционального состояния человека в ответ на внешние и внутренние раздражители (при допросе, телефонном разговоре и т.д.).
В первой главе также представлен анализ рынка биометрических систем и перспективы голосовой биометрии в частности. В Таблице 1 рассмотрены некоторые существующие в настоящее время системы и их характеристики.
Таблица 1
Обзор существующих систем голосовой биометрии
Компания Продукция/Назначение Характеристики
ЦРТ (Центр Речевых Технологий), Санкт-Петербург ТРАЛ-М Система автоматизации фоноучетов и экспресс-исследований фонограмм речи Надежность правильной идентификации 82%-92%, в зависимости от длительности сигнала (от 16 до 96 секунд)
РЕГИОН Специализированное программное обеспечение для экспертной диагностики акцента или диалекта русской устной речи Надежность правильной диагностики акцентной или диалектной принадлежности не менее 75%
Обзор существующих коммерческих систем для решения задач голосовой биометрии и их основных характеристик показал, что недостатком существующих российских систем идентификации является чувствительность к
психоэмоциональному состоянию диктора, а системы для диагностики акцента требуют полной фонетической разметки текста, что требует больших временных затрат. К тому же, в настоящее время не существует коммерческих программно-аппаратных систем, обеспечивающих набор методик для определения характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния.
В заключение главы обоснована необходимость создания интегрированного программно-аппаратного комплекса для обработки, анализа речевого сигнала и решения задач голосовой биометрии.
Во второй главе описаны алгоритмы расчета характеристик голосового тракта, необходимых для проведения дальнейшего исследования в области голосовой биометрии, а также
предложены оптимальные виды классификаторов для идентификации диктора, определения акцента, антропометрических характеристик и психоэмоционального состояния диктора.
Алгоритм идентификации диктора основан на вычислении акустических параметров речи с помощью метода MFCC векторов. Данный метод был выбран, так как его можно применять на зашумленных/телефонных записях, а также MFCC вектора не подвержены влиянию эмоционального состояния диктора. Для классификации используется метод квантования векторов Linde-Buzo-Gray (LBG), так как данный метод можно использовать в текстонезависимых системах, при этом он не требует значительных вычислительных затрат и обладает достаточной точностью.
Частота дискретизации сигнала составляет 8000 Гц. Такая частота дискретизации сигнала позволяет анализировать частоты до 4000 Гц, которые покрывают наибольшую энергию звуков производимых человеком, т.к. три первые форманты находятся в диапазоне от 200 до 4000 Гц.
Основной идеей метода MFCC являться максимальное приближение информации, поступающей на вход системы, к информации, поступающей на слуховой анализатор мозга человека, с помощью умножения 32 копий каждого отсчета сигнала в 30 мсек на АЧХ треугольных фильтров, центральные частоты которых равномерно распределены по мел-шкале. (Рис. 2).
üiu (102)
5 0U2
Р
X
g и 015
X
II111 II (К*
II ______
(I Яю HM¡ñíüi 2«K¡ Í5üjЗооо SJÜO 40(41
частота
Рис. 2. Блок фильтров одинаковой площади, распределенных по мел-
шкале
На рисунке 2 показаны первые 32 фильтра, которые покрывают диапазон частот [133 Гц, 3954 Гц]. Частотные центры первых тринадцати из них распределены по линейному закону в диапазоне частот [200 Гц, 1000 Гц], что связанно с особенностями восприятия человеческого уха, а следующие 19 логарифмически распределены (^81ер = 1.0711703) в диапазоне [1071 Гц, 3692 Гц] и рассчитываются с помощью формулы:
•^40
Лер = ехр
1п
1000
numLogFilt
0)
Каждый из фильтров с равной площадью определяется как
Для к </(,,_,
Для/Ь,_1 Й*<Л|
для /Ь( <,к <. /Л(+, для к > /Ь(+1
Я,(*) =
0
(Л/-Л,_1)(Л/+1- Л/-|)
2 (Л,+,-*)
(Л/+1 -Л,ХЛ,+| - Л,-1>
0
(2)
где / = 1,2,..., М
Л,-
N
-1 теI
- \ . /шеД/Л/ей) /те/(//оч0 /те1У/ок) + 1Х- - - —----
?-1
•'те!
:/Ли=700х
ехр
/те!
1127
М +1
-1
(3)
(4)
Далее, используя алгоритм ЬБЮ, входными параметрами которого являются МРСС коэффициенты, для каждого диктора строится кодовая книга. После этого вычисляется специальное, устойчивое к перестановкам векторов, расстояние от неё до других книг в базе данных. Если минимальное расстояние меньше некоторого порога, то считается, что диктор распознан.
Для определения акцента используются статистические модели произнесения слов на основе СММ. Акцент выражается в произношении, растягивании и проглатывании букв, поэтому важно знать изменение состоянии в каждый дискретный момент
времени, что обеспечивает метод СММ.
В связи с небольшим размером обучающей выборки в данной работе для надежного обучения СММ применяется метод контекстного адаптивного обучения (КАО) слева на право без скачков, где последовательность фонем получена из словаря произношений. Предложенная схема адаптации использует метод линейной регрессии максимальной вероятности. При КАО слева направо начальными вероятностями перехода является последовательность:
a,,i = а/,/+1 =0.5, при/ = 1,2, ...,5-1
=1, при/= 5 , (5) аи = 0, при / = 1,2.....S, j g {;', i +1, / + 2}
а вероятности переходов рассчитываются следующим образом:
- =
а,.м +1 = 1-«,.,. / = 1,2, ...,5-1.
Для определения пола используется значения Q10 (квантиль 10%) по гистограме ЧОТ (Рис. 3), так как частота этих колебаний с вероятностью 0,95 лежит в интервале 80-150 Гц для мужчин и 150-400 Гц для женщин.
4» 1 W
Рис. 3. Гистограмма ЧОТ
На рисунке 3 показана гистограмма ЧОТ для мужского голоса, где ¡210 = 97,29 Гц.
Определение роста диктора производится на основе расчета MFCC коэффициентов для гласных звуков. MFCC коэффициенты обладают наибольшей корреляцией между рассчитанным и действительным ростом (0.7426 на выборке из 462 дикторов) по сравнению с LPC коэффициентами (Linear Prediction Coefficients), ЧОТ и формантными частотами.
Алгоритм для определения роста состоит из двух этапов. Первый этап - обучение базы данных (Рис. 4).
Рис. 4. Алгоритм обучения базы
Для дикторов из обучающей выборки берутся МРСС коэффициенты, а также их квадраты и формируется матрица XI размерностью 21хШ:
Xv
MFCC,
1,1
MFCC,
MFCCi
MFCC
1,10 MFCC\,\ MFCC] \
MFCCy\Q 1 MFCCy\ о 1
(7)
"№,1 ^АМО
\ 1 ' Г
Коэффициенты регрессии Ь ищутся путем решения системы уравнений: у\ = X, х Ъ и рассчитываются на основе сингулярного разложения, где ^ вектор «реального» роста диктора.
Второй этап - определение роста диктора на основе вычисленных коэффициентов регрессии (Рис. 5).
Загрузка речи Фонетическая Вычисление
разметка MFCC векторов
Вычисленные коэффициенты регрессии
Рис. 5. Алгоритм определения роста диктора
Для определения психоэмоционального состояния используются паралингвистические параметры. К наиболее исследуемым паралингвистическим аспектам можно отнести линейные характеристики (значение ЧОТ и его характеристик, джиттер, шиммер, темп речи и значение интенсивности), и
нелинейные характеристики на основе оператора ТЕО. К характеристикам ЧОТ относятся её межсегментные и внутрисегментные изменения.
Качественная характеристика речи анализируется с помощью джиттера и шиммера. Джиттер отражает изменения ЧОТ, а шиммер - изменения амплитуды сигнала между двумя соседними фреймами. Численно они выражаются, как:
1 N-1
Jitter =
N-l ¡ = l
(8)
1 N
N-l, I ¡A.-A,
Shimmer -
= i' '
'/ + 1
(9)
1 ЛГ — I А.
Оператор ТЕО для речевого сигнала можно записать в следующем виде:
(10)
где амплитудная и частотная составляющие могут быть записаны в следующей форме:
1
2кТ
-arceos
Г
\ у\х{п)] + ч/[у{п + \)Х
(И) (12)
Во второй главе также приведено математическое описание однофакторного дисперсионного анализа, с помощью которого может быть выявлен наиболее эффективный набор характеристик речевого сигнала при определении психоэмоционального состояния диктора.
В третьей главе
На основе описанных во второй главе алгоритмов реализован программно-аппаратный комплекс, предназначенный для решения задач голосовой биометрии (Рис. 6).
Устройства регистрации голоса
S===s . N Модуль загрузки
[ БД - фонограммы
Предобработка сигнала
Компонент 2 Удаления
неинформативных
участков
Расстановка фонем
Расчет векторов признаков
Ж.
Генерация MFCC
Вейвлет спектрограмма
Фурье спектрограмма
Выделение вокализованных участков
2L
Классификация
__ Методике идентификация
Методика акцента
Методика роет
Сохранение в буфер
Методика эмоции
.7V
р^йауализация1
Рис. 6. Общая схема программно-аппаратного комплекса
Модуль загрузки фонограммы служит для ввода фонограмм со звукозаписывающей аппаратуры или из базы данных.
В качестве устройств захвата звука использовались модели внешних/внутренних звуковых плат фирмы Creative Worldwide
серий X-Fi и Audigy, так как они способны с высокой точностью получать любую требуемую частоту, а также тестовые программы демонстрируют отсутствие характерных искажений сигнала. Характеристики звуковых плат:
• 24-битный АЦП с частотой опроса до 192 КГц в стерео режиме;
• 24-битный ЦАП с частотой выдачи до 96 КГц;
• микрофонный вход, линейный стерео вход и SPDIF;
• фонограммы сохраняются в формате Microsoft WAVE, с • разрешением 8/16-бит, моно или стерео, частота опроса - 8,
11.025, 16,22.05, 24, 32, 44.1, 48 и 96 КГц. Модуль оценки качества сигнала автоматически определяет пригодность фонограмм для последующего их использования в анализе по определению особенностей дикторов. Если сигнал не соответствует требованиям, то с помощью модуля предобработки можно произвести шумоочистку и удалить неинформативные участки (например, щелчки микрофона).
Модуль расчета векторов признаков предназначен для расчета характеристик голосового тракта на основе линейной и нелинейной модели речеобразования для дальнейшей классификации.
Модуль идентификации диктора выполняет загрузку записи голоса диктора, создание модели голоса и идентификацию диктора с использованием созданной базы данных моделей.
Определение психоэмоционального состояния состоит из четырех этапов (Рис. 7).
• подготовка звуковых файлов для последующего анализа (удаление артефактных участков, например, щелчков телефонного аппарата, участков с сильным фоновым шумом и т.д.);
• расчёт основных классификационных характеристик программой (джиттер, шиммер, параметры ЧОТ, параметры оператора ТЕО);
• определение параметров классификатора;
• определение психоэмоционального состояния.
Рис, 7. Блок-схема модуля определения психоэмоционального
состояния
Модуль антропометрии обеспечивает определение следующих показателей: пол диктора; рост диктора.
Определение этих показателей производится согласно блок-схеме (Рис. 8).
Рис. 8. Блок-схема модуля антропометрии
При автоматической расстановке меток фонем используется классификатор, обученный на фонемах, расставленных вручную для 200 дикторов (100 мужчин и 100 женщин). Для каждого пола создается отдельная кодовая книга фонем.
Для обучения модуля определения диалекта/акцента диктора строится акцент независимая модель каждого из слов входящих в базу данных и создается набор СММ моделей, которые обучаются на все экземпляры слов в не зависимости от того, какой акцент был у этого слова. Далее, для каждого слова и для каждого акцента строится своя СММ модель, которая обучается только на примерах данного слова с заданным акцентом. Для
всех СММ рассчитываются коэффициенты доверия.
При распознавании акцента, фраза разбивается на слова, определяется вероятность появления каждого слова в каждой модели. Если она меньше некоторого порога - то данное слово не входило в базу обучения, в противном случае, это слово признаётся тем, за которое отвечала СММ, выдавшая максимальную вероятность. Далее вычисляется вероятность принадлежности слова к какому-либо акценту, если она меньше некоторого значения, то считается, что данное слово принадлежит к неопознанному акценту. Если больше, то акцентом слова признается тот, который выдал большую вероятность.
Таким образом, определяется акцент всех слов фразы, вошедших в обучающую базу данных. Затем по ним восстанавливается акцент фразы в целом следующим образом: каждое слово добавляет в свой акцент значение коэффициента доверия СММ, которая определила его акцент (выдала большую вероятность). Тот акцент, который набрал большую сумму, считается акцентом фразы.
В четвертой главе показаны основные результаты экспериментальной проверки предложенной методики.
Расчет используемых характеристик голосового тракта производился с помощью модуля расчета векторов признаков (Рис. 9). ......................................................................................................................................................
^^.¿Ьтг ■'HlLA.Mk.f_.l_L I '-Т. я?
Л-
Г \! V й. « Т.Ц- V. V. 1 . 1, '. 1
ни- «аз;1ппп и
'щШШШШ Ш
Рис. 9. Расчет векторов признаков
Программа осуществляет расчет формант, ЧОТ и ее характеристик, ТЕО, джиттера, шиммера, спектрограммы, и энергии сигнала, а также отображение графиков их изменения.
Для апробации алгоритмов использовались собственные базы данных, а также открытые базы с сайтов, содержащие речевые записи с частотой оцифровки 8000 Гц и разрешением 16 бит.
В рамках проведенных исследований для идентификации дикторов были использованы формантные частоты. В результате точность идентификации дикторов уменьшалась в зависимости от увеличения количества дикторов, входящих в выборку (Таблица 2).
Таблица 2
Количество дикторов Правильная классификация, %
10-40 100
50 72
60 50
70 47,14
80 42,5
90 42,22
100 44
При идентификации диктора на основе МБСС и ЬВв алгоритмов точность идентификации составила 99,6 % на базе данных в 528 дикторов. Такая точность была достигнута благодаря использованию базы данных, записанной с помощью одного и того же оборудования и в одинаковых акустических условиях без постороннего шума.
Использование формантных частот и 2-х слойной нейронной сети для классификации акцента показало, что 2-х слойные сети эффективно работают в задачах классификации акцента на небольших (до 30-40 человек) выборках. Однако, с увеличением выборки процент правильной классификации снижается до 4050%.
Рис. 10. Результаты классификации акцента
На рисунке 10 показаны результаты обучения матрицы, и примеры выходных данных из нейронной сети для тестируемых испытуемых. Группа для обучения состояла из 4 акцентов по 7-9 человек. Выходные данные показывают относительную силу различных типов акцентов, преобладающих для отдельных испытуемых. В связи с невозможностью использования 2-х слойной нейронной сети для определения акцента/диалекта диктора на больших базах данных было решено использовать ССМ.
Тестирование классификатора акцентов на основе СММ проводилось на собственной базе данных. Группа для тестирования трех диалектов русского языка состояла из 60 человек, из них 29 москвичей, 13 ростовчан и 18 петербуржцев (Таблица 3).
Таблица 3
Результаты тестирования классификатора диалекта
Диалект Ошибка Ошибка
обучения/число тестирования/число
дикторов дикторов
Московское 5%/(18) 18%/(11)
Ростовское 0%/(10) 33%/(3)
Ленинградское 0%/(13) 20%/(5)
Ошибка тестирования составила от 18% до 33 %, при чем
ошибка уменьшается с увеличением количества дикторов, входящих в обучающую выборку.
Тестирования классификатора роста проводилось на собственной базе данных, состоящей из 200 человек (100 женщин и 100 мужчин) с заранее измеренным ростом. Были получены следующие результаты:
• наименьшая ошибка определения роста получена при использовании гласных «у» и «е», при этом распределение точек на графике (Рис. 11а) близко к диагональному;
• для остальных гласных ошибка выше и распределение более горизонтальное, т.е. для центра аппроксимация лучше, чем на краях;
• при использовании комбинации гласных или их всех одновременно ошибка выше, а распределение имеет более ярко выраженный «горизонтальный» вид (Рис. 116);
• расчеты на меньшей обучающей выборке в 50 дикторов привели к уменьшению ошибки оптимизации на обучающей выборке, и значительному увеличению ошибки для тестовой выборки.
170 17$ 1М 1В4 190 199 300
у
у '
'« 'и '' О О о .
Ч-.' 1 °° ; 8§ о .. „ '8 е- о в о б - ■.
У
/
155 160 165 170 173 1ВО 185 1« 105 200
а) б)
Рис. 11. «Реальный» и «рассчитанный» рост для ряда гласных: (а) -гласная «у», (б) - все гласные
Для определения психоэмоционального состояния человека были использованы как собственные записи на диктофон с частотой оцифровки 8000 Гц и разрешением 16 бит, так и звуковые записи доступных баз данных.
Запись голоса проводили в помещении без постороннего шума, где дикторы произносили одну и туже фразу, выражая при этом следующие эмоциональные состояния: «без эмоций», «гнев», «сарказм», «грусть» и «страх». Определение эмоционального состояния человека производилось с помощью расчета ЧОТ и его дисперсии. Ниже в таблице показаны суммированные результаты в процентах для всех испытуемых, из которой видны общие закономерности изменения ЧОТ и ее дисперсии при сравнении с эмоциональным состоянием «без эмоций» (Таблица 4).
Таблица 4
Закономерности изменения показателей ЧОТ
Повышения показателя при стенических эмоциях, % Понижения показателя при астенических эмоциях, %
Гнев Сарказм Страх Грусть
ЧОТ 82 91 36 73
Дисперсия 91 91 82 73
Из представленных таблиц можно сделать следующие вывод, что использование линейных характеристик речевого сигнала (ЧОТ и ее дисперсии) для детектирования психоэмоционального состояния «страх» не достаточно. В связи с этим было решено использовать также нелинейные характеристики речи и выявить их наиболее эффективный набор.
Далее для обучения и тестирования классификатора психоэмоционального состояния использовалась база немецкой эмоциональной речи Ето-ОВ. Были использованы 187 фраз пяти дикторов, соответствующих следующим эмоциональным состояниям: нейтральное, гнев, счастье, грусть, страх. Из них 20% (33 записи) использовались в качестве тестового набора и 80% (154 записи) в качестве обучающего.
Были определены численные значения акустических параметров речи, для которых был произведён однофакторный дисперсионный анализ. С помощью однофакторного дисперсионного анализа была определена значимость каждого из
параметров в распознавании психоэмоционального состояния.
После проведения серии экспериментов по минимизации входного вектора, с учётом данных однофакторного дисперсионного анализа, было получено, что набор оптимальных параметров, подающихся на вход классификатора, включает в себя: джитгер, стандартное отклонение ЧОТ между сегментами, стандартное отклонение ЧОТ внутри сегмента, нелинейные характеристики оператора ТЕО и стандартное отклонение энергии сигнала. При этом наибольший процент (76% для обучающей выборки и 63% для тестовой выборки) распознавания получается при следующих параметрах классификатора на основе перцептрона: количество нейронов во втором слое - 45, количество эпох обучения - 1000, коэффициенты функции активации для первого и второго слоя - 0.1, 0.1, скорость обучения первого и второго слоя - 0.1, 0.1. На основании проведённой работы сформулированы следующие выводы:
1. наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой - 83.3% и 80%;
2. стенические эмоции (гнев, счастье), точно также как и астенические (грусть, нейтральное состояние, страх) трудно поддаются разделению;
3. не столь высокий процент распознавания эмоций страха (обучающая выборка - 72.7%, тестовая - 66.6%), счастья (обучающая выборка - 62.9%, тестовая выборка - 44.4%), грусти (обучающая выборка - 61.9%, тестовая выбррка -40%) связан, по-видимому, с небольшим количеством данных.
Полученные в диссертационной работе экспериментальные результаты подтвердили достоверность предложенной методики.
В заключение Диссертационной работы сформулированы основные выводы и полученные результаты.
В приложении приведены результаты тестирования
алгоритмов, выбор оптимальных характеристик речевого сигнала и параметров классификаторов.
Осповные результаты диссертационной работы
1. Проведенный анализ существующих систем и методов для решения задач голосовой биометрии показал, что недостатком существующих российских систем идентификации является чувствительность к психоэмоциональному состоянию диктора, из-за использования основного тона для формирования векторов признаков.
2. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.
3. Предложен эффективный набор речевых характеристик и оптимальный набор параметров классификаторов, обеспечивающий надежное использование системы для идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.
4. Показана невозможность использования формантного анализа и нейросетевых классификаторов в задачах классификации акцента и идентификации дикторов, так как 2-х слойные сети эффективны на небольших (до 40-50 человек) выборках. Однако, затем процент правильной классификации снижается до 40-50%.
5. В результате проведенных исследований реализован программно-аппаратный комплекс с использованием полученных в диссертационной работе методов и алгоритмов, позволяющий решать задачи голосовой биометрии.
6. Проведено тестирование разработанных методов и алгоритмов на доступных базах.
а. При идентификации диктора на базе данных из 528 человек,
состоящей из звуковых записей, записанных с помощью одного и того же оборудования и в одинаковых акустических условиях, точность составила 99,6 %. Удалось увеличить точность на 7-17% по сравнению с системами, использующими характеристики речи, которые подвержены влиянию психоэмоционального состояния человека.
б. При определении акцента/диалекта диктора ошибка тестирования классификатора составила от 18% до 33 %, при чем процент ошибки уменьшается с увеличением количества дикторов в обучающей выборке.
в. Точность определения пола по микрофонным записям составила 97.49% на базе из 199 дикторов.
г. В результате исследования был определён эффективный набор речевых характеристик, изменяющихся в зависимости от психоэмоционального состояния, выявлен оптимальный набор параметров классификатора на основе многослойного перцептрона. Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой выборки - 83.3% и 80%.
Список работ, опубликованных по теме диссертации
1. Соловьева Е.С., Конышев В.А., Селищев C.B. Использование основного тона и формантного анализа в задачах голосовой биометрии // Медицинская техника. - 2007. - №1. - С. 32-37.
2. Соловьева Е.С., Конышев В.А. Анализ стресса по речевому сигналу // V Международная НТК «Электроника и информатика-2005». Тезисы докладов. - М.: МИЭТ, 2005. -С. 111.
3. Соловьева Е.С. Классификация акцента с помощью нейронных сетей // XIII всероссийская межвузовская НТК студентов и аспирантов: «Микроэлектроника и информатика - 2006». Тезисы докладов. - М.: МИЭТ, 2006. - С. 327.
4. Соловьева Е.С. Идентификация и верификация диктора по голосу // Всероссийский молодежный научно-инновационный конкурс - конференция «Электроника - 2006». Тезисы докладов конференции. - М.: МИЭТ, 2006. - С. 96.
5. Соловьева Е.С., Конышев В.А. Корреляция изменений частоты основного тона голоса человека с его эмоциональным состоянием // VII международная НТК «Физика и радиоэлектроника в медицине и экологии -ФРЭМЭ 2006». Доклады. Книга 1. - Владимир, 2006. - С. 107-110.
6. Соловьева Е.С., Тананыкин A.A. Модуль идентификации личности по голосу // XIV Всероссийская межвузовская НТК студентов и аспирантов «Микроэлектроника и информатика -2007». Тезисы докладов. - М.: МИЭТ, 2007. - С. 363.
7. Соловьева Е.С., Вавакина Е.В., Карловский Д.В., Дорошенков Л.Г. Голосовая биометрия в задачах идентификации и верификации личности // Тезисы докладов Конкурса молодежных инновационных предпринимательских проектов «День науки Зеленоград». М.: МИЭТ, 2007. - С. 11.
8. Соловьева Е.С., Тарасов Р.Ю. Оценка психоэмоционального состояния человека по голосу // XX съезд Физиологического общества им. И.П. Павлова. Тезисы докладов. - М.: Издательский дом «Русский врач», 2007. - С. 427.
9. Соловьева Е.С., Тананыкин A.A. Определение роста диктора на основе расчета акустических характеристик голосового тракта // XV Всероссийская межвузовская НТК студентов и аспирантов «Микроэлектроника и информатика - 2008». Тезисы докладов. - М.: МИЭТ, 2008. - С. 282.
10. Vinokurova М., Solovjeva Е., Tarasov R. Estimation of subject emotional state from speech parameters// Proceedings of the 4th Russian-Bavarian Conference on Bio-Medical Engineering at Moscow Institute of Electronic Technology (Technical University), Zelenograd, Moscow, Russia, 2008, pp. 357-361.
Подписано в печать:
Заказ Тираж 100 экз. Уч.-изд.л.^^ Формат 60x84 1/16.
Отпечатано в типографии МИЭТ (ТУ). 124498, Москва, МИЭТ (ТУ).
Оглавление автор диссертации — кандидата технических наук Соловьева, Елена Сергеевна
Список и обозначение аббревиатур.
Введение
Цель работы.
Научная новизна.
Практическая значимость работы.
Основные результаты работы.
Достоверность полученных результатов.
Апробации работы.
Глава 1. Голосовая биометрия.
1.1. Состояние и перспективы голосовой биометрии.
1.2. Области использования голосовой биометрии.
1.3. Коммерческие системы для решения задач голосовой биометрии.
1.3.1. Коммерческие системы идентификации диктора и определения акцента .*.
1.3.2. Коммерческие системы детектирования стресса.
1.3.3. Оценка технологии голосовых анализаторов стресса.
1.4. Модели речеобразования.
1.4.1. Линейная моде л ь.
1.4.2. Нелинейная модель.
1.5. Основные подходы к идентификации диктора.
1.6. Основные подходы к определению акцента.
1.7. Основные подходы к определению антропометрических данных.
1.7.1. Определение роста.
1.7.2. Определение пола.
1.8. Основные методы исследования эмоциональной речи.
1.8.1. Субъективные методы.
1.8.2. Объективные методы.
Выводы
Глава 2. Алгоритмы для решения задач голосовой биометрии.
2.1. Идентификация диктора на основе технологии MFCC и VQ.
2.1.1. Вычисление MFCC векторов.
2.1.2. Алгоритм квантования векторов.
2.2. Определение национальных особенностей диктора на основе скрытых моделей Маркова.
2.3. Определение антропометрических характеристик диктора.
2.3.1. Определение пола.
2.3.2. Алгоритм определение роста.
2.4. Определение психоэмоционального состояния.
2.4.1. Алгоритмы определения основного тона и его характеристик.
2.4.2. Джитгер и шиммер.
2.4.3. Расчет Формант.
2.4.4. Нелинейный оператор ТЕО.
2.4.5. Однофакторный дисперсионный анализ ANOVA.
Выводы
Глава 3. Программно-аппаратный комплекс для решения задач голосовой биометрии.
3.1. Назначение программно-аппаратного комплекса.
3.1.1. Функциональное назначение.
3.1.2. Основные компоненты системы.
3.1.3. Основные функции.
3.1.4. Формат файлов.
3.2. Общая схема программно-аппаратного комплекса.
3.3. Спецификация программных модулей системы.
3.4. Условия использования программно-аппаратного комплекса.
3.4.1. Климатические условия эксплуатации.
3.4.2. Минимальный состав технических средств.
3.4.3. Минимальный состав программных средств.
3.4.4. Верификация и валидация системы.
3.4.5. Инструментальные средства разработки и документирования.
Выводы
Глава 4. Применение программно-аппаратного комплекса для решения задач голосовой биометрии.
4.1. Расчет характеристик голосового тракта с помощью Simulink.
4.2. Идентификация диктора.
4.2.1. Идентификация диктора на основе формантных частот.
4.2.2. Идентификация диктора на основе MFCC и VQ.
4.3. Определение национальных особенностей диктора.
4.3.1. Классификация акцента на основе формантного анализа.
4.3.2. Определение национальных особенностей диктора на основе Скрытых Моделей Маркова.
4.4. Определение антропометрических характеристик диктора.
4.4.1. Определение пола дикторов.
4.4.2. Определение роста диктора на основе расчета акустических характеристик голосового тракта.
4.4.3. Автоматическое определение роста диктора.
4.4.4. Оценка точности работы модуля антропометрии.
4.5. Определение психоэмоционального состояния.
4.5.1. Определение психоэмоционального состояния на основе расчета основного тона.
4.5.2. Определения психоэмоционального состояния с помощью классификатора с несколькими входными параметрами.
4.6. Автоматическая экспертная оценка записи.
Выводы
Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Соловьева, Елена Сергеевна
БИОМЕТРИЯ - это наука об идентификации или верификации личности по физиологическим или поведенческим отличительным характеристикам. К физиологическим биометрическим параметрам относятся отпечатки пальцев, геометрия лица, кисти руки, радужной оболочки, сетчатки глаза, геометрия рисунка вен. Физиологические параметры обычно измеряются в определенный момент времени. Поведенческие биометрические параметры, например подпись и голос, представляют собой последовательность действий и длятся в течение определенного периода времени [1].
Долгое время все, что было связано с биометрией, отличалось сложностью и дороговизной. В последнее время спрос на биометрические продукты, в первую очередь в связи с развитием электронной коммерции, постоянно и весьма интенсивно растет. Это объясняется тем, что с точки зрения пользователя гораздо удобнее предъявить себя самого, чем что-то запоминать. В настоящее время на рынке появились относительно недорогие программно-аппаратные продукты, ориентированные в основном на распознавание отпечатков пальцев. Рост спроса на биометрические технологии также связан с решениями правительств ведущих государств о применении биометрических технологий в паспортно-визовых документах, что направило в эту область крупные финансовые и материальные ресурсы.
Наибольшее распространение получили системы идентификации по отпечаткам пальцев, однако в последние годы наблюдается повышенный интерес к голосовой биометрии. Это связано с такими преимуществами голосовой биометрии перед остальными подходами как: использование стандартного оборудования (обычного микрофона, телефона, ПК), бесконтактность, возможность получения дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности).
Одно из самых перспективных применений голосовой биометрии — использование для проверки идентичности человека перед разрешением доступа к защищенному имуществу (например, счет в банке, авторизация действия или восстановление пароля). Второе применение - получение дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности). Данное применение является востребованным в области криминалистики, когда нужно идентифицировать звонящего человека, не зарегистрированного в базе данных, или оценить его психоэмоциональное состояние.
Основным недостатком систем идентификации по голосу является использование характеристик речи, которые подвержены влиянию психоэмоционального состояния человека, что снижает процент правильной идентификации. Кроме того, существующие в настоящее время системы не обеспечивают набором методик расчета характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния. Таким образом, разработка интегрированного программно-аппаратного комплекса для решения задач голосовой биометрии является актуальной темой.
Цель работы
Целью данной диссертационной работы является разработка методов и алгоритмов для обработки и анализа записей речевого сигнала с целью выявления индивидуальных характеристик голосового тракта диктора для решения основных задач голосовой биометрии, таких как идентификация диктора, определение его акцента/диалекта, антропометрических характеристик и психоэмоционального состояния.
Научная новизна
Научная новизна полученных результатов состоит в теоретическом обосновании, экспериментальном обеспечении и разработке эффективных алгоритмов и методов анализа и классификации речевого сигнала для решения задач голосовой биометрии.
В ходе выполнения диссертационной работы получены следующие научные результаты.
1. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.
2. С помощью однофакторного дисперсионного анализа выявлен эффективный набор речевых характеристик для определения психоэмоционального состояния диктора.
3. Предложен оптимальный набор параметров классификатора психоэмоционального состояния на основе многослойного перцептрона.
4. Предложен алгоритм для определения пола диктора, использующий значения Q10 (квантиль 10%) по гистограмме частоты основного тона (ЧОТ).
5. Разработанный программно-аппаратный комплекс обеспечивает, как ручную расстановку меток фонем, так и автоматическую на основе метода Learning Vector Quantization (LVQ).
6. Для определения роста разработан алгоритм на основе Mel frequency cepstral coefficients (MFCC векторов), квадратичной регрессии и сингулярного разложения. Определены фонемы гласных, дающие точность, достаточную для оценки роста.
Практическая значимость работы
1. Предложенные методики сбора речевых баз данных и предобработки записей речевого сигнала позволяют выделять значимые участки речи и могут быть использованы для решения задач голосовой биометрии.
2. Разработанный программно-аппаратный комплекс для регистрации, обработки и анализа речевого сигнала может быть использован для идентификации человека, а также определения его антропометрические характеристики, акцента/диалекта и психоэмоционального состояние.
Основные результаты работы
1. Проведенный анализ существующих систем и методов для решения задач голосовой биометрии показал, что недостатком существующих российских систем идентификации является чувствительность к психоэмоциональному состоянию диктора, из-за использования основного тона в качестве метода формирования векторов признаков.
2. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.
3. Предложен эффективный набор речевых характеристик и оптимальный набор параметров классификаторов, обеспечивающий надежное использование системы для идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.
4. Показана невозможность использования формантного анализа и нейросетевых классификаторов в задачах классификации акцента и идентификации дикторов, так как 2-х слойные сети эффективны на небольших (до 40-50 человек) выборках. Однако, затем процент правильной классификации снижается до 40-50%.
5. В результате проведенных исследований реализован программно-аппаратный комплекс с использованием полученных в диссертационной работе методов и алгоритмов, позволяющий решать задачи голосовой биометрии.
6. Проведено тестирование разработанных методов и алгоритмов на доступных базах. а. При идентификации диктора на базе данных из 528 человек, состоящей из звуковых записей, записанных с помощью одного и того же оборудования и в одинаковых акустических условиях, точность составила 99,6 %. Удалось увеличить точность на 7-17% по сравнению с системами, использующими характеристик речи, которые подвержены влиянию психоэмоционального состояния человека. б. При определении акцента/диалекта диктора ошибка тестирования классификатора составила от 18% до 33 %, при чем процент ошибки уменьшается с увеличением количества дикторов в обучающей выборке. в. Точность определения пола по микрофонным записям составила 97.49% на базе из 199 дикторов. г. В результате исследования был определён эффективный набор речевых характеристик, изменяющихся в зависимости от психоэмоционального состояния, выявлен оптимальный набор параметров классификатора на основе многослойного перцептрона. Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой выборки - 83.3% и 80%.
Рис. 1. Программно-аппаратный комплекс для решения задач голосовой биометрии
Достоверность полученных результатов
Достоверность полученных результатов подтверждается тестированием программы на доступных базах данных, подтвердившим надежность разработанных методов и алгоритмов.
Апробации работы
Основные положения и результаты диссертационной работы были представлены и обсуждены:
• на V-й Международной НТК «Электроника и информатика-2005», Москва, МИЭТ, 23-25 ноября 2005;
• на XIII, XIV, XV всероссийских межвузовских НТК студентов и аспирантов «Микроэлектроника и информатика» (Москва, 2006. 2007, 2008);
• на Всероссийском молодежном научно-инновационном конкурсе -конференции «Электроника - 2006» (Москва, 2006);
• на VII Международной НТК «Физика и радиоэлектроника в медицине и экологии - ФРЭМЭ 2006» (Владимир, 2006);
• на конкурсе молодежных инновационных предпринимательских проектов «День науки Зеленоград», (Москва, 2006 - 2007);
• на XX съезде Физиологического общества им. И.П. Павлова (Москва, 2007);
• The 4th Russian-Bavarian Conference on Bio-Medical Engineering, 2008, Moscow.
Заключение диссертация на тему "Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии"
Выводы
Из четвертой главы можно сделать следующие выводы.
1. В результате проведенного исследования можно сделать вывод, что формантный анализ и 2-х слойные сети хорошо работают в задачах классификации акцента и идентификации диктора на небольших (до 30-40 человек) выборках. Однако, затем процент правильной классификации снижается до 40-50%.
2. Точность идентификации при использовании метода MFCC и VQ составила 99,6 % на базе данных в 528 дикторов. Такая точность была достигнута благодаря использованию базы данных, записанной с помощью одного и того же оборудования и в одинаковых аккустических условиях без постороннего шума.
3. При определении акцента/диалекта диктора с помощью СММ ошибка тестирования классификатора составила от 18% до 33 %, при чем процент ошибки уменьшается с увеличением количества дикторов в обучающей выборке.
4. При использовании квантиль 10% по гистограмме ЧОТ точность определения пола по микрофонным записям составила 97.49% на базе из 199 дикторов.
5. Наименьшая ошибка определения роста получена для гласных «у» и «е», при этом распределение точек на графике близко к диагональному. При использовании комбинации гласных или их всех одновременно ошибка выше, а распределение имеет более ярко выраженный «горизонтальный» вид.
6. Определено, что использование только линейных характеристик речевого сигнала (ЧОТ и ее дисперсии) не дает результата, достаточного для идентификации психоэмоционального состояния диктора. В связи с этим было решено использовать также нелинейные характеристики.
7. В результате исследования был определён эффективный набор речевых характеристик, изменяющихся в зависимости от психоэмоционального состояния, выявлен оптимальный набор параметров классификатора на основе многослойного перцептрона. Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой выборки - 83.3% и 80%.
Заключение
Проведенный анализ существующих систем и методов для решения задач голосовой биометрии показал, что, как правило, для идентификации диктора по голосу используют характеристики речи, которые подвержены влиянию психоэмоционального состояния человека, что снижает процент правильной идентификации. Кроме того, в настоящее время не существует коммерческих программно-аппаратных систем, обеспечивающих набор методик для расчета характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния.
В ходе выполнения диссертационной работы разработана методика сбора и предобработки баз данных с целью выявления значимых характеристик речевого сигнала для решения задач голосовой биометрии.
Предложено математическое описание расчета и классификации характеристик голосового тракта. Предложен эффективный набор речевых характеристик и оптимальный набор параметров классификаторов, что обеспечивает надежное использование системы для идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.
На основе разработанных алгоритмов и методов реализован программно-аппаратный комплекс, предназначенный для сбора, обработки и хранения речевых сигналов, а также оценки антропометрических, психоэмоциональных и национальных особенностей диктора по фонограмме голоса.
Итогами тестирования программы на доступных базах данных были подтверждены преимущества разработанных методов и алгоритмов и были получены следующие результаты:
1. Форматный анализ и 2-х слойные сети хорошо работают в задачах классификации акцента и идентификации диктора на небольших (до 30-40 человек) выборках. Однако, затем процент правильной классификации снижается до 40-50%.
2. Точность идентификации при использовании метода MFCC и VQ составила
99,6 % на базе данных в 528 дикторов. Такая точность была достигнута благодаря использованию базы данных, записанной с помощью одного и того же оборудования и в одинаковых акустических условиях без постороннего шума.
3. При определении акцента/диалекта диктора с помощью СММ ошибка тестирования классификатора составила от 18% до 33 %, при чем процент ошибки уменьшается с увеличением количества дикторов в обучающей выборке.
4. Точность определения пола по микрофонным записям составила 97.49% на базе из 199 дикторов.
5. Наименьшая ошибка определения роста получена для гласных «у» и «е», при этом распределение точек на графике близко к диагональному. При использовании комбинации гласных или их всех одновременно ошибка выше, а распределение имеет более ярко выраженный «горизонтальный» вид.
6. В результате исследования был определён эффективный набор речевых характеристик, изменяющихся в зависимости от психоэмоционального состояния, выявлен оптимальный набор параметров классификатора на основе многослойного перцептрона. Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой выборки - 83.3% и 80%.
Библиография Соловьева, Елена Сергеевна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Болл Руд М., Коннел Джонатан X., Панкантн Шарат, Ратха Налипи К., Сеньор Эндрю У. Руководство по биометрии Москва: Техносфера, 2007. 368с.
2. The Biometric Consortium. http://\vmv.biomctrics.ore/rcscarch.httn.
3. Кухарев Г. А. Биометрические системы: Методы и средства идентификации личности человека. СПб.: Политехника, 2001. - 240 с.
4. Lippold O, Physiological Tremor, Scientific American, Volume 224, Number 3, March 1971.
5. National Institute of Truth Verification, www.cvsal .com.
6. US Patent 2005/0131692.-2005.18. www.nemesysco.com.19. US Patent 6638217.-2003.
7. Eriksson A. Charlatanry and fraud — an increasing problem for forensic phonetics? 2006.
8. Sommers M, Evaluating Voice-Based Measures for Detecting Deception The Journal of Credibility Assessment and Witness Psychology 2006, Vol. 7, No. 2, 99-107.
9. Hopkins C, Evaluation of Voice Stress Analysis Technology, 2005.
10. Fant G. (1960), Acoustic Theory of Speech Production, The Hagues:Mounton.
11. Engwall O. (2004). From real-time MRI to 3D tongue movements. Proc ICSLP 2004 pdf.
12. Teager H, Teager S. Evidence for Nonlinear Production Mechanisms in Vocal Tract // Speech Production and Speech Modeling v.55, pp.241-261, 1990.
13. Беловол E.B. Проявление свойств темперамента в акустических характеристиках речи: Автореф. канд. дис. — М.: Союз, 1999.
14. Justiphone. http.7/www.i 11 idiу.оrel.ru.
15. Фролов M.B. (1987) Контроль эмоционального состояния человека-оператора, Москва, "Наука".
16. Fernandez R, "A Computational Model for the Automatic Recognition of Affect in Speech", Massachusetts Institute Of Technology, February 2004.
17. Dellaert F, Polzin T, Waibel A. Recognizing emotion in speech. In: The International conference on spoken language processing (ICSLP 1996), Philadelphia, PA, 1996. p. 1970-3.
18. The newsletter of The Acoustical Society of America, ECHOES, Volume 12, Number 4, Fall 2002, Voice Quality: What Is Most Characteristic About "You" in Speech, by Ingo R. Titze and Brad H. Story.
19. Zissman M. and Berling K., Automatic Language Identification, In Speech Communication, vol.35, pp.115-124, 2001.
20. Huang. Rongqing / Hansen, John H. L. (2005): "Advances in word based dialect/accent classification", In INTERSPEECH-2005, 2241-2244.34. www.ruscorpora.ru.35. http://corpus.leeds.ac.uk/serge/frqlist.
21. Lass, N.J. Brown, W.S. (1978) 'Correlational study of speaker's height, weight, body surfaceareas, and speaking fundamental frequencies', Journal of the Acoustic Society of America, 63: 1218-20.
22. Lass, N.J., Barry, P.J. Reed, R.A., Walsh, J.M. and Amuso, T.A. (1979) 'The effect of temporal speech alterations of speaker height and weight identification', Language and Speech, 22: 163-71.
23. Lass, N, J, Hendricks, C.A. Iturriaga, N.A. (1980b) 'The consistency of listener judgements in speaker height in speaker height and weight identification', Journal of Phonetics, 8: 43948.
24. Lass, N.J. Kelley, D.T. Cunningham, C.M. and Sheridan, K.J. (1980c) 'A comparative study of speaker height and weight identification from voiced and whispered speech', Journal of Phonetics, 8: 195-205.
25. Lass, N.J. Phillips, J.K. and Bruchey, C.A. (1980d) 'The effect offiltered speech on speaker height and weight identification', Journal of Phonetics, 8: 91-100.
26. D. Timothy Ives, David R. R. Smith, and Roy D. Patterson Discrimination of speaker size from syllable phrases, J. Acoust. Soc. Am., Vol. 118, No. 6, December 2005, Pages: 38163822.
27. David R. R. Smith, Roy D. Patterson, and Richard Turner The processing and perception of size information in speech sounds, J. Acoust. Soc. Am., Vol. 117, No. 1, January 2005, Pages: 305-318.
28. Fitch W and Giedd J, Morphology and development of the human vocal tract: A study using magnetic resonance imaging, J. Acoust. Soc, Amer., 106(3): 1511-1522, 1999.
29. Dusan S, Estimation of Speaker's Height and Vocal Tract Length from Speech Signal, INTERSPEECH-2005, 1989-1992.
30. Брандт 3., Анализ данных, Статистические и вычислиетльные методы для найчных работников и инженеров: Пер. с англ. М.; Мир, ООО «Издательство ACT», 2003 -686 с.
31. Галяшина Е. И. (2002) Основы судебного речеведения.
32. Banse R., Scherer К. Acoustic profiles in vocal emotion expression // Journal of Personality and Social Psychology, 70(3), 1996.
33. Wundt W. Outlines of Psychology// Scholarly Press, 1999.
34. Schlosberg H. Three dimensions of emotion // Psychological Review, 61(2), 1954.
35. Osgood C., Suci G., Tannenbaum, P. The measurement of meaning // University of Illinois Press, Urbana, USA, 1957.
36. Watson D., Tellegen A. Toward a consensual structure of mood // Psychological Bulletin, 1985.
37. Covvie R. Cornelius R. Describing the emotional states expressed in speech // Speech Communication, v 40, № 1-2, 2003.
38. Plutchik R. The psychology and biology of emotion // N.: Haryer.Collins, 1994.
39. Jovicic S.T., Rajkovic M., Dordevic M., Kasic Z. Perceptual and statistical analysis of emotional speech in man-computer communication // SPECOM'2006, Saint-Petersburg.
40. Терёхина Ю.А. Многомерное шкалирование в психологии // Психологический журнал, т.4,№1, 1993.
41. Uldall Е. Attitudinal meanings conveyed by intonation contours // Language and Speech, 1960.
42. Kwang-Dong J. Oh-Wook K. Speech Emotion Recognition for affective Human-Robot Interaction // SPECOM'2006, St.Petersburg.
43. Zhou G., Hansen H.L., Kaiser J.F. Nonlinear Feature Based Classification of Speech under Stress // IEEE Transactions on Speech & Audio Processing, v. 9, № 2, pp. 201-216, 2001.
44. Todor Dimitrov Ganchev, Speaker Recognition, Wire Communications Laboratory Department of Computer and Electrical Engineering University of Patras Greece, Dissertation number: 169, November 2005.
45. Atal, B.S., Hanauer, S.L. (1971) Speech Analysis and Synthesis by Linear Prediction of the
46. Speech Wave. In Journal of the Acoustical Society of America. Vol. 50. No. 2, pp. 637-655.
47. Hermansky, H. 1990. Perceptual Linear Predictive (PLP) Analysis for Speech. In Journal of the Acoustical Society of America. Vol. 87. No.4, pp. 1738-1752.
48. W. Sintupinyo, P. Dubey, S. Sae-tang, V., Acahriyakulporn, C. Wutiwiwatchai, and C. Tanprasert, "LPC-based Thai Speaker Identification using DTW", Proceedings of 1999 NSTDA Annual Conference, Thailand, p.238-246, March-April 1999. (in Thai).
49. C. Wutiwiwatchai, V. Achariyakulporn, and C. Tanprasert, "Text-dependent Speaker Identification using LPC and DTW for Thai Language", 1999 IEEE 10th Region Conference (TENCON'99), Vol. 1, September 1999.
50. T. Kohonen, Self-Organizing Maps, Springer Verlag, 2001, 501 p.
51. Ashish, J., Harris, J. (2004). "Speaker Identification using MFCC and HMM based techniques", EEL 6586 project Term report, MIL, University of Florida, April 25, 2004.
52. Baum, L.E., Petrie, T. (1966). Statistical Inference for Probabilistic Function of Finite State Markov Chains. In Annals of Mathematical Statistics. Vol. 377, pp. 1554-1563.
53. Baum, L.E. (1972). An inequality and associated maximization technique in statistical estimation for probabilistic function of Markov processes. Vol. 3, pp. 1-8.
54. Vincent Wan and Steve Renals, Speaker Verification using Sequence Discriminant Support Vector Machines, IEEE Transactions on Speech and Audio Processing, Volume 13, no. 2, pages 203-210, March 2005.
55. Chai Wutiwiwatchai, Sutat Sae-tang, and Chularat Tanprasert, Thai Text-Dependent Speaker Identification by ANN with Two Different Time Normalization Techniques, NLPNN'99, 2542.
56. Becchetti, C. and L.P.Ricotti, Speech Recognition, John Wiley & Sons Ltd., 1999.
57. V. Mantha, R. Duncan, Y. Wu, and J. Zhao, Implementation and analysis of speech recognition front-ends, ECE4773/Digital Signal Processing, December 12, 1998.
58. Todor Dimitrov Ganchev, Speaker Recognition, Wire Communication Laboratory Department of Computer and Electrical Engineering University of Patras Greece, Dissertation number: 169, November 2005, 198 p.
59. T. Kohonen, Self-Organizing Maps, Springer Verlag, 2001, 501 p.
60. Linde, Y., Buzo, A. and Gray, R.M., An algorithm for vector quantizer design. IEEE Trans. Commun. v28. 84-95.
61. R. Huang and J. H. L. Hansen, "Dialect/Accent Classification via Boosted Word Modeling" in ICASSP, Philadelphia, USA, March, 2005.
62. C. J. Leggetter and P.C. Woodland, Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models, in Computer Speech and Language, vol. 9, pp. 171-185, 1995.
63. M. J. F. Gales and P.C. Woodland, Mean and Variance Adaptation within the MLLR Framework, in Computer Speech and Language, vol. 10, pp. 249-264, 1996.
64. Schroder M. Speech and emotion research: An overview of research frameworks and a dimensional approach to emotional speech synthesis // PhD thesis, PHONUS 7, Research Report of the Institute of Phonetics, Saarland University, 2003.
65. Boersma P. Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound // Proc. Institute of Phonetic Sciences, 1993.
66. Xi Li, Jidong Tao, Michael T. J. Stress and emotion classification using jitter and shimmer features // ICASSP 2007.
67. Соловьева E.C. Идентификация и верификация диктора по голосу // Всероссийский молодежный научно-инновационный конкурс конференция «Электроника - 2006». Тезисы докладов конференции. - М.: МИЭТ, 2006. - С. 96.
68. Секунов Н.Ю. Обработка звука на PC, Издательство «БХВ-Петербург», 2001.
69. Кинтцель Т. Программирование звука на ПК, Издательство ДМК Пресс, 2005.
70. Teager Н, Teager S., "Evidence for Nonlinear Production Mechanisms in Vocal Tract", in Speech Production and Speech Modeling, NATO Advanced Study Institute, Vol.55, Bonas, France, (Boston: Kluwer Academic Pub.), pp.241-261, 1990.
71. Kaiser J.F., "Some Useful Properties of Teager's Energy Operator," IEEE ICASSP-93, Vol. 3, pp. 149-152, 1993.
72. Чистович JI.A., Венцов А.И., Гранстрем М.П. и др. Физиология речи. Восприятие речи человеком. М.: Наука, 1976, стр. 388.88. http://pascal.kuw.tu-berlin.de/emodb/docu/. •
73. Соловьева Е.С., Конышев В.А. Анализ стресса по речевому сигналу // V Международная НТК «Электроника и информатика-2005». Тезисы докладов. М.: МИЭТ, 2005.-С. Ш.90. http://accent.gmu.edu/.
74. Соловьева Е.С., Тананыкин А.А. Модуль идентификации личности по голосу // XIV Всероссийская межвузовская НТК студентов и аспирантов «Микроэлектроника и информатика 2007». Тезисы докладов. - М.: МИЭТ, 2007. - С. 363.
75. Соловьева Е.С. Классификация акцента с помощью нейронных сетей // XIII всероссийская межвузовская НТК студентов и аспирантов: «Микроэлектроника и информатика 2006». Тезисы докладов. - М.: МИЭТ, 2006. - С. 327.
76. Соловьева Е.С., Конышев В.А., Селищев С.В. Использование основного тона и формантного анализа в задачах голосовой биометрии // Медицинская техника. 2007. -№1. - С. 32-37.
77. Соловьева Е.С., Тарасов Р.Ю. Оценка психоэмоционального состояния человека по голосу // XX съезд Физиологического общества им. И.П. Павлова. Тезисы докладов. -М.: Издательский дом «Русский врач», 2007. С. 427.
78. Лоусон Ч., Хенсон Р., Численное решение задач метода наименьших квадратов, Издательство «Наука», 1986, 232 стр.
-
Похожие работы
- Моделирование процессов управления речевой разборчивостью в многоканальных системах конфиденциальной голосовой связи
- Выделение и предобработка сигналов в системах автоматического распознавания речевых команд
- Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса
- Технология голосовой идентификации личности на основе проекционных методов анализа многомерных данных
- Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность