Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса

Малков, Максим Александрович

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса

кандидата технических наук: Малков, Максим Александрович
город: Москва
год: 2009
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса»

Автореферат диссертации по теме "Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса"

На правах рукописи

МАЛКОВ Максим Александрович

МОДЕЛИРОВАНИЕ И РАЗРАБОТКА КОМПЛЕКСА ПРОГРАММ ИДЕНТИФИКАЦИИ ГОЛОСОВОГО СООБЩЕНИЯ ПО ФОНЕМНОЙ СОСТАВЛЯЮЩЕЙ И ИНДИВИДУАЛЬНЫМ ХАРАКТЕРИСТИКАМ ГОЛОСА

Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание учёной степени кандидата технических наук

Москва-2009

003469776

Работа выполнена в ГОУ ВПО «МАТИ» - Российском государственном технологическом университете имени К.Э. Циолковского

Научный руководитель:

кандидат технических наук Балакирев Николай Евгеньевич

Официальные оппоненты:

доктор физико-математических наук, профессор

Михайлюк Михаил Васильевич

кандидат технических наук, доцент

Самсонов Олег Семёнович

Ведущая организация:

Институт точной механики и вычислительной техники им. С. А. Лебедева РАН

Защита состоится « Ч » 2009 г. в Ш ч. О^мин. на

заседании диссертационного совета Д 212.110.08 при «МАТИ» -Российском государственном технологическом университете имени К.Э. Циолковского по адресу: 121552, Москва, ул. Оршанская, д. 3, ауд. 612а.

С диссертацией можно ознакомиться в библиотеке «МАТИ» -Российского государственного технологического университета имени К.Э. Циолковского.

Автореферат разослан

«ЪО»агп^А/Я, 2009г.

Учёный секретарь диссертационного совета Д 212.110.08 кандидат физико-математических наук

Спыну М.В.

Общая характеристика работы

Актуальность темы диссертации. В последние годы для идентификации личности человека всё более широкое применение получают биометрические технологии. Они используются в системах разграничения доступа, при проведении финансовых транзакций, при запросах конфиденциальной информации по телефону, при управлении различными устройствами, в криминалистике и т.д. Использование биометрических технологий в этих сферах обладает рядом существенных преимуществ перед традиционными средствами идентификации (например, использованием пароля). В первую очередь к таким преимуществам относятся высокая надёжность идентификации и удобство использования для человека.

В качестве идентифицирующих параметров в биометрических технологиях используются физиологические и поведенческие характеристики человека. К таким характеристикам относятся отпечатки пальцев, голос, радужная оболочка глаза, лицо человека, почерк и др.

В настоящее время наиболее распространёнными биометрическими характеристиками человека являются отпечатки пальцев и радужная оболочка глаза. В то же время голос используется не так широко, хотя он обладает рядом существенных преимуществ, например, простота снятия биометрического параметра (достаточно лишь стандартного микрофона), а также удобство использования.

На сегодняшний день в мире существует ряд компаний, занимающихся разработкой систем идентификации голоса. Достигнуты определённые успехи в этой области (вероятность ошибки идентификации 1 - 3%). Однако существующие разработки обладают рядом недостатков.

Кроме того, во всех системах отсутствует возможность настройки алгоритмов под различные условия применения (уровень шума, особенность голоса конкретного человека, порог ошибок и т.д.).

Также, ни один разработчик не предоставляет средства для тестирования разработанной им системы идентификации голоса, тогда как особенности условий применения могут значительно влиять на качество работы алгоритма.

Большинство алгоритмов не учитывают текстовое содержание произносимой фразы (фонемную составляющую), выделяя лишь индивидуальные характеристики голоса, что значительно снижает надёжность идентификации.

С учётом сказанного актуальной является задача разработки новой модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса, свободной от отмеченных недостатков, а также комплекса программ, реализующего данную модель и позволяющего её тестировать.

Цель диссертационной работы. Целью диссертационной работы является разработка математической модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса, а также разработка комплекса программ, реализующего данную модель и позволяющего её тестировать. Исходя из поставленных целей, в работе решаются следующие задачи:

• анализ математических методов, которые можно применить к решению задачи идентификации голосового сообщения;

• разработка математической модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;

• программная реализация разработанной модели идентификации голосового сообщения;

• разработка метода оценки качества идентификации;

• программная реализация метода оценки качества идентификации голосового сообщения;

• оценка влияния значений варьируемых параметров (параметры модели, с помощью которых производится её настройка) разработанной модели на качество идентификации;

• оценка влияния различных произносимых фраз на качество идентификации.

Предмет исследования. Предметом исследования в диссертационной работе являются голосовые сообщения, представленные в оцифрованной форме, математическая модель идентификации голосового сообщения и статистические показатели, характеризующие качество идентификации этой модели.

Методы исследования. Методы исследования заимствованы из следующих областей:

• цифровая обработка сигналов;

• колебания и волны;

• теория речеобразования;

• математический анализ;

• математическое моделирование;

• численные методы;

• теория вероятностей и математическая статистика;

• теория языков программирования;

• теория построения баз данных.

Научная повизна. Научную новизну диссертационной работы составляют результаты, полученные в ходе решения поставленных задач:

• модель идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;

• метод деления голосового сообщения на фонемы;

• метод обработки фонем для их сравнения;

• метод матричного анализа сравнения фонем голосовых сообщений;

• набор параметров модели (варьируемые параметры), изменяя значения которых, можно настраивать её под различные условия применения;

• метод оценки качества идентификации представленной модели.

Практическая ценность работы. Практическую ценность работы

составляют следующие результаты:

• разработан комплекс программ идентификации голосового сообщения на основе предложенной модели;

• реализован комплекс программ оценки качества идентификации на основе статистических методов;

• выработаны рекомендации по использованию определённых голосовых сообщений в идентификации для повышения качества работы предложенной модели.

Положения, выносимые на защиту. На защиту выносятся следующие положения:

• речевой сигнал и теория речеобразования;

• структурная схема модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;

• метод деления голосового сообщения на фонемы;

• метод обработки фонем для их сравнения;

• метод матричного анализа сравнения фонем голосовых сообщений;

• метод статистической оценки качества работы модели идентификации голосового сообщения;

• статистическая оценка качества работы представленной модели в зависимости от значений варьируемых параметров;

• статистическая оценка качества работы представленной модели в зависимости от различных фраз.

Апробация результатов исследований. Основные результаты, полученные в ходе выполнения диссертационной работы, докладывались на международных молодёжных научных конференциях XXXII Гагаринские чтения (Москва, 2006 г.), ХХХ1П Гагаринские чтения (Москва, 2007 г.) и XXXIV Гагаринские чтения (Москва, 2008 г.), X Санкт-Петербургской международной конференции «Региональная информатика - 2006» (Санкт-Петербург, 2006 г.), XI Санкт-Петербургской

международной конференции «Региональная информатика - 2008» (Санкт-Петербург, 2008 г.), VIII Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2008 г.), Всероссийских научно-технических конференциях: «Новые материалы и технологии - 2006» (Москва, 2006 г.), «Новые материалы и технологии - 2008» (Москва, 2008 г.), а также докладывались и обсуждались па научных семинарах кафедры «Проектирование вычислительных комплексов» «МАТИ» - РГТУ имени К.Э. Циолковского.

Программный комплекс идентификации голосового сообщения, разработанный на основе предложенной модели, прошёл апробацию на кафедре «Проектирование вычислительных комплексов» «МАТИ» - РГТУ имени К.Э. Циолковского, а также в Политехническом музее в рамках Третьего Фестиваля науки в городе Москве (Москва, ноябрь 2008 г.).

Публикации. По теме диссертации опубликованы одиннадцать печатных работ, в том числе три статьи, из них одна статья в журнале, входящем в Перечень ведущих изданий, рекомендованных ВАК.

Структура и объем работы. Работа состоит из введения, четырёх глав, заключения, списка литературы и четырёх приложений. Работа изложена на 94 страницах и включает 36 рисунков, 12 таблиц, список литературы из 98 наименований, а также приложения на 23 страницах. Общий объём работы - 117 страниц.

Краткое содержание работы

Во введении обосновывается актуальность темы диссертационной работы. Характеризуется область исследования. Обосновываются научная новизна и практическая значимость выполненного исследования. Формулируются цели исследования и основные положения, выносимые на защиту.

Первая глава посвящена обзору речевых технологий. Рассматриваются два класса подходов к определению речи. К первому классу относятся подходы, описывающие речь с точки зрения информационного содержания. Ко второму относятся подходы, описывающие речь как акустический сигнал. В общем случае

акустический сигнал является носителем информационного содержания речи.

Рассматривается деление речевых технологий на шесть групп: цифровая передача и хранение, синтез речи, улучшение качества речевого сигнала, распознавание речи, устранение дефектов речи, идентификация голоса.

Анализируются математические методы, которые могут быть использованы при идентификации голосового сообщения - нейросети, частотные цифровые фильтры, Фурье-анализ, кепстральный анализ, методы машинного обучения, векторное квантование, гауссовы смеси и вейвлет-анализ.

Производится анализ разработок ведущих компаний в области идентификации голоса (Центр речевых технологий, компания «Речевые технологии», компания «Voice Security Systems Inc.», компания «Nuance» и компания «Agnitio»), Существующие разработки обладают вероятностью ошибки 1-3%. Однако разработчики не указывают, при каких условиях проводилась оценка качества идентификации (характеристики микрофона, объём выборки голосовых сообщений и т.д.). Кроме того, часть разработчиков вообще не указывают вероятность ошибки. Время идентификации при длительности фразы 3 секунды составляет 3-5 секунд на ЭВМ с частотой процессора 1,60 ГГц и объёмом оперативной памяти 896 МБ. Данный показатель определялся на одной и той же ЭВМ с помощью демонстрационных версий программ. Однако часть разработчиков не предоставляют демонстрационных версий. Данные характеристики будут использованы в дальнейшем для сравнения этих систем с разработанной моделью идентификации. Ни одна компания не предоставляет средства тестирования её системы. Кроме того, ни одна система не обладает возможностью настройки под различные условия применения.

Вторая глава посвящена разработке структурной схемы модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса. Анализируется образование фонем всех звуков русского языка, а также проявление индивидуальных

характеристик голоса с точки зрения теории речеобразования. В соответствии с последней, речь человека образуется в результате функционирования артикуляторного аппарата (состоит из голосовых связок, языка, губ и т.д.). Если бы этот аппарат работал всегда одинаково, то голосовые сообщения, имеющие одинаковое текстовое содержание, были бы равны. Таким образом, задача идентификации голосового сообщения решалась бы довольно просто - путём прямого сравнения двух цифровых сигналов, соответствующих голосовым сообщениям. Однако опыт показывает, что не существует двух абсолютно одинаковых голосовых сообщений, даже если человек старается их произнести абсолютно идентично. Основная причина данного факта - неспособность артикуляторного аппарата работать во всех случаях одинаково.

Рис. 1. Структурная схема модели идентификации голосового сообщения.

Модель идентификации голосового сообщения состоит из четырёх этапов. Сначала голосовые сообщения делятся на фонемы. Данный этап необходим для идентификации по фонемной составляющей, а так же для того, чтобы исключить влияние соседних фонем друг на друга при

выделении из них индивидуальных характеристик голоса. .На втором этапе строится образ каждой фонемы. На третьем этапе попарно сравниваются образы фонем первого голосового сообщения с образами фонем второго голосового сообщения. На последнем этапе с помощью матричного метода происходит анализ результатов данных сравнений с целью принятия решения о равенстве или неравенстве голосовых сообщений в соответствие с троичной или двоичной логикой.

В результате получим следующую структурную схему модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса (рис. 1).

Решение о равенстве голосовых сообщений принимается на основе сравнения двух переменных, обозначим их г и г'. Значение переменной г определяется в результате сравнения сигналов по модели, а значение переменной г' определяется из набора параметров сигналов. В случае двоичной логики сигналы будут считаться равными при г t z', и неравными в противном случае. При использовании троичной логики вводится третий вариант, когда переменные гиг' достаточно близки по своему значению: г ~ г' (то есть ситуация неопределённости). В данном варианте возможны три случая: ге[0; г-в) - сигналы неравны, ге(г'+е;+со) - сигналы равны и ге [г'-е; г'+е] - случай неопределённости, где е -переменная, определяющая ширину интервала неопределённости. Двоичная логика является частным случаем троичной при е=0. Выбор одного из методов принятия решения зависит от области применения реализованной модели идентификации голоса.

Третья глава посвящена разработке математических методов модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса, а также реализации предложенной модели в виде комплекса программ.

В результате анализа образования звуков русского языка был сделан вывод, что для выделения индивидуальных характеристик голоса целесообразно использовать только гласные и сонорные согласные звуки. Для выделения участков голосового сообщения, соответствующих этим

звукам, а также исключения переходных процессов и пауз между фонемами используются амплитудно-временные характеристики сигналов.

Фонема представляет собой периодический сигнат. Пусть минимальная длина периода фонемы будет равна Л^ =20 отсчётов, а максимальная длина - Мтах =400 отсчётов при частоте дискретизации 8 кГц. Введём переменную к, изменяющуюся в интервале [Л^; Л^] с шагом 1. Корреляция двух соседних частей сигнала для конкретного значения к будет определяться следующим выражением:

(1)

к к 1=1 V <=1

где ке ; Мпшх], х^ -_/-й отсчёт голосового сообщения, т - номер отсчёта, с которого начинается текущий интервал сигнала. Введём пороговое значение корреляции двух интервалов, при котором они (интервалы) будут принадлежать одной фонеме - г„ =0,96 (варьируемый параметр). Будем рассчитывать значение гк, изменяя к от Лил до Ита1 с шагом 1. В результате получим некоторую зависимость гк от к. Пример такой зависимости приведён на рис. 2.

гк

МтЬ к1 к2 мт*х к

Рис. 2. Пример зависимости от к.

Пики на графике при к=к} и к-к2 объясняются тем, что кх равно одинарному, а к2 - удвоенному периоду фонемы, поэтому значение

коэффициента корреляции резко возрастает. Будем считать, что начало т фонемы найдено, если при расчёте г* найдены два пика:

\>гп, (2)

гкг > г„ (3)

и выполнено условие:

\2к\ - к2\ < Ак, (4)

где: А к =4 отсчёта (варьируемый параметр).

Условие (4) необходимо, чтобы исключить случайные пики корреляции. В случае невыполнения одного из условий (2)-(4) будем считать, что участок сигнала [т+ЫтЬ1; т соответствует паузе между фонемами или шумному согласному звуку. Далее т увеличивается на ЛГШ1„, и процесс повторяется, пока не будет пройден весь сигнал.

В случае выполнения условий (2)-(4) т-й отсчёт будем считать началом фонемы, соответствующей гласному или сонорному согласному звуку. Далее т увеличивается на Итп, и весь процесс повторяется. Как только будет не выполнено одно из условий (2)-(4) будем считать, что конец текущей фонемы найден и равен текущему значению т.

В структурной схеме модели блок «Построение образа» включает в себя два блока: блок «Построение спектра» и блок «Построение образа по спектру». В первом блоке строится спектр каждого выделенного участка, во втором блоке - его образ. Спектр строится для частот сое [1; 400] Гц. Образ будут составлять амплитуды и частоты максимумов спектра,

удовлетворяющих выражению: г

max

( cos(co-n))2 +(£д:„ sm(co-n))2

(5)

(£х„ cosfQ) • n)f +(■£*„ Sinfa) • n)f

\l л=0 n=0

где со - частота отсчёта спектра, N - количество отсчётов выделенного участка, х„ - отсчёты участка, Ncn - количество отсчётов спектра, коб =0,1 -коэффициент пропорциональности (варьируемый параметр).

Для сравнения образов строится сигнал:

¿=1

где у=1, 2, ..., Ь, ¿=400 отсчётов - размер сигнала, восстановленного по образу, Л',- - амплитуда 1-го максимума образа, со, - частота 1-го максимума образа. Образы двух фонем будут считаться равными, если сигналы, полученные из этих образов с помощью выражения (6), будут удовлетворять условию:

где у' - 1-й отсчёт первого сигнала, у", - ¿-й отсчёт второго сигнала, р -пороговое значение для равенства сигналов (варьируемый параметр).

Представленным выше способом сравниваются все фонемы первого сигнала со всеми фонемами второго сигнала. Введём матрицу V размером пхт, где: п - количество выделенных фонем первого голосового сообщения, а т — количество выделенных фонем второго голосового сообщения. Элемент матрицы Уу определяется следующим образом: уу-= 1, если 1-й участок первого голосового сообщения равен 7-му участку второго голосового сообщения, уу = 0 в противном случае.

Далее введём квадратную матрицу ТУ, размер которой равен пхп, если п>т,и тхт, если п < т. Она получается из матрицы V следующим образом: если п = т, то \¥ = V, если п > га, то к матрице V добавляются справа (п - ш) нулевых столбцов, если п < от, то к матрице V добавляются снизу (от - и) нулевых строк. Обозначим размер матрица как кхк. Таким образом, получена матрица IV, по которой можно охарактеризовать степень равенства голосовых сообщений.

Введем переменную р„цП следующим образом: рПт=к. Так как размер матрицы характеризует количество выделенных фонем в голосовых сообщениях, то переменную Рпф, можно рассматривать как параметр, характеризующий степень совпадения двух голосовых сообщений, при которой они считаются равными. Далее необходимо определить параметр,

(7)

характеризующий совпадение голосовых сообщений на основе конкретной матрицы. Обозначим его р'. Получена следующая формула для р':

(8>

где к - размер матрицы IУ, и^ - элемент матрицы IV, ц и ц" -коэффициенты пропорциональности (варьируемые параметры).

Для принятия решения о равенстве голосовых сообщений необходимо сравнить значения параметров р' и ртп. При использовании троичной логики выберем в-окрестность значения ртт, соответствующую случаю неопределённости (при использовании двоичной логики е=0). Сигналы будут считаться неравными, если р'е [0; рт,„-с), и равными, если р'е (ртт+г\ +«>). Случаю неопределённости будет соответствовать ситуация р'е [Ршм-е; Ртш+е]- В четвёртой главе будет исследовано влияние значений параметров р, ц и ц' на качество идентификации. Таким образом, выделены варьируемые параметры модели, позволяющие производить её настройку.

Разработан комплекс программ, реализующий предложенную модель. Тексты программ представлены в диссертации. Время идентификации на данном комплексе составляет менее 1 секунды при длительности фразы 3 секунды на ЭВМ с частотой процессора 1,60 ГГц и объёмом оперативной памяти 896 МБ.

Четвёртая глава посвящена статистической оценке качества работы представленной модели идентификации голосового сообщения. Такая оценка производится следующим образом. Сначала необходимо собрать базу данных записанных голосовых сообщений. Для формирования такой базы данных необходимо выбрать голосовые сообщения, а затем записать произношение этих голосовых сообщений различными людьми. Таким образом, структура такой базы данных будет выглядеть следующим образом (рис. 3).

Затем необходимо выбрать интересующие нас параметры, которые влияют на качество работы метода идентификации голосового сообщения.

Далее необходимо произвести сравнения голосовых сообщений по представленному методу, изменяя эти параметры.

Рис. 3. Структура базы данных.

Таким образом, будет экспериментально получена зависимость Л=Я(Р), где К - функция зависимости количества ошибок от значения параметра Р. Для получения этой зависимости из базы данных выбираются Ь записей произнесённых голосовых сообщений. Далее формируется матрица М^ следующим образом: ту =1, если записи с номерами / и у имеют одинаковые голоса и фразы, ту = 0 в противном случае, где ту -элемент матрицы М^ь После этого формируется ещё одна матрица М'м следующим образом: т'у =1, если записи с номерами / и j совпали по методу идентификации голосовых сообщений, т'у =0 в противном случае, где т'у - элемент матрицы М Далее определяется матрица 5/>£, которая характеризует количество ошибок первого рода (расценивание сообщений с одинаковым текстовым содержанием и сказанных одним человеком, как неравных) и количество ошибок второго рода (расценивание сообщений с разным текстовым содержанием или (и) сказанных разными людьми, как равных). Матрица Бш получается следующим образом: яу=1, если т'у —ту, в противном случае $,у=0, где -элемент матрицы Для вероятности ошибки первого рода Ш) получена следующая формула:

/.-I 1.

X хучн

--(9)

1.1 ¡.М

Для вероятности ошибки второго рода ш2 получена следующая формула:

= -. (10)

¡=1 /=г'+1

В диссертации исследуется влияние на качество работы модели идентификации голосового сообщения параметров р, ц и ц" (см. главу 3), а также следующих параметров голосового сообщения: а (отношение количества гласных звуков в сообщении к общему числу звуков), Ь (отношение количества шумных звуков в сообщении к общему числу звуков), с (количество звуков в сообщении). Экспериментально получены следующие зависимости: =/?1(Р), где Я\ - функция зависимости

количества ошибок первого рода, Я2 - функция зависимости количества ошибок второго рода, Р - параметр, влияние которого исследуется (р, д', <?", а, Ь, с).

Для реализации предложенного метода оценки качества работы модели был разработан программный комплекс (текст программы представлен в диссертации).

В результате исследований получены следующие зависимости. При увеличении значения параметра р от 0,86 до 0,98 вероятность ошибки первого рода повышается от 1,40% до 56,64%, в то время как вероятность ошибки второго рода уменьшается от 25,71% до 0,04% (рис. 4а), таким образом, значение данного параметра подбирается в зависимости от того, ошибки какого рода являются более критичными. При увеличении значения параметра с( от 0,02 до 0,14 вероятность ошибки первого рода уменьшается от 21,68% до 1,40%, в то время как вероятность ошибки второго рода повышается от 0,04% до 31,08% (рис. 46), таким образом, значение данного параметра подбирается в зависимости от того, ошибки какого рода являются более критичными. При увеличении значения параметра от 1,4 до 2,0 вероятность ошибки первого рода повышается от 1,40% до 28,67%, в то время как вероятность ошибки второго рода уменьшается от 39,50% до 0,04% (рис. 4в), таким образом, значение

данного параметра подбирается в зависимости от того, ошибки какого рода являются более критичными.

60 50 40

ИГ(%)30 20 10 о

-А

-л

0,86 0,68 0,9 0,92 0,94 0,96 0,98 Р

—А — Ошибки первого рода • »Ошибки второго рода

а)

35 30 25

20 «(%)15

»0

0,02 0,04 0,06 0,03 0,1 0,12 0,14 Ч'

И||,|Л — Ошибки первого рода • Ошибки второго рода

б)

— Ошибки первого рода • Ошибки второго рода

в)

Рис. 4. Влияние варьируемых параметров модели на качество идентификации.

При увеличении относительного содержания гласных во фразе уменьшается вероятность ошибок, как первого, так и второго рода (рис. 5а). При увеличении относительного содержания шумных звуков во фразе вероятность ошибки первого и второго рода увеличивается (рис. 56). При увеличении длины фразы уменьшается вероятность ошибок как первого, так и второго рода (рис. 5в). Наиболее высокое качество идентификации соответствует длинным фразам с большим содержанием гласных звуков и меньшим содержанием шумных звуков.

0,37 0,44 0,47 0,5 0,53 0,56

к« Ошибки первого рода ►—Ошибки второго рода

а)

0,18 0,26 0,29 0,33 0,36 0,5 Ь

' А ■■■ Ошибки первого рода " ■"• Ошибки второго рода

б)

45 40 35 30 25 №20 15 10 5 0

у.

л-

13 19

—А — Ошибки первого рода

• Ошибки второго рода в)

Рис. 5. Влияние параметров фраз на качество идентификации.

Таким образом, качество идентификации при соответствующем выборе варьируемых параметров модели и голосовых сообщений оказывается достаточно высоким (вероятность ошибки составляет 5-6 %). Вероятность ошибки систем идентификации голоса, рассмотренных в обзоре, составляет 1 - 3%. Однако разработанная модель оказывается более быстродействующей (время идентификации на ЭВМ с частотой процессора 1,60 ГГц и объёмом оперативной памяти 896 МБ для разработанной модели составляет менее 1 секунды, для систем, рассмотренных в обзоре, - 3 - 5 секунд при длительности фразы 3 секунды). Кроме того, в отличие от существующих разработок,

присутствует возможность настройки модели и предложен метод и комплекс программ, позволяющий тестировать разработанную модель.

В заключении приводятся основные результаты и выводы диссертационной работы.

Выводы по результатам диссертации

В ходе решения поставленной задачи были получены следующие результаты:

1) Проанализирован процесс речеобразования и исследована работа артикуляторного аппарата человека, в результате чего выработаны пути построения модели идентификации голосового сообщения.

2) Произведён обзор и анализ методов, которые могут использоваться при идентификации голосового сообщения - нейросети, частотные цифровые фильтры, Фурье-анализ, кепстральный анализ, методы машинного обучения, векторное квантование, гауссовы смеси и вейвлет-анализ. Показана предпочтительность выбора Фурье-анализа как основы построения модели.

3) Построена структурная схема модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса.

4) Предложена двоичная и троичная логика принятия решения о равенстве голосовых сообщений.

5) Разработан математический аппарат деления голосового сообщения на фонемы, построения образа фонемы и сравнения образов двух фонем. Предложен метод матричного анализа сравнений образов фонем голосовых сообщений.

6) Определены варьируемые параметры модели, которые позволяют производить её настройку под различные условия применения.

7) Разработан комплекс программ, реализующий предложенную модель идентификации голосового сообщения. Время

идентификации составляет менее 1 секунды при длительности фразы 3 секунды на ЭВМ с частотой процессора 1,60 ГГц и объёмом оперативной памяти 896 МБ.

8) Спроектирована структура базы данных голосовых сообщений для тестирования и статистической оценки качества работы предложенной модели.

9) Предложен метод и разработан комплекс программ для тестирования модели идентификации голосового сообщения. Вероятность ошибки идентификации модели составляет5-6%.

10) Получена статистическая оценка качества работы предложенной модели в зависимости от значений трёх выбранных варьируемых параметров этой модели.

11) Получена статистическая оценка качества работы предложенной модели в зависимости от параметров фраз. Выработаны рекомендации по выбору фраз, используемых при идентификации.

12) Исходя из доступной информации, был произведён сравнительный анализ системы идентификации голоса, основанной на предложенной модели, и разработок ведущих компаний в этой области (Центр речевых технологий, компания «Речевые технологии», компания «Voice Security Systems Inc.», компания «Nuance» и компания «Agnitio»). Было показано, что разработанная модель близка по достоверности идентификации, но обладает рядом преимуществ - более высоким быстродействием, возможностью настройки и наличием средства тестирования модели.

Список публикаций по теме диссертации

1. Балакирев Н.Е., Малков М.А. Метод идентификации голосового сообщения//Информационные технологии. 2008. № 12. С. 66-68.

2. Малков М.А. Идентификационные признаки голоса // Научные труды ХХХП Международной молодёжной научной конференции Тагаринские чтения" в 8 т. Т. 6. М.: МАШ, 2006. С. 163-164.

3. Балакирев Н.Е., Малков М.А. Выделение звуков из непрерывного речевого сигнала // Новые материалы и технологии (НМТ-2006). Материалы Всероссийской научно-технической конференции. В 3 т. Т. 2. М.: ИЦМАТИ, 2006. С. 129-130.

4. Балакирев Н.Е., Малков М.А. Выделение звуков из непрерывного речевого сигнала // Материалы X Санкт-Петербургской международной конференции «Региональная информатика - 2006». СПб.: СПИИРАН, 2006.

5. Малков М.А. Выделение звуков из непрерывного речевого сигнала // Научные труды ХХХП1 Международной молодёжной научной конференции "Гагаринские чтения" в 8 т. Т. 6. М.: МАТИ, 2007. С. 239-240.

6. Балакирев Н.Е., Малков МЛ. Распознавание речи на основе артикуляторной характеристики звуков И Сборник трудов VIII Международной паучно-методической конференции «Информатика: проблемы, методология, технологии» в 2 т. Т. 1. Воронеж: ВГУ, 2008. С. 56-59.

7. Малков М.А. Построение огибающей цифрового сигнала с помощью интерполяционного многочлена в форме Лагранжа // Научные труды XXXTV Международной молодёжной научной конференции 'Тагаринские чтения". Т. 6. М.: МАТИ, 2008. С. 197198.

8. Малков М.А. Матричный метод сравнения двух голосовых сообщений, предварительно разделённых на фонемы // Компьютеры в учебном процессе. 2008. № 6. С. 49-54.

9. Малков М.А. Статистическая оценка качества работы метода идентификации голоса // Компьютеры в учебном процессе. 2008. № 9. С. 15-24.

10. Балакирев Н.Е., Малков М.А. Программный комплекс для идентификации голосового сообщения // Материалы XI Санкт-Петербургской международной конференции «Региональная информатика -2008». СПб.: СПИИРАН, 2008.

П.Балакирев Н.Е., Малков М.А. Расширение программного комплекса идентификации голосовых сообщений // Новые материалы и технологии (НМТ-2008). Материалы Всероссийской научно-технической конференции. В 3 т. Т. 2. М.: ИЦ МАТИ, 2008. С. 149-150.

Подписано в печать 29.04.2009 г. Печать на ризографе. Тираж 100 экз. Заказ № 1755. Объем 1,3 п.л. Отпечатано в типографии ООО "Алфавит 2000", ИНН: 7718532212, г. Москва, ул. Маросейка, д. 6/8, стр. 1, т. 623-08-10, www.alfavit2000.ru

Оглавление автор диссертации — кандидата технических наук Малков, Максим Александрович

Введение.

Актуальность темы диссертации.

Цель диссертационной работы.

Предмет исследования.

Методы исследования.

Научная новизна.

Практическая ценность работы.

Положения, выносимые на защиту.

Апробация результатов исследований.

Публикации.

Структура и объем работы.

Краткое содержание работы.

1. Обзор речевых технологий.

1.1. Речевой сигнал и формы его представления.

1.2. Основные речевые технологии.

1.3. Идентификация голосового сообщения.

1.4. Обзор математических методов, применяемых при идентификации голосового сообщения.

1.4.1. Нейросети.

1.4.2. Частотные цифровые фильтры.

1.4.3. Фурье-анализ.

1.4.4. Кепстральный анализ.

1.4.5. Методы машинного обучения.

1.4.6. Векторное квантование.

1.4.7. Гауссовы смеси.

1.4.8. Вейвлет-анализ.

1.5. Обзор разработок в области идентификации голоса.

1.6. Основные характеристики разрабатываемой модели.

1.7. Выводы.

2. Структурная схема модели идентификации голосового сообщения.

2.1. Основные понятия модели идентификации голосового сообщения.

2.2. Этапы разработки модели идентификации голосового сообщения.

2.3. Исследование образования звуков русского языка.

2.4. Построение структурной схемы модели идентификации голосового сообщения.

2.5. Двоичная и троичная логика принятия решения.

2.6. Выводы.

3. Математические методы модели идентификации голосового сообщения.

3.1. Деление голосового сообщения на фонемы.

3.2. Построение образа фонемы.

3.3. Сравнение образов двух фонем.

3.4. Матричный анализ сравнения голосовых сообщений.

3.5. Выводы.

4. Статистическая оценка качества работы модели идентификации голосового сообщения.

4.1. Разработка базы данных голосовых сообщений.

4.2. Метод статистической оценки качества работы модели идентификации голосового сообщения.

4.3. Оценка качества работы модели в зависимости от варьируемых параметров.

4.4. Оценка качества работы модели в зависимости от параметров фразы

4.5. Выводы.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Малков, Максим Александрович

Актуальность темы диссертации

В последние годы для идентификации личности человека всё более широкое применение получают биометрические технологии [1, 2, 4, 86]. Они используются в системах разграничения доступа, при проведении финансовых транзакций, при запросах конфиденциальной информации по телефону, при управлении различными устройствами, в криминалистике и т.д. Использование биометрических технологий в этих сферах обладает рядом существенных преимуществ перед традиционными средствами идентификации (например, использование пароля). В первую очередь к таким преимуществам относятся высокая надёжность идентификации и удобство использования для человека [86].

В качестве идентифицирующих параметров, в биометрических технологиях используются физиологические и поведенческие характеристики человека. К таким характеристикам относятся отпечатки пальцев, голос, радужная оболочка глаза, лицо человека, почерк и др.

В настоящее время наиболее распространёнными биометрическими характеристиками человека являются отпечатки пальцев и радужная оболочка глаза [86, 94]. В то же время голос используется не так широко, хотя он обладает рядом существенных преимуществ, например; простота снятия биометрического параметра (достаточно лишь стандартного микрофона), а также удобство использования.

На сегодняшний день в мире существует ряд компаний, занимающихся разработкой систем идентификации голоса [93, 95, 96, 97, 98]. Достигнуты определённые успехи в этой области (вероятность ошибки идентификации 1 - 3%). Однако существующие разработки обладают рядом недостатков.

Алгоритмы достаточно сложны и требуют больших вычислительных ресурсов, что ограничивает область их применения только высокопроизводительными ЭВМ (время идентификации 3-5 секунд при длительности фразы 3 секунды» на ЭВМ с частотой процессора 1,60 ГТц и объёмом оперативной памяти 896 МБ). Кроме того, во всех системах отсутствует возможность настройки алгоритмов под различные условия применения < (уровень шума, особенность голоса конкретного человека, порог ошибок и т.д.).

Большинство алгоритмов не учитывают текстовое содержание произносимой фразы, (фонемную составляющую), выделяя лишь индивидуальные характеристики голоса, что значительно снижает надёжность идентификации.

С учётом сказанного актуальной является задача разработки новой модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса, свободной от представленных недостатков, а также комплекса программ, реализующего1 данную модель и позволяющего её тестировать.

Цель диссертационной работы

Целью диссертационной работы является разработка математической модели'идентификации! голосового сообщения по фонемной, составляющей и> индивидуальным характеристикам» голоса; а также разработка комплекса программ, реализующего данную модель и позволяющего её тестировать. Исходя из поставленных целей, в работе решаются следующие задачи:

• разработка . математической модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;

• программная реализация разработанной модели идентификации голосового сообщения;

• разработка метода оценки качества идентификации;

• программная реализация метода оценки качества идентификации, голосового сообщения;

• оценка влияния значений варьируемых параметров разработанной' ' модели на качество идентификации; 6

• оценка влияния различных произносимых фраз на качество идентификации.

Предмет исследования

Предметом исследования в диссертационной работе являются голосовые сообщения, представленные в оцифрованной форме, математическая модель идентификации голосового сообщения и статистические показатели, характеризующие качество идентификации этой модели.

Методы исследования

Методы исследования заимствованы из следующих областей:

• цифровая обработка сигналов;

• колебания и волны;

• теория речеобразования;

• математический анализ;

• математическое моделирование;

• численные методы;

• теория вероятностей и математическая статистика;

• теория языков программирования;

• теория построения баз данных.

Научная новизна

Научную новизну диссертационной работы составляют результаты, полученные в ходе решения поставленных задач:

• метод деления голосового сообщения на фонемы;

• метод обработки фонем для их сравнения;

• метод матричного анализа сравнения фонем голосовых сообщений;

• метод оценки качества идентификации представленной модели.

4 ?

Практическая ценность работы

Практическую ценность работы составляют следующие результаты:

• разработан комплекс программ идентификации голосового сообщения на основе предложенной модели;

• реализован комплекс программ оценки качества идентификации на основе статистических методов;

Положения, выносимые на защиту

На защиту выносятся следующие положения:

• метод деления голосового сообщения на фонемы;

• метод обработки фонем для их сравнения;

• метод матричного анализа сравнения фонем голосовых сообщений;

• метод статистической оценки качества работы модели идентификации голосового сообщения;

• статистическая оценка качества работы представленной модели в зависимости от различных фраз.

Апробация результатов исследований

Основные результаты, полученные в ходе выполнения диссертационной работы, докладывались на международных молодёжных научных конференциях XXXII Гагаринские чтения (Москва, 2006 г.), XXXIII Гагаринские чтения (Москва, 2007 г.), XXXIV Гагаринские чтения (Москва, 2008 г.), X Санкт-Петербургской международной конференции «Региональная информатика - 2006» (Санкт-Петербург, 2006 г.), XI Санкт-Петербургской международной» конференции «Региональная информатика — 2008» (Санкт-Петербург, 2008 г.), VIII Международной научно-методической конференции

Информатика: проблемы, методология, технологии» (Воронеж, 2008 г.), Всероссийских научно-технических конференциях: «Новые материалы и технологии — 2006» (Москва, 2006 г.), «Новые материалы и технологии — 2008» (Москва, 2008 г.), а также докладывались и обсуждались на научных семинарах кафедры «Проектирование вычислительных комплексов» «МАТИ» - РГТУ имени К.Э. Циолковского.

Программный комплекс идентификации голосового сообщения, разработанный на основе предложенной модели, прошёл апробацию на кафедре «Проектирование вычислительных комплексов» «МАТИ» — РГТУ имени К.Э. Циолковского, а также в Политехническом музее в рамках Третьего Фестиваля науки в городе Москве (Москва, ноябрь 2008 г.).

Публикации

2. Малков MíA. Идентификационные признаки голоса // Научные труды XXXII Международной молодёжной научной конференции "Гагаринские чтения" в 8 т. Т. 6. М.: МАТИ, 2006¿ С. 163-164.

6. Балакирев Н.Е., Малков М.А. Распознавание речи на основе артикуляторной характеристики звуков // Сборник трудов VIH Международной научно-методической конференции «Информатика: проблемы, методология, технологии» в 2 т. Т. 1. Воронеж: ВГУ, 2008. С. 56-59.

7. Малков М.А. Построение огибающей цифрового сигнала с помощью интерполяционного многочлена в форме Лагранжа // Научные труды XXXIV Международной молодёжной научной конференции "Гагаринские чтения". Т. 6. М.: МАТИ, 2008. С. 197-198.

8. Малков М.А. Матричный метод сравнения двух голосовых сообщений, предварительно разделённых на фонемы // Компьютеры в учебном, процессе. 2008. № 6. С. 49-54.

11. Балакирев Н.Е., Малков М:А. Расширение программного комплекса идентификации голосовых сообщений // Новые материалы и технологии

НМТ-2008). Материалы Всероссийской научно-технической конференции. В 3 т. Т. 2. М.: ИЦ МАТИ, 2008. С. 149-150:

Структура и объем работы

Работа состоит из введения, четырёх глав, заключения, списка литературы и четырёх приложений. Работа изложена на 94 страницах и включает 36 рисунков, 12 таблиц, список литературы из 98 наименований, а также приложения на 23 страницах. Общий объём работы - 117 страниц.

Краткое содержание работы

Во введении обосновывается актуальность темы диссертационной работы. Характеризуются область исследования. Обосновываются научная новизна и практическая значимость выполненного исследования. Формулируются цели исследования и основные положения, выносимые на защиту.

В первой главе изучается процесс речеобразования и основные подходы к определению речи. Приводится классификация речевых технологий и показывается место идентификации голосового сообщения среди них. Анализируются математические методы, которые могут быть использованы при идентификации голосового сообщения — нейросети, частотные цифровые фильтры, Фурье-анализ, кепстральный анализ, методы машинного обучения, векторное квантование, гауссовы смеси и вейвлет-анализ. Производится анализ разработок ведущих компаний в области идентификации голоса (Центр речевых технологий, компания «Речевые технологии», компания «Voice Security Systems Inc.», компания «Nuance» и компания «Agnitio»).

Во второй главе формулируются основные понятия модели идентификации голоса. Анализируется образование фонем звуков русского языка, а также проявление индивидуальных характеристик голоса с точки зрения теории речеобразования. Производится построение структурной схемы, модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса. Предлагается двоичная и троичная логика принятия решения о равенстве голосовых сообщений.

В третьей главе разрабатывается математический аппарат деления голосового сообщения на фонемы, построения образа фонемы и сравнения образов двух фонем. Предлагается метод матричного анализа сравнения образов фонем первого голосового сообщения с образами фонем второго голосового сообщения. Выделяются варьируемые параметры модели, которые позволяют производить её настройку. Разрабатывается комплекс программ, реализующий предложенную модель идентификации голосового сообщения.

В четвёртой главе разрабатывается метод оценки качества работы предложенной модели идентификации голосового сообщения. Разрабатывается комплекс программ, реализующий этот метод. Проводится статистическая* оценка качества работы модели в зависимости от значений варьируемых параметров, а так же в зависимости от различных параметров произносимой фразы. Даются рекомендации по использованию фраз, соответствующих определённым параметрам (например, длина фразы), для повышения качества работы представленной модели. Делается вывод о её практической применимости.

В заключении приводятся основные результаты и выводы диссертационной работы.

Заключение диссертация на тему "Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса"

4.5. Выводы

1) Спроектирована структура базы данных для тестирования модели.

2) Предложен метод оценки качества работы модели идентификации голосового сообщения.

3) Разработан программный комплекс, реализующий предложенный метод оценки качества работы модели, позволяющий её тестировать. Вероятность ошибки идентификации составляет 5 - 6%.

4) Получена статистическая оценка качества работы модели идентификации голосового сообщения в зависимости от значений трёх варьируемых параметров модели.

5) Получена статистическая оценка качества работы модели идентификации голосового сообщения в зависимости от параметров фразы. Выработаны рекомендации по выбору фраз, используемых при идентификации.

Заключение

В ходе решения поставленной задачи были получены следующие результаты:

2) Произведён обзор и анализ методов, которые могут использоваться при идентификации голосового сообщения — нейросети, частотные цифровые фильтры, Фурье-анализ, кепстральный анализ, методы машинного обучения, векторное квантование, гауссовы смеси и вейвлет-анализ. В результате для построения модели выбран Фурье-анализ.

3) Построена структурная схема модели идентификации голосового сообщения по фонемной составляющей, и индивидуальным характеристикам голоса.

4) Предложена двоичная и троичная логика принятия решения о равенстве голосовых сообщений.

7) Разработан комплекс программ, реализующий предложенную модель идентификации голосового сообщения. Время идентификации составляет менее 1 секунды при длительности фразы 3 секунды на ЭВМ, с частотой процессора 1,60 ГГц и объёмом оперативной памяти 896 МБ.

9) Предложен метод и разработан комплекс программ для тестирования модели идентификации голосового сообщения. Вероятность ошибки идентификации модели составляет 5 — 6 %.

12) Произведён сравнительный анализ системы идентификации голоса, основанной на предложенной модели, и разработок ведущих компаний в этой области (Центр речевых технологий, компания «Речевые технологии», компания «Voice Security Systems Inc.», компания «Nuance» и компания «Agnitio»), Разработанная модель, несколько уступая в качестве идентификации, обладает рядом преимуществ — более высокое быстродействие, возможность настройки модели, кроме того, разработано средство тестирования модели.

Библиография Малков, Максим Александрович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Аграновский A.B., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М:: Радио и связь, 2004.

2. Аграновский A.B., Леднов Д.А., Репалов С.А. Метод текстонезависимой идентификации диктора на основе индивидуальности произношения гласных звуков // Акустика и прикладная лингвистика: Ежегодник РАО. Вып. 3. М.: 2002. С. 103-115.

3. Айфичер С., Джервис У. Цифровая обработка сигналов: практический подход, 2-е издание // Пер. с англ.: Под ред. A.B. Назаренко. — М.: Издательский дом «Вильяме», 2004.

4. Анализ и синтез речи. Под ред. Б. М. Лобанова. — Минск.: Институт технической кибернетики АН БССР, 1991.

5. Андронов A.A., Витт A.A., Хайкин; С.Э. Теория колебаний. — М.: Физматгиз, 1959. 926 с.

6. Апраушева H.H., Моллаверди Н., Сорокин C.B. Вычисление стационарных точек плотности вероятности простейшей Гауссовой смеси // Динамика неоднородных систем. Выпуск 10(2). — М.: КомКнига, 2006. С. 113-136.

7. Балакирев Н.Е., Малков М.А. Выделение звуков из непрерывного речевого сигнала // Новые материалы и технологии (НМТ-2006). Материалы Всероссийской научно-технической конференции. В 3 т. Т. 2. М.: ИЦМАТИ, 2006. С. 129-130.

8. Балакирев Н.Е., Малков М.А. Выделение звуков из непрерывного речевого сигнала // Материалы X Санкт-Петербургской международной конференции «Региональная информатика 2006». СПб.: СПИИРАН, 2006.

9. Балакирев Н.Е., Малков М.А. Метод идентификации голосового сообщения //Информационные технологии. 2008. № 12. С. 66-68.10.* Балакирев Н.Е., Малков М.А. Программный комплекс для идентификации голосового сообщения // Материалы XI' Санкт

10. Петербургской международной конференции «Региональная информатика — 2008». СПб.: СПИИРАН, 2008.

11. Балакирев Н.Е., Малков М.А. Расширение программного комплекса идентификации голосовых сообщений // Новые материалы и технологии (НМТ-2008). Материалы Всероссийской научно-технической конференции. В 3 т. Т. 2. М.: ИЦ МАТИ, 2008. С. 149-150.

12. Бахвалов Н.С. Численные методы (анализ, алгебра, обыкновенныедифференциальные уравнения). — М.: Наука, 1975.

13. Блейхут Р. Быстрые алгоритмы цифровой обработки сигналов // Пер. с англ. И.И. Грушко. -М.: Мир, 1989.

14. Большаков И.А. Статистические проблемы выделения потока сигналов из шума. -М.: Советское радио, 1969^

15. Бронштейн И.Н., Семендяев К.А. Справочник по математике для инженеров и учащихся втузов. М.: Наука, 1981.

16. Валиулин А.Ф., Тюрин В.Н. Лингвистический метод определения характеристик нестационарных случайных процессов. — М.: ПАИМС, 2000.

17. Вахитов Я.Ш. Слух и речь: Конспект лекций по курсу «Электроакустика». Раздел 2. JL, 1973.

18. Вентцель Е.С., Овчаров JI.A. Теория вероятностей и её инженерные приложения. М.: Наука, 1988. 480 с.

19. Воробьёв H.H. Теория рядов. — М.: Наука, 1986. 408 с.

20. Гнеденко Б.В. Курс теории вероятностей. М.: Наука, 1988. 446 с.

21. Гольденберг JI.M. Цифровая обработка сигналов: Справочник. — М.: Радио и связь, 1985.23.24,25,26,27,28,29

Похожие работы

Информатика, вычислительная техника и управление
05.13.00