автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка методики использования широких фонетических категорий в задачах верификации диктора

кандидата технических наук
Милошенко, Алексей Анатольевич
город
Москва
год
2010
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка методики использования широких фонетических категорий в задачах верификации диктора»

Автореферат диссертации по теме "Разработка методики использования широких фонетических категорий в задачах верификации диктора"

На правах рукописи

ШИРОКИХ ФОНЕТИЧЕСКИХ КАТЕГОРИЙ В ЗАДАЧАХ ВЕРИФИКАЦИИ ДИКТОРА

Специальность 05.13.17 -Теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

1 9 НОЯ 2010

Москва-2010

004613003

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Академия Федеральной службы безопасности Российской федерации» на кафедре № 723 Института криптографии, связи и информатики.

Научный руководитель Официальные оппоненты

Ведущая организация

доктор технических наук, доцент Шалимов И.А.

доктор технических наук, профессор Саблин В.Н.

кандидат технических наук Литвин С.А.

ФГНУ НИИ «Спецвузавтоматика» (г. Ростов-на-Дону)

Защита состоится «17» ноября 2010 г. в 15 часов на заседании Диссертационного Совета Д 218.005.04 при Московском государственном университете путей сообщения (МИИТ) по адресу: 127994, ГСП-4, г. Москва, ул. Образцова, 9, стр. 9, ауд. 4518.

С диссертацией можно ознакомиться в библиотеке МИИТа.

/лг

Автореферат разослан октября 2010 г.

Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу диссертационного совета университета.

Ученый секретарь

диссертационного совета Д218.005.04, д.т.н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы. Возможность общения с ЭВМ на естественном языке давно интересовала исследователей. С развитием уровня техники потребности современного общества диктуют новые требования к эргономичности систем и их безопасности. Возникает необходимость в распознавании речевых сигналов. Это касается и вопросов пограничного контроля, криминалистической экспертизы, контроля и управления банковскими операциями, контроля доступа к охраняемым объектам и информационным системам, обслуживания и регистрации пассажиров, проведения оперативно-розыскных мероприятий.

Верификация речи диктора, являясь одной из разновидностей задачи распознавания устной речи, используется в системах контроля доступа. В общем случае, распознавание речи может состоять из нескольких задач: распознавание текста, распознавание диктора, определение его эмоционального состояния, возраста и пола, определение языковой принадлежности говорящего и др. Все они относятся к статистической теории распознавания образов и могут быть решены с помощью соответствующего математического аппарата. Стоит отметить, что в системах распознавания речи наибольшее применение нашли такие модели и методы, как: модель гауссовых смесей (ОММ модель), модель опорных векторов (БУМ модель), модель на основе искусственных нейронных сетей, скрытая Марковская модель (НММ модель), метод векторного квантования, тестовое распознавание (на основе аппарата логических тестов), метод текстонезависимой системы идентификации диктора на основе индивидуальности произношения гласных звуков и др. Все перечисленные модели используют в качестве априорного словаря признаков некие параметры речевого сигнала, вычисленные на его отдельных достаточно коротких фрагментах, характеризующихся стационарностью. Признаки, связанные с анатомическими особенностями голосового тракта принято называть акустическими. Возможности систем распознавания с использованием акустических параметров достигли своего предела. Признаки, отражающие индивидуальные особенности речевой активности, обусловленные работой центральной нервной системы человека -называют лингвистическими. Дальнейшее усовершенствование систем распознавания представляется в совместном использовании лингвистических и акустических признаков. Трудность использования лингвистических признаков в задачах распознавания заключается в сложности их математического описания. Таким образом, задача описания лингвистических признаков для их совместного использования с акустическими признаками с целью повышения надежности распознавания является актуальной.

В качестве лингвистических признаков может быть рассмотрена последовательность сменяющихся различных типов звуков и пауз речевого сообщения, которая определяет понятие широких фонетических категорий. В отечественной и зарубежной литературе выделяют следующие категории: гласные, носовые (назальные), плавные, шипящие, аффрикаты, взрывные и паузы.

Таким образом, использование широких фонетических категорий, в частности изменения во времени признака тон/шум, а также пауз речевого сообщения, для задач распознавания диктора является актуальным.

Цель работы заключается в разработке методики использования широких фонетических категорий речевого сообщения (распределения признака тон/шум и пауз на фрагментах речи) в задачах верификации диктора.

Задачи исследования. Для достижения поставленной цели в работе решены следующие задачи:

1. Анализ характеристик речевых сообщений, используемых при распознавании речи;

2. Анализ моделей и методов, используемых при распознавании;

3. Построение модели математической интерпретации лингвистических признаков в задачах верификации диктора;

4. Исследование возможности применения различных идентификационных параметров для верификации диктора в разработанной модели;

5. Разработка методики использования широких фонетических категорий в задачах верификации диктора;

6. Исследование влияния шума на надежность верификации диктора с использованием широких фонетических категорий;

7. Оценка репрезентативности полученных результатов распознавания диктора;

8. Обобщение и оценка результатов исследований по проблеме верификации диктора с использованием широких фонетических категорий.

Объект исследования. Процессы формирования и обработки устной речи. Предмет исследования. Принципы, способы, методы, модели, алгоритмы, методики распознавания речи дикторов.

Исходная основа диссертации. Диссертация основывается на результатах:

- работ теории распознавания образов Ю. J1. Барабаша, В.Н. Вапника, К. Фукунаги, А. JI. Горелика.

- теоретических и прикладных исследований по цифровой обработке речевых сообщений В.М. Величко, Т.К. Винцюка, Н.Г Загоруйко, Г.С. Слуцкера,

A.A. Пирогова, М.А. Сапожкова, Г.Е.Кедровой, JI.A. Чистовича, Ю.А.Косарева,

B.Н. Сорокина, В.И. Галунова, A.B. Аграновского, В.П. Бондаренко, A.A. Харламова, Р.К. Потаповой, В.Я. Чучупала, В.Н. Сорокина, П.А. Скрелина,

В. Г. Михайлова, Б.М. Лобанова, Н.К. Обжеляна, В.Н. Трунина-Донского, Г. С. Рамишвили, Л.Р. Рабинера, Г.М. Фанта, Р.В. Шафера, Р. Якобсона, Г. Чедда, Г.Р. Доддингтона, С. Фуруи, Л. Фланагана, Г.В. Горелова, А.Ф. Фомина, Л.А. Баранова, И.А. Шалимова.

Методы исследования. В работе использовачись метод системного анализа, методы цифровой обработки сигналов, математического и компьютерного моделирования, методы обработки экспериментальных данных, методы распознавания образов, статистического анализа, методы спектрального и корреляционного анализа.

Научная новизна диссертации состоит в следующем:

1) Предложена математическая интерпретация идентификационной информативности лингвистических признаков посредством последовательности изменяющихся во времени акустических параметров речи диктора.

2) На основе результатов исследования существующих моделей и методов распознавания дикторов, разработана модель математической интерпретации лингвистических признаков в задачах верификации диктора.

3) Создана методика использования широких фонетических категорий в задачах верификации диктора.

4) Получена экспериментальная оценка надежности распознавания диктора с использованием разработанных модели и методики.

Основные положения, выносимые на защиту состоят в следующем:

1) Модель математической интерпретации лингвистических признаков в задачах верификации диктора.

2) Методика использования широких фонетических категорий в задачах верификации диктора.

Практическая ценность работы.

1) Обеспечение возможности верификации диктора по каналу связи с вокодерной передачей без восстановления исходной формы речевого сигнала.

2) Верификация диктора на основе широких фонетических категорий инвариантна к сигналам, подвергнутым вокодерным преобразованиям, что позволяет повысить надежность системы верификации при использовании предложенной методики.

3) Реализованная в пакете прикладных программ МаЙЬаЬ модель математической интерпретации лингвистических признаков в задачах верификации диктора и методика использования широких фонетических категорий в задачах верификации диктора используются при проведении лабораторных работ по

исследованию систем распознавания в рамках дисциплины «Цифровая телефония».

Реализация результатов работы.

1. В компании ООО «Стэл — КС»: в научно-техническом отчете по СЧ НИР «Проба2К» (Госконтракт с ФГУП «НИИ Квант» № 028/23-К2 от 01.07.2008г.), в научно-техническом отчете по НИР «Шпала» (Госконтракт с государственным учреждением «Войсковая часть 35533» N70/2009-6200« от 10 апреля 2009г.) использован проведенный анализ информативных параметров речевого сообщения, используемых для формирования априорною словаря признаков, а также показана возможность идентификации диктора посредством широких фонетических категорий.

2. В учебном процессе на кафедре 723 ИКСИ в курсе лекционных, лабораторных и практических занятий по дисциплине «Цифровая телефония» используются результаты анализа информативных параметров речевого сообщения, существующих методов и моделей, используемых при распознавании дикторов и реализованная в пакете прикладных программ МаЛ,аЬ модель математической интерпретации лингвистических признаков в задачах верификации диктора.

Апробация результатов работы. Результаты диссертационного исследования апробированы на IX Международной научно-технической конференции «Физика и радиоэлектроника в медицине и экологии» (ФРЭМЭ'2010) (29 июня - 2 июля 2010 года, ВлГУ, г. Владимир), VIII Межведомственной научно-технической конференции (3-5 февраля 2010, в/ч 33965, г. Москва), Юбилейной научно-технической конференции специалистов и молодых ученых (27-28 мая 2009, в/ч 35533, г. Москва), 6-ой Всероссийской научной конференции «Проблемы развития технологических систем государственной охраны, специальной связи и информации» (5-6 февраля 2009, Академия ФСО России, г. Орел), а также в ходе проведения научных семинаров на базе Института криптографии связи и информатики Академии ФСБ России и в/ч 35533.

Публикации. По материалам диссертации опубликовано 9 работ, три из которых в изданиях, входящих в Перечень ведущих рецензируемых научных журналов и изданий, формируемый Высшей аттестационной комиссией.

Структура и объем работы. Диссертация содержит введение, три главы, заключение, список литературы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность диссертационного исследования, сформулированы цель и основные задачи, решение которых необходимо для достижения поставленной цели. Кратко изложено основное содержание работы.

В первой главе проведен обзор и анализ используемых для распознавания дикторов информативных параметров речевого сообщения, существующих методов и моделей, используемых при распознавании дикторов. Речевое сообщение характеризуется рядом параметров, как неизменными, например диалектными, так и чрезвычайно изменчивыми, что определяется физическим и эмоциональным состоянием говорящего. В этих качествах речевого сообщения проявляется индивидуальность голоса человека. Это параметры (признаки) речевого сообщения, используемые для распознавания.

Основными параметрами группы акустических признаков выступают такие характеристики, как средние значения мощности в частотных полосах спектра анализируемого речевого сигнала, относительное время пребывания сигнала в полосах спектра, медианные значения спектра речи в полосах, относительная мощность спектра речи в частотных полосах, значения коэффициентов кросскорреляции спектральных огибающих между полосами спектра, значения компонент гистограмм распределения длительности частоты основного тона, значения частоты основного тона на гласных, значения четырех формантных частот гласных звуков, величина длительности гласных, величины длительности согласных, окружающих гласный.

К лингвистическим признакам относятся признаки на уровнях речевого потока, фраз, синтагм, слов и отдельных звуков. На уровне речевого потока выделяют признаки голоса (высота, тембр, сила голоса), артикуляции (четкость артикуляции, темп речи, длительность пауз, заполнение пауз, речевое дыхание, интонация, запинки, заикания), речевой культуры говорящего (выразительность, словарный запас, стиль, манера речи), его облика (пол, возраст, эмоционально-психологическая характеристика). Фразы, синтагмы и слова характеризуются наличием грамматических (синтаксических и морфологических), лексических, а также фонетических просодических признаков. Отличительная особенность произношения отдельных звуков связана с диалектным воздействием, билингвизмом и дефектами речи и выражается в соответствии или несоответствии произносительной норме, присущей в данное время для данного языкового коллектива.

В рассмотренных ниже методах и моделях используются акустические признаки.

GMM (Gaussian mixture model) модель

Наиболее востребованной и широко применимой является модель гауссовых смесей (GMM модель). В модели используются статистические методы. Наиболее часто в качестве вектора признаков используют набор мелкепстральных

s

коэффициентов, также может использоваться первая производная по времени от последовательности мелкепстральных коэффициентов.

SVM (Support vector machine) модель

Сформировавшуюся к 90-м годам XX столетия из работ Вапника В.Н. модель опорных векторов (SVM модель) в области распознавания речевых сигналов получила широкое распространение.

Модель опорных векторов позволяет разделить пространство признаков на два класса посредством гиперплоскости в n-мерном пространстве.

Модель на основе искусственных нейронных сетей

На сегодняшний день GMM модель и модель опорных векторов - это основные алгоритмы распознавания диктора.

Возросшую популярность систем искусственного интеллекта можно объяснить сложностью решаемых с их помощью задач и наличием соответствующих сред разработки. Зависимость между входными и выходными данными имеет сложную природу и ее проблематично отразить общепринятыми математическими инструментами. Большинство математических методов основано на предположении о том, что исходное распределение вероятностей входных данных известно или его можно построить.

С другой стороны, искусственная нейронная сеть способна моделировать большинство из существующих систем распознавания, для нее неважно наличие предварительных сведений о входных данных, а классификация образов является нелинейной.

Использование искусственных нейронных сетей успешно применяется в задачах распознавания диктора.

НММ (Hidden Markov model) модель

Скрытая Марковская модель (СММ) в области обработки речевых сообщений чаще применяется в процессе распознавания слов, где используется для представления одной фонемы с фиксированным числом состояний либо целого слова из ограниченного словаря.

Основы теории опубликованы Л. Е. Баумом и его коллегами в конце 60-х -начале 70-х годов. Обобщение теории и рекомендации по ее практическому использованию приведены Л. Р. Рабинером в 1989 году.

Метод векторного квантования

Основная идея векторного квантования заключается в том, что пространство признаков речевого сигнала представляется в виде векторов или точек в многомерном пространстве, и каким-либо образом полученное пространство векторов разбивается на области, соответствующие заданным классам. В каждой области выбирается вектор-эталон этой области. Принадлежность вектора к какому

либо из классов определяется на основании расстояния между ним и вектор-эталоном.

Тестовое распознавание

Теория тестового распознавания возникла в 50-х - 60-х годах XX века и связана с именами C.B. Яблонского и И.А. Чегиса, в работах которых впервые было введено понятие теста и выявлен ряд его важных свойств.

Метод текстонезавнсимой системы идентификации

Метод текстонезавнсимой системы идентификации на основе индивидуальности произношения гласных звуков предложен в 2002 году Аграновским A.B., Ледновым Д.А., Репаловым С.А.

В качестве критерия эффективности систем распознавания рассматриваются вероятность распознавания своего объекта как чужого (ошибка I рода), а также вероятность распознавания чужого объекта как своего (ошибка II рода). В зависимости от выбранных признаков идентификации, для одной и той же модели получаются различные оценки эффективности. Наиболее распространенной на сегодняшний день для идентификации дикторов является модель гауссовых смесей. Модель опорных векторов наиболее «молодая» из представленных. Ее преимущества заключаются в быстром обучении и распознавании. Однако все эти преимущества теряются с возрастанием числа классов, и применение модели становится затруднительным. Качество распознавания с использованием искусственных нейронных сетей в задачах идентификации зависит исключительно от исследователя, выбор многих параметров сети, влияющих на конечный результат распознавания как речи, так и дикторов, не поддается формальному описанию. Традиционно скрытую Марковскую модель используют для распознавания текста, используя отдельную модель для представления каждого слова при ограниченном словаре или для каждой фонемы при неограниченном словаре. Комбинируя скрытую Марковскую модель и искусственные нейронные сети, результаты распознавания составили 60% при непрерывной устной речи и большом словаре слов. Для решения проблем распознавания с большим числом классов эффективным является векторное квантование.

Применение моделей идентификации с использованием акустических параметров достигло предела своей эффективности, и дальнейшее повышение надежности идентификации представляется в совместном использовании лингвистических и акустических признаков. Слуховой аппарат человека способен распознать речь диктора не только по акустическим признакам. Лингвистические признаки характеризуются наличием идентификационной информативности, однако достаточно сложно поддаются математическому описанию, их использование в целях идентификации является прерогативой экспертов. Таким

образом, актуальным является решение задачи адекватного математического представления лингвистических параметров.

Дальнейшее повышение эффективности распознавания может быть достигнуто за счет разработки модели математического описания лингвистических признаков и их совместного использования с акустическими. В качестве модели распознавания диктора выбрана модель на основе искусственных нейронных сетей.

Во второй главе разработаны модель математической интерпретации лингвистических признаков и методика использования широких фонетических категорий в задачах верификации диктора.

Пусть множество А = {А1,А2,...,А1Г} представляет собой множество дикторов, где Д - отдельный диктор; IV - общее число дикторов.

В общем случае диктора А, характеризует несколько объектов из множества В-{Ьх,Ь1,...,Ъи\, называемых реализациями, где и- общее число неодинаковых реализаций, причем II »]¥.

Пусть X = Х1,Х2,...,Хк,...,Хк - совокупность признаков, используемых для распознавания всех дикторов из множества А. Хк- элемент X, определяемый следующим образом.

Исходный речевой сигнал sí,(t), подвергается дискретизации по времени и квантованию по уровню:

где Q- операция дискретизации по времени и квантования по уровню.

Полученная последовательность отсчетов £(н) длительностью Ь разбивается на фрагменты $,("0 по N отсчетов, где / - ;'-й фрагмент речевого сигнала, м = 0,...,ЛГ-1.

Решение задачи распознавания речевых сигналов предусматривает вычисление на каждом из фрагментов значений акустических признаков, дальнейшее их усреднение или построение гистограмм для определения частоты встречаемости значения того или иного признака:

т=е<л(0),

со

Хк=Ок{з<{т))

1<;< — , 1 <к<к,

N

где Ок- вычисление к -го признака из совокупности признаков X, [ ]- целая

Введем дополнительное обозначение, пусть / — му сегменту соответствует

вектор-признак X/ (рис. 1), тогда для всех сегментов исходного речевого сигнала 5(и) имеем:

Х =

Хп ... Х^

хп х12... ^

Х\К Хгк ...

(3)

5(п) ,

^11

Хп Х22

Рис. 1

Хг

X,

Признаки, обусловленные деятельностью центральной нервной системы человека, проявляются в изменении во времени акустических признаков:

\<к<К

где <рг - преобразование к -го признака на последовательности фрагментов.

Ф = <р„<рг,...,<р^ку (5)

Последовательность Ф преобразований параметров на фрагментах речевого сигнала отражает процесс формирования речевого сообщения и особенности речи, обусловленные деятельностью центральной нервной системы.

Для адекватного представления идентифицирующей информации, содержащейся в этой последовательности преобразований предлагается использовать автокорреляционную функцию последовательности признаков на сегментах:

к = 0,\,...,М, 7 = 0,1,...,А', М = соШ, (6)

1=1

где - вектор автокорреляционной функции последовательности /-го признака.

В предлагаемой модели интерпретации лингвистических признаков могут быть использованы различные параметры речи. В работе исследована идентификационная информативность следующих параметров: период основного тона, кратковременная энергия речевого сигнала, коэффициенты линейного предсказания, широкие фонетические категории. В ходе проведенных исследований установлено, что возможна только текстозависимая идентификация. При этом наилучшие результаты получены при длительности фразы порядка 10 секунд.

Оценка идентификационной информативности лингвистических параметров речевого сигнала проводилась следующим образом:

' Ь'

На каждом фрагменте 1 < /:

N

вычисляются его параметры:

п-1

а„ = Т/5,М), (9)

V, =0(лДот)), (10)

где - частота основного тона; Е - операция вычисления частоты основного тона; Е. - кратковременная энергия; сг. -у-й коэффициент линейного предсказания; Т1 •

операция вычисления у'-го коэффициента линейного предсказания, j - номер коэффициента; V. - признак тон/шум/ пауза; 0 - операция определения типа фрагмента.

0, если ©(зДт))= пауза

1, если (т)) = тон (11)

2, если 0(^(от)) =

В соответствии с полученными признаками формируется последовательность:

_ 1-М

= ¿ = 0,1,...,А/, М = соШ., (12)

= Л = 0,1,...,Л/, М =сот1., (13)

1=1

_ ь-м

9?«, = ¿ = 0,1,..„Л/, м^союи, (14)

(-1

_ 1-М

ЧЯврс = 2 к = д,\,...,М, М = сот)., (15)

где 5йг - вектор автокорреляционной функции от последовательности частоты основного тона, Не - вектор автокорреляционной функции от последовательности кратковременной энергии, 9Ц - вектор автокорреляционной функции от у'-х

коэффициентов линейного предсказания, - вектор автокорреляционной

функции от широких фонетических категорий.

Полученные последовательности (12-15) отражают изменение во времени лингвистических признаков речевого сообщения.

Возможность использования последовательностей (12-15) в целях идентификации диктора определялась визуально по построенным графикам соответствующих функций сравнением различный реализаций, произнесенных одним диктором, с реализациями, произнесенных другими дикторами. При этом не была выявлена возможность идентификации по кратковременной энергии и коэффициентам линейного предсказания. Наибольшую идентификационную различимость показали графики для широких фонетических категорий.

Для представленной модели, используя в качестве признаков широкие фонетические категории, каждая реализация речевого сигнала разбивалась на фрагменты, количество отсчетов которых соответствует длительности 22,5 мс исходного речевого сигнала согласно выбранной частоты дискретизации.

Определение пауз речи на фрагменте осуществляется в соответствии с Рекомендацией в.729 (Приложение В). Выбор длительности сегмента определялся оценкой точности выделения пауз (рис. 2,3). Линии с высоким уровнем соответствуют речевой активности, с низким наличию паузы. Таким образом, видно, что наибольшая точность достигается при длительности сегмента 22,5 мс.

I'.''.' ./.;1' "—"*г~—--/г '''1;; .....1;'

О ■■"■•. 2 а а в 10- - . 412"

Рис. 2

При длительности анализируемого сегмента 11 и 45 мс картина выглядит следующим образом (рис. 3).

Признак вокализованости фрагмента определяется алгоритмом МЕЬР кодирования со скоростью 2,4 кбит/с.

В результате формируется последовательность нулей, единиц и двоек, соответствующих паузам, вокализованным и невокализованным фрагментам соответственно (11).

На данной последовательности вычислен вектор автокорреляционной функции (15). Значение М выбрано равным 500, что соответствует 11,25 секундам исходного речевого сигнала.

Выявленная идентификационная информативность построенной модели математической интерпретации лингвистических признаков использована в модели распознавания диктора на основе искусственной нейронной сети.

Разработанная методика использования широких фонетических категорий в задачах верификации диктора на основе разработанной модели заключается в следующем.

1. Формирование обучающих выборок:

- получение речевых сообщений тестовой фразы в цифровом виде;

- удаление постоянной составляющей и нормировка сигнала к единице;

- формирование обучающих векторов в соответствии с разработанной моделью математической интерпретации лингвистических признаков, используя широкие фонетические категории.

2. Обучение искусственной нейронной сети в соответствии с выбранными топологией, количеством нейронов в скрытом слое, функцией активации и правилом обучения. В качестве входного вектора используется вектор автокорреляционной функции от последовательности широких фонетических категорий (15).

3. Распознавание с помощью обученной нейронной сети.

В третьей главе исследованы различные архитектуры и параметры искусственных нейронных сетей для определения условий применимости предложенной методики. Осуществлена программная реализация разработанной модели в пакете прикладных программ Ма1:ЬаЬ. Исследовано влияние шума на

надежность распознавания диктора. Проведена оценка репрезентативности полученных результатов.

Сущность проведенного эксперимента заключается в следующем. Исходный речевой сигнал записан в прямом акустическом поле (с частотой дискретизации 48 кГц разрядностью 16 бит) на следующей фразе: «Рассмотренный пример содержит качественное описание задачи распознавания и не поясняет, как производить разбиение объектов на классы, на основе каких методов сопоставлять апостериорную и априорную информацию, т.е. распознавать неизвестный объект»1. Фраза повторялась последовательно, длительность записи для каждого диктора составила 1 час. Количество реализаций (число произнесенных фраз) для каждого диктора и их половозрастной состав представлены в таблицах 1 и 2.

Таблица 1

Количество реализаций для каждого диктора

Порядковый номер диктора Количество реализаций

1 244

2 194

3 199

4 227

5 200

6 201

7 230

8 183

Таблица 2

Половозрастной состав дикторов

Порядковый номер диктора Возраст, лет Пол, М - мужской Ж - женский

1 30 М

2 36 М

3 . 26 Ж

4 27 М

5 29 М

6 21 М

' Горелик А. Л., Скрипкин В. А. Методы распознавания: Учеб. пособие. -2-е изд., перераб. и доп. -М.: Высш. шк , 1984 -С. II.

7 21 М

8 29 М

Предварительная обработка сигналов заключалась в удалении постоянной составляющей и нормировке сигнала к единице, формированию последовательности (15).

Полученный вектор автокорреляционной функции подавался на вход нейронной сети двух типов: LVQ и двухслойного персептрона.

Выбор типа и архитектуры нейронной сети является важным этапом при решении задач классификации.

Отличительной особенностью нейронных сетей LVQ типа является обучение с учителем, в отличие от самоорганизующихся карт и других самообучающихся сетей, где формирование различных классов происходит исключительно на основании расстояния между входными векторами, что позволяет более гибко задать разделяющую гиперплоскость в пространстве признаков.

Для задания архитектуры сети необходимо определить количество нейронов в скрытом слое, задать априорные вероятности принадлежности входных векторов к тому или иному классу, шаг и правило обучения сети.

Из представленных выборок речевых сообщений каждого диктора случайным образом были выбраны по 150 реализаций тестовой фразы для обучения нейронной сети. Не задействованные для обучения нейронной сети реализации тестовой фразы использовались для контроля качества обучения сети (тестовое множество). Обучение проводилось с последовательным увеличением количества дикторов - 2, 4, 8.

При этом на тестовом множестве для двух дикторов отношение верно распознанных дикторов к их общему числу для первого диктора составила 99%. Для второго диктора 100%.

Результаты работы обученной подобным образом сети для четырех дикторов представлены в таблице 3. Сумма по всем дикторам в столбце соответствует количеству реализаций в тестовом множестве.

Таблица 3

Результаты распознавания-четырех дикторов искусственной нейронной сетью LVQ типа

Диктор 1 Диктор 2 Диктор 3 Диктор 4

Диктор 1 132 2 0 2

Диктор 2 1 85 0 3

Диктор 3 0 0 90 6

Диктор 4 0 3 1 103

Отношение верно распознанных дикторов к их общему числу 0,99 0,94 0,98 0,90

При этом сравнительно низкий процент распознавания для четвертого диктора обусловлен значительной вариативностью произношений, как по длительности, так и по количеству пауз хезитации (рис. 4).

кдшд« .. __дд^л д<е..«и .;

ЁЗЗЙ КС I

р,

МЛ й -I- М»»,»

юЯШвшВ

.т.1»___ ¿»«члЧ ___о1' __

......жтагт ^ С

в—пня

Рис. 4

Стоит отметить, что при увеличении количества дикторов до восьми на сети

типа полученные результаты оказались неприемлемыми. Дикторы под номерами 2 и 7 были отнесены к одному классу. Поскольку формирование классов в скрытом слое происходит путем корректировки весов нейронной сети на основании Евклидова расстояния между входными векторами и вектором весовых коэффициентов скрытого слоя, то дальнейшее увеличение числа нейронов скрытого слоя, является нецелесообразным. Что было экспериментально подтверждено путем увеличения нейронов скрытого слоя до 800, а также выбором иного обучающего правила и шага обучения сети. В связи с чем, возникла необходимость применения многослойного персептрона.

Для обучения многослойного персептрона используются входные векторы и соответствующие вектор-цели. Критерием остановки обучения сети выступило наступление одного из следующих событий: достижение количества эпох обучения заранее заданного значения, достижение функции качества обучения заданного уровня, уменьшение величины порогового значения градиента до заданного значения, превышение числа верных распознаваний на тестовом множестве заданного порога.

В качестве функции качества обучения нейронной сети выступила среднеквадратичная ошибка между целевым вектором и представленным сетью решением на контрольном множестве.

В реализованной в системе Ма&аЬ нейронной сети в процессе обучения используется следующее процентное соотношение входных векторов: 60% отводится непосредственно для обучения, 20% используется в качестве контрольного множества для проверки качества обобщения сети. Оставшиеся 20% используются для окончательного тестирования сети на образцах, которые никогда не предъявлялись сети с целью проверки качества обучения. Подобное разбиение входных векторов позволяет решить проблему переобучения сети.

Применительно к входным данным, как в процессе обучения, так и в процессе контроля работоспособности сети применялись следующие процедуры обработки. Исключались одинаковые входные векторы. Производилась нормировка входных векторов к диапазону [-1,1]. При этом на нормированных входных значениях обучение происходит быстрее.

При использовании в выходном слое сигмоидальной функции активации выходные значения ограничены в диапазоне [0,1). При этом «выигравшим» считался тот номер диктора, для которого выходное значение нейронной сети было максимальным.

Представленные алгоритмы обучения многослойного персептрона были апробированы на указанной выше задаче распознавания дикторов. Результаты

представлены в таблице 4. Измерения проводились на ПЭВМ Pentium 4 3,0 ГТц 512 Мб ОЗУ.

Таблица 4

Отношение верно распознанных дикторов к их общему числу

Правило обучения Порядковый номер диктора Среднее значение Время обучения, мин

I 2 3 4 5 6 7 8

BFGS 0,000 0,000 0,868 0,535 0,792 0,029 0,000 0,927 0,394 171,5

BR 0,992 0,678 0,110 0,009 0,000 0,038 0,000 0,000 0,228 159,61

CGF 0,000 0,933 0,802 0,447 0,885 0,429 0,000 0,878 0,547 0,05

CGP 0,992 0,778 0,890 0,570 0,854 0,819 0,647 0,793 0,793 0,21

CGB 0,962 0,811 0,923 0,816 0,865 0,648 0,974 0,866 0,858 0,25

GD 1,000 0,000 0,000 0,000 0,094 0,000 0,000 0,000 0,137 0,83

GDA 0,000 0,000 1,000 0,000 0,552 0,000 1,000 0,000 0,319 0,68

GDM 0,000 о.ооо 0,527 0,000 0,021 0,029 0,000 1,000 0,197 1,05

GDX 1,000 0,000 0,835 0,000 0,938 0,819 0,353 0,841 0,598 0,23

OSS 0,985 0,033 0,901 0,535 0,750 0,848 0,931 0,817 0,725 0,3

R 1,000 0,856 0,945 0,658 0,719 0,819 0,353 0,793 0,768 10,95

RP 0,977 0,000 0,879 0,482 0,813 0,057 0,147 0,902 0,532 0,02

SCG 0,933 0,680 0,859 0,619 0,780 0,733 0,795 0,725 0,766 1,4

LM 0,955 0,840 0,934 0,816 0,840 0,788 0,974 0,800 0,868 45,82

BFGS - квазиньютоновский алгоритм;

BR - алгоритм Левенберга-Марквардта с регуляризацией Байеса;

CGF - метод сопряженных градиентов Флетчера-Ривса;

CGP - метод сопряженных градиентов Полака-Ривьера;

CGB - метод сопряженных градиентов Пауэлла-Беаля;

GD - базовый метод градиентного спуска;

GDA - метод градиентного спуска с переменным шагом обучения;

GDM - метод градиентного спуска с моментом;

GDX — метод градиентного спуска с моментом и переменным шагом

обучения; OSS - метод «One Step Secant»; R- метод случайных приращений;

RP - эластичный алгоритм обратного распространения ошибки; SCG - метод масштабированных сопряженных градиентов;

ЬМ - алгоритм Левенберга-Марквартда.

Таким образом, наилучший результат достигнут с использованием правила Левенберга-Марквартда. Однако, существенное сокращение времени обучения нейронной сети с использованием метода сопряженных градиентов Пауэлла-Беаля на фоне сравнительно близких результатов с алгоритмом Левенберга-Марквартда позволяет сделать вывод о целесообразности его применения для решения подобных задач распознавания.

Для оценки влияния шума на качество распознавания дикторов к исходному речевому сигналу были добавлены «коричневый» и «белый» шумы с различными уровнями при этом соотношение сигнал/шум составило 1-3 дБ и 10-13 дБ.

Влияние шума оказало существенное воздействие на качество распознавания, что является ограничением используемых алгоритмов выделения пауз и определения вокализованности фрагментов. Однако стоит отметить, что величина шумовой составляющей являлась критической, когда исходное речевое сообщение при использовании «белого» шума оказалось на границе порога слышимости.

Для оценки репрезентативности полученных результатов использовалось разбиение тестового множества на восемь подмножеств, на каждом из которых проводились испытания, затем полученные значения отношений верно распознанных дикторов к их общему числу усреднялись по сериям. Оценка доверительного интервала считалась в соответствии с критерием Стьюдента (число Стьюдента t =2,364624 для п=8).

Среднее значение...................................................................0,86

Дисперсия............................................................................0,003

Стандартное отклонение..........................................................0,057

Доверительный интервал (нормальное распределение)....................0,039

Доверительный интервал по Стьюденту.......................................0,047

Таким образом, проведенное исследование показало, что использование многослойного персептрона в качестве решающего правила для верификации диктора на основе широких фонетических категорий является применимым. При этом с вероятностью 0,95 среднее процентное соотношение верно распознанных дикторов в каждой серии испытаний к их общему числу составляет 86 ± 5%.

Таким образом, можно утверждать, что возможно использование широких фонетических категорий для распознавания диктора.

Заключение содержит основные результаты и перспективы дальнейших исследований.

Основные результаты

На основании выполненных исследований решены поставленные задачи, а также получены следующие результаты:

1. Проведен анализ систем распознавания речи, отмечена ограниченность современных подходов, не использующих лингвистическую информацию.

2. Построена модель математической интерпретации лингвистических признаков в задачах верификации диктора.

3. Произведена оценка информативности различных параметров устной речи применительно к разработанной модели.

4. Определена структура и параметры модели распознавания диктора на основе искусственной нейронной сети.

5. Разработана методика использования широких фонетических категорий в задачах верификации диктора.

6. Разработанная модель математической интерпретации лингвистических признаков в задачах верификации диктора реализована в пакете прикладных программ Matlab.

7. Исследовано влияние шума на надежность верификации диктора с использованием широких фонетических категорий.

8. Разработанная модель математической интерпретации лингвистических признаков обеспечивает возможность верификации диктора по каналу связи с вокодерной передачей без восстановления исходной формы речевого сигнала.

9. Получена экспериментальная оценка надежности распознавания диктора с использованием разработанных модели и методики. Проведена оценка репрезентативности полученных результатов. При этом с вероятностью 0,95 среднее процентное соотношение верно распознанных дикторов в каждой серии испытаний к их общему числу составляет 86 ±5%.

Список публикаций по теме диссертации

1. Шалимов И. А., Милошенко А. А. Обзор моделей идентификации и информативные параметры речевого сигнала // Специальная техника №5, -М.,

2009. С. 37-46.

2. Милошенко A.A., Шалимов И.А. Нейросетевой критерий распознавания диктора на основе широких фонетических категорий // Труды НИИР № 2, - М: МТУСИ,

2010. С. 5-12.

3. Шалимов И. А., Милошенко А. А. Исследование возможности применения лингвистических параметров речи в системах идентификации по голосу // «Вестник ИКСИ», - М., 2010.

4. Шалимов И. А., Милошенко А. А. Индивидуальные особенности речевой активности в системах фонетической идентификации // 6-я Всероссийская научная конференция «Проблемы развития технологических систем государственной

охраны, специальной связи и информатики», 5-6 февраля 2009, Академия ФСО России, г. Орел.

5. Милошенко A.A. Нейросетевой классификатор лингвистических признаков речевого сигнала // Тезисы докладов научно-технической конференции специалистов и молодых ученых, в/ч 35533 27-28 мая 2009 года : Научно-технический сборник / Войсковая часть 35533. - М., 2009. С.39.

6. Милошенко A.A. Особенности анализа лингвистических параметров речевых сигналов // Тезисы докладов научно-технической конференции в/ч 33965, 3-5 февраля 2010, г. Москва.

7. Милошенко A.A., Чапак A.C., Шалимов И.А. Просодический облик говорящего из оценки частоты основного тона // Тезисы докладов научно-технической конференции в/ч 33965, 3-5 февраля 2010, г. Москва.

8. Милошенко A.A., Чапак A.C., Шалимов И.А. Использование автокорреляционной функции мелодики речи при идентификации диктора // Научная молодежная школа по биометрическим технологиям для медико-биологических анализов и функциональной диагностики в рамках 9-й МНТК "Физика и радиоэлектроника в медицине и экологии ФРЭМЭ'2010": Материалы. -Владимир: 2010. С.76-79.

9. Милошенко A.A., Шалимов И.А. Влияние архитектуры нейронной сети в задачах распознавания диктора на основе широких фонетических категорий // Научная молодежная школа по биометрическим технологиям для медико-биологических анализов и функциональной диагностики в рамках 9-й МНТК "Физика и радиоэлектроника в медицине и экологии ФРЭМЭ'2010": Материалы. -Владимир: 2010. С.80-83.

Милошенко Алексей Анатольевич

РАЗРАБОТКА МЕТОДИКИ ИСПОЛЬЗОВАНИЯ ШИРОКИХ ФОНЕТИЧЕСКИХ КАТЕГОРИЙ В ЗАДАЧАХ ВЕРИФИКАЦИИ ДИКТОРА

Специальность: 05.13.17-Теоретические основы информатики

Подписано к печати /ОЮ/О Объем 1,5 пл.

Печать офсетная. Формат 60x84/16 Тираж 80 экз. Заказ № / _

127994, Москва, ул. Образцова, 9. УПЦ ГИ МИИТ

Оглавление автор диссертации — кандидата технических наук Милошенко, Алексей Анатольевич

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ РАСПОЗНАВАНИЯ ДИКТОРОВ.

1.1 Информативные параметры речевого сообщения.

1.1.1 Акустические признаки.

1.1.2 Лингвистические признаки.

1.2 GMM модель.1.

1.3 SVM модель.

1.3.1 Нелинейная SVMмодель.

1.3.2 Многоклассовый классификатор.

1.3.3 Двоичное кодирование.

1.3.4 Каждый против всех.'.!:.'Л!.;.

1.3.5 Као/сдый против каэюдого.:::::::;.;;::::.:::.::.::::::.:

1.3.6 Алгоритм голосования (Max Wins).:.'л.-.»л.ч(.

1.3.7 Направленный нециклический граф принятия решения (Decision Directed Acyclic Graph (DDAG)).

1.4 Распознавание с использованием искусственных нейронных сетей

1.5 СММ модель.:.

1.6 Метод векторного квантования.

1.6.1 Алгоритм Ллойда (алгоритм К-средних).

1.6.2 Алгоритм Linde, Buzo, Gray (LBG).

1.7 Тестовое распознавание.:.:.:.:.:.

1.8 Метод текстонезависимой системы идентификации на основе индивидуальности произношения гласных звуков.

1.9 Выводы по главе.

ГЛАВА 2. МЕТОДИКА ИСПОЛЬЗОВАНИЯ ШИРОКИХ ФОНЕТИЧЕСКИХ КАТЕГОРИЙ В ЗАДАЧАХ ВЕРИФИКАЦИИ ДИКТОРА.

2.1 Широкие фонетические категории.:'.

2.2 Модель математической интерпретации математической интерпретации лингвистических признаков в задачах верификации диктора.

2.3 Методика использования широких фонетических категорий в задачах распознавания диктора.

2.5 Выводы по главе.

ГЛАВА 3. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ МОДЕЛИ РАСПОЗНАВАНИЯ ДИКТОРА НА ОСНОВЕ ШИРОКИХ ФОНЕТИЧЕСКИХ КАТЕГОРИЙ.

3.1 Описание эксперимента

3.2 Построение модели распознавания диктора на основе искусственной нейронной сети.

3.2.1 ЬУдсеть.

3.2.2 Многослойный персептрон.

3.3 Оценка качества работы сети в зависимости от выбранного правила обучения на реализациях тестовой фразы.

3.4 Оценка репрезентативности полученных результатов.

3.5 Влияние шума на качество распознавания диктора.

3.5.1 Влияние «коричневого» шума.

3.5.2 Влияние «белого» шума.

3.6 Выводы по главе.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Милошенко, Алексей Анатольевич

Актуальность темы. Возможность общения с ЭВМ на естественном языке давно интересовала исследователей. С развитием уровня техники потребности современного общества диктуют новые требования к эргономичности систем и их безопасности. Таким образом, возникает необходимость в распознавании речевых сигналов. Это касается и вопросов пограничного контроля, криминалистической экспертизы, контроля и управления банковскими операциями, контроля доступа к охраняемым объектам и информационным системам, обслуживания и регистрации пассажиров, проведения оперативно-розыскных мероприятий.

Верификация, речи диктора, являясь одной из разновидностей задачи распознавания, устной: речи, используется в> системах контроля доступа; В общем случае, распознавание речи может состоять из нескольких задач: распознавание текста, распознавание диктора, определение его эмоционального состояния, возраста . и пола; распознание языка произношения говорящего и др. Все они относятся-к статистической теории распознавания; образов [25; 83; 29;. 82; 38; 46] и могут быть решены с: помощью соответствующего математического аппарата. Однако стоит отметить, что в системах распознавания речи: нашли применение и такие: модели, как: модель гауссовых смесей; (ОММ модель); модель опорных векторов (8УМ модель), распознавание с использованием искусственных нейронных сетей; скрытая Марковская модель (НММ модель), метод векторного квантования, тестовое распознавание (на основе аппарата' логических тестов), метод нечеткого сопоставления образов, 'метод! текстонезависимой системы идентификации диктора на основе; индивидуальности - произношения гласных звуков и- др. Все перечисленные; модели используют в. качестве, априорного словаря признаков некие? параметры речевого' сигнала, вычисленные- на> его отдельных достаточно! коротких фрагментах, характеризующихся стационарнарностыо. Признаки,,' связанные с анатомическими особенностями голосового тракта принято называть акустическими. Возможности систем распознавания с использованием акустических параметров достигли своего предела. Признаки, отражающие индивидуальные особенности речевой активности, обусловленные работой центральной нервной системы человека - называют лингвистическими. Трудность их использования в задачах распознавания заключается в том, что они характеризуются значительной вариативностью, и множества значений для различных дикторов имеют существенное пересечение. Возможности систем распознавания с использованием физических параметров достигли своего предела [44], и дальнейшее их усовершенствование представляется в совместном использовании лингвистических и спектрально-временных признаков.

Рассматривая речевое сообщение как последовательность сменяющихся звуков и пауз можно определить понятие широких фонетических категорий. В отечественной и зарубежной литературе выделяют следующие категории: гласные, носовые (назальные), плавные, шипящие, аффрикаты, взрывные, паузы [13; 54; 73].

Таким образом, использование широких фонетических категорий, в частности изменение во времени признака тон/шум, а также пауз речевого сообщения, для задач распознавания диктора является актуальным.

Цель работы заключается в разработке методики использования широких фонетических категорий речевого сообщения (распределения признаков тон/шум и пауз на фрагментах речи) в задачах верификации диктора.

Задачи исследования. Для достижения поставленной цели в работе решены следующие задачи:

1. Анализ характеристик речевых сообщений, используемых при распознавании речи;

2. Анализ моделей и методов, используемых при распознавании;

3. Построение модели математической интерпретации лингвистических признаков в задачах верификации диктора;

4. Исследование возможности применения различных идентификационных параметров для верификации диктора в разработанной модели;

5. Разработка методики использования широких фонетических категорий в задачах верификации диктора;

6. Исследование влияния шума на надежность верификации диктора с использованием широких фонетических категорий;

7. Оценка репрезентативности полученных результатов распознавания диктора;

8. Обобщение и оценка результатов исследований по проблеме верификации диктора с использованием широких фонетических категорий.

Объект исследования. Процессы формирования и обработки устной речи.

Предмет исследования. Принципы, способы, методы, модели, алгоритмы, методики распознавания речи дикторов.

Исходная основа диссертации. Диссертация основывается на результатах:

- работ теории распознавания образов Ю. JL Барабаша, В.Н. Вапника, К. Фукунаги, А. JI. Горелика.

- теоретических и прикладных исследований по цифровой обработке речевых сообщений В.М. Величко, Т.К. Винцюка, Н.Г Загоруйко, Г.С. Слуцкера, A.A. Пирогова, М.А. Сапожкова, , Г.Е. Кедровой, JI.A. Чистовича , Ю.А. Косарева, В.Н. Сорокина, В.И. Галунова,

A.B. Аграновского, В.П. Бондаренко, A.A. Харламова , Р.К. Потаповой,

B.Я. Чу чу пал а, В.Н. Сорокина, П. А. Скрелина, В. Г. Михайлова, Б.М. Лобанова, Н.К. Обжеляна, В.Н. Трунина-Донского, Г. С. Рамишвили, JI.P. Рабинера, Г.М. Фанта, Р.В. Шафера, Р. Якобсона, Г. Чедда,

Г.Р. Доддингтона, С. Фуруи, Л. Фланагана, Г.В. Горелова, А.Ф. Фомина, Л.А. Баранова, И.А. Шалимова.

Методы исследования. В работе использовались метод структурного системного анализа, методы цифровой обработки сигналов, математического и компьютерного моделирования, методы обработки экспериментальных данных, методы распознавания образов, статистического анализа, методы спектрального и корреляционного анализа.

Научная новизна и основные положения, выносимые на защиту состоят в следующем:

1) Предложена математическая интерпретация идентификационной информативности лингвистических признаков посредством последовательности изменяющихся во времени акустических параметров речи диктора.

2) На основе результатов исследования существующих моделей и методов распознавания дикторов, разработана модель математической интерпретации лингвистических признаков в задачах верификации диктора.

3) Создана методика использования широких фонетических категорий в задачах верификации диктора.

4) Получена экспериментальная оценка надежности распознавания диктора, с использованием разработанных модели и методики.

Основные положения, выносимые на защиту состоят в следующем:

1) Модель математической интерпретации лингвистических признаков в задачах верификации диктора.

2) Методика использования широких фонетических категорий в задачах верификации диктора.

Практическая ценность работы.

1) Обеспечение возможности верификации диктора по каналу связи с вокодерной передачей без восстановления исходной формы речевого сигнала.

2) Верификация диктора на основе широких фонетических категорий инвариантна к сигналам, подвергнутым вокодерным преобразованиям, что позволяет повысить надежность системы верификации при использовании предложенной методики.

3) Реализованная в пакете прикладных программ Ма^аЬ модель математической интерпретации лингвистических признаков в задачах верификации диктора, и методика использования широких фонетических категорий в задачах верификации диктора используется при проведении лабораторных работ по исследованию систем распознавания в рамках дисциплины «Цифровая телефония».

Реализация результатов работы.

1. В компании ООО «Стэл — КС»: в научно-техническом отчете по СЧ НИР «Проба2К» (Госконтракт с ФГУП «НИИ Квант» № 028/23-К2 от 01.07.2008г.), в научно-техническом отчете по НИР «Шпала» (Госконтракт с государственным учреждением «Войсковая часть 35533» Ы70/2009-6200к от 10 апреля 2009г.) использован проведенный анализ информативных параметров речевого сообщения, используемых для формирования априорного словаря признаков, а также показана возможность идентификации диктора посредством широких фонетических категорий.

2. В учебном процессе на кафедре 723 ИКСИ в курсе лекционных, лабораторных и практических занятий по дисциплине «Цифровая телефония» используются результаты анализа информативных параметров речевого сообщения, существующих методов и моделей, используемых при распознавании дикторов и реализованная в пакете прикладных программ MatLab модель математической интерпретации лингвистических признаков в задачах верификации диктора.

Апробация результатов работы. Результаты диссертационного исследования были апробированы на IX Международной научно-технической конференции «Физика и радиоэлектроника в медицине и экологии» (ФРЭМЭ'2010) (29 июня - 2 июля 2010 года, ВлГУ, г. Владимир), VIII Межведомственной научно-технической конференции (3-5 февраля 2010, в/ч 33965, г. Москва), Юбилейной научно-технической конференции специалистов и молодых ученых (27-28 мая 2009, в/ч 35533, г. Москва), 6-ой Всероссийской научной конференции «Проблемы развития технологических систем государственной охраны, специальной связи и информации» (5-6 февраля 2009, Академия ФСО России, г. Орел), а также в ходе проведения научных семинаров на базе Института криптографии связи и информатики Академии ФСБ России и в/ч 35533.

Публикации. По материалам диссертации опубликовано 9 работ, три из которых в изданиях, входящих в Перечень ведущих рецензируемых научных журналов и изданий, формируемый Высшей аттестационной комиссией.

Содержание работы

Во введении обоснована актуальность диссертационного исследования, сформулированы цель и основные задачи, решение которых необходимо для достижения поставленной цели. Кратко изложены основное содержание работы.

В первой главе проведен обзор, анализ и систематизация используемых для распознавания дикторов информативных параметров речевого сообщения, существующих методов и моделей, используемых при распознавании дикторов.

Во второй главе строится модель математической интерпретации лингвистических признаков и разрабатывается методика использования широких фонетических категорий в задачах верификации диктора.

В третьей главе приводится описание исследований структуры искусственной нейронной сети для реализации предложенной методики и условий ее применимости. Исследуется влияние шума на надежность распознавания диктора. Дается оценка репрезентативности полученных результатов.

Заключение диссертация на тему "Разработка методики использования широких фонетических категорий в задачах верификации диктора"

3.6 Выводы по главе

Представленная во второй главе модель математической интерпретации лингвистических признаков в задачах верификации диктора распознавания диктора на основе широких фонетических категорий получила свою практическую реализацию. Для принятия решения о принадлежности диктора тому или иному классу построен классификатор на основе аппарата искусственных нейронных сетей [53], который был апробирован на реальных данных и уточнен соответствующим образом. Проведенная оценка репрезентативности полученных данных показала, что использование многослойного персептрона в качестве решающего правила для верификации диктора на основе широких фонетических категорий является применимым. При этом с вероятностью 0,95 среднее процентное соотношение верно распознанных дикторов в каждой серии испытаний к их общему числу составляет 86 ±4,7%, при усреднении полученных результатов в каждой серии испытаний и 86 ± 7,6% при усреднении значений по каждому диктору по результатам всех испытаний.

Влияние шума оказало существенное воздействие на качество распознавания, что является ограничением используемых алгоритмов выделения пауз и определения вокализованности фрагментов. Однако стоит отметить, что величина шумовой составляющей являлась критической, когда исходное речевое сообщение при использовании «белого» шума оказалось на границе порога слышимости.

ЗАКЛЮЧЕНИЕ

В ходе проведения исследований в работе решены следующие задачи:

1. Проведен анализ систем распознавания речи, отмечена ограниченность современных подходов, не использующих лингвистическую информацию.

2. Построена модель математической интерпретации лингвистических признаков в задачах верификации диктора.

3. Произведена оценка информативности различных параметров устной речи применительно к разработанной модели.

4. Определена структура и параметры модели распознавания диктора на основе искусственной нейронной сети.

5. Разработана методика использования широких фонетических категорий в задачах верификации диктора.

6. Разработанная модель математической интерпретации лингвистических признаков в задачах верификации диктора реализована в пакете прикладных программ Ма^аЬ.

7. Исследовано влияние шума на надежность верификации диктора с использованием широких фонетических категорий.

8. Разработанная модель математической интерпретации лингвистических признаков обеспечивает возможность верификации диктора по каналу связи с вокодерной передачей без восстановления исходной формы речевого сигнала.

9. Получена экспериментальная оценка надежности распознавания диктора с использованием разработанных модели и методики. Проведена оценка репрезентативности полученных результатов. При этом с вероятностью 0,95 среднее процентное соотношение верно распознанных дикторов в каждой серии испытаний к их общему числу составляет 86 ± 5%.

Решение поставленных задач привело к следующим новым научным результатам:

1) Разработана модель распознавания диктора на основе широких фонетических категорий;

2) Разработана методика использования широких фонетических категорий в задачах верификации диктора;

3) Интерпретация информационной информативности фонетических категорий посредством последовательности изменяющихся во времени акустических параметров диктора.

Применение акустических параметров речевого сообщения для задач распознавания дикторов достигло своего предела, и дальнейшее повышение эффективности представляется в совместном использовании спектрально-временных и акустических признаков. Проведенное исследование показало, что, в частности, для этих целей возможно использование широких фонетических категорий. Применение в качестве решающего правила нейронной сети, несмотря на недоказанную сходимость к глобальному оптимуму, имеет право на существование, поскольку полученные результаты являются удовлетворительными для проверки выдвинутой гипотезы.

Главным итогом проведенной работы является решение задачи использования лингвистических признаков в задачах верификации диктора, что является, имеющей существенное значение для соответствующей отрасли знаний.

Используемые признаки в вокодерной передаче непосредственно передаются по каналу связи, в связи с чем возможна верификация диктора по каналу связи без восстановления исходной формы речевого сообщения. Кроме того, надежность распознавания в данном случае зависит от качества канала связи опосредованно.

Библиография Милошенко, Алексей Анатольевич, диссертация по теме Теоретические основы информатики

1. Advances in Speech Signal Processing / ed. by Sadaoki Furui, M. Mohan Sondhi. New York : Marcel Dekker, Inc, 1991. - 871 p.

2. Bernard Widrow, Michael A. Lehr, 30 Years of Adaptive NeuralNetworks: Perceptron, Madaline, and Backpropagation //Artificial Neural Networks: Concepts and Theory, IEEE Computer Society Press, 1992, pp.327-354.

3. C.Cortes, V.Vapnik, Support Vector Networks // Machine Learning 20(3): 273297, 1995.

4. C.-W. Hsu and C.-J. Lin. A comparison of methods for multi-class support vector machines // IEEE Transactions on Neural Networks, 13(2):415-425, March 2002.

5. Christopher J.C. Burges, A Tutorial on Support Vector Machines for Pattern Recognition // Data Mining and Knowledge Discovery, 2(2): 121-167, 1998.

6. Christopher M.Bishop, Neural Networks for Pattern Recognition, Oxford University Press, 1995.

7. D.K.Burten Text Independent Speaker Verification Using Vector Quantization Source Coding // IEEE Trans. ASSP-35.

8. Doddington G.R., Flanagan G.L., Lummis R.C. Automatic speaker verification by non-linear time alignment of acoustic parameters. Патент США № 3700815. 1972

9. Doddington G.R., Przybocki M.A., Martin A.F., Reynolds D.A. The NIST speaker recognition evaluation: Overview, methodology, systems, results, perspective // Speech Communication. 2001. V. 31. P. 225-254.

10. Furui S. Cepstral analysis technique for automatic speaker verification // IEEE Trans. Acoust., Speech, Signal Process. Apr. 1987. V. ASSP-29. P. 254-272.

11. Furui Sadaoki Digital speech processing, synthesis and recognition / Sadaoki Furui. 2nd ed., rev. and expanded. - New York : Marcel Dekker, Inc, 2001. -452 p.

12. He J., Liu L., Palm G. A new codebook training algorithm for VQ-based speaker recognition // IEEE Proc. of International Conference on Acoustics, Speech and Signal Processing. Munich, 1997. V. 2. P. 1091-1094.

13. L.R. Rabiner, B.H. Juang Fundamentals of speech recognition. Englewood Cliffs, New Jersey : Prentice-Hall, Inc, 1993. - 507 p.

14. Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceedings of IEEE, vol.77, no.2, p.257-285, 1989.

15. Ming-Shin Chen, Pie-Hwa Lin, Hsiao-Chuan Wang. Speaker Identification Based on a Matrix Quantization Method // IEEE Trans. On Signal Proc. Jan. 1993. V. 41. № 1.

16. N. Cristianini, J. Shawe-Taylor, An Introduction To Support Vector Machines (and other kernel-based learning methods), Cambridge University Press, 2000

17. Nuttakorn Thubthong, Boonserm Kijsirikul Support vector machines for Thai phoneme recognition // International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. October, 2001.

18. Roman Jakobson, C.Gunnar, M.Fant, Morris Halle, Preliminaries to speech analysis. The distinctive features and their correltes, "Technical Report", № 13, June 1955, chap. II, p. 16—55.

19. Rosenberg A E., Soong F.K. "Evalution of a Vector Quntization Talker Recognition System in Text Independent and Text Dependet Modes". Computer Speech and Language, v.2, pp. 143-157, 1987.

20. V.Vapnik, An Overview of Statistical Learning Theory, IEEE Transactions on Neural Networks, 10(5):988-999, September 1999.

21. V.Vapnik, Statistical Learning Theory, Wiley, 1998

22. Xuedong H., Acero A., Hon H. Spoken language processing: a guide to theory, algorithm, and system development. New Jersey : Printice Hall PTR, 2001, 472 p.

23. Аграновский A.B., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. Москва: Изд-во «Радио и связь», 2004. 164 с.

24. Аграновский А.В., Леднов Д.А., Репалов С.А. Метод текстонезависимой идентификации диктора на основе индивидуальности произношения гласных звуков // Акустика и прикладная лингвистика : Ежегодник РАО. Вып. 3. М., 2002. С. 103-115.

25. Барабаш Ю.Л., Варский Б.В., Зиновьев В. Т., Кириченко B.C., Сапегин В.Ф. Вопросы статистической теории распознавания / Под ред. Б. В. Барского. М. : Советское радио, 1967. -399 с.

26. Бондарко Л.В.Звуковой отрой современного русского языка. М., 1976.

27. Бочаров И.В., Акатьев Д.Ю. «Распознавание речевых сигналов на основе корреляционного метода». Электронный журнал «Исследовано в России».

28. Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. М.: Радио и связь, 2003. - 144 с.

29. Вапник В. Н., Червоненкис А .Я. Теория распознавания образов. Статистические проблемы обучения (статистические проблемы обучения). -М.: Наука, Гл. ред. физ.-мат. лит., 1974. -416 с.

30. Вапник В.Н., Червоненкис А.Я., Теория распознавания образов, М., Наука, 1974.

31. Винцюк Т.К. Сравнение ИКДП- и НММ методов распознавания речи // Методы и средства информ. речи. Киев, 1991.

32. Галушкин А.И. Теория нейронных сетей. Кн. 1.: Учеб. пособие для вузов -М.: ИПРЖР, 2000.-416 с.

33. Галяшина Е. Речь под микроскопом // "Компьютерра" №15 от 12 апреля 1999 года.

34. Горелик А. Л., Скрипкин В. А. Методы распознавания: Учеб. пособие. -2-е изд., перераб. и доп. —М.: Высш. шк., 1984. -208с.

35. Гудонавичюс Р. В., Кемешис П. П., Читавичюс А. Б. Распознавание речевых сигналов по их структурным свойствам. // Б-ка по автоматике. Вып. 578. Л.: Энергия, 1977. 64 с.

36. Д.А. Лузин алгоритм начальной оценки основного тона речи для выделителя основного тона речи по методу gs. // Сборник трудов XVIII сессии Российского акустического общества. Т. 3. М.: ГЕОС, 2006.

37. Дьяконов В.П., Круглов B.B. Matlab 6.5 SP1/7/7 SP1/7 SP2 + Simulink 5/6: Инструменты искусственного интеллекта и биоинформатики. -М.: Солон-пресс, 2006. -456 с.

38. Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. -М. : Фазис, 2005. 159с.

39. Идентификация- лиц по фонограммам русской речи на автоматизированной системе «Диалект» : Пособие для экспертов / Н.Ф. Попов, А.Н. Линьков, Н.Б. Кураченкова, Н.В. Байчаров; Под ред. A.B. Фесенко. -М.: Войсковая часть 34435, 1996:- 102 с.

40. Кей А. «Искусственные нейронные сети», Открытые системы, 9, 2006.

41. Кудрявцев В. Б., Андреев А. Е., Гасанов Э.Э. Теория тестового распознавания. М.: ФИЗМАТЛИТ, 2007. - 320с. - ISBN 978-5-92210872-0.

42. Кучеров В. Я., Лобанов Б. М. Синтезированная.речь в,системах массового обслуживания. М.: Радио и связь, 1983. - 132 с.

43. Лобанов Б.М. Анализ и синтез речи. Сборник научных трудов /АН БССР Институт технической кибернетики. Науч. Ред. Лобанов Б:М'. Минск, 1991,-86 с.

44. Максимов Е.М., Ромашкин Ю.Н., Лопатина С.А. Актуальные задачи речевой акустики // Речевые технологии. № 2. М!, 2008. С. 66-70.

45. Макул Д. Векторное квантование при кодировании речи. // ТИИЭР. -1985. Т. 73, №11.-С. 19-61.46: Математические методы распознавания образов. // 13-я Всероссийская конференция: Сборник докладов. М.: МАКС Пресс, 2007. - 668 с.

46. Медведев B.C., Потемкин В.Г. Нейронные сети. MATLAB 6 / Под общ. ред. к.т.н. В.Г. Потемкина. -М.: ДИАЛОГ-МИФИ, 2002. 496с.

47. Милошенко A.A. Особенности анализа лингвистических параметров речевых сигналов // Тезисы докладов научно-технической конференции в/ч 33965, 3-5 февраля 2010, г. Москва.

48. Милошенко A.A., Чапак A.C., Шалимов И.А. Просодический облик говорящего из оценки частоты основного тона // Тезисы докладов научно-технической конференции в/ч 33965, 3-5 февраля 2010, г. Москва.

49. Милошенко A.A., Шалимов И.А. Нейросетевой критерий распознавания диктора на основе широких фонетических категорий // Труды НИИР № 2, М: МТУСИ, 2010. С. 5-12.

50. Михайлов В.Г., Златоустова JI.B. Измерение параметров речи / Под ред. М.А. Сапожкова. -М.: Радио и связь, 1987. 168 с.

51. Нейронные сети. Statistica neural networks. Методология и технология современного анализа данных. -2-е изд., перераб! и доп. / Под ред. В. П. Боровикова -М.: Горячая линия Телеком, 2008. - 392 с.

52. Обжелян Н.К., Трунин-Донской В.Н. Машины, которые говорят и слушают. / Под. ред. Ю.И. Журавлева. -Кишинев : Штиинца, 1987. -175 с.

53. Оппенгейм А. В., Шафер Р. В. Цифровая обработка сигналов: Пер. с англ ./Под ред. С.Я. Шаца.-М.: Связь, 1979.-416с., ил.

54. Осовский С. Нейронные сети для обработки информации / Пер. с польского И. Д. Рудинского. М.: Финансы и статистика, 2002. - 344 с.

55. Панов М.В. Современный русский язык. Фонетика. М., 1979.

56. Пилипенко В.В. Распознавание ключевых слов в потоке речи при помощи фонетического стенографа// Речевые технологии. №1 2009. с. 75-79

57. Попов Э.В. Общение с ЭВМ на естественном языке. М., 1989.

58. Прикладные нечеткие системы: Пер. с япон. / К. Асаи, Д. Ватада, С. Иваи и др.; под редакцией Т. Тэрано, К. Асаи, М. Сугэно. М.: Мир, 1993. - 368 е., ил.

59. Р.К. Потапова, В.В.Потапов О дальнейшем развитии систем идентификации говорящего по голосу и речи // Сборник трудов XVIII сессии Российского акустического общества. Т. 3. М.: ГЕОС, 2006.

60. P.J1. Григорян, С.А. Репалов Исследование влияния динамических характеристик на точность идентификации дикторов для методов, основанных на векторном кантовании // Сборник трудов XVIII сессии Российского акустического общества. Т. 3. М.: ГЕОС, 2006.

61. Рабинер JI. Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // ТИИЭР, Т. 77, № 2, февраль 1989.-С. 86-120

62. Рабинер JT. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ./Под ред. М. В. Назарова и Ю. Н. Прохорова. -М.: Радио и связь, 1981.-496 е., ил.

63. Рабинер Л., Гоулд Л. Теория и применение цифровой обработки сигналов. Пер. с англ. А.Л. Зайцева, Э.Г, Назаренко, H.H. Тетёкина /Под ред. Ю.Н. Александрова -М.: Мир, 1978. -848 е., ил.

64. Рамишвили Г. С. "Речевой сигнал и индивидуальность голоса". Изд-во "МЕЦНИЕРЕБА", Тбилиси, 1976, стр. 1-183

65. Рамишвили Г. С., Чикоидзе Г. Б. Криминалистическое исследование фонограмм речи и идентификация личности говорящего. Тбилиси: "Мецниереба", 1991. 265 с

66. Рамишвили, Г. С. Автоматическое опознавание говорящего по голосу / Г. С. Рамишвили М. : Радио и связь , 1981 224 с.ил.

67. Садыхов Р.Х., Ракуш В.В. Модели гауссовых смесей для верификации диктора по произвольной речи // Доклады БГУИР. № 4. октябрь-декабрь 2003 / Белорусский государственный университет информатики и радиоэлектроники. Минск, 2003. С. 95-103

68. Сапожков М. А., Михайлов В. Г. Вокодерная связь. —М.: Радио и связь, 1983.-248 с.

69. Сапожков М.А. Речевой сигнал в кибернетике и связи. -М.: Связьиздат, 1963.-453 с.

70. Секунов Н. Ю. Обработка звука на PC. СПб.:БХВ-Петербург, 2001. -1248 е.: ил.

71. Соболев В.Н. Информационные технологии в синтетической телефонии. -М.: Ириас, 2007.-360 с.

72. Сорокин В.Н. Синтез речи. -М.: Наука Гл. ред. физ.-мат. лит., 1992. 392 с.

73. Сорокин В.Н. Теория речеобразования. -М.: Радио и связь., 1985. -312 с.

74. Справочная система пакета прикладных программ MatLab. Версия 7.6.0.324

75. Фант Г. Акустическая теория речеобразования. Пер. с англ. Л.А. Варшавского, В.И. Медведева / Под ред. B.C. Григорьева. -М.: Наука Гл. ред. физ.-мат. лит., 1964. 284 с.

76. Финк Л. М. Сигналы, помехи, ошибки . Заметки о некоторых неожиданностях, парадоксах и заблуждениях в теории связи.-2-e изд., перераб. и доп.-М.: радио и связь, 1984.-256 е., ил.

77. Фланаган Д. Л. Анализ, синтез и восприятие речи: Пер. с англ./Под ред. А. А. Пирогова. -М.: Связь, 1968.-396 с.

78. Фомин Я. А., Тарловский Г. Р. Статистическая теория распознавания образов : научное издание. М. : Радио и связь, 1986. - 264 с.

79. Фукунага К. Введение в статистическую теорию распознавания. М.: Наука, 1979

80. Хайкин С. Нейронные сети: полный курс, 2-е издание. : Пер. с англ. М. : Издательский дом «Вильяме», 2006. - 1104 с.о

81. Харкевич A.A. Спектры и анализ. .-4-е изд. -М.: Физ.-мат. лит., 1962. 236 с.

82. Харламов A.A., Кнеллер Э.Г. Распознавание ключевых слов в потоке' слитной речи на основе нейросетевых технологий. Нейрокомпьютеры разработка применение. Интегральный робот, 2005; 8-9: 88-97.

83. Харламов A.A., Самаев Е.С., Джураев Э.Ш., Сухоносенко К.В. Фильтрация текстовой информации с помощью нейросетевых алгоритмов. Информационные технологии, 2003, 3:9-13

84. Худсон Д. Статистика для физиков: Пер. с англ. —2-е изд., перераб. и доп.— М.: Мир, 1970.-297 с.

85. Цифровая обработка сигналов / А. Б. Сергиенко СПб.:Питер, 2002.-608 е.: ил.

86. Чедд Г. Звук. Пер. с англ. Г. И. Кузнецова. Ред. и предисл. С. Б. Гуревича. М.: «Мир», 1975. 206 с. с илл. (В мире науки и техники)

87. Шалимов И. А., Милошенко А. А. Исследование возможности применения лингвистических параметров речи в системах идентификации по голосу // «Вестник ИКСИ», М., 2010.

88. Шалимов И. А., Милошенко А. А. Обзор моделей идентификации и информативные параметры речевого сигнала // Специальная техника №5 2009. С. 37-46.

89. Шелухин О. И., Лукьянцев Н. Ф. Цифровая обработка и передача речи. -М.: Радио и связь, 2000. 456 с.

90. Шемакин Ю. И. Начала компьютерной лингвистики: Учеб. пособие. М.: Изд-во МГОУ, А/О «Росвузнаука», 1992. - 81 с.

91. Шемакин Ю.И. Основы информатики и вычислительной лингвистики. — М., 1983.

92. Шмелева А. «Правда о распознавании речи», Компьютер-пресс, 1, 1998.

93. Якобсон Р., Фант Г. М. и Хале М. Введение в анализ речи. Различительные признаки и их корреляты // Новое в лингвистике. Выпуск II.-М.: 1962, с. 173 -231.