Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора

Ахмад Хассан Мухаммад

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора

кандидата технических наук: Ахмад Хассан Мухаммад
город: Владимир
год: 2008
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора»

Автореферат диссертации по теме "Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора"

08-4 1272

На правах рукописи

Ахмад Хассан Мухаммад

ИССЛЕДОВАНИЕ И РАЗРАБОТКА АЛГОРИТМОВ ПАРАМЕТРИЗАЦИИ РЕЧЕВЫХ СИГНАЛОВ В СИСТЕМЕ РАСПОЗНАВАНИЯ ДИКТОРА

05.13.01 - Системный анализ, управление и обработка информации

(промышленность)

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук

Владимир -2008

Работа выполнена на кафедре «Вычислительная техника» Владимирского государственного университета.

Научный руководитель:

Кандидат технических наук, доцент Жирков Владислав Федорович

Официальные оппоненты:

Доктор технических наук, профессор Бернюков Арнольд Константинович

Кандидат технических наук, Новиков Константин Владимирович

Ведущая организация: Московский государственный институт электроники и математики (Технический университет) (МИЭМ)

заседании диссертационного совета Д212.025.01 при Владимирском государственном университете по адресу: 600000, г. Владимир, ул. Горького, д.87, ауд. 201/1

С диссертацией можно ознакомиться в библиотеке Владимирского государственного университета.

Автореферат разослан «__»_ 2008 г.

Ученый секретарь диссертационного совета Д212.025.01

Защита состоится «_»

2008 г. в

часов на

д.т.н., профессор

Р.И. Макаров

......I

ь 2 0 0^!_____—1 3

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальпость темы. В последние годы отмечается существенный рост интереса к автоматическим системам распознавания диктора по голосу. Потребность в разработке таких систем главным образом диктуется наличием широкого круга практических приложений, где требуется распознавать определенную личность. Системы автоматического распознавания могут использоваться для следующих целей:

- Задачи обеспечения безопасности (контроль за физическим доступом в помещения, доступ к базам данных, вычислительным системам и ПК, контроль над транспортными средствам и оружием);

- Задачи криминалистической экспертизы (анализ записей телефонных переговоров и отождествление их с подозреваемым; доказательства при судебных разбирательствах; распознавать «телефонных хулиганов» по записи).

- Задачи управления компьютером, бытовой техникой, различными запорными механизмами и промышленным оборудованием.

Направление, связанное с разработкой и исследованием систем автоматического распознавания диктора является в данный момент прогрессирующим, к нему проявляют интерес многие крупные исследовательские и коммерческие организации. Степень эффективности работы таких систем и качество распознавания во многом зависит от выделяемых в системе, при создании базы данных диктора, параметров (признаков) речевого сигнала и методов их обработки. Так как речь каждого индивидуума обладает только ему присущими отличительными чертами, то в системе распознавания диктора необходим выбор параметров речевого сигнала, способных наилучшим образом описать индивидуальность голоса. Этот выбор, является самым важным этапом при построении систем распознавания диктора.

В связи с вышесказанным, весьма актуальным является разработка и усовершенствование алгоритмов определения параметров речевого сигнала, повышающих эффективности и точности распознавания диктора в системах распознавания различных областей применения.

Цель и задачи диссертационной работы. Целью работы является исследование и усовершенствование алгоритмов параметризации речевого сигнала, применяемых в задачах распознавания диктора и разработка на их основе учебно-исследовательской системы распознавания диктора.

Для достижения поставленной цели в диссертации необходимо решить следующие задачи:

1. Анализ особенностей построения систем распознавания диктора.

2. Анализ и исследование алгоритмов построения различных признаковых описаний речевого сигнала в задачах распознавания диктора.

3. Разработка алгоритма выбора наиболее информативных признаковых характеристик речевого сигнала.

4. Разработка алгоритма определения границ фразы в речевом сигнале.

5. Усовершенствование алгоритма определения высоты тона голоса в речевом сигнале.

6. Разработка учебно-исследовательской системы распознавания диктора на основе исследованных и разработанных алгоритмов.

7. Проведение сравнительного экспериментального исследования разработанных алгоритмов и программных средств.

Методы исследования. Для решения поставленных задач, в работе используется аппарат цифровой обработки речевых сигналов (преобразование Фурье, кепстральный анализ, линейное предсказание и методы кластеризации), теории распознавания образов, теории построения математических моделей и пакет прикладных программ МАТЬАВ.

Научную новизну работы составляет:

1. Модель системы распознавания диктора на основе динамического искажения времени (ДИВ).

2. Модель системы распознавания диктора на основе векторного квантования (ВК) с созданием кодовых книг голоса диктора.

3. Модифицированный алгоритм векторного квантования Ллойда для текстонезависимого распознавания диктора, позволяющий существенно улучшить качество кодовых книг базы эталонов.

4. Разработанная методика определения границ фраз в речевом сигнале, позволяющая сократить время распознавания.

5. Модифицированный алгоритм определения высоты тона в речевом сигнале, основанный на вычисления произведения гармоник спектра и на снижении частоты дискретизации.

Практическая ценность работы :

1. Разработанные и модифицированы конкретные алгоритмы положены в основу создания систем распознавания диктора.

2. Разработанное программное средство для распознавания диктора на основе исследованных и разработанных алгоритмов, может быть полезным инструментом в учебном процессе по направлению « Цифровая обработка и распознавания речевых сигналов».

3. Показана возможность применения предложенных в работе алгоритмов в основу разработки коммерческих систем распознавания диктора и платформ управления бытовой техникой и промышленным оборудованием с помощью голоса. А также, в разработках систем оперативного контроля и управления объектами диспетчеризации с использованием голосовой информации.

4. Проведено сравнительное экспериментальное исследование разработанных в диссертации моделей распознавания диктора, позволившее выбрать наиболее эффективные модели построения систем распознавания диктора.

Внедрение результатов работы. Разработанные, по результатам диссертационной работы, методические материалы и программные средства внедрены в учебный процесс кафедры «Вычислительная Техника» ВлГУ. Усовершенствованы и разработанные алгоритмы применены к использованию в проектах проектно-конструкторской деятельности производственного предприятия «КОНТЭЛ» г. Владимира.

Апробация работы. Основные положения и результаты работы докладывались и обсуждались на научно-технических конференциях: на 20-ой Международной научной конференции «Математические методы в технике и технологиях» (ММТТ-20), Ярославль, РФ, 2007г.; на 8-ой Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-8-2007), Йошкар-Ола, РФ, 2007г.; в Вестнике Тамбовского государственного технического университета, входящем в перечень ведущих рецензируемых ВАК'ом научных журналов и изданий, Тамбов, РФ, 2007-2008гг. и в рамках

инновационной образовательной программы ВлГУ, Издательство ВлГУ, 2008г.

Публикации. По теме диссертации опубликовано 9 печатных работ, из них 6 в ведущем рецензируемом научном издании «Вестник ТамбовГТУ» , 2 доклада на международных и всероссийских научно-технических конференциях и 1 учебное пособие в рамках инновационной образовательной программы ВлГУ.

Структура и Объем диссертации. Диссертация состоит из введения, пяти глав и заключения, списка литературы из 83 наименований и 10 приложений. Работа изложена на 130 страницах печатного текста, включая 32 рисунков и 8 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, сформулированы цель и задачи, указаны научная новизна и практическая значимость выполненных исследований.

В первой главе рассматривается классификация систем определения индивидуальности диктора по голосу, в том числе рассматриваются идентификация и верификация диктора, текстозависимые и текстонезвисимые, автоматические и экспертные системы распознавания диктора.

Показано, что система распознавания диктора состоит из трех сравнительно независимых частей:

- выделение различительных признаков, или способа параметризации речевого сообщения;

- процедуры построения эталона для данного диктора (дикторов);

- принятие решения об индивидуальности говорящего.

Рассматриваются способы описания речевого сообщения в целом, а также основные подходы к построению систем принятия решений при распознавании диктора, как динамическое искажение времени ДИВ (Dynamic Time Warping - DTW) и векторное квантование. Рассматриваются основные направления и применения систем распознавания диктора, а также основные проблемы создания таких систем.

Рассмотрены критерии эффективности систем распознавания, одним из которых, является частота появления ошибок. Эффективность распознавания диктора обычно характеризуется

измерениями двух ошибок: ошибки пропуска и ошибки отклонения. Ошибка пропуска соответствует вероятности пропуска диктора при условии, что он злоумышленник, а ошибка отклонения соответствует вероятности отклонения диктора, если известно, что он клиент и пропорциональна числу попыток злоумышленника, которые заканчиваются допуском.

Во второй главе рассмотрены методы первичной обработки речевых сигналов в задаче распознавания дикторов. Базовыми операциями первичной обработки являются: дискретизация речевого сигнала, дискретное преобразование Фурье, использование оконных функций, цифровая фильтрация и нормализация по уровню.

Описана методика выделения начала и конца фразы в речевом сигнале, позволяющая сократить время распознавания. Этот алгоритм находит начало и конец фразы в заданной форме сигнала, позволяя речи быть проанализированной и определяет полную зону, где речь существует во входном сигнале.

Описан модифицированный алгоритм определения высоты тона голоса диктора, основанный на предположение, что голос по существу составлен из основной частоты со, т. е. высота тона и гармоники получаются из целого кратного числа основной частоты ^ и включает два основных шага: снижение дискретизации и вычисление произведения гармоник спектра. Для снижения дискретизации, необходимо дважды сжимать спектр в каждом окне с передискретизацией: в первый раз, мы сжимаем два раза оригинальный спектр и во второй раз — три. Этот шаг применяется для выравнивания высоких гармоник основной частоты друг к другу. Как только это будет закончено, мы умножаем все три спектра вместе и находим частоту, соответствующую пику (максимальному значению). Таким образом, вместо логарифмического значения произведения, используем просто максимальный пик частоты. В математическом виде, выглядит следующим образом:

где спектр сигнала, * - число гармоник.

Получающийся периодический корреляционный массив

будет исследован для нахождения максимального значения Полученное значение является специфической частотой,

к = 1

представляющей основную частоту того специфического окна, т.е. частоту высоты тона исследуемого спектра речевого сигнала.

Рассматривается Mel шкала как наиболее распространенный метод для логарифмического сжатия диапазона частот (приведено несколько вариантов шкалы):

где f - частота в спектре, Гц, fmel— частота в новом пространстве,

Mel. Эти шкалы сходны со шкалой частотного восприятия человека, и построены на основе психофизиологических экспериментов. Соответственно используется понятие банк фильтров, рис. 1.

При этом каждый фильтр в банке имеет треугольную полосу пропускания частотной характеристики и длина этой полосы постоянна в Mel шкале и различна в линейной шкале. Полосы пропускания фильтров в банке наполовину перекрываются.

Описана методика кепстрального описания речевого сигнала и эффективность применения трех видов вычисления кепстральных коэффициентов (КК): кепстр на основе быстрого преобразования Фурье с использованием Mel-частотной шкалы (Mel кепстр БПФ), кепстр на основе коэффициентов линейного предсказания (кепстр КЛП) и Mel кепстр КЛП. Показано преимущество использования Mel кепстр БПФ, вычисляемого по формуле:

fme,=U25 lg (0.0016 / + 1)> /те, = 2595-log10(l +//700),

Тварпл Ь-афнгъм

ЧкмвГч

Рис. 1, Банк Mel фильтров

где s(k) - средняя спектральная мощность фильтра к, U - общее

количество фильтров, N - количество кепстральных коэффициентов.

, M(k) + N(k)

S(A) = -i- I -MHOl' N(k) i = M (к)

где к— номер фильтра (от 1 до 20), М(к) ~ начальная частота фильтра к, м(к) ~ ширина фильтра k,w(k,i) ~ весовая функция (треугольной формы), x(i) - амплитуда дискретного преобразования Фурье.

В третьей главе рассмотрены теоретические основы моделей принятия решения в задачах распознавания говорящего. Рассматривается метод сопоставления с эталоном. При сопоставлении с эталоном описания речевых сигналов сравниваются с заранее запасенными эталонными описаниями и вычисляется степень их подобия. Результатом распознавания является наиболее похожий эталонный образ. При распознавании диктора путем сопоставления возникает несколько проблем, среди которых наиболее типичными являются временные изменения, характерных речевых сигналов и влияние размеров органов речи. Первая проблема связана с необходимостью подстраивать временные интервалы при сопоставлении (временная нормализация). Известно много способов согласования длительностей, которые сильно различаются по эффективности и объему вычислений. В некоторых допускаются пропуски элементов эталона, в некоторых разрешены пропуски элементов реализации, иногда накладывается ограничение на множество вариантов растяжения реализации и эталона, позволяющие учесть ограничения на вариации темпа произнесения слова.

Рассматривается линейное сопоставление как самый простой способ согласования длительностей эталонного элемента и распознаваемой реализации слова, в результате которого сигнал равномерно сжимается или растягивается до величины эталона. Главный недостаток этого метода заключается в том, что при удалении или добавлении новых элементов не учитывается их значимость в речевой последовательности, а это ведет к неадекватной сопоставимости двух речевых участков.

В работе использовался метод временного согласования на основе процедуры динамического программирования (алгоритм ДИВ). Алгоритм динамического искажения времени устраняет временные различия между двумя последовательностями речевых характеристик, искажая временную ось одной последовательности для максимального совпадения с другой.

Основным свойством алгоритма является небольшая ресурсоёмкость и полиномиальная зависимость требуемых вычислительных затрат от размера входных данных. Проведен анализ свойств алгоритмов ДИВ. Для симметричного алгоритма ДИВ предложен оптимизированный алгоритм поиска минимального наименьшего маршрута. Рассмотрена реализация асимметричного алгоритма ДИВ, имеющего ряд преимуществ по сравнению с симметричным. Разработана структурная схема системы распознавания диктора с использованием алгоритма ДИВ, рис.2.

Речь

Вычисление параметров рсч. сигнала

Ме1 — частотные коэффициенты (МРС)

ЬРС анализ

Регистрация (Training)

Энергия (£.")

Переходы через нуль

(гс>

Идентификация (Testing)

Матрица признаков (Образцы)

-К "V

DTW

Хг

Матрица признаков (Новые)

Результаты (Принятое решение)

Рис.2. Структурная схема системы распознавания диктора

Рассмотрен метод векторного квантования при решении задачи текстонезависимого распознавания.

Показано, что при построении кодовой книги необходимо, чтобы выбор кластера для очередного вектора признаков был осуществлен по минимуму меры искажения. Процесс распознавания по существующему набору кодовых книг (база данных дикторов) похож на процесс обучения. Из речи тестового диктора извлекается множество векторов признаков х={х-|/' = 1,...,£]• Затем

определяется, какой из кодовых книг в базе данных лучше соответствует полученное множество кодовых векторов. База данных дикторов состоит из множества кодовых книг (эталонов) -В = |С|,...,Суу| > гДе М- количество дикторов в базе данных, а

С =|с-],... кодовая книга соответствующая /-му диктору (к -

размер кодовой книги). Рассмотрена модификация алгоритма Ллойда, наиболее популярного алгоритма в задачах кластеризации и построения кодовой книги, позволившая существенно улучшить качество кодовых книг базы эталонов.

В этой главе предлагается структурная схема текстонезависимой системы распознавания диктора с использованием модифицированного алгоритма Ллойда, рис.3.

Рис.3. Структурная схема системы распознавания на основании кодовых книг.

В четвертой главе приводятся результаты, полученные при экспериментальном доказательстве эффективности предложенных алгоритмов и моделей систем:

- Сравнение эффективности использования различных методов распознавания дикторов;

- Экспериментальное исследование методов признаковых описаний речевых сигналов в задачах распознавания.

- Сравнительные результаты тестирования систем распознавания дикторов.

Проводилось исследование метода измерения частоты основного тона, основанный на снижение частоты дискретизации и произведение гармоник спектра, и результаты показали, что он имеет некоторые важные особенности:

- является в вычислительном отношении простым и недорогим;

- является разумно сопротивляющимся к аддитивному и мультипликативному шуму, и приспосабливаемым к различному виду входных параметров;

- является изящным методом масштабирования спектра, состоящим в изменении частоты дискретизации сигнала.

Эффективность использования данного метода заключается в том, что снижение частоты дискретизации в несколько раз приведет к точному сходству основной частоты с ней самой и данный алгоритм обладает высокой устойчивостью к шуму. Эксперименты проводились в обычных условиях, и точность определения высоты тона, сравнительно с существующими методами и с экспериментальным методом измерения высоты тона в среде пакета программ МАТЬАВа, составила 93%.

Проводились исследования методов параметризации речевых сигналов на основе алгоритма динамического искажения времени. Проводилось сравнение результатов для трех методов представления сигнала — с использованием спектральных признаков, коэффициентов линейного предсказания и кепстрального представления на основе Ме1-шкалы при решении задачи распознавания. Спектральное описание формировалось на основе банка фильтров в диапазоне 504500 Гц, размерность вектора Ме1-кепстра 18. Для обоснования выбора размерности описания на основе коэффициентов линейного предсказания проводился предварительный эксперимент распознавания сигналов по всей базе данных. На рис.4, приведены график зависимости ошибки распознавания от размерности вектора КЛП. С ростом размерности ошибка монотонно уменьшается, однако как показали эксперименты, при размерности больше 12, начинают существенно увеличиваются вычислительные затраты. Учитывая этот фактор, для дальнейших экспериментов была принята размерность вектора КПП - 14. „

11III i

Рис.4. Ошибка распознавания при использовании КЛП, %

Проводились исследования свойств алгоритмов динамического искажения времени (ДИВ). Было исследовано влияния параметра степени искажения ДИВ на качество распознавания. По результатам тестирования получено, что наименьшая ошибка распознавания получается при степени искажения р = 3. Это значение использовалось как базовое для дальнейших исследований.

Результаты экспериментов по выбору наилучших характеристик показывали, что результаты для Mel БПФ КК не отличаются от Mel ЛП КК, в то время, как обычный кепстр ЛП сильно им уступает, табл. 1.

Таблица 1. Показатели эффективности работы системы распознавания

Тип Ошибка Ошибка

характеристик пропуска, % отклонения, %

Mel БПФ КК 0.135 6.2

Mel КЛПКК 0.135 6.2

КЛПКК 1.15 7.0

Описаны результаты исследования идентификации дикторов на основе использования векторного квантования. Была проведена серия различных экспериментов. Одни из них относятся к анализу быстродействия предложенных алгоритмов и ее зависимости от их параметров. Другие - к точности идентификации в зависимости от параметров и особенностей тестовых фрагментов речи. Приводятся результаты этих экспериментов. Исследовались зависимости времени работы алгоритмов идентификации и построения кодовой книги от ее

размера. Исследовалось время работы алгоритмов кластеризации и качество, построенной ими кодовой книги.

В качестве оценки качества кодовой книги используется среднеквадра-тическая ошибка (MSE). Строилась кодовая книга размера в 128 элементов по фрагменту речи. По результатам доказано, что с увеличением количества итераций алгоритма случайного локального поиска (RLS), качество кодовой книги улучшается, однако, время, требуемое на построение кодовой книги, возрастает пропорционально количеству итераций. Алгоритм Ллойда (GLA) работает значительно быстрее RLS, но и качество кодовой книги хуже. Следует учесть, что алгоритм RLS в силу присутствия случайности выбора может в отдельных случаях давать, как и лучшие результаты, так и худшие результаты по качеству кодовой книги. Так как, в задачах распознавания время, требуемое на обучение системы, не является критичным, поэтому имеет смысл пользоваться алгоритмом RLS для получения более качественной кодовой книги, рис.5.

Рис.5. Время работы алгоритмов и качество кодовой книги

По результатам доказано, что с ростом размера кодовой книги улучшается ее качество. Это объясняется тем, что кодовая книга большего размера лучше приближает и описывает набор векторов признаков, рис.6.

45 40 35 30 25 20 15 10 5 О

t41

----

чзз, 5

► 18,

32 64

96 128 160 192 224 256 288 Размер КК

Рис. 6. Зависимость качества кодовой книги от ее размера. Приводятся результаты исследования эффективности методов параметризации речевого сигнала, табл.2.

Таблица 2. Показатели эффективности использования методов

Метод параметризации речевого сигнала Ошибка распознавания, %

Спектральные признаки 17,85

Коэффициенты л/предсказания 8,4

Mel -кепстральные коэффициенты 4,75

Из приведенных данных, доказано высокое качество распознавания дикторов при использовании Ме1-кепстральных коэффициентов для параметрического описания речевых сигналов.

Приводятся сравнительные результаты распознавания дикторов разными системами распознавания с использованием алгоритмов ДИВ и кластеризации и создания кодовых книг с общей базой данных, табл.3.

Таблица 3. Результаты тестирования различных систем распознавания____

Программа Ошибка отклонения Ошибка пропуска Средняя ошибка DCF, %

DWT (ДИВ) 0,88 2,2 1,54

Codebook (КК) 3,1 2,64 2,87

Сравнительный анализ и тестирование созданных программ доказали, что система на основе ДИВ дает наилучшие результаты распознавания.

В пятой главе приводится описание разработанного автором программного комплекса «Speaker Recognition», состоящего из трех частей:

Dynamic Time Warping. Программа, предназначена для распознавания дикторов на основе метода динамического искажения времени.

Code Book. Программа, предназначена для распознавания дикторов на основе метода кластеризации и создания кодовых книг. Tools. Программный инструмент для анализа спектрограмм речевого сигнала.

Основные результаты работы

Теоретические и экспериментальные исследования, выполненные в диссертационной работе, позволили получить следующие результаты:

1. Сформулированы основные задачи совершенствования систем распознавания дикторов. Предложено уделить основное внимание разработке систем распознавания дикторов на основе использования методов ДИВ.

2. Предложена новая методика выделения границ фразы и модифицированный алгоритм определения основного тона говорящего, основанный на снижение частоты дискретизации и произведения гармоник спектра сигнала.

3. Предложен Модифицированный алгоритм векторного квантования Ллойда для текстонезависимого распознавания дикторов.

4. При проведении спектрального анализа предлагается использовать нелинейную частотную шкалу Мела. Применение нелинейной шкалы позволяет согласовать результаты спектрального анализа с психофизиологическими характеристиками слухового аппарата человека. Показано преимущество описания речевого сигнала Мел-кепстральными признаками перед остальными.

5. Разработаны структурные схемы текстонезависимой системы распознавания с использованием модели векторного квантования алгоритма ДИВ.

6. Проведен анализ свойств алгоритмов ДИВ. Для симметричного алгоритма ДИВ предложен оптимизированный алгоритм поиска минимального наименьшего маршрута. А так же, рассмотрена реализация асимметричного алгоритма ДИВ, имеющего ряд преимуществ по сравнению с симметричным.

7. Создан комплексный программный продукт в среде Matlab для реализации созданных алгоритмов и моделей систем распознавания.

Разработанные методы, алгоритмы и модели распознавания могут быть использованы для создания различных практических приложений связанных с распознаванием дикторов. Дальнейшие исследования в этой области могут быть направлены на создание эффективных систем распознавания дикторов.

Публикации по теме диссертации В рецензируемых изданиях из списка ВАК:

1. Ахмад X. М. Выделение наиболее информативных характеристик речевого сигнала // Вестник ТГТУ, т. 14, №1. -Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835.

2. Ахмад X. М. Оптимизированный алгоритм поиска минимального наименьшего маршрута для симметричного алгоритма ДИВ в задачах распознавания дикторов // Вестник ТГТУ, т. 14, №1. - Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835.

3. Ахмад X. М. Система идентификации говорящего методом создания кодовых книг образцов речи // Вестник ТГТУ, т. 14, №1. -Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835.

4. Ахмад Х.М. Обнаружение начала и конца речи в сигнале с использованием его магнитуды // Вестник ТГТУ, т. 13, №2А. -Тамбов, Изд-во ТГТУ 2007. С 449-451. ISSN 0136-5835

5. Ахмад Х.М. Определение высоты тона методом произведения гармоник спектра речевого сигнала // Вестник ТГТУ, т. 13, №3.-Тамбов, Изд-во ТГТУ 2007. С 712-714. ISSN 0136-5835

6. Ахмад Х.М. Сравнительное исследование эффективности различных методов кепстрального описания речевых сигналов

в задачах распознавания // Вестник ТГТУ, т. 13, №4. - Тамбов, Изд-во ТГТУ 2007. С 887-891. ISSN 0136-5835.

В других изданиях

1. Ахмад X. М. Параметрическое представление речевого сигнала для задачи распознавания спикера. Применение Mel — частотных кепстральных коэффициентов // Математические методы в технике и технологиях - ММТТ-20. сб. трудов XX Междунар. науч. конф. в 10 т. Т.6. Секция 12 /под общ. ред. В. С. Балакирева. - Ярославль: Изд-во Яросл. гос. техн. ун-та, 2007. -330с. С 66-68. ISBN 5-230-20703-5.

8. Ахмад X. М. Введение в цифровую обработку речевых сигналов: учеб. пособие / X. М. Ахмад, В. Ф. Жирков; Владим. гос. ун-т. - Владимир: Изд-во Владим. гос. ун-та, 2008. - 192 с. -ISBN 5-89368-751-5.

9. Akhmad Kh. М. Codebook modeling in speaker verification/identification task solution // 8-th international conference "pattern recognition and image analysis: new information technologies" (PRIA-8-2008): Conference Proceedings. Vol. 2. - Yoshkar-OIa, 2007. p. 223-227. ISBN 9785-8158-0579-8.

Подписано в печать 06.10.08 Формат 60x84/16. Усл. печ. л. 1,39. Тираж 100 экз. Заказ ЛЬЗ-OSr. Издательство Владимирского государственного университета. 600000, Владимир, ул. Горького, 87.

Оглавление автор диссертации — кандидата технических наук Ахмад Хассан Мухаммад

СПИСОК ИСПОЛЬЗУЕМЫХ СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.:.

ГЛАВА 1. ОБЗОР МЕТОДОВ И СИСТЕМ РАСПОЗНАВАНИЯ

ДИКТОРА.

1Л. Классификация систем определения индивидуальности диктора по голосу.

1Л Л. Идентификация и верификация.

1Л.2. Текстозависимое и текстонезависимое распознавание.

1Л .3. Автоматические и экспертные системы.

1.2. Научная сторона проблемы.

1.2Л. Различительные признаки.

1.2.1.1. Существенно индивидуальные особенности речи и голоса.

1.2.1.2. Индивидуальные характеристики, связанные со строением и функционированием речеобразующего аппарата.

1.2.1.3. Параметризация речевого сигнала.

1.2.2. Способы описания речевого сообщения в целом.

1.2.2.1. Динамическое искажение времени.

1.2.2.2. Использование векторного квантования.

1.2.3. Проблема эталона и его обновление.

1.2.4. Решающие правила.

1.2.5. Шумы, помехи, искажения.

1.3. Критерии эффективности систем распознавания.

1.4. Применение систем распознавания говорящего в промышленности.

1.5. Обзор современных программных продуктов распознавания.

1.5.1. Зарубежные программы, организации, достижения.

1.5.2. Состояние дел в России.

1.6. Основные проблемы создания систем распознавания диктора.

1.7. Выводы к главе 1.

ГЛАВА 2. МЕТОДЫ ПОСТРОЕНИЯ ПРИЗНАКОВЫХ ОПИСАНИЙ В

ЗАДАЧЕ РАСПОЗНАВАНИЯ ГОВОРЯЩЕГО.

2.1. Ввод речи и ее цифровое представление.

2.2. Предварительная обработка и выделение первичных признаков.

2.2.1. Дискретное преобразование Фурье.

2.2.2. Цифровые фильтры.

2.2.3. Использование оконных функций.

2.3. Нормализация уровня сигнала.

2.4. Выделение границ фразы в речевом сигнале.

2.5. Определение высоты тона (частоты основного тона).

2.6. Методы получения признакового описания сигнала.

2.6.1. Спектральные методы.

2.6.2. Коэффициенты линейного предсказания.

2.6.3. Кепстральное описание.

2.7. Выделение наиболее информативных характеристик.

2.7.1. Последовательный прямой поиск.

2.7.2. Последовательный обратный поиск.

2.8. Выводы к главе 2.

ГЛАВА 3. ОСНОВНЫЕ МАТЕМАТИЧЕСКИЕ МОДЕЛИ ПРИНЯТИЯ

РЕШЕНИЙ В ЗАДАЧАХ РАСПОЗНАВАНИЯ ГОВОРЯЩЕГО.

3.1. Системы распознавания дикторов, основанные на сопоставлении с эталонами.

3.2. Мера сходства речевого сигнала с эталоном.

3.2.1. Статистический подход.

3.2.2. Меры сходства.

3.3. Линейное выравнивание времени.

3.4. Алгоритм динамического искажения времени (ДИВ).

3.4.1. Описание алгоритма ДИВ.

3.4.2. Симметричный алгоритм ДИВ.

3.4.3. Алгоритм поиска глобального наименьшего маршрута.

3.4.4. Асимметричный алгоритм ДИВ.

3.4.5. Система идентификации диктора с использованием алгоритма ДИВ.

3.5. Векторное квантование и построение кодовой книги при решении задач идентификации.

3.5.1. Меры искажения.

3.5.2. Алгоритмы построения эталона.

3.5.3. Идентификация по кодовой книге.

3.5.4. Система идентификации диктора с использованием весовых коэффициентов и кодовой книги.

3.6. В ыводы к главе 3.

ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ.

4.1. Цели и задачи экспериментов.

4.2. Исследования методов признаковых описаний речевых сигналов в задачах распознавания.

4.2.1. Выбор речевых характеристик

4.2.2. Измерение частоты основного тона.

4.2.3. Выделение наиболее информативных характеристик

4.3. Исследование свойств алгоритма динамического искажения времени.

4.3.1. Выбор метрики расстояния.

4.3.2. Исследование влияния параметра степени искажения ДИВ на качество идентификации.

4.3.3. Исследование методов параметризации речевых сигналов на 118 основе алгоритма ДИВ.

4.4. Результаты исследования идентификации дикторов на основе использования векторного квантования.

4.4.1. Исследование зависимости времени работы алгоритмов идентификации и построения кодовой книги от ее размера.

4.5. Сравнительные результаты тестирования систем идентификации дикторов.

4.6. Выводы к главе 4.

ГЛАВА 5. РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ РЕАЛИЗАЦИИ РАЗРАБОТАННЫХ МОДЕЛЕЙ СИСТЕМ ИДЕНТИФИКАЦИИ.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Ахмад Хассан Мухаммад

Актуальность темы. В последние годы отмечается существенный рост интереса к автоматическим системам распознавания диктора по голосу. Потребность в разработке таких систем главным образом диктуется наличием широкого круга практических приложений, где требуется подтвердить или опознать определенную личность. Системы автоматического распознавания могут использоваться для следующих целей:

- Задачи криминалистической экспертизы (анализ записей телефонных переговоров и отождествление их с подозреваемым; доказательства при судебных разбирательствах; идентификация «телефонных хулиганов» по записи).

- Задачи управления компьютером, бытовой техникой, различными запорными механизмами и промышленным оборудованием;

- Особый интерес представляет собой использование систем распознавания на телефонных каналах, например, для получения баланса банковского счета, подтверждения денежных транзакций или оплаты услуг. Направление, связанно^ с разработкой и исследованием систем автоматической идентификации и верификации дикторов является в данный момент прогрессирующим, к нему проявляют интерес многие крупные исследовательские и коммерческие организации. И если не сегодня, то в ближайшем будущем такие системы будут востребованы в полной мере.

Точность распознавания в таких системах во многом зависит от выделяемых системой, при создании базы данных диктора, параметров (признаков) речевого сигнала и методов его обработки.

Существующие решения этой задачи в настоящее время не обеспечивают высокую точность распознавания диктора.

В связи с вышесказанным весьма актуальной задачей является разработка и усовершенствование алгоритмов определения параметров речевого сигнала, применяемых в системах распознавания дикторов.

В работе проведен анализ моделей формирования признакового описания речевых сигналов и исследованы различные алгоритмы и методы обработки речевого сигнала в системах распознавания диктора.

Общее содержание диссертационной работы соответствует научному направлению «Распознавание образов и цифровая обработка речевых сигналов».

Цель и задачи диссертационной работы. Целью работы является исследование, разработка и усовершенствование алгоритмов параметризации речевого сигнала, применяемых в задачах распознавания дикторов и разработка системы распознавания дикторов.

Для достижения этой цели в диссертации решались следующие задачи:

1. Анализ особенностей построения систем распознавания дикторов.

2. Анализ и исследование алгоритмов построения различных признаковых описаний речевого сигнала в задачах распознавания дикторов.

3. Разработка методика определения границ фразы в речевом сигнале.

4. Усовершенствование алгоритма определения высоты тона (частота основного тона) голоса в речевом сигнале.

5. Разработать алгоритм выбора наиболее информативных признаковых характеристик речевого сигнала.

6. Разработка учебно-исследовательской системы распознавания дикторов на основе исследованных:и разработанных алгоритмов.

Методы исследования. В диссертационной работе используется аппарат цифровой обработки речевых сигналов (преобразование Фурье, Линейное предсказание, векторное квантование, Ме1-кепстральное описание), теории распознавания образов, теории построения математических моделей и пакет прикладных программ MATLAB.

Научная новизна. Новизной диссертационной работы является разработанные и модифицированные алгоритмы определения параметров речевого сигнала, а также разработанные модели систем распознавания дикторов, базирующихся на основе метода динамического искажения времени (ДИВ) и векторного квантования (ВК) с созданием кодовых книг голоса диктора.

В работе предложено:

1. Модель системы распознавания дикторов на основе ДИВ.

2. Модель системы распознавания дикторов на основе ВК с созданием кодовых книг голоса диктора.

4. Разработанная методика определения границ фраз при обработке речевого сигнала, позволяющая сократить время распознавания.

5. Модифицированный алгоритм определения высоты тона в речевом сигнале, основанный на вычисление произведения гармоник спектра и снижении частоты дискретизации.

6. Разработан алгоритм выбора наиболее информативных признаковых характеристик речевого сигнала.

Практическая ценность работы заключается в следующем:

Разработанные и модифицированные конкретные алгоритмы положены в основу создания систем распознавания дикторов.

Разработан пакет программного обеспечения для распознавания дикторов на основе исследованных и разработанных алгоритмов и моделей систем, который может быть полезным инструментом в учебном процессе по направлению «Обработка и распознавания речевых сигналов».

Показана возможность применения приложенных в работе алгоритмов в основу разработки коммерческих систем распознавания диктора и платформ управления бытовой техникой и промышленным оборудованием с помощью голоса. А также, в разработке систем оперативного контроля и управления объектами диспетчеризации с использованием голосовой информации.

- Проведено сравнительное экспериментальное исследование разработанных в диссертации моделей систем распознавания, позволившее выбрать наиболее эффективные модели построения систем распознавания диктора.

Внедрение результатов работы. Результаты, разработанные программные средства и методические материалы диссертационной работы, внедрены и используются в учебном процессе при проведении лабораторных и курсовых работ по курсу «Цифровая обработка сигналов» для студентов специальностей ВлГУ (см. приложение 10). А также, приняты к использованию в проектно-конструкторской деятельности предприятия ООО «КОНТЭЛ» г. Владимира (см. приложение 9).

Апробация работы. Основные положения и результаты работы докладывались и обсуждались на научно-технических конференциях:

• 20-ая Международная научная конференция «Математические методы в технике и технологиях» (ММТТ-20), Ярославль, РФ, 2007г.;

• 8-ая Международная, конференция «Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-8-2007), Йошкар-Ола, РФ, 2007г.;

• Вестник Тамбовского государственного технического университета, Тамбов, РФ, 2007-2008гг., входящий в перечень ведущих рецензируемых ВАК-ом научных журналов и изданий;

• Издательство ВлГУ, 2008г. в рамках инновационной образовательной программы ВлГУ.

Объем диссертации. Диссертация состоит из введения, пяти глав и заключения, изложенных на 130 страницах и иллюстрированных 32 рисунками и 8 таблицами, а также списка литературы из 83 наименований и 10 приложений.

Заключение диссертация на тему "Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора"

4.6. Выводы к главе 4

1. Исследованы алгоритмы описания речевых сигналов с использованием алгоритмов определения границ фразы и высоты тона.

2. Экспериментально исследован выбор признаковых характеристик речевого сигнала для решения задач распознавания дикторов. Показано, что наилучшие результаты обеспечивает использование Ме1-кепстра БПФ.

3. Исследована эффективность использования алгоритма динамического искажения времени. Показано, что наиболее эффективным является ассиметричный вариант алгоритма.

4. Исследовано функционирование системы распознавания на основе использования алгоритма динамического искажения времени.

5. Исследовано функционирование системы распознавания на основе использования векторного квантования — кластеризации с созданием кодовых книг. Показано, что увеличение количества итераций в алгоритме RLS существенно повышает качество распознавания.

6. Проведено сравнительное исследование разработанных программ распознавания. Показано, что наилучшие результаты распознавания обеспечивает система на,основе ДИВ.

7. Разработанные программные системы, показали в целом высокую эффективность и могут быть рекомендованы как прототипы в учебных целях и для создания более высокоэффективных систем распознавания дикторов.

ГЛАВА 5. РАЗРАБОТАННЫЙ ПРОГРАММНЫЙ ПРОДУКТ ДЛЯ РЕШЕНИЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ДИКТОРОВ

Для реализации разработанных в работе алгоритмов и обеспечения сравнительного исследования моделей систем распознавания дикторов разработан программный комплекс «Speaker Recognition», главный интерфейс которого приведен на рис. 5.1, состоящий из трех частей:

Speaker Recognition

Cirrert cirectary: C:1HASSAN\

Dynamic Time Warping

EnroP Mew Speaker

Tools

Training System

Speaker identification

Testing System r- Clear DTW & Code Sook

Clear Database

Spectools

Info

Help

Quit

Рис.5.1. Главный интерфейс системы Speaker Recognition.

1. Dynamic Time Warping. Программа, предназначена для идентификации дикторов на основе метода динамического искажения времени.

Полное описание работы и пользовательские интерфейсы разработанного программного обеспечения приведены в приложении 6.

2. Code Book. Программа, предназначена для идентификации дикторов на основе метода кластеризации и создания кодовых книг.

Полное описание работы и пользовательские интерфейсы разработанного программного обеспечения приведены в приложении 7.

3. Tools, Программный инструмент для анализа спектрограмм речевого сигнала.

Полное описание работы и пользовательский интерфейс разработанного программного обеспечения приведены в приложении 8.

ЗАКЛЮЧЕНИЕ

Представленная диссертационная работа содержит результаты исследований по разработке методов и алгоритмов обработки речевых сигналов в задачах распознавания диктора.

Основные научные и практические результаты работы можно сформулировать следующим образом:

1. Сформулированы основные задачи совершенствования систем распознавания дикторов.

2. Предложено уделить основное внимание разработке систем распознавания дикторов на основе использования методов ДИВ.

3. Предложена разработанная методика для выделения границ фразы в речевом сигнале.

4. Предложен модифицированный алгоритм для определения основного тона говорящего.

5. Предложен Модифицированный алгоритм векторного квантования Ллойда для текстонезависимой идентификации дикторов.

6. При проведении спектрального анализа предлагается использовать нелинейную частотную шкалу Мела. Применение нелинейной шкалы позволяет согласовать результаты спектрального анализа с психофизиологическими характеристиками слухового аппарата человека. Показано преимущество описания речевого сигнала Мел-кепстральными признаками перед остальными.

7. Разработан £/Ж$-алгоритм выбора наиболее информативных признаковых характеристик.

8. Разработана модель системы идентификации с использованием модели векторного квантования, позволяющая существенно улучшить качество кодовых книг базы эталонов.

9. Проведен анализ свойств алгоритмов ДИВ. Для симметричного алгоритма ДИВ предложен оптимизированный алгоритм поиска минимального наименьшего маршрута.

Ю.Рассмотрена реализация асимметричного алгоритма ДИВ, имеющего ряд преимуществ по сравнению с симметричным.

11 .Разработана модель системы распознавания дикторов с использованием алгоритма ДИВ.

12. Создан комплексный программный продукт на базе Matlab для реализации созданных алгоритмов и моделей систем распознавания.

Разработанные модели^ распознавания могут быть эффективно использованы для различных практических приложений связанных с распознаванием диктора. Дальнейшие исследования в этой области могут быть направлены на создание более эффективных систем распознавания дикторов.

Библиография Ахмад Хассан Мухаммад, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Ariki Y., Tagashira S., Nishijima M. Speaker Recognition and Speaker Normalization by Projection to Speaker Subspace. // ICASSP-96.

2. Bellman R.E. Dynamic Programming, Princeton University Press, 1957.

3. BenZeghiba, M.F., Herve, В., Mariethoz, J. Speaker verification base on user customized password.// (2001).

4. Bimbot F., Blomberg M., Boves L. etc.An overview of the CAVE project research activities in speaker verification.// (2000).

5. Bourlard H. and Bengio S. Hidden Markov Models and other finite state automata for sequence processing.// (2001).

6. Bromba Biometrics Режим доступа: http://www.bromba.eom/faq/biofaqe.htm#ROC

7. Burten D.K. Text Independent Speaker Verification Using Vector Quantization Source Coding // IEEE Trans. ASSP-35.

8. Che.W.Ch, Lin Q., Yuk D-s. Am HMM Approach to Text-prompted Speaker Verification. // ICASSP-96, 673-676.

9. De Lima Araujo, A.M. and Violaro, F., "Formant frequency estimation using a Mel-scale LPC algorithm," ITS '98 Proceedings, Volume: 1, pp. 207 -212, 1998.

10. Doval В., d'Allesandro Ch. Spectral Correlates of Glottal Waveform Models: an Analytical Study.// ICASSP-97, pp. 1295-1299.

11. Fant G. Voice Source Parameters in Continuous Speech. // ICSLP-94, pp. 1451-1454.

12. Franti P., Kivijarvi J. Random swapping technique for improving clustering in unsupervised classification. — Режим доступа:ftp://ftp.cs.joensuu.fi/franti/papers/scia99-l.ps

13. M.Franti P., Kivijarvi J. Randomized local search algorithm for the clustering Problem.//Pattern Analysis an Application, 3(4): 358-369, 2000. Режим доступа: ftp://ftp.cs.joensuu.fi/franti/papers/rls.ps

14. Furui S. An overview of speaker recognition technology. In Proc. ESCA Workshop on Automatic Speaker Recognition Identification and Verification, pages 1-9, 1994.

15. Gray R. M. Vector quantization. // IEEE ASSP Mag., vol. 1, pp. 4-29, April 1984.

16. H. Hoge. European Speech Databases for Telephone Applications.// ICASSP-97, 1771-1775.

17. HeJ A New Codebook Traning Algorithm for NQ-based Speaker Recognition //ICASSP- 97,1091-1094.

18. Higgins A., Porter J., L.Bahler. YOHO Speaker Authentication.// Final Report, ITT Defense Communication Division, 1989. Режим доступа: http://cs.joensuu.fi/pages/tkinnu/research/pdf/IsSpeechClustered.pdf

19. IDIAP Research Institute. Режим доступа: http://www.idiap.ch/

20. Jyh-Shing Roger Jang. Audio Signal Processing and Recognition. National Tsing Hua University. Режим доступа: http://neural.cs.nthu.edu.tw/jang/

21. Kinnunen Т., Franti P. Speaker Discriminative Weighting Method for VQ-based Speaker identification. — Режим доступа: http://cs.joensuu.fi/pages /tkinnu/research/pdf/Discriminative wightingMethod.pdf

22. Kinnunen Т., Karkkainen Т., Franti P. Is speech data clustered? statistical analysis of cepstral features. - Режим доступа: http://cs.joensuu.fi/pages/tkinnu/research/pdf/IsSpeechClustered.pdf

23. Kinnunen Т., Kilpelainen Т., Franti P. Comparison of clustering algorithms in speaker identification", Proc. LASTED Int. Conf. Signal Processing and Communications (SPC): 222-227. Marbella, Spain, 2000.

24. Kohonen Т. The Self Organization Map.// Proc. IEEE, v.78, N9, pp. 14641480.

25. Martin A., Doddington G., Kamm Т., Ordowski, M., and Przybocki, M. The DET curve in assessment of detection task performance.//1997, In Proceedings of the European Conference on Speech Technology, pages 1895-1898, Rhodes.

26. Molau, S., Pitz, M., Schluter, R. and Ney, H., "Computing Mel-frequency cepstralcoefficients on the power spectrum," Acoustics, Speech, and Signal Processing Proceedings, Volume: 1, pp. 73 -76, 2001.

27. Pandit M. and Kittler, J.Feature selection for a DTW-based speaker verification system.// 1999.

28. Ргос. Workshop Automatic Speaker Recognition, Identification, Verification. 1994 (Switzerland).

29. Rabiner L. Juang B.H. Fundamentals of Speech Recognition. N.Y.: Prentice Hall, 1993.

30. Rosenberg A. E, Parthasrathy S. Speaker Bechground Models for Connected Digit Password Speaker Verification. // ICASSP-96, 81-84.

31. Rosenberg A. E., Soong F.K. Evalution of a Vector Quantization Talker Recognition System in Text Independent and Text Dependent Modes.// Computer Speech and Language, v.2, pp. 143-157, 1987.

32. Schmidt M., Gish H. Speaker Identification via Support Vector Classifiers. ICASSP-96,105-109.

33. Shroeter J., Soudhi M. M. Techniques for Estimation Vocal-Tract Shape from Speech Signal. // IEEE Trans. SAP-2 , N1, pp. 133-150, 1994.

34. Stevens, Stanley Smith; Volkman; John; & Newman, Edwin. (1937). A scale for the measurement of the psychological magnitude of pitch. Journal of the Acoustical Society of America, 8 (3), 185-190.

35. Stuart N Wrigley, 1998. Speech Recognition by Dynamic Time Warping -Режим доступа: http://www.dcs.shef.ac.uk/~stu/com326/index.html

36. Tony Robinson. Speech Analysis. Lent Term 1998. — Режим доступа: http://mi.eng.cam.ac.uk/~ajr/SA95/node54.html

37. Umesh, S., Cohen, L. and Nelson, D., "Frequency warping and the Mel scale" IEEE Signal Processing Letters, Volume: 9, Issue: 3, pp. 104 -107, 2002.

38. Wenndt S, Shamsunder S. Bispectrum Features for Robust Speaker Identification // ICASSP-97, 1095-1098.

39. Wong, E. and Sridharan, S. "Comparison of linear prediction cepstrum coefficients and Mel-frequency cepstrum coefficients for language identification," Intelligent Multimedia, Video and Speech Processing Proceedings, pp. 95 -98, 2001.

40. Zhenli Yu, P.c.Ching. Determination of Vocal-tract Shapes from Farmaut Frequencies Based on Perturbation Theory and Interpolation Method // ICASSP-96, pp. 369-372.

41. Ахмад X. M. Введение в цифровую обработку речевых сигналов : учеб. пособие / X. М. Ахмад, В. Ф. Жирков ; Владим. гос. ун-т. Владимир: Изд-во Владим. Гос. ун-та, 2008. - 192 с. - ISBN 5-89368-751-5.

42. Ахмад X. М. Выделение наиболее информативных характеристик речевого сигнала // Вестник ТГТУ, т. 14, №1. — Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835.

43. Ахмад X. М. Оптимизированный алгоритм поиска минимального наименьшего маршрута для симметричного алгоритма ДИВ в задачах распознавания дикторов // Вестник ТГТУ, т. 14, №1. Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835

44. Ахмад X. М. Параметрическое представление речевого сигнала для задачи распознавания спикера. Применение Mel частотных кепстральных коэффициентов // Математические методы в технике и технологиях - ММТТ-20. сб. трудов XX Междунар. науч. конф. в 10 т.

45. Т.6. Секция 12 /под общ. ред. В. С. Балакирева. Ярославль: Изд-во Яросл. гос. техн. ун-та, 2007. - 330с. С 66-68. ISBN 5-230-20703-5.

46. Ахмад X. М. Система идентификации говорящего методом создания кодовых книг образцов речи // Вестник ТГТУ, т. 14, №1. — Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835

47. Ахмад Х.М. Обнаружение начала и конца речи в сигнале с использованием его магнитуды // Вестник ТГТУ, т. 13, №2А. — Тамбов, Изд-во ТГТУ 2007. С 449-451. ISSN 0136-5835

48. Ахмад Х.М. Определение высоты тона методом произведения гармоник спектра речевого сигнала // Вестник ТГТУ, т. 13, №3. Тамбов, Изд-во ТГТУ 2007. С 712-714. ISSN 0136-5835

49. Ахмад Х.М. Сравнительное исследование эффективности различных методов кепстрального описания речевых сигналов в задачах распознавания // Вестник ТГТУ, т. 13, №4. Тамбов, Изд-во ТГТУ 2007. С 887-891. ISSN 0136-5835

50. Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сигналов: пер. с англ. / Под ред. И.Б. Фоменко. — М.: Связь, 1980.-248с.

51. Винцюк Т.К. Анализ, радпознавание и интерпретация речевых сигналов. Киев. -"Наукова думка", 1987. 264с.

52. Галунов В.И. Режим доступа: http://www.auditech.ru/article/verobz.doc.

53. Гольденберг JI. М, Матюшкин Б. Д., Поляк М. Н. Цифровая обработка сигналов //- М.: Радио и связь, 1990. 256 е.: ил. ISBN 5-256-00678-9

54. Горелик А. Д., Гуревич И. Б., Скрипкин В. А. Современное состояние проблемы распознавания. М. радио и связь, 1985. - с. 161.

55. Горелик А. Л., Скрипкин В. А. Методы распознавания: Учеб. пособие для вузов. -3-е изд., перераб. и доп. М.: Высш. шк., 1989. - 232 с.

56. Доддингтон. Дж. Р. Распознавание дикторов: Идентификация людей по голосу // ТИИЭР, 1985,т.73,№11,с. 129-145.

57. Каппелини В., А. Дж. Константинидис, П. Эмилиани. Цифровые фильтры и их применение // Пер. с англ. — М.: Энергоатомиздат, 1983.

58. Косарев Ю. А. Естественная форма диалога с ЭВМ // Л: Машиностроение, 1989.

59. Кухарев Г.А. Биометрические системы: Методы и средства идентификации личности человека. — СПб.: Политехника, 2001. 240 с. ISBN 5-7325-0623-3.

60. Людовик Е.К., Шинкаж А.Г. Мера общности происхождения реализаций речевого сигнала // Распознавание образов (изображений и речи). -Киев: ИКАНУССР, 1980, -с.56-65.

61. Макхоул Дж. Векторное квантование при кодировании речи // -ТИИЭР, 1985,т.73, №11,с. 19-60.

62. Маркел Дж. Д. Грэй А. X Линейное предсказание речи. Пер. с англ. ЛТод ред. Ю.Н. Прохорова М Связь, 1980.

63. Марпл.-мл. С.Л. Цифровой спектральный анализ и его приложения: Пер. с англ.-М.: Мир.- 1990.

64. Плотников В.Н., Суханов В. А., Жигулевцев Ю. Н. Речевой диалог в системах управления. Москва, Изд-во "Машиностроение", 1988.

65. Рабинер JI.P, Гоулд Б. Теория и применение цифровой обработки сигналов // Москва, Изд-во "Мир", 1978. 848 с.

66. Рабинер JI.P, Шафер Р,В. Цифровая обработка речевых сигналов // Москва, Изд-во "Радио и связь", 1981.-496 с.

67. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу // Москва, Изд-во "Радио и связь", стр. 1-224.

68. Рамишвили Г.С. Речевой сигнал и индивидуальность голоса. // Изд-во "МЕЦНИЕРЕБА", Тбилиси, 1976, стр. 1-183.

69. Речевые технологии. Режим доступа: http://speech-soft.m/index.php?a=inf&inf=view&id inf=l 181023460 .

70. С. Протасов. Pick-by-Voice — технология третьего тысячелетия. // Журнал «Склад и техника» №2/2006. — Режим доступа: http://www.sitmag.ru/

71. Секунов Н. Ю. Обработка звука на PC. Т СПб.: БХВ-Петербург, 2001. ISBN 5-94157-037-6

72. Сергиенко А. Б. Цифровая обработка сигналов. СПБ.: Питер, 2003. -604с.: ил. ISBN 5-318-00666-3.

73. Системы распознавания русской речи в са11-центрах и IVR-системах . CONNECT! Мир Связи. Компьютеры и системы. Ноябрь, 2004. Режим доступа: http://www.connect.ru/article.asp?id=5188

74. Солонина А. И., Улахович Д. А., Арбузов СМ. и др. Основы Цифровой обработки сигналов / СПБ.: Петербург, 2003. -576 с. ISBN: 5-94157-388.

75. Технология VoiceCom. Центр речевых технологий (ЦРТ), РФ. — Режим доступа: http://speechpro.ru/rus/company/acomp/

76. Хэмминг Р. В. Цифровые фильтры // Пер. с англ. — М.: Сов. Радио, 1980.

77. Центр Речевых Технологий. — Режим доступа: http://www.mobiledevice.ru/russograf-VoiceCom-Software-raspoznavanie-slitnoi-russkoi-rechi.aspx .

78. Центр речевых технологий. Российские речевые технологии. Новые успехи и новые достижения. Режим доступа: http://www.bdi.spb.ru/arch/75/75 41 .pdf.

79. Вычисление параметров реч. сигнала

80. Mel — частотные коэффициенты (MFC)1. Переходы через нуль (ZC)1. Регистрация (Training)1. Идентификация (Testing)

81. Матрица признаков (Образцы)1. DTW1. Матрица признаков (Новые)

82. Результаты (Принятое решение)1. Алгоритмы обучения

83. Создание кодовой книги спикера (ККС)

84. Создание основной ККС и вычисление весовых коэффициентовкнига

85. Алгоритм вычисл, Весовых коэф.1. Алгоритмы тестирования

86. Высказывание (Реч. сигнал) для тестирования1. HPF1. Сегментация1. Вычисление КК

87. Матрица весовых коэффициентов22.

88. Алгоритм сходства (Подобия)о 11. Выбор max1. Идентификация1. К>

Похожие работы

Информатика, вычислительная техника и управление
05.13.00