автореферат диссертации по приборостроению, метрологии и информационно-измерительным приборам и системам, 05.11.16, диссертация на тему:Разработка критериев и алгоритмов сегментации речевого сигнала на участки "ТОН/НЕ ТОН" для метода выделения основного тона в информационно-измерительных системах речевой технологии
Автореферат диссертации по теме "Разработка критериев и алгоритмов сегментации речевого сигнала на участки "ТОН/НЕ ТОН" для метода выделения основного тона в информационно-измерительных системах речевой технологии"
На правах рукописи
УДК 621.391
АРХИПОВ Игорь Олегович р г 0 д
3 о опт ш
Разработка критериев и алгоритмов сегментации речевого сигнала на участки "ТОН/НЕ ТОН" для метода выделения основного тона в информационно-измерительных системах речевой технологии
Специальность: 05.11.16 - Информационно-измерительные системы (в науке и промышленности)
Автореферат диссертации на соискание ученой степени кандидата технических наук
Ижевск - 2000
Работа выполнена в Ижевском государственном техническом университете (ИжГТУ)
Научный руководитель -
к.т.н., доцент В.Б. Гитлин
Официальные оппоненты - д.т.н., профессор П.Г. Кузнецов
к.т.н., ст. научный сотрудник А.И. Мурынов
Ведущая организация - Удмуртский государственный университет (УдГУ)
Защита диссертации состоится 9 июня 2000г. в 1400 на заседании диссертационного совета Д064.35.01 в ИжГТУ по адресу: 426069, г. Ижевск, ул. Студенческая, 7.
Отзывы на автореферат, заверенные гербовой печатью, просим высылать по указанному адресу в двух экземплярах.
С диссертацией можно ознакомиться в библиотеке ИжГТУ
Автореферат разослан-^-?-^У2000г-
Ученый секретарь диссертационного совета
д.т.н., профессор
В.И. Гольдфарб
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Объектом исследования является информационно-измерительная система речевой технологии.
Предметом исследования являются критерии, признаки и алгоритмы классификации речи на тональные и нетональные интервалы синхронно с ОТ, способы вычисления признаков классификации речи на участки Т/НТ, повышающие надежность распознавания и определение оптимальной полосы частот при вычислении энергии речи для классификации речевого сигнала на тональные и нетональные интервалы, локальный алгоритм выделения ОТ на основе СБ-метода (08-цепегагес! БоНгопе - генерируемый, искусственный, солитон), фильтра предварительной обработки речевого сигнала, методика сравнения качества работы разных выделителей ОТ.
Актуальность темы. Звуки речи делят на вокализованные (тональные) и не-вокализованные (нетональные). К вокализованным относят звуки, произносимые с участием голосового источника, к невокализованным - без участия голосового источника. Наличие или отсутствие вокализации есть один из основных признаков акустического сигнала речи. Оценка наличия или отсутствия вокализации необходима для построения систем распознавания, компрессии и синтеза речи.
Устройства принятия решения о наличии или отсутствии вокализации получили название устройств выделения сигнала "ТОН/НЕ ТОН" (Т/НТ).
Одним из основных параметров голосового источника является длительность периода колебаний голосовых связок Т0, которая получила название периода основного тона (ОТ), величину обратную периоду ОТ называют частотой ОТ (Рд). Основной тон совместно с признаком Т/НТ переносит информацию о маркерах сегментации непрерывного потока речи, информацию о коммуникативном типе высказывания, о контексте произнесения, об индивидуальности голоса диктора и его эмоциональном состоянии, об окружающей обстановке, о стиле произнесения, о заболеваниях речевого аппарата, об уровне культуры диктора и его интеллектуальном развитии и т.д. Влияние указанных факторов определяет динамический диапазон и значения частоты ОТ, динамику и временные параметры изменений частоты ОТ.
Задача измерения частоты основного тона является одной из важнейших для речевых информационно-измерительных систем (ИИС) и известна как задача выделения частоты ОТ.
Человек легко определяет частоту ОТ при прослушивании речи. Однако построить устройство, автоматически измеряющее частоту ОТ с малой ошибкой и малой задержкой во времени даже при относительно низком уровне помех довольно трудно, о чем свидетельствует длительный период исследований в данной области.
Значения частоты ОТ и признака Т/НТ используют при идентификации и верификации диктора по голосу, в системах с речевым ответом, в криминалистике в системах компрессии и сотовой телефонии, в медицине и т.д. Информация о значениях периода ОТ, о моментах возбуждения речевого тракта и о признаке Т/НТ, позволяет точнее оценивать другие параметры речи, используемые, например, в ИИС обработки, анализа и распознавания речи. Повышение точности измерения значений периода
ОТ, определения моментов возбуждения речевого тракта и переходов Т/НТ и "НЕ ТОН/ТОН" (НТ/Т) позволит повысить надежность работы подобных ИИС.
Диссертационная работа, направленная на поиск решений, позволяющих повысить точность и надежность алгоритмов принятия решения Т/НТ и выделения ОТ представляется актуальной.
Целью диссертационной работы является повышение точности речевой ИИС при измерении частоты ОТ и при выделении моментов переходов Т/НТ и НТ/Т в непрерывном речевом сигнале.
Для достижения поставленной цели определены следующие научно-технические задачи:
1. Исследование признаков, позволяющих принимать решение Т/НТ синхронно с ОТ и обеспечивающих надежное принятие решения Т/НТ.
2. Разработка критериев оценки надежности принятия решения Т/НТ по совокупности признаков.
3. Оценка параметров решающих правил в алгоритме принятия решения Т/НТ в зависимости от уровня аддитивного шума и от ограничения частотной полосы сигнала.
4. Оценка синхронного и асинхронного методов принятия решения Т/НТ.
5. Разработка алгоритма выделения ОТ по 08-методу с применением предлагаемого алгоритма принятия решения Т/НТ.
6. Оценка параметров фильтра предварительной обработки, обеспечивающего минимизацию ошибок оценки положения начал периодов ОТ при их выделении методом ОБ.
7. Сопоставительные испытания разработанного алгоритма выделения ОТ по ОБ-методу и алгоритма принятия решения Т/НТ с известными методами выделения ОТ в различных акустических условиях.
8. Оценка результатов сопоставительных испытаний разработанного алгоритма выделения ОТ по СБ-методу и алгоритма принятия решения Т/НТ.
Методы исследования включают в себя методы математической статистики, методы теории распознавания образов, методы теории и распознавания речевых сигналов, методы математического моделирования на ЭВМ, методы теории алгоритмов и программ, экспериментальные исследования с использованием стандартного математического обеспечения ЭВМ и собственного программного обеспечения.
На зашиту выносятся:
1. Алгоритм принятия решения "ТОН/НЕ ТОН" синхронный с основным тоном.
2. Методика повышения надежности принятия решения Т/НТ путем добавления шума к сигналу при вычислении частотных и спектральных признаков классификации.
3. Методика выбора полосы частот сигнала обеспечивающей повышение надежности принятия решения Т/НТ по энергетическому критерию.
4. Критерий оценки признака по допустимой ширине области смещения порога принятия решения.
5. Алгоритм выделения ОТ по СБ-методу с синхронным с ОТ принятием решения Т/НТ.
6. Методика оценки качества предварительной фильтрации по величине ошибки оценки начал периодов ОТ СБ-методом.
7. Методика сравнения качества работы выделителей ОТ по обобщенному критерию оценки качества в условиях шума и ограничения сигнала по полосе.
В диссертационной работе получены следующие основные научные результаты.
1. Разработан алгоритм выделения ОТ, основанный на применении активно генерируемой функции решений.
2. Разработан алгоритм принятия решения "ТОН/НЕ ТОН", выполняемый синхронно с ОТ.
3. Предложен критерий оценки комбинаций признаков принятия решения "ТОН/НЕ ТОН" с точки зрения допустимой неточности выбора порога классификации.
4. Разработана методика повышения надежности принятия решения "ТОН/НЕ ТОН" путем добавления шума к речевому сигналу при вычислении частотных и спектральных признаков принятия решения "ТОН/НЕ ТОН".
5. Предложен методика попарного сравнения качества работы выделителей ОТ по обобщенной ошибке.
Практическая ценность и реализация результатов работы. На основе проведенных исследований разработан синхронный с ОТ детектор вокализации совместно с локальным выделителем ОТ по СБ-методу. Найдены значения порогов принятия решения Т/НТ по энергии сигнала в полосе частот, по нормированному коэффициенту корреляции с единичной задержкой и по частоте пересечений нуля. Оценен уровень добавляемого шума, обеспечивающий повышение надежности принятия решения Т/НТ по нормированному коэффициенту корреляции с единичной задержкой и по частоте пересечения нуля. Выполнено сравнение СБ-метода, пикового метода, фильтрового метода, метода Рабинера-Голда, автокорреляционного метода, кепстрального метода и метода ЛЛК. Получены оценки качества выделения ОТ указанными методами для сигнала без искажений, для сигнала с добавляемым белым шумом при отношении С/Ш=10дБ и для телефонного сигнала. Сделана оценка области применимости СБ-метода для выделения ОТ. Показано, что СБ-метод совместно с синхронным детектором вокализации позволяет выделять ОТ в реальном времени для телефонного сигнала и для сигнала с добавленным шумом вплоть до отношения С/Ш=0дБ.
Разработанные в диссертационной работе подходы к предварительной обработке речевых сигналов нашли применение в ИИС анализа и обработки акустических сигналов на ДОАО "Ижевский оружейный завод", на ОАО "Вятско Полянский машиностроительный завод Молот", в научно-техническом центре "Вычислительная техника", где удалось повысить надежность регистрации акустических событии и точность измерения их параметров, что подтверждено соответствующими актами, а также в виде'программ и методик внедрены в учебной и научной работе кафедры вычислительной техники Ижевского государственного технического университета.
Апробация работы. Основные результаты работы докладывались на IV Всероссийской с международным участием конференции "Распознавание образов и анализ изображений: новые информационные технологии" (г. Новосибирск,
1998г.), IX сессии Российского акустического общества "Современные речевые технологии" (г. Москва, 1999г.), на международной научно-технической конференции "Информационные технологии в инновационных проектах" (г. Ижевск, 2000г.), семинарах кафедры вычислительной техники ИжГТУ (г. Ижевск, 19971998г.).
Публикации. По теме диссертации опубликовано 11 работ.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложения. Основной текст изложен на 150 машинописных страниц с иллюстрациями. Список литературы включает 119 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность, сформулированы цель и задачи исследований, дана общая характеристика работы. Кратко изложено содержание работы, отражены основные положения, имеющие научную новизну и практическую ценность.
В первой главе работы изложены основные принципы теории речеобразова-ния, связанные с проблематикой измерения ОТ и классификации речи по способу образования. Рассмотрено современное состояние вопроса построения детекторов вокализации и выделителей основного тона. Указаны проблемы сравнения качества измерения ОТ разными методами. Показаны пути повышения надежности измерения ОТ и классификации речи по способу образования. Сформулированы требования, которым должен удовлетворять разрабатываемый детектор вокализации.
Во второй главе описана методика классификации речи по признаку Т/НТ синхронно с ОТ. Предложен метод повышения надежности принятия решения о наличии вокализации по спектральным и частотным признакам. Предложен простой в вычислении обобщенный признак Т/НТ. Предложена характеристика качества распознавания, позволяющая оценить чувствительность ошибки распознавания к смещению порога классификации. Приведены результаты экспериментов по определению параметров классификации для всех признаков и разных способов их вычисления. На основании анализа результатов экспериментов даны рекомендации по использованию признаков классификации в различных условиях, а также по настройке детектора вокализации.
Пусть заданы два класса Ai и А2 и для классификации используется признак х. На рис. 1 показан случай пересечения гистограмм распределений признака х, соответствующих классам Ai и А2.
В качестве критерия распознавания выберем такое пороговое значение признака Хо, при котором вероятность суммарной ошибки распознавания рч минимальна.
Px = P(Al)'Pl + P(A2)-P2' (1)
где р(А[), р(А2) априорные вероятности появления событий А| и А2; р,, р2 вероятности ошибочной классификации событий А\ и А2.
Пусть класс А] соответствует классу нетональных звуков, класс А2 - классу тональных звуков. Вероятность р [ есть вероятность ошибочного принятия решения "ТОН" (ошибка Т/НТ). Вероятность р2 есть вероятность ошибочного принятия решения "НЕ ТОН" (ошибка НТ/Т).
Xi Xo X; Значения признака классификации X
Рис. 1 Вычисление порога классификации
х
Параметры речи могут значительно изменяться со временем даже для одного диктора. Нестационарность речевого сигнала и ограниченность статистики речи не позволяют оценить точное значение порога. От вида распределений признака классов А( и Ло будет зависеть чувствительность вероятности суммарной ошиб- I ки к смещениям порога вблизи "иде- <£ ального" х0.
Предложим критерий, позволяющий оценить ширину Дх области вблизи "идеального" порога х0, внутри которой смещение порога будет вызывать допустимое увеличение ошибки классификации. Чем шире данная область, тем менее критичной к смещению порога становится ошибка классификации. Зададим значение допустимого увеличения вероятности ошибки классификации за счет смещения порога Др. В настоящей работе принято Др=2%. Данная величина означает, что ошибка классификации на границах области допустимого смещения порога (хь хг) будет не более чем на 2% больше, по сравнению с ошибкой при "идеальном" пороге хо. Определим критерий следующим образом
(х2 -х,)(М2 -М,)_ Дх-АМ
(2)
где Мь \Ь и Ст[, а2 - математические ожидания и средние квадратические отклонения распределений А[ и А2.
Из выражения (2) следует, что /и, возрастает с увеличением области допустимого смещения порога Ах, с ростом расстояния между математическими ожиданиями разделяемых классов Mi, Mj и с уменьшением среднего квадратического отклонения этих классов. Таким образом, чем больше значение величины Х^, тем менее чувствителен признак х к смещению порога х0 и тем лучше разделимость классов. Можно сказать, что величина Ах выражает нечувствительность ошибки к смешению порога (НОСП) хо, причем предпочтение отдается признакам, обеспечивающим лучшую разделимость классов.
Решение о принадлежности данного кадра анализа к какому-либо классу будем принимать на основе трех признаков:
1) нормированного коэффициента корреляции с единичной задержкой
( N-1 / N
i = Kr-h+ y.si-s,,,/ysz i (з)
(4)
R(l) = Kr jl+SVS 2) энергии речи в полосе частот в логарифмическом масштабе
E = KE-101g[Xx2(n)/(i2-i1)]
3) логарифмической частоте пересечений нулевого уровня сигналом (ЛЧПН)
: К
ZC
■!g[l + -]. 2t
(5)
где I - длительность интервала анализа; ш - количество переходов через нулевой уровень за время I.
Величины. Кг, КЕ> К2С в выражениях (3), (4), (5) есть нормирующие множители, значения которых выбрали так, чтобы величины Щ1), Е и имели примерно равный размах. Кг=50, Ке=3, Кгс—20.
ЛЧПН на вокализованных интервалах имеет меньшие значения, чем на интервалах шумовых звуков, на интервалах паузы значения ЛЧПН зависят от спектра фонового шума. По выражению 3 ¿ложно оценить общий наклон спектра сигнала. Отношение (3) изменяется в пределах [0;100], причем для вокализованных звуков - близко к 100, а для шумовых - близко к 0 или значительно меньше 100.
Значения признаков 11(1) и ЛЧПН на интервалах пауз зависят от фонового шума и может изменяться в значительных пределах. Для лучшего разделения паузы и вокализованного сигнала необходимо приблизить спектр паузы к спектру не-вокализованных звуков. Для этой цели предложено смешивать сигнал с шумом определенного уровня и определенной спектральной окраски до вычисления ЛЧПН и признака 11(1):
8К(0 = 8(0 + И(0, (6)
где Бм® - сигнал с добавленным шумом, Б(0 - исходный речевой сигнал, N(1) -шум, имеющий спектр с подъемом верхних частот на бдБ/окт, \ - номер отсчета.
-Значения уровня добавляемого шума при вычислении признаков 11(1) и ЛЧПН, а также ширины полосы частот, в которой следует вычислять энергию речи, найдены в ходе экспериментов, из условия минимума вероятности ошибки классификации и максимума критерия НОСП.
В качестве речевого материала использовали по одному произнесению фраз "Не видали мы такого невода", "Саша кусал сало", "На ухабе" и "Жирные сазаны ушли под палубу". В эксперименте принимали участие 12 дикторов (6 мужчин и 6 женщин).
Указанные параметры для чистого сигнала определяли для синхронного с ОТ и асинхронного с ОТ методов принятия решения Т/НТ. Для телефонного сигнала и сигнала с аддитивным шумом при С/Ш=10дБ анализ проводили только синхронно с ОТ. При вычислении признаков асинхронно с ОТ длительности интервалов анализа для мужских голосов равнялись 20мс, для женских голосов - Юме. Интервалы анализа следовали с перекрытием через 2мс. Телефонную речь получали при помощи полосового фильтра Баттерворта восьмого порядка с полосой пропускания 300..,3400Гц.
В ходе экспериментов получено, что уровни добавляемого шума при вычислении признаков 11(1) и ЛЧПН совпадают, а именно: для синхронного с ОТ и асинхронного с ОТ способов вычисления признаков по чистому сигналу значение уровня добавляемого шума составляет ЗОотсчетов (уровней квантования) при среднем размахе речевого сигнала около 2000 отсчетов; для телефонного сигнала значение уровня добавляемого шума составляет величину 15отс.; при работе с зашум-ленным сигналом добавлять шум нецелесообразно. Показано, что при вычислении энергии речи в полосе частот снижение верхней границы полосы до диапазона существования первой гармоники ОТ повышает надежность принятия решения Т/НТ.
Высказано предположение, что принятие решения Т/НТ по трем признакам совместно должно повысить точность классификации. Коэффициент Я(1) и энергия в полосе частот имеют максимальные значения на тональных интервалах. ЛЧПН на тональных интервалах минимальна. Предложено объединить три признака в обобщенный признак Т/НТ следующим образом
11(1)-Е
G = ■
(7)
Таблица 1 Параметры классификации речи по признаку 11(1), энергии в полосе частот, ЛЧПН и обобщенному
В табл.1 приведены значения вероятности ошибки классификации и критерия НОСП для исследуемых признаков, включая обобщенный признак в.
Из табл.1 следует, что результатом объединения трех признаков стало повышение точности классификации.
Дальнейшее повышение надежности принятия решения Т/НТ может быть достигнуто на этапе постобработки с учетом статистических свойств речи.
Пусть заданы два класса А] и А2. Класс А) соответствует нетональным звукам, класс А2 - тональным. Для распознавания используем обобщенный признак Т/НТ. С помощью порогов §о, §[ и g2 разобьем пространство признака на четыре области. На рис.2 изображены примеры гистограммы обобщенного признака Т/НТ для тональных и нетональных кадров анализа, а также показаны расположения порогов классификации. Область левее нижнего порога считается нетональной. Область правее верхнего порога §2 считается тональной. Пороги gl и %г устанавливают так, что вероятности попадания тонального звука в нетональную область и наоборот не превышают 2%. Область "2" на рис.2 есть область неуверенного принятия решения "НЕ ТОН", область "3" - неуверенного принятия решения "ТОН". Порог go, разделяющий области "2" и "3" устанавливается из условия минимума вероятности суммарной ошибки классификации. Области "1" и "4" не требуют уточнения принятия решения. Если кадр попал в область "2" или "3" требуется уточнить к какому классу он принадлежит. При этом попадание в область "2" должно облегчить принятие решения "НЕ ТОН", а попадание в область "3" - решения "ТОН".
Окончательное решение Т/НТ на интервалах "2" и "3" принимают с учетом диапазона возможных значений длительности периода ОТ диктора, с учетом допустимого изменения длительности соседних периодов ОТ (Т0), с учетом длительности вокализованного или невокализованного интервала. В ходе экспериментов найдено, что в 95% случаев изменения длительностей соседних периодов ОТ на
Способ вычисления признака Признак классификации Параметры классификации
Вероятность ошибки классификации Критерий НОСП
Чистый сигнал синхронно с ОТ Щ1) 0,0695 4,0573
Е 0,0735 4,2712
гсг 0,1135 1,0834
в 0.059 5.5143
Чистый сигнал асинхронно с ОТ Я(П 0,098 3.0211
Е 0,104 2,9484
2сг 0,1125 3.9402
й 0,104 4,2484
Телефонный сигнал синхронно с ОТ Я(1) 0,1445 3,9043
Е 0,1465 3,4671
г„ 0,204 2,6566
й 0,121 4,2636
С/Ш 10 дБ синхронно с ОТ Щ1) 0,111 2,712
Е 0,129 1.8345
г„ 0,175 1,7725
в 0.101 3.0223
Обобщенный признак Т/НТ Рис. 2 Расположение порогов классификации
стационарных интервалах вокализации не превосходят 23%, а на г,г переходах НТ/Т - не более 92%. 1,8 ■ Все последовательные интерва- ю 1,6 лы, ошибочно отнесенные к клас- § 1,з су тональных, общей длительно- £ 1,1 ■ стью менее 20мс классифициро- | о,э ■ вали, как нетональные. 8.0,6
После окончательной коррек- т 0,4 . тировки решения Т/НТ на чистом 0,2 ■ сигнале число ошибок принятия решения НТ/Т (т.е. принятия решения "НЕ ТОН", когда на самом деле следует принять решения "ТОН") не превышает 1.24% от общего числа интервалов анализа, а число ошибок принятия решения Т/НТ (т.е. принятия решения "ТОН", когда на самом деле следует принять решения "НЕ ТОН") достигнуто не более 1%.
При вычислении признаков Т/НТ синхронно с ОТ получен четырехкратный выигрыш в скорости по сравнению с асинхронным с ОТ способом вычисления признаков Т/НТ.
В третьей главе изложены основные принципы СБ-метода. Представлен алгоритм работы выделителя ОТ включая этапы предварительной обработки речевого сигнала, маркировки сигнала по СБ-методу, принятия решения Т/НТ по синхронному с ОТ способу. Приведены результаты экспериментов по изучению СБ-метода и метода предварительной обработки речи. На основании результатов экспериментов даны рекомендации по настройке СБ-метода и определению частоты среза фильтра нижних частот метода предварительной обработки речи в различной акустической обстановке.
На основе понятия о генерируемом солитоне, состоящем в поиске границ дискретных событий в непрерывном сигнале, В.Б. Гитлин предложил метод выделения ОТ, названный "СБ-метод", который позволяет уменьшить количество ошибок, вызываемых наличием ложных максимумов за счет активной генерации линейной функции решений. Задачей диссертационной работы было разработать локальный алгоритм выделения ОТ на основе СБ-метода совместно с этапами предварительной обработки и синхронного с ОТ принятия решения Т/НТ.
Существенным отличием выделителя ОТ по СБ-методу является активная генерация функций решений, что позволяет совместить высокое разрешение по времени, присущее пиковым выделителям ОТ, с пониженной чувствительностью предложенного метода к появлению ложных максимумов на периоде ОТ, обеспечивает возможность синхронного с ОТ анализа признака Т/НТ и, как следствие, повышает надежность принятия решения Т/НТ и снижает временные затраты на принятие этого решения. СБ-метод предъявляет ряд требований к форме лепестка главного максимума сигнала, соответствующего моменту возбуждения речевого тракта. Основной лепесток должен:
1) иметь амплитуду, превышающую функцию решений в момент предполагаемого возбуждения речевого тракта;
2) форма основного лепестка должна быть гладкой в области максимума;
3) не должно быть добавочных максимумов на переднем фронте основного лепестка сигнала.
Для удовлетворения изложенных требований на этапе предварительной обработки к речевому сигналу применяли низкочастотную фильтрацию фильтром Баттерворта восьмого порядка.
В.Б. Гитлиным предложен критерий выбора частоты среза ФНЧ по минимуму дисперсии задержки главных максимумов после фильтрации. Окончательное решение о выборе конкретного значения Гс необходимо принимать с учетом повышения точности и надежности выделения ОТ конкретным выделителем ОТ, на входе которого устанавливают фильтр предварительной обработки. С этой целью были проведены эксперименты, результаты которых показаны на рис.3.
На рис.3 представлены экспериментальные точки и сглаженные кривые для зависимостей математического ожидания и среднего квадратического отклонения задержки от час-
4
3,5 g 3 О 2.5 О 2 1.5 1 ■
I
500 1000 1500 2000
Частота среза ФНЧ, Гц 6)
Рис. 3 Экспериментальные точки и сглаженные кривые для зависимостей тоты среза ФНЧ для общей выборки. Сглажи- характеристик распределения задержки вание экспериментальных точек проведено по главного максимума от частоты среза методу наименьших квадратов средствами ФНЧ для общей выборки: а) математи-пакета Excel. Экспериментальные точки гра- веское ожидание; б) среднее квадратах ческое отклонение, фика математического ожидания задержки
максимума сглажены с помощью степенной функции, экспериментальные точки среднего квадратического отклонения сглажены полиномом третьей степени. Сглаживающая функция для математического ожидания выражается следующим образом:
M(fc) = 25540- fc'U519, . (8)
где М - математическое ожидание задержки главного максимума.
Рассмотрим выводы, сделанные относительно правил выбора частоты среза ФНЧ, используемого на этапе предварительной обработки:
1. С ростом' частоты среза ФНЧ уменьшается математическое ожидание задержки главного максимума. Математическое ожидание задержки главного максимума не зависит от диктора и полностью определяется характеристикой групповой задержки фильтра. Выражение (8) можно использовать для компенсации задержки после фильтрации ФНЧ с произвольной частотой среза.
2. Рост среднего квадратического отклонения при уменьшении fc вызван ухудшением избирательности фильтра по времени. Повышение fc выше 1500Гц приводит к возрастанию изрезанности речевого сигнала на максимумах основных лепестков возникают пульсации. Наличие дополнительных пульсаций на максимумах
основных лепестков снижает точность простановки марок методом ОБ, что приводит к росту среднего квадратического отклонения задержки.
3. Минимальное значение среднего квадратического отклонения задержки, и соответственно, максимальная точность оценки длительности периода ОТ могут быть обеспечены при выборе Гс=1200Гц. Снижение £ вплоть до £=600Гц незначительно увеличивает значение среднего квадратического отклонения. Необходимость в снижении £ до 600Гц может, например, возникнуть при анализе зашум-ленной речи. Дальнейшее снижение приводит к резкому увеличению среднего квадратического отклонения задержки. Кроме этого, в полосу пропускания фильтра предварительной обработки должна попасть хотя бы одна гармоника ОТ.
Рис.4 поясняет принцип действия СБ-метода. Сплошной линией показана функция логарифма положительной полуволны речевого сигнала, штриховой линией показана функция решений, марками Мь М2, М3 показаны главные максимумы речевого сигнала. Функция решений в предлагаемом алгоритме должна быть сгенерирована активным способом и по своей величине должна превышать ложные максимумы логарифмированного сигнала на периоде ОТ. Операция логарифмирования сжимает динамический диапазон речевого сигнала и, тем самым, выполняет операцию нормирования сигнала по амплитуде, что повышает надежность метода на участках быстрого изменения энергии сигнала.
Интервал нарастания определяется временем блокировки Твл принятия решения о новом периоде ОТ. На интервале нарастания решете о новом импульсе ОТ не принимают. Так как наиболее мощные ложные максимумы, как правило, располагаются в начале периода ОТ, а поиск максимума в этой части периода ОТ заблокирован, то наиболее опасные ложные максимумы выпадают из рассмотрения.
Спадающая часть функции решений, с одной стороны, должна обеспечивать выделение нового импульса
возбуждения речевого тракта. ^-т'-
С другой стороны, она должна превышать ложные максимумы на анализируемом периоде ОТ. Для обеспечения указанных условий, наклон спадающей части желательно выбирать более крутым, по сравнению с наклоном нарастающей части, что приводит к несимметричному виду функции решений. Поскольку на интервале нарастания решение о новом импульсе ОТ блокировано, то генерировать нарастающую часть нет смысла.
Рис. 4 Принцип действия СБ-метода
13
После пересечения функции решений с логарифмом сигнала выполняют процедуру поиска максимума. Координата максимума будет соответствовать началу следующего периода ОТ, т.е. марке М;+|. Далее находят длительность текущего периода ОТ TM=Mi4-Mi.
На рис.5 представлена структурная схема GS-метода выделения ОТ совместно с этапами предварительной обработки и принятия решения Т/НТ.
Выделитель ОТ реализован программно на языке С++.
В табл.2 представлены данные о быст- Таблица 2 Быстродействие выделителя
родействии разработанного выделителя ОТ. Испытания проводились на ПК типа IBM PC на базе процессора Pentium 133МГц под управлением операционной системы MS DOS v6.22.
В четвертой главе изложен предложенный метод сравнения качества измерения ОТ разными выделителями ОТ, позволяющий выполнять сравнение конкретных выделителей ОТ по обобщенному критерию оценки качества попарно. Приведены результаты экспериментов по сравнению качества выделения ОТ GS-методом с пиковым методом, методом Рабинера-Гоулда, автокорреляционным методом, кепстральным методом, фильтровым методом и методом ЛЛК. Сравнение проведено для не искаженной, телефонной и зашумленной речи.
Для оценки точности разработанного выделителя ОТ по методу GS выполнен сопоставительный анализ его работы с известными методами выделения ОТ. В качестве известных методов выбраны: пиковый метод (PIC), кепстральный метод (СЕР), автокорреляционный метод (АК), метод Рабинера-Голда (RG), фильтровой метод (FIL) и метод ЛЛК (LLK), реализованные в системе SIS (г. С. Петербург).
Для пояснения проблем, возникающих при выполнении сравнительного анализа по оценке точности выделения ОТ на рис. 6а приведена осциллограмма отрезка "дали", взятого из произнесения предложения "Не видали мы такого невода". На рис. 66, рис. 6в и рис. 6г изображены эталонный контур ОТ, полученный вручную,
|__Блок классификации по признаку Т/НТ _|
Рис. 5 С5-метод выделения ОТ совместно с алгоритмом принятия решения Т/НТ
ОТ по GS-методу
Диктор Среднее значение частоты ОТ, Гц Длительность фразы, мс Время обработки на ПК, мс
Мужчина 120 2082 550
Женщина 240 2459 659
а.за в.35
0.40 в.45
а)
0.50 0.55
В.за 0.35
0.40 0.45
б)
0.50 0.55
ГГ 1_
50
ТТЛ 1 1 '| ! ! 1 1 1 ' 1 1 1 1 1 1 И 1! 1 1 1
0.30 0.35
1_
0.40 0.45
В)
3.50 0.55
контур ОТ, полученный ОБ-методом, и контур ОТ, полученный пиковым методом для отрезка сигнала, показанного на рис. 6а, соответственно. Из рис. 6 видно, что пиковый метод ошибочно отнес к невокализованным звукам начальный участок фонемы /а/ на переходе от смычки /д/ к /а/ (интервал ^ на рис. 6г).
Назовем "Метод 1" СБ-метод, которому соответствует контур на рис. 6в, и "Метод 2" пиковый метод, которому соответствует контур на рис. 6г.
Метод 1 правильно определил интервал ^ как вокализованный. Метод 2 принял ошибочное решение "НЕ ТОН" на тональном интервале ^ Можно предположить, что данный интервал наиболее труден для выделения ОТ и именно на этом интервале возможно большое количество малых и больших ошибок. Эти ошибки, будучи суммированы с ошибками на интервале ^, снизят общий рейтинг Метода 1, хотя способность Метода 1 выделять траекторию на интервале ^ скорее нужно отнести к достоинствам этого метода, а не к недостаткам.
При подсчете количества малых и больших ошибок для Метода 2 интервал должен быть исключен из анализа этих ошибок. Общее количество больших и малых ошибок для Метода 2 снижается в первом приближении пропорционально отношению ^/(^-Иг) , где ^ - суммарная длительность интервалов, когда Метод 2 ошибочно принял решение "НЕ ТОН", в то время как Метод 1 принял правильное решение "ТОН"; 12 . суммарное время одновременного принятия правильного решения "ТОН" обоими методами.
Для учета влияния указанного эффекта процент больших и малых ошибок Метода 1 решено подсчитывать по формуле:
+Ь)]П1 + п2 _ кщ +п Ь + I, I, + t^
12 и ¡2
-
Е
-III 1 1 11111111111! 111111111
0.30 0.35
0.40 8.45
г)
0.50 0.55
Рис. 6 Примеры контуров ОТ: а) осциллограмма отрезка "дали" из произнесения "Не видали мы такого невода", диктор мужчина; б) эталонный контур ОТ; в) контур ОТ, полученный методом ОЭ; г) контур ОТ, полученный пиковым методом.
5 = -
(9)
где П| - количество ошибок соответствующего типа на интервале ^ , п2 - количество ошибок на интервале
Этот подход к расчету ошибок требует попарного сравнения сопоставляемых методов. Наличие ошибок различного типа затрудняет принятие решения в пользу того или иного метода. Необходима интегральная мера оценки качества работы выделителя ОТ. В качестве такой меры предлагается использовать норму вектора, вычисленную для соответствующего метода в многомерном пространстве ошибок:
+ +Мь +к5т5'т)"2 , (10)
где бут 5„н 5Ь, относительные ошибки Т/НТ, относительные ошибки НТ/Т, относительные большие ошибки и относительные малые ошибки соответственно; кйи. кцй, кь и к5т - весовые коэффициенты, определяющие вклад каждого типа ошибок в обобщенную ошибку э.
Значения этих коэффициентов к^, кпп, кь и к,т должны быть установлены исходя из некоторого критерия, например, с точки зрения их влияния, на восприятие ресинтезированной речи. В настоящих экспериментах принято к1/п[=к„1,=к?=к,т=1.
Окончательное сравнение выделителей ОТ проводили по фразе "Невидали мы такого невода", произнесенной тремя дикторами мужчинами и тремя дикторами женщинами. Запись проводили в условиях лаборатории при частоте опроса ЮкГц и квантовании на 12 разрядов. По исходным произнесениям были получены за-шумленные сигналы при отношении сигнал/шум +5дБ и телефонные сигналы с полосой частот 300...3400Гц. Отношение С/Ш измеряли на участках речевых сигналов с наибольшей амплитудой огибаюшей. Телефонные сигналы получали из исходных с помощью полосового фильтра Баттерворта восьмого порядка с полосой пропускания 300...3400Гц.
В табл.3 представлены усредненные значения обобщенной ошибки для исследованных выделителей ОТ.
Из результатов сравнения для чистого сигнала видно, что метод ОБ оказался предпочтительней по отношению к типовым методам выделения ОТ. Исключение составляет метод ЛЛК, который на чистом сигнале допустил несколько меньше ошибок, чем СБ-метод.
Если рассматривать работу выделителей ОТ на телефонном и зашумленном сигналах, то СБ-метод является бесспорным лидером по сравнению со всеми остальными. Стоит заметить, что методы ЛЛК, автокорреляционный и кепстральный имели.по одному отказу на зашумленном сигнале.
Был проведен эксперимент по сравнению качества работы выделителей ОТ по ресинтезированной речи.
В качестве речевого материала использованы следующие фразы "Саша кусал сало", "Жирные сазаны ушли под палубу", "Мама мыла Маню", "На ухабе", "Не видали мы такого невода". Фразы были произ-
Таблица 3 Значения обобщенной ошибки
Тип сигнала Средние значения обобщенной ошибки для исследованных выделителей ОТ
Р1С СЕР АК ИЬ 1ХК
Чистый сигнал 9,27 16,22 20,33 11,22 11,57 11,73 9,14
С/Ш=5дБ 24,98 37,75 36,40 40.43 35,17 39,01 .60,03
Телефонный снгнал 11,04 19,08 21,42 27,88 16,45 20,77 21,80
несены двумя дикторами мужчинами и двумя дикторами женщинами в условиях лаборатории. Запись проводилась при частоте опроса равной ЮкГц и квантовании на 12 разрядов.
Анализ речевых сигналов выполняли с помощью автокорреляционного метода линейного предсказания со следующими параметрами: порядок предсказателя - 12; размер кадра анализа - 20мс для мужских голосов, Юме для женских; сдвиг кадра анализа - половина длины кадра анализа; используемое временное окно - окно Хемминга.
На нетональных интервалах синтезатор возбуждали белым шумом. На тональных интервалах на вход синтезатора подавали последовательность единичных импульсов расстояние между которыми соответствовало периоду ОТ. Значения основного тона и границы вокализации определяли автоматически СБ-методом, как наиболее точным по предыдущим данным.
По ресинтезированной речи были построены контуры ОТ типовыми Таблица 4 Значения обобщенной ошибки при методами и СБ-методом.
По результатам сравнения (табл. 4) выделителей ОТ по ресинтезиро-
Р1С СЕР АК ИД РШ £ХК
9,91 13,39 24,56 15,76 13,90 14,64 13.11
ванной речи наиболее точным является СБ-метод.
Одним из важнейших направлений в области речевых исследований является компрессия речи. Были проведены эксперименты, целью которых было проверить применимость алгоритма СБ, как локального выделителя ОТ для целей сжатия речи.
На стационарных участках гласных звуков соседние периоды ОТ мало отличаются друг от друга как по длительности так и по спектральному составу. Данный стационарный участок, состоящий из N периодов ОТ, можно заменить тиражированием одного из них (наиболее представительного) с сохранением амплитудных соотношений между соседними периодами ОТ. Для реализации данного метода необходим локальный выделитель ОТ, способный маркировать каждый период ОТ, например по СБ-методу.
В качестве речевого материала использовали по одному произнесению фраз "Не видали мы такого невода", "Мама мыла Маню", "Саша кусал сало" произнесенные тремя дикторами мужчинами и тремя дикторами женщинами. При исходной скорости передачи 20кбайт/с, средняя скорость передачи сжатой речи равнялась 20кбит/с. Стоит упомянуть, что других мер по сжатию сигнала, кроме тиражирования периодов ОТ на стационарных участках гласных не предпринималось. Ресинтезированные фразы были предъявлены для прослушивания 40 неподготовленным слушателям, которые выставили оценку разборчивости каждой фразы по пятибалльной системе. Средний балл для всех фраз составил 3,97 балла, что по современным представлениям считается хорошим результатом.
СБ-метод относится к локальным методам, т.е. он определяет момент возбуждения на каждом периоде основного тона. Указанное свойство позволяет вести анализ речевого сигнала внутри периода основного тона и получить дополнительные возможности при анализе речевого сигнала.
Для примера был проведен эксперимент по обеспечению устойчивости ковариационного метода линейного предсказания на кадрах анализа, совпадающими с
периодами ОТ. На этапе анализа сигнал в пределах периода ОТ умножают на экспоненциально затухающее окно с показателем экспоненты, обеспечивающим устойчивость метода. На этапе синтеза сигнал в пределах периода ОТ умножают на экспоненциально возрастающее окно с соответствующим показателем экспоненты. Эксперименты по прослушиванию ресинтезированного сигнала показали, что он обладает хорошим качеством и разборчивостью.
Предложенные подходы к анализу речевых сигналов позволили разработать ряд решений, предназначенных для анализа и обработки сигналов другой физической природы.
В процессе испытания спортивного и охотничьего оружия на заводе-изготовителе существует проблема учета боеприпасов. Проблема учета боеприпасов состоит в том, чтобы автоматически подсчитать количество произведенных за смену выстрелов.
Структурная схема автоматизированной ИИС учета боеприпасов приведена на рис.7. ИИС состоит из ПК типа IBM PC под управлением операционной системы MS-DOS v6.22, устройства обработки сигналов и передачи юс параметров в ПК, а также программного обеспечения ПК, включающего в себя графическую оболочку и комплект сервисных программ цифровой обработки сигналов. Оружие устанавливают на станке. Подсчет количества выстрелов проводят по сигналам акустических хлопков у дульного среза и по сигналам вибрации в момент выстрела. Акустические сигналы хлопков снимаются парой акустических датчиков, расположенных симметрично относительно дульного среза. Сигналы вибрации регистрируются датчиком вибрации, расположенном на станке под оружием.
С регистрацией акустических хлопков как правило проблем не возникает. Серьезные трудности появляются при регистрации сигналов вибрации. Сигналы датчика вибрации оцифровывают с частотой опроса 10416Гц при квантовании по уровню на 10 разрядов. Мощные соударения механизмов станка в момент выстрела значительно затрудняют регистрацию импульсов вибрации.
На основе понятия о генерируемом солитоне, был разработан алгоритм фильтрации сигнала фильтром с импульсной характеристикой вида
h(t) = 2/(efft+e-CTt), (11)
где о-параметр, определяющий эффективную длительность импульсной характеристики.
Фильтр с импульсной характеристикой вида (11) позволяет выявлять дискретные события из непрерывного сигнала на фоне искажений различной природы. Предложенная методика фильтрации впервые позволила разработать автоматизированную ИИС учета боеприпасов и определять временные характеристики стрелкового оружия в условиях конвейерного производства. По данным экспериментов надежность регистрации выстрела равна 99,9%. Автоматизированная ИИС учета
боеприпасов способна различать попытки имитации выстрела и предупреждать оператора об этом.
Автоматизированная ИИС учета боеприпасов внедрена на ДОАО "Ижевский оружейный завод". Кроме этого, разработанные подходы к предварительной обработки сигналов используются на ОАО "Вятско Полянский машиностроительный завод Молот", где удалось повысить надежность регистрации дискретных событий и повысить точность измерения их параметров.
В заключении сформулированы основные научные и практические результаты диссертационной работы
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Итогом диссертационной работы, направленной на решение задачи повышения точности, надежности и быстродействия измерения периода ОТ речевого сигнала и принятия решения Т/НТ, является следующее:
1. Выполнен анализ методов выделения ОТ речевого сигнала и методов классификации речи на тональные и нетональные интервалы, рассмотрены достоинства и недостатки существующих методов выделения ОТ и классификации речи по признаку Т/НТ, показана актуальность исследований в данной области речевых технологий.
2. Предложен метод принятия решения Т/НТ синхронно с ОТ. Проведены исследования и сделаны оценки параметров алгоритма на основе статистики речевого сигнала. Доказано, что формирование признака Т/НТ синхронно с ОТ обладает большей точностью и надежностью по сравнению с асинхронным с ОТ способом анализа речи. Показано, что вычисление признаков Т/НТ требует сущестаеняо меньше процессорного времени при сравнении с формированием признаков Т/НТ асинхронно с ОТ.
3. Предложен метод повышения надежности принятия решения Т/НТ по спектральным и частотным признакам речи путем аддитивного добавления шума определенного уровня и определенной спектральной окраски к сигналу перед вычислением признаков. Даны рекомендации по выбору уровня шума в зависимости от типа речевого сигнала. Показано, что применение логарифмированной частоты пересечения нуля для классификации речи предпочтительней использования частоты пересечения нуля, выраженной в единицах частоты.
4. Исследована надежность принятия решения Т/НТ по энергетическому критерию в полосе частот в зависимости от ширины полосы. Показано, что снижение верхней граничной частоты полосы частот до диапазона существования первой гармоники ОТ повышает надежность принятия решения Т/НТ.
5. Предложен критерий оценки нечувствительности ошибки классификации к смещению порога классификации (критерий НОСП), позволяющий количественно оценить зависимость ошибки классификации от смещения порога распознавания с учетом качества разделимости классов.
6. Предложена методика окончательного принятия решения Т/НТ, позволяющая исправлять ошибки классификации по обобщенному признаку Т/НТ с помощью дополнительной информации о статистике основного тона получаемой в ходе маркировки речи на предполагаемые периоды ОТ.
7. Впервые предложены количественные меры оценки частоты среза фильтра нижних частот, используемого в выделителе ОТ на этапе предварительной обработки речи, с учетом работы последующего выделителя ОТ.
8. Разработан алгоритм выделения ОТ по СБ-методу, работающий совместно с синхронным с ОТ алгоритмом принятия решения Т/НТ в реальном масштабе времени. Даны практические рекомендации по процессу настройки и отладки алгоритма.
9. Впервые предложена методика попарного сравнения качества работ выделителей ОТ, учитывающая сглаживающие свойства интегральных методов выделения ОТ и разную способность выделителей ОТ к правильному принятию решения Т/НТ.
10. Показана целесообразность применения выделителя ОТ по СБ-методу в системах компрессии речи. На базе СБ-метода разработан полуавтоматический алгоритм сжатия речевых сигналов путем тиражирования одного периода ОТ на стационарных участках звуков, с помощью которого достигнуто восьмикратная степень сжатия речи.
11. Предложен метод обеспечения устойчивости ковариационного метода линейного предсказания при малой длине кадра анализа. Метод основан на применении синхронного с ОТ анализа речи, когда марки начал периодов ОТ проставлены алгоритмом СБ.
СПИСОК РАБОТ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ
1.Архипов И.О. Выбор признаков принятия решения "ТОН/НЕ ТОН" по критерию нечувствительности ошибки к смещению порога. // Информационные технологии в инновационных проектах: Труды международной научно-технической конференции. - Ижевск: изд. Механического завода, 2000 с. 192-193.
2.Архипов И.О. Сегментация речи по признаку ТОН/НЕ_ТОН синхронно с основным тоном. // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". - Ижевск, изд. ИПМ УрО РАН 1998 с. 5-8.
3.Архипов И.О. Способ вычисления энергетических признаков при сегментации речи на тональные интервалы синхронно с основным тоном. // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". - Ижевск, изд. ИПМ УрО РАН 1998 с. 9-11.
4.Архипов И.О., Гитлин В.Б. Восстановление периодичности основного тона в телефонном сигнале. // Распознавание образов и анализ изображений: новые информационные технологии. 4-я Всероссийская с международным участием конференция. РОАИ-98. 1998 г. Новосибирск, 1998. - Часть 1, - с. 18-22.
5.Архипов И.О., Гитлин В.Б. Добавление шума при сегментации речи на тональные участки. // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". - Ижевск, изд. ИПМ УрО РАН 1997 с. 63-69.
6.Архипов И.О., Гитлин В.Б. Метод выделения основного тона на основе понятая о генерируемом солитоне. // Распознавание образов и анализ изображений: новые информационные технологии. 4-я Всероссийская с международным участием конференция. РОАИ-98. 1998 г. Новосибирск, 1998. - Часть 1, - с. 23-27.
7. Архипов И.О., Гитлин В.Б. Оценка точности выделения основного тона методов СБ. // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. - М.: ГЕОС, 1999. с. 38-42.
8.Архипов И.О., Гитлин В.Б. Оценка частоты среза ФНЧ, используемого для выделения основного тона. // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". - Ижевск, изд. ИПМ УрО РАН 1998 с. 12-16.
9.Архипов И.О., Гитлин В.Б. Сегментация речи по первому коэффициенту линейного предсказания синхронно с основным тоном. // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". - Ижевск, изд. ИПМ УрО РАН 1998 с. 17-19.
. Ю.Архипов И.О., Гитлин В.Б. Формирование признака ТОН/НЕ_ТОН синхронно с основным тоном. // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. - М.: ГЕОС, 1999. с. 43-46.
И.Гитлин В.Б., Архипов И.О. Влияние метода выделения основного тона, уровня добавляемого шума и частоты среза фильтра на величину порога принятия решения "ТОН/НЕ ТОН" // Информационные технологии в инновационных проектах: Труды международной научно-технической конференции. - Ижевск: изд. Механического завода, 2000 с. 198-199.
Подписано в печать 21?.М^ЗЕФормат 60x84/16. Бумагао<рсегййя. Усл. печ. л. ¿¿6 . Уч,-изд. л. 1170 Тираж -!0д экз. Заказ № /// Отпечатано на ризографе Издательства ИжГТУ Лицензия РФ Плр № 020048 от 09.06.95.
Типография Ижевского государственного технического университета. 4.26069, г. Ижевск, Студенческая, 7
Соискатель
В авторской редакции
Оглавление автор диссертации — кандидата технических наук Архипов, Игорь Олегович
СОДЕРЖАНИЕ
СПИСОК СОКРАЩЕНИЙ
ВВЕДЕНИЕ
ГЛАВА 1. МЕТОДЫ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА РЕЧЕВОГО
СИГНАЛА
1Л. Общие сведения
1.2. Классификация методов выделения основного тона
1.3. Предварительная обработка речевого сигнала
1.4. Временные методы выделения основного тона
1.5. Спектральные методы выделения основного тона
1.5. Комбинированные методы выделения ОТ.
1.6. Выделение интервалов вокализованных и невокализованных звуков
1.6.1. Классификация выделителей "ТОН/ НЕ ТОН".
1.6.2. Методы принятия решения Т/НТ на основе частоты пересечений нуля сигналом.
1.6.3. Методы принятия решения Т/НТ на основе энергетического критерия.
1.6.4. Методы принятия решения Т/НТ на основе линейного предсказания речи.
1.6.5. Методы принятия решения Т/НТ по оценке общей периодичности речевого сигнала.
1.6.6. Методы принятия решения Т/НТ по изменению периодичности, получаемой при выделении ОТ
1.6.7. Методы принятия решения Т/НТ на основе теории статистических решений.
1.6.8. Принятие решения Т/НТ на основе многомерного анализа
1.7. Сравнение методов выделения основного тона
1.8. Выводы
1.9. Постановка задачи
ГЛАВА 2. ФОРМИРОВАНИЕ ПРИЗНАКА ТОН/НЕ ТОН СИНХРОННО
С ОСНОВНЫМ ТОНОМ
2.1. Методика исследования признаков классификации
2.2. Классификация речи по нормированному коэффициенту корреляции с единичной задержкой 45 2.2.1 Выбор параметров добавляемого шума
2.3 Классификация речи по энергии в полосе частот 53 2.3.1. Оценка частоты среза ФНЧ при формировании функции энергии речевого сигнала в полосе частот
2.4 Классификация речи по частоте пересечения нулевого уровня
2.5. Формирование обобщенного признака Т/НТ
2.6. Окончательное формирование признака Т/НТ
2.7 Скорость формирования обобщенного признака Т/НТ
2.8 Выводы
ГЛАВА 3. ВЫДЕЛИТЕЛЬ ОСНОВНОГО ТОНА ПО СБ-МЕТОДУ
3.1 Предварительная обработка входного сигнала 83 3.1.1. Оценка частоты среза ФНЧ
3.2 СБ-метод
3.3 Настройка выделителя основного тона включая СБ-метод и алгоритм принятия решения Т/НТ
3.4 Быстродействие выделителя основного тона по СБ-методу
3.5 Выводы
ГЛАВА 4. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ВЫДЕЛИТЕЛЕЙ ОСНОВНОГО
ТОНА. ВНЕДРЕНИЕ РЕЗУЛЬТАТОВ ДИССЕРТАЦИОННОЙ
РАБОТЫ
4.1 Типовые выделители основного тона
СПИСОК СОКРАЩЕНИЙ
ИИС - информационно-измерительная система
ЛЧПН - логарифмическая частота пересечения нуля
НОСП - критерий нечувствительности ошибки к смещению порога классификации
НТ/Т - "НЕ ТОН/ТОН"
ОТ - основной тон отс. - отсчеты
ПК - персональный компьютер с.к.о. - среднеквадратичное отклонение
С/Ш - сигнал/шум
Т/НТ - "ТОН/НЕ ТОН"
ФНЧ - фильтр низких частот
ЧПН - частота пересечения нуля
АС - автокорреляционный метод выделения основного тона
СЕР - кепстральный метод выделения основного тона
FIL - фильтровой метод выделения основного тона
GS - Generated Solitone - генерируемый (искусственный ) солитон
LLK - метод выделения основного тона Лобановой - Левина - Коваля
PIC - пиковый метод выделения основного тона
RG - метод выделения основного тона Рабинера - Голда
SIS - система распознавания диктора ("Центр речевых технологий" г. С.-Петербург)
Е - энергия в логарифмическом масштабе F0 - частота основного тона fc - частота среза фильтра предварительной обработки
Введение 2000 год, диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам, Архипов, Игорь Олегович
Прогресс в создании мощных вычислительных средств и повсеместное применение персональных компьютеров привело к тому, что последнее десятилетие отмечено повышением интереса научной общественности к речевым технологиям особенно в областях определения индивидуальности диктора, распознавания, синтеза, компрессии и передачи речи [33], [73]. В настоящее время рынок речевых технологий заполнен массой коммерческих систем. Можно предположить, что основные проблемы распознавания речи уже решены. Однако, детальное рассмотрение вопроса приводит к заключению, что появление многих речевых коммерческих систем, обусловлено в основном не успехами в решении принципиальных проблем речевой техники, а возросшей производительностью современных вычислительных средств [37], [83].
Процесс речеобразования можно представить как процесс прохождения сигнала источника звуковых колебаний через речевой тракт. Речевой сигнал представляет собой реакцию резонансной системы речевого тракта на возбуждение его одним или несколькими генераторами звуковых колебаний.
Вопросам теории речеобразования посвящены работы Г. Фанта, Дж.Л. Фланагана, В.И. Галунова, М.А. Сапожкова, В.Н. Сорокина, К. Ишизаки, и многих других ученых.
Звуки речи делят на вокализованные или тональные и невокализованные иначе нетональные. К вокализованным относят звуки, произносимые с участием голосового источника, к невокализованным - без участия голосового источника.
В литературе по распознаванию и обработке речи тональные звуки часто называют вокализованными, а нетональные - невокализованными. Различие между звуками, определяемое типом источника, есть признак способа образования звуков.
Наличие или отсутствие вокализации есть один из основных признаков акустического сигнала речи. Оценка наличия или отсутствия вокализации необходима для построения систем распознавания , компрессии и синтеза речи.
Иначе говоря, выделение вокализованных, невокализованных интервалов в качестве признаков, характеризующих речевой сигнал, имеет самостоятельное значение в системах распознавания и обработки речи.
Выделение вокализованных и невокализованных интервалов имеет и вспомогательное значение, позволяя повысить надежность выделения других признаков речевого сигнала. Например, во время паузы можно заблокировать работу системы распознавания речи и предотвратить возможные ошибки из-за воздействия шума. На участках отсутствия вокализации целесообразно определять лишь общую огибающую спектра сигнала, основной тон имеет смысл выделять только на вокализованных интервалах и т.д.
Устройства принятия решения о наличии или отсутствии вокализации получили название устройств выделения сигнала "ТОН/НЕ ТОН" (Т/НТ).
Одним из основных параметров голосового источника является длительность периода колебаний голосовых связок Т0, которая получила название периода основного тона (ОТ), величину обратную периоду ОТ называют частотой ОТ (То).
Задача измерения частоты основного тона является одной из важнейших для речевых информационно-измерительных систем (ИИС) и известна как задача выделения частоты ОТ.
Человек легко определяет частоту ОТ при прослушивании речи. Однако построить устройство, автоматически измеряющее частоту ОТ с малой ошибкой и малой задержкой во времени даже при относительно низком уровне помех довольно трудно, о чем свидетельствует длительный период исследований в данной области.
Основной тон совместно с признаком Т/НТ переносит информацию о маркерах сегментации непрерывного потока речи, информацию о коммуникативном типе высказывания, о контексте произнесения, об индивидуальности голоса диктора и его эмоциональном состоянии, об окружающей обстановке, о стиле произнесения, о заболеваниях речевого аппарата, об уровне культуры диктора и его интеллектуальном развитии и т.д.
Значения частоты ОТ и признака Т/НТ, как одни из параметров используются при идентификации и верификации диктора по голосу, в системах с речевым ответом, в криминалистике в системах компрессии и сотовой телефонии, в медицине и т.д. Влияние указанных факторов определяет динамический диапазон и значения частоты ОТ, динамику и временные параметры изменений частоты ОТ. Кроме этого информация о значениях периода ОТ, о моментах возбуждения речевого тракта и о признаке Т/НТ, позволяет точнее оценивать другие параметры речи, используемые, например, в ИИС анализа и распознавания речи. Повышение точности измерения значений периода ОТ, определения моментов возбуждения речевого тракта и переходов Т/НТ и "НЕ ТОН/ТОН" (НТ/Т) позволит повысить надежность работы подобных ИИС.
Диссертационная работа, направленная на поиск решений, позволяющих повысить точность и надежность алгоритмов принятия решения Т/НТ и выделения ОТ представляется актуальной.
Объектом исследования является информационно-измерительная система речевой технологии.
Предметом исследования являются разработка критериев, признаков и алгоритмов классификации речи на тональные и нетональные интервалы синхронно с ОТ, способы вычисления признаков классификации речи на участки Т/НТ, повышающие надежность распознавания, определение оптимальной полосы частот при вычислении энергии речи для классификации речевого сигнала на тональные и нетональные интервалы, разработка локального алгоритма выделения ОТ на основе ОБ-методом, определение оптимальной частоты среза фильтра предварительной обработки речевого сигнала, разработка методики сравнения качества работы разных выделителей ОТ.
Целью диссертационной работы является повышение точности речевой ИИС при измерении частоты ОТ и при выделении моментов переходов Т/НТ и НТ/Т в непрерывном речевом сигнале.
Для достижения поставленной цели определены следующие научно-технические задачи:
1. Исследование признаков, позволяющих принимать решение Т/НТ синхронно с ОТ и обеспечивающих надежное принятие решения Т/НТ.
2. Разработка критериев оценки надежности принятия решения Т/НТ по совокупности признаков.
3. Оценка параметров решающих правил в алгоритме принятия решения Т/НТ в зависимости от уровня аддитивного шума и от ограничения частотной полосы сигнала.
4. Оценка синхронного и асинхронного методов принятия решения Т/НТ.
5. Разработка алгоритма выделения ОТ по 08-методу с применением предлагаемого алгоритма принятия решения Т/НТ.
6. Оценка параметров фильтра предварительной обработки, обеспечивающего минимизацию ошибок оценки положения начал периодов ОТ при их выделении методом 08.
7. Сопоставительные испытания разработанного алгоритма выделения ОТ по 08-методу и алгоритма принятия решения Т/НТ с известными методами выделения ОТ в различных акустических условиях.
8. Оценка результатов сопоставительных испытаний разработанного алгоритма выделения ОТ по в8-методу и алгоритма принятия решения Т/НТ.
Методы исследования включают в себя методы математической статистики, методы теории распознавания образов, методы теории и распознавания речевых сигналов, методы математического моделирования на ЭВМ, методы теории алгоритмов и программ, экспериментальные исследования с использованием стандартного математического обеспечения ЭВМ и собственного программного обеспечения.
На защиту выносятся:
1. Алгоритм принятия решения "ТОН/НЕ ТОН" синхронный с основным тоном.
2. Методика повышения надежности принятия решения Т/НТ путем добавления шума к сигналу при вычислении частотных и спектральных признаков классификации.
3. Методика выбора полосы частот сигнала обеспечивающей повышение надежности принятия решения Т/НТ по энергетическому критерию.
4. Критерий оценки признака по допустимой ширине области смещения порога принятия решения.
5. Алгоритм выделения ОТ по С8-методу с синхронным с ОТ принятием решения Т/НТ.
6. Методика оценки качества предварительной фильтрации по величине ошибки оценки начал периодов ОТ С8-методом.
7. Методика сравнения качества работы выделителей ОТ по обобщенному критерию оценки качества в условиях шума и ограничения сигнала по полосе.
В диссертационной работе получены следующие основные научные результаты.
1. Разработан алгоритм выделения ОТ, основанный на применении активно генерируемой функции решений.
2. Разработан алгоритм принятия решения "ТОН/НЕ ТОН", выполняемый синхронно с ОТ.
3. Предложен критерий оценки комбинаций признаков принятия решения "ТОН/НЕ ТОН" с точки зрения допустимой неточности выбора порога классификации.
4. Разработана методика повышения надежности принятия решения "ТОН/НЕ ТОН" путем добавления шума к речевому сигналу при вычислении частотных и спектральных признаков принятия решения "ТОН/НЕ ТОН".
5. Предложен методика попарного сравнения качества работы выделителей ОТ по обобщенной ошибке.
Практическая ценность и реализация результатов работы. На основе проведенных исследований разработан синхронный с ОТ детектор вокализации совместно с локальным выделителем ОТ по С8-методу. Найдены значения порогов принятия решения Т/НТ по энергии сигнала в полосе частот, по коэффициенту линейного предсказания модели первого порядка и по частоте Пересечений нуля. Оценен уровень добавляемого шума, обеспечивающий повышение надежности принятия решения Т/НТ по коэффициенту линейного предсказания модели первого порядка и по частоте пересечения нуля. Выполнено сравнение ОБ-метода, пикового метода, фильтрового метода, метода Рабинера-Голда, автокорреляционного метода, кепстрального метода и метода ЛЛК. Получены оценки качества выделения ОТ указанными методами для сигнала без искажений, для сигнала с добавляемым белым шумом при отношении С/Ш=10дБ и для телефонного сигнала. Сделана оценка области применимости ОБ-метода для выделения ОТ. Показано, что ОБ-метод совместно с синхронным детектором вокализации позволяет выделять ОТ в реальном времени для телефонного сигнала и для сигнала с добавленным шумом вплоть до отношения С/Ш=0дБ.
Разработанные в диссертационной работе подходы к предварительной обработке речевых сигналов нашли применение в ИИС анализа и обработки акустических сигналов на ДОАО "Ижевский оружейный завод", на ОАО "Вятско Полянский машиностроительный завод Молот", в научно-техническом центре "Вычислительная техника", где удалось повысить надежность регистрации акустических событий и точность измерения их параметров, что подтверждено соответствующими актами, а также в виде программ и методик внедрены в учебной и научной работе кафедры вычислительной техники Ижевского государственного технического университета.
Апробация работы. Основные результаты работы докладывались на IV Всероссийской с международным участием конференции "Распознавание образов и анализ изображений: новые информационные технологии" (г.Новосибирск, 1998г.), IX сессии Российского акустического общества "Современные речевые технологии" (г. Москва, 1999г.), на международной научно-технической конференции "Информационные технологии в инновационных проектах" (г. Ижевск, 2000г.), семинарах кафедры вычислительной техники ИжГТУ (г. Ижевск, 1997-1998г.).
Публикации. По теме диссертации опубликовано 11 работ.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложения. Основной текст изложен на 150 машинописных страниц с иллюстрациями. Список литературы включает 119 наименований.
В первой главе работы изложены основные принципы теории речеобра-зования, связанные с проблематикой измерения ОТ и классификации речи по способу образования. Рассмотрено современное состояние вопроса построения детекторов вокализации и выделителей основного тона. Указаны проблемы сравнения качества измерения ОТ разными методами. Показаны пути повышения надежности измерения ОТ и классификации речи по способу образования. Сформулированы требования, которым должен удовлетворять разрабатываемый детектор вокализации.
Во второй главе описана методика классификации речи по признаку Т/НТ синхронно с ОТ. Предложен метод повышения надежности принятия решения о наличии вокализации по спектральным и частотным признакам. Предложен простой в вычислении обобщенный признак Т/НТ. Предложена характеристика качества распознавания, позволяющая оценить чувствительность ошибки распознавания к смещению порога классификации. Приведены результаты экспериментов по определению параметров классификации для всех признаков и разных способов их вычисления. На основании анализа результатов экспериментов даны рекомендации по использованию признаков классификации в различных условиях, а также по настройке детектора вокализации.
В третьей главе изложены основные принципы вЗ-метода. Представлен алгоритм работы выделителя ОТ включая этапы предварительной обработки речевого сигнала, маркировки сигнала по ОБ-методу, принятия решения Т/НТ по синхронному с ОТ способу. Приведены результаты экспериментов по изучению С8-метода и метода предварительной обработки речи. На основании результатов экспериментов даны рекомендации по настройке ОБ-метода и определению частоты среза фильтра нижних частот метода предварительной обработки речи в различной акустической обстановке.
В четвертой главе изложен предложенный метод сравнения качества
14 измерения ОТ разными выделителями ОТ, позволяющий выполнять сравнение конкретных выделителей ОТ по обобщенному критерию оценки качества попарно. Приведены результаты экспериментов по сравнению качества выделения ОТ С8-метода с пиковым методом, методом Рабинера-Гоулда, автокорреляционным методом, кепстральным методом, фильтровым методом и методом ЛЛК. Сравнение проведено для не искаженной, телефонной и зашумленной речи.
В заключении сформулированы основные научные и практические результаты диссертационной работы.
Заключение диссертация на тему "Разработка критериев и алгоритмов сегментации речевого сигнала на участки "ТОН/НЕ ТОН" для метода выделения основного тона в информационно-измерительных системах речевой технологии"
4.7 Выводы
1. Впервые предложена методика сравнения качества работ выделителей ОТ, учитывающая сглаживающие свойства интегральных методов выделения ОТ и разную способность алгоритмов выделения ОТ правильно принимать решение Т/НТ. Учет указанных факторов позволяет более корректно проводить сравнение выделителей ОТ.
2. По результатам сравнения СБ-метод допускает наименьшее количество ошибок по сравнению с другими методами. Наибольшее преимущество перед другими выделителями ОТ достигается на телефонном и на зашумленном сигналах.
3. Показана целесообразность применения выделителя ОТ по СБ-методу в системах компрессии речи.
4. Применение СБ-метода выделения ОТ позволило обеспечить устойчивость ковариационного метода линейного предсказания на коротких интервалах анализа. Применение выделителя ОТ по СБ-методу в речевых ИИС позволит увеличить точность измерения других параметров речевого сигнала, что обеспечит повышение надежности речевой ИИС в целом.
ЗАКЛЮЧЕНИЕ
Итогом диссертационной работы, направленной на решение задачи повышения точности, надежности и быстродействия измерения периода ОТ речевого сигнала и принятия решения Т/НТ, является следующее:
1. Выполнен анализ методов выделения ОТ речевого сигнала и методов классификации речи на тональные и нетональные интервалы, рассмотрены достоинства и недостатки существующих методов выделения ОТ и классификации речи по признаку Т/НТ, показана актуальность исследований в данной области речевых технологий.
2. Предложен алгоритм принятия решения Т/НТ синхронно с ОТ. Проведены исследования и сделаны оценки параметров алгоритма на основе статистики речевого сигнала. Доказано, что формирование признака Т/НТ синхронно с ОТ обладает большей точностью и надежностью по сравнению с асинхронным с ОТ способом анализа речи. Показано, что вычисление признаков Т/НТ синхронно с ОТ требует существенно меньше процессорного времени при сравнении с формированием признаков Т/НТ асинхронно с ОТ.
3. Предложена методика повышения надежности принятия решения Т/НТ по спектральным и частотным признакам речи путем аддитивного добавления шума определенного уровня и определенной спектральной окраски к сигналу перед вычислением признаков. Даны рекомендации по выбору уровня шума в зависимости от типа речевого сигнала. Показано, что применение логарифмированной частоты пересечения нуля для классификации речи предпочтительней использования частоты пересечения нуля, выраженной в единицах частоты.
4. Исследована надежность принятия решения Т/НТ по энергетическому критерию в полосе частот в зависимости от ширины полосы. Показано, что снижение верхней граничной частоты полосы частот до диапазона существования первой гармоники ОТ повышает надежность принятия решения Т/НТ.
5. Предложен критерий оценки нечувствительности ошибки классификации к смещению порога классификации (критерий НОСП), позволяющий количественно оценить зависимость ошибки классификации от смещения порога распознавания с учетом качества разделимости классов.
6. Предложена методика окончательного принятия решения Т/НТ, позволяющая исправлять ошибки классификации по обобщенному признаку Т/НТ с помощью дополнительной информации о статистике основного тона, получаемой в ходе маркировки речи на предполагаемые периоды ОТ.
7. Впервые предложены количественные меры оценки частоты среза фильтра нижних частот, используемого в выделителе ОТ на этапе предварительной обработки речи, с учетом работы последующего выделителя ОТ. Для фильтра Баттерворта получены следующие результаты:
• наименьшее значение дисперсии задержки начал периодов ОТ после фильтрации достигается при частоте среза фильтра равной Рс= 1200Гц;
• при неудовлетворительном сглаживании главных максимумов, например в случае зашумленной или телефонной речи, допустимо снижение частоты среза ФНЧ до 600Гц.
8. Разработан алгоритм выделения ОТ по вБ-методу, работающий совместно с синхронным с ОТ алгоритмом принятия решения Т/НТ в реальном масштабе времени. Даны практические рекомендации по процессу настройки и отладки алгоритма.
9. Впервые предложена методика попарного сравнения качества работы выделителей ОТ, учитывающая сглаживающие свойства интегральных методов выделения ОТ и разную способность выделителей ОТ к правильному принятию решения Т/НТ.
10. Показана целесообразность применения выделителя ОТ по ОБ-методу в системах компрессии речи. На базе ОБ-метода разработан полуавтоматический алгоритм сжатия речевых сигналов путем тиражирования одного периода ОТ на стационарных участках звуков, с помощью которого достигнуто восьмикратная степень сжатия речи.
11. Предложен способ обеспечения устойчивости ковариационного метода линейного предсказания при малой длине кадра анализа. Метод основан на применении синхронного с ОТ анализа речи, когда марки начал периодов ОТ проставлены алгоритмом ОБ.
К результатам, отражающим практическую ценность диссертационной работы можно отнести следующее:
1. Найденные решения позволили разработать локальный выделитель ОТ совместно с синхронным с ОТ алгоритмом принятия решения Т/НТ. Обобщенная ошибка разработанного выделителя ОТ для чистого сигнала составляет величину 9.27%, для телефонного сигнала - 11.04%, для зашумленного сигнала при отношении С/Ш=5дБ - 24.98%). Используя разработанный выделитель ОТ в большинстве случаев удается обеспечить удовлетворительное слежение за траекторией ОТ при отношениях С/Ш вплоть до величины С/111=0дБ.
2. В ходе экспериментов, при вычислении признаков Т/НТ синхронно с ОТ получен четырехкратный выигрыш по скорости по сравнению с асинхронным с ОТ способом вычисления признаков Т/НТ.
3. Для разработанного выделителя ОТ на чистом сигнале число ошибок принятия решения НТ/Т не превышает 1.24%» от общего числа интервалов анализа, а число ошибок принятия решения Т/НТ достигнуто не более 1%>.
4. По результатам сравнения разработанный выделитель ОТ допускает меньшее количество ошибок по сравнению с известными методами выделения ОТ, особенно на телефонных и на зашумленных сигналах.
5. На основе понятия о генерируемом солитоне разработан алгоритм фильтрации сигнала, позволяющий выявлять дискретные события из непрерывного сигнала. Разработанная методика фильтрации впервые позволила разработать автоматизированную ИИС учета боеприпасов и определять временные характеристики охотничьего и спортивного оружия в условиях конвейерного производства. Автоматизированная ИИС учета боеприпасов способна различать попытки имитации выстрела с надежностью 99,9%. Автоматизированная ИИС учета боеприпасов внедрена на ДО АО "Ижевский оружейный завод".
6. Разработанные в диссертационной работе подходы к предварительной обработке речевых сигналов нашли применение в ИИС анализа и обработки акустических сигналов на ОАО "Вятско Полянский машиностроительный завод Молот", в научно-техническом центре "Вычислительная техника", где удалось повысить надежность регистрации акустических событий и точность измерения их параметров, что подтверждено соответствующими актами.
Библиография Архипов, Игорь Олегович, диссертация по теме Информационно-измерительные и управляющие системы (по отраслям)
1. Аврин С.Б., Мочалов В А. Алгоритм выделения основного тона // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара (АРСО-16). М., 1991. - с. 241-242.
2. Акинфиев Н.Н., Жарова С.С., Собакин А.Н. Детектирование сигнала основного тона из озвученных звуков // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 7 Всесоюзн. школы-семинара. Алма-Ата, 1973. - с. 53-55.
3. Архипов И.О. Сегментация речи по признаку ТОН/НЕТОН синхронно с основным тоном. // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". Ижевск, изд. ИПМ УрО РАН 1998 с. 5-8.
4. Архипов И.О., Гитлин В.Б. Добавление шума при сегментации речи на тональные участки. // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". Ижевск, изд. ИПМ УрО РАН 1997 с. 63-69.
5. Архипов И.О., Гитлин В.Б. Оценка точности выделения основного тона методом // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. с. 38-42.
6. Ю.Архипов И.О., Гитлин В.Б. Оценка частоты среза ФНЧ, используемого для выделения основного тона. // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". Ижевск, изд. ИПМ УрО РАН 1998 с. 12-16.
7. Архипов И.О., Гитлин В.Б. Формирование признака ТОН/НЕ ТОН синхронно с основным тоном. // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. с. 43-46.
8. М.Барабаш Ю.Л. и др. Вопросы статистической теории распознавания. -М.: Советское радио 1967. 400с.
9. Баронин С.П. Автокорреляционный метод выделения основного тона речи // Сб. тр. Гос. НИИ Министерства связи СССР. 1961. 3 (24). - с. 93-102.
10. Баронин С.П., Крюков Г.В. Алгоритм выделения основного тона во временной области // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара. М., 1991.-е. 100-101.
11. Баронин С.П., Куштуев А.И. О построении выделителей основного тона следящего типа // 8 Всесоюзн. акуст. конф.: Реф. докл. Том 1. - М., 1973. - с. 75.
12. Баронин С.П., Куштуев А.И. О построении системы адаптации анализаторов частоты основного тона речи // 7 Всесоюзн. акуст. конф.: Тез. докл. Л., 1071.-е. 18.
13. Баронин С.П., Куштуев А.И. Устройство для измерения частоты основного тона речевых сигналов. A.c. N 280561 СССР, МКИ Н04М 11/10, 01Н, оп. 03.09.70.
14. Белявский В.М., Ежова Л.В. Спектрально-временные признаки для сегментации речи по звукам // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 8 Всесоюзн. школы-семинара. Львов, 1974, - 4.2. - с. 32-37.
15. Блохина Л.П. Восприятие макромодуляции частоты ОТ в речевом сигнале // Автоматическое распознавание слуховых образов: Тез. докл. и сообщен. 17 Всесоюзн. семинара. Ижевск, 1992. с. 11-114.
16. Блохина Л.П. К вопросу о слуховом восприятии частотного контура фразы // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 8 Всесоюзн. школы-семинара. Львов, 1974, - Ч.З. - с. 57-59.
17. Блохина Л.П. О возможности использования модуляции частоты основного тона в автоматическом распознавании эмоциональных состояний // Акустика речи и слуха: Материалы докл. и сообщ. 5 Всесоюзн. совещания-симпозиума. Одесса, 1989. с. 30-40.
18. Блохина Л.П. О роли интонации в выражении межеинтагменных и межфразовыхсвязей в устном тексте // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. И Всесоюзн. акустич. школы-семинара. Ереван, 1980. с. 259.
19. Блохина Л.П. О роли модуляции частоты основного тона в макросегментации слитной речи // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 14 Всесоюзн. семинара. Каунас, 1986. с. 16-17.
20. Бондаренко М.Ф., Гавращенко А.Н. Метод сегментации слитной речи по ее "динемическим портретам" // Автоматическое распознавание слуховых образов: Тез. докл. 15 Всесоюзн. семинара. Таллин, 1989. с. 184-185.
21. Борисов В.Н., Гитлин В.Б. Корреляционный метод выделения основного тона с использованием параллельной фильтрации // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара. М., 1991. с. 102-103.
22. Вокодерная телефония. Под ред. Пирогова A.A. М.: Связь, 1974. - 536 с.
23. Высоцкий Г.Я., Сомин Н.В., Трунин-Донской В.Н., Червонный В.К. Алгоритм выделения основного тона спектральными методами на ЭВМ среднего класса // Дискретная обработка речевых сигналов. -М.: ВЦ АН СССР, 1979. с. 36-66.
24. Галунов В.И., Коваль СЛ., Тампель И.Б. Биофизика речеобразования // Модели речевого процесса в норме и патологии: Докл. и сообщ. Всесоюзн. симпозиума (13-15 июня 1979 г. Гродно). Л., 1980.
25. Галунов В.И., Кутуков Г.П., Матюнин С.Н. Состояние и перспективы исследований в области речевых технологий // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999.- с. 13-16.
26. Галунов В.И., Сомин Н.В., Тарасов А.И., Трунин-Донской В.Н., Якушенков Г.А. Спектральные методы выделения основного тона // Вопросы кибернетики. Анализ и синтез речи в системах управления. М., 1976 - Вып. 22. - с. 28-38.
27. Галунов В.И., Станкевич СЛ., Тапель И.Б. Исследование и моделирование процесса речеобразования // Рефераты докл. 8 Всесоюзн. акустич. конф. -М., 1973. Т.1.-е.70.
28. Галунов В.И., Тампель И.Б. Механизм работы голосового источника / Акустический журнал. Т. 27. - Вып. 3, 1981. - с. 321-334.
29. Галунов В.И., Таубкин ВЛ. Речевая наука речевые технологии - перспективыпрактического использования // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. с. 13.
30. Гитлин В.Б. Основной тон речевого сигнала / Деп. В ВИНИТИ, 1998. № 1206-В98. - 739с.
31. Гитлин В.Б., Книппер A.B., Сметанин A.M., Сорокин C.JI., Шуткин В.Е. Устройство для выделения основного тона речи. A.c. N 714474 СССР, МКИ 10 1/00. Оп. в БИ N 5 05.02.80.
32. Гитлин В.Б., Кузнецов П.Г., Тихонов Г.А. Переключающая схема для устройства выделения основного тона // Автоматические устройства учета и контроля. Ижевск: Удмуртия, 1973. - Вып. 8. - с. 223-228.
33. Гитлин В.Б., Сметанин A.M. Исследование участков смыкания и размыкания голосовых связок на ЭВМ // Дискретные системы обработки информации. Ижевск, 1978. -Вып.1. - 71-75.
34. Гитлин В.Б., Сметанин A.M., Шуткин В.Е. Обнаружение интервалов смыкания и размыкания голосовых связок // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. -С. 134-136.
35. Гончаров СЛ., Зеленый А.И., Кашичева У.Б. Сегментация речевой волны по параметрам основного тона // Автоматическое распознавание слуховых образов: Тез. докл. 15 Всесоюзн. семинара. Таллин, 1989. - с. 190-191.
36. Дуда Р., Харт П. Распознавание образов и анализ сцен. М.: Мир, 1976. - 512 с.
37. Кельманов A.B. Алгоритм выделения основного тона по разностной функции ряда остаточных ошибок модели авторегрессии // Вычислительные системы. Методы обнаружения закономерностей с помощью ЭВМ. Новосибирск, 1981. - Вып. 91. - с. 113-124.
38. Кельманов A.B. Алгоритм классификации тон/шум, основанный на критерии адекватности модели авторегрессии // Вычислительные системы. Методы обработки информации. Новосибирск, 1978. - Вып. 74. - с. 129-148.
39. Кельманов A.B. Алгоритм классификации тон/шум по частотным автокорреляциям // Вычислительные системы. Эмпирическое предсказание и распознавание образов. Новосибирск, 1980. - Вып. 83. - с. 67-73.
40. Кельманов A.B., Хамидуллин С.А. Алгоритм оценки траектории частоты основного тона // Искусственный интеллект и экспертные системы. Вычислительные системы. Новосибирск, 1996. с.112-136.
41. Кемешис П.П., Норейка С.Ю., Рудженис А.И. Оценка частоты основного тона сигнала, ограниченного по полосе и при наличии шумов // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 12 Всесоюзн. школы-семинара. Киев, 1982а,- с. 99-100.
42. Книппер A.B., Махонин В.А. Микровариации в речевом сигнале // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 10 Всесоюзн. школы-семинара. Тбилиси: Мецниереба, 1978. - с. 35-36.
43. Кринов С.Н., Савельев В.П., Цемель Г.И. О значимости изменений частоты основного тона для автоматического распознавания речи // Описание и распознавание объектов в системах искуственног интеллекта. М.: Наука, 1980. - с. 92-99.
44. Лепешкин В.А., Пак С.П., Родионов И.Е. Простой многоканальный выделитель основного тона // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. - с. 62-63.
45. Лозовский B.C. Модифицированный разностный метод определения основного тона речи//Тр. АКИН, 1970.-Вып. 12.-е. 189-193.
46. Маркел Дж. Д., Грэй А.Х. Линейное предсказание речи. М.: Связь, 1980. -308с.
47. Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. Санкт-Петербург. с. Петербург, 1997. - 394 с.
48. Муравьев В.Е. О современном состоянии и проблемах вокодерной техники // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. - с. 22-27.
49. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и Связь, 1985. - 176 с.
50. Норейка С.Ю. Исследование методов и разработка аппаратуры анализа траекторий основного тона речи / Автореф. дисс. на соиск. ученой степени к.т.н. Каунас, 1983. -22 с.
51. Норейка С.Ю., Рудженис А.И. Анализ классификации тональных, глухих и смешанных сегментов // Автоматическое распознавание слуховых образов: Тез. долкл. и сообщ. 14 Всесоюзн. семинара. Каунас, 1986. - Ч. 1.-е. 8-9.
52. Норейка С.Ю., Рудженис А.И. Исследование источника возбуждения посредством обратной фильтрации // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. - с. 139-142.
53. Пирогов A.A. Устройство для автоматического выделения частоты основного тона. -A.c. N 129739 СССР.- Приор, от 08.6.58 НКИ 21е 1/20 42е.
54. Рабинер Л.Р., Гоулд Б. Теория и применение цифровой обработки сигналов. -М.: Мир, 1978.
55. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981.-485 с.
56. Рылов A.C. Практические аспекты и основные компоненты современных систем распознавания речевых образов // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. с. 145-151.
57. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.472с.
58. Сапожков М.А., Михайлов В.Г. Вокодерная связь.-М.: Радио и связь, 1983.-248с.
59. Сметании A.M. Исследование и разработка методов повышенной точности измерений параметров формант и голосового источника. Диссертация на соискание ученой степени к.т.н. - Ижевск, 1980.
60. Собакин А.Н. Адаптивный метод выделения основного тона речи // Автоматическое распознавание слуховых образов : Тез. докл. и сообщен. 8 Всесоюзн. школы-семинара. Минск, 1976. - с. 49.
61. Собакин А.Н. Анализ голосового источника по речевому сигналу // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 15 Всесоюзн. семинара. -Таллин, 1989. с. 233-234.
62. Собакин А.Н. Основной тон речи и метод его исследования. // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. с. 47-50.
63. Соболев В.Н., Баронин С.П. Исследование сдвигового метода выделения основного тона речи // Электросвязь. 1968а. - с. 30-36.
64. Сорокин В.Н. Теория речеобразования. -М.: Радио и связь, 1985.-312 с.
65. Сорокин В.Н. Новые концепции в автоматическом распознавании речи. // Современные речевые технологии. Сборник трудов IX сессии Российского акустического общества. М.: ГЕОС, 1999. с. 50-57.
66. Уилкс С. Математическая статистика. М., 1967. - 632с.
67. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. 284 с.
68. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968. - 395 с.87.Харкевич
69. A1-Hashemy B.A.R., and Taha S.M.R. Voiced Unvoiced - Silence classification of speech signals based on statistical approaches // Appl. Acoust., 1988. - 25. - N 3. - p. 169-179.
70. Atal B.S. Speech signal pitch detector using prediction error date. -Pat. N 3740476 USA. G10L 1/04. - 19.06.73.
71. Atal B.S., Rabiner L.R. A pattern recognition approach to voiced-unvoiced-silence classification with application to speech recognition // IEEE Trans. Acoust., Speech and Signal Process. 1976. - 24. -N 3. -p. 201-202.
72. Carre R. Review of French work on vocal source vocal tract interaction // Eleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. - Tallinn, 1987. - Vol. 3. - p. 371-375.
73. Chan C. Voiced/unvoiced segmentation // ICASSP'86: Proe. IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1986. - Vol. 3. - p. 2271-2274.
74. Childers D.G., Hann M., Larer J.N. Silent and voiced/unvoiced/mixed excitation (four way) classification of speech // IEEE Trans. Acoust., Speech and Signal Process., 1989. 37. -N 11.-p. 1771-1774.
75. Dadley H. Remaking speech // J. Acoust. Soc. Am. -1939. 11. - N 2. - p. 167-169.
76. De Souza P. A statistical approach to the design of an adaptive self-normalising silence detector// IEEE Trans. Acoust., Speech and Signal Process.- 1983. 31.-N3.-p.678-684.
77. Dolansky L.O. Instantaneous pitch period indicator // J. Acoust. Soc. Am. 1955. - 27. -N 11. - p. 67-72.
78. Fant G. Speech production. Glottal source and excitation analysis // Quart Progr. and Status. Rept. Speech Transmits. Lab. 1979. -N 1. p. 85-107.
79. Foo S.W., and Turner L.F. Application of sub-band energy ratio to Voiced-Unvoiced-Silence classification of speech signals // Proc. MELECON'83 Mediterr. Electrotechn.Conf. Athens, 24-26, May, 1983, Vol. 2. SI. Sa. - 1983,- C3.05/1 - C3.05/2.
80. Friedman D.H. Multidimensional Pseudo-Maximum Likelihood pitch estimation // IEEE Trans. Acoust., Speech and Signal Process. 1978. - Vol. 26. - N 3. - p. 185-196.
81. Gibson B.R., Greenwood E. Windowing Function for the average magnitude difference function pitch extractor // ICASSP 80: Proc. Denver Cole., 1980, Vol. 1. New York,N.Y. - 1980.-p. 49-52.
82. Gill J.S. Apparatus for distinguishing between voiced and unvoiced sounds in a speech signal 3 / Pat. N 1113225 Grait Britan. 08.05.68. - H4R.
83. Gold B., Rabiner L. Parallel Processing techniques for estimating pitch periods of speech in the time domain // J. Acoust. Soc. Am. 1969. - 46. - N 2 (Pt.2). - p. 442-448.
84. Hebid M.K., and Robinson D.M., Sincoscie W.D. Real Zeros in pitch detection // IEEE Int. Conf. Acoust., Speech and Signal Process. Record. Tulsa, Okla, 1978. New York, N.Y. - 1978. - p. 31-34.
85. Hess W. On-line digital pitch period extractor for speech signals // Proc. Summer Sch. Circuit theory : Short. Contrib. Prague, 1974. - N 2. - p. 413.
86. Hess W. Pitch determination. An example for the application of signal processing methods in speech domain // Speech Processing: Theor. and Appl: Proc. EUSIPCO-8O, 1-st Eur. Signal Process. Conf. Lausanne, Sept. 16-18. Amsterdam, 1980. - p. 625-634.
87. Holmes J.N. An investigation of the volume velocity waveform at the larynx during speech by means of inverse filter // Proc. Speech Commun. Siminar. Stockholm, 1962. - Vol. 1. -B4.
88. Howard D.M., and Howard I.S. Quantitative comparison of speech fundamental period estimation devices // Eleventh int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallinn,1987. Vol. 4.-p. 52-55.
89. Kasuya H. An improved autocorrelation pitch detector // J. Acoust. Soc. Jap. 1980. -(E) 1,N 4. - p. 263-264.
90. Laver J., Hiller S., Hanson R. Comparative performance of pitch detection algorithms on disphonic voices // ICASSP'82: Proc. IEEE INT. Conf. Acoust., Speech and Signal Process.- New York, 1982. Vol.1. - p. 192-195.
91. O.Miller N.J. Pitch detection by data reduction // IEEE Symp. speech recogn. -Carnague-Mellon Univ., 1974. Contrubut Pap. - p. 122-130.
92. Noll A.M. Short-time spectrum and "Cepstrum" techniques for vocal-pitch detection // J. Acoust. Soc. Am. 1964. - 36, N 2. - p.
93. Noll A.M. Cepsrtum pitch determination // J. Acoust. Soc. Am. 1967. - 41, N 2. - p. 293-309.
94. Rabiner R.L., Chang M.J., Rosenberg A.E., McGonegal C.A. A comparative performance study of several pitch detection algorithms // IEEE Trans. Fcoust., Speech Process. 1976. - p. 399-418.
95. Rabiner R.L., Sambur M.R. Application of an LPC distance measure to the voiced-unvoiced-silence detection // IEEE Trans. Acoust. , Speech and Signal Process. 1977. - p. 338-343.
96. Shafer H.L., Cohen A., Freudberg R., Manley H.L. Average magnitude difference function pitch extractor // IEEE Trans> Acoust., Speech and Signal Projcess. Oct. 1974. - 22. -p. 353-362.
97. Shafer R.W., and Rabiner L.R. Digital representation of speech signals // Proc IEEE.- 1975.- 63, N4.-p. 662-677.
98. Stevens K.N. Interaction between acoustic source and vocal tract configuration for consonants // Eleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallinn, 1987. - Vol. 3. - p. 385-389.
99. УТВЕРЖДАЮ" Директор НТЦ ВТ1. Казаков / апреля 2000 г.1. АКТоб использовании материалов диссертационной работы аспиранта ИжГТУ И.О. Архипова
100. Научно-технический центр "Вычислительная техника" (НТЦ ВТ) в течение последних 8 лет выполняет ряд НИР, связанных с разработкой автоматизированных измерительных систем внутри- и внешнебаллистических параметров изделий.
101. Главный конструктор проекта•-./. ••УТВЕРЖДАЮ
102. Главный инженер ДОАО "Йже^кий ошокейный за
103. Мжсфяшй ошокейный завод" В .П.' Новоселов /¡С апреля 2000 г. /1. АКТоб использовании материалов диссертационной работыаспиранта ИжГТУ И.О. Архипова
104. Грорск горло учебной работе
105. Ю. М. Мерзляков « ¡1» " #4 2000 г.•-П- < "» 1. М '» о 4•-П- < ••■< об использовании результа гов каидадатской диссертации аспиранта ИжГТУ И.О. Архипова в учебном процессе
106. Метод анализа и обработки речевых сигналов.
107. По дисциплине "Теория цифровой обработки сигналов" читаются разделы, связанные с о спектральным анализом сигналов, со спектральным и временным анализом речевых сигналов.
108. Выделение параметров основного тона речевого сигнала.
109. По данной теме выполнено и защищено пять дипломных проектов.
110. Методы сжатия речевого сигнала с использованием алгоритма 08.
111. По данной теме выполнен и защищен один дипломный проект.
112. Программное обеспечение методов обработки речевых сигналов.
113. По данной теме выполнен и защищен один дипломный проект. Разработанный по данной теме программный комплекс "Сигнал" используется в лабораторных работах по курсу "Теория цифровой обработки сигналов".
114. И.О. Архипов разработал и создал на электронном носителе методические указания к лабораторным работам по дисциплине "Теория цифровой обработки сигналов":1. "Генерация цифровых сигналов".
115. В работе, на базе программного комплекса "Сигнал", студенты осваивают основные принципы обработки цифровых сигналов во временной области на примере речевых сигналов.2. "Спектральный анализ сигналов".
116. В работе студенты изучают основы спектрального анализа цифровых сигналов с применением алгоритмов быстрого преобразования Фурье на примере речевых сигналов.3. "Изучение линейных систем с постоянными параметрами".
-
Похожие работы
- Алгоритмы и конвейерное вычислительное устройство помехоустойчивой сегментации вокализованных участков речевого сигнала
- Разработка и исследование системы автоматического выделения основного тона речи
- Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов
- Модель и алгоритмы анализа и сегментации речевого сигнала
- Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов
-
- Приборы и методы измерения по видам измерений
- Приборы и методы измерения времени
- Приборы навигации
- Приборы и методы измерения тепловых величин
- Приборы и методы измерения электрических и магнитных величин
- Акустические приборы и системы
- Оптические и оптико-электронные приборы и комплексы
- Радиоизмерительные приборы
- Электронно-оптические и ионно-оптические аналитические и структурно-аналитические приборы
- Приборы и методы для измерения ионизирующих излучений и рентгеновские приборы
- Хроматография и хроматографические приборы
- Электрохимические приборы
- Приборы и методы контроля природной среды, веществ, материалов и изделий
- Технология приборостроения
- Метрология и метрологическое обеспечение
- Информационно-измерительные и управляющие системы (по отраслям)
- Приборы, системы и изделия медицинского назначения
- Приборы и методы преобразования изображений и звука