автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка метода многоканальной автоматической компенсации помех в зашумленных речевых сигналах

кандидата технических наук
Изилов, Роман Юноевич
город
Санкт-Петербург
год
2005
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка метода многоканальной автоматической компенсации помех в зашумленных речевых сигналах»

Автореферат диссертации по теме "Разработка метода многоканальной автоматической компенсации помех в зашумленных речевых сигналах"

На правах рукописи

Разработка метода многоканальной автоматической компенсации помех в зашумленных речевых сигналах

Специальность: 05.13.01 - Системный анализ, управление и

обработка информации

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 2005

Работа выполнена в Санкт-Петербургском государственном политехническом университете.

Научные руководители:

заслуженный деятель науки РФ, доктор технических наук, профессор Федотов Алексей Иванович

Официальные оппоненты:

доктор технических наук, профессор Меткин Николай Павлович

доктор технических наук, профессор Малыхина Галина Федоровна

Ведущая организация: ФГУП НИИ "РУБИН" (г. Санкт-Петербург)

Защита состоится "16" июня 2005 г. в 16 18 часов на заседании диссертационного совета Д 212.229.18 в Санкт-Петербургском государственном политехническом университете по адресу: 195251, Санкт-Петербург, Политехническая ул., д. 29, корпус 9, аудитория 325.

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного политехнического университета.

Автореферат разослан "12" мая 2005 г.

Ученый секретарь диссертационного совета

Шашихин В.Н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. В настоящее время (по данным Министерства информационных технологий и связи РФ и РИА "РосБизнесКонсалтинг") свыше 60 % в совокупном объёме передаваемой информации по общедоступным каналам связи составляют речевые сообщения, значимость которых сохранится и в будущем. Это обусловлено тем, что такому универсальному инструменту человеческого общения как речь, обладающему уникальными особенностями передачи мысли, индивидуальности характера личности, эмоциональной окраски, аутентификации и другими, присущими только данному коммуникативному процессу, трудно найти какую-либо эквивалентную замену во многих системах связи и передачи информации.

В федеральных целевых программах ("Национальная технологическая база на 2002 - 2006 годы", "Федеральная космическая программа на 2001 - 2005 годы", "Исследования и разработки по приоритетным направлениям развития науки и техники на 2002 - 2006 годы"), утверждённых Правительством РФ, важное внимание уделяется решению задач, направленных на совершенствование средств телекоммуникаций и радиотехнических систем, разработку и развитие новых технологий обработки и представления информации, разработку аппаратно-программных адаптивных звукотехни-ческих средств различного назначения, повышение качества звука.

Прогресс в научно-технической сфере неразрывно связывает коммуникативные процессы и повседневную деятельность человека с многочисленными устройствами и механизмами, создающими шум, который сдерживает возможности речевых технологий. Во многих случаях шум ослабляет внимание, снижает разборчивость и комфортность восприятия речевых сообщений передаваемых по каналам связи, повышает утомляемость, а, следовательно - и риск задержки или неточности в принятии важных решений, что, например, при управлении объектами повышенной опасности является недопустимым. По этим причинам создание методов снижения помех в речевых сигналах является одной из важных научно-практических задач. В данной области имееюя множество теоретических разработок. Их многообразие обусловлено с одной стороны значимостью задачи, а с другой - отсутствием приемлемого метода её решения.

Речевые сигналы (РС) имею г свои особенности. В них тесно связаны акустико-семантические уровни. Поэтому преобразования на акустическом уровне могут снижать смысловое содержание сигнала. В данном контексте применение многих высокоэффективных методов обработки сигналов ограничивается. Это обуславливает потребность решения актуальных научных задач, направленных на разработку новых методов и алгоритмов для повышения качества РС.

Таким образом, значимость речевых сообщений в информационном пространстве и потребность повышения качества коммуникативных процессов (средств приема, передачи и обработки РС) с одной стороны, и с другой - видимая возможность её реализации посредством роканальной ав-

тематической компенсации помех в зашумленных РС рассматриваются автором как объективные признаки актуальности диссертационного исследования.

Цель работы и задачи исследования. Целью диссертационной работы является разработка метода и алгоритмов для автоматической компенсации помех в за-тумленных речевых сигналах, направленных на повышение их качества перед приёмом и передачей. Для достижения поставленной цели потребовалось решить следующие задачи:

1) теоретико-информационный анализ методов компенсации помех с точки зрения их применимости к речевым сигналам;

2) разработка контекстно - зависимого алгоритма обнаружения сегментов речевой активности;

3) разработка метода многоканальной автоматической компенсации помех в зашумленных речевых сигналов;

4) разработка метода оперативного контроля качества речевых сигналов, позволяющего упростить и ускорить процесс принятия решений при определении качества речи;

5) разработка структурной схемы системы автоматической компенсации помех в зашумленных речевых сигналах;

6) разработка метода экспериментальной оценки качества речевых сигналов в сравнении с эталоном;

7) сравнительный анализ разработанных решений с известными.

Методы исследования. Для решения поставленных задач использовались методы теории цифровой обработки сигналов, теории построения адаптивных систем фильтрации, акустической теории речеобразования, теории планирования и постановки эксперимента.

Научная новизна:

1) разработан контекстно - зависимый алгоритм обнаружения сегментов речевой активности, позволяющий исключать в сигнале интервалы, содержащие шум и определять границы невокализованных сегментов в локальном окружении вокализованных;

2) разработан метод многоканальной автоматической компенсации помех в зашумленных речевых сигналах, позволяющий в условиях непараметрической априорной неопределенности снижать шум и повышать качество речевых сигналов;

3)разработан метод оперативного контроля качества речевых сигналов, позволяющий упростить и ускорить процесс принятия решений при определении качества речи на основе использования сведений о зависимости уровня разборчивости от изменения уровней сигнала и шума с применением компьютерных методов анализа и обработки информации;

4) разработан метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном. - • '

Практическая значимость. Результаты исследований легли в основу разработок для создания системы автоматической компенсации помех в зашумлённых РС.

Разработанный метод оперативного контроля качества РС, позволяет упростить и ускорить (в сравнении с артикуляционным контролем - ГОСТ Р 50840-95 и ГОСТ Р 51061-97) процесс принятия решений при определении качества речи, и, может использоваться для: тестирования аппаратуры обработки, приема и передачи РС общего и специального назначения без проведения сложных и дорогостоящих измерений; выявления причин снижающих качество каналов связи, измерения энергетических параметров звуковых полей, образованных потоком среды, и определении акустических характеристик различных средств снижения шума.

Разработанная структурная схема системы автоматической компенсации помех в зашумлённых речевых сигналах позволяет в условиях непараметрической априорной неопределенности на основе предложенных теоретических решений снижать шум и повышать качество речевых сигналов.

Разработанный контекстно-зависимый алгоритм обнаружения сегментов речевой активности позволяет исключать в сигнале интервалы, содержащие шум. Отличительно новым признаком алгоритма является контекстный анализ, позволяющий определять границы невокализованных сегментов в локальном окружении вокализованных интервалов сигнала. Алгоритм может применяться для: создания адаптивных систем компенсации помех; совершенствования средств повышения пропускной способности канала связи за счёт его временного уплотнения; уменьшения объема выделяемых ресурсов на хранение речевых сообщений, например, в системах автоматизированной обработки телефонных вызовов, где предусматриваются функции тотальной записи всех разговоров.

Разработан метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном, позволяющий определить в процентном соотношении степень совпадения обработанного сигнала с эталоном, по значению которой принимается решение об эффективности метода компенсации помех.

Полученные в диссертации научные положения, методы, алгоритмы и рекомендации могут использоваться при создании новых и совершенствовании существующих мультимедиа технологий, реставрации речевых фонограмм, человеко-машинных систем с речевым взаимодействием, голосовой идентификации, расшифровки "черных ящиков" подвижных объектов, звукотехнических средств различного назначения, в учебном процессе при проведении практических занятий и в научно-исследовательских работах студентов, обучающихся в рамках лекционных курсов "Речевые технологии" и "Информационные технологии" специальности 230201 "Информационные системы и технологии".

Основные положения, выносимые на защиту:

1) контекстно - зависимый алгоритм обнаружения сегментов речевой активности, позволяющий исключать в сигнале интервалы, содержащие шум и определять границы невокализованных сегментов в локальном окружении вокализованных;

2) метод многоканальной автоматической компенсации помех в зашумленных речевых сигналах, позволяющий в условиях непараметрической априорной неопределенности снижать шум и повышать качество речевых сигналов;

3) метод оперативного контроля качества речевых сигналов, позволяющий упростить и ускорить процесс принятия решений при определении качества речи на основе использования сведений о зависимости уровня разборчивости от изменения уровней сигнала и шума с применением компьютерных методов анализа и обработки информации;

4) структурная схема системы автоматической компенсации помех в зашумленных речевых сигналах;

5) метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном.

Достоверность научных положепий, выводов и рекомендаций обеспечивается корректным использованием теории цифровой обработай сигналов, теории построения адаптивных систем фильтрации, акустической теории речеобразования, теории планирования и постановки эксперимента; успешной проверкой решений, полученных на основе теоретических разработок, средствами компьютерного моделирования.

Результаты использования. Результаты диссертационной работы использованы в ОАО "Российские железные дороги" (ОАО "РЖД"), Федеральном государственном авиационном предприятии "Пулково" (ФГУАП "Пулково"), ОАО "ЛЕНПОЛИГРАФМАШ", ФГУП "Центральный научно-исследовательский институт технологии судостроения" (ЦНИИ ТС), Санкт-Петербургском государственном политехническом университете.

Публикации. По теме диссертационной работы опубликовано 6 печатных работ, в том числе патент на изобретение РФ.

Апробация работы. Основные положения, результаты, выводы и рекомендации диссертационной работы докладывались и обсуждались: на Межвузовской научной конференции "ХХГХ НЕДЕЛЯ НАУКИ СПбГТУ 27 ноября-2002 декабря 2000 года"; IX Международной научно- методической конференции "Высокие интеллектуальные технологии образования и науки 14-15 февраля 2002 года"; на заседаниях кафедры "Системного анализа и управления" факультета технической кибернетики и "Гибкие автомагические комплексы" механико-машиностроительного факультета Санкт-Петербургского государственного политехнического университета.

Структура и объём диссертации Диссертация состоит из введения, пяти глав, заключения, списка условных сокращений, списка литературы, и приложения (акты использования результатов диссертационной работы). Общий объём диссертации составляет 171 страница, в том числе 70 рисунков и 17 таблиц. Список литературы насчитывает 123 наименования.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность работы, определяются цель и задачи диссертационного исследования, научная новизна, практическая значимость, апробация, приводится краткое содержание глав диссертации.

В первой главе анализируется современное состояние и тенденции развития речевых технологий, приводится обзор систем, программных средств и технологий компенсации помех в зашумленных речевых сигналах, формулируется постановка задачи диссертационного исследования, определяются основные термины.

Во второй главе представлен теоретико-информационный анализ методов компенсации помех в контексте их применения к речевым сигналам, определяется целесообразность разработки нового метода.

Результаты анализа наиболее распространенных и специальных методов компенсации помех показали следующее:

1. Методы компенсации помех, основанные на низкочастотных, высокочастотных и полосовых фильтрах могут рассматриваться только как вспомогательные средства анализа и обработки РС. Их достоинствами следует считать: возможность исключать шум, частотный спектр которого находится вне диапазона частот полезного сигнала, но в диапазоне восприятия. Основной недостаток - снижение помех, приводит к искажению сигнала, если их диапазоны частот совпадают или перекрываются.

2. Метод компенсации помех, основанный на гребенке фильтров позволяет корректировать сигнал в отдельных частотных полосах, что является важным для снижения шума, спектр частот которого сосредоточен не по всему спектру частот, а только в отдельных частотных полосах полезного сигнала. Основной недостаток метода состоит в искажении сигнала - процедуры децимации и интерполяции удаляют (приравнивают к нулю) значительную часть его отсчётов.

3. Метод компенсации помех, основанный на медианной фильтрации позволяет снижать кратковременные импульсы, но не приводит к уменьшению широкополосного шума. В этом смысле метод является малоэффективным.

4. Метод компенсации помех, основанный на фильтре Винера корректирует сигнал взвешиванием его оптимальными весовыми коэффициентами, определяемые на основе решения уравнения Винера-Хопфа. Главный недостаток - неточное определение весовых коэффициентов увеличивает шум в сигнале.

5. Метод компенсации помех, основанный на фильтре Калмана позволяет снижать шум без искажений только при наличии модели формирования полезного сигнала. Неопределенность или приближенное знание модели ограничивают возможности метода.

6. Недостатком метода адаптивной компенсации помех без прямой оценки сигнала является требование точной настройки параметров фильтра. Использование вспомо-

гательных каналов обработки требует поступления по ним "чистого" (без фрагментов полезного сигнала) шума, идентичного шуму в основном канале. На практике выполнить это требование часто не представляется возможным.

7. Метод адаптивной компенсации помех с прямой оценкой позволяет выделять из смеси с шумом сигнал с априорно неизвестными, но постоянными характеристиками (например, спектральной плотностью), оценивая их по некоторой обучающей выборке данных. Изменение характеристик ограничивает процесс подстройки метода через некоторое время после начала наблюдения сигнала.

8. Функционирование метода компенсации помех, основанного на вейвлет фильтрации зависит от выбора порога, ограничивающего обрабатываемые данные по уровню: увеличение порога искажает полезный сишал, а уменьшение - не позволяет компенсировать шум и приводит к безрезультатному использованию вычислительных ресурсов.

9. Использование метода компенсации помех, основанного на спектральном вычитании приводит к появлению в сигнале нестационарного, узкополосного, изменяющегося во времени по амплитуде и частоте остаточного шума. Метод не позволяет осуществлять частотно-временную локализацию помех, что приводит к искажению сигнала в тех диапазонах частот, где отсутствует шум.

Таким образом, теоретико-информационный анализ позволил заключить, что для достижения поставленной в диссертации цели требуется разработать новые научно-практические решения.

В главе 3 приводятся разработанные автором теоретико-практические решения, направленные на создание метода многоканальной автоматической компенсации помех в зашумленных РС. Предлагается способ представления РС на основе использования прямых и обратных функций декомпозиции; правила принятия решений при определении границ сегментов речевой активности, отличительно новым признаком которых является контекстный анализ, позволяющий определят!. в зашумленных сигналах границы речевых сегментов; приводится описание процесса компенсации помех в зашумленных РС.

Многоканальным представлением (рис. 1) называется процесс разделения РС на отдельные частотные полосы (каналы) с целью последующей их обработай на основе использования прямых функций декомпозиции (ФД) Р0 и (1)-(4). Синтез (объединение каналов после их преобразования) выполняется обратными функциями декомпозиции (ОФД) и ^ согласно (5) - (8) с целью восстановления динамического и частного диапазона РС.

V2lC")

Vl.(")

v(n)

ФД

уровень 1

ФД

ФД

v3,(n)

V22(")

vMfn)

V33Î")

—C-

уровень 2

уровень 3

V23W.

vi2(")

ФД

ФД

V34C«) v35(")

V24(")

ФД

v3e(") V37(")

c-

VjsO)

Рис. 1 Структурная схема процесса многоканальной декомпозиции сигнала Выборки входного (загпумленного) сигнала v(n) представляются функциями декомпозиции первого уровня множествами выборок Vj,(я) и vl2(n). ФД следующего уровня преобразуют сигналы v,, (п) и v12(n) в новые множества выборок. В результате многократного применения ФД F0 и Fx ко всем парам выборок сигнала образуются пары непересекающихся подмножеств уровня декомпозиции N :

_ F (,,2к ,,2* (1л

v]+\,r+1

(1) (2)

где V* г - выборка к сигнала у(п) множества г, уровня декомпозиции /; } е [1, Ы] - индекс ) и количество уровней декомпозиции N; г = 1,2,...,Я-1,Я;~ индекс множества выборок сигнала, Я = 2^.

Соотношения (1) и (2) рассчитываются на базе функций ^ и :

1 + у/ 2

(3)

(4)

где / = vjkr и ц/ = v)kf - значения отсчетов последовательно заданные, в конечно-временном ряду выборок PC. Преобразования (1)-(4) реализуют процесс многоканальной декомпозиции, по окончанию которой входной PC v(n) представляется 2N результирующими сигналами (каналами) vm(n),vN2(n),vm(n),...,vm(ri), где R = 2N. При этом v*+1>r и v*+1 г+] в (1) и (2) представляют собой аппроксимирующие (низкочастотные) и

детализирующие (высокочастотные) значения сигнала. Соотношения (5)-(8) позволяют осуществить синтез РС:

(5)

(6)

где, определяются в виде:

Преобразования (1) - (8) позволяют локализовать шум по частоте без искажения сигнала. Однако компенсация помех в РС, отличается от традиционных задач снижения шума непараметрической априорной неопределенностью отсутствием априорных сведений не только о параметрах, но и о виде закона распределения наблюдаемой совокупности выборочных значений сигнала Для её преодоления требуется сформировать, по 1файней мере, одну оценку шума, содержащегося в обрабатываемых данных. По этой причине теоретико-практические решения, направленные на разработку метода многоканальной автоматической компенсации помех, должны обеспечивать локализацию шума, как по частоте, так и по времени.

Необходимость локализации помех во времени потребовало разработки правил принятия решений (ППР) при определении границ (начала и окончания) сегментов речевой активности (РА). Под сегментами РА понимаются интервалы сигнала, содержащие речевые единицы (звукосочетания, слова, фразы). Сложность разработки обусловлена следующим. В РС присутствуют звуки с малой энергией (невокализован-ные, согласные звуки) Если моменты начала и окончания вокализованных сегментов (сегментов, содержащие гласные или тоновые звуки) могут быль выявлены в зашум-ленном сигнале, то для невокализованных интервалов такие моменты определить трудно - энергия шума часто либо совпадает, либо превосходит энергию согласных.

Для обнаружения границ сегментов РА в диссертационной работе предложены ППР, отличительно новым признаком которых является контекстный анализ, позволяющий определять расположение невокализованных интервалов в локальном окружении вокализованных фрагментов сигнала. Реализация правил состоит в следующем. Входной сигнал представляется последовательностью т е {0,1,...,М} сегментов (кратковременных интервалов), длительностью 20 мс (рис. 3). В них вычисляется энергия и число нулевых переходов (ЧНП):

1 ЛЫ-ЛМ

Е(т) = - £ у\п) (9)

л* п=Ыт

где \'{п) отсчёты сигнала; Е(т) - энергия сигнала в сегменте т \ N - длина (количество отсчетов) сегмента т\ п- номер выборки сигнала.

1 Nm+N-\

ZC(m) = - S|sgn[v(«)] - sgn[v(/i - 1)J (10)

■N n=Nm

Г 1. x(n)> 0

sgn[v(n)H (11)

[-1, x(n) < 0

где v(n) - отсчёты сигнала; ZC(m) - среднее ЧНП в сегменте т; N- длина сегмента т ; п- номер выборки сигнала.

Выражения (9),(Ю) позволяют произвести адаптивный расчет значений порогов энергии и ЧНП ( Ер и ZCP):

Ер = min [Е(т)] + A(max \Е(т] - min [Е(т]) (12)

т еМ т еМ т еМ

ZCp = min [ZC(m)] + Д(тах [ZC(m]~ min [ZC(m]) (13) m еМ m еЛ/ m cM

Формулы (12), (13) используются для принятия решений об обнаружении или отсутствии речевой активности в исследуемом сегменте:

f Е(т)>Е„ & ZC(m)<ZC„ - вокализован м—\ (14)

[ Е(т)<Ер & ZC{m)>ZCp - не вокализован

Границы сегментов РА правилом (14) могут устанавливаться некорректно - они будут или увеличиваться за счёт включения шума, или уменьшаться из-за исключения интервалов со слабыми (невокализовэнными) звуками (согласных). Поэтому для выявления границ интервалов РА производится следующий контекстный анализ.

Известно, что согласные звуки в речевом сигнале появляются либо непосредственно перед гласными, либо сразу после их окончания. Это обстоятельство и находится в основе предлагаемого контекстно - зависимого правила обнаружения сегментов РА. Гласные (вокализованные) сегменты (кратковременные интервалы PC) соответствуют тем участкам, в которых отмечается увеличение энергии сигнала с превышением порога. Ниже этого порога могут находиться согласные, однако для их выявления использование числа нулевых переходов является недостаточным. Для определения границ согласных сигнал проверяется в диапазоне 6 сегментов перед началом и после окончания вокализованных интервалов. Выбор диапазона основан га информации о статистическом распределении длительности звуков речи. Средняя длительность согласных находится в пределах от 20 мс до 120-150 мс.

Первоначально решение о границах (начала и окончания) интервала РА принимается в соответствии с правилом (14). Далее внутри интервала выявляются сегменты с первым и последним номером (левый и правый сегмент интервала речевой активности т «ев >тправ) И исследуются прилегающие к ним сегменты тяев-1 и тправ + г,

где l,r е [1,6]- индексы для анализа сегментов слева и справа от тлев тправ (рис. 3).

Рис. 3. Сегментация и обнаружение в сигнале интервалов речевой активности (сверху вниз: осциллограмма и энергия РС).

В связи с тем, что часть речевых фрагментов не выявляются решающим правилом (14) из-за того, что в них незначительно изменяется энергия, то перед контекстным анализом производится пересчет ранее вычисленных порогов за счет изменения коэффициента А (со значения Д=0,35 до Д=0,2). Для принятия решения о присутствие РА в сегменте тлев-1 проверяются 3 сегмента слева от тлев-1 и 3 сегмента справа от тлев- 1. Если тлев-1 является согласным звуком, то либо сразу перед ним, либо непосредственно за ним будет наблюдаться увеличение энергии сигнала с превышением порога. При превышении порога в одном из трех сегментов слева или справа принимается решение, что тлев -1 является сегментом с речевой активностью (рис. 3). Сегменты щев~2, щев-3, ..., тлев- I и тправ +1, т„рав+2, ..., тправ+г анализируются аналогично (рис. 3). Номера обнаруженных речевых сегментов записываются в буферную память. Далее уточняются выявленные ранее границы (начала и окончания) интервалов РА (рис. 3).

Предложенные правила позволяют определять в сигнале интервалы речевой и неречевой активности. Информация об интервалах неречевой активности используются в методе многоканальной автоматической компенсации помех при оценки шума и коррекции входного сигнала.

Метод многоканальной автоматической компенсации помех состоит в следующем. Зашумленный входной сигнал у(л) представляется N множествами VJ R (к) на

основе соотношений (1)-(4). Каждому множеству Vу К(к) соответствует отдельный частотный канал в спектре сигнала у(п). По выборочным значениям сегментов VJ¡R(k), моменты начала и окончания которых находятся в пределах границ интер-

валов неречевой активности, вычисляется оценка шума Данный метод предполагает выполнение приведенных ниже операций:

1. Определяется количество сегментов М в границах интервала неречевой активности с номером I;

2. Каждый сегмент т&[\,М] г -го интервала неречевой активности состоит из К отсчётов VJ ¡i(k) = VJJ^ (к . По ним вычисляется энергия сигнала в сегменте т:

= (15)

где К - число отсчётов в сегменте т сигнала К(к); VJR(к)- отсчёт к сигнала с номером /? е [1,2^] уровня декомпозиции

3. Оценка энерпш шума определяется по результату усреднения энергий сегментов г -го интервала неречевой активности:

= —^«(ид.У.Л) О6)

где Д(ти,и М - энергия шума и количество сегментов т в г'-м интервале неречевой активности сигнала VJ К(к) соответственно.

4. Сигнал VJ R(k) и энергия шума представляются в частотной области. Для этого используется прямое преобразование Фурье:

О) = .*(*)] (17)

где й (у о) - комплексный спектр входного сигнала; Я - номер сигнала уровня декомпозиции к- отсчёт сигнала;F[]-символ преобразования Фурье.

(18)

где Ё>1 (у ¿о) - комплексный спектр шума в / -м интервале неречевой активности

сигнала; к - отсчёт сигнала; т- номер сегмента; Я- номер сигнала уровня декомпозиции У; Р*Г ] — символ прямого преобразования Фурье.

5. В комплексных спектрах (п.4) выделяются вещественные и мнимые части -определяются модуль и аргумент спектра:

к« И = ^Ке2 {уАР (МЬ^Ь*Цш)} , (19)

, 1т { , (20)

Г J я (.<» ) = Кё \ V., „ ()<о ) [ = ----

1 | (У® )}

(21)

Коррекция сигнала. В спектре входного сигнала шум уменьшается на величину оценки (21):

(22)

Значения и характеризуют оценку спектра шума и

спектра входного сигналауу К(к).

7. Формирование выходного сигнала. Коррекция каждого сигнала у^Цс) производился согласно П.1-П.6. Далее вещественные значения спектров скорректированных сигналов к (<»)| (п.6) используются для формирования выходных данных

во временной области. Для этого применяется обратное преобразование Фурье:

л (*> = [|*л* («)| ехР( Jrj.it (®))] (23)

где Ху д (к) - сигнал после коррекции (п.6) во временной области; Л,7- номер и уровень декомпозиции сигнала; F_1[ ] - символ обратного преобразования Фурье.

8. Сигналы (п.7) объединяются с использованием обратных функций декомпозиции согласно формулам (5) - (8) - формируется выходной сигнал х(п). Далее по данным, полученным с использованием контекстно-зависимых правил обнаружения сегментов РА в х(п) производится замена сегментов с неречевой активностью на сегменты содержащие паузы. В завершении, выполняется нормализация динамического диапазона выходного сигнала х(п).

Глава 4 посвящена разработке системы автоматической компенсации помех. Приводятся структурные схемы и описание разработанных модуля анализа РС, модуля контекстно - зависимого обнаружения сегментов речевой активности, модуля многоканальной коррекции сигнала и системы компенсации помех, позволяющих снижать шум и повышать качество РС.

Модуль анализа (МА) предназначен для представления сигнала в виде отдельных частотных каналов на основе применения футткций декомпозиции, рассмотренных в главе 3, и прямого преобразования Фурье. МА позволяет осуществить частотно временную локализацию помех, содержащихся в запгумленном РС. Структурная схема разработанного модуля показана на рис. 4.

РС

БД1

бд 2

2(и)

бдз

бпф, У31(<Й) с*

бд 4 У32(Й>) X

| бпф2 X

X

И %

-1 бпф3

1 , бд5 М") у34(<»)1 ь, о

М") бпф4

о

Vй) У35(й>) бва л §

у2з(") бпф5

бд 6 "збМ ' 5 И

I ' бпф6 , г

J X

М") У3/(<У)

—, бпф7

1 бд 7 М") у38(й>) н

бпф8

«

Рис. 4. Структурная схема модуля анализа речевого сигнала

МЛ состоит из следующих блоков: БД - блок декомпозиции, предназначен для разделения речевого сигналах на отдельные каналы на основе использования функций декомпозиций; БПФ - блок прямого преобразования Фурье, предназначен для представления сигналов, выделенных блоком декомпозиции, в частотной области; БВА - блок вычисления амплитуды, предназначен для определения значения амплитуды сигнала в частотной области.

Наблюдаемые выборочные значения РС, поступают на вход модуля МА, где блоком декомпозиции БД1 представляются, на основе использования функций декомпозиции множествами выборок уп(гс) и у12 (п). Далее, с выхода БД1 сигнал уп(и) поступают на вход блока БД2, а сигнал у12(и) на вход БДЗ. Блоками БД2 и БДЗ уи(л) и у12(и), функциями декомпозиции представляются во временной области новыми сигналами у21(и),у22(«),У2з(и)и у24(и), которые поступают на входы блоков БД4, БД5, БД6, и БД7. На выходах БД4, БД5, БД6, и БД7 образуются во временной области сигналы у3[(и),у32(«),...,у38(и). Они преобразуются блоками БПФ1, БПФ 2БПФЯ в частотную область. На выхода БПФ1, БПФг,...,БПФ% формируются спектры сигналов у31 (п), уз2(л),...,у38(п). Данные с выходов БПФиБПФ2,- -, БПФ? передаются на вход БВА, где вычисляются амплитудные значения сигналов в частотном спектре. После этого, информация с выхода блока БВА передаегся к модулю многоканальной коррекции сигнала. На этом функционирование модуля МА завершается.

Модуль контекстно - зависимого обнаружения сегментов речевой активности (МКРА), предназначен для определения в зашумленных сигналах моментов начала и окончания речевых интервалов на основе использования предложенных правил принятия решений, рассмотренных в главе 3. МКРА позволят исключать в РС интервалы, содержащие шум. Структурная схема модуля показана на рис. 5.

РС

БСС БЭП I"1 > БВП

БС

БОИ

БПГ

БПГЛ

БПЗ

НК.

« 5

£ 5

О Й я

" £ £

2 о и

Рис. 5. Структурная схема модуля контекстно-зависимого обнаружения сегментов речевой активности.

МКРА содержит: БСС - блок сегментации сигнала, предназначен для представления входной сигнальной последовательности в виде множества отдельных кратковременных интервалов (сегментов); БЭП - блок, предназначенный для расчёта значений энергии и ЧНП сигаала; БВП блок вычисления порогов, предназначен для оп-

ределения порогов энергии и ЧИП ; БС - блок сравнения, предназначен для сравнения энергии и ЧНП с соответствующими пороговыми значениями; БОИ - блок обнаружения во входном сигнале интервалов РА; БПГ - блок поиска границ, предназначен для определения моментов начала и окончания интервалов с речевой активностью; БТТГЛ - блок поиска границ речевых сегментов в локальном окружении выявленных БПГ интервалов РА; БПЗ - блок, предназначенный для записи и хранения моментов начала и окончания речевых интервалов (НК^). I,

Поступающий сигнал на вход модуля МКРА представляется с помощью блока БСС последовательностью сегментов, для каждого из которых блок БЭП вычисляет значения энергии и ЧНП, согласно формулам (9), (10). Данные с выхода БЭП поступают на входы БВП и БС. Блоком БВП рассчитываются по формулам (12) и (13) значения порогов. Для принятия решения о присутствие в сигнале интервалов РА (глава 3) данные с выхода БЭП сравниваются в блоке БС со значениями порогов, рассчитанных блоком БВП. Сигнал с выхода БС подается на вход блока БОИ, где в соответствии с правилом (14), принимается решение о присутствие в сегменте РА. Данные с выхода БОИ поступают на вход блока БПГ для определения первоначальных границ интервала РА. Границы, установленные блоком БПГ, уточняются блоком БПГЛ путем анализа локального окружения сегментов РА (рис. 3). Для этого блоком БПГЛ осуществляется пересчёт ранее вычисленных пороговых значений и одновременно используются процедуры, реализующие правила, предложенные в главе 3. Данные с выхода БПГЛ о границах интервалов РА поступают на вход блока БПЗ для записи их в буферную память.

Функционирование МКРА в диссертации более подробно поясняется схемой алгоритма контекстно-зависимого обнаружения сегментов РА.

Модуль многоканальной коррекции сигнала (ММКС) предназначен для реализации процесса компенсации помех, локализованных по времени и частоте в каналах зашумленного РС, на основе использования предложенных в главе 3 теоретических решений ММКС позволяет снизить шум и повысить качество речевого сигнала. Структурная схема модуля показана на рис. 6. >

ММКС содержит: МА - модуль анализа сигнала (рис. 4); МКРА - модуль контекстно-зависимого обнаружения сегментов речевой активности; БФОШ - блок ,

формирования оценки шума, предназначен для определения среднего значения помех, содержащихся вне интервалов РА; БКЗС блок коррекции значения спектра сигнала, предназначен для уменьшения значения спектра входного сигнала на величину среднего значения спектра шума; БОПФ - блок обратного преобразования Фурье, предназначен для представления сигнала из области частот в область времени; БО-блок объединения, предназначен для расширения частотного диапазона и восстановления естественности звучания выходного сигнала, путём объединения данных, полученных с выходов блоков БОПФ.

модуль многоканальной коррекции сигнала БФОШ, ->| БКЗС, -> БОПФ, (->

Рис. 6. Структурная схема модуля многоканальной коррекции сигнала

Сигналы, поступающие с выхода МА на входы БФОШ, представляют собой отдельные частотные каналы зашумленного РС, полученные на основе функций декомпозиции и прямого преобразования Фурье. БФОШ позволяет определить спектр шума, локализованного по частоте и времени во входном сигнале с учетом данных, полученных с выхода МКРА. Данные выхода БФОШ поступают на входы блоков БКЗС, где согласно рассмотренному в главе 3 описанию, производится коррекция каждого из выделенных модулем МА каналов зашумленного речевого сигнала. Полученные результаты преобразуются с использованием блоков БОПФ из области частот в область времени. Далее они подаются на входы блоков БО для восстановления частотно1 о диапазона и естественности звукового восприятия речи. БО реализует, согласно формулам (5) - (8), процесс объединения пришлых данных с выходов БОПФ. На этом процесс коррекции зашумленного стнала модулем ММКС завершается.

На основе пред ложенных решений разработана система компенсации помех (СКП) в зашумленных РС (рис. 7). Она содержит: МА - модуль анализа; МКРА - модуль контекстно-зависимого обнаружения сегментов РА; ММКС модуль многоканальной коррекции сигнала (рис. 6); БФП - блок формирования пауз, предназначен для создания пауз в сегментах с неречевой активностью; БН - блок нормализации, предназначен для выравнивания динамического диапазона РС.

На вход модулей МКРА и МА системы компенсации помех поступает зашум-ленный РС. Модуль МКРА позволяет локализовать шум, содержащийся в сигнале, во времени, а модуль МА - по частоте. МКРА представляет сигнал последовательностью кратковременных интервалов и определяет в каждом из них наличие речевой и неречевой активности. Функционирование МА и МКРА рассмотрено выше (рис. 4, рис. 5).

Данные с выходов МА и МКРЛ передаются на вход модуля ММКС, где производится коррекция речевого сигнала в каждых из выделенных модулем МА частотных каналов. Далее блоками БОПФ и БО модуля ММКС восстанавливается частотный диапазон РС (рис. 7) и формируется сигнал выхода ММКС. Сигнал с выхода ММКС подается на вход блока БФП и БН, где производится выравнивание динамического диапазона, и формируется выходной РС. Па этом функционирование СКП завершается.

8 Э

§ д

а

§

о

§ §

я о

й ш и ¡г и а

х

«

1

с

к &

я о X <и с Й о

И

13

2 и н

о §

Я) 2 и X

0

ж &

1

и

у

Рч

Глава 5 посвящена оценке достоверности предложенных в предыдущих главах научно - практических решений. Рассматривается метод оперативного контроля качества речевых сигналов, позволяющий упростить и ускорить (в сравнении с артикуляционным контролем - ГОСТ Р 50840-95, ГОСТ Р 51061-97) процесс принятая решений при определении качества речи на основе использования сведений о зависимости уровня разборчивости от изменения уровней сигнала и шума с применением компьютерных методов анализа и обработки информации. Предлагается метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном, позволяющий определить в процентном соотношении степень совпадения обработанного сигнала с эталоном, по значению которой принимается решение об эффективности метода компенсации помех.

Приводится сравнительный анализ предложенных решений с известными. Результаты экспериментальных исследований показывают достаточное совпадение обработанных речевых сигналов с эталоном и высокую эффективность применения предложенных разработок.

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ

Представленная на защиту диссертация является обобщением проведённых автором исследований и разработок, которые позволили получить следующие основные результаты:

1. Разработаны правила принятия решения при определении границ сегментов речевой активности, позволяющие исключать в сигнале интервалы, содержащие шум. Их отличительной новизной является контекстный анализ, позволяющий в зашумленном сигнале определять границы невокал изованных сегментов в локальном окружении вокализованных.

2. Разработан способ представления речевых сигналов на основе использования прямых и обратных функций декомпозиций, позволяющий осуществлять без потерь процесс разделения и объединения сигнала.

3. Разработан метод многоканальной автоматической компенсации помех в зашум-ленных речевых сигналах, позволяющий в условиях непараметрической априорной неопределенности снижать шум и повышать качество речевых сигналов;

4. Разработаны структурная схема модуля МКРА и контекстно-зависимый алгоритм обнаружения сегментов речевой активности, которые позволяют локализовать шум, содержащийся в РС, во времени.

5. Разработана структурная схема модуля анализа (МА) речевых сигналов, позволяющего локализовать шум, содержащийся в РС, по частоте.

6. Разработана структурная схема модуля многоканальной коррекции сигнала (ММКС) позволяющего сформировать оценку шума, локализованного по частоте и времени, и компенсировать его в наблюдаемом сигнале.

7. Разработан метод оперативного контроля качества речевых сигналов, по- > зволяющий упростить и ускорить (в сравнении с артикуляционным контролем - ГОСТ Р 50840-95, ГОСТ Р 51061-97) процесс принятия решений при определении качества речи на основе использования сведений о зависимости уровня разборчивости от изменения уровней сигнала и шума с применением компьютерных методов анализа и обработки информации.

8. Разработана струмурная схема системы автоматической компенсации помех в затушенных речевых сигналах, позволяющей снижать шум и повышать их качество.

9. Разработан метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном, позволяющий определить в процентном соотношении степень совпадения обработанного сигнала с эталоном, по значению которой принимается решение об эффективности метода компенсации помех.

10. Проведен сравнительный анализ разработанных решений с известными.

11.Полученные в диссертации научные положения, методы, алгоритмы и рекомендации могут использоваться при создании новых и совершенствовании существующих мультимедиа технологий, реставрации речевых фонограмм, человеко-машинных систем с речевым взаимодействием, голосовой иденти- л фикации, расшифровки "черных ящиков" подвижных объектов, звукотехниче-

ских средств различного назначения, в учебном процессе при проведении прак- .

таческих занятий и в научно-исследовательских работах студентов, обучающихся в рамках лекционных курсов "Речевые хехнологии" и "Информационные технологии" специальности 230201 "Информационные системы и технологии".

Список опубликованных работ

1. Изилов Р.Ю., Морозов Б.И. Исследование методов шумопонижения речевых сигналов и разработка системы // XXIX Неделя науки СПбГТУ. Материалы межвузовской научной конференции. - СПб.: Изд. СПбГТУ, 2001- ч. 5, - С 73 -74.

2. Изилов Р.Ю. и др. Способ лексической интерпретации слитной речи /Патент на изобретение № 2119196, РФ, МКИ вЮЬ 5/00, № 97117246/09; за-явл. 27.10.97: опубл. 20.09.98. Бюл. № 26.

3. Изилов Р.Ю., Морозов Б.И. Исследование и разработка критериев оценки качества методов шумопонижения речевых сигналов // Высокие интеллектуальные технологии образования и науки. Материалы 9 международной научно-методической конференции. - СПб.: Изд. СПбГТУ, 2002. - С. 262-263.

4. Изилов Р.Ю., Изилов Я.Ю. Критерии оценки качества речевых сигналов // Научно-технические ведомости СПбГТУ.-2002,-№ 3(29),- С. 110-114.

5 Изилов Р.Ю., Изилов Я.Ю., Федотов А.И. Метод вычитания спектров в задаче снижения шумов в речевых сигналах // Труды Санкт-Петербургской Инженерной Академии: Сборник научных трудов / СПбГПУ. - СПб., 2003. -Вып. IV.-С. 166-173.

6. Изилов Р Ю Повышение оперативности принятия решений при определении качества речевых сигналов // Информационно-управляющие системы. - 2005. -№ 3, - С. 2-8.

Лицензия ЛР №020593 от 07.08.97

Подписано в печать 12.05.2005. Формат 60x84/16. Печать офсетная. Уч. печ. л. 1,5. Тираж 100 экз. Заказ 147.

Отпечатано с готового оригинал-макета, предоставленного автором, в типографии Издательства Политехнического университета. 195251, Санкт-Петербург, Политехническая ул., д. 29

il О О 3

РНБ Русский фонд

2006-4 15867

Оглавление автор диссертации — кандидата технических наук Изилов, Роман Юноевич

Введение

Глава 1 Постановка задачи диссертационного исследования

1.1 Современное состояние и тенденции развития речевых технологий

1.2 Влияние шума на функционирование речевых систем

1.3 Обзор систем и программных средств компенсации помех в зашумленных речевых сигналах

1.4 Постановка задачи диссертационного исследования

Глава 2 Теоретико-информационный анализ методов компенсации помех

2.1 Метод компенсации помех, основанный на низкочастотной, высокочастотной и полосовой фильтрации

2.2 Метод компенсации помех, основанный на гребенке фильтров

2.3 Метод компенсации помех, основанный на медианной фильтрации

2.4 Оптимальная фильтрация

2.4.1 Метод оптимальной компенсации помех, основанный на фильтре Винера

2.4.2 Метод оптимальной компенсации помех, основанный на фильтре Калмана

2.5 Адаптивная фильтрация

2.5.1 Метод адаптивной компенсации помех без прямой оценки сигнала

2.5.2 Метод адаптивной компенсации помех с прямой оценкой сигнала

2.6 Метод компенсации помех, основанный на вейвлет фильтрации

2.7 Метод компенсации помех, основанный на спектральном вычитании

2.8 Выводы

Глава 3 Метод многоканальной автоматической компенсации помех в зашумленных речевых сигналах

3.1 Многоканальное представление речевого сигнала

3.2 Прямые и обратные функции декомпозиции

3.3 Правила принятия решений при определении границ сегментов речевой активности

3.4 Определение сегментных оценок спектра шума и коррекция сигнала

3.5 Описание процесса компенсации помех

3.6 Выводы

Глава 4 Разработка системы автоматической компенсации помех зашумленных речевых сигналов

4.1 Модуль анализа речевого сигнала

4.2 Модуль контекстно-зависимого обнаружения сегментов речевой активности

4.3 Модуль многоканальной коррекции сигнала

4.4 Структурная схема системы компенсации помех в речевых сигналах

4.5 Выводы

Глава 5 Оценка достоверности научных результатов

5.1 Контроль качества речевых сигналов

5.1.1 Сегментно-ориентированный показатель качества сигнал - шум

5.1.2 Сегментно-ориентированный показатель - дифференциал спектров

5.1.3 Нормированный показатель качества речевых сигналов 90 5 Л .4 Обобщенный показатель сигнал - шум

5.1.5 Акустический контроль качества

5.1.6 Метод оперативного контроля качества речевых сигналов

5.2 Сравнительный анализ времени определения класса качества речевых сигналов методами артикуляционного и оперативного контроля

5.3 Метод экспериментальной оценки качества речевых сигналов

5.3.1 Определение количества сегментов для расчёта показателей качества речевого сигнала

5.3.2 Определение количества контрольных измерений

5.3.3 Формирование исходных данных для расчёта показателей качества

5.3.4 Расчёт значений показателей качества речевых сигналов

5.3.5 Сравнение показателей качества речевых сигналов с эталоном

5.3.6 Анализ результатов экспериментального исследования

5.4 Сравнительный анализ предлагаемого решения с известными

5.5 Выводы 155 Заключение 156 Список условных сокращений 158 Список литературы 159 Приложение

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Изилов, Роман Юноевич

Актуальность. В настоящее время (по данным Министерства информационных технологий и связи РФ и РИА "РосБизнесКонсалтинг") свыше 60 % в совокупном объёме передаваемой информации по общедоступным каналам связи составляют речевые сообщения, значимость которых сохранится и в будущем. Это обусловлено тем, что такому универсальному инструменту человеческого общения как речь, обладающему уникальными особенностями передачи мысли, индивидуальности характера личности, эмоциональной окраски, аутентификации и другими, присущими только данному коммуникативному процессу, трудно найти какую-либо эквивалентную замену во многих системах связи и передачи информации.

В федеральных целевых программах ("Национальная технологическая база на 2002 - 2006 годы", "Федеральная космическая программа на 2001 - 2005 годы", "Исследования и разработки по приоритетным направлениям развития науки и техники на 2002 - 2006 годы"), утверждённых Правительством РФ, важное внимание уделяется решению задач, направленных на совершенствование средств телекоммуникаций и радиотехнических систем, разработку и развитие новых технологий обработки и представления информации, разработку аппаратно-программных адаптивных звукотехнических средств различного назначения, повышения качества звука.

Прогресс в научно-технической сфере неразрывно связывает коммуникативные процессы и повседневную деятельность человека с многочисленными устройствами и механизмами, создающими шум, который сдерживает возможности речевых технологий. Во многих случаях шум ослабляет внимание, снижает разборчивость и комфортность восприятия речевых сообщений передаваемых по каналам связи, повышает утомляемость, а, следовательно - и риск задержки или неточности в принятии важных решений, что, например, при управлении объектами повышенной опасности является недопустимым. По этим причинам создание методов снижения помех в речевых сигналах является одной из важных научно-практических задач. В данной области имеется множество теоретических разработок. Их многообразие обусловлено с одной стороны значимостью задачи, а с другой - отсутствием приемлемого метода её решения.

Речевые сигналы (РС) имеют свои особенности. В них тесно связаны аку-стико-семантические уровни. Поэтому преобразования на акустическом уровне могут снижать смысловое содержание сигнала. В данном контексте применение многих высокоэффективных методов обработки сигналов ограничивается. Это обу-* сдавливает потребность решения актуальных научных задач, направленных на разработку новых методов и алгоритмов для повышения качества РС.

Таким образом, значимость речевых сообщений в информационном пространстве и потребность повышения качества коммуникативных процессов (средств приема, передачи и обработки РС) с одной стороны, и с другой - видимая возможность её реализации посредством разработки метода многоканальной автоматической компенсации помех в зашумленных РС рассматриваются автором как объективные признаки актуальности диссертационного исследования.

Цель работы и задачи исследования. Целью диссертационной работы является разработка метода и алгоритмов для автоматической компенсации помех в зашумленных речевых сигналах, направленных на повышение их качества перед приёмом и передачей. Для достижения поставленной цели потребовалось решить следующие задачи:

1) теоретико - информационный анализ методов компенсации помех с точки зрения их применимости к речевым сигналам;

2) разработка контекстно - зависимого алгоритма обнаружения сегментов речевой активности;

3) разработка метода многоканальной автоматической компенсации помех в зашумленных речевых сигналов;

4) разработка метода оперативного контроля качества речевых сигналов, позволяющего упростить и ускорить процесс принятия решений при определении качества речи;

5) разработка структурной схемы системы автоматической компенсации помех в зашумленных речевых сигналах;

6) разработка метода экспериментальной оценки качества речевых сигналов в сравнении с эталоном;

7) сравнительный анализ разработанных решений с известными

Методы исследования. Для решения поставленных задач использовались методы теории цифровой обработки сигналов, теории построения адаптивных систем фильтрации, акустической теории речеобразования, теории планирования Ф и постановки эксперимента.

Научная новизна:

1) разработан контекстно - зависимый алгоритм обнаружения сегментов речевой активности, позволяющий исключать в сигнале интервалы, содержащие шум и определять границы невокализованных сегментов в локальном окружении вокализованных;

2) разработан метод многоканальной автоматической компенсации помех в за-шумленных речевых сигналах, позволяющий в условиях непараметрической априорной неопределенности снижать шум и повышать качество речевых сигналов;

3) разработан метод оперативного контроля качества речевых сигналов, позволяющий упростить и ускорить процесс принятия решений при определении качества речи на основе использования сведений о зависимости уровня разборчивости от изменения уровней сигнала и шума с применением компьютерных методов анализа и обработки информации;

4) разработан метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном.

Практическая значимость. Результаты исследований легли в основу разработок для создания системы автоматической компенсации помех в зашумлённых РС.

Разработанный метод оперативного контроля качества РС, позволяет упростить и ускорить (в сравнении с артикуляционным контролем - ГОСТ Р 50840-95 и ГОСТР 51061-97) процесс принятия решений при определении качества речи, и, может использоваться для: тестирования аппаратуры обработки, приема и передачи РС общего и специального назначения без проведения сложных и дорогостоящих измерений; выявления причин снижающих качество каналов связи, измерения энергетических параметров звуковых полей, образованных потоком среды, и определении акустических характеристик различных средств снижения шума.

Разработанная структурная схема системы автоматической компенсации помех в зашумлённых речевых сигналах позволяет в условиях непараметрической априорной неопределенности на основе предложенных теоретических решений снижать шум и повышать качество речевых сигналов.

Разработанный контекстно-зависимый алгоритм обнаружения сегментов речевой активности позволяет исключать в сигнале интервалы, содержащие шум. Отличительно новым признаком алгоритма является контекстный анализ, позволяющий определять границы невокализованных сегментов в локальном окружении вокализованных интервалов сигнала. Алгоритм может применяться для: создания адаптивных систем компенсации помех; совершенствования средств повышения пропускной способности канала связи за счёт его временного уплотнения; уменьшения объема выделяемых ресурсов на хранение речевых сообщений, например, в системах автоматизированной обработки телефонных вызовов, где предусматриваются функции тотальной записи всех разговоров.

Разработан метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном, позволяющий определить в процентном соотношении степень совпадения обработанного сигнала с эталоном, по значению которой принимается решение об эффективности метода компенсации помех.

Полученные в диссертации научные положения, методы, алгоритмы и рекомендации могут использоваться при создании новых и совершенствовании существующих мультимедиа технологий, реставрации речевых фонограмм, человеко-машинных систем с речевым взаимодействием, голосовой идентификации, расшифровки "черных ящиков" подвижных объектов, звукотехнических средств различного назначения, в учебном процессе при проведении практических занятий и в научно-исследовательских работах студентов, выполняемых в рамках лекционных курсов "Речевые технологии" и "Информационные технологии" специальности 230201 "Информационные системы и технологии".

Основные положения, выносимые на защиту:

1) контекстно - зависимый алгоритм обнаружения сегментов речевой активности, позволяющий исключать в сигнале интервалы, содержащие шум и определять границы невокализованных сегментов в локальном окружении вокализованных;

2) метод многоканальной автоматической компенсации помех в зашумленных речевых сигналах, позволяющий в условиях непараметрической априорной неопределенности снижать шум и повышать качество речевых сигналов;

3) метод оперативного контроля качества речевых сигналов, позволяющий упростить и ускорить процесс принятия решений при определении качества речи на основе использования сведений о зависимости уровня разборчивости от изменения уровней сигнала и шума с применением компьютерных методов анализа и обработки информации;

4) структурная схема системы автоматической компенсации помех в зашумленных речевых сигналах;

5) метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном.

Достоверность научных положений, выводов и рекомендаций обеспечивается V* корректным использованием теории цифровой обработки сигналов, теории построения адаптивных систем фильтрации, акустической теории речеобра-зования, теории планирования и постановки эксперимента; успешной проверкой решений, полученных на основе теоретических разработок, средствами компьютерного моделирования.

Результаты использования. Результаты диссертационной работы использованы в ОАО "Российские железные дороги" (ОАО "РЖД"), Федеральном государственном авиационном предприятии "Пулково" (ФГУАП "Пулково"), ОАО "ЛЕНПОЛИГРАФМАШ", ФГУП "Центральный исследовательский институт технологии судостроения" (ЦНИИ ТС), Санкт-Петербургском государственном политехническом университете.

Публикации. По теме диссертационной работы опубликовано 6 печатных работ, в том числе патент на изобретение РФ.

Апробация работы. Основные положения, результаты, выводы и рекомендации диссертационной работы докладывались и обсуждались: на Межвузовской научной конференции "XXIX НЕДЕЛЯ НАУКИ СПбГТУ 27 ноября-2002 декабря 2000 года"; IX Международной научно- методической конференции "Высокие интеллектуальные технологии образования и науки 14-15 февраля 2002 года"; на заседаниях кафедры "Системного анализа и управления" факультета технической кибернетики и "Гибкие автоматические комплексы" механико-машиностроительного факультета Санкт-Петербургского государственного политехнического университета.

Структура и объём диссертации. Диссертация состоит из введения, пяти глав, заключения, списка условных сокращений, списка литературы, и приложения (акты использования результатов диссертационной работы). Общий объём диссертации составляет 171 страниц, в том числе 70 рисунков и 17 таблиц. Список литературы насчитывает 123 наименования.

Заключение диссертация на тему "Разработка метода многоканальной автоматической компенсации помех в зашумленных речевых сигналах"

5.5 Выводы

Разработан метод оперативного контроля качества речевых сигналов, позволяющий упростить и ускорить (в 8,2 раза быстрее в сравнении с артикуляционным контролем - ГОСТ Р 50840-95, ГОСТ Р 51061-97) процесс принятия решений при определении качества речи на основе использования сведений о зависимости уровня разборчивости от изменения уровней сигнала и шума с применением компьютерных методов анализа и обработки информации.

Разработан метод экспериментальной оценки качества РС в сравнении с эталоном, позволяющий определить в процентном соотношении степень совпадения обработанного сигнала с эталоном, по значению которой принимается решение об эффективности метода компенсации помех.

Результаты экспериментальных исследований показывают достаточное совпадение обработанных речевых сигналов с эталоном и высокую эффективность применения предложенных разработок.

Заключение

Представленная на защиту диссертация является обобщением проведённых автором исследований и разработок, которые позволили получить следующие основные результаты:

1. Разработаны правила принятия решения при определении границ сегментов речевой активности, позволяющие исключать в сигнале интервалы, содержащие шум. Их отличительной новизной является контекстный анализ, позволяющий в зашумленном сигнале определять границы невокализо-ванных сегментов в локальном окружении вокализованных.

2. Разработан способ представления речевых сигналов на основе использования прямых и обратных функций декомпозиций, позволяющий без потерь осуществлять процесс разделения и объединения сигнала.

3. Разработан метод многоканальной автоматической компенсации помех в за-шумленных речевых сигналах, позволяющий в условиях непараметрической априорной неопределенности снижать шум и повышать качество речи;

4. Разработаны структурная схема модуля МКРА и контекстно-зависимый алгоритм обнаружения сегментов речевой активности, которые позволяют локализовать шум, содержащийся в РС, во времени.

5. Разработана структурная схема модуля анализа (МА) речевых сигналов, позволяющего локализовать шум, содержащийся в РС, по частоте.

6. Разработана структурная схема модуля многоканальной коррекции сигнала (ММКС) позволяющего сформировать оценку шума, локализованного по частоте и времени, и компенсировать его в наблюдаемом сигнале.

7. Разработан метод оперативного контроля качества речевых сигналов, позволяющий упростить и ускорить (в сравнении с артикуляционным контролем - ГОСТ Р 50840-95, ГОСТ Р 51061-97) процесс принятия решений при определении качества речи на основе использования сведений о зависимости уровня разборчивости от изменения уровней сигнала и шума с применением компьютерных методов анализа и обработки информации.

8. Разработана структурная схема системы автоматической компенсации помех в за-шумленных речевых сигналах, позволяющей снижать шум и повышать их качество.

9. Разработан метод экспериментальной оценки качества речевых сигналов в сравнении с эталоном, позволяющий определить в процентном соотношении степень совпадения обработанного сигнала с эталоном, по значению которой принимается решение об эффективности метода компенсации помех.

10.Проведен сравнительный анализ разработанных решений с известными.

11.Полученные в диссертации научные положения, методы, алгоритмы и рекомендации могут использоваться при создании новых и совершенствовании существующих мультимедиа технологий, реставрации речевых фонограмм, человеко-машинных систем с речевым взаимодействием, голосовой идентификации, расшифровки "черных ящиков" подвижных объектов, звукотех-нических средств различного назначения, в учебном процессе при проведении практических занятий и в научно-исследовательских работах студентов, выполняемых в рамках лекционных курсов "Речевые технологии" и "Информационные технологии" специальности 230201 "Информационные системы и технологии".

Список условных сокращений

IVR - интерактивный голосовой ответ (Interactive Voice Response);

АК - артикуляционный контроль качества речи;

AT - артикуляционная таблица;

АФ - адаптивный фильтр;

БВП - блок вычисления порогов;

БД - блок декомпозиции;

БКЗС - блок коррекции значения спектра сигнала;

БН - блок нормализации и выравнивания динамического диапазона PC;

БО - блок объединения;

БОИ - блок обнаружения в сигнале интервалов речевой активности;

БПГ - блок поиска границ интервалов РА;

БПГЛ - блок поиска границ речевых сегментов в локальном окружении выявленных блоком БПГ интервалов РА;

БПФ - блок прямого и обратного (БОПФ) преобразования Фурье;

БС - блок сравнения;

БСС - блок сегментации сигнала;

БФОШ - блок формирования оценки шума;

БЭП - блок, предназначенный для расчёта значений энергии сигнала и ЧНП;

ВК - вспомогательный канал фильтрации сигнала;

ИС - искусственные сигналы;

MA - модуль анализа речевого сигнала (раздел 4.1);

МКРА - контекстно-зависимого обнаружения сегментов РА (раздел 4.2);

МФ - медианный фильтр;

ОК - основной канал фильтрации сигнала;

ОКК - оперативный контроль качества речевых сигналов;

ОФ - оптимальный фильтр;

ПК — программный комплекс;

ПФ - полосовой фильтр;

РА — речевая активность;

PC - речевой сигнал;

СРКО - среднеквадратическая ошибка;

ФВ - фильтр Винера;

ФК - фильтр Калмана;

ФНЧ - фильтр нижних частот;

ФВЧ - фильтр верхних частот;

ЧНП - число нулевых переходов сигнала;

Библиография Изилов, Роман Юноевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Айвазян С.А.,Бежаева З.И и др. Классификация многомерных наблюдений. М.: Статистика, 1974- 240 с.

2. Александров А.Г. Оптимальные и адаптивные системы. М.: Высшая школа, 1989 —263 с.

3. Антонью А. Цифровые фильтры: анализ и проектирование. М.: Радио и связь 1983 .-320 с.

4. Васильев В. Н. Компьютерная обработка сигналов в приложении к интер-ферометрическим системам. СПб.: БХВ-Санкт-Петербург, 1998.

5. Венскаускас К.К. Компенсация помех в судовых радиотехнических системах: -Д.: Судостроение, 1989. 264 с.

6. Вентцель Е.С. Овчаров JI.A. Теория вероятности и её инженерные приложения. М.: Высшая шк., 2000. - 480 с.

7. Вероятность и математическая статистика: Энциклопедия /Гл.ред. Прохоров Ю.В.-М.: Большая Российская энциклопедия, 1999 910с.

8. Влияние шума на человека, http://mpfmma.rusmedserv.com/noise.html.

9. Гольденберг Л.М., Матюшкин Б.Д., Поляк М.Н. Цифровая обработка сигналов.- М.: "Радио и связь", 1990. 256 с.

10. ГОСТ 16600-72. Передача речи по трактам радиотелефонной связи. — М.: Госстандарт, 1972.

11. ГОСТ Р 50840-95. Государственный стандарт Российской Федерации. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. М.: Госстандарт России, 1997.

12. ГОСТ Р 51061-97. Системы нгакоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. М.: Госстандарт России, 1998.

13. Горелик А.Л., Скрипкин В.А. Методы распознавания- М.: Высш. Шк., 1989. 232 с

14. Гутников B.C. Фильтрация измерительных сигналов. Д.: Энергоатом-издат, 1990.- 192 с.

15. Дремин И.В., Иванов О.В. и др., Вейвлеты и их использование // М.: Физический институт им. П.Н. Лебедева РАН, Том 171, №5. -2001. С.465-501.

16. Изилов Я.Ю. Программный комплекс "Звукоинженер" для интерактивной работы с речевыми сигналами в среде Microsoft Windows.// "Вычислительная техника, автоматика, радиоэлектроника", труды СПбГТУ №480,2000, С. 180-183.

17. Изилов Р. Ю., Морозов Б.И. Исследование методов шумопонижения речевых сигналов и разработка системы // XXIX Неделя науки СПбГТУ. Материалы межвузовской научной конференции . СПб.: Изд. СПбГТУ, 2001- ч. 5, - С.73 -74.

18. Изилов Р. Ю. и др. Способ лексической интерпретации слитной речи./ Патент на изобретение № 2119196, РФ, МКИ G10L 5/00 № 97117246/09; заявл. 27.10.97: опубл. 20.09.98. Бюл. № 26.

19. Изилов Р.Ю., Изилов Я.Ю. "Критерии оценки качества речевых сигналов"// Научно-технические ведомости СПбГТУ. Изд. СПбГТУ 3 (29), 2002. С. 110 114.

20. Изилов Р. Ю., Изилов Я. Ю., Федотов А. И. Метод вычитания спектров в задаче снижения шумов в речевых сигналах // Труды Санкт Петербургской Инженерной Академии: Сборник научных трудов / СПбГПУ. - СПб., 2003. -Вып. IV.-С. 166-173.

21. Изилов Р.Ю. Повышение оперативности принятия решений при определении качества речевых сигналов// Информационно-управляющие системы 2005. -№ 3,- С. 2-8.

22. Ивановский Р.И. Компьютерные технологии в науке, Практика применения систем MathCad 7.0 Pro, MathCad 8.0 Pro и MathCad 2000 Рго.Учеб пособие. Спб.: Изд. СПбГТУ, 2001. -200 с.

23. Интернет издание Утренняя газета, "IBM совершенствует речевые технологии", 2001, http://www.utro.ru/news.

24. Информационно-аналитический сайт "Телекоммуникации", http://www.anitel.ru.

25. Информационно-издательский центр "CONNECT!", http://www.connect.ru.

26. Калинцев IOJC Разборчивость речи в цифровых вокодерах.-М.: Радио и связь, 1991.-220 с.

27. КомпТек Интернэшнл, http://www.comptek.ru.

28. Косарев IO.A. Естественная форма диалога с ЭВМ. Л.: Машиностроение 1989. -143 с.

29. Костельянос Г. Оценка эффективности цифровых устройств подавления шума методом спектрального вычитания.// 4-ая международная конференция DSPA-2002, http://www.autex.spb.ru.

30. Коуэн К.Ф. Адаптивные фильтры / пер. с анг. М.: Мир 1988. 392 с.

31. Кравчун П.Н. Генерация и методы снижения шума и звуковой вибрации -М.: Изд. МГУ, 1991.-184 с.

32. Куприянов М.С., Матюшкин Б.Д. Цифровая обработка сигналов. Процессоры. Алгоритмы. Средства проектирования. -СПб.: "Политехника ", 1998.

33. Лазарев Ю.В. MatLab 5.x. Издательская группа BHV, 2000 г. -384 с.

34. Лента новостей, http://www.glazok.ru.

35. Лэм Г., Аналоговые и цифровые фильтры: Расчёт и реализация, М: 1982.

36. Маркел Дж. Д., Грей А.Х. Линейное предсказание речи. М.: Связь, 1980.- 308 с.

37. Марпл С.Л. Цифровой спектральный анализ и его приложения -М.: Мир, 1990- 584 с.

38. Макс Ж. Методы и техника обработки сигналов при физических измерениях. М.: Мир, 1983. - Т. 1., 312 с.

39. Маслюк Л., Перебин А. Введение в вейвлет анализ: учебный курс. ИПМ РАН, 9-ая Международная конференция по компьютерной графике и машинному зрению "ГрафиКон '99 ". Москва, 26 августа-1 сентября, 1999.

40. Малыхина Г.В. Инженерно-техническая защита информации. Речевые технологии: Учеб. пособие. СПб.: Изд. Политехи, у-та, 2004. 243 с.

41. Медведева Е.В., Исследование алгоритма wavelet фильтрации.// 5-ая международная конференция "Цифровая обработка сигналов и её применение" DSPA-2003, http://www.autex.spb.ru.

42. Министерство информационных технологий и связи РФ http://www.minsvyaz.ru.

43. Михайлов В.Г., Златоусова Л.В. Измерение параметров речи.- М.: Радио и связь, 1987.

44. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи47