Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания

Кузнецов, Михаил Владимирович

Системы, сети и устройства телекоммуникаций

автореферат диссертации по радиотехнике и связи, 05.12.13, диссертация на тему:Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания

кандидата технических наук: Кузнецов, Михаил Владимирович
город: Самара
год: 2003
специальность ВАК РФ: 05.12.13

Диссертация по радиотехнике и связи на тему «Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания»

Автореферат диссертации по теме "Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания"

На правах рукописи

Кузнецов Михаил Владимирович

АДАПТИВНЫЕ МЕТОДЫ ЦИФРОВОЙ ОБРАБОТКИ РЕЧЕВЫХ И ТОНАЛЬНЫХ СИГНАЛОВ В ЗАДАЧАХ ОБНАРУЖЕНИЯ И РАСПОЗНАВАНИЯ

Специальность: 05.12.13. Системы, сети и устройства телекоммуникации

АВТОРЕФЕРАТ

диссертации на соискание учёной степени кандидата технических наук

Самара - 2003

Работа выполнена в Поволжской государственной академии телекоммуникаций и информатики (ПГАТИ)

Научный руководитель - доктор технических наук,

профессор Брайнина И.С.

Официальные оппоненты: доктор технических наук, профессор Гордиенко В.Н. кандидат технических наук, доцент Крыжановский A.B.

Ведущее предприятие: Центральный научно-исследовательский институт связи «ЦНИИС - ТАНТАЛ», г. Москва.

Зашита состоится «05» декабря 2003 г. в 14 часов на заседании диссертационного совета Д219.003.02 в Поволжской государственной академии телекоммуникаций и информатики по адресу: 443010, г. Самара, ул. Льва Толстого, 23.

Отзыв на автореферат в двух экземплярах, заверенный печатью учреждения, просим направлять по вышеуказанному адресу.

С диссертацией можно ознакомиться в библиотеке ПГАТИ.

Автореферат разослан « 03 » ноября 2003 г.

Учёный секретарь диссертационного совета

Николаев Б.И.

2oo3-t\ tstâj"

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.

Диссертация посвящена разработке алгоритмов функционирования адаптивных устройств цифровой обработки сигналов в условиях априорной неопределённости статистических параметров каналов связи, сигналов и помех, а также оценке эффективности устройств, реализующих найденные алгоритмы.

Актуальность темы. При решении ряда практических задач обнаружения и распознавания цифровых сигналов в телефонии часто приходится встречаться с априорной неопределённостью каналов связи, статистических параметров сигнала и помех. В условиях недостатка априорной информации затруднительно отдать предпочтение каким либо фиксированным алгоритмам обработки сигналов, оптимальным для всех случаев. Большой диапазон неопределённости значений параметров сигналов и помех приводит к недопустимым потерям качества алгоритмов обработки, рассчитанных на полностью известные статистические характеристики сигналов и помех. Этим объясняется интерес разработчиков к созданию адаптивных устройств, способных эффективно преодолевать значительную начальную неопределённость. Такие устройства находят в настоящее время широкое практическое применение в цифровой электросвязи, медицине, радиолокации и других областях. Примерами их использования в отечественных разработках могут служить БИС адаптивных кодеков в перспективных системах цифровой передачи речи на основе адаптивной дифференциальной импульсно-кодовой (АДИКМ) и адаптивной дельта-модуляции (АДМ), разработанных В.Г. Угером, В.М. Штейном (ЦНИИС, г.Москва), М.Д. Бенедиктовым (МТУСИ, г.Москва) и др.

Многие задачи обнаружения и различения случайных и детерминированных сигналов на фоне помех с неизвестными априорно статистическими характеристиками приводят к построению устройств, адаптирующихся к наиболее информативным параметрам: числу пересечений заданного уровня за фиксированное время, распределению длительностей выбросов и пауз между ними, распределению времени пребывания сигнала в заданных границах и т.д. Таковы задачи распознавания речи, обнаружения тональной сигнализации на фоне речи в телефонии, измерения частоты сигнала на фоне помех, а также ряд других.

Разработка цифровых систем передачи непрерывных сообщений основывалась на теоретических работах В.А. Котельникова, К. Шеннона, A.A. Харкевича, А.И. Величкина, Д.Д. Кловского, JI.P. Рабинера, Р.В. Шафера и других.

Существенный вклад в теорию и технику цифровых систем передачи непрерывных сообщений внесли работы В.Р. Беннета, М.У. Поляка, Ю.А. Алексеева, Ю.Н. Прохорова, В.Г. Угера, В.Э. Гуревича, И.С. Брайниной и

других.

В известных алгоритмах обработки сигналов в основном используются спектральные характеристики на основе быстрого преобразования Фурье (БПФ), что требует значительных вычислительных затрат. Анализ временных параметров существенно упрощает обработку сигнала в реальном масштабе времени.

В задачах обнаружения тональной сигнализации в составе импульсных случайных потоков на основе нелинейной ИКМ, АДИКМ и АДМ в алгоритмах адаптации используется информация о форме многочастотного сигнала, что позволяет оптимизировать пороги приема и полосу пропускания приёмника для каждой из принимаемых частотных компонент. В настоящее время, в России, вновь вводимая цифровая сеть сопрягается с существующей аналоговой телефонной сетью. Наиболее ответственным и сложным звеном в оборудовании сопряжения является групповой цифровой приёмник многочастотного кода (ПМК) набора номера.

Рост потребности в полосе пропускания оптического волокна носит «лавинный» характер. Технологии ATM, IP, PDH, SDH (STM-16/64) уже не справляются с катастрофическим ростом объёмов передаваемой информации. Это заставляет разработчиков систем связи искать такие решения, которые имеют значительный запас по пропускной способности и позволяют гибко увеличивать производительность сети.

Алгоритм определения эффективной ширины спектра на основе анализа формы сигнала позволяет адаптивно подбирать оптимальную частоту дискретизации сигнала пропорционально ширине его спектра и осуществлять статистическое уплотнение канала связи. На примере широкополосного цифрового радиовещательного канала с частотой квантования 32 кГц (передача стереопрограммы или классической музыки) реализована возможность передачи двух каналов вещания (16 кГц) и четырёх речевых каналов тональной частоты (8 кГц).

Таким образом, актуальность предложенной диссертационной работы заключается в повышении эффективности систем и устройств электросвязи за счёт их адаптации к временным характеристикам сигналов и помех.

Целью диссертации является разработка алгоритмов функционирования адаптивных устройств цифровой обработки сигналов в условиях априорной неопределённости статистических параметров каналов связи, сигналов и помех, а также оценка эффективности устройств, реализующих найденные алгоритмы.

Методы исследований. Для решения поставленных задач в диссертационной работе используются: теория вероятностей, методы статистической теории связи, прикладная теория выбросов случайных процессов, методы цифровой обработки сигналов, спектральный и корреляционный анализ случайных процессов, нелинейная цифровая фильтрация, статистическое моделирование на ПК.

' Ц , ' it I'* .

Научная новизна работы. В процессе работы получены следующие результаты:

Получены новые адаптивные алгоритмы обнаружения тональной сигнализации в составе импульсных случайных потоков в системах цифровой телефонии на основе ИКМ, адаптивной дельта-модуляции (АДМ) и адаптивной дифференциальной ИКМ (АДИКМ). Предложен новый метод распознавания тональной сигнализации в телефонии на фоне речи, основанный на априорной информации о форме сигнала.

Предложен простой и эффективный алгоритм сжатия речевого сигнала (до 30 раз) на временной основе для решения узкой задачи при крайне ограниченных возможностях аппаратных средств.

Разработан метод распознавания изолированных слов, инвариантный к темпу, громкости и тембру речи.

Предложен адаптивный метод определения ширины энергетического широкополосного спектра случайного сигнала на временной основе.

Практическая ценность и реализация результатов работы. На основе новых алгоритмов обнаружения тональной сигнализации в составе импульсных случайных потоков в системах цифровой телефонии с ИКМ, АДИКМ и АДМ, разработаны помехоустойчивые адаптивные групповые приёмники двухчастотных сигналов набора номера в системах сопряжения существующих аналоговых АТС с цифровыми. Используя предложенный метод распознавания тональной сигнализации в телефонии на фоне речи, смоделирован на ПК и разработан адаптивный помехоустойчивый приёмник линейной одно- и двухчастотной сигнализации.

С помощью предложенного алгоритма сжатия речевого сигнала удалось добиться сжатия речевого сигнала (отЮ до 30 раз) на основе обработки сигнала во временной области. Области применения: цифровые системы хранения речевой информации; повышение скорости передачи сообщений по каналам связи; секретная связь, голосовая почта в сети интернет. Используя метод распознавания изолированных слов, инвариантный к темпу, громкости и тембру речи, можно организовать коммутацию голосом телефонной связи, ввод данных диктором в ПК или любую другую систему автоматики.

На основе предложенного адаптивного метода определения ширины энергетического спектра широкополосного случайного сигнала повышена эффективность системы связи (в 2-4 раза) путём статистического уплотнения широкополосного цифрового канала за счёт адаптации частоты квантования к ширине спектра передаваемого сигнала (речь/музыка). Система может быть использована в цифровом радиовещании.

Апробация работы. Основное содержание работы докладывалось и обсуждалось на:

- Iе* Международной научно-технической конференции стран СНГ «Техника и технология связи» (Беларусь, Минск, 1999 г.);

- 3й Международной научно-технической конференции «Цифровая обработка сигналов и её применение» (Москва, 2000 г.);

- научно-технических конференциях ПГАТИ (Самара, 1998 - 2000 гг.).

Публикации. Основное содержание работы отражено в 13 печатных работах, включая б статей в научных изданиях, 3 тезисов докладов, получены 4 патента на изобретения. Все работы опубликованы до дня защиты.

Структура и объём работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы и приложений. Основная часть работы содержит 148 страниц машинописного текста, 35 рисунков и 11 таблиц, список литературы содержит 52 наименования.

На защиту выносятся:

• алгоритмы работы помехоустойчивых приёмников двухчастотных сигналов набора номера в системах цифровой телефонии на основе нелинейной ИКМ, адаптивной дельта-модуляции (АДМ) и адаптивной дифференциальной ИКМ (АДИКМ);

• адаптивный метод распознавания сигналов одно- и двухчастотной сигнализации в телефонии на фоне речи;

• алгоритм сжатия речевого сигнала на временной основе;

• метод распознавания изолированных слов;

• методы определения ширины энергетического спектра случайного сигнала на временной основе для адаптивного подбора частоты дискретизации;

• результаты моделирования и экспериментального исследования предложенных алгоритмов и устройств цифровой обработки сигналов.

СОДЕРЖАНИЕ РАБОТЫ

Во введении выявлены актуальные проблемы повышения помехоустойчивости и эффективности систем передачи дискретных сообщений в условиях априорной неопределённости характеристик каналов связи, статистических параметров сигналов и помех. Сформулированы цели и задачи диссертационной работы, перечислены основные её положения, выносимые на защиту.

Первая глава посвящена анализу теории задачи распознавания. Распознавание образов - это научное направление, занимающееся разработкой принципов и созданием систем, предназначенных для определения принадлежности объекта к одному из ранее известных классов объектов. Под объектом при этом понимают различные предметы, явления,

процессы, сигналы, ситуации. Каждый объект описывается совокупностью признаков (свойств, характеристик, параметров).

Основные, традиционные задачи теории распознавания образов это выбор информативных признаков, выбор решающих функций, предварительная классификация объектов (таксономия).

Выбор признаков в значительной степени зависит от качества распознавания. Из множества различных характеристик объектов (полученных непосредственными измерениями или какими-либо преобразованиями исходных описаний) надо выбрать наиболее существенные, которые позволяют достаточно компактно описать реализации образа и в то же время достаточно точно различать объекты.

Решающая функция должна позволять принимать решения отнесения контрольной реализации к одному из классов образов. При построении решающих функций необходимо учитывать закономерности описания образа, выявленные на обучающей выборке, кроме того, решающая функция должна отражать в себе некоторую гипотезу о характере изменения контрольных реализаций образов, которые будут поступать на вход системы в ее практической работе.

Задачей таксономии является выбор алфавита образов исходя из той или иной задачи обработки информации. Это могут быть, например, сегменты речевого сигнала, фонемы, целые слова. В геометрической интерпретации задача таксономии сводится к разбиению многомерного признакового пространства на определенное число областей.

Все три названные задачи тесно взаимосвязаны. Конечная цель состоит в увязке многих противоречивых требований к системе, например, минимальной стоимости и сложности системы при заданном допустимом проценте ошибок распознавания.

Распознавание представляет собой задачу преобразования входной информации, (в качестве которой уместно рассматривать некоторые параметры, признаки распознаваемых образов), в выходную, представляющую собой заключение о том, к какому классу относится распознаваемый образ.

Вторая глава посвящена адаптивной цифровой обработке тональных сигналов в групповых приёмниках многочастотного кода (ПМК).

Решена задача обнаружения тональной сигнализации в составе импульсных случайных потоков для приёмников многочастотного кода (ПМК) с нелинейной ИКМ, адаптивной дифференциальной ИКМ (АДИКМ) и адаптивной дельта - модуляцией (АДМ).

В современных системах автоматической телефонной связи сигналы набора номера передаются многочастотным кодом « 2 из 6 ». Номерная информация формируется в спектре канала тональной частоты (ТЧ) комбинациями из двух частот ряда 700, 900, 1100, 1300, 1500 и 1700 Гц. При

взаимодействии аналоговой АТС с цифровой ЭАТС оборудование сопряжения (ОС) обычно устанавливается на стороне аналоговой АТС. Групповой ПМК, входящий в состав ОС, обрабатывает групповой цифровой поток с выходов кодеров, выделяет информацию о наборе номера, а также о наличии одночастотных сигналов типа «зуммер» на частоте 425 Гц и «АОН» на частоте 500 Гц в каждом из телефонных каналов и помещает её в служебный канал сигнализации. Выделение исходной номерной информации из цифровых потоков должно обеспечиваться групповым ПМК непосредственно, без предварительного преобразования сигналов в аналоговую форму.

В настоящее время наиболее широкое распространение в России получили цифровые ЭАТС с нелинейной ИКМ. Наряду с ними начинается внедрение более эффективных систем цифровой телефонной связи с АДИКМ, а на Украине с АДМ. Оборудование сопряжения аналоговой АТС с любой из трёх видов цифровых ЭАТС отличается только типом кодера и ПМК.

К помехоустойчивости приёма двухчастотного «знака» набора номера предъявляются высокие требования (Рош < 10'3) во всём диапазоне уровней и частот сигнала. На первый взгляд, в отсутствие помех от речи, задача построения ПМК не является слишком сложной. В действительности же все известные разработки цифровых ПМК для сигналов с ИКМ, АДИКМ и АДМ не удовлетворяют в полном объеме жестким нормам МСЭ-Т С.726, разработанным ранее применительно к аналоговым приемникам и не учитывающим присутствия кодера. Особенно это касается варианта передачи двухчастотного сигнала по неуплотненным физическим линиям, соединяющим АТС с междугородней телефонной станцией. При этом допустимый «перекос» в уровнях двух сигнальных частот 700 и 1500 Гц может достигать Р=\0,4 дБ. Учитывая широкий динамический диапазон уровней сигнала (-36,5 ч- -6,5)дБ, допустимую нестабильность частот сигнализации ±15 Гц и известное нелинейное явление подавления в кодере меньшей по уровню частотной компоненты, общий «перекос» уровней частотных составляющих на выходе кодера может достигать порядка 20 дБ. Снижение помехоустойчивости приема двухчастотных сигналов набора номера вызвано дополнительно такими неблагоприятными факторами, как отсутствие информации о моментах начала каждой двухчастотной «посылки», которые следуют без перерывов «безынтервальным пакетом», а также малая минимальная продолжительность посылки ТКЗОмсек, что препятствует накоплению результатов анализа.

В диссертационной работе с целью упрощения построения многоканальных ПМК любого типа, на интервалах анализа Та предложено использовать многоканальную запись в ОЗУ текущего отрезка группового цифрового сигнала в реальном масштабе времени, ускоренное последовательное одноканальное считывание из ОЗУ и одноканальную обработку предварительно записанного предшествующего отрезка сигнала (рис.1).

Рис. 1.

Учитывая неизвестную начальную фазу двухчастотных сигналов на интервалах анализа Та, случайные сдвиги частот от номинальных значений ^±15Гц), случайные «перекосы» уровней (Я=(Н-20дБ) и длительностей «посылок» (7М0±20 мсек), переадаптацию шага кодера при смене «знаков», цифровой поток на выходе каждого из перечисленных типов кодеров можно рассматривать как реализацию импульсного случайного процесса.

Независимо от типа кодера (ИКМ, АДИКМ, АДМ), каждый многоканальный ПМК должен адаптироваться к параметрам группового потока, представляющего собой сумму индивидуальных цифровых потоков с выходов отдельных кодеров.

Отслеживание динамики нарастания кода в коррелометре в сумме с двойным подтверждением превышения порогового уровня, значительно повышает достоверность приёма передаваемой пары частот, исключая приём сигнала во время переадаптации ПМК, а так же при расстройке частоты свыше допустимого значения (рис.2).

т, т, г, г, т,

, «фотыЛ (фшмП »«цчмм И |||Ц1И»^| ииучиЛ;

мцинП Г* чир!» Р4' пр>*< Р4 * прхм

чF7 ицМнП

Л+ДЯ- • П+йГ •

Рис. 2.

«в

Адаптивная дельта-модуляция (АДМ) со слоговым командированием имеет ряд преимуществ перед импульсно-кодовой модуляцией (ИКМ): вдвое увеличивается пропускная способность абонентских линий за счет сокращения скорости передачи информации с 64 кБит/с при ИКМ до 32 кБит/с на канал при АДМ; упрощается построение цифровых телефонных станций благодаря одноразрядности дельта-потока.

Некоторое снижение экспертной абонентской оценки качества речи с 4,9 балла по 5-ти балльной шкале при ИКМ до 4,7 балла для АДМ и некоторый рост шумов квантования не играют существенной роли по сравнению с вышеперечисленными достоинствами дельта-модуляции со слоговым компандированием. Внедрение ЭАТС-ЦА с АДМ на существующей телефонной сети страны требует сопряжения вновь вводимых цифровых каналов с имеющимися аналоговыми.

В АДМ кодере шаг квантования адаптируется к крутизне сигнала, чем устраняются перегрузки кодера. Время нарастания шага составляет 1 -2 мсек, а время спада 10-20 мсек. Благодаря быстрому нарастанию шага кодер хорошо адаптируется к вокализованным звукам речи. В то же время из-за излишне крупного шага кодер искажает форму дельта-потока при передаче низкочастотной компоненты тональной сигнализации на фоне высокочастотной. Это снижает отношение сигнал/шум при корреляционной обработке двухчастотного сигнала и увеличивает вероятность ошибочного приёма знака набора номера из-за подавления низкочастотной составляющей.

В работе предложено исправлять форму дельта-потока на входе ПМК за счёт использования априорной информации о форме тонального сигнала. Коррекция основана на инверсии одиночных дельта-импульсов, расположенных внутри последовательности импульсов противоположного знака. Для тональных сигналов характерно наличие длинных пачек дельта-импульсов одного знака в областях перехода через ноль. Коррекция потока эквивалентна снижению шага квантования и подъёму уровня низкочастотной составляющей сигнализации, что увеличивает достоверность приёма двухчастотной комбинации до Р„ш< 10"3.

АДИКМ - кодер существенно подавляет на своем выходе низкочастотную компоненту двухчастотного сигнала, а подъем его АЧХ составляет 12дБ на октаву. Четырехразрядный ц-поток ошибок предсказания на выходе АДИКМ-кодера в значительной мере является рандомизированным (зашумленным, случайным). Это особенно справедливо для низкочастотных составляющих малого уровня (700, 900, 1100)Гц, а также для сигналов «АОН» ^=500 Гц), «зуммер» (/г=425Гц), хорошо предсказываемых и подавляемых на выходе кодера.

Рис. 3.

Как показало моделирование на компьютере, непосредственная корреляционная обработка q-пoтoкa не обеспечивает требуемой помехоустойчивости приёма двухчастотного «знака» во всём диапазоне уровней и частот сигнала. Цифровая фильтрация (коррекция) ц-потока с выхода АДИКМ - кодера в сочетании с адаптивной регулировкой коэффициента передачи корректора (рис.3) позволили резко повысить

помехоустойчивость приема двухчастотных и одночастотных сигналов в широком динамическом диапазоне уровней и «перекосов».

— = -2) + ■?(-■? + Ч, , ^7, ц<1 (1)

' к.

<?» <?(м> <7(,.г> <7(,.з) - текущий и три предшествующих отсчёта на входе корректора, к; - коэффициент деления, автоматически принимающий одно из трёх возможных значений (к/ =1, к2 =2, к3 =4 ) на интервале Та

Коррекция цифрового потока на входе ПМК позволила скомпенсировать нелинейность АДИКМ-кодера и «выровнять» АЧХ в заданной полосе частот (рис. 4).

существенно облегчает дальнейшую ускоренную корреляционную обработку одноканального цифрового ИКМ-потока. В сумме с адаптивным подбором порогов приёма, учитывающих динамику нарастания отдельно каждой частотной составляющей в коррелометре, позволило получить несложный ПМК по своим возможностям практически перекрывающий все нормы МСЭ-Т 0.726. Моделирование этого ПМК на ПЭВМ подтвердило его высокую помехоустойчивость в самых тяжелых режимах работы.

.В третьей главе исследовались методы повышения эффективности систем связи за счёт распознавания формы сигнала.

В работе описан простой, но достаточно эффективный алгоритм сжатия речевого сигнала на временной основе, базирующийся на сильных корреляционных связях между периодами основного тона речи. На примере слова «ноль», произнесённого женским голосом, показана возможность сжатия речевого сигнала примерно в 30 раз, как за счёт адаптации шага квантования к среднему модулю сигнала, так и благодаря квазипериодичности вокализованных отрезков речи.

В алгоритме используется избыточность квазистационарных участков вокализованной речи и устраняются малые уровни, т.е. сигнал в паузах приравнивается к нулю. Речь разбивается на отрезки (интервалы анализа), равные 16 мсек, не превышающие половины интервала локальной стационарности порядка 40 мсек. На каждом отрезке определяется средний модуль, число переходов через ноль и устанавливается адаптивный шаг квантования по уровню, равный половине среднего модуля. Использование адаптивного шага квантования позволяет снизить разрядность кода отсчёта речевого сигнала без заметных потерь почти в 3 раза.

На вокализованном участке в процессе синтеза слова воспроизводится один период основного тона речи столько раз, сколько звучит этот участок слова. Для женских и детских голосов период основного тона речи составляет 2-3 мсек, а для мужских - до 10 мсек, при средней продолжительности гласного звука порядка 150-К200 мсек.

Для примера, в слове «ноль» для записи было выбрано 10 эталонных периодов, всего 240 отсчетов сигнала, хотя все слово длиной 416 мсек содержало 3328 отсчетов, взятых с частотой 8 кГц. Таким образом, предложенный алгоритм обеспечил, в среднем, 30-кратное сжатие необходимого объёма памяти. При этом сохранилась узнаваемость по голосу, качество звучания соответствовало экспертной оценке в 3 балла по пятибалльной шкале. Отметим также, что предложенный алгоритм позволяет с легкостью осуществлять обмен степени сжатия на качество звучания путем изменения разрядности кода отсчетов сигнала и количества эталонных периодов основного тона речи, входящих в состав синтезированного слова.

Предложенным способом можно достаточно легко организовать голосовую почту по сети интернета благодаря простоте обработки и минимальным затратам машинного времени на преобразование сигнала.

Разработан алгоритм распознавания изолированных слов, инвариантный к темпу, громкости, основному тону речи. Задача сводится к распознаванию звуковых образов. На основе анализа речевого сигнала во временной области формируются два образа слова. Первый описывает изменение среднего модуля речи на протяжении слова, второй образ отображает закон изменения интенсивности переходов сигнала через нулевой уровень на протяжении слова. Инвариантность к темпу и основному тону речи достигается разбиением всего слова на фиксированное количество отрезков, независимо от его продолжительности. Инвариантность к громкости обеспечивается адаптивным шагом квантования по уровню.

Предложенный алгоритм может быть широко использован в различных областях техники, например, в задачах управления, коммутации, ввода информации в компьютеризированные системы при помощи голоса.

В четвёртой главе рассмотрены адаптивные методы распознавания речевых, музыкальных и тональных сигналов.

В технике электросвязи часто возникают задачи распознавания сигналов, перекрывающихся по спектру (речь и музыка в радиовещании, речь и тональная сигнализация в телефонии, сигналы разной формы). Обычно в существующей аппаратуре это разделение реализовано на частотной основе с помощью набора фильтров разного вида. Например, в телефонии в приёмнике линейной сигнализации, принимаемой на фоне речи, используются полосовые и заграждающие фильтры, которые настроены на частоты сигнализации. Если одновременно сигнал на выходе полосового фильтра выше порога приёма, а на выходе заграждающего - ниже, то принимается решение о наличии сигнализации. В противном случае приёмник фиксирует отсутствие тональной сигнализации. Реально такая система имеет низкую помехоустойчивость по целому ряду причин:

- широкие динамические диапазоны уровней речи и сигнализации не позволяют объективно подобрать пороги приёма на выходе фильтров;

- нестабильность частот сигнализации требует завышенной полосы пропускания полосового фильтра, что приводит к росту уровня помех под действием речи;

- высокие женские и детские голоса по спектру близки к сигнализации, что повышает вероятность ложного срабатывания;

- реализация фильтров высокой добротности на низких частотах тональной сигнализации (в России принята двухчастотная 1200, 1600 Гц, а за рубежом - одночастотная 2600 Гц) довольно сложна.

В итоге жёсткие нормы МСЭ-Т не более 1 ложного срабатывания за 10 часов непрерывного разговора не выполняются. Ложный прием сигналов типа «отбой» и «разъединение» под действием речи приводит к полному разрушению коммутации и потере связи.

Существующие приёмники используют энергетические параметры в частотной области без учёта различия формы сигналов.

В диссертационной работе предложено распознавать сигналы на основе анализа структуры сигнала во временной -области. Информацию о сигнале несут такие характеристики, как средние модули сигнала и его первой производной на интервале локальной стационарности, законы распределения мгновенных значений сигнала и его первой производной, число переходов через ноль за время анализа, законы распределения интервалов между нулями.

Рис.5

двухчастная сигнализация Р1«1200, Р2-1600 Гц. А1/А2-1

2 3 4

длин* инпраши

двухчастотная сигнализация Р1-1200,Р2-1600 Гц, А1/А2- 0.5

Рис.6

Рис.7

Используя предложенный метод распознавания тональной сигнализации в телефонии на фоне речи, смоделирован и разработан адаптивный помехоустойчивый приемник линейной одно- и двухчастотной сигнализации.

На рисунках 5-7 приведены диаграммы всех возможных вариантов распределения интервалов между нулями для тональной одно- и двухчастотной сигнализации.

25 '.30

I ю £ 5

Звук "А", хеноом голос 1600стхегоа

Шд,

длд^

1 2 3 4 5 6 7 В в 10 Ч 12 13 М 15 16 17 18 19 20 21

г г

8. 5

Звук "А", цжхзй голос гОООогснёгов

ПпППпп.

■..п.П.г

« Л N

N N (Ч

Рис. 8

Эвук"Ог, мужсиой 1000 отсчётов

ас

дй

яя

1 2 3 4 5 6 7 а 9 10 11 12 13 14 Ш 1»

Рис. 9

Звук "Я", женский голос 800 отсчетов

*.зо (я

5 20

I 15

6 10 1 !

12345679В

Эвук"5Г, мужской голос 000 отсчётов

пДпдП.ПП, ,~,П,П

1 2 3 4 5 6 7 • • 10 II 12 13 14 15 16 17 19 19 20 21 22

Рис. 10

Для сравнения, приведены (рис. 8-10) диаграммы распределения интервалов между нулями вокализованных звуков для женских и мужских голосов. Из полученных диаграмм хорошо видно, что достаточно большое количество интервалов для вокализованных звуков превосходит длину «допустимых» интервалов сигнализации, следовательно, это позволяет безошибочно отличить тональную сигнализацию от речи.

В диссертационной работе предложен алгоритм определения эффективной ширины спектра на основе анализа формы сигнала. Это

позволяет адаптивно подбирать оптимальную частоту дискретизации сигнала пропорционально ширине его спектра и осуществлять статистическое уплотнение канала связи. На примере широкополосного цифрового радиовещательного канала показана возможность снижения частоты квантования с 32 кГц (классическая музыка) до 16 кГц (популярная музыка) и 8 кГц (речь). В двух последних вариантах возможно уплотнение канала в 2 или 4 раза, а с учётом пауз эффективность использования канала будет ещё выше. В освободившиеся интервалы времени возможна передача данных.

Алгоритм оценки эффективной ширины спектра сигнала основан на измерении отношения средних модулей сигнала и его первой производной на интервалах локальной стационарности.

Первая производная пропорциональна разности двух соседних отсчётов сигнала х(г):

*,(/) = *(/ +7")-*(0 (2)

Отношение дисперсий первой разности х7(1) и сигнала х(1):

-а-=2[1-Я,(Г)]' (3)

ах

где Я.Х(Т)- коэффициент корреляции сигналах(г)

Приближённо (3) можно заменить отношением средних модулей:

>г Н-. . 1 (4)

Из (3) и (4) следует, что с увеличением корреляции между соседними отсчётами и сужением спектра сигнала средний модуль первой производной снижается. Выбросы сигнала над нулевым уровнем длительностью т < Т при дискретизации будут пропущены, что эквивалентно потере высокочастотных составляющих. Если т < т* - интервала временной корреляции, то закон уи (7,0) распределения длительности выбросов над нулевым уровнем гауссова процесса с гауссовой корреляцией

Л(т)=е-Иг!) (5)

описывается формулой: ^ гг о) = _-_, 0 < т < тк (6)

4 2т1

отсюда вероятность потерь р(т < у) -

' Т 4

(7)

Выберем максимальную частоту спектра сигнала /•",„,„ так, чтобы в полосе от 0 до Fmm было сосредоточено 95% мощности. Тогда для спектра

а/2

гауссовой формы 7 - _— (8)

^пих

Допуская Р(т <Т) < 0,033, получим FmJFK„= 0,16, из (6) /?(7)=0,875 и из (4) получим к = 2.

Обширное исследование различных речевых и музыкальных сигналов на компьютере подтвердило, что при начальном значении частоты квантования Fa=\/T= 32 кГц и 2 < к <3 за время анализа порядка (0,1 т 0,2) с, в канале частота F„ выбрана правильно.

Если 3<Ä<4,5, то необходимо выбрать Fa = 16 кГц, а если к>4,5, то оптимально принять FK, = 8 кГц (рис. 11).

lR(T)

0.94 0,875 0.8

----- ---- /4

/ F„»=4F0 Fk.=2F0 Fi» =F„ "к«= V' Fkb= FO

0.7

1.5

2 2,5 3

Рис. 11

3,5

4.5

5 к

Интервалы времени, соответствующие паузам, исключаются из анализа путём установления адаптивных порогов по среднему модулю сигнала. Если средний модуль ниже порога, то канал свободен, и по нему можно передавать дополнительную информацию.

В заключении сформулированы следующие основные результаты работы:

1. Решены задачи обнаружения тональной сигнализации в составе импульсных случайных потоков с адаптивной дельта - модуляцией (АДМ), нелинейной ИКМ, и адаптивной дифференциальной ИКМ (АДИКМ).

2. Проведено исследование во временной области. Найдены законы распределения интервалов между нулями сигнала и его первой производной (на примере речи, музыки, тональной сигнализации, шума). На основе анализа формы сигнала разработаны эффективные методы

различения речевых и музыкальных сигналов во временной области.

3. Предложен адаптивный метод распознавания сигналов одно- и двухчастотной тональной сигнализации в телефонии на фоне речи.

4. Предложен простой и в то же время достаточно эффективный метод сжатия речевого сигнала, в среднем в 30 раз, на временной основе, использующий избыточность вокализованных звуков.

5. Разработан метод распознавания изолированных слов, инвариантный к темпу, громкости и тембру речи.

6. Исследована зависимость эффективной ширины спектра сигнала от отношения средних модулей первой производной и сигнала. Предложен способ статистического уплотнения канала связи (в 2 или 4 раза) за счёт адаптации частоты квантования к ширине спектра передаваемого сигнала.

^ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ:

1. Брайнина И.С. Кузнецов М.В. Цифровые обнаружители гармонических | составляющих для сигналов с адаптивной дифференциальной

импульсно-кодовой модуляцией (АДИКМ). Материалы НТК ПГАТИ, | выпуск № 3, Самара, 1998г. с. 18-23.

2. Брайнина И.С., Кузнецов М.В. Ротенштейн И. В. Цифровой групповой 1 приемник сигналов управления и взаимодействия с адаптивной I дифференциальной импульсно-кодовой модуляцией. Патент ! №2103840, 1998, бюл.№3.

( 3. Кузнецов М.В. Об одном методе построения приемников

I многочастотного кода набора номера для сигналов с АДИКМ. Тезисы

доклада НТК ПГАТИ, Самара, 1998г. с.6.

4. Брайнина И.С. Кузнецов М.В. Адаптивный цифровой групповой приемник сигналов управления и взаимодействия с нелинейной импульсно-кодовой модуляцией (ИКМ). Патент №2143790, 1999, бюл. №36.

5. Брайнина И.С. Кузнецов М.В. Устройство для распознавания изолированных слов. Патент №2136059, 27.08.99, бюл. № 24.

6. Кузнецов М.В. Исследование законов распределения интервалов между нулями вокализованной речи. Материалы НТК ПГАТИ, выпуск №4, Самара, 1999г. с. 19-21.

7. Кузнецов М.В. Исследование законов распределения интервалов между нулями клиппированной речи на основе стационарной нелинейной модели. Тезисы доклада НТК ПГАТИ, Самара, 1999г. с.12-13.

8. Брайнина И.С Кузнецов М.В. Методы распознавания сигналов одно- и двухчастотной сигнализации в телефонии на фоне речи. 1® Международная научно-техническая конференция стран СНГ «Техника

' и технология связи», «Вестник связи», Минск, 1999г. с.20-23.

118 4 2

9. Кузнецов М.В. Эффективный метод сжатия речевых сигналов. , 0 7 Л—; Материалы НТК ПГАТИ, выпуск № 5, Самара, 2000г. с. 73-75. 16^?'

10. Кузнецов М.В. Приемники гармонических сигналов управления и ' ' взаимодействия в системах цифровой телефонии. 2й Международная I НТК студентов, аспирантов и молодых специалистов стран СНГ, I «Техника и технология связи», Санкт-Петербург, 2000г. с.20-23.

11. Кузнецов М.В. Метод эффективного сжатия речевых сигналов. Тезисы доклада НТК ПГАТИ, Самара, 2000г. с. 18.

12. Кузнецов М.В. Метод цифровой обработки речевых сигналов при декодировании в системах связи с нелинейной ИКМ. Материалы 3й Международной конференции «Цифровая обработка сигналов и её применение», Москва, 2000г. с.234-239.

13. Брайнина И.С. Кузнецов М.В. Способ сжатия изолированных слов Патент №2180974 РФ, 2002, бюл. №2.

Подписано в печать 31.10.03 Формат 60x84 '/,6 Бумага писчая Кг 1 Гарнитура Тайме Печать оперативная Усл. печ. л. 1,16 Физ. печ. л. 1,25 Тираж 100 экз.

Типография Поволжской государственной академии телекоммуникаций и информатики (г. Самара) 443010, г Самара, ул. Л. Толстого, 23. Тел. (8462) 39-11-81

Оглавление автор диссертации — кандидата технических наук Кузнецов, Михаил Владимирович

ВВЕДЕНИЕ.

1. ОБЩАЯ ХАРАКТЕРИСТИКА ПРОБЛЕМЫ РАСПОЗНАВАНИЯ ОБЪЕКТОВ И ЯВЛЕНИЙ.

1.1. Качественное описание задачи распознавания. ф 1.2. Основные задачи построения систем распознавания.

1.3. Классификация систем распознавания.

1.4. Различение и распознавание речи, музыки и тональной сигнализации.

1.5 Выводы.

2. АДАПТИВНАЯ ЦИФРОВАЯ ОБРАБОТКА ТОНАЛЬНЫХ СИГНАЛОВ В ГРУППОВЫХ ПРИЁМНИКАХ МНОГОЧАСТОТНОГО КОДА (ПМК).

2.1. Задача обнаружения гармонической Ф сигнализации в составе импульсных случайных потоков в системах цифровой телефонной связи.

2.2. ПМК с адаптивной дельта-модуляцией (АДМ).

2.3. ПМК с адаптивной дифференциальной импульсно - кодовой модуляцией (АДИКМ).

2.4. ПМК с нелинейной импульсно-кодовой модуляцией.

2.5. Выводы.

3. ИССЛЕДОВАНИЕ СПОСОБОВ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ИСПОЛЬЗОВАНИЯ СИСТЕМЫ СВЯЗИ

ЗА СЧЁТ РАСПОЗНАВАНИЯ ФОРМЫ СИГНАЛА.

3.1. Простой метод сжатия речевых сигналов.

3.2. Алгоритм распознавания изолированных слов.

3.3. Выводы.

4. АДАПТИВНЫЕ МЕТОДЫ РАСПОЗНАВАНИЯ РЕЧЕВЫХ, МУЗЫКАЛЬНЫХ И ГАРМОНИЧЕСКИХ СИГНАЛОВ.

4.1. Адаптивный метод распознавания сигналов одно- и двухчастотной сигнализации в телефонии на фоне речи.

4.1.1. Оценка законов распределения интервалов между нулями гармонических и речевых сигналов.

4.1.2. Результаты испытаний ПЛС с нелинейной цифровой фильтрацией.

4.2. Статистическое уплотнение канала связи за счет адаптации частоты дискретизации к ширине спектра передаваемого сигнала.

4.3. Выводы.

Введение 2003 год, диссертация по радиотехнике и связи, Кузнецов, Михаил Владимирович

При решении ряда практических задач обнаружения и распознавания цифровых сигналов в телефонии часто приходится встречаться с априорной неопределённостью каналов связи, статистических параметров сигнала и помех. В условиях недостатка априорной информации затруднительно отдать предпочтение каким либо фиксированным алгоритмам обработки сигналов, оптимальным для всех случаев. Большой диапазон неопределённости значений параметров сигналов и помех приводит к недопустимым потерям качества алгоритмов обработки, рассчитанных на полностью известные статистические характеристики сигналов и помех. Этим объясняется интерес разработчиков к созданию адаптивных устройств, способных эффективно преодолевать значительную начальную неопределённость. Такие устройства находят в настоящее время широкое практическое применение в цифровой электросвязи, медицине, радиолокации и других областях. Примерами их использования в отечественных разработках могут служить БИС адаптивных кодеков в перспективных системах цифровой передачи речи на основе адаптивной дифференциальной импульсно-кодовой (АДИКМ) и адаптивной дельта-модуляции (АДМ), разработанных В.Г. Угером, В.М. Штейном (ЦНИИС, г.Москва), М.Д. Бенедиктовым (МТУСИ, г.Москва) и др.

При практической реализации алгоритмов адаптации весьма эффективным направлением оказывается использование теории выбросов случайных процессов. Многие задачи обнаружения и различения случайных и детерминированных сигналов на фоне помех с априорно неизвестными статистическими характеристиками приводят к построению устройств, адаптирующихся к наиболее информативным параметрам выбросов: числу пересечений заданного уровня за фиксированное время, распределению длительностей выбросов и пауз между ними, распределению времени пребывания сигнала в заданных границах и т.д. Таковы задачи распознавания речи, обнаружения тональной сигнализации на фоне речи в телефонии, измерения частоты сигнала на фоне помех, а также ряд других.

Большой вклад в теорию выбросов случайных процессов внесли учёные С.О. Райе, И.А. Мак-Фадден, В.И. Тихонов, Б.Р. Левин и др.

Разработка цифровых систем передачи непрерывных сообщений основывалась на теоретических работах К. Шеннона, Харкевича А.А., Котельникова В.А., Величкина А.И., Рабинера JI.P., Шафера Р.В., Прохорова Ю.Н., Кловского Д.Д. и других.

Существенный вклад в теорию и технику цифровых систем передачи непрерывных сообщений внесли работы В.Р. Беннета, М.У. Поляка, Ю.А. Алексеева, В.Э. Гуревича, И.С. Брайниной и другие.

В известных алгоритмах обработки сигналов в основном используются спектральные характеристики на основе БПФ (быстрого преобразования Фурье), что требует значительных вычислительных затрат. Анализ временных параметров существенно упрощает обработку сигнала в реальном масштабе времени.

Использование информации о форме полезного сигнала позволило повысить помехоустойчивость цифрового приёма на фоне импульсных помех, обусловленных искажением старших разрядов кодовых комбинаций нелинейной ИКМ. Информация об эффективной ширине спектра сигнала позволяет адаптивно подбирать частоту дискретизации пропорционально полосе частот сигнала.

Рост потребности в полосе порпускания оптического волокна носит «лавинный» характер. Технологии ATM, IP, PDH, SDH (STM-16/64) уже не справляются с катастрофическим ростом объёмов передаваемой информации. Это заставляет разработчиков систем связи искать такие решения, которые имеют значительный запас по пропускной способности и позволяют гибко увеличивать производительность сети.

Методы исследований.

Для решения поставленных задач в диссертационной работе используются: теория вероятностей, методы статистической теории связи, прикладная теория выбросов случайных процессов, методы цифровой обработки сигналов, спектральный и корреляционный анализ случайных процессов, нелинейная цифровая фильтрация, статистическое моделирование на ПК.

В первой главе проводится анализ теории распознавания.

Распознавание образов - это научное направление, занимающееся разработкой принципов и созданием систем, предназначенных для определения принадлежности объекта к одному из ранее известных классов объектов. Под объектом при этом понимают различные предметы, явления, процессы, сигналы, ситуации. Каждый объект описывается совокупностью признаков (свойств, характеристик, параметров):

А = alt а2,., ah ат где А - вектор образа; щ - признак; i - номер признака.

Если признаки представлены действительными числами, то можно образы векторов рассматривать как точки TV-мерного пространства.

Образ - это класс объектов. Он может быть задан с помощью некоторого набора различных реализаций, которую называют обучающей выборкой. Различие этих реализации зависит от многих причин: естественных флуктуаций параметров, шумов, погрешностей измерений и т.д. Те реализации образа, которые не участвовали в создании описания образа, называют контрольной выборкой.

Выбор признаков в значительной степени зависит от качества распознавания. Из множества различных характеристик объектов полученных непосредственными измерениями или какими-либо преобразованиями исходных описаний) надо выбрать наиболее существенные, которые позволяют достаточно компактно описать реализации образа и в то же время достаточно точно различать объекты.

При выборе решающего правила используют понятия метрического пространства, метрики.

Метрическое пространство - это множество точек, на котором определена метрика. Метрика - правило определения того или иного расстояния между двумя точками А к В пространства - функция d(A,B) с неотрицательными действительными значениями.

Выбор вида метрики зависит от природы образов, от характера изменений признаков. Он должен обеспечивать изменение расстояния d, адекватное действительным различиям между реализациями образов. Эти собственные различия реализации могут быть оценены, например, методами психологических исследований на основе закономерностей человеческого восприятия. Окончательным критерием качества метрики при данной системе признаков является минимум числа ошибок распознавания контрольной выборки.

Распознавание представляет собой задачу преобразования входной информации, (в качестве которой уместно рассматривать некоторые параметры, признаки распознаваемых образов), в выходную, представляющих собой заключение о том, к какому классу относится распознаваемый образ.

Чтобы в полном объеме оценить всю сложность и значения этой проблемы, достаточно сказать, что создание искусственного интеллекта -это, по-видимому, построение распознающих систем, приближающихся по своим параметрам к возможностям человека в решении задач распознавания.

Вторая глава посвящена адаптивной цифровой обработке тональных одно- и двухчастотных сигналов в групповых приёмниках многочастотного кода (ПМК).

Решена задача обнаружения тональной сигнализации в составе импульсных случайных потоков для ПМК с адаптивной дельта -модуляцией (АДМ), адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ) и нелинейной ИКМ.

Учитывая неизвестную начальную фазу двухчастотных сигналов на интервалах анализа, случайные сдвиги частот от номинальных значений, случайные «перекосы» уровней и длительностей «посылок», переадаптацию шага кодера при смене «знаков», цифровой поток на выходе каждого из перечисленных типов кодеров можно рассматривать как реализацию импульсного случайного процесса.

В диссертационной работе с целью упрощения построения многоканальных ПМК любого типа, на интервалах анализа предложено использовать многоканальную запись в ОЗУ текущего отрезка группового цифрового сигнала в реальном масштабе времени, ускоренное последовательное одноканальное считывание из ОЗУ и одноканальную обработку предварительно записанного предшествующего отрезка сигнала.

Адаптивная дельта-модуляция (АДМ) со слоговым компандированием имеет ряд преимуществ перед импульсно-кодовой модуляцией (ИКМ): вдвое увеличивается пропускная способность абонентских линий за счет сокращения скорости передачи информации с 64 кБит/с при ИКМ до 32 кБит/с на канал при АДМ; упрощается построение цифровых телефонных станций благодаря одноразрядности дельта-потока; резко снижается из-за инерционности АДМ чувствительность к специфическим помехам типа «щелчков», возникающих при искажениях старших разрядов ИКМ-кода.

В АДМ-кодере шаг квантования адаптируется к крутизне сигнала, чем устраняются перегрузки кодера. Время нарастания шага составляет l-s-2 мсек, а время спада 10ч-20 мсек. Благодаря быстрому нарастанию шага кодер хорошо адаптируется к вокализованным звукам речи. В то же время из-за излишне крупного шага кодер искажает форму дельта-потока при передаче низкочастотной компоненты тональной сигнализации на фоне высокочастотной. Это снижает отношение сигнал/шум при корреляционной обработке двухчастотного сигнала и увеличивает вероятность ошибочного приёма знака набора номера из-за подавления низкочастотной составляющей.

В диссертационной работе предложено исправлять форму дельта-потока на входе ПМК за счёт использования априорной информации о форме тонального сигнала. Коррекция основана на инверсии одиночных дельта-импульсов, расположенных внутри последовательности импульсов противоположного знака. Для тональных сигналов характерно наличие длинных интервалов дельта-импульсов одного знака в областях перехода через ноль. Коррекция потока эквивалентна снижению шага квантования и подъёму уровня низкочастотной составляющей сигнализации, что увеличивает достоверность приёма двухчастотной комбинации (Рош<. 10"3).

АДИКМ - кодер, выполненный по современной технологии и удовлетворяющий рекомендациям МСЭ-Т G.726, существенно подавляет на своем выходе низкочастотную компоненту двухчастотного сигнала, а подъем его АЧХ составляет примерно 12дБ на октаву. Четырехразрядный q-поток ошибок предсказания на выходе АДИКМ-кодера в значительной мере является рандомизированным (зашумленным, случайным).

Цифровая фильтрация (интегрирование) q-потока с выхода АДИКМ -кодера в сочетании с автоматической адаптивной регулировкой коэффициента передачи интегратора позволили резко повысить помехоустойчивость приема двухчастотных и одночастотных сигналов в широком динамическом диапазоне уровней и «перекосов». Интегрирование цифрового потока на входе ПМК позволило скомпенсировать нелинейность АДИКМ-кодера и «выровнять» АЧХ в заданной полосе частот.

В работе описан адаптивный ПМК с ИКМ, обеспечивающий расширение динамического диапазона уровней приема двухчастотного сигнала и повышение помехоустойчивости за счёт введения блока автоматической регулировки уровня (АРУ) на входе приёмника. Блок АРУ содержит в своём составе преобразователь кода 8-разрядной нелинейной ИКМ в 4-разрядный код линейной ИКМ. Шаг квантования линейной ИКМ за время порядка (1-J-2) мсек адаптируется к уровню входного сигнала двухчастотного кода «2 из 6», изменяясь ступенчато в пределах 2°-г26. Благодаря этому удалось обеспечить сжатие динамического диапазона уровней ИКМ - сигнала на выходе блока АРУ в 64 раза (30 дБ). Динамический диапазон уровней линейных 4-разрядных кодов отсчетов сигнала на выходе блока АРУ (входе ПМК) не превышает 6дБ, что существенно облегчает дальнейшую ускоренную корреляционную обработку одноканального цифрового ИКМ-потока. В сумме с адаптивным подбором порогов приёма, учитывающих динамику нарастания отдельно каждой частотной составляющей в коррелометре, позволило получить несложный ПМК по своим возможностям практически перекрывающий все нормы МСЭ-Т G.726, разработанные без учета влияния ИКМ - кодера. Моделирование этого ПМК на ПЭВМ подтвердило его высокую помехоустойчивость в самых тяжелых режимах работы.

В третьей главе исследовались методы повышения эффективности систем связи за счёт распознавания формы сигнала.

В диссертационной работе описан простой, но достаточно эффективный алгоритм сжатия речевого сигнала на временной основе, базирующийся на сильных корреляционных связях между периодами основного тона речи и формантных компонент вокализованных звуков.

На примере слова «ноль», произнесённого женским голосом, показана возможность сжатия речевого сигнала примерно в 30 раз, как за счёт адаптации шага квантования к среднему модулю сигнала, так и благодаря квазипериодичности вокализованных отрезков речи.

На вокализованном участке в процессе синтеза слова воспроизводится один период основного тона речи столько раз, сколько звучит этот участок слова.

Для женских и детских голосов период основного тона речи составляет 2+3 мсек, а для мужских - до 10 мсек, при средней продолжительности гласного звука порядка 150^-200 мсек.

До сжатия слово содержало 3328 восьмиразрядных отсчётов, то есть для его описания требовалось 3328 байт. Предложенный алгоритм обеспечил 30-кратное сжатие необходимого объёма памяти. При этом сохранилась узнаваемость по голосу, качество звучания соответствовало экспертной оценке в 3 балла по пятибалльной шкале. Отметим также, что предложенный алгоритм позволяет с легкостью осуществлять обмен степени сжатия на качество звучания путем изменения разрядности кода отсчетов сигнала и количества эталонных периодов основного тона речи, входящих в состав синтезированного слова.

Разработан алгоритм распознавания изолированных слов, инвариантный к темпу, громкости, основному тону речи.

Задача сводится к распознаванию звуковых образов. На основе анализа речевого сигнала во временной области, в отличие от ранее используемого частотного, формируются два образа слова. Первый описывает изменение среднего модуля речи на протяжении слова, второй образ отображает закон изменения интенсивности переходов сигнала через нулевой уровень на протяжении слова. Инвариантность к темпу и основному тону речи достигается разбиением всего слова на фиксированное количество отрезков, независимо от его продолжительности. Инвариантность к громкости обеспечивается адаптивным шагом квантования по уровню.

В четвёртой главе рассмотрены адаптивные методы распознавания речевых, музыкальных и гармонических сигналов. Предложено распознавать сигналы на основе анализа структуры сигнала во временной области. Информацию о сигнале несут такие характеристики, как средние модули сигнала и его первой производной на интервале локальной стационарности, законы распределения мгновенных значений сигнала и его первой производной, число переходов через ноль за время анализа, законы распределения интервалов между нулями сигнала и его первой производной.

В технике электросвязи часто возникают задачи распознавания сигналов, перекрывающихся по спектру (речь и музыка в радиовещании, речь и тональная сигнализация в телефонии, сигналы разной формы). Обычно в существующей аппаратуре это разделение реализовано на частотной основе с помощью набора фильтров разного вида. Например, в телефонии в приёмнике линейной сигнализации, принимаемой на фоне речи, используются полосовые и заграждающие фильтры, которые настроены на частоты сигнализации. Если одновременно сигнал на выходе полосового фильтра выше порога приёма, а на выходе заграждающего -ниже, то принимается решение о наличии сигнализации. В противном случае приёмник фиксирует отсутствие тональной сигнализации. Реально такая система имеет низкую помехоустойчивость по целому ряду причин:

В итоге жёсткие нормы МСЭ-Т G.726 - не более 1 ложного срабатывания за 10 часов непрерывного разговора не выполняются. Ложный прием сигналов типа «отбой» и «разъединение» под действием речи приводит к полному разрушению коммутации и потере связи.

В диссертационной работе предложен алгоритм определения эффективной ширины спектра на основе анализа формы сигнала. Это позволяет адаптивно подбирать оптимальную частоту дискретизации сигнала пропорционально ширине его спектра и осуществлять статистическое уплотнение канала связи. На примере широкополосного цифрового радиовещательного канала показана возможность снижения частоты квантования с 32 кГц (классическая музыка, стереопрограмма) до 16 кГц (вещание) и 8 кГц (речь). В последних вариантах возможно уплотнение канала в 2 и 4 раза. А с учётом пауз эффективность использования канала будет ещё выше. В освободившиеся интервалы времени возможна передача служебной информации или данных.

Научная новизна работы.

В процессе работы получены следующие результаты:

1. Получены новые адаптивные алгоритмы обнаружения сигнализации в составе импульсных случайных потоков в системах цифровой телефонии на основе ИКМ, адаптивной дельта-модуляции (АДМ) и адаптивной дифференциальной ИКМ (АДИКМ).

2. Предложен новый метод распознавания тональной сигнализации в телефонии на фоне речи, основанный на априорной информации о форме сигнала.

3. Предложен простой и эффективный алгоритм сжатия речевого сигнала (до 30 раз) на временной основе для решения задачи при крайне ограниченных возможностях аппаратных средств.

4. Разработан метод распознавания изолированных слов, инвариантный к темпу, громкости и тембру речи.

5. Предложен адаптивный метод определения ширины энергетического широкополосного спектра случайного сигнала на временной основе.

Практическая ценность и реализация результатов работы.

1. На основе новых алгоритмов обнаружения тональной сигнализации в составе импульсных случайных потоков в системах цифровой телефонии с ИКМ, АДИКМ и АДМ, разработаны помехоустойчивые адаптивные групповые приёмники двухчастотных сигналов набора номера в системах сопряжения существующих аналоговых АТС с цифровыми.

2. Используя предложенный метод распознавания тональной сигнализации в телефонии на фоне речи, смоделирован на ПК и разработан адаптивный помехоустойчивый приёмник линейной одно- и двухчастотной сигнализации.

3. С помощью предложенного алгоритма сжатия речевого сигнала удалось добиться сжатия речевого сигнала (до 30 раз) на основе обработки сигнала во временной области. Области применения: цифровые системы хранения речевой информации; повышение скорости передачи сообщений по каналам связи; секретная связь, голосовая почта в сети интернет.

4. Используя метод распознавания изолированных слов, инвариантный к темпу, громкости и тембру речи, можно организовать коммутацию голосом телефонных соединений, ввод команд и данных диктором в ПК или любую другую систему автоматики.

5. На основе предложенного адаптивного метода определения ширины энергетического спектра широкополосного случайного сигнала повышена эффективность системы связи в 2-ь4 раза путём статистического уплотнения широкополосного цифрового канала за счёт адаптации частоты квантования к ширине спектра передаваемого сигнала (речь/вещание/музыка). Система может быть использована в цифровом радиовещании.

На защиту выносятся: алгоритмы работы помехоустойчивых приёмников двухчастотных сигналов набора номера в системах цифровой телефонии на основе нелинейной ИКМ, адаптивной дельта-модуляции (АДМ) и адаптивной дифференциальной ИКМ (АДИКМ); адаптивный метод распознавания сигналов одно- и двухчастотной сигнализации в телефонии на фоне речи; алгоритм сжатия речевого сигнала на временной основе; алгоритм распознавания изолированных слов; методы определения ширины энергетического спектра случайного сигнала на временной основе для адаптивного подбора частоты дискретизации; результаты статистического моделирования и экспериментального исследования предложенных алгоритмов и устройств цифровой обработки сигналов.

Заключение диссертация на тему "Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания"

4.2. ВЫВОДЫ.

На примерах гласных звуков, произносимых женским и мужским голосом, экспериментально получены гистограммы распределений интервалов между соседними нулями речевого сигнала. Проведено их сравнение с гистограммами, соответствующими одночастотной и двухчастотной сигнализации. Сделаны выводы о возможности надежного обнаружения тональных сигналов на фоне речи по характеру распределения интервалов между нулями. Результаты работы могут быть использованы для построения помехоустойчивых приемников линейных сигналов тональной сигнализации в телефонии.

На основе предложенного метода, использующего вместо спектра частот сигнала спектр его интервалов между нулями, можно строить нелинейные цифровые фильтры нижних, верхних частот, полосовые и заграждающие. Подразделив интервалы по длительности на разрешенные и запрещенные, можно надёжно различать сигналы по форме, установив пороги на число разрешенных и запрещенных интервалов, накопленных за время анализа.

На основе предложенного адаптивного метода определения ширины энергетического спектра широкополосного случайного сигнала повышена эффективность системы связи путём статистического уплотнения широкополосного цифрового канала за счёт адаптации частоты квантования к ширине спектра передаваемого сигнала (речь/музыка). Система может быть использована в цифровом радиовещании.

Предложенные методы позволяют значительно повысить достоверность приёма служебной сигнализации, а так же более полно и эффективно использовать существующие каналы связи за счёт устранения избыточности самого передаваемого сигнала.

ЗАКЛЮЧЕНИЕ

По сути своей, диссертационная работа имеет более прикладной характер нежели теоретический. Практическая работа различных устройств автоматической электросвязи выявила ряд проблем, как низкой помехозащищенности, так и резерва избыточности самих передаваемых сигналов. Отступив от привычных и уже достаточно изученных алгоритмов обработки сигналов, в работе предложен ряд совершенно новых решений наиболее актуальных проблем.

В диссертационной работе сформулированы следующие основные результаты исследований:

1. Решены задачи обнаружения гармонической сигнализации в составе импульсных случайных потоков: а) с адаптивной дельта - модуляцией (АДМ), применив «коррекцию» входного потока, которая практически полностью позволяет скомпенсировать нелинейные искажения, вносимые дельта-кодером, что выравнивает АЧХ сигнала и на два порядка улучшает помехозащищенность двухчастотных тональных сигналов набора номера; б) с адаптивной дифференциальной ИКМ (АДИКМ), используя двойной интегратор с переменным коэффициентом деления и адаптивными порогами приёма для каждой частотной составляющей сигнала, что позволяет построить ПМК, полностью удовлетворяющий более жёстким нормам МСЭ-Т для аналоговых устройств; в) с нелинейной ИКМ, поставив на вход ПМК адаптивный преобразователь кода входной 8-разрядной логарифмической ИКМ в 4-разрядную линейную ИКМ, что позволяет сжать динамический диапазон входного сигнала в 64 раза без потери передаваемой информации о тональных частотах, это намного упростило дальнейшую обработку сигнала, что в сумме с адаптивным подбором порогов приёма, учитывающих динамику нарастания отдельно каждой частотной составляющей в коррелометре, позволило получить несложный ПМК, по своим возможностям практически перекрывающий все нормы МСЭ-Т Q.455.

2. Проведено исследование во временной области. Найдены одномерная функция распределения мгновенных значений, корреляционная функция, закон распределения интервалов между нулями сигнала и его первой производной (на примере речи, музыки, гармонической сигнализации, шума). На основе анализа формы сигнала разработаны методы различения речевых и музыкальных сигналов во временной области.

3. Предложен адаптивный метод распознавания сигналов одно- и двухчастотной сигнализации в телефонии на фоне речи.

4. Предложен простой и в то же время достаточно эффективный метод сжатия речевого сигнала на временной основе (примерно в 30 раз), использующий избыточность вокализованных звуков.

5. Разработан метод распознавания изолированных слов, инвариантный к темпу, громкости и тембру речи.

6. Исследована зависимость эффективной ширины спектра сигнала от отношения средних модулей первой производной и сигнала. Предложен способ статистического уплотнения канала связи (в 2+4 раза) за счёт адаптации частоты квантования к ширине спектра передаваемого сигнала.

Все перечисленные разработки позволяют более эффективно использовать существующие каналы связи и имеющееся, незначительно доработанное, станционное оборудование.

Библиография Кузнецов, Михаил Владимирович, диссертация по теме Системы, сети и устройства телекоммуникаций

1. Горелик А.Л., Скрипкин В.А. Методы распознавания. М.: Высшая школа 1984.

2. Мясников Л.Л., Мясникова Е.Н. Автоматическое распознавание звуковых образов. Энергия 1970.

3. Покровский Н.В. Расчет и измерение разборчивости речи. М.: Наука, 1988.

4. Харкевич А.А. Очерки общей теории связи. М.: Гостехиздат, 1955.

5. Вемула Н.Р. Схемы распознавания речи в одной интегральной схеме. Ж. Электроника 1990.

6. Розенберг Р. Прогресс в развитии техники распознавания синтеза речи. Ж. Электроника 1990.

7. Смит К. перспективы создания интегральных схем речевого ввода в Великобритании. Ж. Электроника 1990.

8. Галахер Р.Т. Система распознавания речи. Ж. Электроника 1990.

9. Фланган Дж. Анализ, синтез и восприятие речи. Пер. с англ./под редакцией А.А. Пирогова М.: Связь 1968.

10. Ю.Брунченко А.В., Охинченко Е.П., Седов А.Е. Цифровые обнаружители гармонических составляющих для сигналов с адаптивной дельта-модуляцией. Ж. Электросвязь, 1987, № 10.

11. Брунченко А.В., Седов А.Е. Цифровой приёмник многочастотного кода «2 из 6». Ж. Электросвязь, 1988, №11.

12. Брайнина И.С. Метод построения адаптивных групповых приёмников многочастотного кода «2 из 6» для сигналов с ИКМ. Ж. Электросвязь, 1991, №9.

13. Брайнина И.С. Кузнецов М.В. Адаптивный цифровой групповой приемник сигналов управления и взаимодействия с нелинейной импульсно-кодовой модуляцией (ИКМ). Патент №2143790 РФ, 1999, бюл. №36.

14. Брайнина И.С., Кузнецов М.В., Ротенштейн И.В. Цифровой групповой приёмник сигналов управления и взаимодействия с адаптивной дифференциальной импульсно-кодовой модуляцией. Патент №2103840 РФ, 1998, бюл. №3.

15. Брайнина И.С. Кузнецов М.В. Устройство для распознавания изолированных слов. Патент №2136059 РФ, 1999, бюл. №24.

16. Брайнина И.С. Кузнецов М.В. Способ сжатия изолированных слов. Патент №2180974 РФ, 2002, бюл. №2.

17. Рабинер JI. Р., Шафер Р. В. Цифровая обработка речевых сигналов / пер. с англ. под. ред. М. В. Назарова и Ю. Н. Прохорова. М.: Радио и связь, 1981.-495 с.

18. Гуревич В.Э., Лопушнян Ю.Г., Рабинович Г.В. Импульсно-кодовая модуляция в многоканальной телефонной связи. М.: Связь, 1973.

19. Назаров М. В., Прохоров Ю. Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь, 1985. - 176 с.20.0ппенгейм А.В. Цифровая обработка сигналов.: пер. с англ. / Под ред. С.Я. ШатцаМ.: Связь 1979.

20. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. М.: Наука, 1987.

21. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов.- М.: Радио и связь, 1984.

22. Левин Б.Р. Теоретические основы статистической радиотехники. М.: Сов.Радио, 1974.

23. Теория электрической связи: Учебник для вузов. /Под ред. Д.Д. Кловского. М.: Радио и связь, 1998.

24. Чистович Л.А., Венцов А.В. Физиология речи. Восприятие речи человеком. Л.: Наука, 1980.

25. Слепов Н.Н. Синхронные цифровые сети SDH. ЭКО-ТРЕНДЗ. -Москва 1997.-150с.

26. Guberman Shellia "Apparatus system and method for speech compression and decompression". Patent number US6138089, Publication date 24.10.2000.

27. Локшин Б.А. ЦИФРОВОЕ ВЕЩАНИЕ: от студии к телезрителю. М.: Компания САЙРУС СИСТЕМС, 2001.

28. Кузнецов П.И., Стратонович Р.Л., Тихонов В.И. О длительности выбросов случайной функции. ЖТФ, 1954, т.24, вып.1, с. 103-112.

29. Ипьичев В.П. Устройство для распознавания вещательного сигнала. Ж. Электросвязь 1983.

30. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. М.: Радио и связь, 1991.

31. Брайнина И.С. Кузнецов М.В. Цифровые обнаружители гармонических составляющих для сигналов с адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ). Материалы НТК ПГАТИ, выпуск № 3, Самара, 1998. с. 18-23.

32. Кузнецов М.В. Об одном методе построения приемников многочастотного кода набора номера для сигналов с АДИКМ. Тезисы доклада НТК ПГАТИ, Самара, 1998.

33. Кузнецов М.В. Эффективный метод сжатия речевых сигналов. Материалы НТК ПГАТИ, выпуск № 5, Самара, 2000. с. 73-75.

34. Кузнецов М.В. Исследование законов распределения интервалов между нулями вокализованной речи. Материалы НТК ПГАТИ, выпуск № 4, Самара, 1999. с. 19-21.

35. Кузнецов М.В. Исследование законов распределения интервалов между нулями клиппированной речи на основе стационарной нелинейной модели. Тезисы доклада НТК ПГАТИ, Самара, 1999.

36. Брайнина И.С Кузнецов М.В. Методы распознавания сигналов одно-и двухчастотной сигнализации в телефонии на фоне речи. 1 Международная научно-техническая конференция стран СНГ «Техника и технология связи», «Вестник связи», Минск, 1999.

37. Кузнецов М.В. Приемники гармонических сигналов управления и взаимодействия в системах цифровой телефонной связи. Санкт-Петербург, 2000.

38. Кузнецов М.В. Метод эффективного сжатия речевых сигналов. Тезисы доклада НТК ПГАТИ, Самара, 2000.

39. Венедиктов М.Д. и др. Дельта-модуляция. Теория и применение. М.: Связь 1976.

40. Стил Р. Принципы дельта-модуляции. Пер. с англ. М.Д. Бенедиктова, под ред. В.В. Маркова. М.: Связь, 1979.

41. Малевич T.J1. Асимптотическая нормальность числа пересечений нулевого уровня гауссовым процессом. Теория вероятностей и её применение. 1969, т. 14, вып.2.

42. Финк JI.M. теория передачи дискретных сообщений. М.: Советское Радио, 1970.

43. Уидроу Б. Стирнз С. Адаптивная обработка сигналов. М.: Радио и связь, 1989.

44. Лебедев А.Н. Моделирование в научно-технических исследованиях. -М.: Радио и связь, 1989. -223с.

45. Громаков Ю.А. Стандарты и системы подвижной радиосвязи. -М.: Мобильные ТелеСистемы Эко-Трендз, 1997. -239с.

46. Блохин В.Г., Глудкин О.П., Гуров А.И., Ханин М.А. Современный эксперимент: подготовка, проведение, анализ результатов. — М.: Радио и связь. 1997.-230с.

47. Пешель М. Моделирование сигналов и систем. Пер. с нем. М.: Мир 1981.-300с.

48. Левин Б.Р., Шварц В. Вероятностные модели и методы в системах связи и управления. -М.: Радио и связь, 1985. 312с.

49. Шелухин О.И. Негауссовские процессы в радиотехнике. М.: Радио и связь, 1999.-287с.

50. Кловский Д.Д., Сойфер В.А. Обработка пространственно-временных сигналов (в каналах передачи информации). М.: Связь, 1976. — 207с.

51. Брайнина И.С. Адаптивная цифровая обработка сигналов связи с использованием прикладной теории выбросов случайных процессов. -М.: Радио и связь, 2002. — 436с.

52. ЗАО "Научно-технический центр "ЦНИИС-ТАНТАЛ"

53. Все ПМК удовлетворяют нормам ОТТ;'g

54. В некоторых режимах ПМК успешно работактшумах, превышающих допуски

55. Разработанные алгоритмы ПМК обеспечивают экономичную реализацию при применении современных сигнальных процессоров.

56. По результатам испытаний принято решение о внедрении ПМК, разработанных в ПГАТИ при участии Кузнецова М.В., в состав оборудования АТС1. ОТТ;

57. С-32С, использующего кодирование АДИКМ, изготавливаемого Днепропетровским механическим заводом совместно с нашим предприятием, для установки на телефонных сетях России.

58. Начальник лаборатории *' В. Г. Угер

59. На основе проведённых испытаний модели ПМК для сигналов ИКМ во всём диапазоне заданных частот, уровней и перекосов уровней двухчастотных сигналов набора номера кодом «2 из 6» установлено:

60. ПМК удовлетворяет нормам ОТТ на городские ЭАТС и Рекомендации МСЭ-Т Q.455.

61. По требующейся вычислительной мощности возможна реализация группового (не менее, чем на 8 каналов) ПМК на простейших сигнальных процессорах.

62. Начальник учебного отдела "Кустова М.Н.

Похожие работы

Радиотехника и связь
05.12.00