автореферат диссертации по радиотехнике и связи, 05.12.02, диссертация на тему:Компактное представление речевого сигнала для радиосвязи и вещания

кандидата технических наук
Волкова, Юлия Владимировна
город
Москва
год
1994
специальность ВАК РФ
05.12.02
Автореферат по радиотехнике и связи на тему «Компактное представление речевого сигнала для радиосвязи и вещания»

Автореферат диссертации по теме "Компактное представление речевого сигнала для радиосвязи и вещания"

Р Г 5 ОД

Министерство связи Российской Федерации Московский технический университет связи и информатики (МТУСИ)

На правах рукописи ■ УДК 621.395.

КХвдя Владимиров!*.* ВОЛКОВА

КОМПАКТНОЕ ПРЕДСТАВЛЕНИЕ РЕЧЕВОГО СИГНАЛА ДЛЯ РАДИОСВЯЗИ И ВЕЩАНИЯ

Специальность 05.12.02 Системы и устройства передачи информации по каналам связи

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва 1994

Работа выполнена на кафедре Радиовещания и электроакустики МТУСИ.

Научный руководитель - кандидат технических наук,

доцент О. Б. Попов

Официальные оппоненты: - доктор технических наук,

В. П. Афанасьев,

- кандидат технических наук, Л. М. Невдяев

Ведущая организация - Всероссийский НИИ телевидения и радиовещания (ВНИИТР)

Защита диссертации состоится ■■ лифа/Ц 199А г.

в " л? " часов на заседании специализированного совета К.118.06.03 по присуждению ученой степени кандидата технических наук при Московском техническом университете связи и информатики

по адресу 111024, Москва, Авиамоторная, 8а, МТУСИ.

С диссертацией можно ознакомиться в библиотеке МТУСИ.

Автореферат разослан " /<£>^¿>/¡¿1 199 У г.

Ученый секретарь специализированного совета К.118.06.03 к.т.н., доцент

О. В. Матвеева

3°ъ

Общая характеристика работы Актуальность темы. Эффективность систем телефонной связи и звукового вещания, дополнительные виды обслуживания, .технико-экономические показатели во многом определяются степенью согласования параметров канала, с одной стороны, с особенностями и параметрами передаваемого сигнала, а с другой - с особенностями восприятия звуковых сообщений абонентами - слушателями.

Исследования и практические разработки, повышающие эффективность речевого обмена,являются традиционными. Однако, в настоящее время интерес к ним увеличивается. Это вызвано, во-первых, конкурирующими разработками цифровых сетей связи, систем массового вещания и оповещения и т.д.; во-вторых, проникновением технологий вычислительной математики и компьютеров в технологию исследований и практические разработки связистов-, в-третьих, яркими достижениями теории и техники передачи и обработки сигналов в цифровой форме; в-четвертых, результатами последних исследований в областях лингвистики, физики звуковоспроизведения и звуковосприлтия.

Проблемам анализа и компактного представления звуковых сигналов посвящены работы ученых В.А.Котельникова, А.А.Пирогова, М.А.Сапожкова, М.В.Назарова, Р.К.Потаповой, Дж.Беллами, Л.М. Гольденберга, известных специалистов Ю.Н.Прохорова, В.Г.Санникова и др. Способы представления СЗВ в частотной области рассмотрены в работах М.В.Гитлица, А.С.Грудинина, А.М.Синильникова, Ю.А. Ковалгина.

Цель и основные задачи работы. Повышение эффективности информационных систем и систем звукового вещания. Создание научных основ, обоснование и выбор технических решений, обеспечивающих эффективное комплексное использование компактного представления звуковых сигналов.

Методы исследований. При решении поставленных задач использованы элементы физики звуковосприятия, теории звукообразования, цифровой обработки сигналов, моделирования случайных процессов с применением теории вероятности и математической статистики, технико-экономический анализ результатов. Все расчеты и эксперименты выполнены с использованием современной вычислительной техники.

Новизна работы и новые научные результаты

1. Предложен алгоритм анализа мгновенного спектра малокомпонентных звуковых сигналов (ЗС) повышенной точности.

2. Разработаны способы повышения разрешающей способности и устойчивости БПФ оценки спектра ЗС.

3. На основе предложенных способов спектрального анализа разработан вариант алгоритма кепстрального анализа, позволивший выявить устойчивые признаки

смысловой информации ЗС, которыми являются аппроксимированная скорость изменения точного фазового кепстра и начальная фаза этого изменения.

4. С использованием предложенных способов спектрального анализа разработан метод формирования объективной оценки качества передачи ЗС с учетом субъективного восприятия искажений, проведена проверка его эффективности.

5. Предложены способы компактного представления речевых сигналов.

Практическая значимость работы заключается:

- в разработке и внедрении аппаратно-программного обеспечения для анализа и обработки звукового сигнала,

- в создании и внедрении программного обеспечения комплекса контроля уровней каналов вещания;

- в разработке алгоритма выделения смысловой информации речевого сигнала;

- в разработке программного обеспечения комплекса оценки качества и сертификации услуги вещания.

Внедрение результатов работы:

Предмет внедрения Область внедрения

ПрограммнсЯГ^; обеспечение исследований свойств звуковых сигналов Программа " Информатизация России" (Институт системного анализа Российской академии наук)

Метод увеличения разрешающей способности Фурье-преобразования речевых сигналов Лабораторный практикум каф. РВ и ЭА; НИР "Субъект" НГК-68 НИЧ МТУСИ (тема №6802/93)

Пакет учебных программ по дисциплинам углубленной подготовки Учебный процесс кафедры РВ и ЭА МТУСИ

Апробация диссертации. Основные положения и результаты исследований докладывались автором на Международных форумах информатизации (Москва, 1993, 1994), II и III межрегиональных конференциях "Обработка сигналов в системах двусторонней телефонной связи" (Москва-Пушкино, 1993 и 1994), а также на НТК профессорско-преподавательского состава и ряде семинаров МТУСИ в 1993-1994 гг. Методы и рекомендации апробированы специалистами отрасли. Тематические лекции по цифровой обработке речи читались в курсах кафедры РВ и ЭА.

Публикации. Материалы диссертации представлены в отчетах по НИР, выполненных в НИЧ МТУСИ и ИСА РАН, опубликованы в 5 статьях и 9 тезисах выступлениях на НТК.

Вклад автора в решение проблемы состоит в разработках, развитии, обобщениях исследований свойств речевых сигналов и цифровой обработки сигналов звукового вещания.

Основные положения, представленные к защите:

1. Эффективность исследований свойств звуковых сигналов и особенностей слухового восприятия в значительной мере определяется используемым для формирования спектральных оценок тестовых и реальных сигналов математическим аппаратом, а также учетом вносимых этим аппаратом искажений. Известные методы спектрального анализа ЗС не обеспечивают разрешающей способности и точности, соответствующей возможностям слухового анализатора, что зачастую приводит к неверной интерпретации результатов анализа в моделях восприятия. Использование возможностей современных средств вычислительной техники и результатов последних исследований в областях лингвистики, физики звукообразования и звуковосприятия позволяют достичь успеха в традиционных задачах компактного представления СЗВ.

2. Разрешающая способность спектрального анализа с использованием ДПФ и БПФ может быть повышена за счет искусственного увеличения длительности анализируемого сигнала, формирования раздельной оценки действительной II мнимой составляющей каждого коэффициента и компенсацией боковых лепестков уже найденных спектральных составляющих ЗС.

3. Кепстральный анализ ЗС, проведенный на ЭВМ с использованием разработанных способов повышения точности Фурье-преобразований и учетом адаптивной весовой функции при традиционном логарифмировании огибающей спектра, позволяет выделить устойчивые признаки отдельных звуковых объектов, что дает возможность произвести их сегментацию и классификацию для выделения смысловой информации.

4. Оценка качества передачи ЗС, в том числе в каналах передачи с устранением статистической и психофизиологической избыточности, должна производиться по результатам субъективно-статистических измерений или по результатам объективной оценки искажений, измеренных с учетом особенностей слухового восприятия, программно сформированной на специализированной ПЭВМ с использованием разработанного метода спектрального анализа.

5. Формирование устойчивого кепстрального описания огибающей амплитудного спектра и точной оценки основного тона или их группы позволяет резко сократить объем передаваемого сигнала при сохранении его качества.

6. Контроль и регулирование уровня передачи СЗВ, в том числе с учетом его восприятия по громкости, позволяет повысить качество вещания как услуги .

Структура и объём работы. Работа состоит из введения, пяги разделов, заключения, списка литературы и приложения. Работа содержит 170 листов, в том числе 147 листов машинописного текста и 23 листа рисунков. Библиография содержит 85 наименований. 3 0%

Краткое содержание работы

Во введении обоснована актуальность темы исследования, сформулирована цель работы, перечислены основные научные результаты диссертации, определена их практическая ценность и области применения, приведены основные положения, выносимые на защиту.

Основные области современных приложений компактного представления речевых сигналов в целях его обработки, анализа, хранения и передачи рассмотрены в 1-м разделе. Показано, что компактное описание речевого сигнала желательно как для уменьшения объема передаваемой (или хранимой) информации, в целях сокращения требуемой емкости канала передачи (или объема памяти), так и для распознавания речи. В обоих случаях основная задача - выделить из сигнала минимальное число информативных составляющих, на основе которых сигнал может быть в первом случае восстановлен, а во втором распознан.

На основе проведенного анализа сделан вывод о том, что для дальнейшего продуктивного развития систем распознавания речи необходима разработка новых методик и алгоритмов обработки сигнала в целях повышения точное™ распознавания фонем. Отмечена схожесть задач автоматического распознавания и снижения скорости передачи ЗС. Решение их лежит в одной плоскости - определение наиболее информативных компонент, а затем их выделение и кодирование.

Разработка, исследование и эксплуатация любых звухотехнических устройств должны обеспечивать наилучшее их функционирование применительно к свойствам слуха человека. Для обеспечения согласования этих свойств с методами исследований звуковых сигналов рассмотрены современные способы анализа ЗС, и их приложения к различным моделям звуковосприятия. На основании такого рассмотрения, в соответствии с современными концепциями анализа речи, сделано предположение о возможности использования для целей компактного описания ЗС кепстральных коэффициентов, вычисленных из спектральной оценки с высоким разрешением.

Разработке способов повышения точности и разрешающей способности спектрального и кепстрального анализа ЗС посвящен 2-й раздел диссертации. В нем обоснованы требования к точности и разрешающей способности спектрального анализа, рассмотрены существующие его методы и оценена возможность использования различных способов повышения разрешающей способности применительно к особенностям звукового сигнала, состоящего из нестационарных на времени анализа спектральных компонент. Проведенный анализ убедительно доказывает, что даже в тех случаях, когда с помощью альтернативной процедуры спектрального оценивания достигается более высокая точность оценки, вычислительные затраты на реализацию такого метода оказываются значительно выше затрат обработки на основе БПФ. Указанный факт делает эти методы спектральной оценки малопригодными для работы в реальном масштабе времени.

Для компьютерного анализа малокомпонентных сигналов разработан спектрсаналшатор, отвечающий поставленным требованиям как по точности вычислений амплитуд и фаз спектральных составляющих, так и по разрешающей способности. Рис. 1 - 4 подтверждают эффективность его работы в сравнении с методами Прони и Писгренко.

Формально алгоритм может быть описан следующим образом.

1. Наложение окна Хэмминга:

ин[п\= £/[л]х |0.54 + 0.4бхсоз27сх[^2л(;!^р?), л = 0...Л'-1 ;

2. Вычисление амплитудного спектра {5[л] по формулам ДПФ;

3. Определение максимальной амплитуды в спектре - , ее номер - пт, частота

Ьп = (/¿АО х пт;

4. Итерационное приближение к истинному значению частоты, соответствующей максимальной спектральной составляющей: Ы - шаг поиска;

fd - частота дискретизации; N - число отсчетов на интервале анализа;

Л/я > Л'ь - число отсчетов, используемых для определения амплитуд спектральных составляющих на частотах ¡и II Л.;

5/= (/¿/Лг) х (1/(2Ш 1 =

+ Л/я=(^хЛ/)/„;

Расчет амплитуд спектральных составляющих, расположенных выше и ниже по частоте, чем 1т на 8/ - и ЩС) по формулам Г1Ф;

Выбор максимальной из рассчитанных амплитуд:

в(^) = МАХ^п,)'. 3(/я); ЗД.)); Лп =

Пункт 4 повторяется до тех пор, пока 8/ > 1 Гц.

5. Для составляющей с частотой ¡т вычисляются амплитуда А(1т) и фаза 0(Лп) (без применения оконной функции) , после чего синтезированное колебание вычитается из исходного и весь цикл повторяется сначала. Окончание работы может быть задано как числом обнаруженных составляющих, так и энергией остатка сигнала.

На рис. 5 приведены осциллограммы: а- исходного речевого сигнала ( го = 16 мс) , б -сигнала, восстановленного из 5 основных составляющих, выделенных по результатам анализа сигнала описанным способом. На рис. 6 - аналогичные осциллограммы для нескольких последовательных отрезков анализа. Места стыков отмечены вертикальными линиями. Точность определения параметров спектральных составляющих подтверждается отсутствием фазовых сбоев на стыках( это видно на рисунках) и результатами ССИ.

Предложенный вариант спектрального анализа позволяет формировать

рис. 1 Спектр тестового сигнала

рис. 2 Анализ методой Писаренко

АлА

рис. 5

(а ) Исходаый речевой сягнал (б) Сигнал, восстановленный из 5 компонент

1 2 чл А 3 4 5 б 1

V ^уу УуУ \fvyi п/уу

рис.6

(а) Исходный речевой сигнал

0 1 2 3 4 1 5 б 1 Л 1

——

(б) Сигнал, восстановленный из 5 компонент

малокомпонентное описание ЗС как суммы гармонически не связанных колебаний, с возможностью введения положительного или отрицательного коэффициента затухания на времени анализа. Как показал эксперимент, для описания речевого сигнала ггри искажениях порядка 1% достаточно 8 составляющих, а музыкального - 14 - 16.

6 а %

4 5 hv

е Б - число

1 5 составляющих

3 4 5 6 7 8 9 10 11 12

рис. 7

Зависимость искажений от числа компонент синтезированного сигнала

На рисунке 7 приведен график зависимости от числа компонент в синтезированном сигнале: а - субъективной заметности искажений (по результатам ССИ) и б - энергии разности между исходным и синтезированным сигналом.

В задачах оценки качества и выделения смысловой информации для получения кепстралыюй оценки недостаточно сведений об ограниченном наборе наиболее мощных составляющих спектра. Необходимую информацию можно получить только из полного описания огибающей амплитудного спектра.

Для решения проблемы разработан способ повышения разрешающей способности, реализуемый в базисе БПФ, с использованием быстродействующих, оптимизированных по времени счета программ. Основа способа - алгоритм искусственного увеличения длительности времени анализа и раздельной обработки массивов действительных и мнимых составляющих с учетом особенностей четных и нечетных функций перед наложением оконных функций. Для получения спектральной оценки используется стандартное быстрое преобразование Фурье, причем предварительная обработка сигнала позволяет в 4 раза уменьшить шаг частотной сетки, который при частоте дискретизации 16 кГц и времени анализа 16 мс вместо 62,5 Гц становится равным 15,87 Гц.

На рис.8 четко видны отличия между результатами анализа тестового сигнала со спектром, показанным на рис.1, при использовании стандартного БПФ (а) и его предлагаемого варианта (г). На рис. 8 приведены также результаты анализа тестового сигнала с использованием известных методов повышения точности оценок и разрешения неопределенностей спектрального представления: БПФ с наложением окна Натолла (б), БПФ с дополнением ЗЫ нулями (в).

Полученные оценки устойчивы, паразитная АМ, свойственная БПФ и составляющая около 1 дБ даже при использовании окна Натолла, не превышает ЮЬ

О дБ 1 Il ,1 1. ,|||. ,1 ¡ill LI nil! II 1, ill,.ill,

oll О г о 3 С! 4 015

(б) БПФ с окном Натол/iA

О дБ

(е> БПФ, дополненное 3N нулями

О дБ i

- Oll О 12 0.3 0'.4 015

(г> БПФ с повышенной разрешающей способностью

0.4 дБ, что позволяет перейти к анализу закономерностей амплитудного спектра ЗС, определяющих передаваемую сигналом смысловую информацию.

В третьем разделе диссертации рассмотрены вопросы выделения смысловой информации звуковых сигналов. Для определения направления исследований были проведены ССИ разборчивости PC при воздействии искажений: ограничение спектра PC сверху до 2.5 кГц; ограничение спектра PC снизу до 1 кГц; полосовая режекторная фильтрация PC в областях формантных максимумов амплитудного спектра; транспонирование спектра; изменение скорости воспроизведения РС.ССИ подтвердили высокую устойчивость параметров PC, определяющих его смысловую информацию, к указанным видам обработки, после применения которых сохраняются только периодичности огибающей амплитудного спектра, выделяемые обычно при помощи кепстрального анализа. На основе разработанных способов спектрального анализа с повышенной разрешающей способностью разработан алгоритм выделения смысловой информации речевого сигнала на основе традиционного кепстрального анализа:

ЛГ-1

C[n] = ¿X WJ\n] X lg ISMI X ехр(2к/№)кп 0<n<N- 1

¡ы>

где {S} - амплитудный спектр; {С} - кепстр; Wf - весовая функция, вычисляемая по формуле:

WJ\n\ = l/i^sr х Е£[л+А:]} , m - порядок весовой функции,

к=~т

и устраняются спектральные составляющие выше 3,8 кГц.

В соответствии с этим алгоритмом написана программа, с использованием которой проведен компьютерный анализ фонем. Для экспериментов использована достаточно представительная база данных речевых сигналов английского языка "TIMIT". Результаты эксперимента (рис. 9,10,11) позволяют сделать вывод о существовании различий в точных фазовых кепстрах фонем, заключающихся в скорости изменения фазового кепстра и номерах кепстральных коэффициентов первого перехода фаз через ноль. Дальнейшие математические преобразования, реализуемые соответствующей программой, позволяют представить фазовый кепстр в виде пилообразной функции с некоторой частотой и начальной фазой и затем вычислить эти параметры. Результаты расчета по всем выборкам для всех фонем "АА" и "IH", имеющихся в базе TIMIT, приведены на рис. 12 На этом рисунке вектор результата в полярных координатах имеет амплитуду, пропорциональную полученной частоте, а угол соответствует вычисленной начальной фазе. Как можно заметить, области существования фонем перекрываются мало. На рис.13 приведены аналогичные результаты для фонем "IY" и "UH". Полученные результаты w позволяют сделать вывод о перспективности применения данных признаков в системах выделения смысловой информации речевого сигнала.

ж

"ейоор«. 0 0 с °°

»Гоо ^ «г

и0 0 ООО 0

--г -/Г

рис .9

рис . 10

г-в-

11

//г

СЬ1^ „ « 0

-/!о

Точные Фазовые кепстры рис. 9 - для 100 Фонем "ДД" рис. 10 - д/га 100 Фонем "IV" рис. 11 - для 100 чюнем "ОН"

О

8

рис . 11

V и- 0 + о V + + X 0<1

0 X 0 ' / X

рис.12 рис. 13

+ - "00" 0 - "иН" + - "1Н" 0 - "И"

Области существования фонем в координатах х-Рсо5<СР и=р51пС0)

В ходе исследований по выделению устойчивых признаков фонем был выработан перечень устойчивых признаков, комбинации которых позволяют с высокой уверенностью распознавать фонемы. В набор признаков ьключены

длительность фонемы( Т) , энергетические параметры сигнала (Е), центр тяжести амплитудного спектра (в), коэффициент перекоса амплитудного спектра (Кр), наличие или отсутствие основного тона. Эти признаки являются стандартными дня многих алгоритмов распознавания речи, однако использование при вычислении их значений разработанных методов спектрального анализа позволило существенно повысить устойчивость признаков. Для повышения качества распознавания к названному набору параметров необходимо добавить : коэффициент формантной выраженности (К1у), вычисляемый по формуле : №2-1

КХу = 2 С[л]/С[0];

п-1

где {С „} -массив кепстральных коэффициентов

- полярные координаты вектора, с амплитудой, пропорциональной частоте изменения фазового кепстра (И), и углом, равным его начальной фазе (0).

После проведения расчетов указанных признаков по всей базе данных Т1М1Т получены допустимые значения признаков (Т, Е, С, Кр, КТу и пары Р-0) для всех гласных фонем английского языка, а также распределения вероятностей для них. С учетом полученных данных разработан алгоритм распознавания, в соответствии с которым распознавание проводится поэтапно:

1. Исключение фонем, не попадающих в интервал разрешенных значений по каждому из параметров.

2. Определение набора возможных фонем.

3. Определение вероятности существования каждой из возможных фонем.

4. Выбор наиболее вероятной фонемы.

Количественная оценка эффективности алгоритма при анализе речевых сигналов получена в ходе эксперимента по распознаванию фонем с использованием в качестве испытательного материала звуковых сигналов базы данных Т1МГГ. Условия эксперимента:

- сегментация сигнала на фонемы произведена заранее; .

- на вход программы подается фонема любого класса, случайным образом выбранная из базы данных, причем частота появления каждой фонемы пропорциональна соответствующей величине дня естественной речи;

- цель эксперимента - определение эффективности работы программы при распознавании гласных фонем;

- время счета 8 часов на ПК 486/87 - 66МГц, ИЛМ-4 Мбайт.

Всего обсчитано 12264 фонемы ( из них гласных - 5397) . В результате получено верное распознавание гласных фонем в 84.8% случаев, что выше

известных на сегодняшний день результатов: ( для систем МСС , Л5Р , 1.РС точность распознавания гласных составляет 73,57 79,11 и 77,45 соответственно.)

Результаты проведенного исследования по выявлению устойчивых признаков звуковых объектов позволяют осуществить компактное описание речевого сигнала как с сохранением субъективно высокого качества и разборчивости, так и с сохранением только разборчивости. При реализации алгоритма с сохранением высокого качества передается информация о форме огибающей амплитудного спектра, наличии или отсутствии основного тона, а также, при существовании последнего, о его частоте, амплитуде и начальной фазе. Полученные при моделировании результаты позволяют прогнозировать снижение скорости потока до 6.8-7.0 кбит/с. Достаточно точное, при 15% заметности искажений слушателем, описание огибающей спектра обеспечивается при использовании номера (N1) амплитуды (А1) и начальной (СЭД фазы пяти наиболее существенных кепстральных коэффициентов. Оценка скорости передачи и объем передаваемой информации о параметрах приведены в таблице.

кодируемый параметр диапазон существования точность представления требуемое число бит количество общее число бит

м 1...40 0.125 8 5 40

л 0...32 дБ 1 дБ 5 5 25

<?/ - 7! ... % 0.2 я 5 5 25

я* 50...300 Гц 3 Гц 8 1 8

Мл 0... 32 дБ 1 дБ 5 1 5

$0* -я... я 0.2 я 5 1 5

Зш 50..8000 Гц 50 Гц 8 1 8

наличие ОТ да - нет - 1 1 1

всего при наличии ОТ максимум ВОЗМОЖНОГО (для 16 мс) 109

Скорость передачи составит (109/16)1000=6813 бит/с при качестве, соответствующем II классу вещания или требованиям телеконференций.

При некотором снижении требований к качеству (субъективная заметносгь искажений - в 30% случаях) и сохранении высокой разборчивости вместо массива {СЭД фаз кепстральных коэффициентов передается 2 параметра, использованные ранее в алгоритме распознавания - частота изменения фазового кепстра и его начальная фаза, что позволяет снизить общую скорость передачи до 5.8 кбит/с. При сохранении только относительной узнаваемости собеседника и высокой разборчивости удается сократить скорость передачи до 603 бит/с, передавая только информацию об основном тоне и произнесенной фонеме. Синтез сигнала на приеме осуществляется путем модуляции среднестатистической огибающей

амплитудного спектра распознанной фонемы синтезированных гармоник основного тона или шума.

Четвертый раздел диссертации посвящен проблеме оценки качества передачи звуковых сигналов. В нем проведен анализ существующих субъективных и объективных методов оценки качества передачи ЗС, на основании которого сделан вывод о том, что при оперативном тестировании, а также при оценке качества каналов и трактов с устранением избыточности объективную оценку обеспечивают только методы с использованием автоматизированного комплекса на базе ПК, причем для создания такого комплекса необходима разработка специальных алгоритмов, имитирующих основные свойства слуха и сознания человека.

Для уточнения параметров, определяющих субъективную оценку качества СЗВ, представленного в частотной области, проведены исследования оптимальной длительности выборки СЗВ, используемой для формирования мгновенного спектра и числа компонент СЗВ, одновременно воспринимаемых слушателем. По результатам исследований, длительность сигнала, на которой допустимо представление СЗВ как суммы неизменных по амплитуде составляющих, не превышает 8 мс, при дальнейшем увеличении времени анализа необходимо либо учитывать обогащение спектра, возникающее за счет отображения нарастания или спадания уровня сигнала, либо вводить в оценку спектральной составляющей коэффициент затухания (положительный или отрицательный), как это сделано, например, в методе Прони, или в способе анализа, описанном в разделе 2 диссертации.

рис.14 зависимость заметности искажений от числа компонент в синтезированном сигнале

Число одновременно воспринимаемых компонент СЗВ для тестового псевдошумового сигнала составило 24-26 при 15% заметности искажений (рис.14, кривая а), 14-16 для музыкального (б) и 8-10 для речевого сигнала ( в).

Полученный результат хорошо коррелирован с величиной заметности искажений сигнала, полученного из ограниченного набора составляющих (кривая г), и подтверждает известные данные о частотной маскировке сигнала в слуховом анализаторе, в результате которой только небольшая часть спектральных составляющих ЗС реально воспринимается слушателем, а возбуждение анализатора во многом определяется его собственными свойствами, что

позволяет формировать прогнозируемую оценку громкости и наличия искажений слушателем по ограниченному набору компонент ЗС или искажениям огибающей спектра и группы основных тонов или шумов, образующих созвучие.

Необходимость формализации и формирования объективной оценки громкости и качества передачи особенно обострилась в последние годы с появлением большого числа коммерческих радиостанций и ослаблением технологического контроля, результатом чего является занижение, а чаще - завышение уровня СЗВ на передатчике с соответствующим увеличением помех. Большое количество рекламных вставок с быстрой сменой характера сигнала уменьшает "комфортность" прослушивания из-за постоянно меняющейся субъективно воспринимаемой громкости. Развитие вычислительной техники и применение предлагаемых в диссертации алгоритмов анализа позволило разработать ряд устройств контроля и регулирования уровня на основе ПЭВМ, в частности позволяющих:

- вести многоканальный (цо 64) контроль уровня СЗВ на входе передатчика и глубины модуляции с параллельным допусковым контролем и сбором информации о соблюдении технологической дисциплины;

- формировать управляющий сигнал для регулирования уровня передачи:

- по алгоритму работы классического автостабилизатора уровня с возможностью автоматического переключения временных характеристик регулирования в соответствии с жанром программы;

- в соответствии с субъективно воспринимаемой громкостью.

Новые экономические отношения и практический распад сквозного канала ЗВ привели к необходимости пересмотра методик оценки качества передачи СЗВ. Возникла необходимость оценки качества услуги вещания в целом с позиций слушателя, позволяющая сертифицировать вещательные тракты и аппаратуру. Кроме того, в последнее время разработаны и продолжают разрабатываться эффективные алгоритмы представления СЗВ с устранением статистической и психофизиологической избыточности, объективная оценка качества передачи которых с помощью существующего метрологического обеспечения, основанного на измерении искажений малокомпонентных измерительных сигналов^евозмож-на и осуществляется, как правило, на основе экспертных оценок, требующих значительных затрат времени и средств. Очевидно, что для удовлетворения требований по оперативности контроля, соответствия его оценок субъективно воспринимаемому качеству, необходимости параллельной документации результатов возможно с использованием современной вычислительной техники при соответствующем программном обеспечении, которое и разработано автором.

Проведено сравнение оценок качества, полученных при помощи ССИ и на ЭВМ, работающей по разработанным программам. Результаты эксперимента показали большую схожесть этих оценок, что позволяет сделать вывод о перспективности работ по созданию аппаратно-программного комплекса на

основе ПК, обеспечивающего оценку, аналогичную результатам ССИ, при минимальных трудовых и временных затратах. Показано, что в системах сертификации оценка качества услуги вещания в целом может быть произведена с использованием компьютерного комплекса, позволяющего -собрать представительную статистику качества передачи как во времени, так и по территории с максимальной объективностью.

В пятом разделе произведена разработка аппаратно-программного обеспечения исследований звуковых сигналов и их преобразований, в ходе которой обоснован аппаратный состав компьютерного стенда, в состав которого кроме ПК включены дополнительные специализированные устройства, номенклатура которых определяется характером исследований. Для того чтобы стандартный ПК стал инструментом, пригодным для исследований в области звуковых сигналов, обоснован состав математического обеспечения и разработан комплект специальных программ, состав и характеристики которых определены целями и задачами работы. Комплекс программ для исследований звуковых сигналов помимо стандартных пакетов программ, включает в себя набор разработанных в разделах 2-4 диссертации программ спектрального и кепстрального анализа, выделения смысловой информации, компактного описания и восстановления ЗС, вычисления общей громкости и др. Для обеспечения работы с компьютерным стендом непрофессиональных пользователей ЭВМ, написан специальный программный модуль - сервисный блок, который запускается при первичном вызове программы и остается в оперативной памяти до окончания работы. Он связывает в единый комплекс стандартные и оригинальные программы, значительный общий объем которых требует оверлейной архитектуры, позволяет обращаться в процессе выполнения работы к остальным программным модулям, управляет распределением памяти, поддерживает диалог с оператором, обрабатывает прерывания, управляет периферией и дисководами. Такое построение математического обеспечения позволяет в случае необходимости легко дополнять или оперативно варьировать его состав.

Заключение

Итогом проведенной работы является следующее:

1. Предложены и реализованы пути повышения эффективности использования методов спектрального анализа звуковых сигналов на основе быстрых алгоритмов преобразования Фурье.

2. В рамках поставленной проблемы разработаны основы обобщенной теории использования кепстральных коэффициентов для тонкого анализа и компактного представления звуковых сигналов.

3. Разработаны эффективные алгоритмы и программное обеспечение для исследования, обработки и выделения смысловой информации звуковых сигналов, на основе которых предложен ряд методов компактного представления ЗС.

4. Разработан метод объективной оценки качества передачи ЗС с учетом субъективного восприятия искажений, пригодность которого для оперативного тестирования доказана путем сравнения полученных оценок с оценками, данными экспертной группой, работающей по традиционной методике.

5. Подтверждена эффективность исследований в области компьютерного анализа ЗС и необходимость продолжения работ в данном направлении.

Таким образом, результаты, изложенные в диссертации, представляют законченное научно-техническое обобщение, выполненное на основе теоретических исследований и практических разработок, имеющих важное народнохозяйственное значение.

Список публикаций соискателя

I. Алгоритмы вычисления общей громкости и некоторые его приложения// НТК МТУСИ, 1994.- Тезисы.- с.43.-Соавт О.Б.Попов, С.Г.Рихтер.

2. Метод цифровой оценки громкости сигнала звукового вещания и алгоритмы его реализации на ЭВМ// там же,- с.44.-Соавт.В.Г.Санников.

3. Автоматическое регулирование уровня вещательных сигналов по критерию "комфортного" уровня громкости/ЛП конгресс "Информационные коммуникации, сети, системы и технологии" Международный форум информатизации. МФИ-93. Москва,1993.-с.31-32.-Соавт. С.Л.Мишенков, Р.Б.Попов, С.Г.Рихтер.

4. Эффективное маскирование длительных выпадений,- там же.-с. 30-31.-Соавт. А.А.Есеркегенов, С.Г.Рихтер, В.Т.Умаров.

5. Способ представления звуковых сигналов в частотной области /II Межрегиональная конференция "Обработка сигналов в системах двусторонней телефонной связи",- Москва-Пушкино, 1993,- Тезисы, с.79- 80 Соавт. С.М. Бегалиев, О.Б.Попов.

6. Использование персонального компьютера для измерений уровней программ вещания // Там же .-с. 86-87.- Соавт. А.М.Копылов. В.А. Абрамов.

7. Контроль программ звукового вещания с помощью персонального компьютера // Электросвязь, 1994, N 9.(в печати)- Соавт. А.М.Копылов.

8. Спектральный анализ звуковых сигналов с повышенной разрешающей способностью. Депонировано в ЦНТИ "Информсвязь", 1994. Соавт. О.Б.Попов.

9. О некоторых результатах точного кепстрального анализа речевого сигнала. Депонировано в ЦНТИ "Информсвязь", 1994,Соавт. О.Б.Попов.

10. Испытания автоматического регулятора уровня : Лабораторная работа кафедры РВиЭА МТУСИ,- Москва, 1993.- Информсвязьиздат.

II. Фазовый кепстр в задачах распознавания речевого сигнала//Электросвязь, 1994 (в печати), Соавт. О.Б.Попов.

12. Компактное представление речевых сигналов на основе точного кепстрального анализа. Депонировано в ЦНТИ "Информсвязь",1994.

13. Методы компьютерного анализа звуковых сигналов//Ш Межрегиональная конференция "Обработка сигналов в системах двусторонней телефонной связи". - Москва-Пушкино, 1994.-Тезисы, с.65-66, Соавт.О.Б.Попов.

14. Малопараметрическое описание речевого сигнала//Там же с.67-68, Соавт.О.Б.Попов.

15. Развитие обработки звуковых сигналов в частотной области// Там же с.58-59, Соавт. С.М.Бегалиев, О.Б.Попов, Н.В.Рогацкая.

Подписано в печать 14.11.94 г. Формат 60x84/16. Печать офсетная. Объем 1,1 усл.п.л. Тираж 100 экз. Заказ 308 . Бесплатно.

ООП МП "Информсвязьиздат". Москва, ул. Авиамоторная, 8.