автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Спектрально-временные методы и алгоритмы обработки звуковой информации

кандидата технических наук
Кудряшов, Максим Юрьевич
город
Тверь
год
2004
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Спектрально-временные методы и алгоритмы обработки звуковой информации»

Автореферат диссертации по теме "Спектрально-временные методы и алгоритмы обработки звуковой информации"

На правах рукописи

КУДРЯШОВ МАКСИМ ЮРЬЕВИЧ

СПЕКТРАЛЬНО-ВРЕМЕННЫЕ МЕТОДЫ И АЛГОРИТМЫ ОБРАБОТКИ ЗВУКОВОЙ ИНФОРМАЦИИ

Специальность 0S.13.01 -Системный анализ, управление и обработка информации (по отраслям)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Тверь - 2004

Работа выполнена на кафедре информационных систем и технологий Тверского государственного университета.

Научный руководитель: кандидат технических наук,

доцент Василенко СИ.

Официальные оппоненты: доктор физико-математических наук

Зингерман К.М. кандидат технических наук, старший научный сотрудник Худанов А.А.

Ведущая организация: ФГУП Московское орденов Октябрьской Революции и Трудового Красного Знамени конструкторское бюро «Электрон».

Защита состоится «25» июня 2004 г. в 1400 на заседании диссертационного совета Д 212.263.04 в Тверском государственном университете по адресу: 170000, г. Тверь, ул. Желябова, 33.

С диссертацией можно ознакомиться в научной библиотеке Тверского государственного университета.

Автореферат разослан «24» мая 2004 г.

Ученый секретарь диссертационного совета Д 212.263.04 Доктор технических наук, профессор РОггр/? Михно В.Н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы

Несмотря на развитие цифровых технологий и компьютерной техники обработка и измерение звуковой информации во многих областях осуществляется до настоящего времени полностью или частично с использованием аналоговой техники. Так, для хранения и воспроизведения звуковых сигналов широко применяется аппаратура магнитной записи звука, в процессе работы которой имеют место колебания скорости (КС) — периодические и непериодические отклонения мгновенного значения скорости носителя от среднего значения. Колебания скорости возникают из-за не идеальности изготовления элементов лентопротяжного механизма; они, в свою очередь, приводят к появлению паразитной частотной модуляции сигнала - детонации с разной частотой.

Колебания скорости и детонацию измеряют аналоговым прибором -детонометром. В разрабатываемых в последнее время цифровых системах контроля за указанными параметрами измерение КС и детонации также возложено на аналоговую технику. Применение для измерений подобных аналоговых приборов обусловливает ряд существенных недостатков, среди которых основным являются невысокая точность измерений.

Эти недостатки можно полностью исключить при использовании цифровых технологий и повысить при этом качество, надежность и достоверность как хранения, так и обработки звуковой информации. Однако, в настоящее время не разработаны необходимые методы и алгоритмы для реализации на ПЭВМ с целью измерения указанных параметров в реальном масштабе времени. Основная трудность состоит в необходимости обработки больших объемов оцифрованных данных звукового сигнала. Поэтому возникает актуальная задача создания специального математического и программного обеспечения обработки звуковой информации во временной и частотной областях для измерения названных параметров в - реальном масштабе времени с учетом заданных требований по точности и достоверности, а также по визуализации результатов.

Цели и научные задачи. Целью работы является разработка математических методов и алгоритмов обработки звуковой информации для измерения коэффициентов колебаний скорости и детонации, а также компрессии речевых сигналов для их хранения и передачи по каналам с ограниченной полосой пропускания.

Для достижения этой цели в диссертации выполнена разработка - метода и программно-реализуемого алгоритма измерения коэффициентов КС носителя магнитной записи и детонации звука в реальном масштабе времени;

3

РОС. НЛКИОНЛЛЬНАЯ

библиотека

С.Пе Т4'р!)рг ОЭ

- методов компрессии речевых сигналов на основе применения

дискретного вейвлет-преобразования;

- программного обеспечения для компрессии речевых сигналов.

Методы исследования. Для решения названных задач использованы методы спектрального анализа, цифровой обработки сигналов, линейного предсказания, сжатия информации, дискретного вейвлет-преобразования.

Положения, выносимые на защиту

1. Метод и алгоритм обработки звуковой информации для измерения в реальном масштабе времени параметров КС носителя магнитной записи и детонации звука в аппаратуре звукозаписи и воспроизведения. Метод основан на цифровом спектральном разложении звукового сигнала и оценке параметров частотных составляющих.

2. Программное обеспечение системы обработки звуковых сигналов для проведения измерений коэффициентов КС и детонации в реальном масштабе времени.

3. Методы компрессии речевых сигналов на основе вейвлет-преобразования, обеспечивающие высокое качество их восстановления при малых затратах вычислительного ресурса.

Научная новизна

1. Метод обработки звуковой информации для измерения параметров КС и детонации включает новое алгоритмическое решение, заключающееся в переносе на величину несущей частоты спектра, низкочастотной фильтрации и децимации анализируемого звукового сигнала, что позволяет сократить объем обрабатываемой информации без снижения точности и обеспечить обработку в реальном масштабе времени.

2. Метод компрессии речевых сигналов в отличие от известных, построен на основе оптимизации параметров сжатия с использованием дискретного вейвлет-преобразования, что обеспечивает варьирование длиной сегментов сигналов и сокращения числа операций, необходимых для их сжатия и воспроизведения.

3. Метод сжатия остаточного сигнала, основанный на использовании; вейвлет-преобразования при линейном предсказании речевых сигналов. Метод обеспечивает существенное повышение степени сжатия по сравнению с известными, основанными на децимации остаточного сигнала и последующим его кодированием.

Теоретическая значимость работы заключается в развитии методов обработки и компрессии звуковой информации, основанном на применении вей влет-анализа, быстрого дискретного вейвлет-преобразования в задачах восстановления и передачи речевых сигналов.

Практическая значимость. Разработанное математическое и программное обеспечение измерения параметров КС, детонации и компрессии звуковой информации представляет вклад в развитие программно-реализуемых методов обработки в реальном масштабе времени, хранения и передачи звуковой информации в системах звукозаписи, воспроизведения и передачи. Дает основу для проведения- исследований по измерению параметров частотно -модулированных колебаний в аппаратуре видеозаписи и воспроизведения.

Достоверность н обоснованность научных результатов базируются на корректном использовании методов цифровой обработки сигналов и теории вейвлет-анализа. Достоверность измерений коэффициентов КС и детонации обеспечивается математическим обоснованием разработанных методов. Достоверность и обоснованность результатов компрессии речевых сигналов подтверждена проведением тестовых вычислительных экспериментов в широком диапазоне условий.

Апробация работы

Основные результаты исследования были доложены и положительно оценены на 6-11 научно-техн. конференциях «Современное телевидение», Москва, 1998-2003 гг, XXVI военно-научной конференции, Тверь, 2 ЦНИИ МО РФ, 2000 г, научно-технических семинарах на кафедре информационных систем и технологий факультета ПМиК ТвГУ (2002-2004 гг.).

Публикации. Основные результаты диссертационной работы и отдельные положения опубликованы в двенадцати печатных работах. В работах, выполненных в соавторстве, соискателю принадлежит участие в постановке задач и основные результаты в разработке методов и алгоритмов.

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы и приложений. Работа изложена на 145 листах. Перечень библиографических источников включает 77 наименований.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы, определяются цель и задачи исследования. В первой главе «Спектрально-временные методы обработки звуковой информации» выполнена постановка задач на разработку спектрально-временных методов для обработки звуковых и речевых сигналов. Рассматривается измерение параметров звуковых сигналов в аппаратах записи и воспроизведения звука. Такой параметр как коэффициент детонации звука, возникающий при воспроизведении фонограмм на некачественной аппаратуре звукозаписи, является

одним из важнейших характеристик звуковой аппаратуры, определяющей качество звучания фонограмм.

Воспроизводимый сигнал колебаний скорости носителя магнитной записи представляется в виде следующей модели:

я

1/(0 = С/0 eos(>V + т1sin + 0,) + Po),

«-i

(3)

(1)

где С/„, м>0 и //>„— соответственно амплитуда, частота и начальная фаза измеряемого сигнала. в, - начальные фазы модулирующего сигнала. В соответствии с моделью коэффициенты КС задаются следующим выражением

где Ду, - колебания скорости, а V, - средняя скорость носителя звукозаписи. Индексы модуляции т, в формуле (1) задаются соотношением

к, ту0 _ А/,

т. — " ■ 1 е ' «

' я, п,

где Д/, - девиации частот, О, - частоты модуляции (частоты КС),

Из (3) следует, что для определения коэффициентов КС к, достаточно определить индексы модуляции т,. Таким образом, требуется разработать метод, который на основе модели (1) позволял бы с необходимой точностью определять параметры и, и й,,

При цифровом представлении речевого сигнала считается достаточным рассматривать полосу сигнала до 4 Кгц, следовательно, согласно теореме отсчетов -дискретизация сигнала осуществляется с частотой взятия. выборок (отсчетов) сигнала равной 8000 Гц. Для получения цифрового, т.е. дискретного по амплитуде и по времени, представления необходимо проквантовать каждый, отсчет до конечного множества значений. Для цифрового представления речевого сигнала принято использовать 2' значений амплитуды, т.е. отводить 8 бит на отсчет. Тогда скорость передачи речевого сигнала составит в секунду

(бит/сек.).

Речевой сигнал можно в общем виде представить в виде следующей модели

5(0-2>А(0. (4)

в которой сигнал представлен как взвешенная сумма К базисных компонент. Общий принцип выбора подходящего базиса заключается в том, что хорошим для сжатия информации является базис, который ведет к раскорреляции, т.е. коэффициенты разложения по базису можно считать некоррелированными или слабо коррелированными случайными величинами.

Компактное представление модели (4) заключается в выборе такого базиса, в котором значимы только ограниченное число компонентов разложения В

результате компактного представления сигнал представляется ограниченным набором значимых коэффициентов и оставшимися малозначимыми или равными нулю коэффициентами. Тогда можно применить операцию взятия порога, т.е. установить в нуль малозначимые коэффициенты, без существенных искажений восстановленного сигнала.

Оцифрованный с частотой дискретизации Fs речевой сигнал s(t) длительностью Г секунд можно - представить в виде последовательности N

отсчетов {i, =i(nA/),A/=l/F,,« = l...../У.Л^ГЯ,}. При выборе ортонормального

вейвлет-базиса (.фЦ,9>'), где ф{(1)ш2'пф(2'1-к)- вейвлет-функции, а pi{t)=2"1f>{2it-k)- масштабирующие функции вейвлет-преобразования, k,jsZ можно полностью охарактеризовать его вейвлет-коэффициентами разложения по этому базису:

ни' Л."'*

S(t) = • (5)

t-l М I-I

где р- количество уровней разложения, коэффициенты усреднения, d't-детализирующие коэффициенты вейвлет-разложения,

обозначает уровень разрешения в смысле кратномасштабного анализа, при котором в качестве коэффициентов при масштабирующих функциях я, можно рассматривать компоненты самого сигнала, т.е. о} i„ - конечный уровень разрешения, достигнутый за р уровней разложения. В результате большое количество коэффициентов имеют нулевые или близкие к нулю значения. Сжатие достигается за счет обнуления малозначимых коэффициентов преобразования относительно определенного порогового значения е. Задача состоит:

1. В выборе оптимального с точки зрения сжатия вейвлет-базиса преобразования

UlMY,

2. В выборе порогового значения е, такого что

(<//, dI > e

3. В разработке схем кодирования обработанных порогом коэффициентов преобразования d{.

В разделе 1.2. проведено исследование модели (1) сигнала. Суть метода исследования состоит в анализе спектральной плотности мощности (СПМ) оцифрованного сигнала. Показано, что представление сигнала в частотной области не будет зависеть от значений начальных фаз исследуемого сигнала.

Спектральное разложение сигнала (1) представлено в виде следующего гармонического ряда:

U(f) = Ret/. ¿^(т.уД«,)..../,^.)«—(6)

где JJ(ml),j^*p,r,...,I,i = l,...,n - функция Бесселя 1-го порядка. Откуда следует, что спектр состоит из бесконечного числа боковых составляющих, как с основными частотами >и0 ±Ю,, 1=1,...,л, к- целое, так и с комбинационными частотами вида ±рС1, ±...±Ю„. При этом амплитуды спектра с частотами модуляции

П ,, П ......О . пропорциональны значениям функций Бесселя первого порядка

Л(,И|)'<М'"А-Л('П.). соответственно. В нижеприведенной таблице представлены параметры спектральных составляющих ряда на частотах, которые, за исключением первой, являются продуктами КС, т.е. комбинационными, суммарными и разностными частотами первого порядка, обусловленными гармоническими составляющими КС.

Амплитуда Частота

С/оГРоК)

»1

1-1 н>, +С1, +С12 +...+ С1,

• • • « • •

Далее изложен алгоритм, позволяющий оценить значения частот КС О, и спектральных составляющих СПМ с,, /=1Суть алгоритма состоит в том, что максимальные составляющие находятся на частотах + С1,, при этом на кратных частотах и',±Ю„ к =2,...,«также находятся боковые составляющие СПМ.

Соотношение амплитуд боковых составляющих на частотах и и<0 ±кп,

будет равно J^^.ml)IJt(ml).

В алгоритме для каждой предполагаемой частоты детонации проводится проверка наличия составляющих СПМ на кратных частотах. Если кратные составляющие существуют и выполнены указанные соотношения амплитуд, то частоты рассматриваемых боковых составляющих принимаются в качестве искомых частот детонации.

N-1 1 N-1

На основании равенства Парсеваля С/2(«Д/) =тг ^ , где £/(Ш) -

л-а Л 1.о

дискретизированный с частотой дискретизации 1/Дг исследуемый сигнал, а Б(к) -составляющие СПМ, т.е. 5{к) = и(к)0'(.к)=ср(к^, где 0 (к) - дискретное преобразование Фурье сигнала, обосновывается формула для определения точных оценок частот П,:

¿¿5(0

«V

£S(¡)

V, (?)

где S(i) - частотные отсчеты спектральных составляющих СПМ сигнала, А/ -частотное разрешение, 2к - количество отсчетов в спешральной составляющей S{k).

На этом же основании выполняются оценки амплитуд искомых

i

спектральных составляющих с, Далее, на основании сопоставления

1—4

полученных оценок с, и £1, с данными из указанной таблицы и с учетом того, что У,(т,)»1, У,(т,)«-^-, т.к. /и, «1, получены формулы для получения оценок коэффициентов КС к,:

к1т=£к,т,ш2& С8)

w0 \с„

В разделе 1.3 изложен метод сжатия речи на основе линейного предсказания (ЛП). Метод основан на модели речеобразования, согласно которой речевой сигнал можно представить в виде сигнала на выходе линейной системы с переменными во времени параметрами, передаточная функция которой имеет следующий вид:

H{Z),0_G (9)

1

i-i

где О, ак,кш\,т,р - параметры модели, р - порядок модели. Во временной области

система представляется разностным уравнением j( л) = ¿ a, í (л - i)+Си (л), где и (л) -

t-i

сигнал возбуждения системы. ЛП применяется для оценки параметров системы по речевому сигналу s(n). Согласно анализу на основе ЛП текущий отсчет речевого

сигнала можно представить линейной комбинацией р предшествующих отсчетов

Г(п) = ¿o(4)í(n-Jt) с ошибкой предсказания е(л) = j(n)-?(n). В предположении, что

а, =2Т, получаем £(z) = S(z)^(z), т.е. фильтр погрешности предсказания А(г) является обратным фильтром для системы H(z) (9).

Считается, что на интервале квазистационарности параметры Я(г) постоянны, поэтому, обрабатывая сигнал окном конечной длительности и выполняя минимизацию среднеквадратичного значения ошибки предсказания, получают

р +1 уравнение с р + 1 неизвестным = Gl = R(0)-^atR(k),

где Л(Л)= + * = 0,1,...,р - кратковременная автокорреляционная

функция. Решение указанных уравнений с использованием алгоритма Левинсона-Дарбина позволяет оценить значения коэффициентов ЛП a,,Jt=l,„.,p и масштабного множителя G.

Согласно данному подходу, входной сигнал модели (сигнал возбуждения) пропорционален погрешности предсказания с коэффициентом пропорциональности G. В методе сжатия речи на основе ЛП в качестве сигнала возбуждения на вокализованном сегменте используется последовательность импульсов с периодом следования обратно пропорциональным частоте основного тона и на невокализованном сегменте - случайный шум. Оценка периода основного тона выполнена посредством применения метода оценивания периода основного тона по кратковременной автокорреляционной функции с использованием центрального ограничения. Для устранения возможных ошибок при оценке траектории основного тона используется медианное сглаживание. Не нулевое значение периода основного тона позволяет классифицировать сегмент речи как вокализированный, в противном случае — как невокализованный.

В разделе 1.4 изложен метод анализа-через-синтез, используемый при компрессии речи. В данном методе для моделирования формантной структуры речевого сигнала к каждому сегменту применяется анализ на основе ЛП. Сигнал возбуждения определяется для каждого блока внутри сегмента (обычно от 40 до 80 отсчетов при Fs = 8 Кгц), т.е. предполагается, что сигнал возбуждения изменяется более часто, чем параметры вокального тракта. Для формирования сигнала возбуждения используются вектора из адаптивной и фиксированной (стохастической) кодовых книг. Адаптивная кодовая книга представляет собой фильтр синтеза основного тона с одним ненулевым коэффициентом (коэффициентом усиления адаптивной кодовой книги) и переменной задержкой, представляющей оценку периода основного тона, (обычно в диапазоне от 20 до 147 отсчетов). Фиксированная кодовая книга состоит из векторов, по длительности

совпадающих с длиной блока и содержащих отсчеты шумового сигнала, распределенного по нормальному закону.

Выбор векторов из кодовых книг осуществляется с помощью процедуры анализа-через-синтез. Суть подхода, состоит в выборе оптимального набора параметров сигнала возбуждения по критерию минимальной энергии ошибки между исходным сегментом речевого сигнала и синтезированным. Таким образом речевой сегмент представляется набором параметров ЛП, индексами и коэффициентами усиления в адаптивной и фиксированной кодовых книгах.

В разделе 1.5 изложен метод сжатия речи на основе ЛП и усеченным возбуждением. Для каждого сегмента речевого сигнала выполняется оценка коэффициентов линейного предсказания. Используя полученные значения в фильтре погрешности предсказания, формируют остаточный сигнал сегмента, который является наилучшим сигналом возбуждения для фильтра вокального тракта. Суть метода состоит в компактном представлении остаточного сигнала. Для этого осуществляется обработка остаточного сигнала ФНЧ с частотой среза 1кГц и с последующим прореживанием в 4 раза. Полученный сигнал кодируется для более компактного представления. При синтезе осуществляется декодирование компактного представления остаточного сигнала с последующей интерполяцией для восстановления исходной частоты дискретизации.

Для полученного сигнала выполняется обработка с целью получения спектральных компонент на частотах выше 1 Кгц. Смысл обработки заключается в копировании основной полосы (I Кгц) на весь оставшийся частотный диапазон остаточного сигнала. Полученный таким образом остаточный сигнал используется для синтеза речевого сегмента.

В разделе 1.6 представлен метод сжатия речи на основе дискретного вейвлет-преобразования (ДВП). Рассмотрены три ключевые момента. Выбор базисных вейвлет-функций и вычисление ДВП речевого сигнала, т.е. представление оцифрованного сигнала в виде (5), т.е. в виде набора коэффициентов усреднения и детализирующих коэффициентов <//. Описаны различные подходы для обнуления малозначимых (близких к нулевому значению) коэффициентов разложения. Глобальный порог е, для всех коэффициентов разложения,

глобальный порог ег только для детализирующих коэффициентов с//. Уровневый

порог только для детализирующих коэффициентов. В результате получаем

наборы коэффициентов разложения для каждого случля: у, ={*/}, у, ={а|',с?4'},

где

Значения порогов выбираются из критерия обнуления наименее значимых коэффициентов и достижения определенного в процентном соотношении числа

О, ¿с,

¿1, ¿¡.а1; > с |

О, <// йе

О, <£,' ¿1, 4>>е{

нулевых коэффициентов в разложении. Для компактного представления выполняется квантование каждого коэффициента до конечного множества значений. Для компактного представления нулевых последовательностей (серий) в наборах V,, I = 1,2,3 разработано несколько схем сжатия нулевых коэффициентов, основанных на методах группового кодирования. В первой схеме серии кодируются набором значений (и,,*,). В п, записывается размер серии, в и>, -первый ненулевой коэффициент, следующий за серией нулей. Во второй схеме серия кодируется кодовым словом, в котором значение старшего бита устанавливается в 1, а в младших битах записывается длина серии. В третьей схеме • в качестве указателя начала серии используется нулевое значение, после которого указывается размер серии. В четвертой схеме описывается подход, согласно которому кодируются значения ненулевых коэффициентов вместе с их позицией в наборе преобразования. В окончательном виде сжатие достигается за счет применения адаптивного алгоритма Хаффмана для кодирования полученного набора значений.

В разделе 1.7 представлен метод компрессии речевых сигналов с использованием ДВП для компактного представления остаточного сигнала при линейном предсказании. Метод является развитием метода на основе ЛП и усеченным возбуждением. Для каждого сегмента речевого сигнала выполняется анализ на основе ЛП для определения коэффициентов предсказания Определяется остаточный сигнал в результате обработки речевого сегмента в

фильтре погрешности предсказания Дг) = 1-]Тв,г"4 . К полученному сигналу

применяется метод сжатия на основе ДВП, описанный в предыдущем разделе.

В главе 2 «Преобразования и анализ звуковой информации для измерения параметров КС и детонации звука на основе компьютерных методов обработки информации» выполнена реализация разработанного в разделе 1.2. метода в виде специального программного обеспечения.

Измерение указанных параметров на основе компьютерных методов обработки предполагает выполнение дискретизации обрабатываемого сигнала. С учетом требований по измерению параметров коэффициентов КС на частотах от 0,2 до 200 Гц обосновывается выбор интервала дискретизации Д/=10 мкс. Для достижения требуемой точности оценок параметров по разработанному методу

2

требуется обрабатывать отсчетов дискретизированного сигнала или около

4 Мб звуковой информации.

Для осуществления возможности проведения измерений параметров в реальном масштабе времени предложено следующее алгоритмическое решение по обработке указанного объема информации, состоящее из следующей последовательности действий: 1. Перенос спектра сигнала на величину несущей частоты Для этого отсчеты сигнала умножаются на экспоненту 2. Для

I осуществления корректной работы по разработанному методу обосновывается необходимость применения низкочастотной фильтрации. Описывается

проектирование низкочастотного фильтра 1'(лД/) = ]Гб(£/((л-0Д') со следующими симметричнымикоэффициентами:

3. В результате обработки, описанной в пп.1,2 получен сигнал с частотой Найквиста равной 200 Гц, что позволяет осуществить децимацию (прореживание) сигнала с коэффициентом 16.

В результате применения описанного алгоритмического подхода объем обрабатываемой информации удалось сократить приблизительно на порядок, что позволило осуществлять обработку сигнала в реальном времени.

В третьей главе описывается реализация методов компрессии речи в виде специального программного обеспечения. Реализация выполнена в системе МайаЬ и представляет собой пакет функций, интегрированных в систему. Пакет включает функции, реализующие методы из разделов 1.3-1.7. В приложениях 1-5 приводится набор этих функций в виде т-файлов для каждого метода компрессии.

Реализация метода компрессии на основе ЛП из раздела 1.3 обоснована использованием в той или иной степени подхода, лежащего в основе данного метода, в других методах компрессии, за исключением метода из раздела 1.6. Реализация метода показывает искусственность воспроизведения восстановленных речевых сигналов, что является следствием большой степени сжатия в 20-25 раз и больше.

Реализация остальных методов выполнена с возможностью варьирования диапазоном значений параметров сжатия, что позволяет получить сопоставимые степени сжатия и скорости передачи речевых сигналов, сжатых этими методами в диапазоне до 7-8 кБит/с.

При реализации метода компрессии на основе ДВП выполнена оптимизация параметров сжатия, заключающаяся в обосновании выбора разрядности кодового слова при кодировании нулевых последовательностей различными схемами кодирования нулей- и применения глобальных и уровневых порогов к коэффициентам преобразования. Показано, что лучшие показатели сжатия получены в результате применения 2 схемы кодирования нулей. Показано, что большая степень сжатия получена в результате применения глобального порога к детализирующим коэффициентам вейвлет-разложения В случае применения уровневого порога большая степень сжатия получена при обнуления малозначимых детализирующих коэффициентов разложения.

Применение адаптивного алгоритма Хаффмана в данном методе компрессии повышает степень сжатия только при обработке больших сегментов речевых сигналов.

Показано преимущество в использовании метода сжатия остаточного сигнала с использованием ДВП (метод из раздела 1.7) по сравнению с подходом, основанном на децимации остаточного сигнала (метод из раздела 1.5).

В диссертации получены следующие основные результаты:

1. Разработан цифровой метод обработки звуковой информации на базе измерения коэффициентов детонации и колебаний скорости носителя магнитной записи и воспроизведения звука, гарантированно обеспечивающий точность измерений указанных параметров не ниже требуемой государственными стандартами.

2. Разработано программное обеспечение системы обработки звуковой информации, позволяющее проводить измерение коэффициентов КС и детонации в реальном масштабе времени, а также визуализацию результатов обработки в современном графическом пользовательском интерфейсе, в режиме интерактивного взаимодействия.

3. Разработан метод компрессии речевых сигналов на основе применения дискретного вейвлет-преобразования, обеспечивающий при невысоких вычислительных затратах сжатие до 8-10 Кбит/с.

4. Разработан метод компрессии речевых сигналов с использованием дискретного вевлет-преобразования для сжатия остаточного сигнала, обеспечивающий увеличение показатели сжатия по сравнению с методами, использующими децимацию и последующее кодирование остаточного сигнала.

6. Разработано программное обеспечение для исследования и оптимизации в интерактивном режиме методов компрессии речевых сигналов по критериям сжатия и воспроизведения.

В целом, полученные результаты позволяют повысить эффективность обработки звуковой информации в задачах измерения коэффициентов КС и детонации, а также эффективность систем компрессии речевых сигналов.

Основное содержание диссертационного исследования отражено в следующих публикациях:

1. Кудряшов М.Ю., Василенко С. И. Цифровой измеритель коэффициентов детонации.// Современное телевидение. Тезисы докладов 6-й научно-технической конференции, Москва, 1998 г., с.62-63.

2. Кудряшов М.Ю., Василенко С. И. Цифровой измеритель колебаний скорости носителя магнитной записи и детонации звукаУ/Современное телевидение. Тезисы докладов 7-й научно-технической конференции, Москва 1617 марта 1999 г., с. 42.

3. Кудряшов М.Ю. Применение программного комплекса МЛТЬЛБ 5.x для исследований в области обработки сигналов и изображений методами вейвлет-анализа.// Современное телевидение. Тезисы докладов 8-й научно-технической конференции, Москва 14-15 марта 2000 г., с. 51-52.

4. Кудряшов М.Ю., Василенко С. И. Цифровой измеритель детонации звука при магнитном способе записи // Техника кино и телевидения. - 2000. - №5-СЛ8-20.

5. Кудряшов М.Ю., Василенко С. И. Сравнительный анализ методов сжатия речевых сигналов.// Современное телевидение. Тезисы докладов 9-й научно-технической конференции, Москва 20-21 марта 2001 г., с.57-58.

6. Кудряшов М.Ю., Василенко С. И. Анализ сигналов и изображений с помощью вейвлет-преобразований.// Современное телевидение. Материалы 10-й научно-технической конференции, Москва 19-20 марта 2002 г., с.68

7. Афанасьев С. Л.,. Василенко СИ., Кудряшов М.Ю., Черемухин А.Г., Черемухин Д.Г., Циклы в природе и в творчестве. Коллективная монография / Отв. ред. Афанасьев С.Л. Раздел 3, с.138-165 - М.: Воентехиниздат, 2002. - 212 с.

8. Василенко СИ., Кудряшов М.Ю., Черемухин А.Г., Черемухин Д.Г. Статья «В ей влет-анализ продуктивности творческих работников», с. 67-106. Методология психологического знания и творчество. Коллективная монография / Под ред. Г.В. Телятникова.-М.: Воентехиниздат, 2002.-154 с.

9. Василенко СИ., Кудряшов М.Ю., Черемухин А.Г., Черемухин Д.Г. Сознание, современного российского общества: Коллективная монография. III раздел. Сознание больших групп в современном российском обществе, § 7. Творческое сознание ученых. Тверь: Лилия Принт, 2002, - 152 с.

10. Кудряшов М.Ю., Василенко СИ. Применение вейвлет-преобразований для выявления скрытых периодичностей во временных рядах.// Современное телевидение. Материалы 11-й научно-технической конференции, Москва, 18-19 марта 2003 г., 2 с.

11. Василенко СИ., Кудряшов М.Ю., Черемухин А.Г., Черемухин Д.Г. Сопоставление дискретного преобразования Фурье и вейвлет-преобразования для спектрального анализа графиков. Современные проблемы психологии труда. Сборник научных трудов // Отв. Ред. А. Ф. Шикун, А. А. Шикун - М.: Воентехиниздат, 2003. - 186 с.

12. Василенко С Л, Кудряшов М.Ю., Черемухин А.Г., Черемухин Д.Г. Спектральный анализ графиков числа Вольфа в 1960-1997 гг. // Биомедицинские технологии и радиоэлектроника. - 2004. - № 1-2, - С. 108-112.

*12668

Подписано к печати 21.05.2004. Формат 60x84 1/16 Бумага типографская. Печать офсетная. Гарнитура «Тайме». Усл.печ.л. 1,0. Уч.-изд.л. 0.8 Тираж 100 экз. Заказ №222 Тверской государственный университет. Адрес: Россия, 170002, г. Тверь.

Оглавление автор диссертации — кандидата технических наук Кудряшов, Максим Юрьевич

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

Актуальность темы.

Цели и научные задачи.

Методы исследования.:.

Положения, выносимые на защиту.

Научная новизна.

Теоретическая значимость.

Практическая значимость.

Достоверность и обоснованность.

Апробация работы.

Публикации.

Структура диссертации.

ГЛАВА 1. СПЕКТРАЛЬНО-ВРЕМЕННЫЕ МЕТОДЫ ОБРАБОТКИ ЗВУКОВОЙ ИНФОРМАЦИИ

1.1. ПОСТАНОВКА ЗАДАЧ НА РАЗРАБОТКУ СПЕКТРАЛЬНО-ВРЕМЕННЫХ МЕТОДОВ И АЛГОРИТМОВ ОБРАБОТКИ ЗВУКОВОЙ ИНФОРМАЦИИ

1.1.1. Обзор по проблеме измерения колебаний скорости носителя и детонации звука в аппаратуре магнитной звукозаписи.

1.1.2. Применение цифровых методов в задачах измерения КС и детонации.

1.1.3. Математическая постановка.

1.1.4. Обзор по проблеме кодирования речевых сигналов.

1.1.5. Применение методов спектрально-временного анализа в задачах сжатия речевых сигналов . 24 1.1.5.1. Сжатие речевых сигналов на основе вейвлет-преобразования.

1.1.6. Математическая постановка задачи.

1.2. МЕТОД ОБРАБОТКИ ЗВУКОВОЙ ИНФОРМАЦИИ ДЛЯ ИЗМЕРЕНИЯ КОЛЕБАНИЙ СКОРОСТИ НОСИТЕЛЯ МАГНИТНОЙ ЗАПИСИ И ДЕТОНАЦИИ ЗВУКА

1.3. МЕТОД ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ В ЗАДАЧАХ СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ

1.3.1. Модель речеобраэования.

1.3.2. ЛП анализ.

1.3.3. Автокорреляционный метод.

1.3.4. Алгоритм Левинсона-Дарбина.

1.3.5. Метод оценки частоты основного тона.

1.4. МЕТОД АНАЛИЗА-ЧЕРЕЗ-СИНТЕЗ В ЗАДАЧАХ СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ

1.4.1. Принципы CELP сжатия.

1.4.2. CELP анализ.

1.4.3. Остаточный сигнал ЛП кодирования.

1.4.4. Взвешивание сигнала ошибки.

1.4.5. Поиск в адаптивной кодовой книге.

1.4.6. Поиск в стохастической кодовой книге.

1.5. МЕТОД КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ И УСЕЧЕННОГО ВОЗБУЖДЕНИЯ

1.5.1. Методы кодирования остаточного сигнала.

1.5.2. Метод RELP.

1.6. МЕТОД СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ДИСКРЕТНОГО ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ

1.6.1. Схема компрессии.

1.6.2. Обнуление малозначимых коэффициентов.

1.6.2.1. Глобальный порог.

1.6.2.2. Уровневьш порог.

1.6.2.3. Кодирование нулевых коэффициентов.

1.7. МЕТОД КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ С ИСПОЛЬЗОВАНИЕМ ДВП ДЛЯ КОДИРОВАНИЯ ОСТАТОЧНОГО СИГНАЛА ПРИ ЛИНЕЙНОМ ПРЕДСКАЗАНИИ

1.7.1. Кодирование остаточного сигнала с помощью вейвлет-преобразования.

1.7.2. Анализ.

1.7.3. Синтез.

ГЛАВА 2. ПРЕОБРАЗОВАНИЯ И АНАЛИЗ ИНФОРМАЦИИ ДЛЯ ИЗМЕРЕНИЯ ПАРАМЕТРОВ КС И ДЕТОНАЦИИ ЗВУКА НА ОСНОВЕ КОМПЬЮТЕРНЫХ МЕТОДОВ ОБРАБОТКИ ИНФОРМАЦИИ.

2.1. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СИСТЕМЫ ОБРАБОТКИ ЗВУКОВОЙ ИНФОРМАЦИИ ДЛЯ ИЗМЕРЕНИЯ КОЭФФИЦИЕНТОВ КС И ДЕТОНАЦИИ

2.2. ОСОБЕННОСТИ РЕАЛИЗАЦИИ МЕТОДОВ ДЛЯ ИЗМЕРЕНИЯ ДЕТОНАЦИИ ЗВУКА ПРИ МАГНИТНОМ СПОСОБЕ ЗАПИСИ СИГНАЛОВ

2.2.1. Выбор параметров оцифровки звукового сигнала.

2.2.2. Предварительная обработка сигнала.

2.2.3. Низкочастотная фильтрация.

2.2.4. Децимация.».

2.2.5. Уточнение несущей частоты

2.3. ХАРАКТЕРИСТИКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ

ГЛАВА 3. КОМПРЕССИЯ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ КОМПЬЮТЕРНЫХ МЕТОДОВ ОБРАБОТКИ

3.1. РЕАЛИЗАЦИЯ МЕТОДОВ ЧАСТОТНО-ВРЕМЕННОГО АНАЛИЗА

3.2. РЕАЛИЗАЦИЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ

3.2.1. Предискажение.

3.2.2. Сегментация.

3.2.3. Анализ.

3.2.4. Квантование параметров.

3.2.5. Синтез.

3.2.6. Характеристики сжатия.

3.3. РЕАЛИЗАЦИЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА АНАЛИЗА-ЧЕРЕЗ-СИНТЕЗ

3.3.1. Анализ.

3.3.2. Синтез.

3.3.3. Стандарт FS1016.

3.4. РЕАЛИЗАЦИЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЛП И УСЕЧЕННОГО ВОЗБУЖДЕНИЯ

3.4.1. Анализ.

3.4.2. Синтез.

3.4.3. Характеристики метода.

3.5. ВЫБОР ОПТИМАЛЬНЫХ ПАРАМЕТРОВ ДЛЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ДВП мм»*мммм**мп мм ммм«»*м«ммммим *•••••<

3.5.1. Реализация метода.

3.5.2. Применение адаптивного алгоритма Хаффмана.

3.5.2. Выбор вейвлета.

3.5.3. Число уровней разложения.

3.5.4. Число двоичных разрядов для квантования коэффициентов разложения.

3.5.5. Выбор количества обнуляемых коэффицентов разложения.

3.5.6. Обнуление коэффициентов усреднения.

3.5.7. Выбор типа порога.

3.5.8. Выбор схемы кодирования нулей

3.6. РЕАЛИЗАЦИЯ МЕТОДА КОМПРЕССИИ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ КОДИРОВАНИЯ ОСТАТОЧНОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ДВП

3.6.1. Анализ.

3.6.2. Синтез.

3.6.3. Характеристики метода.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Кудряшов, Максим Юрьевич

Актуальность темы

В настоящее время обработка аналоговых сигналов с использованием цифровых методов все шире используется для решения множества прикладных задач в связи, измерительной технике, медицине и других областях, в которых прежде доминировали аналоговые системы.

Преимущества цифровых систем обусловлены рядом факторов. Прежде всего, это фактор качества. Аналоговые реализации зачастую не позволяют обеспечить высоких показателей качества передачи и воспроизведения сигнала, а переход на мировые стандарты ужесточает требования, предъявляемые к таким параметрам систем, как помехоустойчивость, точность, быстродействие.

Если раньше основным сдерживающим фактором внедрения методов цифровой обработки было отсутствие требуемой элементной базы, то при современном уровне развития вычислительной техники об этом говорить уже не приходится. Цифровые методы, реализованные на современной элементной базе, находят все большее применение в различных областях обработки данных.

В частности, в задачах обработки звуковых сигналов применение цифровых систем имеет ряд преимуществ по сравнению с аналоговыми методами:

Хорошая стабильность и воспроизводимость. Характеристики цифровых цепей никак не меняются от устройства к устройству, тогда как две аналоговые цепи, например, использующие одни и те же элементы, могут работать по разному:

Отсутствие таких дестабилизирующих факторов, присущих аналоговым устройствам как температурный и временной дрейф, разброс параметров, воздействие наводок и помех. Свойства и характеристики аналоговых цепей, состоящих из резисторов, конденсаторов, диодов и других операционных усилителей, изменяются с температурой. Старение перечисленных деталей также влияет на эксплуатационные качества и работу аналоговых систем обработки.

Гибкость - возможность программной реализации алгоритмов обработки звуковой информации и изменение параметров аппаратуры;

Возможность создание адаптивных систем с перестраиваемой структурой;

Простота настройки и повышение метрологических характеристик без использования трудоемких и прецизионных операций (подгонка образцовых резисторов).

Точность - степень точности определяется количеством используемых разрядов и гарантированно остается неизменной, в отличие от аналоговых цепей, точность результатов которых может меняться очень широко от цепи к цепи;

Цифровые методы позволяют не только повысить метрологические показатели по сравнению с аналоговыми приборами, но и максимально автоматизировать процесс измерения и обработки.

Специальные функции - некоторые специальные функции обработки сигналов могут быть реализованы только цифровыми методами. Аналоговая электроника просто не может выполнять их эффективно.

Указанные преимущества от применения цифровых методов находят свое полное подтверждение в области обработки звуковой информации для измерения параметров звуковых сигналов при их воспроизведении с аппаратуры магнитной записи звука.

Такие параметры, как колебания скорости (КС) и детонация звука являются одними из важнейших характеристик звуковой аппаратуры, определяющих качество звучания фонограммы [14,22].

Колебания скорости возникают из-за не идеальности изготовления элементов лентопротяжного механизма; они, в свою очередь, приводят к появлению паразитной частотной модуляции сигнала - детонации с разной частотой.

Колебания скорости и детонацию измеряют аналоговым прибором -детонометром. В разрабатываемых в последнее время цифровых системах контроля за указанными параметрами измерение КС и детонации также возложено на аналоговую технику [4]. Применение для измерений подобных аналоговых приборов обусловливает ряд существенных недостатков, среди которых основным является невысокая точность измерений.

Эти недостатки можно полностью исключить при использовании цифровых технологий и повысить при этом качество, надежность и достоверность как хранения, так и обработки звуковой информации. Однако, в настоящее время не разработаны необходимые методы и алгоритмы для реализации на ПЭВМ с целью измерения указанных параметров в реальном масштабе времени. Основная трудность состоит в необходимости обработки больших объемов оцифрованных данных звукового сигнала. Поэтому возникает актуальная задача создания специального математического и программного обеспечения обработки звуковой информации во временной и частотной областях для измерения названных параметров в реальном масштабе времени с учетом заданных требований по точности и достоверности, а также по визуализации результатов.

Как уже отмечалось, специальные функции обработки сигналов могут быть реализованы только цифровыми методами. К таким функциям относятся методы сжатия звуковых сигналов.

Сжатие применяется для уменьшения количества бит, используемых для представления данных. Полученное в результате сжатия компактное представление данных эффективно для организации хранения данных с точки зрения уменьшения объема занимаемого пространства на носителях информации.

Сжатие данных, в частности речевых сигналов, позволяет улучшить эффективность использования полосы пропускания канала передачи. При цифровом представлении речевого сигнала считается достаточным рассматривать полосу сигнала до 4000 Гц, следовательно, согласно теореме отсчетов дискретизация сигнала осуществляется с частотой взятия выборок (отсчетов) сигнала равной 8000 Гц [10, 11]. Для получения цифрового, т.е. дискретного по амплитуде и по времени, представления необходимо проквантовать каждый отсчет до конечного множества значений. Для цифрового представления речевого сигнала принято использовать 28 значений амплитуды, т.е. отводить 8 бит на отсчет. Тогда скорость передачи речевого сигнала составит 8000 • 8 = 64000 бит в секунду (бит/сек.). Для передачи данного сигнала требуется канал передачи с широкой полосой пропускания. Также известно, что средства передачи дороги, и в общем случае, чем шире их полоса, тем дороже они стоят. Тогда под эффективностью использования полосы пропускания канала передачи подразумевается передача сигналов с наиболее возможной скоростью по относительно дешевым линиям связ:и (с узкой полосой пропускания).

В результате применения методов сжатия речевых сигналов, реализованных в виде специальных средств кодирования (на входе, перед передачей), а затем декодирования (восстановления на выходе, после передачи) достигается низкая скорость передачи и, следовательно, для передачи требуются более дешевые, доступные средства связи.

Еще одним преимуществом от использования сжатия является уменьшение времени передачи данных. Особенно это актуально при использовании дорогих средств связи, когда за переданный трафик взимается определенная плата. Использование методов сжатия позволяет передать большой объем данных за меньшее время.

Таким образом, компрессия речевых сигналов приводит к удешевлению услуг связи, к возможности создания речевой коммуникации по компьютерным сетям. Кроме того, интерес к системам компрессии возникает в военной области и других ведомствах для обеспечения закрытой связи [9].

Активно развивающаяся в последнее время теория вейвлет-преобразования [3,8,17, 18,21,40,41,43] позволяет применять эффективные с вычислительной точки зрения алгоритмы и методы спектрально-временного анализа для обработки информации во многих областях исследований. В частности, в такой актуальной на сегодняшний день области, как сжатие речевых сигналов.

В большинстве устройств и приложений, реализующих компрессию речи, используются следующие два основных подхода [9]: кодирование формы волны речевого сигнала, позволяющее достичь относительно небольшой степени сжатия, и параметрическое кодирование. Методы параметрического кодирования позволяют достичь достаточно больших степеней сжатия с приемлемым качеством восстановленной речи, однако требуют для своей реализации больших вычислительных затрат.

В настоящий момент не существует стандартов компрессии речи, использующих в той или иной степени методы теории вейвлет-анализа, т.е. спектрально-временных методов обработки информации, особенностями которых является, в частности, и высокая эффективность в вычислительном отношении.

Таким образом, разработка и применение спектрально-временных методов и алгоритмов в задачах обработки звуковых сигналов и компрессии речевых сигналов является актуальной темой исследования и ее выполнение позволит повысить эффективность и качество как систем обработки звуковой информации в области измерения параметров частотно-модулированных сигналов, так и систем компрессии речи в таких областях как речевая справочная служба, Интернет, беспроводная связь.

Цели и научные задачи

Целью работы является разработка математических методов и алгоритмов цифровой обработки звуковой информации для измерения коэффициентов колебаний скорости и детонации, а также компрессии речевых сигналов для их хранения и передачи по каналам с ограниченной полосой пропускания.

Для достижения этой цели в диссертации выполнена разработка метода и программно-реализуемого алгоритма измерения коэффициентов КС носителя магнитной записи и детонации звука в реальном масштабе времени;

- методов компрессии речевых сигналов на основе применения дискретного вейвлет-преобразования;

- программного обеспечения для компрессии речевых сигналов.

Методы исследования

Для решения названных задач использованы методы спектрального анализа, цифровой обработки сигналов, линейного предсказания, сжатия информации дискретного вейвлет-преобразования.

Положения, выносимые на защиту

1. Метод и алгоритм обработки звуковой информации для измерения в реальном масштабе времени параметров КС носителя магнитной записи и детонации звука в аппаратуре звукозаписи и воспроизведения. Метод основан на цифровом спектральном разложении звукового сигнала и оценке параметров частотных составляющих.

2. Программное обеспечение системы обработки звуковых сигналов для проведения измерений коэффициентов КС и детонации в реальном масштабе времени.

3. Методы компрессии речевых сигналов на основе вейвлет-преобразования, обеспечивающие высокое качество их восстановления при малых затратах вычислительного ресурса.

Научная новизна

1. Метод обработки звуковой информации для измерения параметров КС и детонации включает новое алгоритмическое решение, заключающееся в переносе на величину несущей частоты спектра, низкочастотной фильтрации и децимации анализируемого звукового сигнала, что позволяет сократить объем обрабатываемой информации без снижения точности и обеспечить обработку в реальном масштабе времени.

2. Метод компрессии речевых сигналов, в отличие от известных, построен на основе оптимизации параметров сжатия с использованием дискретного вейвлет-преобразования, что обеспечивает варьирование длиной сегментов сигналов и сокращение числа операций, необходимых для их сжатия и воспроизведения.

3. Метод сжатия остаточного сигнала, основанный на использовании вейвлет-преобразования при линейном предсказании речевых сигналов. Метод обеспечивает существенное повышение степени сжатия по сравнению с известными, основанными на децимации остаточного сигнала и последующим его кодированием.

Теоретическая значимость

Теоретическая значимость работы заключается в развитии методов обработки и компрессии звуковой информации, основанном на внедрении вейвлет-анализа, быстрого дискретного вейвлет-преобразования в задачах восстановления и передачи речевых сигналов.

Практическая значимость

Метод обработки звуковой информации для измерения коэффициентов КС и детонации представляет собой определенный вклад в развитие программно-реализуемых методов обработки в реальном масштабе времени на базе измерения параметров частотно-модулированных сигналов и может служить основой для проведения исследований по измерению указанных параметров не только для аппаратуры звукозаписи, но и для аппаратуры видеозаписи и воспроизведения.

Разработанное программное обеспечение системы обработки звуковой информации может быть использовано в такого рода организациях, которые и занимаются эксплуатацией и ремонтом звукозаписывающего и звуковоспроизводящего оборудования, киностудий, студий телевидения и звукозаписи, киноремонтных мастерских, предприятиях, занимающихся производством магнитофонов и звукотехнической аппаратуры.

Методы компрессии речи, основанные на дискретном вейвлет-преобразовании, в силу своей эффективности в вычислительном отношении, могут быть использованы для организации передачи речевой информации по компьютерным сетям, в частности, в Интернет.

Достоверность и обоснованность

Достоверность и обоснованность научных результатов базируются на корректном использовании методов цифровой обработки сигналов и теории вейвлет-анализа. Достоверность измерений коэффициентов КС и детонации обеспечивается математическим обоснованием разработанных методов. Достоверность и обоснованность результатов компрессии речевых сигналов подтверждена проведением вычислительных экспериментов в широком диапазоне условий.

Апробация работы

Приведенные в диссертации результаты представлялись автором на Шестой научно-техн. конференции «Современное телевидение», Москва, 1998 г. Седьмой научно-техн. конференции «Современное телевидение», Москва,

1999 г. Восьмой научно-техн. конференции «Современное телевидение», Москва, 2000 г. XXVI военно-научной конференции, Тверь, 2 ЦНИИ МО РФ,

2000 г. Девятой научно-техн. конференции «Современное телевидение», Москва, 2001 г. Десятой научно-техн. конференции «Современное телевидение», Москва, 2002 г. Одинадцатой научно-техн. конференции «Современное телевидение», Москва, 2003 г.

Публикации

Основные результаты диссертационной работы и отдельные положения опубликованы в двенадцати печатных работах.

Структура диссертации

Диссертация состоит из введения, трех глав, заключения, перечня библиографических источников и приложений. Работа изложена на 145 листах. Перечень библиографических источников включает 77 наименований.

Заключение диссертация на тему "Спектрально-временные методы и алгоритмы обработки звуковой информации"

Заключение

В диссертационной работе были получены следующие основные результаты:

1. Разработан цифровой метод обработки звуковой информации на базе измерения коэффициентов детонации и колебаний скорости носителя магнитной записи и воспроизведения звука, гарантированно обеспечивающий точность измерений указанных параметров не ниже требуемой государственными стандартами.

2. Разработано программное обеспечение системы обработки звуковой информации, позволяющее проводить измерение коэффициентов колебаний скорости и детонации в реальном масштабе времени, а также визуализацию результатов обработки в современном графическом пользовательском интерфейсе, в режиме интерактивного взаимодействия.

3. Разработан метод компрессии речевых сигналов на основе применения дискретного вейвлет-преобразования, обеспечивающий при невысоких вычислительных затратах сжатие до 8-10 Кбит/с.

4. Разработан метод компрессии речевых сигналов с использованием дискретного вейвлет-преобразования для сжатия остаточного сигнала, обеспечивающий увеличение показатели сжатия по сравнению с методами, использующими децимацию и последующее кодирование остаточного сигнала.

6. Разработано программное обеспечение для исследования и оптимизации в интерактивном режиме методов компрессии речевых сигналов по критериям сжатия и воспроизведения.

Программное обеспечение включает помимо реализации методов из пп. 3,4, также реализацию метода компрессии речевых сигналов на основе линейного преобразования, метода компрессии, основанного на подходе анализа-через-синтез, метода компрессии на основе линейного предсказания и усеченного возбуждения.

В целом, полученные результаты позволяют повысить эффективность обработки звуковой информации в задачах измерения коэффициентов колебаний скорости и детонации, а также эффективность систем компрессии речевых сигналов.

Библиография Кудряшов, Максим Юрьевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Андриянов А.В., Шпак И.И. Цифровая обработка информации в измерительных приборах и системах. — Мн.: Высшая школа, 1987.

2. Амосов А.А., Дубинский Ю.А., Копчёнова Н.В. Вычислительные методы для инженеров. М.: Высшая школа, 1994.

3. Астафьева Н. М. Вейвлет-анализ: основы теории и примеры применения /ГУспехи физических наук, 1996, № 11. С .1145 -1170.

4. Белоусов А.А., Бронников В.Л., Недосекова Т.С. Виброакустическое диагностирование механизмов транспортирования ленты кассетных видеомагнитофонов на этапе изготовления и эксплуатации — "Техника кино и телевидения", 1997, №6.

5. Бессчетное Б. А. Детонации и их проявление при воспроизведении звука. — Техника кино и телевидения. 1962, №10 и №11.

6. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео. М.: Диалог-МИФИ, 2002.-384 с.

7. Василенко С. И., Кудряшов М.Ю. Цифровой измеритель детонации звукапри магнитном способе записи // Техника кино и телевидения. 2000. - №51. С. 18-20.

8. Воробьев В. И., Грибунин В.Г. Теория и практика вейвлет-преобразования, ВУС, С-Петербург, 1999, 204 с.

9. Галунов В. И., Викторов А. Б. Аналитический обзор по проблеме кодирования речевых сигналов.

10. Голд Б., Рэйдер Ч. Цифровая обработка сигналов. М.: Сов. радио, 1980.

11. Гольденберг JI.M., Матюшкин Б.Д., Поляк М.Н. Цифровая обработка сигналов: Справочник.—М.: Радио и связь, 1985.

12. Гоноровский И.С., Демин М.П. Радиотехнические цепи и сигналы. — М.: Радио и связь, 1994.

13. Горлач А.А., Минц М.Я., Чижов В.Н. Цифровая обработка сигналов в измерительной технике.— К.:Техшка, 1985.

14. Гитлиц М.В. Магнитная запись сигналов. — М.:Радио и связь, 1981.

15. Гост 13699-74. Запись и воспроизведение информации. Термины и определения.

16. Гост 11948-78. Приборы для измерения коэффициентов детонации,колебания скорости, паразитной амплитудной модуляции и дрейфа скорости аппаратуры для записи и воспроизведения звука. Технические требования. Методы испытаний.

17. Добеши И. Десять лекций по вейвлетам. Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001, 464 с.

18. Дремин И.М., Иванов О.В., Нечитайло В.А. Вейвлеты и их использование. //Успехи физических наук, 2001, №5.С. 465 501.

19. Дьяконов В.П. MATLAB 6: Учебный курс. СПб.: Питер, 2002.

20. Дьяконов В., Круглое В. MATLAB. Математические пакеты расширения MATLAB: Специальный справочник. СПб.: Питер, 2001.

21. Дьяконов В.П. От теории к практике. М.: СОЛОН-Р, - 2002. 448 с.

22. Закс А.С., Клименко Г.К. Измерения в практике звукозаписи. — М.: Искусство, 1981.

23. Залманзон JI.A. Преобразование Фурье, Уолша, Хаара. М.: Наука, 1989.

24. Ишуткин Ю.М. Измерение искажений, вносимых колебаниями скорости, в системах записи сигналов.— "Техника кино и телевидения", 1967, №3.

25. Ишуткин Ю.М. Измерение искажений, в системах записи сигналов.— "Техника кино и телевидения", 1967, №5.

26. Ишуткин Ю.М. Раковский В.В. Измерение в аппаратуре записи и воспроизведения звука кинофильмов. — М.: Искусство, 1985.

27. Ишуткин Ю.М. Новый измеритель коэффициента детонации. — "Техника кино и телевидения", 1964, №2.

28. Картьяну Г. Частотная модуляция, 1961, 578 с.

29. Кей С.М., Марпл СЛ.-мл. Современные методы спектрального анализа.— ТИИЭР, 1981, т. 69, №11, с. 5-51.

30. Кудряшов М.Ю., Василенко С. И. Сравнительный анализ методов сжатия речевых сигналов.// Современное телевидение. Тезисы докладов 9-й научно-технической конференции, Москва 20-21 марта 2001 г., с.57-58.

31. Лауфер М.В. Измерение нестабильности скорости носителя записи.— М.: Связь, 1980.

32. Лауфер М.В., Железняк В.К., Мачульский А.В. Аппаратура для измерения нестабильности скорости движения сигналлогама — "Техника кино и телевидения", 1973, №4, с.25-33.

33. Лебедев Н.Н. Специальные функции и их приложения, Физматгиз, 1963.

34. Левин Л.С. Цифровые системы передачи информации.-М.: Радио и связь, 1982.-216 с.

35. Макс Ж. Методы и техника обработки сигналов при физических измерениях. 4.1 и 2. М.: Мир, 1983.

36. Маркел Дж. Д., Грей А.Х. Линейное предсказание речи. -М.: Радио и связь, 1980, 248 с.

37. Макхол Д. Линейное предсказание: Обзор. // ТИИЭР, 1975, т. 63, №4. Де Бор К.

38. Макхоул Д.,Рукос С.,Гиш Г. Векторное квантование при кодировании речи //ТИИЭР,т.73,№11,1985.С.19 -61.

39. Марпл-мл. С.Л. Цифровой спектральный анализ и его приложения / Пер. с англ. М.:Мир, 1990.

40. Новиков Л. В. Основы вейвлет-анализа сигналов. Учебное пособие. С-Петербург, 1999. 152 с.

41. Новиков И.Я. Стечкин С.Б. Основные конструкции всплесков, Фундаментальная и прикладная математика, т.З, вып. 4. 1997.

42. Нуссбаумер Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток: Пер. с.англ. М.: Радио и связь, 1985. - 248 с.

43. Переберин А.В. О систематизации вейвлет-преобразований. Вычислительные методы и программирование. Том 2, 2001.

44. Применения цифровой обработки сигналов: Пер. с англ. / Под ред. Э. Оппенгейма. М.: Мир, 1980. - 552 с.

45. Прэтт У. Цифровая обработка изображений, М.: Мир, 1982, 790 с.

46. Проблемы магнитной записи. М.,1975.

47. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. — М.:Мир, 1978.

48. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов, М.: Радио и связь, 1981. 496 с.

49. Рудаков П. И., Сафонов И. В. Обработка сигналов и изображений. MATLAB 5.x. ДИАЛОГ-МИФИ, 2000. 416 с.

50. Сиберт У.М. Цепи, сигналы, системы: В 2 ч. / Пер. с англ. М.: Мир, 1988.

51. Сергиенко А. Б. Цифровая обработка сигналов. СПб.: Питер, 2002. 608 с.

52. Толстое Г.П. Ряды Фурье. М.: Наука, 1980. 381 с.

53. Трахтман A.M. Введение в обобщенную спектральную теорию сигналов. М.: Сов. радио, 1972. 351 с.

54. Френке Л. Теория сигналов. М.: Сов. радио, 1974. 343 с.

55. Хемминг Р.В. Цифровые фильтры.— М.: Сов. радио, 1980.

56. J. Campbell, Т.Е. Tremain, V. Welch, "The Proposed Federal Standard 1016 4800 bps Voice Coder: CELP," Speech Technology, pp. 58-64, April 1990.

57. Federal Standard 1016, Telecommunications: Analog to Digital Conversion of Radio Voice By 4800 Bit/Second Code Excited Linear Prediction (CELP), National Communication System Office Technology and Standards, Feb. 1991.

58. Federal Standard 1015, Telecommunications: Analog to Digital Conversion of Radio Voice By 2400 Bit/Second Linear Predictive Coding, National Communication System Office Technology and Standards, Nov. 1984.

59. Т.Е. Tremain, "The Government Standard Linear Predictive Coding Algorithm: LPC-10," Speech Technology, pp. 40-49, April 1982.

60. J. Makhoul et al, "A mixed-source model for speech compression and Synthesis," Acoustical Society of America, pp. vol. 64, pp. 1577-1581, Dec. 1978.

61. McCree and T. Barnwell III, "Implementation and Evaluation of a 2400 BPS Mixed Excitation LPC Vocoder," p. II-159, Proc. ICASSP-93, Minneapolis, April 1993.

62. A 2.4 kbit/s MELP coder candidate for the new U.S. Federal Standard, McCree et al, ICASSP 96, pp. 200-203, Atlanta, May 1996

63. Criteria for the DoD 2400 BPS Vocoder Selection, M.A. Kohler et al, ICASSP 96, p. 1161, Atlanta, May 96

64. W.D. Voiers, "Diagnostic Acceptability Measure for Speech Communications Systems,"Proc. ICASSP-77, p. 204, May 1977.

65. G. Fairbanks, "Test of Phonemic Differentiation: The Rhyme Test," J. Acoust. Soc. Am.yol. 30, p. 596-600, 1958.

66. R. Kubichek, "Standards and Technology Issues in Objective Voice Quality Assessment," Digital Signal Processing: A Review Journal, pp. 38-44, DSP 1, April 1991.

67. Peter Kroon and W. Bastiaan Kleijn.-Linear Predictive Analysis by Synthesis Coding Modern Methods of Speech Prossesing. Kluwer Academic Publishers, New York, 1995.

68. Noll A. M. "Cepstrum Pitch Determination". Journal of the Acoustical Society of America, vol. 14, pp. 293-309, 1967.

69. M. H. Johnson and A. Alwan, "Speech Coding: Fundamentals and Applications", to appear as a chapter in the Encyclopedia of Telecommunications, Wiley, December 2002.

70. J.R Deller, J.G. Proakis and F.H.L. Hansen, "Discrete-Time Processing of Speech Signals", IEEE Press, p. 480, (2000).

71. K. Un and D.T. Magill, "The Residual-Excited Linear Prediction Vocoder with Transmission Rate below 9.6 kbits/s," IEEE Trans. COM-23(12), p. 1466, Dec. 1975.

72. S. R. Quackenbush, T. P. Barnwell, and M. A. Clements, Objective Measures of Speech Quality. Prentice Hall Advanced Reference Series, Englewood Cliffs, NJ, 1988, ISBN: 0-13-629056-6.

73. P. E. Papamichalis, Practical Approaches to Speech Coding, Prentice-Hall, Englewood Cliffs, NJ, 1987. ISBN: 0-13-689019-9. (see pages 179-181).75. "Vector Quantization and Signal Compression", A. Gersho and R. M. Gray (Kluwer Pub.1992)

74. M. Nelson. The Data Compression Book. M.I.T. Publication Inc., 1992.

75. W. Kinsner and A. Langi, Speech and Image Signal Compression with Wavelets,1. IEEE Wescanex Conference Proceedings, IEEE, New York, NY, 1993, pp. 368-375