автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы и алгоритмы векторно-разностного кодирования цифровых аудиосигналов

кандидата технических наук
Раххал Махмуд
город
Санкт-Петербург
год
2003
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и алгоритмы векторно-разностного кодирования цифровых аудиосигналов»

Оглавление автор диссертации — кандидата технических наук Раххал Махмуд

Содержание.

Введение.

Раздел 1. Анализ существующих методов компрессии звуковых сигналов.

Раздел 2. Математические модели и алгоритмы в схемах векторно-разностного кодирование звуковых сигналов.

2.1 Векторно-разностное кодирование с двухуровневым квантованием.

2.2 ВР-кодирование с многоуровневым квантованием.

2.3 Математические модели многоканального линейного предсказания в схемах ВР-кодирования.

2.4 Быстрые алгоритмы решения систем линейных уравнений при кодировании звуковых сигналов с многоканальным линейным предсказанием.

С Раздел 3. Быстрые алгоритмы вычисления автокорреляционных функций звуковых.

3.1 Быстрые алгоритмы АКФ на основе циклических матриц.

3.2 Алгоритмы вычисления АКФ на основе моделей спектральной плотности-мощности через БПХ.

3.3 Алгоритмы вычисления АКФ через функции среднего значения разности.

3.4 Прямые алгоритмы вычисления АКФ с сокращенным количеством умножений.

3.5 Быстрые алгоритмы вычисления АКФ на основе полиномиальных моделей.

Раздел 4. Быстрая классификация звуковых сигналов при

ВР-кодировании.

4.1. Классификация звуковых сигналов на основе функций кратковременной энергии и функций кратковременного среднего значения сигнала.

4.2. Определения величины периода звуковых сигналов через

АКФ и ФСР.

Раздел 5. Практические применения BP методов кодирования аудиосигналов.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Раххал Махмуд

Актуальность темы диссертации

Методы сжатия звуковых сигналов играют важную роль в цифровых мультимедийных приложениях, при организации голосовой связи, в компьютерных системах обучения и во многих других применениях компьютерных средств для управления и обработки информации.

В мультимедийных приложениях компьютерные средства сжатия аудио и видео данных нашли применение по трем главным причинам:

- большой объем мультимедийных данных;

- сравнительно медленные сохраняющие устройства или программы, которые не могут проигрывать мультимедийные данные в реальном времени;

- недостаточно высокая пропускная способность вычислительной сети, чтобы осуществлять передачу в реальном времени.

Широкое применение методы сжатия аудио и видеоданных нашли в системах компьютерного обучения с озвученным сопровождением экранной информации. Особенно это касается проблемы создания системы открытого образования [1,2,3], обеспечивающей доступ к образовательным ресурсам посредством применения информационных образовательных технологий дистанционного обучения, реализуемых на вычислительных сетях [2]. Одной из актуальных задач, решаемых в системах дистанционного обучения, является оперативное создание учебно-методических материалов по избранной дисциплине и теме обучения [4].

Традиционные технологии подготовки компьютерных учебно-методических материалов включают рутинную процедуру формирования и редактирования текстовой, графической и другой информации с помощью соответствующих программ-редакторов. Это приводит к повышенным временным и финансовым издержкам. Существуют [4] более прогрессивные технологии оперативной подготовки учебно-методических материалов в компьютерных системах обучения, которые основаны на вводе экранной информации с помощью сканера, а звуковой информации с помощью микрофона. В этом случае важную роль играют выбранные методы сжатия аудио и видеоинформации, поскольку объем таких данных без сжатия может быть регламентирован объемом предоставляемой оперативной и внешней памятью компьютера.

Важную роль играют методы сжатия при передаче звуковых сигналов по цифровым каналам связи в вычислительных сетях [5,6].

Для организации голосовой связи необходимо определить объем информации, передаваемый в единицу времени (количество бит/сек), потому что требуемая скорость передачи определяет многие качественные характеристики: стоимость и качество предоставляемых пользователю услуг, стоимость и конструктивные размеры абонентской аппаратуры, емкость сети передачи данных и др.

Следует заметить, что голосовая связь получила широкое применение в современном бизнесе. Постоянное общение с клиентами, дилерами, поставщиками требует постоянной и надежной связи между различными филиалами и центральным офисом. При этом рынки сбыта распространяются на различные страны и континенты. Географический масштаб компаний подчас настолько велик, что затраты на обеспечение связи составляют значительную долю в себестоимости продукции.

Информационные потоки в пределах компаний включают телефонные переговоры, факсимильную информацию и обмен данными. Очевидно, что для меньшего информационного потока требуется канал связи с меньшей пропускной способностью (скоростью передачи информации в условиях шумов), и следовательно потребуются меньшие затраты на обеспечение связи. Снизить требуемую пропускную способность можно за счет применения различных методов кодирования — сжатия информации и методов ее уплотнения (исключения «простоев» в линиях связи).

В современных устройствах реализованы различные алгоритмы кодирования речевых сигналов, рекомендованные Международным союзом электросвязи для конкретных скоростей передачи данных (стандарты кодирования речи)[7,8,9,10], а также алгоритмы для кодеков стандартных сетей передачи данных (GSM, Inmarsat) и национальные стандартные алгоритмы (стандарт США на скорость 4,8 Кбит/сек).

В настоящее время появляются новые конфигурации систем передачи данных на базе разнородного оборудования. Это объясняется появлением частных сетей и сетей передачи данных, специализированных на передачи речи. При создании таких сетей [11,12] возникает задача согласования компонентов оборудования для заданных схем организации связи — задача оптимизации по различным критериям - цене, набору «высоких технологий», компактности программно-аппаратных средств, удобству эксплуатации и др.

При создании кодирующих устройств пользуются такими критериями, как скорость цифрового потока, качество восстановленного (декодированного) сигнала, сложность кодирования и коммуникационные задержки.

Скорость цифрового потока определяется частотой дискретизации аналогового звукового сигнала. Например, для голосовых сигналов с частотой не превышающей 3400 Гц используется частота дискретизации 8 КГц. При этом на качество воспроизведения оцифрованного сигнала влияет количество уровней квантования, определяемое числом бит в представлении отсчетов сигнала - цифровым кодом. Так при использовании 8-битового цифрового кода и при частоте дискретизации 8 КГц скорость цифрового потока равна 64 Кбит/сек. В этом случае гарантируется качество речи аналогового телефонного сигнала, но из-за ограниченности общей ширины полосы канала, необходимо снижать скорость цифрового потока. Для этого используются алгоритмы сжатия речевых сигналов, основанные на математических моделях цифровых фильтров, квантизаторов, предсказателей и др. Сжатие ИКМ-сигнала заключается в нахождении более эффективного способа его передачи по каналу связи - уменьшении скорости цифрового потока при сохранении заданного качества восстановленного на приемной стороне речевого сигнала. Оценка качества восстановленного сигнала обычно осуществляется по субъективному восприятию речи - средняя субъективная оценка, измеряемая по пятибалльной шкале.

Сложность кодирования звуковых сигналов зависит от сложности реализуемых алгоритмов сжатия и от ограничений, накладываемых на скоростные характеристики. Достижения в технологиях DSP позволяют реализовать сложные алгоритмы компрессии речевых сигналов, в том числе в однокристальных микросхемах [13,14]. Чаще всего критериями качества кодирующих устройств выступает стоимость, потребляемая мощность и конструктивные размеры.

Временные задержки в кодере и декодере также зависят от сложности реализуемых алгоритмов сжатия звуковых сигналов. В широковещательных аудио и видео приложениях временные задержки не имеют большого значения, но при работе по телефонному каналу общая задержка ограничена величиной 350-400 мс. В реальных цифровых каналах задержки составляют от 125 мкс в линиях ИКМ на 64 Кбит/с, и до 100 мс в некоторых узкополосных системах.

Существующие методы сжатия звуковых сигналов, которые нашли наибольшее практическое применение можно классифицировать следующим образом [15,16,17,18,19]:

• кодирование формы сигналов,

• подполосное кодирование,

• кодирование через ортогональные преобразования.

Кодирование формы сигналов подразделяется на вокодерные [20] и разностные алгоритмы [16], которые в свою очередь могут быть использованы совместно с алгоритмами с линейным, в том числе с адаптивным предсказанием [21,22] и алгоритмы с векторным квантованием (CELP-алгоритмы) [23,24,25].

В работах [26,27] был предложен метод векторно-разностного кодирования речевых сигналов, математическими моделями которого служат векторно-разностные уравнения.

Согласно работам [15,17,19] экспериментальные исследования, проведенные по помехоустойчивости, по коэффициенту сжатия и качеству воспроизведенной речи к лучшим относятся алгоритмы с адаптивным предсказанием и алгоритмы с векторным квантованием (CELP).

Методы ВР-кодирования можно рассматривать как один из способов обобщения алгоритмов с адаптивным предсказанием и CELP-алгоритмов.

Предметом исследований в диссертационной работе являются методы векторно-разностного кодирования звуковых сигналов с многоканальным линейным предсказанием, быстрые алгоритмы вычисления автокорреляционных функций, сверток и решения систем линейных уравнений, заданных через теплицеву автокорреляционную матрицу.

Целью исследования является разработка методов и алгоритмов векторно-разностного кодирования на основе моделей линейных многоканальных систем и быстрых алгоритмов построения автокорреляционных матриц и решения заданных через них систем линейных уравнений,

В соответствии с поставленной целью в диссертации решались следующие задачи;

1. разработка методов векторно-разностного кодирования на основе моделей многоканальных линейных систем;

2. разработка быстрых алгоритмов вычисления автокорреляционных функций цифровых аудиосигналов;

3. разработка быстрых алгоритмов классификации аудиосигналов в методах ВР-кодирования;

4. разработка программных моделей для экспериментальных исследований;

5. разработка практических применений методов и быстрых алгоритмов ВР-кодирования.

Научная новизна. В результате выполненных исследований предложены новые методы векторно-разностного кодирования на основе многоканальных линейных систем, которые являются более теоретически обоснованными и обобщенными по сравнению с известными методами сжатия звуковых сигналов с векторным квантованием.

Предложены быстрые алгоритмы построения автокорреляционных матриц на основе функций средних значений разностей, у которых количество арифметических операций значительно меньше других быстрых алгоритмов.

Предложены быстрые алгоритмы определения величины периода основного тона речевых сигналов на основе функций среднего значения разностей.

Предложенные быстрые алгоритмы вычисления АКФ и классификации позволят создавать новые алгоритмы ВР-кодирования и повысить быстродействие известных алгоритмов сжатия аудиосигналов с линейным предсказанием.

Практическая ценность результатов исследований заключается в том, что математические модели и алгоритмы с помощью программных моделей апробированы на реальных аудиосигналах с различными параметрами.

Основные научные положения и результаты, выносимые на защиту :

1. Методы и быстрые алгоритмы ВР-кодирования с многоканальным линейным предсказанием.

2. Математические модели алгоритмов для вычисления автокорреляционных функций через быстрое преобразование Фурье, Хартли и функции среднего значения разности.

3. Математические и программные модели для быстрой классификации типов и определения параметров звуковых сигналов.

Апробация работы. По результатам диссертационной работы опубликована одна статья в сборнике трудов СПбГПУ и два доклада в сборнике трудов Всероссийской конференции.

Внедрение результатов.

1. Комплекс программ моделирования ВР-методов сжатия аудиосигналов (СПБГПУ).

Информационно-справочная система с речевым сопровождением (Туристическая фирма).

Компьютерная обучающая система с речевым сопровождением (СПБГПУ, СПБГЭТУ).

Заключение диссертация на тему "Методы и алгоритмы векторно-разностного кодирования цифровых аудиосигналов"

ЗАКЛЮЧЕНИЕ

1. Разработаны методы векторно-разностного кодирования с многоканальным линейным предсказанием, позволяющие использовать внутри и межвекторную корреляцию отсчетов кодируемого цифрового звукового сигнала.

2. Предлагаемые методы относятся к классу наиболее перспективных методов кодирования формы звуковых сигналов наряду с известными алгоритмами векторного квантования (CELP) и алгоритмами с долго и краткосрочным предсказанием. В отличие от указанных алгоритмов для ВР-кодирования разработанные математические модели на основе многоканальных линейных систем в форме векторно-матричных разностных уравнений.

3. Разработаны быстрые алгоритмы вычисления АКФ через БПХ и ФСР. Компьютерными моделями показано, что оценки предложенных дополненных до шах значения нормированные ФСР совпадают со смещенными оценками нормированных апериодических АКФ, используемых для построения автокорреляционных матриц.

4. Разработаны математические и программные модели для алгоритмов определения величины периода основного тона вокализованных фрагментов звуковых сигналов через быстрые алгоритмы функций среднего значения разности, позволяющие сократить количество арифметических операций в несколько раз при сохранении требуемой точности оцениваемого периода.

5. Разработанные математические модели нашли практическое применение в компьютерных обучающих программах, например для анализа цифровых звуковых сигналов с помощью быстрых алгоритмов АКФ и ФСР.

Библиография Раххал Махмуд, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Кривошеее А. Разработка и использование компьютерных обучающих программ // Информационные технологии, 1996, №2. С. 12-20.

2. Малышев Ю.А., Нежурина М.И., Шатровский В.А. Технологии представления учебных курсов для дистанционной формы обучения в среде www // Информационные технологии, 1997, № 6. С. 39-42.

3. Башмаков А. И., Башмаков И.А. Технология и инструментальные средства проектирования компьютерных тренажерно-обучающих комплексов для профессиональной подготовки и повышения квалификации // Информационные технологии, 1998, № 6, № 7. С. 42-44.

4. Дистанционное образование eLearning Office 3000, http ://www.hypermethod.ru

5. В. Atal, V. Cuperman, and A. Gersho, Speech and Audio Coding for Wireless and Network Applications, Kluwer Ac. Publ., 1993, http://www.data-compression.com/speech.html

6. B. Gold, "Digital Speech Networks," Proc. IEEE, No. 12, Dec. 1977, pp. 16361658.

7. CCITT Recommendation G.721,"32kb/s Adaptive Differential Pulse Code Modulation (ADPCM)," Blue Book, Vol. Ill, Fascicle III.3, Oct. 1988.

8. CCITT Recommendation G.722,"7 KHz Audio Coding within 64 kbits/s" / Blue Book, Vol.111, Fascicle III, Oct. 1988. http://www.openh323.org

9. Salaho M. N. Digital communication engineering. University of Aleppo, 2000. 454 p.

10. CCITT Draft Recommendation G.728,"Coding of Speech at 16 kbit/s Using Low-Delay Code Excited Linear Prediction (LD-CELP)," 1992.

11. IEEE Communications Magazine, "Speech Processing and Applications," IEEE Com. Mag., Vol. 28(1), Jan. 1990.

12. IEEE Communications Magazine, "Speech Processing," IEEE Com. Mag., Vol. 31(11), Nov. 1993. http://ieeexplore.ieee.org

13. Солонина А, Улахович Д., Яковлев JI. Алгоритмы и процессоры цифровой обработки сигналов. СПб.: изд-во БХВ-Петербург, 2001,464 с.

14. Смирнов А.В. Основы цифрового телевидения. М.: Горячая линия -Телеком, 2001,224 с.15.3юко А.Г., Банкет В.Л., Лехан В.Ю. Методы низкоскоростного кодирования при цифровой передачи речи. М.: Зарубежная радиоэлектроника, 1986. № 11. С. 53-69.

15. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов. — М.: Радио и связь. -1983, 496 с.

16. П.Брауде-Золотарев Ю. Сжатие речи // Компьютерра, 1999, №15 (293), http://www.computerra.ru

17. Yen Pan D. Digital Audio Compression. Digital Technical Journal. Vol. 5. -No. 2, Spring 1993, 14 c.

18. Digital Technical Journal Vol. 5 No. 2, Spring 1993, http://ftp.digital.com

19. Yen Pan D. Digital Audio Compression. Digital Technical Journal. — Vol. 5. -No. 2, Spring 1993.

20. P. Chang, R. Gray, J. May, "Fourier Transform Vector Quantization for Speech Coding,'"IEEE Trans. СОМ-35(Ю), Oct. 1987, p. 1059.

21. B. Atal, "Predictive Coding of Speech at Low Bit Rates," ШЕЕ Trans. COM-30, No. 4, April 1982, p. 600.

22. S. Dimolitsas et al, "Use of Low-Delay CELP Technology in Circuit Multiplexed Networks,"Proc. ICASSP-93, Minneapolis, April 1993, p. 608.

23. H. Abut, Editor, "Vector Quantization," IEEE Press, 1990.

24. J. Chen and A. Gersho, "Real Time Vector APC speech coding at 4800 bps with adaptive postfiltering," Proc. ICASSP-87, 1987, pp. 2185-2188.

25. Гагарин Ю.И., Гагарин К.Ю. Быстрое векторно-разностное кодирование в интеллектуальных системах // Тезисы докладов 2-го международного симпозиума «Интеллектуальные системы», С.-П., 3-4 июля 1996. С. 120.

26. Гагарин К.Ю. Быстрые алгоритмы векторно-разностного кодирования речевых сигналов // Сб. науч. тр. СПбГПУ, №457, 1995. С.84.

27. Марпл СЛ. Цифровой спектральный анализ и его приложения. М.: Мир.-1990, 584 с.

28. Хорн Р., Джонсон Ч. Матричный анализ. М.: Мир, 1989, 655 с.

29. Отнес Р., Эноксон JI. Прикладной анализ временных рядов. М.: Мир, 1982, 428 с.

30. Бендам Дж., Пирсол А. прикладной анализ случайных данных. М.: Мир, 1989,420 с.

31. Воеводин В.В., Тыртыпшиков Е.Е. Вычислительные процессы с теплицевыми матрицами. М.: Наука, 1987.

32. Михайлуца К. Т., Ушаков В.Н., Чернышев Е.Э. Процессоры сигналов авиационно-космических радиосистем. С.-Пб, Радиоавионика, 1997.

33. Блейхут Р. Быстрые алгоритмы цифровой обработки сигналов. М.: Мир, 1989,448 с.

34. Prakash S., Rao V.V. On the computation of autocorrelation using polynomial transforms // IEEE Trans. ASSP, vol. ASSP-32, No. 2,1984, p. 448.

35. Власенко B.A., Лапла Ю.М., Ярославский Л.П. Методы синтеза быстрых алгоритмов свертки и спектрального анализа сигналов. М.: Наука, 1990, 180 с.

36. Макклеллан Дж., Рейдер Ч. Применение теории чисел в цифровой обработке сигналов. -М.: Радио и связь, 1983.

37. P. Duhamel and М. Vetterli, "Improved Fourier and Hartley algorithms with application to cyclic convolution of real data," IEEE Transactions on Acoustics, Speech, Signal Processing, vol. 35, June 1987, pp. 818-824.

38. Гагарин Ю.И. Математические модели и алгоритмы быстрых ортогональных преобразований. СПб.: Изд-во СПбГТУ, 1999, 100 с.

39. Bracewell R.N. Discrete Hartley transform. New York: Oxford Unit Press, 1988.

40. Нуссбаумер Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток. М.: Радио и связь, 1985. 248 с.

41. Nakajima Y., Lu Y., Yoneyama A., Yanagihama H., Kirematsu A. A fast classification from MPEG coded data. University of Electro-Communications 15-1, Chofugaoka, Chofu, Tokyo, 182-8585 Japan.

42. G. J. Conklin, G. S. Greenbaum, К. O. Lillevold, A. F. Lippman, and Y. A. Reznik, Video coding for streaming media delivery on the Internet" // IEEE Trans, on Circuits and Systems for Video Technology, vol. 11, no. 3, March. 2001, pp. 269-281.