Эффект нелинейной компрессии аудиоинформации; фундаментальные основания и подходы к реализации

Гарбузов, Богдан Владимирович

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Эффект нелинейной компрессии аудиоинформации; фундаментальные основания и подходы к реализации

кандидата физико-математических наук: Гарбузов, Богдан Владимирович
город: Москва
год: 2001
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Эффект нелинейной компрессии аудиоинформации; фундаментальные основания и подходы к реализации»

Оглавление автор диссертации — кандидата физико-математических наук Гарбузов, Богдан Владимирович

Введение

1 Модели акустических систем и процессов

1.1 Источники, приемники и передатчики звука

1.2 Нелинейность и стохастичность в колебательных системах.

2 Моделирование системы речеобразования

2.1 Акустическая фонетика.

2.2 Кинематика и динамика артикуляторных органов.

2.3 Акустика речевого тракта

2.4 Нестационарные и параметрические явления.

2.5 Простейшая интерпретация системы речеобразования.

2.6 Модель одной однородной акустической трубы

2.7 Моделирование возбуждения звуков в голосовом тракте.

2.8 Модель из нескольких акустических труб

2.9 Общая дискретная модель речеобразования.

3 Моделирование системы слухового восприятия

3.1 Восприятие по частоте

3.2 Восприятие по амплитуде.

3.3 Временные характеристики слуха.

3.4 Восприятие импульсов

3.5 Нелинейные свойства слуха.

3.6 Бинауральный эффект.

4 Моделирование источников мелодических колебаний

4.1 Музыкальные ноты.

4.2 Струны.

4.3 Стержни .:

4.4 Мембраны и пластинки.

4.5 Резонаторы и трубы.

5 Моделирование среды передачи/хранения аудиоинформации

5.1 Нелинейные звуковые волны в среде.

5.2 Теория систем связи.

6 Основные методы аудиокомпрессии

6.1 Импульсно-кодовая модуляция (РСМ)

6.2 Клиппирование.

6.3 Линейное предсказание.

6.4 GSM.

6.5 MPEG.

6.6 MIDI.

7 Эффект нелинейной аудиокомпрессии

7.1 Теоретические предпосылки и основания эффекта.

7.2 Быстрое скользящее преобразование Фурье.

7.3 Подходы к реализации систем нелинейной аудиокомпрессии.

7.4 Практические результаты.

Введение 2001 год, диссертация по информатике, вычислительной технике и управлению, Гарбузов, Богдан Владимирович

Существует расхожее мнение, что лучше один раз увидеть, чем сто раз услышать. Однако это справедливо далеко не всегда. Бывают случаи, когда нужно именно слушать. Легко догадаться, что речь идет о музыке. Впрочем, и обычная речь с этой точки зрения тоже не является исключением.

Из пяти, имеющихся у человека органов чувственного восприятия действительности, слух и зрение являются самыми важными. Многообразие звуков, окружающих нас, порождается самыми разнообразными объектами, процессами или явлениями. В конечном же счете все они сводятся к простым механическим колебаниям мембраны человеческого уха. Весь процесс порождения, распространения и восприятия звуков можно изобразить на схеме (рис. 1). В дальнейшем для удобства изложения будем называть этот процесс акустическим.

Рис. 1: Обобщенная схема акустического процесса

Таким образом, в рамках акустического процесса легко выделить три основных элемента — источник, передатчик и приемник. Источником может служить какой-нибудь музыкальный инструмент, передатчиком — помещение концертного зала и воздух в нем, приемником — слушатель, сидящий в первом ряду. Музыкант легкими движениями смычка возбуждает колебания струн скрипки. Струны передают свои колебания поверхности резонансной полости скрипки, та, в свою очередь, — окружающему воздуху А (рис. 1). Звуковая волна распространяется, заполняя все помещение, отражаясь от стен, пола и потолка. Возникающие колебания звукового давления оказывают влияние на колебания струн посредством резонансной полости скрипки С (рис. 1) и заставляют колебаться чувствительные мембраны в ушах слушателя В (рис. 1), порождая электрические импульсы, поступающие в мозг, где происходит их восприятие и анализ. Слушатель приходит в восторг и начинает ап-плодировать, воодушевляя тем самым музыканта D (рис. 1). Обычно обратными связями С и D пренебрегают, считая их влияние незначительным, хотя в действительности это совсем не так, ведь музыкант одновременно является и слушателем. Правда, история знает и исключения, например, замечательный немецкий композитор Людвиг Ван Бетховен был глухим.

Развитие аудиоаппаратуры и акустических технологий — это непрерывная борьба компромиссов. С одной стороны стоят технологические ограничения, обусловленные текущим уровнем развития научно-технического прогресса, с другой — желание достичь совершенно идеального звучания. В этой борьбе побеждает тот, кто использует самые передовые научные достижения, как, например, происходит в США или в Японии, но, к сожалению, — не в России.

Представляют интерес данные по патентам наиболее известных фирм, занимающихся исследованиями в области обработки звука и аудиокомпрессии. Были проанализированы патенты, выданные в 1998 году. Так, например, Dolby Laboratories Licensing Corporation за указанный период времени было подано всего 66 патентов, из которых лишь 3 так или иначе связаны с проблемой сжатия звуковых данных. Sony Corporation было подано 1690 патентов из которых 22 были связаны с рассматриваемой тематикой. Philips Corporation подала 996 патентов и лишь 1 интересующей тематики. Fraunhofer Gesellschaft zur Forderung der Angewanten подано 8 патентов, причем 2 из них интересующей тематики. Sumsung Electronics Co., Ltd. — всего 1485 патентов, из них по рассматриваемой тематике — 4.

К сожалению, Россия в настоящее время уже не относится к числу технологически развитых стран. Во многом по этой причине целесообразность патентования изобретений в области высоких технологий в нашей стране крайне сомнительна. Это положение подтверждается теми патентами, которые зарегистрированы в России и имеют некоторое отношение к теме настоящей диссертационной работы. Удалось обнаружить лишь несколько таких патентов, например, RU2119259 от 31.12.98 «Способ сокращения числа данных при передаче и/или накоплении цифровых сигналов, поступающих из нескольких взаимосвязанных каналов» [2] и RU2090973 от 17.12.97 «Способ кодирования сигналов» [1]. Примечательно, что первый из этих патентов подан Юргеном Херре, Дитером Зайтцером, Карлом-Хайнцем Бранденбур-гом и Эрнстом Эберлайном из Fraunhofer Gesellschaft zur Forderung der Angewanten, а второй подан Кензо Акагири из Sony Corporation. С некоторой натяжкой сюда же можно отнести патент RU2107951 «Способ сжатия речевого сигнала путем кодирования с переменной скоростью и устройство для его осуществления, кодер и декодер», поданный Полом Джейкобсом, "Уильямом Гарднером, Чонгом Ли, Клайном Гилхаузеном, Кэтрин Лэм и Минг-Чанг-Цай из Колкомм Инкорпорейтед.

Параллельно было проведено исследование американских патентов, так или иначе связанных с обработкой звуковых сигналов и, в частности, сжатием аудиоинформации за период с 1980 по 1998 год. Оказалось, что за это время подано около 87000 патентов соответствующей тематики. Результаты исследования иллюстрирует график (рис. 2).

Приведенный график призван продемонстрировать несколько примечательных закономерностей. Так за 16 лет, начиная с 1980 года, произошло удвоение количества подаваемых ежегодно патентов. Однако, за один лишь 1998 год это число увеличилось почти в 1.5 раза. Попробуем проанализировать данный график в историческом контексте и сделать некоторый прогноз на будущее. На фоне общей тенденции роста в 1987 и 1989 годах присутствуют ярко выраженные всплески. После каждого всплеска следует некоторый спад, примерно на 20-25%. Причины этих скачков, вероятно, связаны с тем, что в 1987 году Институт Фраунгофера (Германия) начал активное развитие перспективного проекта EUREKA по кодированию аудиоинформации, используя модели звукового восприятия человеческого уха. Эти разработки привели к созданию международного стандарта кодирования аудио/видео информации MPEG.

Проведенное исследование выявило круг лиц, благодаря работам которых основ

12000 10000 8000 6000 4000 2000

1980 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 1998

Рис. 2: Динамика изменения количества ежегодно подаваемых в США патентов, связанных с обработкой звуковых сигналов и их сжатием ные принципы работы алгоритма MPEG/audio были запатентованы.

Согласно имеющейся патентной информации, Akagiri Kenzo (Sony Corporation) до 1990 года подавал заявки, связанные в основном с обработкой сигналов и уменьшением шума. После 1990 года все его заявки связаны с проблемой аудиокомпрессии в направлении различных аспектов оптимального квантования сигналов. Основная масса патентов подана, начиная с 1983 года. До этого момента существовали только две заявки в 1982 и 1976 году. Патенты Akagiri Kenzo приведены в таблице 2 (см. приложение 1).

Johnston James D. (AT&T Bell Laboratories) имеет 31 патент. Все патенты, начиная с 1991 года, в основном связаны с разработкой различных аспектов использования психоакустической модели. Зафиксированные патенты охватывают срок с 1972 по 1997 год. Эти патенты сведены в таблицу 3 (см. приложение 1).

Davidson Grant A. (Dolby Laboratories Licensing Corporation) имеет 9 патентов. Все эти патенты связаны с некоторыми аспектами аудиокомпрессии и охватывают период с 1992 по 1997 год, они сведены в таблицу 4 (см. приложение 1).

Fielder Louis D. (Dolby Laboratories Licensing Corporation) имеет 8 патентов, начиная с 1992 года. Все они посвящены вопросам аудиокомпрессии и приведены в таблице 5 (см. приложение 1).

Brandenburg Karlheinz (Fraunhofer-Gesellschaft zur Forderung der Angewandten Forschung E.V.) имеет 5 патентов, начиная с 1991 года (таблица 6, приложение 1). Одним из первых он начал использовать в своих патентах психоакустическую модель.

Вслед за появлением алгоритма MPEG последовал еще один прорыв — изобретение в Берлинском Техническом Университете алгоритма речевой компрессии GSM, основанного на простой линейной модели речевого тракта человека, но тем не менее получившего огромное распространение благодаря использованию в сотовых телефонах. В 1998 году наблюдаемый значительный всплеск (рис. 2), по-видимому, связан с повсеместным распространением и резко возросшей популярностью алгоритма MPEG pi усилением коммуникационной сферы, по сравнению с традиционно лидирующей компьютерной.

По данным делового журнала «European Sources and News» в 1998 году впервые количество проданных сотовых телефонов превысило количество проданных

Го ды персональных компьютеров. Современные системы коммуникаций сочетают в себе новейшие технологические достижения, связанные с передачей аудио и видео информации. Причем количество этой информации лавинообразно нарастает. Поэтому вопросы, связанные с компактным представлением такого рода данных с целью передачи или хранения, приобретают огромную актуальность. Согласно графику (рис. 2) после резкого всплеска должен неминуемо следовать закономерный спад, связанный с переходом на качественно новый уровень развития науки и техники. Поэтому в 1999 году количество подаваемых патентов должно сократиться до 900010000 (что в действительности и произошло). После этого должен опять произойти резкий всплеск исследовательской деятельности, но уже на совсем ином уровне. По всей вероятности этот скачок придется на 2000-2001 годы. Поэтому тематика настоящей диссертационной работы, связанной с исследованием подходов к нелинейной компрессии звука и соответствующим алгоритмам, превосходящим по своим возможностям все ныне существующие, оказывается на гребне активно развивающегося направления.

That's the problem. He's a brilliant lunatic and you can't tell which way he'll jump — like his game he's impossible to analyse — you can't dissect him, predict him — which of course means he's not lunatic at all.

B. Anderson, T. Rice, B. Ulvaeus «Chess».

Заключение диссертация на тему "Эффект нелинейной компрессии аудиоинформации; фундаментальные основания и подходы к реализации"

Заключение

Таким образом, с позиций разработанного теоретического подхода имеется возможность обобщить существующие методы сжатия и синтеза звука — GSM, MPEG и MIDI, результатом чего может стать новый алгоритм аудиокомпрессии, открывающий пути принципиального увеличения степени сжатия и качества восстановления аудиоинформации.

Рассмотренный в разделе 7.2 алгоритм быстрого скользящего преобразования Фурье может быть использован в анализаторах спектра, работающих в реальном масштабе времени, в звуковых процессорах, при цифровой обработке сигналов, компрессии аудиосигналов, контроле технологических процессов и во многих других приложениях.

Настоящая работа на данном этапе ни в коей мере не претендует на окончательное и бесспорное решение поставленной проблемы сжатия аудиоинформации. Затронутая тема столь сложна и обширна, что трудно говорить о полной завершенности исследований, проводимых одним человеком. Однако, полученные результаты и выявленные закономерности позволяют взглянуть на проблему под совершенно неожиданным углом. Открывающиеся на этом пути перспективы весьма заманчивы и вполне реальны. Данная работа всего лишь первый камень, заложенный в фундамент громадного здания теории и практики нелинейного сжатия аудиоинформации, которая, возможно открывает новое направление в науке.

Нельзя не отметить, что отдельные затронутые в работе аспекты далеко не новы, и отдельные попытки частичного решения проблемы предпринимались в разное время и разными авторами. Однако, достоинством настоящей работы является, по-сути дела, первое комплексное и систематическое изложение проблемы, предложен оригинальный и нетрадиционный путь ее решения. На этом пути предстоит преодолеть еще много трудностей и неясностей, приложить труд многих последующих исследователей, но уже сейчас можно различить свет в конце тоннеля! Автор выражает искреннюю надежду, что те исследователи, которые пойдут следом, смогут довести начатое до своего логичного завершения. И пусть бессмертные творения гениальных композиторов прошлого и современности послужат им источником неиссякаемого вдохновения и научной фантазии, как и автору этих строк!

Библиография Гарбузов, Богдан Владимирович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Андронов А. А., Витт А. А., Хайкин С. Э. Теория колебаний. М.:Физматгиз, 1959.- 915 с.

2. Бахвалов Н. С., Жидков Н. П., Кобельков Г. М. Численные методы. М.:Наука, 1987. - 600 с. ,

3. Бейкер Дж., Грейвс-Моррис П. Аппроксимации Паде. М.:Мир, 1986. - 502 с.

4. Бреховских JI. М., Гончаров В. В. Введение в механику сплошных сред (в приложении к теории волн). М.:Наука, 1982. - 335 с.

5. Бутенин Н. В., Неймарк Ю. И., Фуфаев Н. А. Введение в теорию нелинейных колебаний. М.:Наука, 1976. - 384 с.

6. Гарбузов Б. В. Быстрое скользящее преобразование Фурье. //Известия Тульского государственного университета. 2000. - Том 6, вып. 1. - С. 63-69.

7. Гарбузов Б. В. Исследование возможности применения нелинейной аппроксимации к задаче аудиокомпрессии: Тез. докл. XLI науч. конф. МФТИ, ч. 2. -Долгопрудный, 1998. С. 56.

8. Гарбузов Б. В. Метод линейной аудиокомпрессии. //Информационные технологии и вычислительные системы. 1999. - № 2. - с. 59-64.

9. Гарбузов Б. В. Метод линейной аудиокомпрессии: Тез. докл. XL науч. конф. МФТИ, вып. 1. Долгопрудный, 1997. - С. 60.

10. Гарбузов Б. В. Энтропия в свете лексикографической интерпретации функций: Тез. докл. XLII науч. конф. МФТИ, ч. 2. Москва-Долгопрудный, 1999, - С. 69.

11. Гарбузов Б. В. Эффект нелинейной компрессии аудиоинформации: Тез. докл. XLIII науч. конф. МФТИ, ч. VII. Москва-Долгопрудный, 2000. - С. 17.

12. Ефимов А. П., Никонов А. В., Сапожников М. А., Шоров В. И. Акустика: Справочник М.:Радио и связь, 1989. - 336 с.

13. Калиткин Н. Н. Численные методы. М.:Наука, 1978. - 512 с.

14. Лабутин В. К., Молчанов А. П. Модели механизмов слуха. М.:Энергия, 1973. -200 с.

15. Ландау Л. Д., Лившиц Е. М. Механика сплошных сред. М.:Гостехиздат, 1956. -736 с.

16. Лэмб Г. Динамическая теория звука. М.:Физматлит, 1960. - 373 с.

17. Маркел Дж. Д., Грэй А. X. Линейное предсказание речи. М.:Связь, 1980. -308 с.

18. Мизнн И. А., Матвеев А. А. Цифровые фильтры (анализ, синтез, реализация с использоанием ЭВМ). М.:Связь, 1979. - 240 с.

19. Рабинер JI. Р., Шафер Р. В. Цифровая обработка речевых сигналов. М.:Радио и связь, 1981. - 495 с.

20. Сорокин В. Н. Синтез речи. М.:Наука, 1992. - 392 с.

21. Стечкин С. В., Субботин Ю. Н. Сплайны в вычислительной математике. -М.-.Наука, 1976. 248 с.

22. Стретт Дж. В. (Лорд Рэлей) Теория звука. М.Государственное издательство технико-теоретической литературы, 1955. - т.1. - 503 с.

23. Фант Г. Акустическая теория речеобразования. М.:Наука, 1964. - 284 с.

24. Atal В. S., Hanauer S. L. Speech Analysis and Synthesis by Linear Prediction of the Speech Wave, J. Acoust. Soc. Am. Vol. 50, No. 2 (Part 2), August 1971. -pp. 637-655.

25. Coding of moving pictures and associated audio for digital storage media at up to about 1.5 MBit/s, Part 3 Audio. ISO/IEC 11172-3, 1991. - 174 p.

26. Degener J. Digital Speech Compression. //Dr. Dobb's Journal, December, 1994. -6 p.

27. Flanagan J. L. Speech Analysis, Synthesis and Perception, 2nd Ed., Springer-Verlag, New York, 1972.

28. Flanagan J. L., Cherry L. Excitation of Vocal-Tract Synthesizer, J. Acoust. Soc. Am., Vol.45, No.3, March 1969. pp. 764-769.

29. Flanagan J. L., Ishizaka K., Shipley K. L. Synthesis of Speech from a Dynamic Model of the Vocal Cords and Vocal Tract, Bell Sys. Tech. J. Vol. 54, No. 3, March 1975. pp. 485-506.

30. Flanagan J. L., Landgraf L. L. Self Oscillating Source for Vocal-Tract Synthesizers, IEEE Trans. Audio and Electroacoustics, Vol. AU-16, March 1968. pp. 57-64.

31. Numerical Recipes in C: The art of scientific computing. Cambridge University Press, 1992. - pp. 504-521.

32. Pan D. Y. Digital Audio Compression. //Digital Technical Journal Vol.5, N2, Spring 1993. 14 p.p

33. Portnoff M. R. A Quasi-One-Dimensional Digital Simulation for the Time-Varyin, Vocal Tract, M. S. Thesis, Dept. of Elect. Engr., MIT, Cambridge, Mass., June 1973.

34. Shannon С. E. A Mathematical Theory of Communication. The Bell System Technical Journal, Vol.27, July, October, 1948. - pp. 379-423, 623-656.

35. Sondhi M. M. Model for Wave Propagation in a Lossy Vocal Tract, J. Acoust. Soc. Am., Vol.55, No.5, May 1974. - pp. 1070-1075.

36. Wakita H. Estimation of the Vocal Tract Shape by Optimal Inverse Filtering and Acoustic/Articulatory Conversion Methods. Speech Communication Research Laboratory, Santa Barbara, California, SCRL Monograph No.9, 1972.1. Список патентов

37. RU2090973, Способ кодирования сигналов /Акагири К.; заявлено 17.12.1997. -17 с.

38. RU2119259, Способ сокращения числа данных при передаче и/или накоплении цифровых сигналов, поступающих из взаимосвязанных каналов /Херре Ю., Зайтцер Д., Бранденбург К.-Х., Эберлайн Э.; заявлено 31.12.1998. 7 с.

39. SU1363240, Устройство для вычисления скользящего спектра /Куц Н. Е., Каневский Ю. С., Логинова JT. М., Лозинский В. И.; заявлено 19.05.1986. 7 с.

40. US3851162, Continuous Fourier Transform Method and Apparatus /Munoz R. M.; 26.11.1974. 11 p.40Вынесено положительное решение от 19.07.2001 о выдаче патента по указанной заявке

Похожие работы

Информатика, вычислительная техника и управление
05.13.00