автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Модели и алгоритмы обработки мультимедийной информации, учитывающие особенности человеческого восприятия
Автореферат диссертации по теме "Модели и алгоритмы обработки мультимедийной информации, учитывающие особенности человеческого восприятия"
Московский государственный университет им. М.В. Ломоносова Факультет вычислительной математики и кибернетики Кафедра автоматизации систем вычислительных комплексов
Лукин Алексей Сергеевич
МОДЕЛИ И АЛГОРИТМЫ ОБРАБОТКИ МУЛЬТИМЕДИЙНОЙ ИНФОРМАЦИИ, УЧИТЫВАЮЩИЕ ОСОБЕННОСТИ ЧЕЛОВЕЧЕСКОГО
ВОСПРИЯТИЯ
Специальность 05.13.11 - математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
ОБЯЗАТЕЛЬНЫЙ
Б ЕС ПЛАТ
Москва 2005
Диссертация выполнена в Московском государственном университете им. М.В. Ломоносова.
Научный руководитель - кандидат физико-математических наук Баяковский Юрий Матвеевич.
Официальные оппоненты:
доктор физико-математических наук Кумсков Михаил Иванович,
кандидат физико-математических наук Чучупал Владимир Яковлевич.
Ведущая организация - Институт проблем передачи информации (Москва).
Защита состоится «2Н » сребри 2005 г. в а часов на заседании диссертационного совета Д.501.001.44 в Московском государственном университете им. М.В. Ломоносова по адресу: 119992, ГСП-2, г. Москва, Воробьевы горы, МГУ им. М.В. Ломоносова, 2-ой учебный корпус, факультет вычислительной математики и кибернетики, аудитория 685.
С диссертацией можно ознакомиться в библиотеке факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова.
Автореферат разослан " "_2005.
Ученый секретарь Диссертационного совета
кандидат физико-математических, профессор Трифонов Н.П.
¿006Д
Объект исследования и актуальность темы
Цифровая обработка сигналов (ЦОС) играет все более важную роль с распространением мультимедийных возможностей персональных компьютеров. Зарождение основных методов ЦОС происходило в середине 20 века, когда появлялись первые компьютеры. В те годы большие усилия при создании алгоритмов ЦОС тратились на их эффективную реализацию. Сейчас, когда мощности даже персональных компьютеров возросли настолько, что позволяют в реальном времени проводить сложную обработку сигналов, на передний план выходит вопрос о качестве алгоритмов, а не об их быстродействии. Зачастую пользователи готовы пожертвовать скоростью вычисления ради достижения лучших результатов.
Алгоритмы ЦОС переходят из разряда узкоспециальных в разряд повсеместно используемых. Ранее они применялись в таких задачах, как профессиональная звукозапись и обработка звука, радиолокация. Теперь же алгоритмы ЦОС все активнее используются в повседневном человеко-машинном интерфейсе, который становится мультимедийным: это и чипы цифровых фотокамер, обрабатывающие изображения, и мобильные телефоны, кодирующие и обрабатывающие звук, и персональные компьютеры, играющие роль домашнего центра развлечений за счет широких возможностей обработки звука, изображений и видео.
Один из основных аппаратов, используемых в ЦОС, - банки фильтров (также называемые в отечественной литературе гребенками фильтров) - преобразования, раскладывающие сигнал на несколько частотных полос с возможностью обратного восстановления сигнала. К банкам фильтров, в частности, относятся краткосрочное преобразование Фурье (8ТТТ), широко используемое в обработке аудио, и дискретное вейвлет-преобразование (Б\УТ), являющееся основой многих алгоритмов обработки изображений. В этой работе рассматриваются более сложные банки фильтров для обработки цифровых изображений и аудио, позволяющие достигать лучшего качества обработки за счет варьирования частотно-
временного разрешения в соответствии со сво:
•го восприятия.
Предлагаемые банки фильтров способны улучшить многие существующие алгоритмы обработки сигналов, т.к. они могут быть встроены в общую схему различных методов. В этой работе рассматривается их применение в задачах шумоподавления и дается несколько примеров использования предложенных методов в других задачах.
Цели работы
1. Исследовать недостатки банков фильтров с фиксированным частотно-временным разрешением в задачах обработки аудиосигналов и изображений.
2. Построить модели банков фильтров с переменным частотно-временным разрешением, адаптирующимся к свойствам человеческого восприятия, для снижения артефактов в задачах обработки. Разработать соответствующие алгоритмы адаптации.
3. На основе построенных моделей разработать следующие алгоритмы, подтверждающие эффективность предложенного подхода:
a. Алгоритм подавления стационарных шумов для растровых изображений.
b. Алгоритм подавления стационарных шумов для аудиосигналов.
c. Алгоритм выделения/подавления центрального канала в стереофоническом аудиосигнале.
ё. Алгоритм временного масштабирования аудиосигнала без изменения высоты звучания.
е. Алгоритм интерполяции изображений (в т.ч. - байеровских шаблонов).
Научная новизна работы
Предложенная модель смешивания коэффициентов для варьирования частотно-временного разрешения является новой. Разработанные на ее основе алго-
ритмы усовершенствуют уже известные алгоритмы шумоподавления для изображений и аудио. В частности, предложенный алгоритм шумоподавления изображений усовершенствует алгоритм, предложенный Parks, Muresan в 2003 году. Адаптивные банки фильтров упоминаются в качестве перспективного направления исследований в книге Godsill, Rayner, Сарре "Digital Audio Restoration" с обзором современных методов шумоподавления в аудио.
Разработанная модель банка фильтров с переменным частотно-временным разрешением может быть применена к множеству уже существующих алгоритмов обработки звука и изображений, повышая качество обработки.
Практическая значимость и реализация
Автором разработаны и реализованы алгоритмы, описанные в работе:
1. Алгоритм подавления стационарных шумов для растровых изображений на основе многомасштабного РСА-метода.
2. Алгоритм подавления стационарных шумов в аудиосигнале с использованием адаптивного частотно-временного разрешения.
3. Алгоритм построения сонограмм с адаптивным частотно-временным разрешением.
4. Алгоритм выделения/подавления центрального канала в стереофоническом аудиосигнале с использованием адаптивного банка фильтров. Сюда входят алгоритм обнаружения транзиентов (резких изменений) в аудиосигнале и общая модель адаптивного банка фильтров, которую можно применять к различным алгоритмам.
5. Алгоритм временного масштабирования аудиосигнала без изменения высоты звучания.
6. Алгоритм интерполяции изображений, в т.ч. - байеровских шаблонов, с использованием локальной одномерной цветовой модели.
Для алгоритма (1) показанные результаты превосходят результаты метода адаптивных главных компонент (Parks/Muresan, 2003) и вейвлетных методов как
по объективным метрикам (PSNR), так и по визуальной оценке, подтверждая эффективность используемой модели и адекватность реализации.
Для алгоритма (2) показано субъективное преимущество звучания перед аналогичным алгоритмом без использования адаптивного банка фильтров. На основе этого алгоритма сделан коммерческий программный модуль iZotope Vocal Remover в форматах DirectX/VST, распространяемый компанией iZotope.
Для алгоритма (5) показано превосходство над лучшими из существующих коммерческих систем (Serato Time'n'Pitch, Prosoniq МРЕХ) в субъективном качестве (объективные оценки затруднены из-за отсутствия адекватных метрик). На основе алгоритма сделан программный модуль iZotope Radius, обрабатывающий аудиоданные в поточном режиме. Модуль пролицензирован компанией Digidesign - лидером мирового рынка профессиональных систем звукозаписи -для встраивания в их систему ProTools.
Алгоритмы (6) частично разрабатывались по заказу Samsung Advanced Institute of Technology (SAIT) в лаборатории Компьютерной графики и мультимедиа ВМиК МГУ. Алгоритм интерполяции байеровских шаблонов показал лучшие из существующих результаты по «объективным» метрикам (PSNR) и по субъективному качеству, что отражено в докладе на конференции «Графикон-2004». Он также пролицензирован компаниями Raw Magick и Bibble Labs для использования в высококачественных конвертерах фотографических изображений.
Все разработанные алгоритмы реализованы на языке С/С++ и имеют демонстрационные приложения для ОС Windows. Некоторые из алгоритмов (2,5) были портированы на компьютеры Macintosh (ОС OSX).
Апробация работы и публикации
Результаты работы докладывались и обсуждались на:
• 14-й международной конференции по компьютерной графике и машинному зрению "Graphicon-2004", Россия, Москва, 2004;
• международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов-2005» (статья о методе шумоподавления для изображений стала лауреатом конференции);
• семинаре кафедры Автоматизации систем вычислительных комплексов факультета ВМиК МГУ под руководством акад. Л.Н. Королева;
• научно-исследовательском семинаре по автоматизации программирования под руководством проф. М.Р. Шура-Бура;
• 15-й международной конференции по компьютерной графике и машинному зрению "ОгарЫсоп-2005", Россия, Новосибирск, 2005;
• семинаре сектора Цифровой Обработки и Распознавания Речевых Сигналов ВЦ РАН под руководством к.ф.-м.н. В.Я. Чучупала;
• семинаре сектора Цифровой оптики Института проблем передачи информации под руководством к.т.н. Н.С. Мерзлякова.
По теме работы имеется 6 научных публикаций.
Кроме того, автору принадлежит несколько публикаций по теме обработки звука в научно-техническом журнале «Звукорежиссер» и методическое пособие для студентов по цифровой обработке сигналов, используемое в курсе машинной графики на факультете ВМиК МГУ и на семинарах по цифровой обработке сигналов, проводимых автором.
Основное содержание работы
Во введении показывается актуальность исследованной проблемы и ее положение в общем контексте задач обработки мультимедийной информации. Вводится основная терминология работы, обсуждаются основные типы банков фильтров. Описывается структура диссертации.
В первой главе анализируются достоинства и недостатки популярных банков фильтров, связанные с частотно-временным разрешением.
Банки фильтров играют важную роль в обработке цифровых изображений и особенно - аудиосигналов. Для аудиосигналов они позволяют разложить сложный сигнал на отдельные, более простые составляющие, каждую из которых легче обрабатывать. Для изображений банки фильтров позволяют выделять детали различного масштаба. Рассмотрим свойства наиболее употребительных банков фильтров в этих задачах и проанализируем их принципиальные ограничения и недостатки.
Любая обработка сигналов, которая пытается получить приемлемые с точки зрения человеческого восприятия результаты, должна учитывать особенности нашего восприятия. Автор описывает некоторые основные сведения о слухе и зрении, которые важны при проектировании банков фильтров.
Традиционно для анализа и обработки звуковых сигналов применяются банки фильтров с косинусной модуляцией. В таких банках фильтров базисными функциями являются гармонические колебания, умноженные на гладкие весовые окна. Наиболее распространенным банком фильтров является STFT (Short Time Fourier Transform) - кратковременное преобразование Фурье. Частотно-временное разрешение банков фильтров, основанных на STFT, не соответствует нашему восприятию. На низких частотах частотное разрешение нашего уха лучше, а на высоких - хуже, и в следующих главах будет показано, что соответствующее варьирование частотно-временного разрешения банка фильтров приводит к улучшению качества обработки.
Другим популярным видом банков фильтров являются вейвлеты. Базисные функции дискретного вейвлет-преобразования (ДВП) являются сдвигами и растяжениями одной и той же функции - материнского вейвлета. Благодаря этому свойству удается эффективно контролировать эффект Гиббса, выбирая конкретный вид материнского вейвлета. Большее число осцилляций материнского вейвлета приводит к лучшему частотному разрешению анализа и большему эффекту Гиббса.
ДВП являются частным случаям т.н. квадратурных фильтров, разбивающих сигнал на две полосы: высокочастотную и низкочастотную. Для разбиения сиг-
нала на большее число полос преобразование применяется повторно к субполосным сигналам. Такая рекурсивная схема является существенным недостатком при обработке аудио. Во-первых, вейвлеты не являются идеальными низкочастотными фильтрами, а значит возникает эффект наложения спектров. Часть сигнала, проникающая в соседний частотный канал, рекурсивно распространяется далее по частотным каналам. Учитывая традиционно невысокую длину вейвле-тов и недостаточное частотное разрешение, можно сделать вывод, что вейвлет-преобразование не обеспечивает достаточно хорошего для обработки аудио частотного разделения каналов. В задачах обработки аудио часто желательно разместить отдельные гармоники спектра в разные частотные каналы. Для полифонической музыки число одновременно присутствующих в спектре гармоник может достигать десятков и даже сотен. ДВП с таким числом частотных полос и хорошим разделением между полосами слишком вычислительно сложно.
Во второй главе вводится модель адаптации частотно-временного разрешения банков фильтров и рассматриваются стратегии такой адаптации для различных задач.
Автор предлагает следующую схему (рис. 1) реализации банка фильтров с переменным частотно-временным разрешением [1]. Одни и те же алгоритмы обработки, но с различными частотно-временными разрешениями, работают над общим потоком данных. Результаты их работы комбинируются с помощью банка фильтров с единым частотно-временным разрешением. Блок смешивания коэффициентов различных сигналов в пространстве общего банка фильтров будем называть микшером коэффициентов. Он может управляться с помощью некоторой априорной стратегии (отражающей свойства нашей системы восприятия) и в зависимости от свойств сигнала в данный момент времени (например, от его стационарности).
Рис. 1. Схема предлагаемого банка фильтров.
Поскольку смешивание выходных обработанных сигналов х^] и х2р] происходит в пространстве коэффициентов банка фильтров, то данный метод позволяет устанавливать произвольное частотно-временное разрешение в произвольных областях частотно-временной плоскости.
Далее обсуждаются стратегии управления частотно-временным разрешением и предлагаются 2 алгоритма такого управления: с анализом стационарности сигнала и в соответствии с принципом оптимальности. Подробно рассматривается принцип оптимальности частотно-временного разрешения, где под оптималь-
ностью понимается наилучшее компактирование энергии банком фильтров в каждой области частотно-временной плоскости.
Для того чтобы формализовать условие наилучшего компактирования энергии в области, автор рассматривает прямоугольные области П частотно-
временной плоскости и коэффициенты Яу¿ т банков фильтров в таких областях
(здесь / - частотный индекс, г - временной индекс, г - индекс банка фильтров среди банков фильтров с различным разрешением). Задается пороговым значением Г, 0 < Г < 1, и в качестве компактируемой энергии рассматривается энергия -Т Ег — Т • ^¡^ , т.е. часть энергии банков фильтров в рас-
/,/еП
сматриваемой области. Оптимально компактирует энергию тот банк фильтров, который сосредоточивает энергию Е^ в минимальном числе коэффициентов
Определим -Л^ число коэффициентов, в которых сосредотачивается энергия банка фильтров г. Для этого рассматривается отсортированный по убыванию массив @1Г коэффициентов Яу 1г банка фильтров г в области П. Пусть
к к+1
Як — V п1 < — V п2 РТ
к - такой индекс, что "г ~ / .1 г — и ~~ / ^ ^г , т.е. к
/=1 Ы
максимальных коэффициентов содержат энергию меньше Е^, а к+\ максимальных коэффициентов уже содержат энергию больше Е^ . Поэтому принима-
Т С к
ется к ^ < к +1. Предлагается определить ^г ~ к+
Е' -я
г
Таким образом, банк фильтров, наилучшим образом компактирующий энергию Егт определяется так:
rQ = argmin Nj
г
В третьей главе описывается применение модели банков фильтров с переменным частотно-временным разрешением для создания новых алгоритмов обработки аудиосигналов и цифровых изображений [1], [2]. В качестве основной модельной задачи рассматривается шумоподавление для аудиосигналов и изображений.
Алгоритмы подавления стационарных шумов основаны на следующей об- '
щей схеме. Первым шагом выполняется преобразование сигнала, компактирую-щее энергию. Под компактировантием энергии понимается сосредоточение большей части энергии сигнала в относительно малом числе коэффициентов разложения. Далее выполняется второй шаг - подавление коэффициентов, соответствующих шуму. Наконец, третьим шагом проводится обратное преобразование, синтезирующее восстановленный сигнал.
В качестве компактирующих преобразований для обработки изображений наиболее часто используются вейвлетные преобразования. Они эффективно реализуются и позволяют обрабатывать детали изображений в нескольких масштабах.
Для обработки аудио, как правило, используются банки фильтров, основан- <
ные на кратковременном преобразовании Фурье (STFT).
Автор рассматривает метод спектрального вычитания (spectral subtraction) для шумоподавления аудиосигналов и применяет для его улучшения предложенную модель банка фильтров с переменным частотно-временным разрешением. В результате показывается улучшение подавления шума и уменьшение эффекта Гиббса вблизи всплесков сигнала.
Для шумоподавления изображений рассматриваются два алгоритма: метод адаптивных главных компонент (Parks/Muresan/2003) и метод нелокальных сред-
них (Виа<1е8/Со11/Моге11/2005). К обоим из них применяется подход переменного частотно-пространственного разрешения. В результате удается улучшить подавление низкочастотных шумов и уменьшить эффект Гиббса вблизи границ в изображении. Приводятся визуальные сравнения и анализ «объективной» метрики качества
В четвертой главе описывается локальная одномерная цветовая модель и ее применение в алгоритмах интерполяции и шумоподавления для изображений [3],
[4].
Важнейшим элементом изображений является граница между объектами -место резкого изменения цвета. Известно, что именно рассмотрению границ на изображениях уделяет наибольшее время человеческий взгляд. И именно границы несут наибольшую смысловую нагрузку в изображении.
Наиболее часто в реальных изображениях граница проходит между двумя объектами различных цветов, и значения пикселей вблизи границы лежат преимущественно на прямой, соединяющей эти два цвета в трехмерном цветовом пространстве. Во многих случаях эта прямая не параллельна ни одной из координатных осей цветового пространства, и все три цветовые компоненты изображения содержат эту границу.
Предлагаемая модель рассматривает каждую локальную окрестность в изображении как границу между двумя различными цветами. Предполагается, что цвета пикселей этой окрестности лежат вблизи прямой, соединяющей эти два «опорных» цвета. Вектор, проведенный между двумя «опорными» цветами, называется вектором цветового направления.
Очевидно, не любые области изображения удовлетворяют такой модели. Например, независимый белый шум в трех цветовых каналах формирует в трехмерном цветовом пространстве сфероидальное облако без выраженного вектора цветового направления. Поэтому при практическом применении модели в каждой области изображения будет рассматриваться «консистентность» модели, т.е. степень соответствия изображения данной модели. Вычислить консистентность
можно по-разному. Например, если известны «опорные» цвета, то можно положить консистентность обратной среднему отклонению цветов пикселей от прямой, соединяющей опорные цвета.
Описанная модель применяется для дополнительного компактирования энергии в алгоритме шумоподавления для изображений с помощью метода главных компонент [1]. Также в диссертации описывается применение модели в задачах интерполяции изображений. При интерполяции байеровских шаблонов [4] локальная одномерная цветовая модель улучшает качество операции проекции интерполированного изображения на исходные данные мозаики, уменьшая артефакт «эффект молнии».
В задаче интерполяции полноцветных изображений модель применяется в алгоритме увеличения резкости краев.
В заключении сформулированы основные результаты работы и делаются выводы о полезности разработанных моделей для улучшения широкого круга алгоритмов обработки мультимедийной информации.
Основные результаты работы таковы:
1. Предложен новый подход к обработке мультимедийной информации, учитывающий особенности человеческого восприятия и основанный на банках фильтров с переменным частотно-временным разрешением.
2. На основе предложенного подхода разработаны новые алгоритмы для обработки аудиосигналов и цифровых изображений, обеспечивающие более высокое качество обработки мультимедийной информации в системах человеко-машинного интерфейса по сравнению с известными алгоритмами.
Разработана программная система для реставрации аудиозаписей и программное обеспечение, реализующее предложенные алгоритмы.
По теме работы имеются следующие научные публикации:
1. А. Lukin, D. Kalinkina, D. Kubasov "Adaptive Multiresolution Filter Banks for Image and Audio Processing" // Труды конференции ГрафиКон, 2005, стр. 312-315.
2. Лукин A.C., Каяинкина Д.А. "Использование комбинации метода главных компонент и вейвлет-преобразования для подавления шума в изображениях" // Труды конференция «Ломоносов-2005», ф-т ВМиК МГУ, стр. 35.
3. A. Lukin, D. Kubasov "An Improved Demosaicing Algorithm'' // Труды конференции ГрафиКон, 2004, стр. 38-45.
4. А. Лукин, Д. Кубасов "Высококачественный алгоритм интерполяции изображений в виде байеровских шаблонов" // Журнал «Программирование», №6,2004, стр. 1-15.
5. А.О. Жирков, Д.Н. Корчагин, A.C. Лукин, A.C. Крылов, Ю.М. Банковский "Графический метод представления и нейросетевое распознавание частотно-временных векторов речевой информации" // Журнал «Программирование, №4,2003, стр. 41-52.
6. А.О. Жирков, Д.Н. Корчагин, A.C. Лукин, A.C. Крылов, Ю.М. Банковский «Нейросетевой анализ и сопоставление частотно-временных векторов на основе краткосрочного спектрального представления и адаптивного преобразования Эрмита» // препринт №87 Института прикладной математики им. М.В. Келдыша, 2001 г, 16 страниц.
к 553 7
Напечатано с готового оригинал-макета
Издательство ООО "МАКС Пресс" Лицензия ИД N00510 от01.12.99 г. Подписано к печати 19.01.2006 г. Формат 60x90 1/16. Усл.печ л. 1,0. Тираж 100 экз. Заказ 028. Тел. 939-3890. Тел./факс 939-3891. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 627 к.
Оглавление автор диссертации — кандидата физико-математических наук Лукин, Алексей Сергеевич
Введение.
Цели и задачи работы.
Научная актуальность работы.
Глава 1. Банки фильтров и их частотно-временное разрешение.
Сведения о человеческом восприятии.
Восприятие звука.
Восприятие изображений.
Традиционные банки фильтров.
Выводы.
Глава 2. Банки фильтров с адаптивным разрешением.
Существующие решения.
Предлагаемая схема.
Стратегии управления частотно-временным разрешением.
Широкополосный анализ стационарности.
Многополосный анализатор стационарности.
Принцип наиболее компактного описания сигнала.
Выводы.
Глава 3. Применение предложенной модели банков фильтров.
Шумоподавление: общие принципы.
Шумоподавление для аудиосигналов.
Задача шумоподавления и метод спектрального вычитания.
Интерпретация в виде многополосного гейта.
Недостатки спектрального вычитания.
Применение предложенной модели банка фильтров.
Результаты.
Шумоподавление для изображений.
Применение предложенной модели.
Дополнительные модификации метода АРСА.
Оптимизации быстродействия.
Переход в новое цветовое пространство.
Результаты.
Нелокальное усреднение: модификация алгоритма.
Подавление центрального канала в аудио.
Постановка задачи.
Существующие подходы.
Предлагаемый подход.
Результаты.
Временное масштабирование аудио.
Постановка задачи.
Существующие подходы к решению задачи.
Предлагаемый метод.
Банк фильтров.
Блокировка фаз.
Рандомизация фаз.
Сохранение транзиентов.
Результаты.
Построение спектрограмм.
Традиционный метод.
Предлагаемый метод.
Выводы.
Глава 4. Локальная одномерная цветовая модель.
Предлагаемая модель.
Применения.
Интерполяция байеровских шаблонов.
Предлагаемая модификация алгоритма.
Результаты.
Предлагаемый алгоритм увеличения резкости границ.
Результаты.
Выводы.
Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Лукин, Алексей Сергеевич
Цифровая обработка сигналов (ЦОС) [1] играет все более важную роль с распространением мультимедийных возможностей персональных компьютеров. Зарождение основных методов ЦОС происходило в середине 20 века, когда появлялись первые компьютеры. В те годы большие усилия при создании алгоритмов ЦОС тратились на их эффективную реализацию. Сейчас, когда мощности даже персональных компьютеров возросли настолько, что позволяют в реальном времени проводить сложную обработку сигналов, на передний план выходит вопрос о качестве алгоритмов, а не об их быстродействии. Зачастую пользователи готовы пожертвовать скоростью вычисления ради достижения лучших результатов.
Алгоритмы ЦОС переходят из разряда узкоспециальных в разряд повсеместно используемых. Ранее они применялись в таких задачах, как профессиональная звукозапись и обработка звука, радиолокация. Теперь же алгоритмы ЦОС все активнее используются в повседневном человеко-машинном интерфейсе, который становится мультимедийным: это и чипы цифровых фотокамер, обрабатывающие изображения, и мобильные телефоны, кодирующие и обрабатывающие звук, и персональные компьютеры, играющие роль домашнего центра развлечений за счет широких возможностей обработки звука, изображений и видео.
Важную роль в алгоритмах ЦОС играют банки фильтров1 - преобразования, раскладывающие сигнал на несколько частотных полос с возможностью обратного восстановления [2]. К банкам фильтров, в частности, относятся кратковременное преобразование Фурье (8ТРТ), широко используемое в об
1 Дословный перевод англоязычного "filter banks". В отечественной литературе также употребляется термин «гребенки фильтров». В этой работе будет использоваться термин «банк фильтров», чтобы подчеркнуть включение в это понятие возможного прореживания сигнала в банке фильтров, а также стадии синтеза, дополняющей стадию анализа. работке аудио, и дискретное вейвлет-преобразование (DWT), являющееся основой многих алгоритмов обработки изображений. В этой работе рассматриваются более сложные банки фильтров для обработки цифровых изображений и аудио, позволяющие достигать лучшего качества обработки за счет варьирования частотно-временного разрешения в соответствии со свойствами человеческого восприятия.
Как будет показано в главе 3, предлагаемые банки фильтров способны улучшить многие существующие алгоритмы обработки сигналов, т.к. они могут быть встроены в общую схему различных методов. В этой работе будет рассмотрено их применение в задачах шумоподавления и приведено несколько примеров использования предложенных методов в других задачах.
Цели и задачи работы
Основные цели работы таковы:
1. Исследовать недостатки банков фильтров с фиксированным частотно-временным разрешением в задачах обработки аудиосигналов и изображений.
2. Построить модели банков фильтров с переменным частотно-временным разрешением, адаптирующимся к свойствам человеческого восприятия, для снижения артефактов в задачах обработки. Разработать соответствующие алгоритмы адаптации.
3. На основе построенных моделей разработать следующие алгоритмы, подтверждающие эффективность предложенного подхода: a. Алгоритм подавления стационарных шумов для растровых изображений. b. Алгоритм подавления стационарных шумов для аудиосигналов. c. Алгоритм выделения/подавления центрального канала в стереофоническом аудиосигнале.
1. Алгоритм временного масштабирования аудиосигнала без изменения высоты звучания. е. Алгоритм интерполяции изображений (в т.ч. - байеровских шаблонов).
Для достижения этих целей были реализованы традиционные версии описанных алгоритмов и проанализированы их особенности и недостатки. Затем была теоретически разработана общая схема варьирования частотно-временного разрешения (см. главу 2) и опробована на практике для алгоритма подавления шума на изображениях по методу РСА (глава 3). Успешные результаты позволили усовершенствовать модель, обобщить ее для обработки аудиосигналов и реализовать соответствующие алгоритмы. Далее было исследовано несколько методов адаптации частотно-временного разрешения банков фильтров и разработаны стратегии управления разрешением, описанные в главе 3.
Научная актуальность работы
В настоящее время для обработки изображений и аудиосигналов наиболее широко используются алгоритмы, основанные на банках фильтров с фиксированным частотно-временным разрешением. Существенным недостатком таких алгоритмов является низкое качество обработки из-за наличия эффекта Гиббса и недостаточного частотного разрешения банков фильтров. В связи с этим становится актуальной проблема адаптации банков фильтров к особенностям сигналов и свойствам человеческого восприятия. Некоторые из существующих методов производят простейшую дискретную адаптацию частотно-временного разрешения банка фильтров только в частотном или только во временном направлении. В данной работе рассматривается непрерывная адаптация банков фильтров в двумерном частотно-временном пространстве и предлагаются систематические способы такой адаптации. Предложенный подход применен для повышения качества алгоритмов шумоподавления аудиосигнапов и изображений, интерполяции изображений, изменения тональности звуков, построения спектрограмм и других задач обработки мультимедийной информации, широко применяемых на практике.
Заключение диссертация на тему "Модели и алгоритмы обработки мультимедийной информации, учитывающие особенности человеческого восприятия"
Основные результаты работы отражены в следующих научных публика
1. А. Lukin, D. Kalinkina, D. Kubasov "Adaptive Multiresolution Filter Banks for Image and Audio Processing" // 15-th International Conference on Computer Graphics, GraphiCon'2005 proceedings, pp. 312315.
2. Лукин A.C., Калинкина Д.А. "Использование комбинации метода главных компонент и вей влет-преобразования для подавления шума в изображениях" // конференция «Ломоносов-2005», ф-т ВМиКМГУ, стр. 35.
3. А. Lukin, D. Kubasov "An Improved Demosaicing Algorithm" // 14-th International Conference on Computer Graphics, GraphiCon'2004 proceedings, pp. 38-45.
4. А. Лукин, Д. Кубасов "Высококачественный алгоритм интерполяции изображений в виде байеровских шаблонов" // «Программирование», №6, 2004, стр. 1-15.
5. А.О. Жирков, Д.Н. Корчагин, A.C. Лукин, A.C. Крылов, Ю.М. Банковский «Нейросетевой анализ и сопоставление частотно-временных векторов на основе кратковременного спектрального представления и адаптивного преобразования Эрмита» // препринт №87 Института прикладной математики им. М.В. Келдыша, 2001 г, 16 страниц.
Кроме того, автору принадлежит несколько публикаций по теме обработки звука в научно-техническом журнале «Звукорежиссер» и методическое пособие для студентов [40] по цифровой обработке сигналов, используемое в курсе машинной графики на факультете ВМиК МГУ и на семинарах по цифровой обработке сигналов, проводимых автором.
Заключение
Библиография Лукин, Алексей Сергеевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. S.W. Smith "The Scientist and Engineer's Guide to Digital Signal Processing" // California Technical Publishing, 1997, 1.BN 09660176-3-3.
2. P.P. Vaidyanathan "Multirate Systems and Filter Banks" // Prentice Hall, 1993, ISBN 0-13-605718-7.
3. И. Алдошина "Основы психоакустики" // «Звукорежиссер» №6, 1999, издательство «625», Москва.
4. Т. Painter, A. Spanias "A Review of Algorithms for Perceptual Coding of Digital Audio Signals" // Proceedings of 13th International Conference on Digital Signal Processing, 1997, vol. 1, 2-4 July 1997, pages 179-208.
5. J. Thiemann "Acoustic Noise Suppression for Speech Signals Using Auditory Masking Effects" // Ph.D. thesis, Department of Electrical & Computer Engineering, McGill University, Mont-real, Canada, July 2001.
6. Z. Goh, K.-C. Tan, and В. T. G. Tan, "Postprocessing Method for Suppressing Musical Noise Generated by Spectral Subtraction" // IEEE Transactions on Speech and Audio Processing, vol. 6, no. 3, pp. 287-292, May 1998.
7. S. Canazza, G. De Poli, G.A. Mian, A. Scarpa "Real Time Comparison Of Audio Restoration Methods Based On Short Time Spectral Attenuation" // Proceedings of Conference on Digital Audio Effects (DAFxOl), December 6-8 2001, Limerick, Ireland.
8. PJ. Wolfe and S.J. Godsill "Simple Alternatives to the Ephraim and Malah suppression Rule for Speech Enhancement" // IEEE Workshop on Statistical Signal Processing, pp. 496-499, Aug. 2001.
9. S.J. Godsill, P.J.W. Rayner "Digital Audio Restoration" // SpringerVerlag London Limited, 1998, ISBN 3 540 76222 1.
10. D. Donoho "De-noising by Soft-Thresholding" // IEEE Transactions on Information Theory, 41:613-627, 1995.
11. S. Grace Chang, B. Yu, M. Vetterli "Spatially Adaptive Wavelet Thresholding with Context Modeling for Image Denoising" // IEEE Trans. Image Processing, vol. 9, no. 9, pp. 1522-1531, Sept. 2000.
12. F.C.A. Fernandes, R.L.C. van Spaendonck, C.S. Burrus "A Directional, Shift-Insensitive, Low-Redundancy, Wavelet Transform" // Proceedings of IEEE International Conference on Image Processing (ICIP), 2001.
13. D.D. Muresan, T.W. Parks "Adaptive Principal Components and Image Denoising" // IEEE International Conference on Image Processing, September, 2003.
14. A. Lukin, D. Kalinkina, D. Kubasov "Adaptive Multiresolution Filter Banks for Image and Audio Processing" // Graphicon-2005 Conference Proceedings, 2005.
15. А. Лукин и др. "Шумоподавление для изображений" // Демонстрационная веб-страничкаhttp://audio.ri ^htmark.org/lukin/maphics/denoisinfj;.rus.htm
16. V. Zlokolica, W. Philips, D. Van De Ville, "A New Non-Linear Filter for Video Processing" // Proceedings of the third IEEE Benelux Signal Processing Symposium (SPS-2002), pp. 221-224, (Leuven, Belgium), March 2002.
17. Z. Wang, A.C. Bovik, L. Lu "Why is Image Quality Assessment So Difficult?" // IEEE International Conference on Acoustics, Speech & Signal Processing, May 2002.
18. D.V. De Ville, M. Nachtegael, D.V. der Weken, E.E. Kerre, W. Philips, I. Lemahieu "Noise Reduction by Fuzzy Image Filtering" // IEEE Transactions on Fuzzy Systems, vol. 11, no. 4, pp. 429-436, August 2003.
19. R.A. Peters II "A New Algorithm for Image Noise Reduction using Mathematical Morphology" // IEEE Transactions on Image Processing, vol. 4, no. 3, pp. 554-568, May 1995.
20. A. Buades, B. Coll, J. Morel "Image Denoising By Non-Local Averaging" // Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005, pages 25-28, March 18-23, 2005, vol. 2.
21. A. Hyvarinen, P. Hoyer, E. Oja "Image Denoising by Sparse Code Shrinkage" // Intelligent Signal Processing, IEEE Press, 2001.
22. Lukin, D. Kubasov "An Improved Demosaicing Algorithm" // Graphicon-2004 Conference Proceedings, 2004.
23. А. Лукин, Д. Кубасов "Высококачественный алгоритм интерполяции изображений в виде байеровских шаблонов" // журнал «Программирование», №6, 2004, стр. 1-15.
24. F. Hammer "Time-Scale Modification Using the Phase Vocoder" // Diploma thesis, Inst, for Electronic Music and Acoustics (IEM), Graz University of Music and Dramatic Arts, Austria, September 2001.
25. J. Bonada "Audio Time-Scale Modification in the Context of Professional Audio Post-production" // Research work for PhD program, Universität Pompeu Fabra, Barcelona, 2002.
26. J. Bonada "Automatic Technique in Frequency Domain for Near-Lossless Time-Scale Modification of Audio" // Proceedings of International Computer Music Conference (ICMC), 2000.
27. J.L. Flanagan, R.M. Golden "Phase Vocoder" // Bell System Technical Journal, pp. 1493-1509, 1966.
28. J. Laroche, M. Dolson "Improved Phase Vocoder Time-Scale Modification of Audio" // IEEE Transactions on Speech and Audio Processing, May 1999, vol. 7, issue 3, pp. 323-332.
29. S. M. J. Hoek "Method and Apparatus for Signal Processing for Time-Scale and/or Pitch Modification of Audio Signals" // Sigma Audio Research Limited, US Patent 6266003, A 24-7-2001 9-3-1999.
30. M.S. Puckette "Phase-locked vocoder" // Proceedings of IEEE Conference on Applications of Signal Processing to Audio and Acoustics, Mohonk 1995.
31. JI. Рабинер, Б. Гоулд "Теория и применение цифровой обработки сигналов" //Москва, изд. «Мир», 1975.
32. В. Logan "Mel Frequency Cepstral Coefficients for Music Modeling" // Proceedings of International Symposium on Music Information Retrieval, 2000.
33. B.K. Gunturk, et al "Color Plane Interpolation using Alternating Projections" // IEEE Transactions on Image Processing, vol. 11, no. 9, pp. 997-1013, September 2002.
34. R. Kimmel "Demosaicing: Image Reconstruction from CCD Samples" // Proceedings of IEEE Transactions on Image Processing, vol. 8, pp. 1221-1228, 1999.
35. D.D. Muresan, T.W. Parks "Optimal Recovery Demosaicing" // Proceedings of IASTED Signal and Image Processing, Hawaii, August 2002, pp. 260-265.
36. X. Li, M.T. Orchard "New Edge-Directed Interpolation" // IEEE Trans, on Image Processing, vol. 10, no. 10, October 2001.
37. J.A. Leitao, M. Zhao and G. de Haan "Content-Adaptive Video Up-Scaling for High-Definition Displays" // Proceedings of IVCP 2003, vol. 5022, January 2003.
38. A. Lukin "Image resampling algorithms" // Demo web-page http://audio.iiahtmark.oi^/hikin/uraphics/resampling.htm
39. P. Grunwald "A Tutorial Introduction to the Minimum Description Length Principle" // Chapters 1 and 2 of "Advances in Minimum Description Length: Theory and Applications", MIT Press, April 2005, ISBN 0-262-07262-9.
40. Терминологический указатель1. HRTF, 451. К nearest neighbors, 421. MPEG 1 Layer 3,171. PSNR, 36, 41H
-
Похожие работы
- Моделирование и автоматизация тестирования процессов передачи мультимедийных потоков на основе комплексной оценки задержек их воспроизведения
- Методы и средства создания человеко-машинного интерфейса мультимедийных автоматизированных обучающих систем
- Разработка и исследование усовершенствованного метода компрессии звуковых данных в мультимедийных системах
- Способ и устройство распознавания транспортных потоков мультимедийных данных
- Визуально-семантическое кодирование информации в электронных учебных изданиях
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность