автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Анализ и подавление искажений в изображениях, сжатых с использованием вейвлет-преобразования
Автореферат диссертации по теме "Анализ и подавление искажений в изображениях, сжатых с использованием вейвлет-преобразования"
На правах рукописи
Денис Андреевич Зараменский
АНАЛИЗ И ПОДАВЛЕНИЕ ИСКАЖЕНИЙ В ИЗОБРАЖЕНИЯХ, СЖАТЫХ С ИСПОЛЬЗОВАНИЕМ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ
Специальность 05.12.04 Радиотехника, в том числе системы и устройства телевидения
Автореферат
диссертации на соискание ученой степени кандидата технических наук
Владимир-2010
004603978
004603978
Работа выполнена на кафедре динамики электронных систем Ярославского государственного университета им. П.Г. Демидова
Научный руководитель: доктор технических наук, профессор
Брюханов Юрий Александрович
Официальные оппоненты: доктор технических наук
Полушин Петр Алексеевич
кандидат технических наук Кобелев Владимир Юрьевич
Ведущая организация:
ОАО «Ярославский радиозавод»
Защита диссертации состоится «15» июня 2010 г. в 14.00 часов на заседании диссертационного совета Д 212.025.04 при Владимирском государственном университете по адресу: 600000, г. Владимир, ул. Горького, д. 87, ВлГУ, корп. 3, ауд. 301.
Тел./факс: (4922) 479960
С диссертацией можно ознакомиться в библиотеке ВлГУ. Автореферат разослан « // » мая 2010 г.
Отзывы на реферат, заверенные печатью, просьба отправлять в адрес ученого секретаря диссертационного совета.
Ученый секретарь диссертационного совета доктор технических наук, профессор
А.Г. Самойлов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы диссертации. Проводимые во всех технически развитых странах разработки алгоритмов и аппаратуры сокращения объема и рационального пакетирования видео-, аудио- и сопутствующей информации являются основой создания систем эффективного использования каналов связи, сохранения действующих частотных планов, высвобождения значительной части частотного ресурса для передачи потребителям дополнительных видов услуг - мобильной и стационарной видеосвязи, многопрограммного интерактивного телевидения, телевидения высокой четкости, многопрограммного звукового вещания, цифрового кино. Разработка алгоритмов и соответствующей аппаратуры цифрового сжатия различных видов информации для их передачи по каналам связи как альтернативы аналоговым системам проводится уже более 20 лет. Был получен ряд важных результатов в плане разработки алгоритмов сжатия (включая стандарты JPEG, JPEG2000, JPEG XR, MPEG-1, MPEG-2, MPEG-4, H.261, H.263, H.264/AVC для статических и динамических изображений).
Значительный вклад в разработку теории и алгоритмов цифровой обработки изображений внесли как отечественные ученые: Ю.Б. Зубарев, М.И. Кривошеев, Л.П. Ярославский, В.П. Дворкович, A.B. Дворкович, В.А. Сойфер, М.К. Чобану, A.C. Крылов, Ю.М. Баяковский, так и зарубежные - Р. Гонсалес, Р. Вудс, Т. Чан, А. Бовик, Ю. Неуво, Я. А стола, К. Егиазарян и др.
Алгоритмы сжатия занимают значительное место в теории цифровой обработки изображений. Связано это с тем, что изображения, представленные в цифровой форме, требуют для хранения довольно большой объем памяти, а при передаче их по каналам связи требуется значительное время. Так, для хранения изображения с Full HD разрешением 1920x1080 пикселей и 24 битами на отсчет требуется 1920х 1080x24=5,93 Мбайт памяти. Чтобы передать его по типовому телекоммуникационному каналу со скоростью 1 Мбит/с, понадобится около 40 секунд. В то же время известно, что изображения содержат избыточную информацию, на которую тратятся память и полоса частот канала связи. Алгоритмы сжатия уменьшают объем избыточной информации. Их можно разделить на два класса:
- алгоритмы сжатия без потерь (рис. 1а);
- алгоритмы сжатия с потерями (рис. 16).
Алгоритмы сжатия без потерь основаны на исключении избыточной статистической информации. «Сжатие без потерь» означает, что процесс обратим, т. е. информацию можно восстановить при декодировании в первоначальном виде.
Алгоритмы сжатия с потерями основаны на том, что в изображении содержится информация, либо слабо воспринимаемая человеческим глазом, либо ненужная для задачи дальнейшей обработки, например для выделения и распознавания объектов. В случае, когда потребителем информации на изображении является человек, мы имеем дело с психофизиологической избыточностью информации. Снижение такой избыточности состоит в исключении несущественных частей изображения, которые человеческий глаз не воспринимает в силу
психофизиологических особенностей. При этом часть информации безвозвратно теряется, и восстановить ее при декодировании невозможно.
а)
Алгоритмы сжатия с потерями
1 г 1 г 1 г
Дискретное косинусное преобразование Вейвлет-преобразование Перспективные технологии сжатия
Стандарт JPEG Стандарт JPEG2000 Фрактальное кодирование Нейросетевые методы сжатия
Стандарт JPEG XR Алгоритм SPIHT
б)
Рис. 1. Алгоритмы сжатия цифровых изображений: а) без потерь; б) с потерями
JPEG (Joint Photographie Expert Group - объединенная группа экспертов в области фотографии) - это первый международный стандарт ISO/IEC для сжатия неподвижных цифровых изображений, принятый в 1994 г. Несмотря на широкую популярность данного метода сжатия, развивающиеся приложения цифровой обработки изображений потребовали новых возможностей, отсутствующих в JPEG. Это послужило стимулом для разработки и сертификации новых стандартов -JPEG2000, принятого на рубеже веков, и JPEG XR, вышедшего в 2009 г.
Алгоритм сжатия, используемый в JPEG2000, основан на вейвлет-преобразовании изображения. Стандарт JPEG2000 показывает свою эффективность в широком спектре приложений: передача изображений в сети Интернет, цифровая фотография, создание цифровых библиотек, базы данных изображений, цветное копирование, сканирование, печать, компьютерная графика, обработка медицинских
зображений, мобильная связь третьего поколения (3G), приложения клиент-сервер, ифровое кино и др.
Отбрасывание части информации при использовании стандартов сжатия JPEG JPEG2000 делает актуальным вопрос об объективной оценке качества остановленных изображений. Качество столь сложного объекта, как изображение, зляется важным, но вместе с тем нечетким понятием. С одной стороны, качество ожет рассматриваться как характеристика самого изображения и определяться его эбственными свойствами (статистическими, семантическими, структурными), оответствующие критерии являются либо субъективными, либо опираются на бъективные характеристики изображения: форму и параметры распределения ркости, оценки искажения деталей и т. д.
С другой стороны - качество часто рассматривается как мера близости двух изображений: оцениваемого и эталонного. Такой подход позволяет оценивать количественные изменения значений яркости, общий уровень искажений изображений при преобразованиях (фильтрация, сжатие с потерями и т. д.). При этом оценивается качество самого средства преобразования - алгоритма или устройства, что важно при построении систем обработки изображений.
Относительно новый подход к оценке качества изображений заключается в использовании априорной информации об искажениях, проявляющихся при формировании, кодировании или передаче визуального сигнала. При использовании алгоритмов сжатия визуальная информация подвергается различного типа искажениям: блочность, размытие, звон и др. Если система обработки такова, что выходное изображение содержит лишь конечное число различных типов искажений, то независимая оценка каждого вида искажений позволяет судить о качестве всей системы. Преимущество такого подхода перед описанными выше состоит в том, что даже сильно коррелированные между собой искажения и искажения, зависящие от входного изображения, измеряются независимо. Это позволяет избежать ситуаций, когда разные по качеству изображения не отличаются с точки зрения меры близости их к оригиналу. Более того, независимые метрики количественной оценки искажений могут быть использованы для оптимизации параметров кодирующего устройства с целью повышения качества. Адекватное измерение и анализ искажений позволяет разрабатывать алгоритмы их подавления и улучшения качества восстановленных изображений.
Для стандарта сжатия JPEG существуют как эталонные, так и неэталонные алгоритмы количественного анализа артефактов блочности и размытия. Для стандарта JPEG2000 основными типами искажений являются размытие и звон. Задача количественной анализа данных искажений является новой. Разработка соответствующих метрик размытия и звона позволит проанализировать природу данных искажений, их вклад в общее качество изображения и разработать методы борьбы с ними. Поэтому задачи анализа и подавления искажений в изображениях, сжатых с использованием вейвлет-преобразования, являются актуальными на современном уровне развития систем цифровой обработки изображений.
Основной целью работы является улучшение характеристик систем сжатия изображений путем объективной оценки искажений, вносимых на этапе преобразования.
Для достижения указанной цели в диссертационной работе решаются следующие задачи:
- разработка алгоритмов количественной оценки искажений в изображениях, сжатых с использованием вейвлет-преобразования;
- проведение эксперимента по оценке корреляции между предложенными объективными оценками качества сжатых изображений со средними экспертными оценками;
- разработка алгоритма подавления артефактов звона в сжатых изображениях на основе билатерального фильтра;
- анализ влияния искажений в сжатых изображениях на работу алгоритмов выделения и распознавания лиц.
Методы исследовании. При решении поставленных задач использовались современные методы цифровой обработки изображений, вейвлет-анализа, теории вероятностей, математической статистики, математического анализа, линейной алгебры. Для практической реализации алгоритмов применялись современные численные методы и методы объектно-ориентированного программирования на языках С++ и Java.
Научная новизна работы:
1. Разработаны эталонный и неэталонный алгоритмы оценки качества сжатых изображений, основанные на измерении уровня размытия в восстановленном изображении.
2. Разработан эталонный алгоритм оценки качества сжатых изображений, основанный на измерении уровня звона в восстановленном изображении.
3. Разработан и исследован алгоритм подавления звона в сжатых изображениях.
4. Исследовано влияние искажений звона и размытия на алгоритмы выделения и распознавания лиц на изображениях.
Практическая значимость работы:
1. Разработаны алгоритмы оценки уровня звона и размытия в изображениях, сжатых с применением вейвлет-преобразования.
2. Проведен эксперимент по оценке корреляции между объективными критериями качества сжатых изображений со средними экспертными оценками. Коэффициент корреляции Пирсона между предлагаемыми объективными оценками и средними экспертными составил 0,74.
3. Разработан алгоритм подавления артефактов звона на основе модифицированного билатерального фильтра. Применение данного алгоритма увеличивает ПОСШ восстановленного изображения на 1,5-3 дБ по сравнению с классическим билатеральным фильтром.
4. Предложена система архивирования видеоизображений на основе стандарта JPEG2000 с учетом требований систем видеонаблюдения и с возможностью идентификации личности. Вероятность верной идентификации личности по видеоархиву составила 48%.
Апробация результатов работы
Результаты работы обсуждались на следующих научно-технических ¡минарах и конференциях:
. Десятая - двенадцатая международная конференция и выставка «Цифровая
обработка сигналов и ее применение», Москва, 2008-2010. . 63-64-я научная сессия, посвященная Дню Радио, Москва, 2008-2009. , 15-я Международная научно-техническая конференция «Информационные средства и технологии», Москва, 2007.
15-я международная научно-техническая конференция «Радиоэлектроника, электротехника и энергетика», Москва, 2009. , International IEEE Conference devoted to the 150-anniversary of Alexander S. Popov
(EUROCON 2009), Saint Petersburg, 2009. . Internationa! Conference «Wavelets and Applications», Saint Petersburg, 2009. . 14-я Всероссийская конференция «Математические методы распознавания образов», Москва, 2009.
Реализация результатов работы
Результаты работы внедрены в соответствующие разработки ЗАО «Фирма ТЦ КАМИ», г. Москва, ООО «А-ВИЖН», г. Ярославль. Отдельные результаты иссертационной работы внедрены в учебный процесс ЯрГУ им. П.Г. Демидова в амках дисциплин «Цифровая обработка изображений», «Обработка и передача ультимедийной информации», «Основы телевидения и видеотехники». Научно-исследовательская программа для архивирования изображений с возможностью дентификации личности PicLab.FDJ2K зарегистрирована в Реестре программ для ВМ, свидетельство № 2009616724 от 03.12.2009. Все результаты внедрения подтверждены соответствующими актами.
Публикации. По теме диссертации опубликовано 18 научных работ, из них статья в журнале, рекомендованном ВАК, 2 статьи в сборнике научных трудов Физического факультета ЯрГУ, 15 докладов на научных конференциях.
Структура и объем работы. Диссертация состоит из введения, четырех разделов, заключения, списка использованных источников, содержащего 208 наименований, и 4 приложений. Она изложена на 174 страницах машинописного екста, содержит 66 рисунков и 13 таблиц.
На защиту выносятся:
1. Алгоритмы оценки уровня размытия и звона в изображениях, сжатых с применением вейвлет-преобразования.
2. Результаты сопоставления предложенных объективных оценок искажений и качества сжатых изображений со средними экспертными оценками.
3. Алгоритм подавления звона в сжатых изображениях на основе билатерального фильтра.
4. Результаты анализа работы алгоритмов выделения и распознавания лиц в условиях искажений, характерных для изображений, сжатых с использованием вейвлет-преобразования.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована необходимость и актуальность проведения исследований в области разработки оценок качества и подавления искажений в сжатых изображениях. Сформулированы цели и задачи диссертационной работы, определена их научная и практическая значимость. Изложены основные положения, выносимые на публичную защиту.
В первом разделе приведен обзор современных методов сжатия изображений на основе вейвлет-преобразования и современных субъективных и объективных методов оценки качества. С использованием тестовых изображений, сжатых алгоритмом JPEG2000, проведен сравнительный анализ ряда объективных критериев оценки качества: пикового отношения сигнал/шум (ПОСШ), среднеквадратичной ошибки (СКО) и универсального индекса качества (УИК). Также рассмотрен специализированный неэталонный индекс качества для JPEG2000 изображений (НИК2000).
Проведенные в данном разделе исследования позволяют сформулировать следующие основные выводы:
1. На сегодняшний день наиболее перспективными технологиями сжатия изображений являются алгоритмы с использованием вейвлет-преобразования. К ним относятся стандарты JPEG2000 и Motion JPEG2000, которые обладают рядом преимуществ по сравнению с традиционно используемыми алгоритмами на основе дискретного косинусного преобразования.
2. Актуальной проблемой в области цифровой обработки изображений является вопрос оценки качества сжатых изображений. Традиционно используемые критерии (ПОСШ, СКО, УИК) далеко не всегда показывают результат, хорошо коррелированный с субъективно воспринимаемым качеством изображения. На современном этапе развития систем обработки изображений представляет интерес разработка специализированных критериев оценки качества сжатых изображений (НИК2000) с использованием априорной информации о вносимом типе искажений.
Таким образом, проведенный анализ позволил сформулировать следующие основные задачи диссертации:
- разработка алгоритмов количественной оценки искажений в изображениях, сжатых с использованием вейвлет-преобразования;
- проведение эксперимента по оценке корреляции между предложенными объективными оценками качества сжатых изображений со средними экспертными оценками;
- разработка алгоритма подавления артефактов звона в сжатых изображениях на основе билатерального фильтра;
- анализ влияния искажений в сжатых изображениях на работу алгоритмов выделения и распознавания лиц.
Решению этих задач и посвящены следующие три раздела данной работы.
Второй раздел посвящен анализу искажений типа размытие и звон, >зникающих при сжатии изображений алгоритмом .ГРЕ02000 и разработке [горитмов их количественной оценки. Размытие возникает в сжатых изображениях ) причине масштабирования низкочастотных поддиапазонов вейвлет-разложения 1 этапе декодирования изображения и характеризуется расплыванием границ и 5щей потерей детальности. Явление звона вызвано квантованием высокочастотных )эффициентов и проявляется визуально в виде ряби около резких границ на юбражении. Эффект звона подобен эффекту Гиббса, возникающему при 5нулении высокочастотных коэффициентов ряда Фурье для цифровых сигналов, ример возникновения размытия и звона на границе одномерного модельного 1гнала представлен на рис. 2.
Рис. 2. Пример размытая и звона на границе одномерного сигнала
Данные искажения нерегулярны и коррелированны с исходным зображением, что существенно усложняет их количественную оценку, [редлагаемые метрики размытия и звона определены в пространственной области и снованы на анализе границ в изображении.
Расчет метрики размытия производится следующим образом:
1. Рассмотрим строку изображения {х^ х2,}, где х, - значение яркости пикселя изображения. Используя фильтр Собеля, выделим границы изображения, содержащиеся в его строке. Получим массив значений, содержащий положения границ в одной из м строк изображения:
{рир2,...,р5}, 5<ЛГ.
2. Для каждой точки р5 найдем положение ближайшего слева локального экстремума яркости 15 и ближайшего справа локального экстремума яркости г5. Найдем разницу между определенными положениями: Полученное значение назовем локальной метрикой размытия границы.
3. Метрику размытия (МР) изображения определим как усредненное значение локальных метрик размытия, вычисленных во всех строках изображения:
м я
12Х,
7=I
Следует отметить, что описанный выше алгоритм может детектировать границы как в оригинальном изображении (эталонный алгоритм), так и в декодированном изображении, подверженном размытию (неэталонный алгоритм).
С учетом эмпирически найденного порогового значения р=20, которое не превышается для изображений, сжатых алгоритмом .1РЕ02000, метрику размытия можно нормировать следующим образом:
0<^<1. р
В случае неэталонной реализации метрики размытия (нМР) аналогичная оценка будет иметь вид:
Р - нМР
где р' - верхнее пороговое значение для нМР, равное 27. Отметим, что при использовании только декодированного изображения при большом коэффициенте сжатия уже невозможно определить часть границ и оценить их степень размытия. Данный эффект компенсируется при нормировании оценки.
На рис. 3 представлены зависимости МР и нМР от коэффициента сжатия к для тестовых изображений с различной степенью детализации: «Перцы», «Лена», «Бабуин».
20 40 60 80 100 120 140 160 180 К
Рис. 3. Зависимости МР и нМР от коэффициента сжатия для трех тестовых изображений
Поскольку эталонная метрика размытия обнаруживает сильно размытые границы на изображении, ее значения больше, чем значения неэталонной метрики размытия при К>20. С ростом коэффициента сжатия для изображений «Лена» и «Перцы» отклонение МР от нМР не увеличивается. Для высокочастотного изображения «Бабуин» нМР сильно отличается от МР. Указанного недостатка можно избежать при адаптивной настройке параметров фильтра Собеля в зависимости от частотных характеристик исходного изображения.
Для оценки уровня звона воспользуемся результатами, полученными на этапе вычисления метрики размытия:
1. Предположим, что ширина каждой границы в каждой строке изображения известна и сохранена в переменной и^. Вычислим локальную метрику звона
вокруг границы изображения (п'г,п„)1, определяемую положением рх,
следующим образом:
), = |тах(х, - х,) - тт(х( - х, )| х ^ - /, | +
+ |тах(х; - х)) - тт(х^ — Зс^ )| х - г, |,
где х1 - значение яркости пикселя оригинального изображения, Зс, - значение яркости пикселя искаженного изображения, \\>! — фиксированная ширина звона, равная 16 пикселям, которая была получена на основе анализа воздействия искажающих факторов на идеальный сигнал. Если отрезки [р1 и
\_г$,р5 + пу ] не существуют, то полагаем равной 0.
2. Усредним локальные метрики звона:
- по тем р3, для которых величина (и>„„Д,. отлична от 0. Мы получим метрику
звона (МЗ), которая отражает амплитуду звона с учетом размера области его фактического проявления и не зависит от других артефактов сжатия;
- по всем р5. Мы получим общую метрику звона (МЗобш), она отражает амплитуду звона с учетом размеров области его теоретического проявления и зависит от других искажений, вызванных сжатием изображения:
М У М 5
= ^-, М3„й
•'общ 14
II I5;
р.
В ходе проведенных исследований для метрики звона также были получены предельные значения Р" для ,1РЕ02000 изображений:
0<М<1?
р"
где Р"=512 - удвоенное произведение фиксированной ширины звона (16) на средний перепад яркости (16). Поскольку алгоритм вычисления метрики звона
использует оригинальное изображение, он допускает только эталонную реализацию. Отметим, что алгоритм вычисления уровня звона содержит все необходимые функции для определения уровня размытия, поэтому предложенные метрики могут быть вычислены одновременно.
На рис.4 представлены зависимости метрики звона и общей метрики звона от коэффициента сжатия к для трех тестовых изображений. Анализируя графики, можно отметить сложный характер зависимостей для М30бЩ. Для изображений «Лена» и «Перцы» наблюдается рост МЗо6щ при небольшом сжатии, но с ростом коэффициента сжатия М30бЩ уменьшается, но не монотонно, а иногда с небольшими колебаниями. Это объясняется тем, что с увеличением степени сжатия границы изображения размываются, и звон вокруг них не проявляется, т. е. область звона сужается. Из соответствующих зависимостей для МЗ видно, что в той области, где звон еще проявляется, его амплитуда растет. Таким образом, зависимости для МЗо6щ отражают эффект сужения области от роста амплитуды звона. Графики М30бЩ и МЗ для тестовых изображений подтверждают экспериментальный факт: с ростом коэффициента сжатия группе экспертов становится все труднее определить звон в изображении, поскольку его область сжимается, иногда гораздо сильнее, чем растет амплитуда звона. Однако в тех местах, где звон все-таки проявляется, искажения очень значительны и хорошо заметны. Графики МЗ для всех тестовых изображений носят монотонный возрастающий характер: значения удельной метрики звона увеличиваются с ростом коэффициента сжатия К.
а) б)
Рис. 4. Зависимость метрики звона (а) и общей метрики звона (б) от степени сжатия для трех
тестовых изображешш
На основе данных, полученных в результате измерения тестовых изображений, была предложена следующая линейная комбинация метрик размытия и звона - индекс качества Л'Е02000 изображений (ИК):
ИК = 100 - (20 • МР + 51,2 - МЗ), ИКе[0,100].
Весовые коэффициенты при метриках размытия и звона были получены путем минимизации отклонения от разностной средней экспертной оценки (БМОБ), полученной в ходе проведения субъективной визуальной экспертизы с привлечением более 100 экспертов.
Проведен сравнительный анализ предложенных метрик с известными эталонными и неэталонными критериями: ПОСШ, УИК и НИК2000. В качестве критериев сравнения использовались меры близости полученных результатов к субъективной средней экспертной оценке РМОБ: коэффициент линейной корреляции Пирсона, коэффициент ранговой корреляции Спирмена и квадратный корень из СКО. Полученные коэффициенты корреляции приведены в табл. 1.
Анализ приведенных данных показывает, что предложенные метрики показывают хорошую согласованность с визуальной оценкой БМОБ. Меньшая корреляция метрик с ИМОБ по сравнению с ПОСШ и УИК объясняется их направленностью на измерение одного конкретного типа искажения (звона или размытия), в то время как задачей экспертной оценки является комплексная оценка качества изображения. Кроме того, экспертам сложно определить наличие звона в изображении при больших коэффициентах сжатия. Для предложенного индекса качества изображений коэффициент корреляции Пирсона возрастает и составляет 0,74.
Таблица 1
Коэффициенты корреляции между значениями DMOS и объективными критериями
Критерии оценки качества Коэффициенты корреляции
Пирсона Спирмена ■Jcko
ПОСШ 0,8449 0,8428 10,2306
УИК 0,7896 0,8170 11,7365
НИК2000 0,6541 0,6196 14,4668
Ml' 0,7085 0,7114 13,5105
МЗ 0,6641 0,6541 14,299
ик 0,7471 0,7391 12,7387
Разработанные метрики оценки размытия и звона можно применять для покадровой оценки качества видеопоследовательностей, сжатых алгоритмом Motion JPEG2000. Для неэталонной метрики размытия по результатам калибровки на тестовых видеопоследовательностях верхнее пороговое значение Р' было взято равным 23. Для оценки искажений во всей видеопоследовательности MP и МЗ усреднялись по всем кадрам. Проведен сравнительный анализ метрик размытия и звона с моделями со стандартными оценками качества видео VQM (Video Quality Measurement). Использовались общая модель (VQMo6lIl) и модель ПОСШ (VQMP). Полученные результаты для 3 тестовых видеопоследовательностей с различной
скоростью движения объектов в кадре, сжатых с различными коэффициентами сжатия к, приведены в табл. 2. Установлено, что отсутствие в моделях VQM количественной меры звона приводит к противоречивым оценкам для Motion JPEG2000 видеопоследовательностей. MP показывает такие же результаты, что и присутствующая в общей модели VQM мера размытия, допуская при этом неэталонную реализацию.
Таблица 2
Сравнение метрик оценки качества видеопоследовательностей
«Ведущий» «Футболисты» «Шоссе»
£=10 s: = 50 а: = юо К=10 К = 50 К= 100 К= 10 А: = 50 К - 100
MP 0,18 0,36 0,44 0,23 0,35 0,47 0,17 0,33 0,54
нМР 0,18 0,27 0,35 0,25 034 0,38 0,17 0,30 0,52
МЗ 0,15 0,29 0,35 0,23 0,39 0,44 0,23 0,41 0,42
VQMofim 0,06 0,56 0,75 0,07 0,36 0,53 0,08 0,43 0,66
VQMp 0,03 0,15 0,27 0,10 0,34 0,45 0,09 0,30 0,42
В ходе проведения исследований установлено, что искажения размытия и звона имеют сильную нелинейную зависимость друг от друга. Поэтому важной представляется задача подавления звона при сохранении размытия и увеличение четкости изображения при сохранении уровня звона.
Третий раздел посвящен разработке алгоритмов подавления звона на сжатых изображениях. Проведен анализ использования сглаживающих фильтров для устранения данного искажения. Сжатые алгоритмом ,1РЕС2000 изображения были обработаны линейным низкочастотным, медианным и билатеральным фильтрами. С помощью предложенных выше метрик размытия и звона проводился контроль уровня искажений до и после фильтрации. Результаты исследования для изображения «Лена» приведены на рис. 5.
Установлено, что наибольшее подавление звона достигается при обработке билатеральным фильтром. С другой стороны, именно этот тип фильтрации вносит наибольшее размытие границ, что сильно ухудшает зрительное восприятие изображения.
Предлагается модифицировать билатеральный фильтр и обрабатывать не всё изображение (и даже не все окрестности границ), а только те фрагменты, в которых звон действительно проявляется. На основе метрики звона составляется соответствующая карта звона для изображения, и далее обрабатываются только те пиксели, которые принадлежат этой карте. Описанная схема обработки изображения представлена на рис. 6.
а) б)
Рис. 5. Зависимости МЗ (а) и МР (б) от коэффициента сжатия для тестового изображения «Лена» до и после различных вариантов постобработки
Рис. 6. Предлагаемый алгоритм удаления звона из изображения
Работа модифицированного билатерального фильтра включает в себя
следующие этапы:
1. Выделение всех границ в сжатом изображении и составление отрезков [ps-^Wf,ls)кJ{rs,ps+^Vf] для каждого положения границы р5.
2. Нанесение отрезков на соответствующую карту - пустое изображение, размеры которого равны размерам исходного изображения. Поскольку метрика звона учитывает только вертикальные границы, следует применить эту же последовательность действий к горизонтальным границам.
3. Удаление из карты звона окрестностей границ для сохранения уровня размытия изображения. Сделать это можно, объединяя все области, по которым подсчитывается МР, и вычитая полученное множество точек из карты звона. Пример итоговых карт звона для двух тестовых изображений приведен на рис. 7.
4. Наложение на изображение карты звона, содержащей области горизонтально и вертикально направленного звона.
5. Фильтрация изображения билатеральным фильтром. Маска фильтра должна применяться только к тем пикселям, которые принадлежат карте звона.
а) б)
Рис. 7. Результаты вычисления карты звона для тестовых изображений «Лена» (а) и «Скарлет» (б)
Результаты моделирования показывают, что наилучший уровень подавления звона достигается при следующих параметрах модифицированного билатерального фильтра: размер маски м> = 5, пространственное среднеквадратичное отклонение = 3 и яркостное среднеквадратичное отклонение с,- = 0,5.
На рис. 8 приведены зависимости МЗ и МР от коэффициента сжатия при обработке классическим и модифицированным билатеральным фильтрами. Как следует из этих графиков, желаемая цель подавить звон, не увеличив размытие изображения, достигнута.
а) б)
Рис. 8. Зависимости МЗ (а) и МР (б) от коэффициента сжатия для тестового изображения «Бабуин» до и после билатеральной фильтрации 16
Сравнительный анализ работы билатерального и модифицированного «латерального фильтров по традиционным метрикам ПОСШ и УИК приведен на яс. 9.
¡к : | —Я— Б аб.ч 1м (бил ЭТ^ 6«лаг)
! I
...... -V. | ! : |___А. !
! М ;' ■ — —^
МИМ*
! 1 ; !
а)
б)
Рис. 9. Зависимости ПОСШ (а) и УИК (б) от коэффициента сжатия для тестового изображения «Бабуин» при использовании обычного и модифицированного билатерального фильтров
Как следует из приведенных зависимостей, преимущество одифицированного билатерального фильтра составляет 1,5-3 дБ или 0,1-0,2 щницы по шкале УИК, причем наибольшая разница достигается при малых ээффициентах сжатия, что важно для практических приложений алгоритма ■4202000.
Четвертый раздел посвящен анализу влияния искажений, возникающих при катии алгоритмом Л>Е02000, на результат работы алгоритмов выделения и опознавания лиц. Необходимая для работы таких алгоритмов визуальная »формация должна представляться с максимально возможным качеством. Поэтому эзникающие искажения (размытие и звон) могут оказывать негативное влияние на *боту таких алгоритмов.
На основе проведенных исследований был сделан выбор в пользу алгоритма ^деления лиц на основе бустинга (известный также как алгоритм Виолы-Джонса), ри использовании тестовой базы, содержащей.50 изображений и 213 лиц, уровень энаружения лиц составил 70%. При выделении лиц на изображениях, сжатых 1горитмом ,1РЕ02000, уровень обнаружения снизился на 9% (для /1=100). Уровень эжных срабатываний практически не увеличивается при росте коэффициента катия до /<Г-80.
Для анализа влияния искажений на работу алгоритмов распознавания лиц ыло разработано специализированное программное обеспечение PicLab.FD.J2K. В гм реализован как стандартный алгоритм 1РЕС2000, так и алгоритм с поддержкой Зласти интереса (ОИ). Обработка изображений в среде PicLab.FD.T2K состоит из шдующих этапов:
1. Применить алгоритм Виолы-Джонса к входному изображению или кадру видеопоследовательности. На выходе получаем координаты прямоугольных областей на изображении, содержащих лица.
2. Применить алгоритм посгфильтрации выделенных областей по цвету с целью минимизации числа ложных срабатываний.
3. Задать области интереса для каждого изображения/кадра, используя координаты прямоугольных областей из п. 1.
4. Провести сжатие изображений алгоритмом JPEG2000.
Для проведения исследований была создана собственная тестовая база из 900 изображений 30 людей, снятых в б различных местах. В каждом месте было сделано 6 снимков с разными наклонами головы и мимикой лица. Далее база была разбита на тестовую (720 изображений и 23 видеопоследовательности) и обучающую (180 изображений, по 6 изображений на класс). Обучающая база содержала фотографии людей, которых необходимо было выделить на изображениях и видеокадрах, и использовалась для обучения алгоритмов распознавания. Каждый человек из обучающей базы был сфотографирован в различных сценах с разными условиями освещенности, деталями фона, движением объектов внутри сцены: на улице, в помещении, в людном месте с городской застройкой, в безлюдном месте с городской застройкой. После процедуры обучения алгоритм распознавания содержал 30 классов.
На рис. 10 приведен пример изображения из тестовой базы, сжатого алгоритмом JPEG2000 с использованием и без использования функции ОИ, и соответствующие оценки искажений. При сжатии алгоритмом JPEG2000 с ОИ, в области лица искажения отсутствуют, однако фон на изображении искажен сильнее, чем при сжатии JPEG2000. Это объясняется тем, что битовые плоскости, соответствующие фону, усекаются и упаковываются в контейнер после битовых плоскостей ОИ.
а) ПОСШ=24,15 дБ; МР=0,87; М3=0,34 б) ПОСШ=28,48 дБ; МР=0,36; М3=0,37
Рис, 10. Тестовое изображение, сжатое алгоритмом №Е02000 (ОИ) (а) и алгоритмом 1РЕ02000 (б)
с коэффициентом К.=120
Таблица 3
Число верно распознанных лиц по тестовой базе
20-! 3/12-6/6
Гущина
Колбнева
Апальков
Стуяеиова
Малюкина
Коломейцева
Шмаглит
Метелева
Кудрякова
Тихонова
Павлов
Зараменский
Завьялова
Тарасова
10-6/6-4/4
11-3/2-2/2 Мсдков
Карасев
Нестеров
Батеха
Милкин
Охапкин
Храбрив
Коновалов
Новиков Г.
18-3/5-5/5 Горших ина
^веткова
Веселое
Новиков А.
Сергеев
Итого
Итого(%)
100%-45;66%/48%-41,64%/42,28%
473-216/227-197/200
В качестве методов распознавания лиц были выбраны нейросетевой алгоритм и метод на основе главных компонент. Результаты тестирования алгоритмов распознавания показывают, что нейросетевой алгоритм показывает наилучший результат (48%) по уровню корректного распознавания лиц, сжатых алгоритмом ,1РЕ02000 (ОИ). Алгоритм на основе метода главных компонент показывает более низкий результат (42,3%) по уровню корректного распознавания лиц, сжатых алгоритмом ДРЕв2000 (ОИ). В табл. 3 приведены результаты распознавания по всем алгоритмам для каждого класса из обучающей базы.
Данные для каждого класса приведены по следующему шаблону: «количество выделенных лиц» - «верно распознано нейросетевым алгоритмом при сжатии 1РЕ02000» / «верно распознано нейросетевым алгоритмом при сжатии ,ГРЕ02000 (ОИ)» - «верно распознано методом главных компонент при сжатии ЛРЕв2000» / «верно распознано методом главных компонент при сжатии №ЕС2000 (ОИ)». Максимально возможное число лиц для класса - 24.
Оба алгоритма показали устойчивость к наличию искажений типа размытие и звон в области лица. В некоторых классах изображения, сжатые алгоритмом 1РЕС2000, распознавались корректнее, чем изображения, сжатые с использованием ОИ. Однако для таких классов максимальное преимущество составило 1 кадр. Такие отклонения объясняются тем, что при сильном сжатии изображений метрические пространства характеристик, по которым происходит распознавание, искажаются и тестовое изображение, которое при нормальных условиях было близко к «чужому» классу из обучающей базы, после искажения пространства может оказаться ближе к «своему классу» и результат распознавания окажется верным.
По результатам тестирования алгоритмов распознавания в условиях сжатия входных изображений алгоритмом ,1РЕС2000 было установлено, что искажения типа размытие и звон, возникающие при сжатии, оказывают незначительное влияние на результат работы алгоритмов распознавания лиц. Однако для обоих алгоритмов распознавания вероятность верного распознавания оказалась выше при архивировании алгоритмом 1РЕ02000 с заданной областью интереса. Оба метода распознавания лиц показали лучшие результаты при обработке неискаженных фрагментов изображений, сжатых алгоритмом .1РЕ02000 (ОИ). Это указывает на целесообразность использования функции ОИ для архивирования изображений с возможностью идентификации личности.
В заключении приведены основные результаты, полученные в диссертационной работе.
1. Разработаны метрики эталонной и неэталонной количественной оценки искажений в изображениях, сжатых с использованием вейвлет-преобразования. Они работают в пространственной области и основаны на анализе границ изображения и колебаний яркости в окрестностях границ.
2. Проведена оценка корреляции между значениями МЗ и МР и экспертными оценками БМОБ. Коэффициент корреляции Пирсона составил 0,7 для МР и 0,66 для МЗ. Для комплексной оценки качества сжатых изображений предложено использовать взвешенную комбинацию метрик. При этом коэффициент корреляции Пирсона возрастает до 0,74.
3. Применение MP и МЗ для покадровой оценки искажений в сжатых алгоритмом Motion JPEG2000 видеопоследовательностях позволяет определять зависимости уровня искажений от коэффициента сжатия, специфики сцены, объектов и движения внутри сцены. Усредненная по всем кадрам видеопоследовательности метрика размытия хорошо согласуется с аналогичными оценками в модели VQlv106u„ при этом допуская неэталонную реализацию. Метрика звона позволяет дополнить анализ искажений и артефактов для более точной оценки качества видеопоследовательностей по методике VQM.
4. Сравнительный анализ использования сглаживающих фильтров для постобработки изображений, сжатых с использованием вейвлет-преобразования, показывает, что наилучшие результаты по удалению звона показывает билатеральный фильтр. Его преимущество составляет в среднем 11%. С другой стороны, использование билатерального фильтра усиливает размытие изображения в среднем на 40%.
5. Разработан алгоритм составления «карты звона» - пространственной области проявления звона для данного изображения. Карта звона формируется на основе предложенной метрики звона. На основе карты звона разработан модифицированный билатеральный фильтр. Его применение приводит к снижению уровня звона в изображении в среднем на 5%. При этом размытие границ tie усиливается.
6. Результаты моделирования показывают преимущество модифицированного билатерального фильтра по сравнению с классическим билатеральным на 1,5-3 дБ применительно к задаче постобработки сжатых изображений. В терминах УИК преимущество составляет в среднем 0,1-0,2 единицы.
7. Тестирование алгоритма Виолы-Джонса на изображениях, сжатых стандартом JPEG2000, показывает, что средний уровень выделения лиц падает с 70% до 61%. Уровень ложных срабатываний не увеличивается при сжатии с К<80. При более сильном сжатии происходит незначительный рост количества ложных обнаружений.
8. Использование функции области интереса, как результата работы алгоритма выделения лиц, в разработанной научно-исследовательской программе PicLab.FDJ2K позволяет избежать появления искажений типа размытие и звон в области лиц. Это особенно важно для выполнения требований систем видеонаблюдения с возможностью идентификации личности.
9. Исследования по анализу влияния искажений в сжатых изображениях на работу алгоритмов распознавания лиц, проведенные на базе изображений (720 тестовых изображений, 180 обучающих изображений, 30 классов-субъектов по 6 изображений на класс), показывают, что при использовании функции области интереса и нейросетевого алгоритма распознавания вероятность идентификации личности по лицу составляет 48%.
Ю.Предложенные алгоритмы количественной оценки искажений и подавления звона могут быть использованы в системах обработки и передачи визуальной информации и видеоархивирования. Программа PicLab.FDJ2K может быть использована как автономно в задачах видеонаблюдения, так и в составе электронных комплексов обеспечения безопасности и охраны правопорядка.
11.Результаты работы внедрены в соответствующие разработки ЗАО «Фирма Н' КАМИ», г. Москва, ООО «А-ВИЖН», г. Ярославль.
12.Научно-исследовательская программа для архивирования изображений возможностью идентификации личности PicLab.FDJ2K зарегистрирована Реестре программ для ЭВМ, свидетельство № 2009616724 от 03.12.2009.
СПИСОК ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ РАБОТ
1. Зараменский Д.А., Приоров А.Л., Хрящев В.В. Неэталонная оценка качесч изображений, сжатых на основе вейвлет-преобразования // «Успехи современн радиоэлектроники», 2009. №7. С. 28-34.
2. Zaramensky D., Khryashchev V. Image quality assessment and wavelets // Proc. of 1 int. conf. «Wavelets and Applications», St. Petersburg, Russia, 2009. P. 25-26.
3. Bekrenev V., Priorov A., Solovjev V., Zaramensky D. No-reference qual assessment of wavelet-compressed images // Proc. of the int. IEEE conf. devoted to 1 150-anniversary of Alexander S. Popov (EUROCON 2009), St. Petersburg, 201 P. 1334-1339.
4. Зараменский Д.А., Шмаглит Л.А., Павлов E.A., Студенова A.A. Архивирован изображений на основе стандарта JPEG2000 с возможностью распознавания л // Докл. 12-й междунар. конф. «Цифровая обработка сигналов и ее применени (DSPA-2010), Москва, 2010. Т. 2. С. 182-185.
5. Зараменский Д.А., Бекренев В.А., Гущина О.Н., Соловьев В.Е. Оцеп искажений в видеопоследовательностях Motion JPEG2000 // Докл. U междунар. конф. «Цифровая обработка сигналов и ее применение» (DSPA-201 Москва, 2010. Т. 2. С. 167-170.
6. Зараменский Д.А., Аминова Е.А., Корнилов A.C. Модифицированш билатеральный фильтр для подавления звона в сжатых изображениях // До] 12-й междунар. конф. «Цифровая обработка сигналов и ее применение» (DSP 2010), Москва, 2010. Т. 2. С. 307-310.
7. Зараменский Д.А., Бекренев В.А., Соловьев В.Е. Оценка уровня размытия звона в изображениях стандарта JPEG2000 // Докл. 11-й междунар. кон «Цифровая обработка сигналов и ее применение» (DSPA-2009), Москва, 20( Т. 2. С. 476-479.
8. Зараменский Д.А. Оценка искажений в сжатых видеопоследователыюст стандарта Motion JPEG2000 // Тр. LXIV науч. сессии, посвященной Дню Рад! Москва, 2009. С. 204-206.
9. Зараменский Д.А. Статистическая модель в задачах неэталонной оцен качества изображений // Докл. 15-й междунар. научно-техн. кон «Радиоэлектроника, электротехника и энергетика», Москва, 2009. Т. 1. С. 30-31.
10. Зараменский Д.А., Хрящев В.В. Оценка качества JPEG2000 изображений //Д01 14-й всерос. конф. «Математические методы распознавания образов», Моею 2009. С. 351-354.
11. Зараменский Д.А. Модификация универсального индекса качества на осно вейвлет-преобразования // Сб. тр. XIV всерос. научно-техн. конф. студенте
молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и в образовании», Рязань, 2009. С. 70-71.
I. Зараменский Д.А., Хрящев В.В. Модифицированный фрактальный алгоритм сжатия статических изображений // Докл. 10-й междунар. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2008), Москва, 2008. Т. 2. С. 515517.
I. Зараменский Д.А., Апальков И.В., Абдуллоев A.A. Сравнение эффективности использования алгоритмов оценки качества восстановленных изображений // Докл. LXIII науч. сессии, посвященной Дню радио, Москва, 2008. С. 195-197.
к Зараменский Д.А., Голубев М.Н., Шмаглит JI.A. Уменьшение артефактов блочности в JPEG-изображениях // Сб. тр. LXIII науч. сессии, посвященной Дню радио, Москва, 2008. С. 228-230.
>. Зараменский Д.А, Абдуллоев A.A., Бекренев В.А. Эталонная оценка качества восстановленных изображений // Вестник ЯрГУ им. П.Г. Демидова. Серия Физика. Радиотехника. Связь, 2008. №1. С. 114-118.
5. Зараменский Д.А., Хрящев В.В., Бекренев В.А. Неэталонный алгоритм оценки качества изображений стандарта JPEG2000 // Докл. научно-техн. семинара «Системы синхронизации, формирования и обработки сигналов для связи и вещания», Ярославль, 2008. С. 6-8.
1. Зараменский Д.А., Хрящев В.В. Фрактальный алгоритм кодирования изображений // Сб. тр. VII всерос. научно-техн. конф. ДНДС-2007, Чебоксары, 2007. С. 155-156.
3. Зараменский Д.А. Оптимизация фрактального алгоритма сжатия статических изображений // Сб. науч. тр. «Актуальные проблемы физики», Ярославль, 2007. №6. С. 110-118.
). Апальков И.В., Зараменский Д.А., Хрящев В.В. Научно-исследовательская программа для архивирования изображений с возможностью идентификации личности PicLab.FDJ2K // Свидетельство о регистрации в Реестре программ для ЭВМ № 2009616724 от 03.12.2009.
Подписано в печать 06.05.2010 Формат 60x84/16. Усл. печ. л. 1,5. Тираж 100 экз. Заказ 19/10. Бумага оф. Отпечатано на ризографе. Отдел оперативной полиграфии ЯрГУ 150000 Ярославль, ул. Советская, 14.
Оглавление автор диссертации — кандидата технических наук Зараменский, Денис Андреевич
ВВЕДЕНИЕ.
1. СОВРЕМЕННЫЕ ПРОБЛЕМЫ В ОБЛАСТИ СЖАТИЯ ИЗОБРАЖЕНИЙ И ОЦЕНКИ ИХ КАЧЕСТВА.
1.1. Стандарт JPEG2000.
1.1.1. Основные характеристики стандарта JPEG2000.
1.1.2. Поддержка области интереса.
1.1.3. Стандарт Motion JPEG2000.
1.1.4. Другие алгоритмы сжатия изображений, основанные на вейвлет-преобразовании.
1.2. Оценка качества сжатых изображений.
1.2.1. Субъективные критерии качества.
1.2.2. Объективные критерии оценки качества.
1.2.3. Пиковое отношение сигнал/шум.
1.2.4. Проблемы использования ПОСШ в качестве критерия оценки качества.
1.2.5. Универсальный индекс качества.
1.2.5.1. Определение УИК для одномерных сигналов.
1.2.5.2. Применение УИК для оценки качества изображений.
1.2.6. Неэталонный алгоритм оценки качества для JPEG изображений.
1.2.6.1. Расчет НИК2000.
1.3. Применение критериев ПОСШ, УИК, НИК2000 к оценке качества n>EG2000 изображений.
1.4. Краткие выводы.
2. ОЦЕНКА УРОВНЯ РАЗМЫТИЯ И ЗВОНА В СЖАТЫХ ИЗОБРАЖЕНИЯХ И ВИДЕОПОСЛЕДОВАТЕЛЬНОСТЯХ.
2.1 Вводные замечания.
2.2 Алгоритм оценки уровня размытия.:.
2.3. Алгоритм оценки уровня звона.
2.4. Оценка корреляции между субъективными и объективными оценками.
2.5. Алгоритмы покадровой оценки звона и размытия в видеопоследовательностях.
2.6 Тестирование предложенных алгоритмов оценки искажений в видеопоследовательностях.
2.7. Краткие выводы.
3. РАЗРАБОТКА И АНАЛИЗ АЛГОРИТМА ПОДАВЛЕНИЯ ЗВОНА В ИЗОБРАЖЕНИЯХ НА ОСНОВЕ БИЛАТЕРАЛЬНОГО ФИЛЬТРА.
3.1 Вводные замечания.
3.2. Подавление артефактов звона известными сглаживающими фильтрами.
3.3. Модифицированный билатеральный фильтр.
3.4. Результаты тестирования.
3.5. Краткие выводы.
4. АНАЛИЗ ВЛИЯНИЯ ИСКАЖЕНИЙ В СЖАТЫХ ИЗОБРАЖЕНИЯХ
НА АЛГОРИТМЫ ВЫДЕЛЕНИЯ И РАСПОЗНАВАНИЯ ЛИЦ.
4.1. Вводные замечания.
4.2. Определение области интереса с использованием алгоритма детектирования лиц.
4.2.1. Тестирование алгоритма Виолы-Джонса применительно к изображениям, сжатым стандартом JPEG2000.
4.3. Программная реализация алгоритма JPEG2000 с автоматическим определением области интереса.
4.4. Создание тестовой базы изображений.
4.5. Результаты тестирования.
4.6. Краткие выводы.
Введение 2010 год, диссертация по радиотехнике и связи, Зараменский, Денис Андреевич
Актуальность темы
Проводимые во всех технически развитых странах разработки алгоритмов и аппаратуры сокращения объема и рационального пакетирования видео-, аудио- и сопутствующей информации являются основой создания систем эффективного использования каналов связи, сохранения действующих частотных планов, высвобождения значительной части частотного ресурса для передачи потребителям дополнительных видов услуг — мобильной и стационарной видеосвязи, многопрограммного интерактивного телевидения, телевидения высокой четкости, многопрограммного звукового вещания, цифрового кино. Разработка алгоритмов и соответствующей аппаратуры цифрового сжатия различных видов информации для их передачи по каналам связи как альтернативы аналоговым системам проводится уже более 20 лет. Был получен ряд важных результатов в плане разработки алгоритмов сжатия (включая стандарты JPEG, JPEG2000, JPEG XR, MPEG-1, MPEG-2, MPEG-4, H.261, H.263, H.264/AVC для статических и динамических изображений различного разрешения) [1-40].
Проблема создания высококачественной системы цифровой передачи и хранения видеоинформации - это, главным образом, проблема быстрого и эффективного ее сжатия при сохранении качества исходной информации в смысле какой-нибудь меры или оценки [1-3, 24, 36, 40]. Этап сжатия -наиболее ресурсопотребляющая часть всей системы [22, 23]. Кодирующее устройство решает сложные задачи в реальном времени и производит большое количество операций обработки, определяющих качество цифрового преобразования изображения [16, 17, 26, 27, 29, 40]. Декодер, как правило, менее сложен и должен получать и восстанавливать данные [36, 40].
Значительный вклад в разработку теории и алгоритмов цифровой обработки изображений внесли как отечественные ученые: Ю.Б. Зубарев,
М.И. Кривошеев, Л.П. Ярославский, В.П. Дворкович, А.В. Дворкович, В.А. Сойфер, М.К. Чобану, А.С. Крылов, Ю.М. Баяковский, так и зарубежные - Р. Гонсалес, Р. Вудс, Т. Чан, А. Бовик, Ю. Неуво, Я. Астола, К. Егиазарян и др. [1-56, 66-75].
Алгоритмы сжатия занимают значительное место в теории цифровой обработки изображений [23, 39,40]. Связано это с тем, что изображения, представленные в цифровой форме, требуют для хранения довольно большого объема памяти, а при передаче их по каналам связи требуется значительное время [14, 21-23, 26, 29, 36]. Так, для хранения изображения с Full HD разрешением 1920x1080 пикселей и 24 битами на отсчет требуется 1920x1080x24=5,93 Мбайт памяти. Чтобы передать его по типовому телекоммуникационному каналу со скоростью 1 Мбит/с, потребуется около 40 секунд.
В то же время известно, что изображения содержат избыточную информацию, на которую тратятся память и полоса частот канала связи. Алгоритмы сжатия уменьшают объем избыточной информации. Их можно разделить на два класса [36, 40, 77]: алгоритмы сжатия без потерь (рис. В. 1а);
- алгоритмы сжатия с потерями (рис. В. 16). а) б)
Рис. В.1. Алгоритмы сжатия цифровых изображений: а) без потерь; б) с потерями Алгоритмы сжатия без потерь основаны на исключении избыточной статистической информации. К ним относятся: кодирование длин серий (Run-Length Encoding, RLE), метод группового кодирования (Lempel-Ziv-Welch, LZW), хаффмановское кодирование, арифметическое кодирование и др. «Сжатие без потерь» означает, что процесс обратим, т. е. информацию можно восстановить при декодировании в первоначальном виде [23, 24, 29, 40, 54].
Алгоритмы сжатия с потерями основаны на том, что в изображении содержится информация, либо слабо воспринимаемая человеческим глазом, либо ненужная для задачи дальнейшей обработки, например для выделения и распознавания объектов. В случае, когда потребителем информации на изображении является человек, мы имеем дело с психофизиологической избыточностью информации [41, 80]. Снижение такой избыточности состоит в исключении несущественных частей изображения, которые человеческий глаз не воспринимает в силу психофизиологических особенностей. При этом часть информации безвозвратно теряется, и восстановить ее при декодировании невозможно [71,72,81]. Например, глаз человека не различает цвет мелких деталей изображения [80-82], следовательно, можно хранить только яркость деталей, а цветность отбросить и таким образом 6 уменьшить общий объем информации. Этот метод традиционно применяется в телевидении [82, 161-163].
JPEG (Joint Photographic Expert Group - объединенная группа экспертов в области фотографии) - это первый международный стандарт ISO/IEC для сжатия неподвижных цифровых изображений [17, 125]. Несмотря на широкую популярность данного стандарта развивающиеся интерактивные мультимедиа приложения в проводных и беспроводных сетях, а также Интернет-приложения потребовали новых возможностей, отсутствующих в JPEG [17]. Все это послужило основой для разработки и сертификации новых стандартов — JPEG2000, принятого на рубеже веков, и JPEG XR, вышедшего в 2009 г.
Алгоритм сжатия, используемый в стандарте JPEG2000, основан на вейвлет-преобразовании изображения [12]. Стандарт JPEG2000 показывает свою эффективность в широком спектре приложений: передача изображений в сети Интернет, цифровая фотография, создание цифровых библиотек, базы данных изображений, цветное копирование, сканирование, печать, компьютерная графика, обработка медицинских изображений, мобильная связь третьего поколения (3G), приложения клиент-сервер, цифровое кино и др. [12, 34].
Отбрасывание части информации при использовании стандартов сжатия изображений JPEG и JPEG2000 делает актуальным вопрос об объективной оценке качества восстановленных изображений [40-43]. Качество столь сложного объекта, как изображение, является важным, но вместе с тем нечетким понятием. С одной стороны, качество может рассматриваться как характеристика самого изображения и определяться его собственными свойствами (статистическими, • семантическими, структурными). Соответствующие критерии являются либо субъективными, либо опираются на объективные характеристики изображения: форму и параметры распределения яркости, оценки искажения деталей и т. д.
С другой стороны - качество часто рассматривается как мера близости двух изображений: оцениваемого и эталонного. Такой подход позволяет оценивать количественные изменения значений яркости, общий уровень искажений изображений при преобразованиях (фильтрация, сжатие с потерями и т. д.). При этом оценивается качество самого средства преобразования — алгоритма или устройства, что важно при построении систем обработки изображений.
Относительно новый подход к оценке качества изображений заключается в использовании априорной информации об искажениях, проявляющихся при формировании, кодировании или передаче визуального сигнала. В случае ограниченности доступных ресурсов визуальная информация подвергается различного типа искажениям: блочность, размытие, звон и др. [29]. Если система обработки такова, что выходное изображение содержит лишь конечное число различных типов искажений, то независимая оценка каждого вида искажений позволяет судить о качестве всей системы. Преимущество такого подхода перед описанными выше состоит в том, что даже сильно коррелированные между собой искажения и искажения, зависящие от входного изображения, измеряются независимо. Это позволяет избежать ситуаций, когда разные по качеству изображения не отличаются с точки зрения меры близости их к оригиналу. Более того, независимые метрики количественной оценки искажений могут быть использованы для оптимизации параметров кодирующего устройства с целью повышения качества. Адекватное измерение и анализ искажений позволяет разрабатывать алгоритмы их подавления и улучшения качества, восстановленных изображений. Для стандарта сжатия JPEG существуют как эталонные, так и неэталонные алгоритмы количественного анализа артефактов блочности и размытия [83-87]. Разработка индекса блочности позволила формализовать и решить задачу подавления блочности (deblocking) [87]. Для стандарта сжатия JPEG2000 основными типами искажений являются размытие и звон. Задача количественной анализа данных искажений является новой. Разработка соответствующих метрик размытия и звона позволит проанализировать природу данных искажений, их вклад в общее качество изображения и разработать методы борьбы с ними. Кроме того, требуется проанализировать зависимость данных типов искажений друг от друга, что необходимо для объективной оценки качества всего изображения. Полученные метрики должны иметь низкую вычислительную сложность для работы в реальном масштабе времени, что позволит использовать их для оценки качества видеопоследовательностей, сжатых с применением стандарта JPEG2000.
Основной целью работы является улучшение характеристик систем сжатия изображений путем объективной оценки искажений, вносимых на этапе преобразования.
Для достижения указанной цели в диссертационной работе решаются следующие задачи:
- разработка алгоритмов количественной оценки искажений в изображениях, сжатых с использованием вейвлет-преобразования;
- проведение эксперимента по оценке корреляции между предложенными объективными оценками качества сжатых изображений со средними экспертными оценками;
- разработка алгоритма подавления артефактов звона в сжатых изображениях на основе билатерального фильтра;
- анализ влияния искажений в сжатых изображениях на работу алгоритмов выделения и распознавания лиц.
Методы исследования. При решении , поставленных задач использовались современные методы цифровой обработки изображений, вейвлет-анализа, теории вероятностей, математической статистики, математического анализа, линейной алгебры. Для практической реализации алгоритмов применялись современные численные методы и методы объектно-ориентированного программирования на языках С++ и Java.
Достоверность полученных научных результатов. Достоверность полученных научных результатов обусловлена применением адекватного математического аппарата, подтверждается их согласованностью с результатами проведенного компьютерного моделирования и сопоставлением полученных результатов с научными данными, известными из российской и зарубежной литературы.
Научная новизна. В рамках данной работы получены следующие новые научные результаты.
1. Разработаны эталонный и неэталонный алгоритмы оценки качества сжатых изображений, основанные на измерении уровня размытия в восстановленном изображении.
2. Разработан эталонный алгоритм оценки качества сжатых изображений, основанный на измерении уровня звона в восстановленном изображении.
3. Разработан и исследован алгоритм подавления звона в сжатых изображениях.
4. Исследовано влияние искажений звона и размытия на алгоритмы выделения и распознавания лиц на изображениях. Практическая значимость
1. Разработаны алгоритмы оценки уровня звона и размытия в изображениях, сжатых с применением вейвлет-преобразования.
2. Проведен эксперимент по оценке корреляции между объективными критериями качества сжатых изображений со средними экспертными оценками. Коэффициент корреляции Пирсона между предлагаемыми объективными оценками и средними экспертными составил 0,74.
3. Разработан алгоритм подавления артефактов звона на основе модифицированного билатерального фильтра. Применение данного алгоритма увеличивает ПОСШ восстановленного изображения на 1,5-3 дБ по сравнению с классическим билатеральным фильтром.
4. Предложена система архивирования видеоизображений на основе стандарта JPEG2000 с учетом требований систем видеонаблюдения и с возможностью идентификации личности. Вероятность верной идентификации личности по видеоархиву составила 48%. Предложенные алгоритмы количественной оценки искажений и подавления звона могут быть использованы в системах обработки и передачи визуальной информации, медицинских изображений, видеоархивирования. Разработанная система архивирования может быть использована как автономно в задачах видеонаблюдения, так и в- составе электронных комплексов обеспечения безопасности и охраны правопорядка.
Результаты работы внедрены в соответствующие разработки ЗАО «Фирма НТЦ КАМИ», г. Москва, ООО «А-ВИЖН», г. Ярославль.
Научно-исследовательская программа для архивирования изображений с возможностью идентификации личности PicLab.FDJ2K зарегистрирована в Реестре программ для ЭВМ, свидетельство № 2009616724 от 03.12.2009.
Отдельные результаты диссертационной работы внедрены в учебный процесс ЯрГУ им. П.Г. Демидова в рамках дисциплин «Цифровая обработка изображений», «Обработка и передача мультимедийной информации», «Основы телевидения и видеотехники».
Все результаты внедрения подтверждены соответствующими актами. На защиту выносятся:
1. Алгоритмы оценки уровня размытия и звона в изображениях, сжатых с применеш i ем вейвлет-преобразования.
2. Результаты сопоставления предложенных объективных оценок искажений и качества сжатых изображений со средними экспертными оценками.
3. Алгоритм подавления звона в сжатых изображениях на основе билатерального фильтра.
4. Результаты анализа работы алгоритмов выделения и распознавания лиц в условиях искажений, характерных для изображений, сжатых с использованием вейвлет-преобразования.
Апробация работы. Результаты работы обсуждались на следующих научно-технических семинарах и конференциях:
1. Десятая - двенадцатая международная конференция и выставка «Цифровая обработка сигналов и ее применение», Москва, 2008 — 2010.
2. 63 - 64-я научная сессия, посвященная Дню Радио, Москва, 2008 — 2009.
3. 15-я Международная научно-техническая конференция «Информационные средства и технологии», Москва, 2007.
4. 15-я международная научно-техническая конференция «Радиоэлектроника, электротехника и энергетика», Москва, 2009.
5. International IEEE Conference devoted to the 150-anniversary of Alexander S. Popov (EUROCON 2009), Saint Petersburg, 2009.
6. International Conference «Wavelets and Applications», Saint Petersburg, 2009.
7. 14-я Всероссийская конференция «Математические методы распознавания образов», Москва, 2009.
Публикации. По теме диссертации опубликовано 18 научных работ, из них 1 статья в журнале, рекомендованном ВАК («Успехи современной радиоэлектроники»), 2 статьи в сборнике научных трудов физического факультета ЯрГУ, 15 докладов на научных конференциях.
Структура и объем работы. Диссертация состоит из введения, четырех разделов, заключения, списка использованных источников, содержащего 208 наименований, и 4 приложений. Она изложена на 174 страницах машинописного текста, содержит 66 рисунков и 13 таблиц.
Заключение диссертация на тему "Анализ и подавление искажений в изображениях, сжатых с использованием вейвлет-преобразования"
11.Результаты работы внедрены в соответствующие разработки ЗАО «Фирма НТЦ КАМИ», г. Москва, ООО «А-ВИЖН», г. Ярославль.
12.Научно-исследовательская программа для архивирования изображений с возможностью идентификации личности PicLab.FDJ2K зарегистрирована в Реестре программ для ЭВМ, свидетельство № 2009616724 от 03.12.2009.
ЗАКЛЮЧЕНИЕ
Библиография Зараменский, Денис Андреевич, диссертация по теме Радиотехника, в том числе системы и устройства телевидения
1. Борисов Ю.И., Дворкович В.П., Зубарев Ю.Б. Технические проблемы и перспективы внедрения цифрового телевидения и радиовещания в России. Часть 1 // Broadcasting. Телевидение и радиовещание, 2007. №1. С. 22-27.
2. Борисов Ю.И., Дворкович В.П., Зубарев Ю.Б. Технические проблемы и перспективы внедрения цифрового телевидения и радиовещания в России. Часть 2 // Broadcasting. Телевидение и радиовещание, 2007. №2. С. 14-18.
3. Зубарев Ю.Б., Дворкович В.П., Дворкович А.В. Проблемы и перспективы внедрения информационных мультимедийных систем в России // Электросвязь,:2бо'4.' №10.' С:г1 1-16.
4. Цифровая обработка изображении/АТИИЭР, 1972. Т. 60, №7.
5. Распознавание образов и Ьоработаа^изображений // ТИИЭР, 1979. Т. 67, №10.
6. Обработка изображений^ // ТИИЭР- 1981'.' Т. 69, №5.
7. Ярославский Л.П. Введение в цифровую обработку изображений. М.: Советское радио,'1979/' ' " '
8. Yaroslavsky L. Digital Picture Processing An Introduction // Springer Verlag, 1985". :1 x w
9. Yaroslavsky L.' Eden M. Fundamentals of Digital Optics // Birkhauser,i1. Boston, 1996. • '
10. Даджион Д., Мерсеро P. Цифровая обработка многомерных сигналов // М.: Мир, 1988.
11. Чобану 1VI.K., Миронов В .Г. Состояние и перспективы развития методов цифровой обработки многомерных сигналов. Часть 1. Теория //4 t 4 !
12. Электричество, 2002. №11. С. 58-69.
13. Taubman D.S., Marcellin M.W. JPEG2000: Image Compression Fundamentals, Standards, and Practice // Norwell, MA: Kluwer, 2001.1 1 ' ' * 136 '
14. Прэтт У. Цифровая обработка изображений // М.: Мир, 1982.
15. Павлидис Т.'Алгоритмы машинной-графики и обработки изображений //М.: Радио и связь, 1986.
16. Чобану М.К. Многомерные многоскоростные системы обработки сигналов // М.: Техносфера, 2009.
17. Цифровая обработка телевизионных и компьютерных изображений /i
18. Под ред. Зубарева Ю.Б. и Дворковича В.П. // М.: 1997.
19. Шлихт Г.Ю. Цифровая обработка цветных изображений // М.: Эком, 1997.
20. Recommendation ITU-R ВТ.500-11. Methodology for the subjectiveassessment of the quality of television pictures, 2002.i
21. Wolf S., Pinson M. Video Quality Measurement Techniques // US Department of Commerce, National Telecommunication and Information Administration Report 02-392: *
22. Institute for Telecommunication Sciences official website www.its.bldrdoc.gov // Part of US Department of Commerce, Nationalv
23. Telecommunication and Information Administration. t
24. Recommendation ITU-R BT.601. Studio encoding parameters of digitaltelevision for standard 4:3 and wide screen 16:9 aspect ratios, 2007.
25. Грузман И.С., Киричук B.C., Косых В.П., Перетягин Т.П., Спектор А.А. Цифровая обработка изображений в информационных системах: Учебное пособие // Новосибирск: НГТУ, 2000.
26. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео // М.: Диалог-МИФИ, 2002.
27. Цифровое преобразование изображений / Под редакцией Быкова Р.Е // М.: Горячая линия Телеком, 2003.
28. Абламейко С.В., Лагуновский Д.М. Обработка изображений: технология, методы, применение // Минск: Амалфея, 2000.26
-
Похожие работы
- Алгоритмы вейвлет-анализа и беспороговой фильтрации при SPIHT-кодировании радиолокационных изображений
- Выбор параметров дискретного вейвлет-преобразования для различных классов сигналов
- Алгоритмы вейвлет-анализа изображений в системах компьютерной обработки информации при производстве герконов и генераторных ламп
- Адаптивная обработка сигналов в базисе синтезируемых вейвлет-функций
- Методы и алгоритмы вейвлет-кодирования зашумленных изображений в радиотехнических системах
-
- Теоретические основы радиотехники
- Системы и устройства передачи информации по каналам связи
- Радиотехника, в том числе системы и устройства телевидения
- Антенны, СВЧ устройства и их технологии
- Вакуумная и газоразрядная электроника, включая материалы, технологию и специальное оборудование
- Системы, сети и устройства телекоммуникаций
- Радиолокация и радионавигация
- Механизация и автоматизация предприятий и средств связи (по отраслям)
- Радиотехнические и телевизионные системы и устройства
- Оптические системы локации, связи и обработки информации
- Радиотехнические системы специального назначения, включая технику СВЧ и технологию их производства