автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Неэталонная оценка качества в задачах фильтрации, восстановления и сжатия изображений
Автореферат диссертации по теме "Неэталонная оценка качества в задачах фильтрации, восстановления и сжатия изображений"
О1
На правах рукописи
Соловьев Владимир Евгеньевич
НЕЭТАЛОННАЯ ОЦЕНКА КАЧЕСТВА В ЗАДАЧАХ ФИЛЬТРАЦИИ, ВОССТАНОВЛЕНИЯ И СЖАТИЯ ИЗОБРАЖЕНИЙ
Специальность 05.12.04 Радиотехника, в том числе системы и устройства телевидения
Автореферат
диссертации на соискание ученой степени кандидата технических наук
1 8 АПР ¿013
Владимир - 2013
005057506
Работа выполнена на кафедре динамики электронных систем ФГБОУ ВПО Ярославского государственного университета им. П.Г. Демидова
Научный руководитель: доктор технических наук, профессор
Брюханов Юрий Александрович
Официальные оппоненты: доктор физико-математических наук, профессор,
зав. кафедрой «Основ нанотехнологии и теоретической физики» ФГБОУ ВПО Владимирского государственного университета имени Александра Григорьевича и Николая Григорьевича Столетовых Pay Валерий Георгиевич
кандидат технических наук, руководитель группы планирования и развития фиксированной сети ОАО «Вымпелком» Бухтояров Сергей Сергеевич
Ведущая организация: ОАО «Ярославский радиозавод»
Защита диссертации состоится « 6 » марта 2013 г. в 14.00 часов на заседании диссертационного совета Д 212.025.04 при ФГБОУ ВПО Владимирском государственном университете имени Александра Григорьевича и Николая Григорьевича Столетовых по адресу: 600000, г. Владимир, ул. Горького, д. 87, ВлГУ, корп. 3, ВлГУ, ФРЭМТ, ауд. 301.
С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО Владимирского государственного университета имени Александра Григорьевича и Николая Григорьевича Столетовых.
Автореферат разослан 05.02. 2013 г.
Отзывы на автореферат, заверенные печатью, просим направлять по адресу: 600000, г. Владимир, ул. Горького, д. 87, ВлГУ, ФРЭМТ.
Ученый секретарь диссертационного совета доктор технических наук, профессор
А.Г. Самойлов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы
В связи с внедрением во все области жизни современного человека высокотехнологичных устройств, которые используют каналы связи различной пропускной способности, разрабатывается все большее количество алгоритмов и аппаратуры сокращения объема видео-, аудио- и другой информации для наиболее эффективного использования каналов связи, сохранения действующих частотных планов, высвобождения частотного ресурса. За последние десятилетия были разработаны такие алгоритмы сжатия, как JPEG, JPEG-2000, JPEG XR, MPEG-1, MPEG-2, MPEG-4, 11.261, H.263, H.264, H.265 для статических и динамических изображений различного разрешения. Такие алгоритмы неизбежно вносят искажения различного типа, и встает вопрос об оценке параметров этих искажений и объективного качества искаженного изображения. В современных системах передачи информации нет стороннего наблюдателя, который бы мог оценить качество получаемого через каналы связи изображения, поэтому наибольшую востребованность на сегодняшний день приобретают неэталонные алгоритмы оценки качества изображений.
Основной задачей разработки объективных систем оценки является создание алгоритма, который мог бы в отсутствии неискаженного оригинала изображения и с большой степенью достоверности оценить качество искаженного изображения. Разработка таких алгоритмов имеет большой потенциал для использования в реальных системах обработки и передачи изображений:
- Во-первых, подобные алгоритмы могут быть использованы для контроля качества в системах обработки визуальной информации.
- Во-вторых, такие алгоритмы могут найти применение в оценке и сравнении различных стандартов обработки и преобразования изображений.
- В-третьих, они могут быть встроены в систему обработки и передачи визуальной информации с целью оптимизации параметров на различных этапах работы системы.
Важность разработки подобных алгоритмов также можно объяснить происходящим в настоящее время переходом к цифровому телевещанию, вызванным присоединением России к общеевропейской системе DVB. Для того чтобы в максимально сжатые сроки охватить всё население страны цифровым телерадиовещанием, постановлением Правительства Российской Федерации от 3 декабря 2009 г. № 985 утверждена федеральная целевая программа «Развитие телерадиовещания в Российской Федерации на 2009-2015 годы».
Значительный вклад в данную область науки и техники внесли как отечественные ученые Ю.Б. Зубарев, М.И. Кривошеев, В.П. Дворкович, A.B. Дворкович, В.А. Сойфер, М.К. Чобану, A.C. Крылов, Б.А. Алпатов, Ю.С. Бехтин, Ю.С. Радченко, так и зарубежные - С. Митра, Р. Гонсалес, Р. Вудс, А. Бовик, Ю. Неуво, Я. Астола, К. Егиазарян, М. Николова и др.
Основной целью работы является улучшение характеристик систем обработки изображений путем объективной оценки искажений, вносимых на этапах получения и преобразования.
Для достижения указанной цели в диссертационной работе решаются следующие задачи:
- Разработка неэталонного алгоритма оценки уровня размытия, внесенного в изображение при захвате сцен движения или быстро движущихся объектов.
- Модификация неэталонных алгоритмов оценки уровня шумов в изображениях.
- Разработка классификатора типов искажений в изображении на основе методов машинного обучения.
- Проведение эксперимента по оценке корреляции предложенных неэталонных алгоритмов оценки качества изображений с уровнем детектирования лиц, содержащихся на искаженных изображениях.
Объектом исследования являются алгоритмы оценки качества изображений, применяемые в радиотехнических системах сжатия визуальной информации и современных системах телевидения.
Предметом исследования являются модификация и разработка алгоритмов, в том числе на основе методов машинного обучения, с целью эффективного решения задач оценки качества изображений.
Методы исследования. При решении поставленных задач использовались современные методы цифровой обработки изображений, распознавания образов, машинного обучения, математического анализа, теории вероятностей и математической статистики. Для практической реализации алгоритмов применялись современные численные методы и методы объектно-ориентированного программирования на языке С#, а так же среда моделирования МаЛаЬ. Научная новизна
В рамках данной работы получены следующие новые научные результаты:
1. Разработан алгоритм классификации типа искажений в изображениях на основе метода опорных векторов.
2. Разработан неэталонной алгоритм оценки уровня размытия, внесенного в изображение при захвате сцен движения или быстро движущихся объектов.
3. Предложен неэталонный алгоритм оценки вероятности импульсного шума на основе адаптивного центрально взвешенного медианного фильтра.
4. Предложена модификация алгоритма неэталонной оценки среднеквадратического отклонения гауссовского шума в изображениях. Практическая значимость
1. Разработан классификатор, определяющий тип искажения в изображении при ограниченной априорной информации.
2. Проведен масштабный эксперимент по оценке корреляции между рассмотренными неэталонными алгоритмами оценки качества изображений и уровнем детектирования лиц, содержащихся на искаженных изображениях.
3. Предложенные неэталонные алгоритмы оценки качества и классификатор типа искажений в изображениях могут быть использованы в системах обработки и передачи визуальной информации, цифрового телевидения, связи, классификации и распознавания образов и в других прикладных задачах цифровой обработки изображений.
Результаты работы внедрены в соответствующие разработки ООО «ЗЭТ-Телеком» и ООО «А-ВИЖН» г. Ярославль. Отдельные результаты диссертационной работы внедрены в учебный процесс ЯрГУ им. П.Г. Демидова в рамках дисциплин «Цифровая обработка изображений» и «Компьютерное зрение», а также в научно-исследовательские работы при выполнении исследований в рамках гранта РФФИ №12-08-01215-а. Все результаты внедрения подтверждены соответствующими актами.
Достоверность полученных научных результатов обусловлена применением адекватного математического аппарата, подтверждается их согласованностью с результатами проведенного компьютерного моделирования и визуального эксперимента, а также сопоставлением полученных результатов с научными данными, известными из российской и зарубежной литературы.
Апробация работы. Результаты работы докладывались и обсуждались на следующих научно-технических конференциях и семинарах:
- Одиннадцатая, двенадцатая и тринадцатая международная конференция и выставка «Цифровая обработка сигналов и ее применение» (Москва, 2009-2011).
- Шестьдесят четвертая, шестьдесят пятая научные сессии, посвященные Дню Радио (Москва, 2009-2010).
- Международная конференция по обработке изображений, компьютерному зрению и распознаванию (IPCV 2011. США, Лас-Вегас, 2011).
- Международная конференция IEEE, посвященная 150-летию со дня рождения Александра Попова (Eurocon 2009. Санкт-Петербург, 2009).
- Шестнадцатая международная конференция студентов, аспирантов и молодых ученых Ломоносов-2009 (Москва, МГУ, 2009).
- Четырнадцатая всероссийская научно-техническая конференция студентов, аспирантов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и образовании» (Рязань, 2009).
- Одиннадцатая всероссийская научная конференция «Информационные технологии в электротехнике и электроэнергетике» (Чебоксары, 2006). Публикации. По теме диссертации опубликовано 14 научных работ, из них 2
статьи в журналах, рекомендованных ВАК, и 12 докладов на научных конференциях.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованных источников, содержащего 156 наименований. Она изложена на 109 страницах машинописного текста, содержит 42 рисунка и 8 таблиц.
Основные научные положения и результаты, выносимые на защиту:
1. Алгоритм классификации типа искажений в изображениях на основе метода опорных векторов.
2. Алгоритм неэталонной оценки уровня размытия, внесенного в изображение при захвате сцен движения или быстро движущихся объектов.
3. Неэталонный алгоритм оценки вероятности импульсного шума на основе адаптивного центрально взвешенного медианного фильтра.
4. Модификация алгоритма неэталонной оценки среднеквадратического отклонения гауссовского шума в изображениях.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность выбранной темы, сформулированы цель и задачи исследования, изложены основные положения, выносимые на защиту, показаны научная новизна и практическая значимость работы.
В первой главе проведен обзор существующих методов оценки качества изображений, использующих оригинал изображения, и неэталонных методов.
На современном этапе развития все указанные методы классифицируются на
две большие категории.
1. Субъективные критерии оценки качества изображений. Оценка качества изображения в данном случае осуществляется человеком. Существует большое количество различных шкал оценки, они описаны в рекомендации ITU-R ВТ.500-11. Выбор конкретной шкалы зависит от цели исследования.
2. Объективные критерии оценки качества изображений. Оценка качества изображения производится определенным алгоритмом. Такой алгоритм может использовать оригинал изображения для оценки качества, то есть быть эталонным, или может определять качество без наличия неискаженной копии изображения, то есть быть неэталонным.
Разработка неэталонных критериев является трудной задачей. Человек способен легко оценивать качество изображения даже при отсутствии оригинала. Это объясняется тем, что человеческая память содержит огромное количество информации о том, какими должны быть, а какими не должны быть изображения. Поэтому считается, что эффективная неэталонная модель оценки качества изображения возможна только при наличии априорной информации о типах искажений изображения.
На практике разработка эффективного метода оценки качества для конкретной задачи обычно проще, чем разработка обобщенного метода, так как типы искажений заранее известны.
Во второй главе рассмотрены предложенные алгоритмы неэталонной оценки качества изображений.
1. Неэталонный алгоритм оценки уровня размытия, внесенного в изображение при захвате сцен движения или быстро движущихся объектов.
Данный тип искажения появляется, например, при обычном фотографировании движущихся объектов.
Модель изображения д(х,у), размытого в движении, можно представить как свертку оригинала изображения f(x, у) и неизвестной функции рассеяния точки h(x,y):
Six,у) = fix, у) * h(x,y). Для оценки ширины размытия применим метод, который использует кепстр С(д(х,у)) размытого изображения. Определим кепстр функции д(х,у) следующим выражением:
Важнейшим свойством кепстра является аддитивность под сверткой: С(5(л.у)) = С(/(х,у)) + Сф(х.у)Х С(/1и,у)) = Р-1(/п|Р(Л(д,у))|).
Кепстр функции рассеяния точки С(Л(*,У)) имеет большие отрицательные выбросы на расстоянии I от начала координат. Так как кепстр аддитивен, эти выбросы сохранятся в кепстре искаженного изображения С(д(х,у)) на том же расстоянии I. Таким образом, вычислив расстояние I, получим ширину размытия.
Для оценки результата работы предложенного алгоритма по оценке ширины размытия движением определим отношение:
.. ^оценочное
м=--.
^реальное
где ¿оданочное ~ оценочная ширина размытия границ в изображении, а £ркЬ1ЬНОе -реальная ширина размытия.
На рис. 1 представлен график для трех тестовых изображений, имеющих различную детализацию, по которому можно оценить точность определения ширины размытия. При построении графика угол размытия движением был зафиксирован и равен 60°. Ширина внесенного размытия изменялась в диапазоне от 1 до 50 с шагом 1.
Для оценки точности определения угла размытия движением определим отношение:
„ ^оценочное
к _ (
•'реальное
г:
I»
I'!
® 1
°0 5 10 15 20 25 30 35 40 45 50 Ширина размытия (внесенная)
Рис. 1. Результаты тестирования алгоритма оценки ширины размытия движением где 0о.4е„очмое - оценочный угол размытия движением, а - реальный угол
размытия.
На рис. 2 представлен график зависимости отношения, заданного выше, от угла размытия для трех изображений, имеющих различную детализацию. При
построении графика ширина размытия была зафиксирована и равна 30. Угол размытия изменялся в диапазоне от 1: до 180" с шагом 1\
nefjyoi
0 20 40 60 60 100 120 140 ~ 1&0
Угол размытая
Рис. 2. Результаты тестирования алгоритма оценки угла размытия движением
Анализируя полученные графики можно сделать вывод, что алгоритм точно оценивает ширину размытия со значениями от 9 и выше. Точные оценки угла размытия движением можно получать, начиная с 10". Также по полученным результатам можно увидеть, что алгоритм не чувствителен к степени детализации изображения и одинаково точно оценивает изображения как с малым количеством деталей, так и с большим. Среднее значение коэффициента корреляции Пирсона оценок ширины размытия, полученных с помощью предложенного алгоритма, с параметрами внесенного искажения составляет 0,92. Среднее значение коэффициента корреляции оценок угла размытия с параметрами внесенного искажения составляет 0,93.
2. Модификация неэталонного алгоритма оценки гауесовского шума в
изображении.
Существует два основных подхода к оценке гауссовского шума, основанные на фильтрации и на разделении изображения на блоки.
В алгоритмах, основанных на фильтрации, зашумленное изображение сначала проходит через фильтр нижних частот. После этого высчитывается дисперсия шума из разницы между зашумленным и фильтрованным изображениями. Основной недостаток этого подхода состоит в том, что разностное изображение считается шумом. Но это предположение неверно для изображений с большим количеством деталей.
В алгоритмах второго типа зашумленное изображение с помощью определенного алгоритма делится на блоки. Дисперсия шума высчитывается по
набору однородных блоков. Основная сложность такого подхода состоит в выборе однородных блоков.
Предлагается модифицированный алгоритм оценки уровня гауссовского шума, которым оценивает уровень шума в достаточно широком диапазоне уровня шума и в изображениях с разной степенью детализации.
Предполагаем, что изображение зашумлено аддитивным белым гауссовеким шумом (ЛППП) с нулевым средним и неизвестным средиеквадратическим отклонением (СКО) tJ,,. Модель такого изображения опишем формулой:
/,,(Ч,у) = /(.v,y) + п(л,у). где .v и I' - вертикальные и горизонтальные координаты пикселя. /,,(л, v), /(л,у) и п(х,у) - зашумленное изображение, оригинальное изображение и АБГШ соответственно. Наша цель - оценить СКО шума ап из зашумленного изображения в отсутствии оригинала.
Предложенная модификация алгоритма оценки гауссовского шума представлена на рис. 3.
Рис. 3. Блок-схема работы алгоритма оценки СКО гауссовского шума
На первом этане выделяются границы изображения. Это необходимо для того чтобы, в случае, когда изображение имеет большое число деталей, алгоритм не учитывал тонкие линии границ и не идентифицировал нх как шум. Таким образом, окончательная оценка уровня шума получается более точной. Для выделения границ в изображении применяется оператор Шарра.
После составления карты границ изображения, зги границы исключаются из искаженного изображения, чтобы не учитывать их на этапе оценки СКО гауссовского шума. В этом случае получим одинаково точные оценки как в случае малой зашумленности изображения, так и в случае высоко детализированных изображений.
На следующем этапе подавляется структура и детали изображения с помощью оператора Лапласа.
На завершающем этапе вычисляется СКО гауссовского шума, которое можно определить следующим выражением:
а, = I--1--У|Жх,г)*/.|,
" \ 2 6(11' - 2)(Я- 2 ) Л -
где 1Г и //- ширина и высота изображения соответственно, /?(*',у) - разностное изображение, I - оператор Лапласа.
Для оценки результата работы предложенного алгоритма определим отношение:
м =
оценочное
"реальное
где Ооаеночное — оценочное среднеквадратическое отклонение, а сгрылЬ110е — реальное
ско.
Графики для трех тестовых изображений, имеющих различную детализацию, представлены на рис. 4.
Рис. 4. График зависимости отношения "Ч"1""0* от добавленного шума ^реальное
ар*&гьио*
Анализируя графики, можно отметить, что алгоритм имеет тенденцию завышать оценку при очень низких уровнях шума. Однако предложенный алгоритм дает хорошие результаты при средних и высоких уровнях шума. При а > 0,15 значения по оси ординат очень близки или равны единице, что говорит о том, что предложенный алгоритм точно определяет степень зашумленности изображения. Алгоритм, как и предполагалось, точно оценивает зашумленность изображений с высокой детализацией, например, тестового изображения «Бабуин».
3. Неэталонный алгоритм оценки вероятности импульсного шума в
изображении
Действие импульсного шума заключается в замене некоторых случайно расположенных пикселей изображения шумовыми. Величина импульсов может быть как случайным значением из некоторого непрерывного интервала, так и принимать ряд дискретных значений.
При обработке изображений импульсный шум возникает, например, вследствие ошибок декодирования, которые приводят к появлению черных и белых точек на изображении.
Рассматриваемая модель импульсного шума: биполярный импульсный шум типа «соль и перец». Модель искаженного восьмибитового изображения будет выглядеть следующим образом:
{ 255, с вероятностью рр
О, с вероятностью рп /(¿.У), с вероятностью 1 - (рр + рп)
где f(iJ) — элемент исходного изображения с координатами 0,у), /Х», /) - элемент искаженного изображения с координатами (»,».
Предлагаемый неэталонный алгоритм оценки вероятности импульсного шума основан на детектировании импульсного шума адаптивным центрально взвешенным медианным фильтром (АЦВМФ). Его выбор обосновывается наилучшими показателями детектирования импульсного шума среди других фильтров для изображений с разной степенью детализации и широким диапазоном зашумленности. Указанный АЦВМФ использует переключающуюся схему, основанную на детектировании искаженных шумом пикселей.
Пусть х0 - элемент изображения с координатами 0,у) до фильтрации. Рассмотрим область изображения IV, которая содержит пиксели, лежащие в окрестности текущего элемента х0. Обозначим через X" вектор, содержащий пиксели из описанной выше окрестности И' элемента хц, а также сам текущий пиксель, взятый у/ раз:
х; = {х^пОХ,, | См) е IV,(5,1) * (0,0)}, где V/ — вес центрального пикселя, О - оператор повторения.
Обозначим медиану вектора X" через У":
¥' = медиаиа(Х").
Для каждого пикселя входного изображения определим следующие разности:
где к = 0,1,...,¿-I. Полученные £ величин <1У используются далее для принятия решения о том, является рассматриваемый пиксель хи импульсом или нет. Для вынесения более надежной оценки того, является ли данный пиксель импульсом, в применяемом алгоритме АЦВМФ используются все £ разностей о?„,</,,...,При этом в процессе детектирования импульсов применяется сравнение полученных
разностей ¿ь с пороговыми значениями 7,, к -0.....¿-1, причем ТкА>Тк. Если хотя
бы для одного значения к из интервала (О..Х-1) выполняется неравенство с1к >Тк, то текущий пиксель х^ считается импульсом, в противном случае пиксель считается незашумленным. Таким образом, используя приведенные выше обозначения, результат работы процедуры детектирования импульсов можно выразить следующим выражением:
= есл" <** >
4 I иначе
где Хч - результат работы алгоритма АЦВМФ.
Вероятность импульсного шума можно представить следующим выражением:
М
где М - количество пикселей изображения У\ , детектированных как искаженные,
N — общее количество пикселей изображения Х1Г
Для оценки работы алгоритма определим отношение
Р
р. _ 1 оценочное
~ Р
1 реальное
где ^оценочное ~~ оценка значения плотности импульсного шума изображения, полученная с помощью предложенного алгоритма, а РреыЬЯОе ~ плотность импульсного шума, добавленного в изображение. Результаты тестирования приве.
Рис. 5. Результаты тестирования алгоритма оценки вероятности импульсного шума
По графику для тестового изображения «Бабуин» можно сделать вывод, что недостатком алгоритма оценки импульсного шума на основе АЦВМФ является завышение оценки плотности шума для изображения с высокой степенью детализации при низком уровне зашумленности. В то же время преимуществом предложенного алгоритма является точность оценок для изображений с малой и средней степенью детализации.
В третьей главе предлагается способ автоматического определения типа искажения поврежденного изображения с помощью методов машинного обучения.
Всего было выбрано 6 классов возможных искажений:
1. сжатие изображения алгоритмом JPEG;
2. сжатие изображения алгоритмом JPEG2000;
3. размытие изображения вследствие медианной фильтрации (МФ);
4. размытие, внесенное в изображение при захвате сцен движения или быстро движущихся объектов;
5. повреждение изображения гауссовским шумом;
6. повреждение изображения импульсным шумом типа «соль и перец».
Основой для построения классификатора был выбран метод опорных векторов
(MOB) с применением ядерного преобразования для внесения нелинейности. Алгоритм включает в себя следующие шаги: обучение классификатора и классификация методом опорных векторов с применением ядерного преобразования.
Обучение классификатора включает два независимых этапа:
- генерацию признаков;
- формирование и оптимизацию классификатора на базе MOB.
Целью этапа генерации признаков является получение признаков, обладающих наибольшей разделяющей способностью. Настраиваемыми параметрами на этом этапе являются:
- число обучающих изображений;
- максимальное число итераций.
В качестве обучающих признаков использовались параметры алгоритмов, рассмотренных в первой главе и предложенных во второй главе:
1. Неэталонный алгоритм оценки качества для JPEG изображений.
2. Неэталонный алгоритм оценки качества для JPEG2000 изображений.
3. Неэталонный алгоритм оценки уровня размытия в сжатых изображениях.
4. Неэталонный алгоритм оценки уровня размытия, внесенного в изображение при захвате сцен движения или быстро движущихся объектов.
5. Неэталонный алгоритм оценки гауссовского шума в изображениях.
6. Неэталонный алгоритм оценки вероятности импульсного шума в изображениях.
Второй этап обучения состоит из следующих шагов:
- вычисление набора признаков, сгенерированный на предыдущем этапе, для каждого из обучающих фрагментов;
- нормализация признаков;
- обучение MOB классификатора на обучающем наборе изображений с различными параметрами ядерной функции;
- вычисление уровня верного распознавания по валидационной выборке;
- нахождение оптимальных параметров ядра;
- обучение итогового классификатора MOB с найденными оптимальными параметрами ядра.
Целью этапа формирования классификатора является нахождение решения, обладающего большей обобщающей способностью, то есть имеющего минимальную ошибку классификации. Настраиваемыми параметрами на этом этапе являются:
- число признаков;
- число обучающих изображений;
- параметр ядра CT ;
- параметр ядра С.
Для осуществления обучения и тестирования классификатора в соответствии с описанным выше подходом необходима достаточно объемная база полутоновых изображений. Было использовано 3100 изображений, по 500 изображений на каждый тип искажения и 100 неповрежденных изображений.
Эта база была разделена на три независимых выборки: обучающую, контрольную и тестовую. Обучающая выборка использовалась для генерации признаков и построения классификатора на базе MOB. Контрольная выборка необходима для того чтобы избежать эффекта переобучения в процессе оптимизации параметров ядерной функции. Проверка работы обученного классификатора осуществлялась с использованием тестовой выборки.
Для обучения было выбрано 6 признаков. На втором этапе эти признаки были извлечены из обучающих изображений и использованы для обучения классификатора MOB с ядерным преобразованием:
*(--,.--2) = Сехр .
сг
\ /
Ядерная функция содержит в себе два параметра (С и сг), которые значительно влияют на конечный результат классификации. Нахождение оптимальных значений этих параметров является неотъемлемой частью процесса обучения. С этой целью использовался алгоритм поиска по сетке: классификатор MOB был обучен с различными С и сг, для обучения были использованы все комбинации в интервале [1 ... 10]; при этом измерялся уровень верного распознавания с использованием валидационной выборки. Результаты поиска оптимальных значений С и сг представлены на рис. 6.
096
094
092
0.9
08В
086
CfU 10
а) б)
Рис. 6. Зависимость уровня верного распознавания от параметров ядерной функции Гаусса С и а : a) JPEG; б) размытие МФ
Анализ зависимости, приведенной на рис. 6 показывает, что существует достаточно широкая область значений С и сг, при которых классификатор эффективно разделяет классы. Уровень верного распознавания при этом достигает порядка 90%. Процедура оптимизации предполагает генерацию начальной точки
оптимизации в данной области значений, после чего начинается поиск оптимального значения в фиксированной окрестности этой точки.
Оптимальные значения параметров ядерной функции представлены в табл. 1.
Таблица 1
Оптимальные значения параметров ядерной функции
ГШ иш JPEG JPEG2000 Размытие Размытие движением Отсутствует
а 1 1 2,5 4,5 4,5 10 1
С 1 1 1 1,5 1,5 1 10
Дальнейшие результаты получены с использованием этих оптимальных значений.
Предлагаемый классификатор обучен с использованием оптимальных параметров, определенных по результатам исследований. Результаты тестирования классификатора представлены в табл. 2 и 3.
Таблица 2
Реальн. нскаж. j Детект. АБГШ иш JPEG JPEG2000 Размытие Размьгтие дв. Отсутствует Неопред.
АБГШ 100 0 0 0 0 0 0 0
ИШ 0 90 0 0 0 0 8 2
JPEG 0 0 88 2 0 0 10 0
JPEG2000 0 0 1 65 8 4 22 0
Размытие 0 0 0 19 69 1 11 0
Размытое движением 0 0 1 7 17 71 4 0
Отсутствует 0 0 0 10 0 0 90 0
В табл. 2 представлены данные для случая, когда классификатор делает однозначный выбор. Наилучшие показатели с точки зрения вероятности распознавания типа искажений классификатор демонстрирует для изображений, поврежденных гауссовским шумом и импульсным шумом типа «соль-и-перец» (100% и 90% соответственно). Низкие вероятности распознавания получены на изображениях, сжатых алгоритмами JPEG и JPEG2000 (65% и 69% соответственно).
Табл. 3 содержит данные для случая, когда классификатор может принимать несколько решений.
Таблица 3
Реальн. искаж. j Детект. АБГШ иш JPEG JPEG2000 Размытие Размытие дв. Отсутствует Неопред.
АБГШ 100 1 0 0 0 0 0 0
ИШ 0 98 0 1 0 0 8 2
JPEG 0 3 94 15 0 7 10 0
JPEG2000 0 0 7 81 26 16 22 0
Размытие 0 0 0 28 91 23 11 0
Размытие движением 0 0 2 11 19 92 4 0
Отсутствует 0 20 20 50 0 20 90 0
Исходя и ! полученных данных, можно сделать следующие выводы:
I . Изображения, сжатые алгоритмом .ФЕСЗООО и размытые МФ имеют схожую структуру, поэтому классификатор с большой вероятностью (26% и 28% соответственно) делает ошибку при выборе между ними.
2. Аналогичная проблема характерна для изображений, размытых МФ и при размытии движением (23% и 19% соответственно).
3. Наименьшее количество ложных срабатываний классификатор делает для изображений, поврежденных гауссовским шумом и импульсным шумом типа «соль-и-перец» (1% и 9% соответственно).
4. Большая часть ошибок при детектировании размытия, вследствие медианной фильтрации, связана с тем, что классификатор не может обнаружить ни одного типа искажений.
5. Наиболее проблемными с точки зрения распознавания искажений являются неповрежденные изображения. Для них характерно огромное число ложных срабатываний.
Четвертая глава носит практический характер и посвящена описанию эксперимента по оценке корреляции между предложенными неэталонными алгоритмами оценки качества изображений и уровнем детектирования лиц, содержащихся на искаженных изображениях.
Для определения нижней границы детектирования лиц для различных видов искажений была составлена тестовая база, содержащая 15 полутоновых изображений 5 изображений мужчин и 10 изображений женщин (рис. 7).
Рис. 7. Примеры изображений из тестовой базы
На каждом изображении присутствовало только одно лицо. При этом выбирались такие изображения, на которых внимание на лице человека не было слишком акцентировано: лица людей располагались не по центру изображений, большинство людей смотрят не в камеру, некоторые сняты при плохом освещении. Между тем все лица имеют достаточно большие размеры и хорошо видны на неискаженных изображениях.
Для проведения эксперимента в каждое изображение вносились искажения указанных шести типов: размытие, размытие движением, гауссовский шум, импульсный шум и искажения, вносимые при сжатии ,)РР.О и 1РЕС2000. Степень каждого искажения имела пять градаций. Степени искажений выбирались таким образом, чтобы примерно на 2-3-ей градациях лицо человека было практически неразличимо. Все типы искажений моделировались в пакете МА'ГЬАВ.
Примеры изображений с размытием представлены на рис. 8.
Рис. 8. Примеры изображений, искаженных размытием (Blur)
Таким образом были получены 15 * б * 5 = 450 искаженных изображений. Однако для более точного результата каждое изображение было показано трем экспертам, и таким образом число изображений, принимавших участие в эксперименте, составило 450 * 3 = 1350.
В эксперименте принимали участие 50 экспертов, которым предлагалось оценить по 1350 / 50 = 27 изображений, составляющих тестовую выборку. Таким образом, полученный набор изображений требовалось разделить так, чтобы сократить до минимума число повторений одного изображения в выборке. Кроме того, повторяющиеся изображения не должны следовать в тестовой выборке друг за другом. Для соблюдения данных условий была использована следующая стратегия.
Тестовый набор содержит 5 * 6 * 3 = 90 экземпляров каждого изображения, которые требуется разделить по 50 выборкам. Это можно сделать, поместив в 40 выборок по два изображения, а в оставшиеся 10 по одному. Сначала 10 экземпляров каждого изображения помещались в 10 случайно выбранных выборок. Затем в оставшиеся 40 выборок помещалось по два экземпляра изображения. При этом выборки также выбирались случайно, но в случае, если взятая выборка уже содержала данное изображение, она пропускалась. Кроме того, в одну выборку помещались экземпляры одного изображения с разными типами искажений. Наконец, во время работы эксперта порядок следования изображений в выборке также был случайным.
Для оценки изображений экспертами была разработана программа 1та§еЕхре11 на языке программирования С#.
Руководитель эксперимента задавал номер тестовой выборки из диапазона от 1 до 50 в текстовом поле. После нажатия кнопки "Загрузить'" появлялось первое изображение из тестовой выборки. Задача эксперта состояла в том, чтобы выставить один из двух флажков - «Информация сохранена» или «Информация искажена» - в зависимости от того, видит он лицо человека на данном изображении или нет. После этого эксперт нажимает кнопку «далее» и переходит к оценке следующего изображения. Оценив изображение, эксперт не может вернуться к нему снова и изменить свое мнение.
Таким образом, после оценки всех 50 выборок получилось 50 файлов с результатами, которые затем были объединены в единый файл. Полученный файл обсчитывался в пакете МАТЬАВ с целью выявления нижних границ для каждого типа искажений. Из имени файла изображения извлекалась информация о его
номере, типе и степени искажения. Как уже отмечалось, полный набор содержал каждое изображение в трех экземплярах, поэтому сначала принималось окончательное решение по каждому изображению путем простого голосования. Затем принималось окончательное решение для каждого типа и степени искажения путем голосования среди решений, принятых для каждого изображения. Итоговые результаты были сведены в табл. 4.
Таблица 4
Результаты оценки изображений экспертами
Тип искажения Степень искажения Информация
Сжатие JPEG 0 Не искажена
1 Не искажена
2 Не искажена
3 Не искажена
4 Не искажена
Сжатие JPEG2000 800 Не искажена
850 Не искажена
900 Искажена
950 Искажена
1000 Искажена
Размытие 23 Не искажена
27 Не искажена
31 Не искажена
35 Искажена
39 Искажена
Размытие движением 50 Не искажена
55 Не искажена
60 Искажена
65 Искажена
70 Искажена
Гауссовский шум 0,5 Не искажена
0,6 Искажена
0,7 Искажена
0,8 Искажена
0,9 Искажена
Биполярный импульсный шум (шум типа «соль и перец») 0,3 Не искажена
0,35 Не искажена
0,4 Не искажена
0,45 Искажена
0,5 Искажена
Для искажений, вносимых форматом JPEG, в силу ограниченных возможностей сжатия данного алгоритма нижнюю границу выявить не удалось. Поэтому в качестве границы для данного типа искажений было взято минимально возможное значение параметра Quality = 0. Для других искажений нижняя граница была успешно определена (соответствующая строка в таблице выделена жирным шрифтом).
После того как были определены нижние границы для каждого типа искажений, был сформирован диапазон возможных значений степени искажения, в
18
котором лица на изображении все еще могут быть детектированы. Каждый из этих диапазонов был разделен на 5 градаций и приведен к отрезку [0, 1] в предположении, что искажения вносятся линейно.
Для выявления зависимостей уровня выделения лиц алгоритма Виолы-Джонса в найденном диапазоне для каждого типа искажений была взята тестовая база из 50 изображений, которая суммарно содержит 213 лиц. Она была составлена из изображений, случайным образом выбранных из сети Интернет, а также любительских фотографий. Условия съемки изображений различны и максимально приближены к реальным. Присутствуют изображения с различными цветовыми дефектами (засвеченные изображения, изображения со смещенной цветовой палитрой). В базе содержатся как изображения людей европейской внешности, так и азиаты и афроамериканцы. Возраст и пол людей также различны. На всех изображениях лица сняты фронтально или под небольшим углом. Размеры лиц находятся в диапазоне от нескольких десятков пикселей (групповые фотографии с большим числом лиц) до нескольких сотен пикселей (портретные изображения, содержащие одно-два лица).
В каждое изображение из тестовой базы вносились искажения всех типов и пяти градаций, полученных на предыдущем этапе. Затем на каждом изображении были детектированы лица с помощью алгоритма Виолы-Джонса с коэффициентом масштабирования 1,2.
Для каждого типа искажений была получена зависимость уровня выделения от степени искажения (рис. 9). Уровень выделения был пронормирован на
Рис. 9. Зависимость уровня выделения от степени искажений
максимальный, полученный для неискаженных изображений. Затем для каждой градации была найдена медиана уровня выделения, которая отражает обобщенную зависимость уровня выделения от степени искажения изображения.
Как видно из представленных зависимостей, график для искажения типа сжатие JPEG выделяется из общего семейства кривых, что объясняется тем, что для данного вида искажений не была найдена нижняя граница. Кривая медианы всех типов искажений может быть использована для оценки примерного уровня детектирования при неизвестном типе искажения. Оценив степень искажения с помощью критериев оценки качества, можно определить примерную вероятность детектирования лиц на таком изображении.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
На основании проведенных исследований в области неэталонной оценки качества изображений в работе получены следующие результаты:
1. Разработан классификатор на основе метода опорных векторов, определяющий тип искажения в изображении. Процент верной классификации искажений в последовательном режиме: гауссовский шум - 100%, импульсный шум - 90%, JPEG - 88%, размытие движением - 71 %, размытие - 69% и JPEG2000 - 65%.
2. Разработан неэталонный алгоритм оценки уровня размытия, внесенного при захвате сцен движения или быстро движущихся объектов. Среднее значение коэффициента корреляции (Пирсон) оценок ширины размытия, полученных с помощью предложенного алгоритма, с параметрами внесенного искажения составляет 0,92. Среднее значение коэффициента корреляции оценок угла размытия с параметрами внесенного искажения составляет 0,93.
3. Модифицирован алгоритм неэталонной оценки гауссовского шума в изображении. Выделение границ в изображении и неучитывание их на последующих этапах обработки позволяет повысить точность оценок при малых уровнях шума. Средний коэффициент корреляции (Пирсон) оценок, полученных с помощью предложенного алгоритма, с параметрами внесенного искажения составляет 0,99.
4. Разработан неэталонный алгоритм оценки вероятности импульсного шума на основе адаптивного центрально взвешенного медианного фильтра. Средний коэффициент корреляции (Пирсон) оценок плотности импульсного шума, полученных с помощью предложенного алгоритма, с параметрами внесенного искажения составляет 0,92.
5. Проведен эксперимент по оценке корреляции неэталонных оценок со степенью детектирования лиц на искаженных изображениях. Таким образом, оценив степень искажения с помощью алгоритмов неэталонной оценки, можно определить вероятность детектирования лиц на таком изображении. Результаты проведенного эксперимента могут быть использованы в системах обработки и передачи визуальной информации.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи в журналах m перечня ВАК
1. Хрящев В.В., Бекренев В.А., Соловьев В.Е., Никитин А.Е. Улучшение качества JPEG2000-H3o6pa»eHHfi на основе модифицированного билатерального фильтра// Цифровая обработка сигналов. 2011. № 3. С. 53-57.
2. Хрящев В.В., Приоров А.Л., Соловьев В.Е., Шемяков A.M. Определение типа искажения изображения в задаче неэталонной оценки качества // Нелинейный мир. 2013. Т. И, № 1.С. 32-35.
Материалы российских и международных конференций
3. Бекренев В.А., Саутов Е.Ю., Соловьев В.Е. Неэталонная оценка качества JPEG изображений // Сб. матер XI Всерос. науч.-техн. конф. «Информационные технологии в электротехнике и электроэнергетике» (ИТЭЭ-2006). Чебоксары, 2006. С. 243-244.
4. Зараменский Д.А., Бекренев В.А., Соловьев В.Е. Оценка уровня размытия и звона в изображениях стандарта JPEG2000 // Докл. 11-й междунар. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2009). М., 2009. Т. 2. С. 476-479.
5. Nikitin A., Solovyev V., Khryashchev V., Priorov A. Adaptive Bilateral Filter for JPEG2000 Deringing // Proc. of the 2011 International Conference on Image Processing, Computer Vision & Pattern Recognition (IPCV 2011). Las Vegas, Nevada, USA, 2010. P. 144-149.
6. Бекренев B.A., Соловьев B.E., Шмаглит Л.А. Повышение эффективности стандарта сжатия цифровых изображений JPEG // Тр. LXIV науч. сессии, посвященной Дню Радио. М., 2009. С. 200-202.
7. Bekrenev V., Priorov A., Solovyev V., Zaramensky D. No-reference quality assessment of wavelet-compressed images // Proc. of the international IEEE conference devoted to the 150-anniversary of Alexander S. Popov (EUROCON 2009). Saint Peterburg, 2009. P. 1334-1339.
8. Соловьев В.Е. Анализ статистической модели изображения при оценке его качества // Матер. XVI Междунар. конф. студентов, аспирантов и молодых ученых Ломоносов-2009: секция «Вычислительная математика и кибернетика». М., МГУ, 2009. С. 90.
9. Бекренев В.А., Гущина О.Н., Соловьев В.Е. Повышение эффективности стандарта сжатия JPEG // Матер. XIV всерос. науч.-тех. конф. студентов, молодых ученых и специалистов «Новые информационные технологии в научных исследованиях и в образовании». Рязань, 2009. С. 156-158.
10. Бекренев В.А., Соловьев В.Е., Гущина О.Н. Модификация стандарта сжатия JPEG на основе изменения размера блоков // Тез. докл. 16-й междунар. науч.-тех. конф. «Радиоэлектроника, электротехника и энергетика». М., 2010. Т. 1. С. 115-116.
11. Бекренев В.А., Гущина О.Н., Зараменский Д.А., Соловьев В.Е. Оценка искажений в видеопоследовательностях MOTION JPEG2000 //Докл. 12-й междунар. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2012). М., 2010. Т. 2. С. 167-170.
12. Бекренев В.А., Соловьев В.Е. Оценка искажений в изображениях, сжатых на основе вейвлет-преобразования // Тр. LXV науч. сессии, посвященной Дню Радио. М., 2010. С. 209-211.
13. Гущина О.Н., Соловьев В.Е., Ганин А.Н. Удаление артефактов блочности из
21
сжатых изображений с использованием адаптивного дискретного косинусного преобразования // Докл. 13-й междунар. конф. «Цифровая обработка сигналов и ее применение» (08РА-2011). М., 2011. Т. 2. С. 119-122.
14. Бекренев В.А., Соловьев В.Е. Билатеральный фильтр в задаче улучшения качества сжатых изображений // Тез. докл. 64-й регион, науч.-техн. конф. студентов, магистров и аспирантов вузов. Ярославль. 2011. Часть 1. С. 260.
Подписано в печать 31.01.2013 Формат 60x84 1/16. Тираж 100 экз.
Отпечатано на ризографе Ярославский государственный университет 150000, Ярославль, ул. Советская, 14.
-
Похожие работы
- Разработка и анализ неэталонного алгоритма оценки качества изображений на основе дискретного преобразования
- Разработка и анализ неэталонных алгоритмов оценки качества сжатых изображений
- Разработка методов и устройств сжатия с раздельным преобразованием составляющих спектра сигнала телевизионного изображения
- Анализ и подавление искажений в изображениях, сжатых с использованием вейвлет-преобразования
- Методы синтеза многомерных моделей и алгоритмов цифровой обработки изображений
-
- Теоретические основы радиотехники
- Системы и устройства передачи информации по каналам связи
- Радиотехника, в том числе системы и устройства телевидения
- Антенны, СВЧ устройства и их технологии
- Вакуумная и газоразрядная электроника, включая материалы, технологию и специальное оборудование
- Системы, сети и устройства телекоммуникаций
- Радиолокация и радионавигация
- Механизация и автоматизация предприятий и средств связи (по отраслям)
- Радиотехнические и телевизионные системы и устройства
- Оптические системы локации, связи и обработки информации
- Радиотехнические системы специального назначения, включая технику СВЧ и технологию их производства