автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка методов поиска изображений на основе вычислительных моделей визуального внимания
Автореферат диссертации по теме "Разработка методов поиска изображений на основе вычислительных моделей визуального внимания"
На правах рукописи
Левашкина Анастасия Олеговна
ии3486752
Разработка методов поиска изображений на основе вычислительных моделей визуального внимания
Специальность: 05.13.17 - Теоретические основы информатики
Автореферат диссертации на соискание ученой степени кандидата технических наук
- з ДЕН 2009
Новосибирск - 2009
003486752
Работа выполнена на кафедрах «Автоматики и информационных технологий» ГОУ ВПО Уральского государственного технического университета - УПИ и «Информационных технологий» ГОУ ВПО Нижнетагильский институт (филиал) Уральского государственного технического универсистета - УПИ
Научный руководитель -
доктор технических наук, профессор Поршнев Сергей Владимирович
Официальные оппоненты:
доктор технических наук, ведущии научный сотрудник института автоматики и электрометрии Нежевенко Евгений Семенович
кандидат технических наук Павский Кирилл Валерьевич
Ведущая организация - Уральский государственный университет им.
A.M. Горького (г. Екатеринбург)
Защита состоится ¿^декабря 2009 г. в 4 Л00 на заседании диссертационного совета Д 219.005.02 при ГОУ ВПО «Сибирский государственный университет телекоммуникаций и информатики» Министерства Российский Федерации по связи и информации по адресу: 630102, г. Новосибирск, ул. Кирова, 86.
С диссертацией можно ознакомиться в библиотеке Сибирского государственного университета телекоммуникаций и информатики (СибГУТИ) по адресу: 630102, г. Новосибирск, ул. Кирова, 86.
Отзывы на автореферат в двух экземплярах, заверенных печатью организации, просим направлять по адресу. 630102, г. Новосибирск, ул. Кирова, 86, заместителю декана ИВТ Резван И.И.
Автореферат разослан 4V.4- 2009 г. Учёный секретарь
диссертационного совета Д 219.005.02, /ßbil__ Иван Иванович Резван
к.т.н., доцент
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время задачи оцифровки и хранения больших объемов визуальной информации имеют законченные технические решения, вполне удовлетворяющие требованиям пользователей, в то время как в области разработки методов решения задач поиска и семантической классификации изображений ситуация оказывается прямо противоположной. Отметим, что до последнего времени наиболее часто использовался поиск визуальной информации, опирающийся на индексирование текстовых описаний, ассоциированных с изображением (например, поиск картинок на Яндекс и Google). При очевидной необходимости организации доступа к коллекции изображений посредством поиска по текстовой информации, ассоциированной с изображениями, данный подход представляется недостаточным. Действительно, существующая неоднозначность при установлении соответствия между визуальным содержанием и текстовым описанием снижает показатели точности и полноты поиска, а целом ряде случаев оказывается весьма трудным или вообще невозможным составить словесное описание изображения (например, абстрактные картины).
В начале 80-х годов для преодоления недостатков поисковых систем на основе текста были начаты разработки методов поиска изображений по содержанию (в зарубежной литературе для обозначения данного подхода используется аббревиатура CBIR - Content-based image retrieval). В CBIR-системах изображения индексируются по их визуальному содержимому (по цвету, текстуре, форме и т.д.).
Значительный вклад в решение задач и разработку математических методов, относящихся к цифровой обработке изображений, внесен многими авторскими коллективами, научными школами и отдельными учеными как у нас в стране, так и за рубежом. Из зарубежных авторов наиболее известны в этой области работы Р.В. Шафера, А. Розенфельда, М. Мак-Доннела, У. Прэтта, Р. Харди, Дж. Серра и др. Что касается исследований отечественных ученых в области новых методов обработки изображений, распознавания образов и их применений, то наибольшее признание получили работы Ю.И. Журавлева, Ю.П. Пытьева, А.И. Чуличкова, Н.Г. Загоруйко, Л.П. Ярославского, В.П. Пяткина, B.C. Киричука, В.А. Виттиха, В.В. Сергеева, В.А. Сойфера, A.A. Спектора, Ю.Г. Васина, В.В. Моттля, А.П. Немирко, К.К. Васильева, Ю.В. Обухова, И.Г. Персианцева, В.В. Рязанова, Я.А. Фурмана и др. Изучением различных аспектов проблемы поиска изображений по содержанию занимались F. Long, Н. Zhang, D. Feng, R.C. Veitkamp, M. Tañase, Y. Rui, Th. S. Huang, S -F. Chang, L.-J. Hove, Y. Xhuang, X. Liu, Y. Pan, 1. Naqa, M. Wernick, Y. Yang, N.P. Galatsanos, Th. Deselaers, A.B. Белков, H. Васильева, А. Дольник, И. Марков и др.
Анализ современных тенденций развития систем поиска изображений показывает, что наиболее популярным оказывается подход, основанный на использовании тех или иных алгоритмов анализа изображений. Например, одним
из последних нововведений Google стало введение новых типов изображений, которые Google автоматически классифицирует. На текущий момент данная поисковая система распознает следующие типы изображений: портреты, фотографии, гравюры, карандашные рисунки и схемы, «клипарт». В апреле 2009 года запущен поиск похожих изображений Google Similar Images: на первом этапе используется традиционный способ поиска по текстовому запросу, а затем в качестве запроса используется одно из найденных изображений и осуществляется поиск по визуальному сходству. В поисковой системе Яндекс в конце 2008 года стал возможен поиск портретов, а ранее был запущен поиск картинок по преобладающему цвету, поиск фотографий и механизм выявления дубликатов.
В настоящее время известны демо-версии систем поиска изображений по содержанию (MFIRS, CIRES, Tiltomo, INRIA, Retrievr и др.). Проведенный анализ качества поиска в перечисленных системах показывает, что качество поиска в них существенно ниже по сравнению с системами поиска изображений по текстовым аннотациям. Так, из 20-ти первых найденных изображений запросу соответствует не более 16% изображений (при поиске по текстовым аннотациям в системе Яндекс аналогичный показатель равнялся 51%).
Следует отметить, что задача поиска изображений по содержанию по своей постановке формально близка к задаче распознавания образов, однако по своей сути эти задачи не являются идентичными. В задаче распознавания образов основной целью является отнесение входного изображения к одному из заранее известных классов, в то время как в задаче поиска изображений по содержанию изначально явного требования к идентификации класса входного изображения не ставится, но требуется найти изображения, обладающие визуальным сходством с запросом.
Анализ базовых принципов, используемых в современных Cß/Ä-системах, показывает, что в большинстве из рассмотренных систем поиска изображений по содержанию поиск ведется по признакам, извлекаемым из всего изображения (глобальные признаки). Кроме того, при поиске изображений пользователь зачастую интересуется вполне конкретным объектом, присутствующим на изображении, и, соответственно, результатом поиска должны быть изображения, содержащие искомый объект.
В тоже время в научной литературе описаны результаты исследования механизмов восприятия человеком изображений, согласно которым внимание человека в процессе анализа изображений концентрируется не на всем изображении, а на некоторых вполне конкретных областях изображения. При этом выбор области (или нескольких областей), привлекающей внимание человека, в большей степени обусловлен свойствами данной области, но в меньшей степени высокоуровневыми когнитивными процессами (модель восходящего внимания).
В этой связи представляется целесообразным проведение исследований возможности использования моделей восходящего внимания для нахождения области изображения, приблизительно соответствующей объекту, разработка
методов поиска изображений, механизм которых подобен механизму восприятия изображений человеком. При этом можно ожидать, что использование информации, извлекаемой из данных областей, позволит повысить качество поиска CBIR-систем по сравнению с широко используемым поиском по глобальным признакам изображений. Отметим, что в последнее время модели визуального внимания привлекли внимание ряда исследователей, в том числе: Аксёнова С. В., О. Marques, L. M. Mayron, G. В. Borba, H. R. Gamba.
Цель работы - разработка методов поиска изображений по содержанию, основанных на использовании модели восходящего внимания.
Задачи исследования. Для достижения указанной цели в работе поставлены и решены следующие задачи:
1. Анализ современного состояния проблемы поиска изображений по содержанию и обзор информационных признаков изображений, используемых в СВ/Л-системах.
2. Анализ критериев качества сегментации и выделение критериев, которые целесообразно использовать для оценки качества алгоритмов сегментации изображений.
3. Анализ известных моделей восходящего визуального внимания и исследование степени субъективности внимания человека.
4. Разработка алгоритма автоматического нахождения объекта на изображении, привлекающего внимание человека.
5. Разработка методов поиска изображений с использованием информации об объекте и проведение экспериментальной проверки их работоспособности.
6. Разработка на основе предложенных методов поиска изображений прототипа CBIR-системы.
Методы исследований. Выполненные разработки и их научно-техническое обоснование базируются на использовании методов цифровой обработки изображений и распознавания образов, статистической обработки информации.
Научная новизна результатов исследования.
1. Результаты исследований супервизорных критериев оценки качества сегментации изображений, позволившие обосновать выбор критерия, обеспечивающего наиболее объективную оценку качества сегментации.
2. Алгоритм автоматического нахождения прото-объекта.
3. Методы поиска изображений, основанные на использовании признаков прото-объекта.
Практическая значимость работы и внедрение её результатов. Разработанные методы повышения эффективности поиска графической информации реализованы в виде макетных версий программ. Научные результаты, полученные в диссертационном исследовании, используются в ООО «Институт информационных датчиков и технологий» при разработке систем технического зрения. Общетеоретические результаты вошли в учебные программы дисциплин «Методы обработки многомерных сигналов», «Методы обработки и анализа
сигналов в информационных системах», «Интеллектуальные информационные системы», «Представление знаний в интеллектуальных информационных системах».
На защиту выносятся:
1. Результаты исследований супервизорных критериев оценки качества сегментации изображений.
2. Алгоритм автоматического нахождения прото-объекта.
3. Методы поиска изображений с использованием признаков прото-объекта.
4. Прототип С5/Л-системы, реализующей методы поиска изображений на основе признаков прото-объектов.
Апробация результатов. Основные результаты и положения работы докладывались и обсуждались на следующих научных конференциях:
- 3-й Международной конференции «Информационно-математические технологии в экономике, технике и образовании» (Екатеринбург, ноябрь 2008);
- 7-й Всероссийской конференции с международным участием «Новые информационные технологии в исследовании сложных структур» (Томск, сентябрь 2008);
— Международной научно-практической конференции «СВЯЗЬ-ПРОМ 2008» в рамках 5-го Евро-Азиатского форума «СВЯЗЬ-ПРОМЭКСПО 2008» (Екатеринбург, май 2008);
- Международной научно-практической конференции «СВЯЗЬ-ПРОМ 2009» в рамках 6-го Евро-Азиатского форума «СВЯЗЬ-ПРОМЭКСПО 2009» (Екатеринбург, февраль 2009);
— 10-й всероссийской конференции «Математические методы распознавания образов» (Суздаль, сентябрь 2009);
— 3-й Российской конференции молодых учёных по информационному поиску, проводившейся в рамках III Российской летней школы по информационному поиску RitSSIR*2009 (Петрозаводск, сентябрь 2009).
Результаты диссертационного исследования были включены в инновационный проект, представленный на конкурсе, проводимом в 2009 году Фондом содействия развитию малых форм предприятий в научно-технической сфере. По результатам конкурса представленный проект стал победителем программы «Участник Молодежного Научно-Инновационного Конкурса» («УМНИК»).
Публикации. По теме диссертации опубликовано 14 работ, в том числе 2 работы в изданиях, рекомендованных ВАК.
Структура и объем работы. Общий объём диссертации - 163 страницы, в том числе 11 страниц приложений. Диссертация иллюстрирована 121 рисунком, 46 таблицами.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертационной работы, сформулированы ее цели и задачи, определена научная новизна полученных ре-
зультатов и их практическая значимость, сформулированы положения, выносимые на защиту, кратко изложено содержание диссертации.
В первой главе проведён анализ современного состояния проблемы поиска изображений на основе содержания, в ходе которого были рассмотрены следующие CBIR-системы, находящиеся в свободном доступе: Img(Anaktisi), MFIRS, CIRES, Tiltomo, INRI A, Retrievr, Alipr, SIMPLkity, Viper, FS, a также описаны архитектура CBIR-систем и информационные признаки изображений, используемые в CBIR-системах и существующие классификации признаков.
Выполнена оценка качества поиска в перечисленных выше CBIR-системах. Как критерий качества поиска была выбрана точность на уровне 20 первых найденных изображений (Рго) - количество изображений, релевантных запросу, среди первых 20-ти, выданных системой поиска. Данный критерий позволяет оценить информативность первой страницы результатов практически для всех рассматриваемых систем. Оказалось, что для большей части CBIR-систем Р20 <16%. Для системы img(Anaktisi) P2fl =45%, однако столь высокий результат поиска сложно считать объективным - в базе изображений, по которой ведется поиск этой системой, содержится большое количество дубликатов изображений. Результаты поиска в случае, если изображение-запрос не имеет дубликата, существенно хуже. Качество поиска изображений на основе текстовой информации в системах Altavista и Yandex оказалось выше, чем в CBIR-системах (Р20 = 39%и Р20=51%, соответственно). Таким образом, обнаружено, что современные CBIR-системы имеют недостаточно высокое качество поиска.
Показано, что одной из причин недостаточно высокого качества поиска заключается в том, что в большинстве CS/Л-систем запрос задается в виде изображения-образца, которое выбирается из имеющихся в базе изображений. Недостаток подобной формы запроса состоит в том, что пользователь задает целое изображение без указания интересующей его области. Поэтому в ряде случаев система находит изображения, которые в целом похожи на искомое, но зачастую не содержат искомой информации. Таким образом, один из возможных подходов повышения качества поиска изображений состоит в предоставлении пользователю возможности делать запрос не в виде полного изображения, а в виде выбранной конкретной области на изображении-запросе.
Во второй главе проведено исследование алгоритмов сегментации изображений и критериев количественной оценки качества результатов сегментации, а также выполнено сравнение нескольких алгоритмов сегментации изображений.
Сегментация изображения - это процесс разделения изображения на множество непересекающихся областей, однородных с учётом выбранных характеристик изображения. Объединение данных областей даёт исходное изображение. При этом выделенные области могут грубо соответствовать объектам, частям объектов или группам объектов, имеющихся на изображении. Несмотря на то, что рассматриваемая процедура не приводит к идентификации
визуально наблюдаемых объектов (поскольку необходимо отделение областей фона от областей, содержащих объекты), сегментация изображения является неотъемлемым этапом поиска изображений по содержанию.
В работе проведено исследование супервизорных критериев, используемых для количественной оценки качества сегментации, основанные на вычислении меры отличия результатов сегментации от истинной формы областей изображений. При этом истинная форма областей задаётся экспертами (как в базе изображений университета Беркли (рис. 1)) или считается известной на искусственно сгенерированных изображениях с заранее заданными геометрическими формами.
fldfifclyjl v' ' V tx -'У yp-v - кН ' у V4
HMBBu^S
ВШнгаМ -
Рисунок 1 Примеры сегментаций, выполненных человеком, для изображений из базы университета Беркли
Проведенные исследования супервизорных критериев качества сегментации позволили получить:
1. Оценки чувствительности критериев к результатам сегментации, выполняемой различными экспертами.
2. Оценки соответствия значения супервизорных критериев визуальной оценке результатов сегментации, выставляемой экспертом (при визуальной классификации результатов сегментации).
3. Оценка соответствия значения супервизорных критериев визуальной оценке, выставляемой экспертами (при формальном оценивании результатов сегментации по количеству выделенных областей).
На основе результатов количественных исследований супервизорных критериев оценки качества сегментации изображений выделены четыре критерия (Dku, GCE, Rl, RMS), обеспечивающие наиболее объективную оценку качества сегментации. Данные критерии были использованы далее для сравнительного анализа алгоритмов сегментации изображений.
Проведено сравнение следующих алгоритмов сегментации: алгоритм эволюции кривой на основе модели геодезических активных контуров (Geodesic Active Contours), алгоритм эволюции кривой на основе потока вектора градиента (Gradient vector flow), алгоритм эволюции кривой под управлением потока границ (Edgeflow-driven Curve Evaluation), алгоритм анизотропной диффузии под управлением потока границ (Edgeflow-driven Anisotropic Diffusion), алгоритм анизотропной диффузии, предложенный Перрона и Маликом (Регопа Malik Flow), алгоритм анизотропной диффузии, предложенный Шапиро {Self-Snakes), алгоритм JSEG сегментации изображений с учётом цветовых и текстурных признаков изображения, операторы краев Кенни, Робертса, Превитт, Собела, Zerocross, Log с дополнительной обработкой по связыванию границ. Сравнение алгоритмов выполнялось на базе изображений университета Беркли (Berkeley Segmentation Dataset).
А Б С Д
Рисунок 2 Пример изображения (А), результаты сегментации: Canny (Б), Roberts (С), JSEG (Д)
Согласно выбранным критериям Dku, GCE, Rl, RMS лучшие результаты были получены у алгоритмов JSEG, Canny, Roberts. Визуальный анализ результатов сегментации (рис. 2), полученных с помощью данных алгоритмов сегментации, показал, что, в отличие от JSEG, области, выделенные с помощью алгоритмов Canny и Roberts, содержат большое количество мелких отверстий, для удаления которых необходима дополнительная обработка результатов сегмен-тациии. Поэтому далее в работе использовался алгоритм JSEG.
В третьей главе проведено исследование степени субъективности внимания человека, рассмотрены известные модели восходящего внимания и описан разработанный авторами алгоритм нахождения прото-объекта.
Внимание - это избирательный процесс, позволяющий зрительной системе отделять релевантные внешние раздражители от нерелевантных. С его помощью из зрительного поля отбираются сегменты изображения для более детальной дальнейшей переработки. Известны два базовых подхода к анализу внимания: на основе восходящих процессов (bottom-up ¡mage-based) и на основе нисходящих процессов (top-down task-dependent). Подход, основанный на восходящих процессах, базируется на том, что распределение внимания полностью определяется свойствами образа (например, неожиданное движение на периферии зрительного поля, отличие цвета образа от фона). При этом решение принимается без учета сознания человека. Зрительная система человека, напротив, функционирует по принципу восходящего процесса - создание образа становится результатом объединения базовых элементов, обнаруженных зрительной системой. Подход, основанный на нисходящих процессах, преимущественно базируется на знаниях, ранее полученных наблюдателем, его предшествующем опыте, осмыслении и интерпретации, а также на его ожиданиях. Процессы, лежащие в основе внимания, могут быть составной частью как восходящих, так и нисходящих процессов. В литературе указывается, что определяющую роль во внимании играют восходящие процессы. Поэтому далее в нашей работе выполнено исследование возможности применения моделей восходящего внимания для нахождения области изображения, приблизительно соответствующей объекту.
Для оценки возможности использования методов теории визуального внимания проведены экспериментальные исследования, цель которых состояла в поиске ответа на вопрос: «Насколько стабильным оказывается субъективное внимание человека, рассматривающего то или иное изображение?». При этом
была использована методика, реализующаяся следующей последовательностью действий:
1. Выбор набора изображений / (не менее 50 изображений)
/ = {/,,/,,...,/,...,/„},
где п - количество изображений в наборе, / = 1 ,п.
2. Формирование множества независимых друг от друга экспертов Е(не менее 10)
£ = {£', Е2,..., £',...£'"},
где т - количество экспертов, у = 1 ,т, которым предлагалось на каждом изображении множества I найти области, привлекающие их внимание
3. Формирование экспертами независимо друг от друга для каждого изображения двумерных бинарных масок, присваивая значениям яркостей пикселей единицу, когда пиксель принадлежит области, привлекающей их внимание, и ноль - в противоположном случае.
Рисунок 3 Примеры бинарных масок, сформированных выбранными экспертами
Результатом выполнения данного шага является множество бинарных масок {£/}, г=1 ,п, у = 1 ,т:
Е = |Е{ ¡Е2 ,...,£„} Е< = {Е;,Е'г,.. .,£/,...,£„'}
£'" = {£,",£;,...,£;,...,£;}
Примеры одного из изображений, предложенного экспертам, и соответствующих бинарных масок представлены на рис. 3.
4. Наложение друг на друга для каждого изображения / бинарных масок и получение полутонового изображения, в котором яркость каждого пикселя равняется сумме яркостей соответствующих пикселей в бинарных масках.
Сгоу, = Е'.
Пример полутонового изображения Огау\ представлен на рис. 4. Здесь шкала, расположенная слева от рисунка, устанавливает соответствие между интенсивностью серого цвета и процентом совпадений между бинарными масками {£/}, 1 = 1,п, 7 = 1 ,т.
ЕЯ 100 150 200 250 300 350 4П0 4ЭГ|
Рисунок 4 Пример полутонового изображения Gray
5. Вычисление для каждого полутонового изображения Gray макси; мального количества согласований (в процентах от общего числа экспертов)
„ max(Gray ) • 100
С ongruencej = ---.
т
6. Построение гистограммы и вычисление среднего процента согласованности
Congruence:
Mean _Congruence = —--.
п
Для проведения исследования субъективности внимания человека в соответствии с вышеописанной методикой были сформированы 3 набора изображений (таб. 1):
1. Набор «Animals» - животные. Практически на всех изображениях только один явно выделяющийся объект;
2. Набор «Landscape» - пейзажи. Собраны изображения природы. На первый взгляд на таких изображениях нет явно выделяющегося объекта;
3. Набор «People» - люди. Изображения из этого набора содержат не-j сколько выделяющихся на первый взгляд объектов.
Таблица 1 Характеристики наборов изображений_________
№ Название набора Количество изображений (я) Количество экспертов (т)
1 «Animals» 50 17
2 «Landscape» 55 15
3 «People» 55 21
Средние значения уровня согласованности мнений экспертов по наборам «Animals», «Landscape», «People» представлены в таб. 2, из которой видно, что для каждого набора изображений уровень согласованности при определении области, привлекающей внимание человека, достаточно велик (не ниже 80%).
Таблица 2 Средние значения уровня согласованности
№ Название набора Средний процент согласованности (Mean Congruence)
1 «Animals» 91.88 ±8.14
2 «Landscape» 83.03 ± 12.69
3 «People» 82.6 ± 10.1
Таким образом, результаты проведенного экспериментального исследования обнаруживают высокий уровень согласованности мнений независимых экспертов (естественно, субъективного) при выделении областей визуального внимания. Следовательно, данную характеристику можно рассматривать как некий информативный признак, по которому можно устанавливать взаимно однозначное соответствие между изображением и его содержанием, и использовать его для построения алгоритмов поиска изображений по содержанию.
Отметим, что в литературе для обозначения области изображения, содержащей элементы, на которых концентрируется внимание человека, используется понятие «фокус внимания». В большинстве случаев фокус внимания определяется в виде окружности разного радиуса, т.е. так же как и сегментация изображений не приводит к идентификации визуально наблюдаемых объектов. В работе Уалтера (ШаИкег) используется наиболее удачное с нашей точки зрения понятие «прото-объект» - область изображение, привлекающая внимание человека, имеющая произвольную форму, которая является грубым приближением к наблюдаемому объекту (или объектам).
Далее в работе исследованы следующие модели восходящего визуального внимания: ^{/-модель, ЖУ-модель, ИКР-модель, (Ж-модель, КВ-модель, из которых, как показал Уалтер (УУаИЬег), наилучшей моделью среди всех известных является 1Ж-модель. Однако, как показали полученные нами результаты, ЖАГ-модель также не свободна от ряда недостатков:
1. Находимый прото-объект является лишь грубым приближением к объекту, привлекающему внимание человека.
2. Оценка алгоритма по базе естественных изображений показала, что с его помощью правильно найдены прото-объекты только для 52% изображений.
* *
Рисунок 5 Прото-объекты, найденные с помощью ЖЛГ-модели
3. На основе визуального анализа найденных прото-объектов сделан вывод, что области, соответствующие прото-объектам невелики в сравнении с
размером присутствующих на изображениях объектов, а их границы оказываются очень грубыми (ступенчатыми).
Примеры прото-объектов, найденных с помощью JfÁ^-модели, показаны на рис. 5.
Для устранения перечисленных выше недостатков WK-модели, был разработан алгоритм нахождения прото-объекта на цветных естественных изображениях. Пусть 1(х)"он — исходное изображение в пространстве RGB, заданное на поле зрения X (х — пиксель изображения, хеХ). НПО-алгоритм реализуется следующей последовательностью действий:
1. Создание эскиза изображения Под эскизом изображения понимается уменьшенная до размера 200 пикселей по большей стороне изображения цветная копия исходного изображения. Изображение Ч* задано на поле зрения £ (х — пиксель изображения, х е £)•
2. Преобразование эскиза в пространство LAB: кУ(х) -> ■
3. Нахождение фокуса внимания на каждой компоненте LAB:
- сглаживание усредняющим фильтром, область усреднения задавалась по умолчанию равной 3x3;
- применение разностного текстурного фильтра Local range of image. Значение каждого пикселя % определяется разностью максимального и минимального значения пикселей в окрестности 3x3 этого пикселя. Получаем изображение
- пороговая обработка
где R = 0.75 - значение, определяемое экспериментально;
- преобразование Ч1"" в бинарное изображение Ч^'"";
- удаление статистически незначимых пикселей которые идентифицируются как выбросы. Здесь анализ выбросов выполняется отдельно по осям X и У. Статистическая значимость выбросов оценивалась с помощью критерия Романовского. Пиксели, признанные выбросами хотя бы по одной оси удалялись;
- вычисление вершин прямоугольника, ограничивающего полученное множество белых пикселей. Полученная прямоугольная область характеризует фокус внимания. Изображение У7 является бинарной маской фокуса внимания, на которой значение пикселя равно 1, если пиксель принадлежит найденной прямоугольной области (иначе 0).
Результатом выполнения п. 3 является три найденных фокуса внимания:
0, если = R-mzx(x) ^(¿У, иначе.
F(x)\F(Xy,F(Xy.
4. Вычисление обобщенного фокуса внимания F:
F(X)=F(X)' +F(Zy + F(x)\
5. Удаление пикселей доминантного цвета. Объект на изображении отличается от фона в том числе и цветом (причем фон занимает значительную часть изображения), поэтому целесообразно не относить пиксели доминантного цвета к объекту:
ГО, если С,п|Л<1па(;г)<С„,;
ф(* Н*/ ч
иначе'
где - индексированное изображение, Стш, Сгоах - границы диапазона
доминантного цвета, который находится следующим образом:
- преобразование в индексированное изображение /ий?(/);
- построение гистограммы для 1пс1{х);
- определение интервала, которому соответствует максимум гистограммы Г С ,С 1;
I. пил 5 тах J '
6. Сегментация изображения с помощью алгоритма Намеренно был выбран режим пересегментации (параметр -I устанавливался равным 10).
7. Выбор среди результатов сегментации областей, принадлежащих про-то-объекту. Область принадлежит объекту, если в ней присутствует не более 30% пикселей / = 0 на изображении Ф(%). Выбранные области объединяются и образуют прото-объект.
Шаг 3_Обработка компонент по отдельности_
Сглаживание усредняющим фильтром
ив
\ythr
шттШк,
сегментация
■ Шаг 6
ц
"Н* ++ №)л
¡¡¡И
Щ
1 Шаг 4
<ад
Рисунок 6 Иллюстрация работы алгоритма нахождения прото-объекта на разных этапах
8. Увеличение бинарной маски найденного прото-объекта до размеров исходного изображения ¡(х).
Иллюстрация алгоритма нахождения прото-объекта представлена на рис. 6.
Примеры прото-объектов, найденных с помощью алгоритма нахождения прото-объекта на других изображениях, представлены на рис. 7.
Рисунок 7 Примеры прото-объектов, найденных с помощью алгоритма нахождения прото-объекта (А — исходные цветные изображения, Б — маски найденных прото-объектов)
НПО-алгоритм применим к следующим изображениям:
1. Цветные изображения. В алгоритме JSEG используется информация о распределении цветов на изображении.
2. Естественные изображения (фотографии), для которых характерно присутствие разнообразных текстур. В НПО-алгоритме при нахождении фокуса внимания используется текстурный фильтр.
3. Изображения, не содержащие сложных сцен с большим количеством объектов. В НПО-алгоритме заложено нахождение одного прото-объекта. Если на изображении присутствует более одного объекта, то алгоритм находит один прото-объект, соответствующий одному из имеющихся объектов.
Выполнено сравнение НПО- и И^-алгоритмов. Для объективной оценки результатов автоматической локализации объекта использовались следующие критерии:
1. Полнота (recall) — доля пикселей прото-объекта, входящих в состав объекта, от общего числа пикселей, принадлежащих объекту.
2. Точность (precision) - доля пикселей прото-объекта, входящих в состав объекта, от общего числа пикселей, принадлежащих прото-объекту:
Пусть имеется изображение /(х), где х - пиксель изображения (х е X). Обозначим М бинарную маску объекта, найденную экспертом. Объекту на изображении соответствует множество 0 = {хеХ\М > о}. Обозначим М' бинарную маску прото-объекта, найденную автоматически. Прото-объекту на изображении соответствует множество О' = {х е Х\М' > Oj. Пересечением множеств О и О' является подмножество Cross, содержащееся одновременно в О и О' для каждого хеХ:
баб
тогда полнота и точность вычисляются по формулам:
15
recall = -
и ' precision- |o| '
Проведена серия экспериментов по исследованию влияния следующих факторов на результативность локализации объекта:
1. Положение объекта относительно центра естественного изображения. Тестирование выполнялось на коллекции из 50 цветных изображений. На каждом изображении присутствует один хорошо выраженный объект, расположенный не по центру изображения.
2. Положение объекта относительно центра искусственно сгенерированного цветного изображения. Тестирование выполнялось на коллекции 49 изображений размером 200 х 200 пикселей. В процентах от площади всего изображения средняя площадь объекта на изображении составляет S = 3.7 + 0.1.
3. Небольшой размер объекта на естественном изображении. Тестирование выполнялось на коллекции из 72 изображений, на каждом из которых присутствует один выраженный объект, расположенный не по центру. В процентах от площади всего изображения средняя площадь объекта составляет S = 6.2 ±0.3.
4. Небольшой размер объекта на искусственно сгенерированном цветном изображении. Тестирование выполнялось на коллекции 50 изображений. В процентах от площади всего изображения средняя площадь объекта составляет S = 0.802 ±0.008.
5. Наличие шумов на искусственно сгенерированном цветном изображении. Тестовая коллекция состоит из 49 изображений, на которые добавлен шум и объекты расположены не по центру. В процентах от площади всего изображения средняя площадь объекта на изображении составляет S = 3.7 ± 0.1.
Результаты экспериментов представлены на рис. 8.
Рисунок 8 Результаты 5-ти экспериментов по сравнению НПО- и (УК-алгоритмов. (А) — оценки полноты {recall), (Б) — оценки точности (precision). Сплошная линия соответствует НПО-алгоритму, пунктирная — (УК-алгоритму.
Из рис. 8(Б) видно, что во всех экспериментах значения критерия точности для НПО-алгоритма выше, чем для WK-алгоритма. Из рис. 8(A) видно, что при поиске прото-объекта на естественных изображениях (эксперименты №1 и №3) значение полноты выше для НПО-алгоритма, чем WK-алгоритма. Среднее время обработки одного изображения алгоритмом нахождения прото-объекта составило 3.9 с, что на 1.1 с. больше по сравнению с ЩГ-алгоритмом.
Таким образом, НПО-алгоритм позволяет точнее найти прото-объект на естественных изображениях, и может быть использован при поиске изображений по содержанию.
В четвертой главе описан разработанный автором прототип CBIR-системы, ориентированной на поиск похожих объектов на изображениях, методы поиска изображений с использованием признаков прото-объекта и результаты экспериментов по проверки их работоспособности.
Отметим, что при -поиске изображений по визуальному подобию следует учитывать следующие обстоятельства:
1. На изображениях присутствует фон, который вносит искажение в глобальные характеристики изображений;
2. При поиске изображения человека в большинстве случаев интересует конкретный объект на изображении-запросе;
3. Ряд известных сайтов (например, Яндекс.Фотки, Flickr, ВКонтакте) предоставляют пользователю возможность выкладывать собственные фотографии, снабженная сервисом, позволяющим окаймлять интересующую область ограничивающим прямоугольником, а также подписывать объекты на изображении.
Дополнительная информация, получаемая от пользователя о положении объекта на изображении, может быть использована для уточнения алгоритмов автоматического нахождения изображений. Следовательно, целесообразно предварительно находить на изображениях объекты, привлекающие внимание человека, после чего оценивать сходство объектов на изображениях в базе с объектом на изображении запроса. Предложенный подход реализуется следующей последовательностью действий:
1. Формирование запроса: запрос задаётся в виде изображения, на котором пользователь определяет область, соответствующую объекту. При этом объект может быть задан двумя способами - вручную (пользователь задаёт интересующий его объект, выделяя его на изображении специальным инструментом, очерчивая область ломаной линией) или автоматически (объект на изображении находится с помощью алгоритма нахождения прото-объекта).
2. Извлечение признаков: для проверки подхода поиска изображений с использованием информации о прото-объекте вычислялся только признак цвета - гистограмма цвета в пространстве RGB (8 интервалов в гистограмме).
3. Измерение сходства изображений: в качестве меры сходства изображений использовалось расстояние Бхаттачария (Bhattacharyya distance)).
Проведена экспериментальная проверка предложенного подхода, в ходе которой поиск осуществлялся по коллекции изображений, состоящей из 2233
цветных изображений (выбранных с фотохостинга Яндекс.Фотки и Яндекс.Картинки). Каждое изображение было отнесено к одной из 49-ти заранее заданных категорий. Причём в каждой категории имелось разное количество изображений, что позволило приблизиться к реальной базе изображений, содержание которой в целом носит случайный характер.
Найденные изображения считались релевантными, если они попадали в ту же категорию, что и изображение-запрос (строгая релевантность). Отметим, что в ряде случаев человек относит изображения к одной категории не только на основе визуальной оценки их сходства, но и с использованием дополнительной имеющейся у него информации. Следовательно, строгая релевантность основана на семантическом сходстве. Например, слон, носорог, бегемот по внешнему виду порой бывают очень схожи. Однако человек обычно ищет именно то, что изображено на картинке, поэтому в нашей тестовой коллекции изображений они отнесены в разные категории, и при строгой оценке они считаются нерелевантными.
Для поиска изображения были использованы следующие методы:
1. Поиск по признаку цвета прото-объекта (объект на изображении-запросе задаёт пользователь).
2. Поиск по признаку цвета прото-объекта (объект на изображении-запросе находится автоматически с помощью разработанного алгоритма нахождения прото-объекта).
3. Комбинированный поиск. Объединение поиска по глобальному признаку цвета и поиска по признаку цвета прото-объекта (объект на изображении-запросе задаёт пользователь).
Поиск по глобальному признаку цвета является широко используемым методом поиска изображений по содержанию, поэтому в работе выполнено сравнение предложенных методов с поиском по глобальному признаку цвета.
Для количественной оценки качества поиска использовались следующие критерии:
1. Точность на уровне п документов (Точность(и)). Здесь точность - доля релевантных изображений в общем числе найденных. Точность на уровне п документов определяется как количество релевантных документов среди первых п выданных документов, деленное на п (например, точность(5) - доля релевантных изображений в первых 5-ти найденных). Данный критерий является незаменимым критерием при оценке качества современных систем поиска, так как, в частности, позволяет оценить полезность первой страницы ответа системы для пользователя.
2. Полнота(50) - доля релевантных изображений, обнаруженных среди первых 50-ти найденных, в общем количестве релевантных по данному запросу.
3. Л-точность. /{-точность равна точности на уровне п документов для п равного количеству релевантных документов для данного запроса. Данная метрика особенно полезна в тех случаях, когда для разных запросов наблюдается большая разница в количестве известных релевантных документов.
4. Средняя точность. Средняя точность для данного запроса определяется следующим образом: пусть для данного запроса имеется к релевантных документов. Точность на уровне /-го релевантного документа prec_rel(i) равна
precision(pos(i)), если /-й релевантный документ находится в результатах запроса на позиции pos(i). Если í-й релевантный документ не найден, то prec_rel(i) = 0. Средняя точность для данного запроса равна среднему значению величины prec rel(i) по всем к релевантным документам:
1 '
Avg Free = — ■ J] prec _ reí (/).
Проведены 3 эксперимента, в ходе которых получены оценки эффективности:
Эксперимент I. Поиск по глобальному признаку цвета.
Эксперимент II. Поиск по признаку цвета уровня прото-объекта (объект на изображении-запросе находится автоматически).
Эксперимент III. Поиск по признаку цвета уровня прото-объекта (объект на изображении-запросе задаёт пользователь).
Эксперимент IV. Комбинированный поиск (учёт глобальных признаков цвета и признаков прото-объекта).
Результаты экспериментов при оценке строгой релевантности представлены на рис. 9.
Средняя точность
То-жость(Ю)
♦ Эксперимент N=1 Ш Эксперимент —А" Эксперимент^^ й Эксперимент
Точность(5Э)
Точность(20)
Рисунок 9 Результаты 3-х экспериментов. Строгая релевантность.
Результаты сравнения предложенных методов с поиском по глобальному признаку цвету представлены в таб. 3.
Оказывается, что если объект на изображении задается автоматически (эксперимент №2), то поиск менее эффективен по сравнению с поиском по объекту, задаваемом вручную (эксперимент №3), Следовательно, объект на изо-
бражении-запросе целесообразно задавать вручную, поскольку пользователь точнее формулирует запрос для поиска.
Однако, на рис. 9 видно, что значения критериев довольно близки друг к другу, поэтому далее проведен исследование по оценке совпадения в изображениях, верно найденных с помощью поиска, по следующим признакам:
1. Глобальному признаку цвета (эксперимент №1) и признаку цвета про-то-объекта, который находится автоматически (эксперимент №2).
2. Глобальному признаку цвета (эксперимент №1) и признаку цвета про-то-объекта, который задается пользователем (эксперимент №3).
3. Признаку цвета прото-объекта, который находится автоматически (эксперимент №2) и признаку цвета прото-объекта, который задается пользователем (эксперимент №3).
Результаты оценки совпадения в изображениях представлены в табл. 4.
Таблица 3 Сравнение результатов 3-х экспериментов. Строгая релевантность.
№ критерий Сравнение с поиском по глобальному признаку цвета (эксперимент 1 )
Поиск по признаку цвета прото-объекта (объект на запросе находится автоматически) Поиск по признаку цвета прото-объекта (объект на запросе задаёт пользователь) Комбинированный метод поиска(учет глобального цвета и цвета прото-объекта)
! полнота(50) ниже на 32 % ниже на 6% выше на 12%
2 точность(5) ниже на 39% ниже на 13% выше на 10%
3 точность(Ю) ниже на 42% ниже на 12% выше на 9%
4 точность(20) ниже на 40% ниже на 12% выше на 10%
5 точность(50) ниже на 33% ниже на 8% выше на 13%
6 средняя точность ниже на 37% ниже на 6% выше на 14%
7 Л-точность ниже на 33% ниже на 4% выше на 14%
Номер эксперимента 2 3 4
Таблица 4 Процент совпадений от общего числа верно найденных изображения
№ Характеристика Эксперименты №1 и №2 Эксперименты №1 и №3 Эксперименты №2 и №3
1 Общее количество верно найденных изображений по всем запросам (сумма найденных 2-мя методами) 1872 2036 1600
2 Процент совпавших найденных изображений (от общего количества верно найденных) 25.5 % 33.4% 40.0 %
Из таб. 4 видно, что:
1. При поиске по глобальному признаку цвета (эксперимент №1) и признаку цвета прото-объекта, который находится автоматически (эксперимент №2) совпадает лишь 25.5 % среди верно найденных изображений обоими методами;
2. При поиске по глобальному признаку цвета (эксперимент №1) и признаку цвета прото-объекта, который задается пользователем (эксперимент №3) совпадает лишь 33.4 % среди верно найденных изображений обоими методами;
3. При поиске по признаку цвета прото-объекта, который находится автоматически (эксперимент №2) и признаку цвета прото-объекта, который зада-
20
ется пользователем (эксперимент №3) совпадает лишь 40.0 % среди верно найденных изображений обоими методами.
Анализ результатов проведенных экспериментов по глобальному поиску изображений и по признаку прото-объектов позволяют сделать следующие выводы:
1. Поиск по глобальному признаку цвета и по признаку прого-объекта дают приблизительно одинаковое качество поиска (по значениям критериев полноты и точности на уровне первых 50-ти найденных изображений);
2. Существуют классы изображений, которые целесообразно искать только по признакам прото-объектов (1 класс), и изображений, которые целесообразно искать только по глобальным признакам (2 класс);
3. Оказалось, что процент совпадения в изображениях, верно найденными по глобальному признаку цвета и по признаку цвета прото-объекта, составляет примерно 30%. Следовательно, 70% изображений возможно найти, используя поочередно поиск по глобальному признаку цвета и по признаку цвета прото-объекта.
Таким образом, одной из возможностей улучшения качества поиска является комбинирование поиска по глобальным признакам и по признакам прото-объектов. Из рис. 9 и таб. 3 видно, что комбинированный метод поиска по всем критериям показал наилучшие результаты.
Иллюстрация результатов поиска по глобальному цвету и по признакам прото-объектов представлена на рис. 10-11.
Рисунок 10 Иллюстрация результатов поиска но глобальному цвету (первое изображение — запрос)
Из рис. 10 видно, что среди первых 14-ти найденных изображений релевантным запросу нет ни одного. При этом очевидно, что в данном случае качество поиска искажено влиянием зеленого фона.
р р р
р
Рисунок 11 Иллюстрация поиска по признакам прото-объектов (изображение-запрос тоже самое, чзо и в предыдущем случае, объект на запросе задает пользователь)
Из рис. 11 видно, что среди найденных изображений релевантными запросу являются 3 изображения (не учитывая найденное изображение-запрос). Причем все объекты на найденных изображениях того же цвета, что и объект на запросе. Следовательно, использование информации только об объекте на изображении в данном случае позволило избежать влияния фона на результаты поиска. В то же время необходимо использовать дополнительные признаки прото-объектов, чтобы иметь возможность различать друг от друга объекты одного цвета. Однако данные примеры иллюстрирую возможность использовать поиск по прото-объекту для поиска изображений со схожими объектами.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ
Основные результаты работы заключаются в следующем:
1. Проведён анализ современного состояния проблемы поиска изображений по содержанию и CBlR-cистем, находящихся в свободном доступе в Интернет. Выполненный анализ позволил обобщить низкоуровневые признаки изображений, используемые в CBIR-скстшах.
2. Выполнено исследование алгоритмов сегментации изображений и су-первизорных критериев, используемых для количественной оценки качества сегментации. Разработана методика сравнительного анализа супервизорных критериев качества сегментации, в соответствии с которой проведены количественные исследования супервизорных критериев. Выделены четыре критерия (Dku, GCE, RI, RMS), которые обеспечивают наиболее объективную оценку качества сегментации. Выполнено сравнение ряда современных алгоритмов сегментации изображений, по результатам которого выбран алгоритм JSEG.
3. Выполнено исследование степени субъективности внимания человека, результаты которого обнаружили высокий уровень согласованности мнений не-
22
зависимых экспертов при выделении областей, привлекающих внимание. Сделан вывод, что данную характеристику можно рассматривать как некий информативный признак, однозначно связанный между изображением и его содержанием, и использовать для построения алгоритмов поиска изображений по содержанию.
4. Рассмотрены известные модели восходящего визуального внимания. Предложен новый алгоритм нахождения прото-объекта, обеспечивающий в сравнении с аналогичным алгоритмом более высокое качество поиска прото-объекта.
5. Разработаны новые методы поиска изображений с использованием признака цвета прото-объекта: (1) поиск по признаку цвета прото-объекта, при котором объект на запросе задаётся пользователем; (2) поиск по признаку цвета прото-объекта, при котором объект на запросе находится автоматически с использованием алгоритма нахождения прото-объекта; (3) комбинированный поиск, учитывающий глобальный признак цвета и признак цвета прото-объекта (при этом объект на запросе задается пользователем).
6. Проведено сравнение эффективности поиска изображений методами, предложенными в диссертационном исследовании, с поиском по глобальному признаку цвета, который широко используется в современных CBIR-системах и доказано, что комбинированный поиск обеспечивает высокое качество поиска.
7. На основе предложенных методов поиска изображений разработан прототип СШЛ-системы, в которой реализованы разработанные автором новые методы поиска изображений.
ПО ТЕМЕ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ СЛЕДУЮЩИЕ РАБОТЫ:
1. Левашкина А.О., Поршнев C.B. Исследование супервизорных критериев оценки качества сегментации изображений // Известия Томского политехнического университета. Управление, вычислительная техника и информатика, 2008. — Т. 313. — №5, —с. 28-33.
2. Левашкина А.О., Поршнев C.B. Сравнительный анализ супервизорных критериев оценки качества сегментации изображений // Информационные технологии, 2009, — №5, — с. 52-57.
3. Левашкина А.О., Поршнев C.B. Исследование супервизорных критериев оценки качества сегментации изображений : [Тезисы докладов] // Седьмая российская конференция с международным участием Конференция «Новые информационные технологии в исследовании сложных структур», Томск, 2008. — с. 17.
4. Левашкина А.О., Алгоритм нахождение прото-объекта : [Тезисы докладов] // 3-я Международная конференция «Информационно-математические технологии в экономике, технике и образовании», Екатеринбург. — Екатеринбург: УГТУ-УПИ, 2008, —с. 237-238.
5. Левашкина А.О. Сравнительный анализ супервизорных критериев оценки качества сегментации изображений // Научные труды международной научно-практической конференции «СВЯЗЬ-ПРОМ 2008» в рамках 5го Евро-Азиатского форума «СВЯЗЬ-ПРОМЭКСПО 2008», Екатеринбург, 2008. — с. 66-68.
6. Левашкина А.О. Методика сравнения супервизорных критериев оценки качества сегментации изображений // Научные труды международной научно-
практической конференции «СВЯЗЬ-ПРОМ 2008» в рамках 5го Евро-Азиатского форума «СВЯЗЬ-ПРОМЭКСПО 2008» (Екатеринбург), с. 63-65.
7. Левашкина А.О., Поршнев C.B. Универсальная классификация алгоритмов сегментации изображений // Журнал научных публикаций аспирантов и докторантов, 2008.№3. с. 163-172.
8. Левашкина А. О., Поршнев С. В. Вычислительный алгоритм поиска на изображении прото-объекта // Математические методы распознавания образов: 14-я Всероссийская конференция. Владимирская обл., г. Суздаль, 21-26 сентября 2009 г.: Сборник докладов. М.: МАКС Пресс, 2009. С.379-382.
9. Левашкина А. О., Поршнев С. В. Сравнительный анализ особенностей CBIR-систем // Математические методы распознавания образов: 14-я Всероссийская конференция. Владимирская обл., г. Суздаль, 21-26 сентября 2009 г.: Сборник докладов. М.: МАКС Пресс, 2009. С.383-386.
10. Левашкина А.О. Поиск изображений с учётом присутствующих на них объектов // Труды Третьей Российской конференции молодых ученых по информационному поиску. — Петрозаводск: Изд-во ПетрГУ, 2009. — с. 76.
11. Левашкина А. О., Поршнев С. В. Алгоритм поиска изображений по содержанию, основанный на использовании модели восходящего внимания // Свидетельство об отраслевой регистрации № 00094 в отраслевом фонде электронных ресурсов науки и образования (госрегистрация №50200900867 от 05.08.2009). - 16.07.2009.
12. Левашкина А. О., Поршнев С. В. Алгоритм автоматического поиска прото-объект // Свидетельство об отраслевой регистрации № 00097 в отраслевом фонде электронных ресурсов науки и образования (госрегистрация №50200900870 от 05.08.2009). - 16.07.2009.
13. Левашкина А. О., Поршнев С. В. Комбинированный алгоритм поиска изображений по содержанию, основанный на одновременном использовании глобальных признаков и признаков прото-объекта // Свидетельство об отраслевой регистрации № 00092 в отраслевом фонде электронных ресурсов науки и образования (госрегистрация №50200900865 от 05.08.2009). - 16.07.2009.
14. Левашкина А. О., Поршнев С. В. Программа поиска изображений по содержанию // Свидетельство об отраслевой регистрации № 00093 в отраслевом фонде электронных ресурсов науки и образования (госрегистрация №50200900866 от 05.08.2009). - 16.07.2009.
Левашкина Анастасия Олеговна
РАЗРАБОТКА МЕТОДОВ ПОИСКА ИЗОБРАЖЕНИЙ НА ОСНОВЕ ВЫЧИСЛИТЕЛЬНЫХ МОДЕЛЕЙ ВИЗУАЛЬНОГО ВНИМАНИЯ
Автореферат диссертации на соискание ученой степени кандидата технических наук
Подписано в печать 11.11.2009
Бумага офсетная
Усл. печ. л. 1,5 Уч.-i
Уч.-изд. л. 1,7
Гарнитура «Тайме»
Тираж 100 экз.
Формат 60x90 1/16 Ризография Заказ № 1604
Отпечатано в РИО НТИ (ф) УГТУ-УПИ 622031, Нижний Тагил, ул. Красногвардейская, 59
Оглавление автор диссертации — кандидата технических наук Левашкина, Анастасия Олеговна
Введение.
Глава 1. Анализ состояния предметной области. Постановка задач исследования.
1.1. Основные понятия и общая постановка задачи поиска изображений на основе содержания.
1.2. Архитектура С£/Л-систем.
1.3. Признаки изображений, используемые в СВ/Я-системах.
1.3.1. Признака цвета.
1.3.2. Признаки текстуры.
1.3.3. Признаки формы.
1.4. Сравнительный анализ современных СВШ-систем.
1.4.1. Анализ результатов ранее проведенных исследований СВШ-систем.
1.4.2. Сравнительный анализ демо-версий современных СВШ-систем.
1.5. Постановка задач исследования.
Глава 2. Исследование алгоритмов сегментации изображений.
2.1. Постановка задачи сегментации изображений.
2.2. Классификация алгоритмов сегментации изображений.
2.2.1. Анализ подходов к классификации алгоритмов сегментации изобраэ/сений.
2.2.2. Обобщенная классификация алгоритмов сегментации изображений.
2.3. Исследование критериев оценки качества сегментации.
2.3.1. Классификация критериев оценки качества сегментации.
2.3.2. Супервизорные критерии оценки качества сегментации.
2.3.3. Исследование супервизорных критериев оценки качества сегментации.
2.3.4. Результаты сравнения супервизорных критериев оценки качества сегментации.
2.4. Сравнение алгоритмов сегментации.
2.4.1. Анализ предшествующих работ по сравнению алгоритмов сегментации изображений.
2.4.2. Методика сравнения алгоритмов сегментации изобраэ/сений.
2.4.3. Результаты сравнения алгоритмов сегментации изображений.
2.5. Выводы.
Глава 3. Исследование вычислительных моделей, описывающих механизм восприятия изображений человеком.
3.1. Основные понятия.
3.2. Вычислительные модели внимания.
3.2.1. Классификаг^ш вычислительных моделей внимания.
3.2.2. Вычислительные модели восходящего внимания.
3.2.3. Исследование 1¥К-алгоритма.
3.3. Исследование степени субъективности внимания человека.
3.4. Алгоритм нахождения прото-объекта.
3 3.4.1. Описание алгоритма нахождения прото-объекта.
3.4.2. Сравнение ]¥К-алгоритма и алгоритма нахождения прото-объекта.
3.5. Выводы.
Глава 4. Модель системы поиска изображений по визуальному сходству
4.1. Общая характеристика системы.
4.1.1. Формирование запроса.
4.1.2. Извлечение признаков.
4.1.3. Измерение сходства изображений.
4.2. Анализ результатов поиска разработанной модели
СВШ-с истемы.
4.2.1. Критерии оценки эффективности поиска изобраэюений.
4.2.2. Тестовое множество изображений.
4.2.3. Шкала релевантности.
4.2.4. Методика автоматической оценки качества результатов поиска.
4.2.5. Эксперимент 1. Поиск по глобальному признаку 1{вета.
4.2.6. Эксперимент 2. Поиск по признаку цвета уровня прото-объекта объект на изображении-запросе находится автоматически).
4.2.7. Эксперимент 3. Поиск по признаку цвета уровня прото-объекта объект на изображении-запросе задаёт пользователь).
4.3. Сравнительный анализ результатов экспериментального исследования разработанной модели С£//?-системы.
4.3.1. Сравнение результатов проведенных экспериментов.
4.3.2. Анализ совпадений изображений, верно найденных различными методами поиска.
4.3.3. Комбинирование поиска по глобальному признаку цвета и признаку цвета прото-объекта.
4.3.4. Анализ изображений, найденных разными методами.
4.4. Сравнение результатов комбинированного поиска изображений с результатами других исследований по поиску изображений.
4.4.1. Сравнение с РОМИП 2008.
4.4.2. Сравнение результатов комбинированного поиска изображений с известными демо-версиями СВШ-систем.
4.4.3. Сравнение с системой 1МАЯ8.
4.5. Выводы.
Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Левашкина, Анастасия Олеговна
Актуальность темы. В настоящее время задачи оцифровки и хранения больших объемов визуальной информации имеют законченные технические решения, вполне удовлетворяющие требованиям пользователей, в то время как в области разработки методов решения задач поиска и семантической классификации изображений ситуация оказывается прямо противоположной. Отметим, что до последнего времени наиболее часто использовался поиск визуальной информации, опирающийся на индексирование текстовых описаний, ассоциированных с изображением (например, поиск картинок на Яндекс и Google). При очевидной необходимости организации доступа к коллекции изображений посредством поиска по текстовой информации, ассоциированной с изображениями, данный подход представляется недостаточным. Действительно, существующая неоднозначность при установлении соответствия между визуальным содержанием и текстовым описанием снижает показатели точности и полноты поиска, а целом ряде случаев оказывается весьма трудным или вообще невозможным составить словесное описание изображения (например, абстрактные картины).
В начале 80-х годов для преодоления недостатков поисковых систем на основе текста были начаты разработки методов поиска изображений по содержанию (в зарубежной литературе для обозначения данного подхода используется аббревиатура CBIR - Content-based image retrieval). В CBIR-системах изображения индексируются по их визуальному содержимому (по цвету, текстуре, форме и т.д.). Изучением различных аспектов рассматриваемой проблемы занимались многие исследователи, в том числе: F. Long, H. Zhang, D. Feng, R. C. Veitkamp, M. Tañase, Y. Rai, Th. S. Huang, S.-F. Chang, L.-J. Hove, Y. Xhiiang, X. Liu, Y. Pan, I. Naqa, M. Wernick, Y. Yang, N.P. Galatsanos, Th. Deselaers, A.B. Белков, H. Васильева, A. Дольник, И. Марков.
Анализ современных тенденций развития систем поиска изображений показывает, что наиболее популярным оказывается подход, основанный на использовании тех или иных алгоритмов анализа изображений. Например, одним из последних нововведений Google стало введение новых типов изображений, которые Google автоматически классифицирует. На текущий момент данная поисковая система распознает следующие типы изображений: портреты, фотографии, гравюры, карандашные рисунки и схемы, «клипарт». В апреле 2009 года запущен поиск похожих изображений Google Similar Images', на первом этапе используется традиционный способ поиска по текстовому запросу, а затем в качестве запроса используется одно из найденных изображений и осуществляется поиск по визуальному сходству. В поисковой системе Яндекс в конце 2008 года стал возможен поиск портретов, а ранее был запущен поиск картинок по преобладающему цвету, поиск фотографий и механизм выявления дубликатов.
В настоящее время известны демо-версии систем поиска изображений по содержанию (MFIRS, CIRES, Tiltomo, INRIA, Retrievr и др.). Проведенный анализ качества поиска в перечисленных системах показывает, что качество поиска в них существенно ниже по сравнению с системами поиска изображений по текстовым аннотациям. Так, из 20-ти первых найденных изображений запросу соответствует не более 16% изображений (при поиске по текстовым аннотациям в системе Яндекс аналогичный показатель равнялся 51%).
Следует отметить, что задача поиска изображений по содержанию по своей постановке формально близка к задаче распознавания образов, однако по своей сути эти задачи не являются идентичными. В задаче распознавания образов основной целью является отнесение входного изображения к одному из заранее известных классов, в то время как в задаче поиска изображений по содержанию изначально явного требования к идентификации класса входного изображения не ставится, но требуется найти изображения, обладающие визуальным сходством с запросом.
Анализ базовых принципов, используемых в современных CBIR-систем ах, показывает, что в большинстве из рассмотренных систем поиска изображений по содержанию поиск ведется по признакам, извлекаемым из всего изображения (глобальные признаки). Кроме того, при поиске изображений пользователь зачастую интересуется вполне конкретным объектом, присутствующим на изображении, и, соответственно, результатом поиска должны быть изображения, содержащие искомый объект.
В тоже время в научной литературе описаны результаты исследования механизмов восприятия человеком изображений, согласно которым внимание человека в процессе анализа изображений концентрируется не на всем изображении, а на некоторых вполне конкретных областях изображения. При этом выбор области (или нескольких областей), привлекающей внимание человека, в большей степени обусловлен свойствами данной области, но в меньшей степени высокоуровневыми когнитивными процессами (модель восходящего внимания).
В этой связи представляется целесообразным проведение исследований возможности использования моделей восходящего внимания для нахождения области изображения, приблизительно соответствующей объекту, разработка методов поиска изображений, механизм которых подобен механизму восприятия изображений человеком. При этом можно ожидать, что использование информации, извлекаемой из данных областей, позволит повысить качество поиска CBIR-систем по сравнению с широко используемым поиском по глобальным признакам изображений. Отметим, что в последнее время модели визуального внимания привлекли внимание ряда исследователей, в том числе: Аксёнов С. В., О. Marques, L. M. Mayron, G. В. Borba, H. R. Gamba.
Цель работы - разработка методов поиска изображений по содержанию, основанных на использовании модели восходящего внимания.
Задачи исследования. Для достижения указанной цели в работе поставлены и решены следующие задачи:
Анализ современного состояния проблемы поиска изображений по содержанию и обзор информационных признаков изображений, используемых в СВШ-системах.
2. Построение универсальной классификации алгоритмов сегментации изображений, позволяющей однозначно классифицировать все известные на сегодняшний день алгоритмы сегментации изображений.
3. Анализ критериев качества сегментации и выделение критериев, которые целесообразно использовать для оценки качества алгоритмов сегментации изображений.
4. Анализ известных моделей восходящего визуального внимания и исследование степени субъективности внимания человека.
5. Разработка алгоритма автоматического нахождения объекта на изображении, привлекающего внимание человека.
6. Разработка методов поиска изображений с использованием информации об объекте и проведение экспериментальной проверки их работоспособности.
7. Разработка на основе предложенных методов поиска изображений прототипа СВШ-системы.
Методы исследований. Выполненные разработки и их научно-техническое обоснование базируются на использовании методов цифровой обработки изображений и распознавания образов, статистической обработки информации.
Научная новизна результатов исследования.
1. Универсальная классификация алгоритмов сегментации изображений, позволяющая однозначно классифицировать все известные на сегодняшний день алгоритмы сегментации изображений.
2. Результаты исследований супервизорных критериев оценки качества сегментации изображений, позволившие обосновать выбор критерия, обеспечивающего наиболее объективную оценку качества сегментации.
3. Алгоритм автоматического нахождения прото-объекта.
4. Методы поиска изображений, основанные на использовании признаков прото-объекта.
Практическая значимость работы и внедрение её результатов. Разработанные методы повышения эффективности поиска графической информации реализованы в виде макетных версий программ. Научные результаты, полученные в диссертационном исследовании, используются в ООО «Институт информационных датчиков и технологий» при разработке систем технического зрения. Общетеоретические результаты вошли в учебные программы дисциплин «Методы обработки многомерных сигналов», «Методы обработки и анализа сигналов в информационных системах», «Интеллектуальные информационные системы», «Представление знаний в интеллектуальных информационных системах».
На защиту выносятся:
1. Универсальная классификация алгоритмов сегментации изображений, позволяющая однозначно классифицировать все известные на сегодняшний день алгоритмы сегментации изображений.
2. Результаты исследований супервизорных критериев оценки качества сегментации изображений.
3. Алгоритм автоматического нахождения прото-объекта.
4. Методы поиска изображений с использованием признаков прото-объекта.
5. Прототип СШЯ-системы, реализующей методы поиска изображений на основе признаков прото-объектов.
Апробация результатов. Основные результаты и положения работы докладывались и обсуждались на следующих научных конференциях:
3-й Международной конференции «Информационно-математические технологии в экономике, технике и образовании» (Екатеринбург, ноябрь 2008);
7-й Всероссийской конференции с международным участием «Новые информационные технологии в исследовании сложных структур» (Томск, сентябрь 2008);
Международной научно-практической конференции «СВЯЗЬ-ПРОМ 2008» в рамках 5-го Евро-Азиатского форума «СВЯЗЬ-ПРОМЭКСПО 2008» (Екатеринбург, май 2008);
Международной научно-практической конференции «СВЯЗЬ-ПРОМ 2009» в рамках 6-го Евро-Азиатского форума «СВЯЗЬ-ПРОМЭКСПО 2009» (Екатеринбург, февраль 2009);
10-й всероссийской конференции «Математические методы распознавания образов» (Суздаль, сентябрь 2009);
3-й Российской конференции молодых учёных по информационному поиску, проводившейся в рамках III Российской летней школы по информационному поиску RuSSIR^2009 (Петрозаводск, сентябрь 2009).
Результаты диссертационного исследования были включены в инновационный проект, представленный на конкурсе, проводимом в 2009 году Фондом содействия развитию малых форм предприятий в научно-технической сфере. По результатам конкурса представленный проект стал победителем программы «Участник Молодежного Научно-Инновационного Конкурса» («УМНИК»).
Публикации. По теме диссертации опубликовано 10 работ, в том числе 2 работы в изданиях, рекомендованных ВАК.
Структура и объем работы. Общий объём диссертации - 163 страницы, в том числе 11 страниц приложений. Диссертация иллюстрирована 121 рисунком, 46 таблицами.
Заключение диссертация на тему "Разработка методов поиска изображений на основе вычислительных моделей визуального внимания"
Основные результаты работы заключаются в следующем:
1. Проведён анализ современного состояния проблемы поиска изображений по содержанию и доступных СВШ-систем, позволивший обобщить результаты исследований низкоуровневых признаков изображений, используемых в СВШ -системах.
2. Предложен универсальный подход, на основе которого построена универсальная классификация алгоритмов сегментации изображений (АСИ), позволяющая однозначно классифицировать все известные на сегодняшний день АСИ.
3. Разработана методика сравнительного анализа супервизорных критериев качества сегментации, в соответствии с которой проведены количественные исследования супервизорных критериев оценки качества сегментации изображений, и выделены критерии, которые целесообразно использовать для оценки качества АСИ.
4. На основе результатов, полученных при анализе известных моделей восходящего визуального внимания, а также исследований степени субъективности внимания человека, предложен алгоритм нахождения прото-объекта (НПО-алгоритм), обеспечивающий в сравнении с аналогичным алгоритмом более высокое качество поиска прото-объекта.
5. Разработаны новые методы поиска изображений с использованием признака цвета прото-объекта: 1) поиск по признаку цвета прото-объекта, при котором объект на запросе задаётся пользователем; 2) поиск по признаку цвета прото-объекта, при котором объект на запросе находится автоматически с использованием алгоритма нахождения прото-объекта; 3) комбинированный поиск, учитывающий глобальный признак цвета и признак цвета прото-объекта (при этом объект на запросе задается пользователем).
6. Проведено сравнение эффективности поиска изображений методами, предложенными в диссертационном исследовании, с поиском по глобальному признаку цвета, который широко используется в современных СВШ-систем ах, и доказано, что комбинированный поиск обеспечивает более высокое качество поиска.
7. На основе предложенных методов поиска изображений разработан прототип СВШ-системы, в которой реализованы разработанные автором новые методы поиска изображений.
Заключение
Библиография Левашкина, Анастасия Олеговна, диссертация по теме Теоретические основы информатики
1. Коллекция снимков NASA Электронный ресурс.: Коллекция снимков NASA. Режим доступа: http://images.jsc.nasa.gov/ 26.03.2009.
2. Liu Y., Zhang D., Lu G., Ma W.-Y., A Survey of content-based image retrieval with high-level semantics // Pattern Recognition, 2007, № 40, pp. 262-282.
3. Корябкина И.В. Эффективные способы и средства описания изображений в задачах распознавания // Автореферат диссертации на соискание ученой степени кандидата технических наук, 05.13.17 Теоретические основы информатики, Москва 2006.
4. Прэтт У. Цифровая обработка изображений: Пер. с англ. М.: Мир, 1982-Кн. 2 - 480с.
5. Long F., Zhang Н., Feng D. Fundamentals of content-based image retrieval // Multimedia Information Retrieval and Management Technological Fundamentals and Applications, Springer-Verlag, 2003, pp. 1-26.
6. Rui Y., Huang Th. S., Chang S.-F., Image Retrieval: Current techniques, promising directions and open issues 11 Journal of Visual Communication and Image Representation, 1999, v. 10, Issue 1, pp. 39-62.
7. Hove L.-J. Extending Image Retrieval Systems with a Thesaurus for Shapes // Master's thesis, University of Bergen, Norway, October 2004.
8. Xhuang Y., Liu X., Pan Y., Apply Semantic Template to Support Content-Based Image Retrieval // Procceeding of IS&T and SPIE Storage and Retrieval for Media Databases, 2000, USA, pp. 23-28.
9. Naqa I., Wernick M., Yang Y., Galatsanos N.P., Image Retrieval Based on Similarity Learning // Proceedings of International Conference on Image Processing, 2000, v. 3, pp. 722-725.
10. Deselaers Th. Features for Image Retrieval // Master's thesis. Aachen: Human Language Technology and Pattern Recognition Group, RWTH Aachen University, 2003.
11. Фершильд М.Д. Модели цветового восприятия, Рочестерский технологический институт, Манселловская научная лаборатория по цвету, 2006.
12. Pass G., Zabih R. Histogram refinement for content-based image retrieval // IEEE Workshop on Applications of Computer Vision, 1996, pp. 96-102.
13. Ma W.Y., Zhang H. Benchmarking of image feature for content-based retrieval // In IEEE 32nd Asilomar Conference on Signals, Systems, Computers, 1998, v. 1, pp. 253-257.
14. Deng Y., Manjunath B. S., Kenney Ch., Moore M. S., Shin H. An efficient color representation for image retrieval // IEEE Transactions on image processing, 2001, v. 10, no. 1, pp. 140-147.
15. Стандарт MPEG-7 Электронный ресурс.: Дескриптор доминантного цвета. Режим доступа: http://book.itep.ru/2/25/mpeg 7.htm, 27.03.2009.
16. Histogram. From Wikipedia, the free encyclopedia 7 Электронный ресурс.: Накопительная гистограмма цветов. — Режим доступа: http://en.wikipedia.Org/wiki/Histogram#Cumulativehistogram, 27.03.2009.
17. Strieker М., Orengo М. Similarity of color images // In Proc. SPIE Storage and Retrieval for Image and Video Databases, 1995, v. 2, pp. 381-392.
18. Гонсалес P., Вудс P., Эддинс С. Цифровая обработка изображений в среде MATLAB, Техносфера, 2006, с. 616.
19. Текстура (изображение) Электронный ресурс.: From Wikipedia. Режим доступа: http://ru. wikipedia.org/wiki/%D0%A2 %D0%B5%D0%BA%D 1 %81 %D 1 %82%D 1 %83%D 1 %80%D0%B0, 27.03.2009.
20. Шапиро JI., Стокман Дж. Компьютерное зрение, «Бином. Лаборатория знаний», 2006, с. 752.
21. Co-occurrence matrix Электронный ресурс.: From Wikipedia. Режим доступа: http://en.wikipedia.org/wiki/Co-occurrencematrix, 27.03.2009.
22. Morse В. S., Lecture 22: Texture Электронный ресурс.: Brigham Young University, 1998-2000. Режим доступа: http://homepages.inf.ed.ac.uk /rbfCVonline/LOCALCOPIES/MORSE/texture.pdf, 27.03.2009.
23. Описание признаков текстуры Электронный ресурс.: Grey Level Co-occurence Matrix, Gabor Convolution Energies, Gaussian Markov Random Field, Fractal Dimension. Режим доступа: http://www.texturesynthesis.com /meastex/www/algs/algs/algs.html, 30.03.2009.
24. Gotlieb С.С., Kreyszig Н.Е. Texture descriptors based on co-occurrence matrices // Comput. Vis., Craphics, and Image Proc., 1990, pp. 70-86.
25. Местецкий Jl.M., Математические методы распознавания образов. -Режим доступа: http://www.intuit.ru/department/graphics/imageproc/, 27.03.2009.
26. Яковлев А.В. Методы анализа и синтеза текстур. Режим доступа: http://jakovlev.boom.ru/science/paper/paperl.pdf, 26.03.2009.
27. CBIR: Texture Features. Режим доступа: http://www.cs.auckland.ac.nz/ compsci708slc/Iectures/GIect-html/topic4c708FSC.htm, 27.03.2009.
28. Retrievr Электронный ресурс.: Experimental service which lets you search and explore in a selection of Flickr images by drawing a rough sketch. Режим доступа: http://labs.systemone.at/retrievr/, 27.03.2009.
29. Siebert A., Segmentation based image retrieval // Proc. SPIE, v. 3312, pp. 1424.
30. Ma W.-Y., Manjunath B.S. NeTra: A toolbox for navigating large image databases //Multimedia Systems, 1999, v. 7, № 3, pp. 184-198.
31. Lempel R., Soffer A., PicASHOW: Pictorial Authority Search by Hyperlinks On the Web // ACM Transactions on Information Systems (TOIS), 2002, v. 20, Issue 1, pp. 1-24.
32. Wang J.Z., Li J., Wiederhold G., SIMPLIcity: Semantics-sensitive Integrated Matching for Picture Libraries // IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, v. 23, pp. 947-963.
33. Natsev A., Rastogi R., Shim K., WALRUS: A similarity Retrieval Algorithm for image databases // ACM SIGMOD Record, 1999, v. 28, Issue 2, pp. 395-406.
34. Frankel Ch., Swain M.J., Athitsos V., WebSeer: An image search engine for the world wide web // Technical Report: TR-96-14, 1996. Режим доступа: cs-people.bu.edu/athitsos/publications/frankelwebseer.pdf, 27.03.2009.
35. Ardizzoni S., Bartolinu I., Patella M., Windsurf: Region-based image retrieval using wavelets // Proceedings of Tenth International Workshop on Database and Expert Systems Applications, 1999, pp. 167-173.
36. Система Img(Anaktisi) Электронный ресурс.: Демо-версия CBIR-системы. -Режим доступа: http://orpheus.ee.duth.gr/anaktisi/, 27.03.2009.
37. Система MFIRS Электронный ресурс.: Демо-версия CBIR-системы. -Режим доступа: http://www.pilevar.com/mfirs/index.php, 27.03.2009.
38. Система CIRES Электронный ресурс.: Демо-версия CBIR-системы. — Режим доступа: http://amazon.ece.utexas.edu/~qasim/cires.htm, 27.03.2009.
39. Система Tiltomo Электронный ресурс.: Демо-версия CBIR-системы. — Режим доступа: http://www.tiltomo.com/, 27.03.2009.
40. Система INRIA Электронный ресурс.: Демо-версия CBIR-системы. — Режим доступа: http://www-rocq.inria.ir/cgi-bin/imedia/circario.cgi/v2std, 27.03.2009.
41. Система Alipr Электронный ресурс.: Демо-версия CBIR-системы. -Режим доступа: http://alipr.com/, 27.03.2009.
42. Система SIMPLIcity Электронный ресурс.: Демо-версия CBIR-системы. -Режим доступа: http://wangl4.ist.psu.edu/cgi-bin/zwang/regionsearch show.cgi, 27.03.2009.
43. Система Viper Электронный ресурс.: Демо-версия CBIR-системы. -Режим доступа: http://viper.unige.ch/demo/php/demo.php, 27.03.2009.
44. Система FS Электронный ресурс.: Демо-версия CBIR-системы. Режим доступа: http://139.82.71.62:8080/fs26/#About, 27.03.2009.
45. Flickr Электронный ресурс.: online photo management and sharing application Режим доступа: http://www.flickr.com/, 27.03.2009.
46. Рассел С., Норвинг П., Искусственный интеллект: современный подход, 2-е изд.: Пер. с англ. — М.: Издательский дом «Вильяме», 2006. 1408 е.: ил. - Парал. Тит. Англ.
47. Гонсалес Р., Вудс Р., Цифровая обработка изображений. Москва: Техносфера, 2006 1072 с.
48. Haralick R., Shapiro L. Image segmentation techniques // Computer Vision, Graphics and Image Processing (CVGIP), 1985, № 29, pp. 100-132.
49. Bhanu В., Lee S. Genetic Learning for Adaptive Image Segmentation, Springer, 1994, pp. 271.
50. Roberts L. Machine perception of three dimensional solids // J. Tippett et al. Optical and electro-optical information processing, 1965, pp. 159-197.
51. Fu K., Mui J. A survey on image segmentation // Pattern Recognition, 1981, № 13, pp. 3-16.
52. Pal N., Pal S. A survey on image segmentation techniques // Pattern Recognition, 1993, № 26, pp. 1277-1294.
53. Skarbek W., Koschan A. Color Image Segmentation A Survey // Technisher Bericht, Technical University of Berlin, 1994, pp. 94-32.
54. Lucchese L., Mitra S. Color Image Segmentation: A State-of-the-Art Survey // Image Processing, Vision, and Pattern Recognition. Proc. of the Indian National Science Academy (INS A-A), 2001, pp. 207-221.
55. Zhang Y. Advances in Image And Video Segmentation // USA: IRM Press, 2006.
56. Sahoo P.K. et.al. A survey of thresholding techniques // Computer Vision, Graphics and Image Processing, 1988, № 41, pp. 233-260.
57. Spirkovska L. A summary of image segmentation techniques // NASA technical memorandum 104022, 1993.
58. Gonzalez R., Woods R. Digital image processing (2nd ed.) // NJ:Prentice Hall, 2002.
59. Rosenfeld A. Image pattern recognition // Proceedings of IEEE, 1981, № 69(5), pp. 596-605.
60. Macaire L., Ultre V., Postaire J.G. Determination of compatibility coefficients for color edge detection by relaxation // International Conference on Image Processing, 1996, pp. 1045-1048.
61. Nevatia. A color edge detector and its use in scene segmentation // IEEE Trans. On System, Man and Cybernetics, 1977, v. SMC-7, № 11, pp. 820-826.
62. Robinson G.S. Color Edge Detection // Optical Engineering, 1977, v. 16, № 5.
63. Carron T., Lambert P. Fuzzy Color Edge Extraction by Inference Rulse Quantitative Study and Evaluation of Performances // International Conference in Image Processing, 1995, v. B, pp. 181-184.
64. Ma W.Y., Manjunath B.S. Edge Flow: A Framework of boundary Detection and Image segmentation // Proc. Of IEEE Inf 1 Conf. on Computer Vision and Pattern Recognition (CVPR'97), 1997, pp. 755-749.
65. Perez F., Koch C. Toward Color Image Segmentation in Analog VLSI: Algorithm and Hardware // Inf 1 Journal of computer vision, 1994, v. 12, № 1, pp. 17-42.
66. Kirsche R.A., Cahn L., e.a. (1957). In. Proc. of Eastern Joint Comput. Conf., 221-229.
67. Smith S., Brady J. (1995). SUSAN a new approach to low level image processing, International Journal of Computer Vision, 23(1), 45-78.
68. Rothwell C.A., Mundy J.L., Hoffman W., Nguyen V.-D. (1995). Driving vision by topology, in Procedings of IEEE International Symposium on Computer Vision (ISCV'95), Coral Gables, Fla, USA, November, 395-400.
69. Meer P., Georgescu B. (2001). Edge detection with embedded confidence, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.23, no. 12, 1351-1365.
70. Ren X., Malik J. (2002). A Probabilistic Multi-scale Model for Contour Completion Based on Image Statistics, in ECCV '02, Copenhagen, volume 1, 312-327.
71. B. Sumengen, B. S. Manjunath, C. Kenney, (2002). Image Segmentation using Curve Evolution and Flow Fields, Proc. IEEE International Conference on Image Processing (ICIP), Rochester, NY, USA, Sep.
72. Shapiro G. (1996). Vector (Self) Snakes: Giometric Framework for Color, Texture and Multiscale Image Segmentation, Proc. of Inf 1 Conf. on Image Processing (ICIP"95), Lausanne, Switzeland, 16-19 Sept., vol. 1, 817-820.
73. Shapiro G. (1997). Color Snakes, Computer Vision and Image Understading, vol. 68, no.2, 247-253.
74. Han X., Zhao T. (2005). AutoJK. Dynamic Clustering Algorithm, Asian Journal of Information Technology, GPN, 4(4), 44-451.
75. Deng Y., Manjunath B.S., Shin H. (1999). Color Image Segmantation, IEEE Computer Society Conference on computer vision and pattern recognition, CVPR'99, v.2., 446-451.
76. Cheng H.D., Li J. (2000). Fuzzy Homogeneity and Scale Cpace Approach to Color Image Segmentation, International Conference on Computer Vision, Pattern Recognition and Image Processing, Atlantic City, Feb. 27 — Mar. 3.
77. Shi H., Malik J. (1997). Normalized Cuts and Image Segmentation, Proc. of IEEE Inf 1 Conference on Computer Vision and Pattern Recognition, San Juan, Puerto Rico, 17-19 June, 731-737.
78. Comaniciu D., Meer P. (2002). Mean shift: A robust approach toward feature space analysis, IEEE Trans. On Pattern Analysis and Machine Intelligence, 24, 603-619.
79. Felzenswalb P., Huttenlocher D. (2004). Efficient Graph-Based Image Segmentation, Int Journal of Computer Vision, 59(2).
80. Knudsen T., Muhammed H.; Olsen B. (2002). A Comparison of Neuro-Fuzzy and Traditional Image Segmentation Methods for Automated Detection of Buildings in Aerial Photos, Proceedings of Pcv'02: Photogrammetric Computer Vision.
81. Kaufman L., Rousseeuw P.J. (1990). Finding Groups in Data: an Introduction to Cluster Analysis, John Willye & Sons.
82. Ng R., Han J. (1994). Efficient and effective clustering method for spatial data mining, In Proc. of the 20th VLDB Conference, Santiago, Chile, 144-155.
83. Ester M., ICriegel H.P., Sander J., Xu X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise, In Proc. of the Second Inf 1 Conference on Knowledge Discovery and Data Mining, Portland, OR, 226-231.
84. Guha S., Rstogi R., Skim IC. (1998). CURE: An efficient clustering algorithm for large databases, In proc. of 1998 ACM-SIGMOD Int. Conf. On Management of Data, 103-114.
85. Guha S., Rstogi R., Skim K. (1999). ROCK: a robust clustering algorithm for categorical attributes, In Proc. of the 15th Inf 1 Conf. on data Eng., 512-521.
86. Karypis G., Han E.-H., Kumar V. (1999). CHAMELEON: A hierarchical Clustering Algorithm Using Dynamic Modeling, In the Proc. of IEEE Computer, 88-75.
87. Pelleg D., Moore A. (2000). X-means: Extending k-means with efficient estimation of the number of clusters, InProc. Of the 17th Inf 1 Conf. on Machine Learning. San Francisco, 727-734.
88. Ohta Y., Kanade Т., Sakai T. (1980). Color Information for region segmentation, Computer Graphics and Image Processing, Vol.13, 222-241.
89. Ohlander R., Price K., Reddy D.R. (1978). Picture Segmentation Using A Recursive Region Splitting Method, Computer Graphics and Image Processing, 8, 313-333.
90. Tominaga S. (1986). Color Image Segmentation Using Three Perceptual Attributes, IEEE Proceedings of the Conference on Computer Vision and Pattern Recognition, Los Alamos, CA, 628-630.
91. Celenk M. (1990). A Color Clustering Technique for image segmentation, Graphical Models and Image Processing, vol.52, no.3, 145-170.
92. Tremeau A., Borel N. (1997). A region Growing and merging algorithm to color segmentation, Pattern Recognition, vol.30, no.7, 1191-1203.
93. Panjwani D.K., Healey G. (1995). Markov Random Field Models for Unsupervised Segmentation of textured color images, IEEE tranc. On Pattern Analysis and Machine Intelligence, vol. PAMI-17, no. 10, 939-954.
94. Barny M., Rossi S., Mecocci A. "A fuzzy expert system for low level image segmentation", Proc. of the 8th european signal processing conference (EUSOPCO-96),vol.3, pp. 1725-1728.
95. Yu S. (2005). Segmentation induced by scale invariance, in Proc. of Infl conf. on computer vision and pattern recognition, 2.
96. Gevers Т., Muñoz A. (1997). Combining region splitting and edge detection through guided Delaunay image subdivision, in Proc. of Infl Conf. on computer vision and pattern recognition, 2.
97. Freixenet J., Muñoz X., Raba D., Martí J., Cufí X. (2002). Yet Another Survey on Image Segmentation: Region and Boundary Information Integration. ECCV (3), 408-422.
98. Денисов Д.А., Низовкин B.A. Сегментация изображений на ЭВМ // Зарубежная радиоэлектроника, 1985. №10, с. 5-31.
99. Бакут П.А., Колмогоров Г.С., Ворновицкий И.Э. Сегментация изображений: методы пороговой обработки // Зарубежная радиэлектроника, 1987. №10, с. 6-24.
100. Бакут П.А., Колмогоров Г.С. Сегментация изображений: методы выделения границ областей // Зарубежная радиоэлектроника, 1987. №10, с. 25-47.
101. Zhang Y.J., «Advances in image and video segmentation», IBM Press, USA, 2006.
102. Berkeley Segmentation Dataset база изображений университета Беркли, Электронный ресурс. - режим доступа: http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/segbench. -17.03.2008.
103. Everingham M., Muller H., Thomas B. «Evaluating Image Segmentation Algorithms Using Monotonic Hulls in Fitness/cost Space», Proceedings of the 12th British Machine Vision Conference (BMVC2001), 363—372 (2001).
104. Everingham M., Muller H., Thomas B., «Evaluating image segmentation algorithms using the pareto front», In Proceedings of the 7th European Conference on Computer Vision (ECCV2002), pages IV:34-48, May 2002.
105. Cavallaro A., Gelesca E., Ebrahimi T., «Objective evaluation of segmentation quality using spatio-temporal context», Proc. of IEEE International Conference on Image Processing, Rochester (New York, USA), 22-25 September 2002.
106. Zhang H., Fritts J.E., Goldman S.A., «A co-evaluation framework for improving segmentation evaluation», SPIE Defense and Security Symposium -Signal Processing, Sensor Fusion, and Target Recognition XIV, pp. 420-430, March 2005.
107. Zhang H., Fritts J.E., Goldman S.A., «A entropy-based objective evaluation method for image segmentation», SPIE Electronic Imaging Storage and Retrieval Methods and Applications for Multimedia 2004, pp. 38-49, Jan. 2004.
108. Unnikrishnan R., Pentofaru C., Hebert M., «Toward objective evaluation of image segmentation algorithms», IEEE transactions on pattern analysis and machine intelligence, vol. 29, no. 6, 2007.
109. Chabrier S., Laurent H., Emile B., «Performance evaluation of image segmentation. Application to parameter fitting», European Signal Processing Conference (EUSIPCO) 2005.
110. Chabrier S., Laurent H., Emile B., Rosenberger C., Marche P., «Evaluating the segmentation result of gray-level image», pages 953-956, Vienne, 2004.
111. Chabrier S., Laurent H., Rosenberger C., Zhang Y.J., «Supervised evaluation of synthetic and real contour segmentation results», 14th European Signal Processing Conference (EUSIPCO) 2006.
112. Jiang X., Matri C., Irniger C., Bunke H., «Distance measures for image segmentation evaluation», EURASIP Journal on Applied Signal Processing, 110 (2006).
113. Ge F., Wang S., Liu T., «Evaluating edge detection through boundary detection», EURASIP Journal on Applied Signal Processing, 1-15 (2006).
114. Ge F., Wang S., Liu T., «New benchmark for image segmentation evaluation», Journal of Electronic Imaging 16 (3), (Jul-Sep 2007).
115. Ge F., Wang S., Liu T., «Image-segmentation evaluation from the perspective of Silent Object extraction», Proceedings of the 2006 IEEE Compiter Conference on Computer Vision and Pattern Recognition (CVPR,06).
116. Sharma M., «Performance Evaluation of Image Segmentation and Texture Extraction Methods in Scene Analysis», thesis for the degree of Master of Philosophy in Computer Science, University of Exeter, January 2001.
117. Restif C., «Segmentation and Evaluation of Fluorescence Microscopy Images», thesis for the degree of Doctor of Philosophy, Oxford Brookes University, July 2006.
118. Аксенов О.Ю. Сравнение алгоритмов сегментации, труды НТОРЭС им. А.С. Попова, серия "Цифровая обработка сигналов и ее применение". Выпуск УП-2.,стр.278-281, М.2005.
119. Привалов О.О. Методы и алгоритмы обработки растровых изображений для решения задач автоматизированной микроскопии медико-биологических препаратов, диссертация на соискание ученой степени кандидата технических наук, 05.13.01, Волгоград 2007.
120. Image Segmentation Benchmark пакет для оценки качества сегментации изображений, Электронный ресурс. — режим доступа: http://www.cse.sc.edu/~tiecheng/researchweb/research3.html. - 17.03.2008.
121. Rand Index, Wikipedia, free encyclopedia, Электронный ресурс. -режим доступа: http://en.wikipedia.org/wiki/Randindex. 17.03.2008.
122. Unnikrishnan R., Pantofaru С., Hebert M., «Toward objective evaluation of image segmentation algorithms», IEEE Transactions On Pattern Analysis And Machine Intelligence, vol.29, no.6, June 2007.
123. Chabrier S., Laurent H., Emile В., Rosenberger C., Marche P., «А comparative study of supervised evaluation criteria for image segmentation», EUSIPCO, Vienne, 2004,pages 1143-1146.
124. Odet C., Belaroussi В., Benoit-Cattin H., «Scalable discrepancy measures for segmentation evaluation», Proceedings of International Conference on Image Processing, 2002, v. 1, pp.I-785-1-788.
125. Будрейка H.H. Использование непараметрических критериев проверки статистических гипотез электронный ресурс: режим доступа 16.04.2008. http ://www. mat 1 ab. mgpp u. г и/ wo rk/0 014. htm
126. Непараметрические статистические критерии (nonparametric statistical tests) электронный ресурс: режим доступа 16.04.2008. http ://www. sexualdysfunction.ru/5 83 .html
127. Техническая библиотека lib.qrz.ru, Тест Колмогорова-Смирнова, электронный ресурс: режим доступа 16.04.2008. http://lib.qrz. ru/node/11253
128. Prague texture segmentation benchmark. Система для генерации текстурных изображений с известной ИФО и сравнения алгоритмов сегментации изображений http://mosaic.utia.cas.cz/index.php?act=viewres&id=.
129. Pentofaru С., Hebert М., A comparison of Image Segmentation Algorithms // CMU-RI-TR-05-40, September 1, 2005.
130. Haxhimusa Y., Ion A., Kropatsch W., Evaluating Hierarchical Graph-based Segmentation // 18th International Conference on Pattern Recognition (ICPR 2006), 20-24 August 2006, Hong Kong, China, Proceedings, pp. 195-198.
131. Cavallaro A., Drelie E., Ebrahimi Т., Objective evaluation of segmentation quality using spatio-temporal context // Proc. Of IEEE International Conference on Image Processing, Rochester (New York), 22-25 September 2002, pp. Ill: 301-304.
132. Ge. F., Wang S., Liu Т., Image-Segmentation Evaluation From the Perspective of Salient Object Extraction // CVPR06, 2006, pp. I: 1146-1153.
133. B. McCane. On the evaluation of image segmentation algorithms. In Digital Image Computing: Techniques and Applications, pages 455-461, 1997.
134. M.R. Everingham, H. Muller, and В. T. Thomas. "Evaluating image segmentation algorithms using the Pareto front". In Proceedings of the 7th European Conference on Computer Vision (ECCV2002), pages IV:34-48, May 2002.
135. M.R. Everingham, H. Muller, and В. T. Thomas. "Evaluating image segmentation algorithms using monotonic hulls in fitness/cost space". In Proceedings of the 12th British Machine Vision Conference (BMVC2001), pages 363-372, September 2001.
136. M.R. Everingham, H. Muller, and В. T. Thomas. "Algorithm evaluation by probabilistic fitness/cost analysis and application to image segmentation". In Proceedings of the 5th Asian Conference on Computer Vision (ACCV2002), pages 580-586, January 2002.
137. Wang S., Ge F., Liu Т., Evaluation Edge Detection through Boundary Detection. EURASIP Journal on Applied Signal Processing, Vol.2006, p.1-15.
138. Image-segmentation benchmark by Feng Ge, Song Wang, and Tiecheng Liu, http://www.cse.sc.edu/%7Etiecheng/researchweb/segmentation-benchmark.tgz
139. Segmentation evaluation database Sharon Alpert, http://www.wisdom.weizmann.ac.il/~vision/SegEvaluationDB/dl.html
140. Active contours theory. Режим доступа: http://www.cs.technion.ac.il/ ~protezhe/GACWeb/Documents/Phase%201/new%20Active%20Snakes.htm, 28.03.2009.
141. Active Contours, Deformable Models, and Gradient Vector Flow. Режим доступа: http://iacl.ecejhu.edu/projects/gvi7, 28.03.2009.
142. JSEG — Segmentation of color-texture regions in images and video — Режим доступа: http://vision.ece.ucsb.edu/segmentation/jseg/, 28.03.2009.
143. Шиффман X.P. Ощущение и восприятие. 5-е изд. СПб, 2003. — 928 е.: ил. — (Серия «Мастера психологии»).
144. Walther D., Koch Ch. Modeling attention to salient proto-objects // Neural Networks, 2006, № 19, pp. 1395-1407.
145. Moran J., Desimone R. Selective attention gates visual processing in the extrastriate cortex // Science, 1985, № 229, pp. 782-784.
146. Koch C., Ullman S. Shifts in selective visual attention: towards the underlying neural circuitry // Human Neurobiol, 1985, № 4, pp. 219-227.
147. Walther D. Interactions of visual attention and object recognition: computational modeling, algorithms, and psychophysics // PhD thesis, California Institute of Technology, Pasadena, CA, 2006.
148. Treisman A.M., Gelade G. A feature-integration theory of attention // Cognit sychol, 1980, № 12(1), pp. 97-136.
149. Kadir Т., Brady M. Scale, Saliency and Image description // International Journal of Computer Vision, 2001, № 45, pp. 83-105.
150. Tsotsos J.K., Culhane S.M., Wai W.Y.K., Lai Y.H., Davis N., Nuflo F. Modeling visual-attention via selective tuning // Artificial Intelligence, 1995, № 78, pp. 507-545.
151. Deco G., Schurmann B. A hierarchical neural system with antinational top-down enhancement of the spatial resolution for object recognition // Vision Research, 2000, № 40(20), pp. 2845-2859.
152. Koch, C., Ullman, S. Shifts in selective visual attention: towards the underlying neural circuitry // Hum Neurobiol, 1985, № 4(4), pp. 219-27.
153. Itti L., Koch C., Niebur E. A Model of Saliency-Based Visual Attention for Rapid Scene Analysis // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, v. 20, № 11, pp. 1254-1259.
154. Itti L. Models of Bottom-Up and Top-Down Visual Attention // Ph.D. Thesis, California Institute of Technology, 2000.
155. Harel J., Koch C., Perona P., Graph-Based Visual Saliency // Proceedings of Neural Information Processing Systems (NIPS), 2006. Режим доступа: http://www.klab.caltech.edu/~harel/pubs/gbvsnips.pdf, 27.03.2009.
156. Kadir Т., Zisserman A., Brady M. An affine invariant salient region detector // Proceedings of the 8th European Conference on Computer Vision, 2004. -Режим доступа: http://www.robots.ox.ac.uk/~timork/Saliency/eccvasalscale final.pdf, 27.03.2009.
157. Kadir Т., Brady M. Scale, Saliency and Image description // International Journal of Computer Vision, 2001, № 45, pp. 83-105.
158. Navalpakkam V., Itti L. Modeling the influence of task on attention // Vision Research, 2005, № 45, pp. 205-231.
159. Navalpakkam V., Itti L. An Integrated model of top-down and bottom-up attention for optimizing detection speed // EEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2006), 2006, pp. 2049-2056.
160. Elazary L., Itti L. Interesting objects are visually salient // Journal of Vision, 2008, № 8, pp. 1-15.
161. Russell B.C., Torralba A., Murphy K.P., Freeman W.T. LabelMe: A database and Web-based tool for image annotation // MIT AI Lab Memo AIM-2005-025, 2005.
162. Web-based tool for image annotation Электронный ресурс.: The open annotation tool written by B. Russell, A. Torralba, W. T. Freeman. Режим доступа: http://labelme.csail.mit.edu/, 27.03.2009.
163. Исходный код алгоритма, реализованного в IKN-модели Электронный ресурс.: MATLAB source code. Режим доступа: http://iLab.usc.edu/tool kit/, 27.03.2009.
164. Graph-Based Visual Saliency Электронный ресурс.: MATLAB source code. Режим доступа: http://www.klab.caltech.edu/~harel/share/gbvs.php, 27.03.2009.
165. Kadir/Brady Affine Feature Detector (Scale Saliency) Электронный ресурс.: Matlab Binary release Version 1.0. — Режим доступа: http ://www .robots.ox.ac.uk/~timork/Saliency/AffineInvariantSaliency.html, 27.03.2009.
166. Яндекс-фотки Электронный ресурс.: Фотохостинг компании «Яндекс». -Режим доступа: http://fotki.yandex.ru/, 27.03.2009.
167. Liapis S., Tziritas G. Image retrieval by colour and texture using chromaticity histograms and wavelet frames, http://www.csd.uoc.gr/~tziritas/papers/coltxtclass.pdf, 21.05.2009.
168. Мак В., Barnard B.E. Phone Clustering Using The Bhattacharyya Distance, http://www.asel.udel.edu/icslp/cdrom/vol4/281/a281.pdf, 21.05.2009.
169. Huet В., HancockE.R. Cartographic indexing into a database of remotely sensed images. In Third IEEE Workshop on Applications of Computer Vision (WACV96), pages 8-14, Sarasota, Dec 1996.
170. Ardizzoni S., Patella M., Bartolini I. Windsurf: Region-Based Image . Retrieval Using Wavelets, In DEXA Workshop, 1999, pp. 167-173.
171. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска // Программирование, 2002, № 28(4), с. 226-242. Режим доступа: http://meta.math.spbu.ru/~igor/papers/exp-survey.ps.gz, 27.03.2009.
172. Агеев М., Кураленок И. Официальные метрики РОМИП'2004 // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) Пущино, 2004. - Режим доступа: http://www.cir.ru/docs /ips/publications/2004romipmetrix.pdf, 27.03.2009.
173. Buckley С., Voorhees Е. Evaluating evaluation measure stability // Proc. Of the SIGIR'2000, 2000, pp. 33-40.
174. Text REtrieval Conference (TREC), конференция по оценке методов текстового поиска, http://trec.nist.gov/., 21.05.2009.
175. Russian Information Retrieval Evaluation Seminar Электронный ресурс.: форум ROMIP. — Режим доступа: http://tech.groups.yahoo.com/group/romip/ message/489, 27.03.2009.
-
Похожие работы
- Разработка и исследование алгоритмов первичного анализа и схем индексации изображений в визуальных информационных системах
- Модели и алгоритмы сегментации и фильтрации аппликативных помех на изображениях
- Алгоритмическое обеспечение решения задач геометрического анализа визуальных данных специализированной информационной системы
- Методы и инструментальные средства решения задач сжатия, распознавания и поиска изображений по содержанию на основе дискретных отображений
- Фильтрация цифровых изображений на основе анализа главных компонент и нелокальной обработки
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность