автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы и алгоритмы обнаружения наложенных текстовых символов в системах распознавания изображений со сложной фоновой структурой

кандидата технических наук
Зотин, Александр Геннадьевич
город
Красноярск
год
2007
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и алгоритмы обнаружения наложенных текстовых символов в системах распознавания изображений со сложной фоновой структурой»

Автореферат диссертации по теме "Методы и алгоритмы обнаружения наложенных текстовых символов в системах распознавания изображений со сложной фоновой структурой"

На правах рукописи

ЗОТИН АЛЕКСАНДР ГЕННАДЬЕВИЧ

МЕТОДЫ И АЛГОРИТМЫ ОБНАРУЖЕНИЯ НАЛОЖЕННЫХ ТЕКСТОВЫХ СИМВОЛОВ В СИСТЕМАХ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ СО СЛОЖНОЙ ФОНОВОЙ СТРУКТУРОЙ

05.13.01 - Системный анализ, управление и обработка информации

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Красноярск - 2007

003175464

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева», г. Красноярск

Научный руководитель.

Официальные оппоненты

кандидат технических наук, доцент Фаворская Маргарита Николаевна

доктор технических наук, профессор Цибульский Геннадий Михайлович

Ведущая организация

кандидат технических наук, доцент Коваленко Андрей Николаевич

Сибирский государственный технологический университет г Красноярск

Защита состоится " 8 " ноября 2007 года в 14 часов на заседании диссертационного совета Д 212.249.02 при Сибирском государственном аэрокосмическом университете имени академика М Ф Решетнева по адресу 660014, г Красноярск, пр. им. газеты «Красноярский рабочий», 31

С диссертацией можно ознакомиться в научной библиотеке Сибирского государственного аэрокосмического университета имени акад. М.Ф. Решетнева

Автореферат разослан" 5 " октября 2007 г

Ученый секретарь диссертационного совета

ИВ Ковалев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Современная вычислительная техника достигла такого уровня развития, что в большинстве своем участвует в различных аспектах жизни человека Машинные методы распознавания — технология, нашедшая применение в целом классе прикладных решений Наиболее удачной с коммерческой точки зрения и массово востребованной технологией является технология оптического распознавания текстовых символов Распознавание текстовых символов применимо для обыденного использования (распознавание текста со сканированного материала), использования в профессиональной видео-корректорской сфере (обработка и распознавание субтитров в видеопотоке), специализированного применения в охранной сфере (распознавание номерных знаков транспортных средств, пересекающих контрольно-пропускной пункт), в мультимедийных библиотеках (индексация и поиск цифрового видео) и других различных сферах деятельности

Эффективная индексация и поиск цифрового видео является наиболее важной функцией видео базы данных и мультимедийных библиотек Ключевым элементом для поиска необходимой записи является текст, появляющийся в видеопоследовательности Существуют два вида текста в видеопоследовательностях текст сцены (фона) и искусственный (наложенный) текст Наложенный текст зачастую является носителем важной информации Поэтому возникает необходимость определения местонахождения, а также извлечение с последующим распознаванием наложенного текста в видеопоследовательностях Такие видеопоследовательности, а также статические изображения со сложной фоновой структурой могут содержать наложенный текст различного вида (несколько вариаций шрифта и цветового оформления) Особое значение для качества распознавания текстовых символов имеет четкое выделение образа текстового символа Исследования в данном направлении ведутся в University of Massachusetts Amherst (V Wu), Carnegie Mellon University (T Sato) и др

Целью диссертационной работы является разработка методов и алгоритмов для создания системы оптического распознавания наложенных текстовых символов в изображениях и видеопоследовательностях со сложной фоновой структурой

Поставленная цель предопределила необходимость решения следующего комплекса задач

1 Провести анализ подходов для построения систем оптического распознавания текстовых символов, а также методов обнаружения текстовых символов на изображениях со сложной фоновой структурой

2 Провести анализ методов улучшения качества изображения

3 Разработать адаптивный алгоритм сглаживания фона изображения с устранением цветовых искажений в предполагаемых текстовых областях

4. Разработать методы и алгоритмы обнаружения наложенных текстовых символов в изображениях со сложной фоновой структурой

5 Разработать методы и алгоритмы выделения образа текстового символа для изображений и видеопоследовательностей.

6 На основе разработанных алгоритмов создать компоненты для проектирования систем оптического распознавания текстовых символов

7. Разработать тестовое программное обеспечение и провести анализ разработанных методов и алгоритмов, а также исследование их эффективности при решении поставленных задач на тестовых выборках

Методы исследования. При выполнении диссертационной работы использовались методы теории информации, теория обработки сигналов, теория математической морфологии, методы объектно-ориентированного программирования

Научная новизна диссертационной работы состоит в следующем

1 Разработан гибридный метод обнаружения наложенных текстовых зон произвольной ориентации на изображениях и видеопоследовательностях со сложной фоновой структурой, использующий цветовое и контурное представления изображения, подвергнутого пространственной и структурной обработке

2 Разработан метод выделения образов предполагаемых текстовых символов, имеющих сложную многоуровневую цветовую организацию, в обнаруженных текстовых зонах, который основан на реконструированном контурном представлении, а также цветовом и яркостном распределениях

3 Разработан адаптивный алгоритм фильтрации изображения, в котором подбор размера и формы окна фильтрации, а также самого фильтра происходит на основе карт яркостной разницы, предложена модификация медианного фильтра для повышения степени сглаживания изображения

4 Разработаны алгоритмы для проведения морфологической обработки, где действия зависят от маски обработки и выполняемой операции (позволяющие значительно сократить количество элементных проверок), а также однопроходный алгоритм формирования окаймляющего прямоугольника для фрагмента изображения с расчетом плотности распределения элементов

Практическая значимость. Предложенные в диссертационной работе методы и алгоритмы ориентированы на практическое применение в мультимедийных библиотеках, в специальном ПО телевизионных трансляций (спортивных, развлекательных и т д), а также в системах, использующих видеорегистрацию информации На основе диссертационных исследований разработана библиотека компонентов для создания систем оптического распознавания наложенных текстовых символов на изображениях и видеопоследовательностях со сложной фоновой структурой

Реализация результатов работы. Разработанный программный комплекс распознавания номерных знаков транспортных средств (GateKeeper) Версия 1 3 зарегистрирован в Российском реестре программ для ЭВМ г Москва, 22 апреля 2004 г (свидетельство №2004610994) Программа фильтрации и морфологической обработки двумерных изображений (FNXImage Processor) Версия 19 2 зарегистрирована в Российском реестре программ для ЭВМ г Москва 11 июля 2007 (свидетельство №2007613017)

Разработанные алгоритмы и программное обеспечение используются в учебном процессе при проведении занятий по дисциплинам «Интеллектуальная обработка данных» и «Компьютерные технологии в науке и образовании» в Сибирском государственном аэрокосмическом университете

Основные положения, выносимые на защиту:

1. Метод обнаружения текстовых зон произвольной ориентации на изображениях и видеопоследовательностях со сложной фоновой структурой на основе гибридного подхода

2 Метод выделения образов текстовых символов, имеющих сложную многоуровневую цветовую организацию, с применением контурной реконструкции и анализа цветового и яркостного распределения

3 Адаптивный алгоритм предварительной обработки изображений на основе карт яркостной разницы

Апробация работы Основные положения и результаты диссертации докладывались и обсуждались на 41-й научно-практической конференции студентов, аспирантов и молодых ученых, посвященной Всемирному дню авиации и космонавтики (Красноярск 2003г.), Всероссийской научно-практической конференции «Решетневские чтения» (Красноярск 2003, 2004, 2005, 2006 гг ), Всероссийской научной конференции студентов, аспирантов и молодых ученых «Наука Технологии. Инновации» (Новосибирск 2003, 2006 гг.), конференции-конкурсе работ студентов, аспирантов и молодых ученых «Технологии Microsoft в информатике и программировании» (Новосибирск 2004 г.), Второй Всероссийской научно-практической конференции студентов «Молодежь и современные информационные технологии » (Томск 2004 г), Региональном смотре-конкурсе программных проектов ««Sb/i-Парад - 2004» (Красноярск 2004 г), Третьей Всероссийской конференции творческой молодежи, посвященной дню космонавтики «Актуальные проблемы авиации и космонавтики» (Красноярск 2007 г)

Публикации. По результатам диссертационного исследования опубликовано 20 печатных работ, основные приводятся в конце автореферата

Структура работы Работа состоит из введения, трех глав, заключения, списка литературы из 151 наименования и приложений Содержание работы изложено на 131 странице

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность работы, сформулирована цель и поставлены задачи исследования, показана научная нойизна и практическая ценность выполненных исследований, представлены основные положения, выносимые на защиту

В первой главе рассмотрены основные вопросы, связанные с построением систем оптического распознавания печатных текстовых символов Системы оптического распознавания символов (ОРС), предназначены для перевода текста из графического представления в текстовый формат, пригодный для посимвольного редактирования (системы FineReader, CuneiForm, Readiris Pro, OmniPage) Известные подходы распознавания печатных символов можно раз-

делить на два базовых класса шрифтовые (multifont) и шрифтонезависимые {omnifont) Их сравнение приведено в таблице 1

Таблица 1 - Сравнение шрифтовых и шрифтонезависимых алгоритмов

Критерий сравнения Шрифтовые алгоритмы Шрифтонезависимые алгоритмы

Универсальность Низкая Высокая

Сложность реализации Низкая Высокая

Ресурсоёмкость Высокая Низкая

Устойчивость к помехам Высокая Низкая

Точность распознавания Высокая Низкая

Поддержка процесса Есть Нет

Работа систем ОРС проходит в два этапа Вначале выполняется улучшение качества и анализ графического изображения, в ходе которого определяются области распознавания, находится положение текста, выделяются строки и отдельные текстовые символы На втором этапе выполняется распознавание текста

На первом этапе возникает необходимость выбора модели представления данных Наиболее распространенными цветовыми моделями являются модели RGB, HLS (HSB, HSV), YUV При работе с видеопоследовательностями для определения яркости используется модель YUV, применяемая в каналах телевещания и для сжатия видео информации. В ходе проведения анализа изображения неотъемлемой составляющей является сегментация изображения Существует несколько видов сегментации, классификация представлена на рисунке 1 Для обнаружения текста на изображениях (видео) со сложной фоновой структурой существует два основных подхода. Первый подход основан на использовании контурной информации изображения, а второй подход - на применении информации о цветовой структуре изображения

Рисунок 1 - Классификация методов сегментации

Вторым этапом в работе системы оптического распознавания текстовых символов является распознавания текста в виде отдельных символов Процесс распознавания печатных текстовых символов можно производить на основе различных методов распознавания, сравнительная характеристика которых приведена в таблице 2

Таблица 2 - Сравнительная характеристика методов распознавания

Название Способ описания изображения Вычислительные затраты Инвариантность к искажениям Универсальность

Признаковые методы Совокупность значений признаков Небольшие, определяются размерностью пространства признаков В некоторых ситуациях чувствительность к изменению размеров и положения объекта Не применимы для анализа сложных классов изображений и сцен

Эталонные (растровые) методы Растровый эталон объекта Средние Высокая чувствительность к искажениям Универсальны для любой предметной области

Структурные методы Совокупность структурных элементов и отношений между ними Значительные Малочувствительны к аффинным искажениям, чувствительны к локальным искажениям Ориентированы на анализ сложных классов изображений

Нейронные сети Совокупность связей нейронной структуры (образ) Значительные Инвариантны к некоторым искажениям Применимы для узкоспециализированных систем

Во второй главе диссертации представлены методы и алгоритмы предварительной обработки изображений, обнаружения и выделения наложенных текстовых символов в изображениях и видеопоследовательностях со сложной фоновой структурой.

После рассмотрения известных способов обнаружения текста было принято решение о создании метода обнаружения гибридного типа, который использует контурную и цветовую информацию изображения Схема функционирования метода обнаружения наложенных текстовых символов представлена на рисунке 2.

Рисунок 2 - Этапы автоматического формирования текстовых зон

Для статического изображения предлагается применять только пространственную фильтрацию, а для видеопоследовательности - использовать сочета-

ние пространственного и временного методов (так называемый 5£)-фильтр) Экспериментально было установлено, что минимальное время появления текста в видеопоследовательности составляет около 250 мс, что эквивалентно 5 кадрам В связи с этим для стабилизации цветовых значений в текстовых зонах целесообразно проводить фильтрацию сначала по временной компоненте, затем по пространственной компоненте

В качестве временной компоненты фильтрации было решено использовать фильтрацию по порогу яркости Предлагается следующее решение, задается «ключевой» кадр и формируется матрица яркости Сьу(и) Затем анализируется последовательность кадров за сравнительно небольшой промежуток времени (2-5 кадров) Для каждого вновь поступающего кадра фоновое изображение корректируется в соответствии со следующей формулой.

где CfeyOj) - матрица яркостей точек ключевого кадра, Ccur(ij)- матрица яркостей точек текущего кадра, Cnew(i,j) - матрица яркостей точек последующего кадра, у - порог изменения яркости, ö - коэффициент коррекции

Для пространственной компоненты исследована группа фильтров фильтр Гаусса, медианный фильтр, 2D Cleaner Filter by Jim Casaburi и др Цель пространственной обработки заключается в сведении к минимуму участков, обладающих малой вероятностью содержания текста, путем фильтрации изображения. Поскольку предлагаемый метод учитывает как цветовую, так и контурную информацию, то необходимо провести «сглаживание» фонового изображения таким образом, чтобы искажения текста при сглаживании были минимальны Средняя гладкость изображения вычисляется по формуле:

где ./V- количество точек изображения по вертикали, М- количество точек изображения по горизонтали, хч - точки изображения Значение средней гладкости изображения изменяется от 0 («шахматная доска») до 1 (однородное изображение)

На основе полученных результатов для трех классов видео (мультипликация, живое видео, компьютерная 31) анимация) было принято решение модифицировать медианный фильтр Модификация фильтра заключается в том, что для элементов в радиусе (и-1)/2 (п - размерность фильтра) от центрального элемента (после упорядочивания значений элементов маски фильтра) проводится одномерная фильтрация Гаусса Такая модификация позволяет добиться «плавного» формирования значения цвета для элемента обработки

Ckeyihti + S, если y>Ccur{i,j)-Ckey(i,j)>ö Сяот0,У) = - С^О,/)-Ö, если r>Ckey(i,j)-Ccur(j,j)>S , С^(г,7), если | Ccur(i,j)~ Cby{i,j) | <S

255 ((M-l) N + (N-1)-M)

Анализ существующих пространственных фильтров показал необходимость разработки нового алгоритма, который бы позволил наиболее оптимально подготовить изображение для дальнейшей обработки В связи с этим разработан алгоритм фильтрации адаптивного типа на основе карт яркостной разницы Карты яркостной разницы Ld4 представляют собой матричное описание некоторой области изображения, в которой вычисляются перепады значений канала яркости относительно «центрального» элемента обработки Ьо.о Карты яркостной разницы формируются следующим образом

~ ~А>,о| »

где Lv - элемент матрицы яркостной карты, i,j —значения от [-rl rl], [-г2 г2] (rl, г2 - радиусы области по горизонтали и вертикали соответственно).

Предлагаемый алгоритм адаптивной фильтрации на основе карт яркостной разницы подбирает фильтр (исходя из установленных правил) и в случае необходимости может скорректировать зону обработки путем изменения ядра фильтра Таким образом, разные параметры фильтрации позволяют сделать наибольшее сглаживание в местах, имеющих наименьшую вероятность содержания текста В качестве пространственных фильтров предлагается использовать фильтр Гаусса, медианный фильтр с модификацией, 2D Cleaner Filter by Jim Casaburi Общая схема предлагаемого адаптивного алгоритма на основе карт яркостной разницы, представлена на рисунке 3.

Рисунок 3 - Схема функционирования алгоритма адаптивного пространственного фильтра

9

На этапе задания начальных условий происходит первичный подбор фильтров В том случае, когда обрабатываются граничные области изображения, применяются одномерные пространственные фильтры Если обработка ведется в области, отстоящей от границы на минимальный радиус фильтра, то применяются двумерные пространственные фильтры При существующей возможности изначально задаётся максимальный радиус фильтрации (в ходе экспериментов было выяснено, что за максимальный можно принять радиус, равный 3) После установки максимально возможных начальных характеристик производится задание параметров начальной маски фильтрации В данном процессе в соответствии с установленными пороговыми значениями происходит уменьшение радиуса, которое может происходить вплоть до единицы Для двухмерной фильтрации возможно уменьшение не только общего радиуса, но и локальных радиусов (горизонтального и вертикального)

На следующем этапе осуществляется выбор фильтра, основанный на значениях элементов карт яркостной разницы в зависимости от глобального уровня значений, входящих в определенные границы, для рассматриваемой области Для каждого фильтра устанавливаются пороговые ограничения на область применения В соответствии с этими ограничениями подстраивается структура маски, в связи с чем вводится коэффициент коррекции для фильтра Гаусса При расчете коэффициента коррекции вначале рассчитываются коэффициенты Гаусса для маски фильтрации, затем происходит приравнивание к нулю тех коэффициентов, которые не принимают участие в процессе фильтрации Коэффициент коррекции рассчитывается по формуле

Кког =---

Г Г '

т=—гп=-г

где Кког - коэффициент коррекции, т,п- переменные размерности по горизонтали и вертикали; г - радиус маски фильтра, - значение коэффициента для элемента (т,п) области маски фильтра

Проведение сегментации позволяет найти области с наивысшей вероятностью содержания текста Процесс сегментации можно условно разделить на два основных этапа. Первый этап заключается в формировании вида представления изображения (цветового и контурного), второй этап — это маркировка найденных областей и получение данных об этих областях

Цветовое адаптивное преобразование изображения основано на том, что текст, появляющийся на изображении, имеет как минимум два цветовых перехода, а чаще всего три Цветовые переходы условно можно разделить на следующие уровни. - уровень фона, который характеризуется непостоянным цветовым значением, - уровень рамки (контура текстового символа), представляющий собой постоянный цвет, - уровень текста, имеющий постоянный цвет и заведомо отличающийся от цвета контура изображения Применение цветового адаптивного преобразования изображения позволяет обнаружить области

цветовых переходов. В обнаруженных областях вероятность содержания текста будет достаточно высокой, исходя из особенностей выводимых на изображение текстовых символов. Цветовое представление характеризуется участками цветовых перепадов (значения цвета из оригинального изображения) на фоне, обладающем значением «отсутствие цвета».

Как известно, общий вес цвета при рассмотрении в спектре яркости вычисляется из значений цветовых каналов RGB. Исходя из этого, можно сделать предположение, что в некоторых случаях, когда для отображения текста выбираются два различных цвета, достаточно отличимых для человеческого глаза, значения яркостей для этих двух цветов могут быть одинаковыми. С учетом этой особенности введем коэффициент усиления цветовой разности Lk цветов, обладающих одинаковыми или близкими друг к другу значениями яркости. Экспериментальным путем было установлено, что для большинства изображений коррекцию при минимальной яркостной разнице целесообразно принять равной 1.10, а коррекцию при максимальной яркостной разнице - 0.95. Коэффициент усиления Lk рассчитывается на основе значения элемента матрицы яркостной разницы Id для рассматриваемой области. Для нормализации полученной цветовой разности необходимо ввести пороговые значения для коэффициента усиления. Значение коэффициента Lk (рисунок 4) с учётом верхнего и нижнего порогов рассчитывается по следующей формуле:

Lk(ld) =

1.10, 1.100.95,

0.15 ■ (Id - Рн)

Р ~Р„ '

если Id < Р,

если Р„ < Id < Р,

если Id > Р„

где Ы - элемент матрицы яркостной разницы; Рв Рн,— верхнее и нижнее пороговые значения яркости для расчета коэффициента усиления.

ада

.ВДВ

-гптттзатттпл

i rum i пи ill

l м 4 in i i'T'l ; : l i i

lé б)

Рисунок 4 - Форма цветовой разницы (а) в зависимости от коэффициента усиления (б)

Для построения модели обработки изображения необходимо также ввести матрицу коэффициентов цветового влияния А (размером 3x3). Введение данных коэффициентов необходимо в связи с тем, что поэлементная обработка, проводимая линейным образом, срезает часть областей текстовых символов. Для обнаружения цветовых переходов необходимо знать цветовую разность двух элементов. Цветовая разность svX:y вычисляется для каждого канала спек-

тра RGB Возможно возникновение следующей ситуации: задано пороговое значение цветовой разницы (характеризующее цветовой перепад), а изменение значения цвета происходит только по одному цветовому каналу и оно меньше значения порога цветовой разницы В такой ситуации не будет учтен цветовой переход, который видим для глаза Для устранения подобных ситуаций вводится дополнительное усиление значения цветовой разницы Вычисление цветовой разницы для двух элементов по одному каналу происходит по формуле-

если ^vxijl-sv3(xyz\£Ts„ [K^I-JV^I 2, если Isv^-ffv^^^

где svxiyi svx2,y2 — значения канала спектра для первого и второго элемента соответственно, Tssv — пороговое значение цветовой разницы для спектра

Общее значение цветового различия для двух элементов по всем каналам спектра RGB рассчитывается как сумма функций цветового различия по каждому каналу спектра CD() Приведем формулу расчета цветового различия элемента CL(x,y) в его окружении для общего случая

г г

'Рх+1 ,>>+у) ■^r+l+lf+l+j

l=-rj=-r

Вид цветового представления можно охарактеризовать следующим образом Участки, в которых цветовые переходы отсутствуют или незначительны, принимают значения условного отсутствия цвета, а участки, обладающие цветовым переходом, получают значение цвета оригинального изображения Общую формулу расчета цветности единичного элемента изображения можно записать следующим образом.

х,у

cvxy, если CL(x,y)<TsP -1, если CL(x,y)>Tsp

где Рх,у - цветность пикселя, с окрестностью которого ведется работа; суху -цветовое значение пикселя, Т$р - значение порога, характеризующего цветовой перепад, СЦх,у) - функция расчета цветового различия элемента.

Однако велика вероятность появления одиночных или парных элементов (расположенных на одной линии), в которых фиксируются цветовые переходы По своей сути данные небольшие группы элементов не обладают какой-либо полезной значимостью в дальнейшей обработке, поскольку в общем представлении размеры текстового символа значительно превосходят размеры этих элементов. В этом случае для расчета значимости элемента необходимо проверять некоторую линейную окрестность размерностью п Общая формула для расчета единичного элемента цветового представления с учетом окрестности выглядит следующим образом

л-1

если ^СЬ(х +1,у) < Тя ¡=-1

п-1 '

если £ СЦх + 1,у) >

¡=-1

где Рху- цветность пикселя, с окрестностью которого ведется работа; суху — цветовое значение пикселя; Г.? - значение порога, характеризующего цветовой перепад; СЦх,у)- функция расчета цветового различия элемента; п - ранг окрестности, в которой происходит расчет и = 1,4.

Для формирования контурного представления было проведено комплексное тестирование методов Собела (см. рисунок 5), Робертса, Лапласа и др. и принято решение об использовании модифицированного метода Собела по четырём направлениям. Модификация заключается в установлении коэффициентов для каждой категории обработки: для декартовых направлений 5,8 для диагональных направлений 4,2.

П-4 | Н-4 П-5 | Н-7 П-12 | Н-8 П-8 | Н-7 П-2 | Н-9 П-6 | Н-1 П-8 | Н-3 П-4 | Н-1

Щ Декартовый ® Диагональный в Комбинированый

Е Комбинированый [4,5/5,5] В Комбинированый [5,8/4,2] @ Комбинированый [6,2/3,8]

Рисунок 5 - Степень сходства контурного представления текстовых символов с эталоном при выбранном типе фильтра Собела (П-прямой шрифт, Н- наклонный шрифт)

Для дальнейшей обработки необходимо цветовое и контурное представления изображения преобразовать в масочное. Процесс формирования масочного представления из цветового происходит следующим образом: отмечаются участки, обладающие цветом (0) и участки, обладающие значением отсутствия цвета (-1). В случае контурного представления значения находятся в диапазоне канала яркости (0..255) и требуется пороговое отсечение изображений объектов. Если значение элемента контурного представления выше порогового, то для элемента масочного представления назначается значение 0, в противном случае--1.

Для выделения объектов масочного представления изображения предлагается разработанный однопроходный алгоритм. При прохождении поискового маркировочного окна на изображении (рисунок 6) центральным является «ну-

Р =

х,у

х,у >

-1

левой» элемент) маркировка происходит при попадании нулевого элемента в зону объекта. После этого происходит проверка связей в соответствии с установленной очерёдностью 1-4. Если обнаруживается промаркированный элемент, то в таблице связности устанавливается связь с элементом, обладающим наименьшим номером маркера. При попадании нескольких элементов с разными номерами маркеров все данные о связях переходят к элементу, с которым установилась связь анализируемого элемента. В случае, когда появляется один, не связанный элемент изображения, имеющий соседа, обладающего связями, то он автоматически принимает значения соседа и удаляется из таблицы. Таблица связности имеет следующую организацию: номер маркера; связность с другими областями; пространственные границы объекта; количество элементов объекта. После заполнения таблицы связности для объектов рассчитывается плотность распределения элементов внутри области.

Рисунок 6 - Маркировочное окно (0 - анализируемый элемент)

После формирования масочного представления изображения необходима дальнейшая обработка с целью увеличения значимости выделенных областей. Даштя обработка состоит из первичной обработки (модифицированная морфологическая фильтрация) и вторичной обработки (проведение структурной и пространствешюй проверки областей). Первичная обработка призвана придать областям более четкую форму путём заполнения пустого пространства области и предварительного отсева малых областей (малые области имеют низкую вероятность содержания текста). Вторичная обработка предусматривает отсев областей по каким-либо критериям (геометрическим, структурным или пространственным параметрам).

Морфологическая обработка представляет собой поэлементную обработку изображения (слева направо и сверху вниз) с применением двух базовых морфологических операций - расширения и сужения. Поскольку масочное представление изображения, подвергаемое морфологической обработке, изменяется только в окрестности, где находится фрагмент интересующей области, для ускорения процесса обработки имеет смысл разбить данный процесс на две составляющие. Первая составляющая морфологической обработки заключается в нахождение элементов интересующей области, а вторая составляющая - непосредственно в применении морфологических операций к пикселям, принадлежащим данной области. Для ускорения выполнения морфологических операций были проведены эксперименты по динамическому выбору шага обработки контурных изображений и режимов скольжения поискового окна. Для операции расширения необходимым и достаточным условием является попадание одного из элементов маски на фрагмент интересующей области. В связи с этим при проведении поиска можно применять усеченную маску, состоящую из правой окантовки оригинальной маски. Для операции сужения необходимым условием

является нахождение элемента обработки на фрагменте области, поэтому для поискового режима достаточно проверять только центральный элемент обработки. Примеры масок представлены на рисунке 7.

Рисунок 7 - Примеры масок морфологической операции расширения: а) оригинальная маска с центральным монолитом, б) оригинальная маска без центрального монолита, в) усеченный вариан т маски «а», г) усеченный вариант маски «б»

Таким образом, использование в поисковом режиме усечённой маски сокращает количество элементных проверок для одного пикселя. Из анализа различных видов и форм масок был сделан вывод о том, что количество элементных проверок для одного пикселя с применением усеченной маски сокращается для операции расширения прямо пропорционально горизонтальному размеру оригинальной маски обработки, а для операции сужения - прямо пропорционально площади оригинальной маски обработки.

Для операции расширения характерна следующая особенность — если хотя бы один элемент маски обработки попадает на интересующую область, то можно принять решение о результате применения морфологической обработки и назначить «центральному» элементу соответствующее значение. Возможно сокращение количества элементных проверок, если маска обработки обладает центральным монолитом (горизонтальная линия, включающая «центральный» элемент обработки). В этом случае, если элемент интересующей области попадает на правую границу центрального монолита, то можно принять решение о результате применения морфологической операции для всех элементов на протяжении центрального монолита маски обработки.

Для проведения обработки масочного представления предлагается выполнение следующих действий. Вначале применяется морфологическая операция сужения с малой маской (2x2 квадратной формы) для отсечения мелких фрагментов. Далее выполняется операция расширения и затем опять операция сужения. Для выполнения этих операций используются маски, представленные на рисунке 8.

Рисунок 8 - Маски морфологической обработки: а) для операции расширения, б) для операции сужения

Вторичная обработка масочного представления состоит из структурной проверки и пространственной обработки областей Структурная проверка области заключается в проверке всех найденных областей на геометрическое соответствие с предполагаемыми текстовыми символами и формировании участков для предварительного анализа. Далее происходит выбор областей, с наибольшей вероятностью содержащих фрагменты текстовых символов Процесс выбора областей происходит в соответствии с заданными условиями Основным условием является соответствие минимальным размерам символа При этом если рассматриваемая область достаточно мала (40-100% от минимальных размеров) и находится на небольшом расстоянии от другой области (параметр максимального расстояния между текстовыми символами), то данная область считается значимой Вторичными условиями могут служить определение плотности распределения блоков внутри области или плотности распределения с учетом их весового значения

Пространственная обработка областей предполагает использование коэффициентов вероятностного нахождения текстовых символов для объединения разрозненных текстовых областей Положение текста на изображении заведомо определено в большинстве случаев в соответствии со стандартами Substation Alpha (SSA) и Advanced Substation Alpha (ASS) При этом задаются области коэффициентов, представляющие собой девять основных областей распределения текста на изображении, для которых устанавливаются коэффициенты влияния Kv, (усиления или ослабления значимости области)

В пространственном положении областей могут возникать ситуации, когда рассматриваемая область находится вне области влияния В таком случае коэффициент значимости области Kzo будет рассчитываться по формуле

где XV, - коэффициент влияния г-ой области; Яу(2,2Ъ>) - функция расчета расстояния удаленности данной области от областей влияния

Расстояние удаленности представляет собой коэффициент, принимающий значения от 0 до 1. Данное расстояние является условным, расчет расстояния влияния между двумя областями происходит по формуле-

где 21х, 22х, 21у, 22у - координаты условного центра областей 21 и 22 по осям ОХ и ОУ соответственно, Hlmg, Wlmg — размеры обрабатываемого изображения (длина и высота); Н21, Н21, Цг21, У722 - горизонтальные и вертикальные размеры первой и второй области соответственно

9

Kzo^Kv, Rv(Z,Zkvt) ,

Rv(2\,22) = 1-

4(Himg - (HZl + HZ2) 0 S)2 + (Wimg - (WZl + W22) 0.5)2 '

После получения коэффициентов значимости для каждой области проводим процесс объединения областей. Две области объединяются между собой в том случае, когда расстояние между областями удовлетворяет условию:

Я(2\,22)<

Кго,, +Кго,

где Я (21,22) - расстояние между областями; г — базовое расстояние для объединения областей; Кго^, Кго^ - коэффициенты значимости областей 7Л, 22 соответственно.

Таким образом, на основе полученных областей формируем маску для дальнейшей обработки. Процесс формирование маски заключается в том, что для найденных областей формируется матричное представление, в котором отображается линейная оценка значимости.

Для выделения образов предполагаемых текстовых символов предлагается гибридный метод, который в качестве базиса использует цветовую информацию в области реконструированных контуров (рисунок 9).

Формирование образов

Рисунок 9 - Этапы формирования образов предполагаемых тестовых символов

На этапе реконструктивной контурной обработки происходит морфологическая фильтрация контуров, расположенных в текстовой зоне (рисунок 10). Для операции расширения используется крестообразная маска 3x3, а для операции сужения - квадратная маска 2x2.

в)Шш

Рисунок 10 - Реконструкция контуров: а) оригинал, б) после операции расширения, в) после операции сужения

После проведения реконструктивной контурной обработки проводится анализ цветового распределения на пространстве контура и внутриконтурной области. В результате получаются области распределения цветов в предпола-

гаемых образах текстовых символов. Каждый образ представляет область, ограниченную внешней контурной границей Следующим этапом является формирование участков распределения (цветов и яркости), при совмещении которых и получается описание образов предполагаемых символов

Третья глава посвящена вопросам практического создания приложений на основе разработанных методов и алгоритмов. На основе разработанного тестового программного обеспечения проводились исследования обработки изображения, обнаружения и выделения текстовых символов, а также качества распознавания Для построения системы распознавания наложенных текстовых символов предлагается использовать модульный подход (рисунок И) Данные модули реализованы в виде библиотеки специальных компонентов, выполненных в интегрированной среде разработки Delphi.

AVI Reader - предназначен для работы с видео файлами (покадровое считывание, переход по ключевым кадрам, преобразование изображения),

Filter Engine - предназначен для фильтрации изображения (пространственные и временные фильтры, морфологическая фильтрация),

Search Engine — предназначен для обнаружения текстовых зон и выделения образов предполагаемых текстовых символов,

Psevdo 3D Analysis — предназначен для перевода образа в бинарное представление для нейронной сети,

Hemming Network - предназначен для распознавания образов текстовых символов

Рисунок 11 - Функциональная схема системы распознавания текстовых символов из видеопоследовательности

Экспериментальные исследования алгоритмов обработки проводились для цветных изображений (более чем 600) и видеопоследовательностей разных категорий (по степени освещенности), размера (разрешение в пикселях) и класса (мультипликация, живое видео, компьютерная 3£>-анимация) Для каждого класса исследовались видеопоследовательности длительностью от 25 минут до 2 часов с общим количеством кадров более 2 миллионов

При исследовании предлагаемого временного фильтра выяснено, что установку коэффициентов для коррекции изображения целесообразно назначать в зависимости от динамического диапазона яркости Значение коэффициента коррекции для темных изображений (яркость в диапазоне 1-84) можно принять равным 4-6,5%, для изображений средней яркости (значения от 85 до 170) -2 5-3,5% и для изображений, обладающих высокой яркостью (значения от 171 до 255),- 1-2 2%.

Экспериментальным путем была определена наиболее приемлемая последовательность применения фильтров (для изображений, содержащих наложенный текст) в алгоритме адаптивной фильтрации изображения на основе карт яркостной разницы - модифицированный медианный фильтр для малых отклонений (менее 15-20), - фильтр Гаусса для средних отклонений (от 20 до 40), — 2D Cleaner Filter by Jim Casaburi для значительных отклонений (от 40 и выше) В таблице 3 приведены значения гладкости для различных фильтров

Таблица 3 - Сравнение фильтров по критерию гладкости изображения (кагал 7схемы YUV)

Фильтр обработки Мультипликация Живое видео ЗЛ-Анимация

Оригинал 96,23524 97,75115 97,95135

Фильтр Гауса 3x1 96,98579 98,39336 98,79458

Фильтр Гауса 5x1 97,23428 98,74221 99,01225

Фильтр Гауса 7x1 97,26049 98,58237 98,9102

Медианный фильтр 3x1 96,8802 98,31797 98,72222

Медианный фильтр 5x1 97,44668 98,70469 98,9697

Медианный фильтр 7x1 97,76023 98,87127 98,99335

Фильтр Гауса 3x3 97,46468 98,7439 98,90248

Фильтр Гауса 5x5 97,82719 98,94095 99,07827

Фильтр Гауса 7x7 97,8648 98,95829 99,09535

Медианный фильтр 3x3 97,37193 98,56801 98,80807

Медианный фильтр 5x5 98,24473 99,09629 99,28269

Медианный фильтр 7x7 98,68689 99,2602 99,38919

Медианный фильтр (мод) 5x5 98,44801 99,17476 99,28994

Медианный фильтр (мод) 7x7 98,79796 99,31891 99,42412

Фильтр 2D Cleaner 3x3 97,17967 98,58683 98,84743

Фильтр 2D Cleaner 5x5 97,18723 98,63347 98,86369

Фильтр 2D Cleaner 7x7 97,17556 98,62586 98,86949

Метод обнаружения текстовых: зон показал следующие результаты при поиске символов размером менее 10 пикселей степень обнаружения составила 92,1 %, а для символов размером более 10 пикселей - 97,3%. Степень ложного

срабатывания (обнаружение фрагментов изображения как образов текстовых символов) составила 4 2%

Распознавание образов текстовых символов реализовано на основе ассоциативной искусственной нейронной сети Хемминга (модуль Hemmmg Network) При тестировании системы распознавания (рисунок 12) использовались значения коэффициентов, соответствующих среднему качеству изображения (коэффициент зашумленности изображения 30%, коэффициент смещения 10 пикселей). При этом процент распознавания составил 80-83% Разработанный алгоритм псевдо-трехмерного анализа, дает максимальное увеличение качества распознавания на 9% при тех же условиях. При отсутствии смещений и искажений образов точность распознавания достигает 100%

Рисунок 12 - Функциональная схема системы распознавания

В заключении сформулированы основные результаты и выводы, полученные в диссертационной работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1 Проведен анализ пространственных фильтров на степень сглаживания изображений и предложена модификация медианного фильтра для повышения степени сглаживания изображения.

2 Разработан гибридный метод обнаружения наложенных текстовых зон произвольной ориентации на изображениях и видеопоследовательностях со сложной фоновой структурой с проведением структурной и пространственной проверок

3. Разработан метод выделения образов предполагаемых текстовых символов, имеющих сложную многоуровневую цветовую организацию, в обнаруженных текстовых зонах

4 Разработан адаптивный алгоритм фильтрации изображения, в котором подбор размера и формы окна фильтрации, а также самого фильтра происходит на основе карт яркостной разницы

5 Разработан однопроходный алгоритм формирования окаймляющего прямоугольника фрагментов изображения с расчетом плотности распределения элементов Также разработаны алгоритмы для проведения морфологической обработки, где действия зависят от маски обработки и выполняемой операции Показаны их преимущества над традиционными алгоритмами

6 Создана библиотека компонентов, предназначенная для систем обработки и распознавания образов текстовых символов

Таким образом, полученные результаты позволяют сделать вывод о том, что предложенные методы и алгоритмы обнаружения наложенных текстовых символов на изображениях и видеопоследовательностях со сложной фоновой структурой позволяют повысить точность обнаружения и увеличивают быстродействие системы распознавания

Основные положения и результаты диссертационной работы представлены в следующих работах автора (знаком * обозначены работы, опубликованные в издании, включенном в список изданий, рекомендованных ВАК для опубликования результатов диссертационных исследований):

1* Зотин, А Г Адаптивный метод обнаружения текстовых зон в видеопотоке на основе яркостных карт / А Г Зотин // Вестник Сибирского государственного аэрокосмического университета имени академика МФ Решетнева / Под ред проф ГП Белякова, СибГАУ - Вып 1(14) - Красноярск, 2007 -с. 34-38

2* Зотин, А.Г. Морфологическая обработка контурных изображений в системах распознавания текстовых символов/ М Н Фаворская, А. Г Зотин, А Н Горошкин // Вестник Сибирского государственного аэрокосмического университета имени академика М Ф Решетнева / Под ред проф Г П Белякова, СибГАУ -Вып 1(14) -Красноярск,2007 -с 70-75

3* Зотин, А Г Модульный подход к распознаванию текстовой информации из видеоряда / А Г Зотин // Вестник Сибирского государственного аэрокосмического университета имени академика М Ф Решетнева / Под ред проф. Г.П. Белякова, СибГАУ -Вып 1(8) - Красноярск, 2006 -с 34-38

4 * Зотин, А.Г. Прогнозирование в системах распознавания образов на основе скрытых марковских моделей / М. Н. Фаворская, А Г Зотин, Н. Д. Тор-гашин // Вестник Сибирского государственного аэрокосмического университета имени академика М Ф Решетнева / Под ред проф Г П Белякова, СибГАУ -Вып 1(8) -Красноярск, 2006 - с 59-63

5 Зотин А.Г Модульный подход к обнаружению текстовых символов в видео-потоке на компонентной основе // Материалы X Междунар науч конф «Решетневские чтения» / СибГАУ - Красноярск, 2006 - с 298-299

6- Зотин А Г Модульный подход к обнаружению «наложенных» текстовых символов из видео-потока // Наука Технологии Инновации // Материалы Всероссийской научн конф молодых ученых в 7-ми частях, изд-во НГТУ, ч. 2 - Новосибирск, 2006. - с 72-74

7 Зотин, А Г Система обнаружения и распознавания номерных знаков автомобильных транспортных средств / А Г Зотин // Молодежь Сибири - науке России Сб материалов научно-практической конференции / Сост Пащ В.Ю., Сувейзда ВВ., СИБУП, КРО НС «Интеграция», Красноярск, 2005 - с 273-276

8 Зотин, А Г Обнаружение текстовых символов в видеопотоке /А Г Зотин // Материалы IX Междунар науч конф «Решетневские чтения» / СибГАУ -Красноярск, 2005 - с. 308-309

9. Зотин, А Г Алгоритмы идентификации и распознавания номеров автомобильных транспортных средств, тезисы / А Г Зотин, М В Дамов // Технологии Microsoft: в информатике и программировании / НГУ - Новосибирск, 2004 -с 100-102

10 Зотин, А Г Программно-аппаратный комплекс для идентификации номерных знаков транспортных средств / А Г Зотин, М В Дамов // Новые информационные технологии в научных исследованиях и в образовании Материалы 9-й Всероссийской науч -техн конф -Рязань, 2004 - с 198-199

11 Зотин, А Г. Технологии идентификации и распознавания номеров автомобильных транспортных средств / А Г Зотин, М В Дамов // Молодежь и современные информационные технологии. Сборник трудов П-ой Всероссийской научно-практ конф студентов Томск, 25-26 февраля 2004г - Томск изд-во ТПУ, 2004 ~с 68-70

12 Зотин, А Г Программа фильтрации и морфологической обработки двумерных изображений (FNX Image Processor) Версия 19 2 Свидетельство №2007613017 Зарегистрировано в Реестре программ для ЭВМ г Москва, 11 июля 2007 г

13 Зотин, А Г Система распознавания регистрационных знаков автомобильных транспортных средств / А Г Зотин, М В. Дамов Программный комплекс распознавания номерных знаков транспортных средств (GateKeeper) Версия 1 3 Свидетельство №2004610994 Зарегистрировано в Реестре программ для ЭВМ г Москва, 22 апреля 2004 г

14* Зотин, А Г Идентификация ограниченного набора образов на основе ассоциативных нейронных сетей / М.Н. Фаворская, А Г Зотин, Н Д Торгашин, М.В. Дамов // Вестник Сибирского государственного аэрокосмического университета имени академика М.Ф Решетнева / Под ред. проф. Г П Белякова, СибГАУ. - Вып. 5 - Красноярск, 2004. - с 109-116.

15 Зотин, А Г Идентификация номерных знаков автомобилей на базе нейронной сети Хэмминга. Статья / А Г Зотин, М В Дамов // Молодежь Сибири - науке России Сб материалов научно-практ конф / Сост Пащ В Ю,

)

Сувейзда В В.; СИБУП, КРО НС «Интеграция», Красноярск, 2003 Часть 1 -с 229-230.

16 Зотин, А Г Программный комплекс распознавания номерных знаков транспортных средств на основе нейронной сети / А Г Зотин, М В Дамов // XI Туполевские чтения Всероссийская (с международным участием) молодежная науч конф Казань 8-10 октября 2003 года Том Ш Казань. Изд-во Казань гос. техн Ун-та 2003. - с. 23

Зотин Александр Геннадьевич

Методы и алгоритмы обнаружения наложенных текстовых символов в системах распознавания изображений со сложной фоновой структурой

Автореферат

Подписано к печати 02.10 2007 Формат 60x84/16 Бумага писчая Печ л. 1.0 Тираж 100 экз. Заказ № $9<Г

Отпечатано в отделе копировальной и множительной техники СибГАУ 660014 г Красноярск, пр. им газеты «Красноярский рабочий», 31

Оглавление автор диссертации — кандидата технических наук Зотин, Александр Геннадьевич

ВВЕДЕНИЕ.

ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ И СИСТЕМ РАСПОЗНАВАНИЯ ПЕЧАТНЫХ ТЕКСТОВЫХ СИМВОЛОВ.

1.1 Общая характеристика подходов к распознаванию печатных текстовых символов.

1.1.1 Сравнение шрифтовых и шрифтонезависимых подходов.

1.1.2 Анализ структуры кириллического и латинского алфавитов.

1.1.3 Классификация шумов при распознавании текстовой информации.

1.2 Технологии обработки и распознавания печатных текстовых символов.

1.2.1 Анализ цветовых моделей.

1.2.2 Улучшение качества изображений.

1.2.3 Сегментация изображений.

1.2.4 Применение нейронных сетей для распознавания текстовой информации.

1.3 Анализ существующего программного обеспечения распознавания печатных символов.

1.4 Выводы.

ГЛАВА 2 РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ ОБНАРУЖЕНИЯ НАЛОЖЕННЫХ ТЕКСТОВЫХ СИМВОЛОВ.

2.1 Предварительная обработка изображения.

2.1.1 Обработка изображения во временной области.

2.1.2 Адаптивная пространственная обработка изображения.

2.2 Сегментация изображений.

2.2.1 Цветовое адаптивное преобразование изображения.

2.2.2 Формирование контурного представления изображения.

2.2.3 Выделение объектов представления изображения.

2.3 Пост-обработка масочного представления изображений.

2.3.1 Первичная обработка масочного представления изображения.

2.3.2 Вторичная обработка масочного представления изображения.

2.4 Формирование образов текстовых символов.

2.4.1 Формирование контурного представления с реконструкцией.

2.4.2 Формирование образов текстовых символов.

2.5 Выводы.

ГЛАВА 3 ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ.

3.1 Функционирование системы распознавания наложенных текстовых символов на изображениях со сложной фоновой структурой.

3.2 Экспериментальное исследование алгоритмов обработки изображения.

3.3 Экспериментальное исследование алгоритмов формирования текстовых зон.

3.4 Исследование качества распознавания образов текстовых символов.

3.5 Выводы.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Зотин, Александр Геннадьевич

Актуальность работы. Современная вычислительная техника достигла такого уровня развития, что в большинстве своём участвует в различных аспектах жизни человека. Машинные методы распознавания — технология, нашедшая применение в целом классе прикладных решений. Наиболее удачной с коммерческой точки зрения и массово востребованной технологией является технология оптического распознавания текстовых символов. Распознавание текстовых символов применимо для обыденного использования (распознавание текста со сканированного материала), использования в профессиональной видео-корректорской сфере (обработка и распознавание субтитров в видеопоследовательностях) [93, 117, 146], специализированного применения в охранной сфере (распознавание номерных знаков транспортных средств, пересекающих контрольно-пропускные пункты, учет подвижного состава при транспортных перевозках), в мультимедийных библиотеках (индексация и поиск цифрового видео) [86, 90, 96, 98-100, 125] и других различных сферах деятельности [111, 120,130, 131,133, 134,144].

Эффективная индексация и поиск цифрового видео является наиболее важной функцией видео базы данных и мультимедийных библиотек [126, 131]. Ключевым элементом для поиска необходимой записи является текст, появляющийся в видеопоследовательности. Существуют два вида текста в видеопоследовательностях: текст сцены (фона) и искусственный (наложенный) текст. Наложенный текст зачастую является носителем важной информации [112, 115]. Поэтому возникает необходимость определения местонахождения, а также извлечение с последующим распознаванием наложенного текста в видеопоследовательности со сложной фоновой структурой изображений. Такие видеопоследовательности, а также статические изображения со сложной структурой фона могут содержать наложенный текст различного вида (несколько вариаций шрифта и цветового оформления). Особое значение для качества распознавания текстовых символов имеет четкое выделение образа текстового символа.

Целью диссертационной работы является разработка методов и алгоритмов для создания системы распознавания наложенных текстовых символов в статических и динамических изображениях со сложной фоновой структурой.

Поставленная цель предопределила необходимость решения следующего комплекса задач:

- Провести анализ подходов для построения систем оптического распознавания текстовых символов, а также методов обнаружения текстовых символов на изображениях со сложной фоновой структурой.

- Провести анализ методов улучшения качества изображения.

- Разработать адаптивный алгоритм сглаживания фонового изображения с одновременным устранением цветовых искажений в предполагаемых текстовых областях.

- Разработать методы и алгоритмы обнаружения наложенных текстовых символов в изображениях со сложной фоновой структурой.

- Разработать методы и алгоритмы выделения образа наложенного текстового символа в статических и динамических изображениях.

- На основе разработанных алгоритмов создать компоненты (модули) для проектирования систем распознавания наложенных текстовых символов в статических изображениях и видеопоследовательностях со сложной фоновой структурой.

- Разработать тестовое программное обеспечение и провести анализ свойств разработанных алгоритмов, а также исследование их эффективности при решении поставленных задач на тестовых выборках.

Методы исследования. При выполнении диссертационной работы использовались методы теории информации, теория обработки сигналов, теория математической морфологии, методы объектно-ориентированного - программирования.

Научная новизна диссертационной работы состоит в следующем:

1. Разработан гибридный метод обнаружения наложенных текстовых зон произвольной ориентации на статических и динамических изображениях со сложной фоновой структурой, использующий цветовое и контурное представления изображения, подвергнутого пространственной и структурной обработке.

2. Разработан метод выделения образов предполагаемых текстовых символов, имеющих сложную многоуровневую цветовую организацию, в обнаруженных текстовых зонах, который основан на реконструированном контурном представлении, а также цветовом и яркостном распределениях.

3. Разработан адаптивный алгоритм фильтрации изображения, в котором подбор размера и формы окна фильтрации, а также самого фильтра происходит на основе карт яркостной разницы, предложена модификация медианного фильтра для повышения степени сглаживания изображения.

4. Разработаны алгоритмы для проведения морфологической обработки, где действия зависят от маски обработки и выполняемой операции (позволяющие значительно сократить количество элементных проверок), также однопроходный алгоритм формирования окаймляющего прямоугольника для фрагмента изображения с расчетом плотности распределения элементов фрагмента.

Реализация результатов работы. Разработанный программный комплекс распознавания номерных знаков транспортных средств (GateKeeper) Версия 1.3 зарегистрирован в Российском реестре программ для ЭВМ г. Москва, 22 апреля 2004 г. (свидетельство №2004610994). Программа фильтрации и морфологической обработки двумерных изображений {FNX Image Processor). Версия 1.9.2 зарегистрирована в Российском реестре программ для ЭВМ г. Москва 11 июля 2007 (свидетельство №2007613017).

Разработанные алгоритмы и программное обеспечение используются в учебном процессе при проведении занятий по дисциплинам «Интеллектуальная обработка данных» и «Компьютерные технологии в науке и образовании» в Сибирском государственном аэрокосмическом университете.

Основные положения, выносимые на защиту:

1. Метод обнаружения текстовых зон произвольной ориентации на изображениях и видеопоследовательностях со сложной фоновой структурой на основе гибридного подхода.

2. Метод выделения образов текстовых символов, имеющих сложную многоуровневую цветовую организацию, с применением контурной реконструкции и анализа цветового и яркостного распределений.

3. Адаптивный алгоритм предварительной обработки изображений на основе карт яркостной разницы.

Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на 41-й научно-практической конференции студентов, аспирантов и молодых учёных, посвященной Всемирному дню авиации и космонавтики (Красноярск 2003г.), Всероссийской научно-практической конференции «Решетневские чтения» (Красноярск 2003, 2004, 2005, 2006 гг.), Всероссийской научной конференции студентов, аспирантов и молодых учёных «Наука. Технологии. Инновации» (Новосибирск 2003, 2006 гг.), конференции-конкурсе работ студентов, аспирантов и молодых ученых «Технологии Microsoft в информатике и программировании» (Новосибирск 2004 г.), Второй Всероссийской научно-практической конференции студентов «Молодёжь и современные информационные технологии» (Томск 2004 г), Региональном смотре-конкурсе программных проектов «50//-Парад - 2004» (Красноярск 2004 г.), Третьей Всероссийской конференции творческой молодежи, посвященной дню космонавтики «Актуальные проблемы авиации и космонавтики» (Красноярск 2007 г.).

Публикации. По результатам диссертационного исследования опубликовано 20 печатных работ, из них 7 статей, 11 тезисов докладов, 2 свидетельства, зарегистрированных в Российском реестре программ для ЭВМ.

Структура работы. Работа состоит из введения, трех глав, заключения, списка литературы и приложения.

Заключение диссертация на тему "Методы и алгоритмы обнаружения наложенных текстовых символов в системах распознавания изображений со сложной фоновой структурой"

3.5 Выводы

Предложена модульная организация построения системы распознавания наложенных текстовых символов на изображения со сложной фоновой структурой. В соответствии с модульной организацией были разработаны библиотеки специальных компонент, на основе которых было создано тестовое программное обеспечение.

Были проведено исследование предлагаемого временного фильтра, в результате выяснено, что установку коэффициентов для коррекции изображения целесообразно назначать в зависимости от динамического диапазона яркости. Значение коэффициента коррекции для темных изображений (яркость в диапазоне 1-84) можно принять равным 4,0-6,5%, для изображений средней яркости (диапазон значения от 85 до 170) - 2,5-3,5% и для изображений, обладающих высокой яркостью (диапазон значений от 171 до 255)- 1,0-2.2%.

В ходе проведенного исследования пространственных фильтров на степень сглаживания изображений, относящихся к различным категориям (мультипликация, живое видео, компьютерная 3£)-анимация), было установлено, что наибольшее сглаживание дает модифицированный медианный фильтр.

При анализе методов формирования контурного представления было установлено, что для поиска текста на изображении целесообразно использование метода Собела (по четырем направлениям) с заданием следующих коэффициентов для каждой категории обработки: для декартовой категории - 5,8 для диагональной категории - 4,2. В свою очередь для выделения символов в текстовой зоне наилучшие показатели были у фильтра Лапласа с отрицательным центральным ядром.

Проанализировав результаты формирования цветового представления можно прийти к выводу о том, что в большинстве случаев для формирования представления для каждого пикселя достаточно проводить анализ цветового влияния в малой области (размер 1-4 пикселя). Для обнаружения же достаточно крупных символов (толщина линий которых более 10 ед.) необходимо проводить масштабирование области.

Метод обнаружения показал лучшие результаты по сравнению со сравниваемыми алгоритмами: при поиске символов размером менее 10 пикселей степень обнаружения составила 92,1 %, а для символов размером более 10 пикселей - 97,3%. Степень ложного срабатывания (обнаружение фрагментов изображения как образов текстовых символов) составила 4,2%.

При проведении тестирования системы распознавания, построенной на основе сети Хемминга, было установлено, что точность распознавания снижается при смещении от идеального положения и искажения образов. В связи с этим было решено применять алгоритм псевдо-трёхмерного анализа, который даёт максимальное увеличение качества распознавания на 9% при коэффициенте смещения до 10 ед.

ЗАКЛЮЧЕНИЕ

В диссертационной работе исследовалась задача обнаружения и выделения наложенных текстовых символов на изображениях со сложной фоновой структурой при построении системы распознавания.

В ходе исследования выполнен сравнительный анализ подходов построения систем распознавания печатных текстовых символов, а также методов распознавания. Выяснено, что для поиска текста на изображениях с произвольной фоновой структурой существуют два основных подхода: использование контурной информации и использовании цветовой информации. В результате проведенного анализа двух алфавитов (русского и английского) были сформированы категории символов, с помощью которых можно добиться повышения качества образов. При обработке изображений также необходимо учитывать возникновение различных дефектов, связанных с сжатием, а также возможным появлением шумов, что в свою очередь снижает качество обнаружения текстовых символов.

Для предварительной обработки изображения были разработаны алгоритмы фильтрации во временной (пороговая стабилизация цветов) и пространственной (адаптивный алгоритм фильтрации на основе карт яркостной разницы) областях. Предложенный алгоритм на основе карт яркостной разницы позволяет осуществлять подбор фильтра и корректировать зону обработки путём изменения ядра фильтра. Также предложен метод обнаружения гибридного типа, использующий цветовое и контурное представления изображения. Для получения цветового представления применяется цветовое адаптивное преобразование. Для формирования контурного представления используется метод Собела по четырём направлениям с изменёнными коэффициентами. Для выделения символов в текстовой зоне наилучшие показатели наблюдались при применении фильтра Лапласа с отрицательным центральным ядром.

Для выделения областей в полученных представлениях был разработан однопроходный алгоритм. Выбор областей, с наибольшей вероятностью содержащих фрагменты текстовых символов, основан на получении блоков распределения, из которых формируются проекции. Анализ проекций позволяет разделять изображения на участки с предполагаемыми символами. Формирование образов текстовых символов происходит с учетом их различных категорий и возможным наклоном.

Для сокращения ложных срабатываний в предложенном методе обнаружения представления подвергаются пост-обработке, которая состоит из первичной обработки, основанной на модифицированной морфологической фильтрации, и вторичной обработки в виде структурно-пространственной проверки областей.

Предложена модульная организация системы распознавания наложенных текстовых символов на изображения со сложной фоновой структурой. В соответствии с модульной организацией были разработаны библиотеки специальных компонентов, на основе которых было создано тестовое программное обеспечение.

Проведены исследования предложенного временного и пространственных фильтров. В результате выяснено, что установку коэффициентов коррекции для временного фильтра целесообразно назначать в зависимости от динамического диапазона яркости изображения. Экспериментальные исследования пространственных фильтров по степени сглаживания изображений (мультипликация, живое видео, компьютерная 3D-анимация) показали, что наибольшее сглаживание дает модифицированный медианный фильтр.

Метод обнаружения показал следующие результаты: при поиске символов менее 10 пикселей степень обнаружения составила 92,1 %, а для символов более 10 пикселей - 97,3%. Степень ложного срабатывания составила 4.2%. В ходе тестирования системы распознавания, построенной на основе сети Хемминга, было установлено, что применение алгоритма псевдо-трёхмерного анализа даёт максимальное увеличение качества распознавания на 9% при коэффициенте смещения до 10 ед.

Полученные результаты позволяют сделать вывод о том, что предложенные методы и алгоритмы обнаружения наложенных текстовых символов на изображениях со сложной фоновой структурой повышают точность обнаружения и увеличивают быстродействия системы распознавания.

Библиография Зотин, Александр Геннадьевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Амамия М., Танака Ю. Архитектура ЭВМ и искусственный интеллект. -М Мир, 1993.-400 с.

2. Анцыферов С.С., Евтихиев Н.Н. Адаптивные системы распознавания образов пространственно-временных полей. // Искусственный интеллект. -2004.-№3.-с. 405-416

3. Бакут П, А-, Колмогоров Г, С, Вороновицкий И, Э, Сегментация изображений: методы пороговой обработки //Зарубежная радиоэлектроника 1987, -№10,-С, 6-24,

4. Белан С. М., Моторнюк Р. Л. Сегментация изображений в однородных клеточных автоматах // Вторая Международная научно-методическая конференция «ИНТЕРНЕТ ОБРАЗОВАНИЕ - НАУКА - 2000», Винницкий гос. техн. ун-т, Винницк, 2000 -с. 307-310

5. Богуславский А.А., Соколов С.М Программно-аппаратные средства ввода зрительных данных в память персонального компьютера ИПМ им. М.В.Келдыша РАН Москва, 2002

6. Богуславский Ан. С++ и компьютерная графика. М.: КомпьютерПресс, 2003. - 352 с.

7. Борисов В. В., КругловВ. В. Искусственные нейронные сети. Теория и практика. -М.: Горячая линия-Телеком, 2001. 382с

8. Браверман Э. М„ Мучник И. Б. Структурные методы обработки эмпирических данных. М.: Наука, ГРФМЛ, 1983. - 368 с.

9. Буковецкая О.А. Видео на вашем компьютере. ТВ тюнеры, захват кадра, видеомонтаж, DVD. М.: ДМК Пресс, 2001. - 240 с. ил.

10. Бутаков Е, А„ Островский В. И., Фадеев И. Л, Обработка изображений на ЭВМ, -М: Радио и связь, 1987.-238 с,

11. Бутаков Е.А., Островский В.И., Фадеев И.Л, Обработка изображений на ЭВМ, -М: Радио и связь, 1987.-238 с,

12. Васильев В.Е., Морозов А.В. Компьютерная графика: Учеб. пособие -СПб.: СЗТУб 2005.-101с.

13. Васильев В.И Распознающие системы: Справочник. М.: Радио и связь, 1983. -422с.

14. Ватолин Д., Гришин С. Алгоритм преобразования частоты кадров на основе интерполяции скомпенсированных кадров // Материалы девятого научно-практического семинара "Новые информационные технологии в автоматизированных системах", Москва, 2006. -с. 32-46

15. Вежневец В.П., Андреева А.А., Дегтярева А.А. Сравнительный анализ методов сегментации кожи на цветных изображениях // Доклады 11-й Всероссийской конференции "Математические методы распознавания образов", Москва, 2003 -с.264-265

16. Гайдашев А.Э. Спекл-шум и повышение качества УЗ изображений // MEDCOM 2007

17. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2005. - 1072 с.

18. Горелик А, Л„ Скрипкин В- А. Методы распознавания: Учеб, пособие, 3-е изд, М.: Высшая школа, 1989. - 350 с.

19. Горелик А. Л., Гуревич И, Б„ Скрипкин В, А, Современное состояние проблемы распознавания: Некоторые аспекты. Сер, Кибернетика, М,: Радио и связь, 1985,-160 с,

20. Гуле А. Захват, обработка и хранение видео с использованием ПК.// IXBT 17 октября 2004

21. Заенцев И.В., Нейронные сети: основные модели, Воронеж 1999. -76с

22. Зотин А.Г. Модульный подход к обнаружению «наложенных» текстовых символов из видео-потока // Наука. Технологии. Инновации // Материалы всероссийской научной конференции молодых учёных в 7-ми частях изд-во НГТУ часть 2- Новосибирск 2006 с 72-74

23. Зотин А.Г. Модульный подход к обнаружению текстовых символов в видео-потоке на компонентной основе // материалы X Междунар. науч. конф. «Решетневские чтения» / СибГАУ. Красноярск, 2006. с 298-299

24. Зотин, А.Г. Алгоритмы идентификации и распознавания номеров автомобильных транспортных средств, тезисы / А.Г. Зотин, М.В. Дамов// Технологии Microsoft в информатике и программировании: Тезисы докладов / НГУ. Новосибирск, 2004. -с. 100-102

25. Зотин, А.Г. Анализ использования нейронных сетей для распознавания текстовой информации // Решетнёвские чтения: Тез. докл. VII Всерос. науч. конв. / СибГАУ. Красноярск, 2003. -с. 239

26. Зотин, А.Г. программа фильтрации и морфологической обработки двумерных изображений (FNX Image Processor). Версия 1.9.2

27. Свидетельство №2007613017 Зарегистрировано в Реестре программ для ЭВМ г. Москва, 11 июля 2007 г

28. Зотин, А.Г. Система распознавания регистрационных знаков автомобильных транспортных средств / А.Г. Зотин, М.В. Дамов// Решетнёвские чтения: Материалы. VIII Всерос. науч. конв. с междунар. участием / СибГАУ. Красноярск, 2004. -с. 216-217

29. Зотин, А.Г. Адаптивный метод обнаружения текстовых зон в видеопотоке на основе яркостных карт / А.Г. Зотин // Вестник

30. Сибирского государственного аэрокосмического университета имени академика М.Ф. Решетнёва / Под ред. Проф. Г.П. Белякова; СибГАУ. -Вып. 1(14). Красноярск, 2007. -с. 34-38.

31. Зотин, А.Г. Выделение и распознавание текстовых символов из видеопотока / А. Г. Зотин // материалы Третьей Всерос. Конф. творческой молодежи, посвященной дню космонавтики «Актуальные проблемы авиации и космонавтики» Красноярск 2007г.

32. Зотин, А.Г. Обнаружение текстовых символов в видеопотоке /А.Г. Зотин // материалы IX Междунар. науч. конф. «Решетневские чтения» / СибГАУ. Красноярск, 2005. -с. 308-309

33. Казаков Ф. Видеозапись без видеомагнитофона // "Компьютерра" №25 от 08 августа 2003 года

34. Калинкина Д., Ватолин Д. Проблема подавления шума на изображениях и видео и различные подходы к ее решению // Научно-образовательный сетевой журнал Графика и мультимедиа 2005

35. Каллан Р. Основные концепции нейронных сетей М.:Изд. Дом "Вильяме", 2001

36. Короткий А.С., Нейронные сети: основные положения http://www.orc.ru/~stasson/neurox.html

37. Короткин А.А. Математические модели искусственных нейронных сетей. Уч. пособие, Ярославль, 2000. 168 с.

38. Котович Н. В., Славин О. А. Распознавание скелетных образов. -http://ocraLnarod.ru/skeletrecognize.html.

39. Кузин Алгоритмы и методы предварительной обработки изображений. Методическое руководство лабораторного практикума. // Сост., С.Г. Кузин, А.Ф. Смирнов. Н. Новгород ННГУ, 2001.

40. Куртев Н.Д., Анцыферов С.С. Структурно-стохастический метод обработки и распознавания информации тепловых изображений. // Оптический журнал,№2. Т.64. 1997. -с. 35-37.

41. Кутовенко А. Интернет-поиск изображений: технологии контентного поиска // Компьютерная газета A-Z №48 2006

42. Лисин С. Системы оптического распознавания текста // КОМПЬЮТЕР-ИНФОРМ №16 (132) 23 сентября 6 октября 2002 г.

43. Лукашенко Г, Применение волнового алгоритма для нахождения растрового изображения. — http://ocrai.narod.ru/vectory.html.

44. Маркаров Г. Оцифровка видеокассет: главное — удаление помех журнал "Мир ПК", №12, 2004

45. Миронов Д.Ф. Компьютерная графика в дизайне: Учебник для вузов. -СПб.: Питер, 2003. 224 е.: ил.

46. Мисюрев А. В. Использование искусственных нейронных сетей для распознавания рукопечатных символов. http://ocrai.narod.ru/hp.html.

47. Насакин P. OCR как предмет первой необходимости //КомпьютерПресс №7 2004

48. Никулин Е. Компьютерная геометрия и алгоритмы машинной графики. Серия "Учебное пособие". СПб.: БХВ-Петербург, 2003. - 560 е.: ил.

49. Павлидис Т. Алгоритмы машинной графики и обработки изображений. Пер. с англ. М.: Радио и связь, 1986.

50. Петров М.Н., Молочков В.П. Компьютерная графика: Учебник для вузов. СПб.: Питер, 2002. - 736 е.: ил.

51. Поляков А. Методы и алгоритмы компьютерной графики в примерах на Visual С++. Серия "Мастер". СПб.: БХВ-Петербург, 2002. - 416 е.: ил.

52. Порев В. Компьютерная графика. Серия "Учебное пособие". СПб.: БХВ-Петербург, 2002. - 432 е.: ил.

53. Прэтт У.К. Цифровая обработка изображений: Кн. 1. М.: Мир, 1982. - 792с.

54. Путилин С. Ю. Пространственно-временное подавление шума в видео последовательностях // Международная конференция студентов и аспирантов по фундаментальным наукам "Ломоносов 2005", секция "Вычислительная математика и кибернетика", Москва 2005. с 53

55. Путилин С., Лукин А. Модификация метода нелокального усреднения для подавления шума в видео // Труды конференции Graphicon-2007, -с. 257-259.

56. Рейнбоу В. Компьютерная графика. Энциклопедия. СПб.: Питер, 2003. - 768 е.: ил.

57. Русый Б. П. Структурно-лингвистические методы распознавания изображений в реальном времени. Киев: Наукова думка, 1986, - 127 с.

58. Себастиан Г. Процессы принятия решения при распознавании образов. Киев, 1965.-151 с.

59. Сойфер В.А. Методы компьютерной обработки изображений. М.: "Физматлит", 2004. - 784 с.

60. Соколов Е. Н., Вейткявичус Г. Г. Нейроинтеллекг. От нейрона к нейрокомпьютеру. М.: Наука, 1989. - 240 с.

61. Соловьёв А. Грани документооборота // Бугалтер и Компьютер №9 2005

62. Сэломон Д. Сжатие данных, изображений и звука. М.: Техносфера, 2004. - 339 с.

63. Тимохин В, И. Применение ЭВМ для решения задач распознавания образов: Учеб, пособие, Л.; ЛГУ, 1983 - 215 с.

64. Титаренко А., Ватолин Д. Удаление шума и царапин в старых видеозаписях // Материалы XIII Международной конференции студентов, аспирантов и молодых учёных "Ломоносов", секция "Вычислительная математика и кибернетика", Москва, 2006, -с.52-53

65. Ту Д. Т., Гонсалес Р. К. Принципы распознавания образов: Пер. с англ--М.:Мир 1978,-411 с.

66. Уоссермен Ф. Нейрокомпьютерная техника. Теория и практика. -М: Мир, 1992. -240 с.

67. Фомин Я. И., Савин А, В. Оптимизация распознающих систем. М.: Машиностроение, 1993. 288 с.

68. Форсайт Д.А., Понс Дж. Компьютерное зрение. Современный подход. М.: Издательский дом "Вильяме", 2004. - 928 с.

69. Фу К.С. Структурные методы в распознавании образов: Пер. с англ. -М.: Мир, 1977. -320 с.

70. Шикин Е.В., Боресков А.В. Компьютерная графика. -М.: "Мир" 1995. 220 с.

71. Щепин Е. В., Непомнящий Г. М. К топологическому подходу в анализе изображений. Геометрия, топология и приложения // Межвуз. сб. научн. труд. -М.: Мин. высшего и среди, спец, образ. РСФСР, Московский институт приборостроения, 1990.-е, 13-25.

72. Ян Д.Е., Анисимович К.В., Шамис A.JI. Новая технология распознавания символов. Теория, практическая реализация, перспективы. // М.: Препринт, 1995

73. Abryliuk D., Starovoitov V. Application of Recirculation Neural Network and Principal Component Analysis for Face Recognition // The 2nd International Conference on Neural Networks and Artificial Intelligence, -Minsk, 2001. pp. 136-142,

74. Adams W. H., Iyengar G., Lin C. Y., Naphade M., Neti C., Nock H., Smith J. Semantic indexing of multimedia content using visual, audio, and text cues. II EURASIP J. Appl. Signal Process. 2003, vol. 2, pp. 170-185.

75. Belongie S., Malik J., Puzicha J. Shape matching and object recognition using shape contexts. И IEEE Trans, on Pattern Analysis and Machine Intelligence 2002 vol. 24, no. 4, pp. 509-522.

76. Blake A., IsardM. Active Contours.// Springer-Verlag. 1998

77. Cai M., Song J., Lyu M. R., A new approach for video text detection // Int. Conf. on Image Processing, 2002.

78. Chang S. F., Chen W., Meng H. J., Sundaram H., Zhong D. VideoQ: An Automated Content Based Video Search System Using Visual Cues II ACM Multimedia Conf. Seattle, WA, Nov, 1997.

79. Chen J., Paris S., Durand F. Real-time edge-aware image processing with the bilateral grid И ACM Transactions on Graphics (TOG), ACMSIGGRAPH 2007 vol. 26 no 3

80. Comparison of Demising Filters CS MSU GRAPHICS&MEDIA LAB MOSCOW, 05 APR 2003

81. DeMenthon D., Doermann D, Video retrieval using spatio-tempoal descriptors II ACM Multimedia, 2003.

82. Dementhon D., Megret R. Spatio-temporal segmentation of video by hierarchical mean shift analysis. IIUniversity of Maryland Technical Report LAMP-TR-090, CAR-TR-m, CS-TR-43&&, UMIACS-TR-2002-6S. 2002

83. Dimitrova N., Agnihotri L., Wei G. Video classification based on HMM using text and faces II ACM Multimedia, 2000.

84. Faloutsos C. Searching Multimedia Databases By Content И Kluwer Academic Publishers, Boston, USA, 1996.

85. Fan j„ Luo H., Elmagarmid A. K. Concept-Oriented indexing of video databases: towards more effective retrieval and browsing II IEEE Trans, on Image Processing, 2004 vol. 13, no. 6, pp. 256-263

86. Geveres Т., Smeulders A. W. M. PieToSeek: Combining color and shape invariant features for image retrieval II IEEE Trans. Image Processing, 2000. vol. 9, pp. 102-119

87. Hall J., Greenhill D., Jones G. Segmenting in sequences using active surfaces.// In International Conference on Image Processing 1997. pp. 751-754.

88. Hanjalic A., Lagendijk R., Biemond J. Automated high-level movie segmentation for advanced video-retrieval systems. II IEEE Trans. Circuits Syst. Video Technol. 1999 vol. 9, no. 4, pp. 580-588.104. http://neuron2.net/knrc/knrc.html

89. Hughes A., Wilkens Т., Wildemuth В., Marchionini G. Text or pictures? An eyetracking study of how people view digital video surrogates IICIVR 2003, pp. 271-280.

90. Jain А. К., Yu B. Automatic text location in images and video frames II Pattern Recognition, 1998 vol. 31, no. 12, pp. 2055-2076

91. Kass M., Witkin A., Terzopoulos D. Snakes:Active contour models. II International Journal of Computer Vision 1987 vol. 1, no 4, pp.321-331.

92. Korn A. F. Toward a Symbolic Representation of Intensity Changes in Images II IEEE Transactions on pattern analysis and machine intelligence. 1988. vol. 10, no. 5. pp. 914-919.

93. Lam L., Suen C. Y. An Evaluation of Parallel Thinning Algorithms for Character Recognition II IEEE Transactions on Pattern Analysis and Machine Intelligence. 1995.vol. 17, no. 9. pp.724-737

94. Lam L. M., Lee S. W., Suen C. Y. Thinning Methodologies'. A Comprehensive Survey II IEEE Transactions on Pattern Analysis and Machine Intelligence. 1992. vol. 14. pp. 869-885.

95. Li В., Goh K., Chang E. Confidence-based dynamic ensamble for image annotation and semantic discovery II ACM Multimedia, 2003.

96. Li Н., Doermann D., Automatic Identification of Text in Digital Video Key Frames 11 Proceedings of IEEE International Conference of Pattern Recognition, 1998 pp. 129-132.

97. Luo H., Eleftheriadis A. Spatial temporal active contour interpolation for semi-automatic video object generation. И International Conference on Image Processing (ICIP) 1999 pp. 944-948.

98. Mang H. J., Smith M. A. Kanade Т., Video skiming for quick browsing based on audio and image characterization II Carnegie Mellon Univ., Pittsburgh, PA, Tech. Rep. CMU-CS-95-186, July, 1995.

99. Manjunath B. S., Ma W. Y. Texture Features for Browsing and Retrieval of Large Image Data II IEEE Trans. On Pattern Anal, and Mach. Intell. 1996 vol.18, no. 8, pp.837-842.

100. Mao J., Jain A. Texture classification and segmentation using multiresolution simultaneous autoregressive models И Pattern Recognition 1992 vol. 25 no. 2. pp. 173-188

101. Nack F., Putz W. Saying what it means: Semi-Automated (news) media annotation. II Multimedia Tools Appl. 2004. vol. 22, no. 3, pp. 263-302.

102. Nigam K., McCallum A., Thrun S., Mitchell T. Text classification from labeled and unlabeled documents using EMU Machine Learning, 2000 vol.39, no.2, pp. 195-203

103. Oria V, Ozsu M. Т., Iglinski P., Lin S., Ya B. DISIMA-.A distributed and interoperable image database system ПАСМ SIGMOD International Conference of Management of Data, Dallas, Texas, USA, May 2000 p.600.

104. Pfeiffer S., Lienhart R., Fischer S., Effelsberg W. Abstracting digital movies automatically II Journal of Visual Communication and Image Representation, 1996 vol. 7, no. 4 , pp.345-353

105. Plamondon R., Srinari S, On-Line and Off-Line Handwriting Recognition: A Comprehensive Survey II IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000. vol. 22, no. 1. pp. 914-919.

106. Plamondon R., Suen C. Y., Bourdeau M., Barriere C. Methodologies for Evaluating Thinning Algorithms for Character Recognition II Pattern Recognition and Artificial Intelligence, special issue thinning algorithms. 1993. vol. 7, no. 5. pp. 1247-1270.

107. Qi Y., Liu Т., Hauptmann A. Supervised classification of video shot segmentation IIICME, 2003.

108. Richard Alan Peters II A New Algorithm for Image Noise Reduction using Mathematical Morphology II IEEE Transactions on Image Processing, 1995, vol. 4, no. 3, pp. 554-568

109. Rui Y., Hyang T. S. Mehrota S. Content-based image retrieval with relevance feedback in MARS И IEEE Int. Conf. Image Processing, Santa Barbara, CA, 1997, pp. 815-818.

110. Sato Т., Kanade Т., Hughes E., Smith M., Satoh S. Video OCR: Indexing digital news libraries by recognition of superimposed caption. И Multimedia Syst. 1999 vol. 7, no.5, pp.385-395.

111. Sato Т., Kanade Т., Hughes E. K., Smith M. A. Video OCR for digital news archives II IEEE Int. Workshop on Content-Based Access of Image and Video Database, 1998.

112. Schneiderman H., Kanade T. Object detection using the statistics of parts. II Int. J. Comput. Vision 2004 vol. 56, no.3, pp. 151-177.

113. Schutten R. J. , deHaan G., A. H. M. van Roermund Noise filtering for television receivers with reduced memory II Proc. of the Int. Workshop on HDTV and the Evolution of Television, Taipei, Taiwan, Nov. 1995, pp. 6A15-6A22

114. Sciascio E., Mongiello Di. DrawSearch: A tool for interactive content-based image retrieval over the net И Proc. SPIE, 1999. vol. 3656, pp. 561-572,

115. Smith J. R., Chang S. F. Visualseek: A fully automated content based image query system. II Proc. ACM Multimedia, Boston, MA, Nov, 1996.

116. Smith S. JM Bourgoin M. CX, Sims K., Voorhees H. L. Handwritten character classification using nearest neighbor in large databases HIEEE

117. Transactions on Pattern Analysis and Machine Intelligence. 1994. vol. 22, no. 9. pp. 915-919.

118. Snoek C., Worring M. Multimedia event-based video indexing using time intervals. II IEEE Trans.Multimedia 2005 vol. 7, no. 4, pp.638-647.

119. Snoek C., Worring M. Multimodal video indexing: A review of the state-of-the-art. И Multimedia Tools Appl. 2005 vol. 25, no. 1, pp.5-35.

120. Starovoitov V. V, Samal D. I., Briliuk D. V. Image enhancement for face recognition 11 International conference on iconics. Russia, StPetersburg, 2003.

121. Starovoitov V. V, Samal D. L., Briliuk D. V, Free approaches for face recognition IIThe 6-th International conference on pattern recognition and image analysis. Russia, Velikiy Novgorod, 2002. pp.707-711.

122. Toshio S., Kanade Т., Hughes E. K., Smith M. A., Satoh S. Video OCR: Indexing Digital News Libraries by Recognition of Superimposed Captions. // Yanagi-cho, Multimedia Systems, 1999 vol 7, no 5, pp.385-395

123. Wakahara T. Shape machine using LAT and its application to hand-written character recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1994. vol. 16, no, 6. pp.618-629.

124. Wang W. Q., Gao W., Li J. Т., Lin S. X., News content highlight via fast caption text detection on compressed Video II Int. Conf. on Intelligent Data Engineering and Automated Learning, HongKong, December, 2000.

125. Wu V. , Manmatha R., Riseman E., Finding text in images II 20th Int. ACM Conf. Research and Development in Information Retrieval, 1997 pp. 3-12.

126. Wu V., Manmatha R. Document image clean-up and binarization II In Proc. SPIE Symposium on Electronic Imaging, 1998.

127. Wu V., Manmatha R., Riseman E. M. Textfmder. an automatic system to detect and recognize text in images II IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999 vol. 21, no. 11, pp. 1224-1229

128. Wu V., Manmatha R., Riseman E. M., Finding Text In Images 11 in Proc. of the 2nd Intl. Conf on Digital Libraries. Philadaphia. PA. 1997 pp. 1-10.

129. Wu Y., Tian Q., Huang T. S. Discriminant-EMalgorithm with application to image retrieval II Proc. CVPR, 2000. pp. 222-227

130. Xie L., Xu P., Chang S. F., Divakaran A., Sun H. Structure analysis of soccer video with domain knowledge and hidden Markov models II Pattern Recogn. Lett. 2004 vol. 25, no. 7, pp.767-775.

131. Yang J., Gao J., Zhang Y., Chen X., Waibel A. An automatic sign recognition and translation system II Proceedings of Perceptual User Interface Workshop 2001.

132. Zhang H. J., Wu J., Zhong D., Smoliar S. An integrated system for content-based video retrieval and browsing. II Pattern Recognition. 1997 vol. 30, no. 4, pp. 643-658.

133. Zhong J., Ни J., Bagga A. Combined-Media Video Tracking for Summarization // Proceedings of the ninth ACM international conference on Multimedia 2001 pp 502-505.

134. Zhong Y., Karu K., Jain A. K. Locating text in complex color images II Pattern Recognition. 1995 Vol. 28, pp.1523-1535.

135. Zlokolica V, Pizurica A., Philips W. Recursive temporal demising and motion estimation of video II International Conference on Image Processing, Singapore October 2004

136. Zlokolica V., Pizurica A., Philips W. Video demising using multiple class averaging with Multiresolution II International Workshop VLBV03, Madrid, Spain September 2003

137. ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Государственное образовательное учреждение высшего профессионального образования

138. Декан факультета, профессор, к.т.н.

139. Зав кафедрой ИВТ, профессор, д.т.н.

140. Доцент кафедры ИВТ, к.т.н.