автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Применение методов фильтрации к задачам выделения информации из изображений

кандидата технических наук
Абрамов, Евгений Сергеевич
город
Санкт-Петербург
год
2005
специальность ВАК РФ
05.13.01
Автореферат по информатике, вычислительной технике и управлению на тему «Применение методов фильтрации к задачам выделения информации из изображений»

Автореферат диссертации по теме "Применение методов фильтрации к задачам выделения информации из изображений"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

Абрамов Евгений Сергеевич

ПРИМЕНЕНИЕ МЕТОДОВ ФИЛЬТРАЦИИ К ЗАДАЧАМ ВЫДЕЛЕНИЯ ИНФОРМАЦИИ ИЗ ИЗОБРАЖЕНИЙ

.13.01 - системный анализ, управление и обработка информации (по прикладной математике -процессам управления)

Автореферат диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 2005

Работа выполнена на факультете прикладной математики-процессов управления Санкт-Петербургского Государственного Университета.

Научный руководитель: доктор физико-математических наук, профессор Андрианов Сергей Николаевич. Оффициальные оппоненты:

доктор физ.-мат. наук, проф. Братчиков Игорь Леонидович

кандидат гехн. наук Епифанов Николай Анатольевич (ЗАО "Моторола ЗАО").

Ведущая организация: Российский Государственшлй Педагогический Университет им. А.И.Герцена

заседании Диссертационного Совета Д-212.232.50 но защите диссертаций на соискание ученой степени доктора наук при Санкт-Петербур! ском государственном университете по адресу: 199004, Санкт-Петербург, Университетская наб., 7/9, Менделеевский центр.

С диссертацией можно ознакомиться в Научной библиотеке им. A.M. Горького СПбГУ.

Автореферат разослан « 2.1 » ПИТiSp*. 2005 г.

Ученый секретарь

диссертационного совета

доктор физико -математических наук,

профессор Курбатова Г.И.

(СПбГУ),

Затцита состоится « » OKtaSjflA 2005 г. в часов на

Щб^Ч

зюто

Общая характеристика работы Актуальность темы

В настоящее время в мире активно ведутся исследования в области теории и практики распознавания образов. Целью этих исследований является построение автоматических систем преобразования информации из одной формы представления в другую. Примерами таких систем могут быть программы распознавания речи, текстов, автоматизированные комплексы диагностики заболеваний людей, идентификации личности человека, опознавания целей и др. Системы распознавания образов призваны приблизить возможности машин к возможностям человека при решении задач преобразования и анализа информации, которые на токущий момент плохо поддаются формализации.

Одними из важнейших и сложнейших задач теории распознавания образов являются задачи распознавания изображений, в частности задача распознавания текстов. Решение этой задачи поможет ускорить получение электронных копий бумажных документов, книг, журналов; сделает возможным автоматический поиск текстовой информации, хранящейся в графическом формате.

Одной из основных проблем, возникающих при решении задач распознавания изображений, является проблема фильтрации различного рода помех и артефактов с целыо подготовки изображения к распознаванию. Эта проблема встает не только при решении задачи автоматического распознавания образов, но и при распознавании изображений человеком. Например, при анализе томографических

изображений специалисту-медику приходится сталкиваться со снимками, содержащими большое число помех, которые могут привести к постановке неверного диагноза.

В настоящее время существует достаточно большое количество различных программ распознавания текстов (например, FineReader. Readiris, ScanSoft OmniPage, Cognitive Technologies CuneiForm и др.). Каждая из этих программ предлагает свою реализацию решения задачи обработки и распознавания изображений. В основном эти программы являются коммерческими, поэтому методы решения задач, заложенные в них известны только их разработчикам, и практически невозможно определить для каких задач они подходят и какие задачи им не под силу. Кроме того, все эти программы поставляются в виде исполняемых модулей, что делает невозможным анализ работоспособности программ, качества их работы и модификацию используемых ими математических моделей и алгоритмов.

С другой стороны, при написании больших и сложных программных продуктов, все большую популярность приобретает так называемая идеология открытых кодов. В рамках этой идеологии, разработчики программы, решающей некоторую задачу, публикуют исходный код своей программы вместе с подробным описанием методов решения задачи и алгоритмов ее решения и заявляют о возможности свободной модификации как методов решения, так и алгоритмов. Ярким примером успеха такого подхода является широко известное семейство операционных систем Linux. Очевидным преимуществом открытости исходного кода программы является то, что после того как код опубликован, он постоянно совершенствуется заинтересо-

ванными в повышении качоства его работы людьми. Поэтому программный продукт с открытым кодом го временем становится все более качественным.

Таким образом, на сегодняшний доги, актуальным является создание прог раммного обеспечения для распознавания текстов с открытым кодом, что позволит вносить изменения и улучшения в методы и алгоритмы решения задачи, а также изменять математические модели, используемые этими методами и алгоритмами.

Также актуальной задачей в настоящее время является разработка методов удаления помех и артефактов из томографических изображений.

Цель работы

Целями данной работы являются:

1. Формализация задач распознавания печатного текста и улучшения качества томографических изображений.

2. Выбор метода решения поставленных задач на основе системного анализа существующих на сегодняшний день технологий и методов обработки изображений.

3. Разработка методов фильтрации, позволяющих избавиться от искажений, наиболее характерных для изображений печатного текста и томографических изображений.

4. Создание и тестирование программных продуктов, реализующих алгоритмы, построенные на основе рассмотренных в данной работе методов.

Научная новизна

На основе проведенного системного анализа методов выделения признаков в задаче распознавания изображений предложены методы, подходящие для решения задач распознавания текстов.

Разработан метод предварительной обработки (фильтрации) изображения в задаче распознавания текстов, повышающий качество распознавания символов.

Впервые разработана и реализована в виде программного продукта система распознавания текста с открытым кодом.

Предложен новый метод улучшения качества томографических изображений.

Практическая ценность

Предложенный в данной работе метод фильтрации искажений, характерных для изображений, полученных со сканера может использоваться в системах распознавания изображений.

Метод улучшения качества томографического изображения может применяться в практике диагностических центров, в том числе в телемедицине и в медицинских экспертных системах.

Данная работа проводилась при финансовой поддержке фирм Digital Design (СПб) и Intel (Нижний Новгород).

Апробация работы

Результаты данной работы докладывались на "XXXIII-XXXVI научных конференциях студентов и аспирантов факультета ПМ-ПУ" в

2002-2005гг.. а гакже на семинарах кафедры КМ и МС факультета ПМ-ПУ СПбГУ и семинарах группы разработчиков проекта "Система распознавания текста с открытым кодом" фирмы Digital Design. Часть работы, связанная с улучшением качества томографического изображения, была апробирована в рамках проекта "Летняя школа Intel 2005" под руководством сотрудника компании ЗАО "Интел А/О" А.Петрова в г. Нижний Новгород.

Публикации

Основные результаты диссертационной работы опубликованы в открытой печати в виде 4 статей.

Структура и объем работы

Работ состоит из введения, пяти глав, заключения, списка цитируемой лигерахуры и приложений. Работа изложена на 117 страницах, содержит 12 рисунков.

Содержание работы

Введение содержит общий обзор круга вопросов, затрагиваемых в данной работе. В этом разделе говорится о теории распознавания образов. Рассматриваются задачи, связанные с распознаванием образов. Обсуждается актуальность решения этих задач.

Глава 1 носит вводный характер. В ней формулируются задачи распознавания печатного текста и улучшения качества томографических изображений, решаемые в данной работе. Также в этой гла-

во описываются современные математические методы, используемые при решении задач распознавания образов.

Проблема распознавания образов. В этом параграфе описываются базовые парадигмы теории распознавания образов, а также проблемы, возникающие при решении задач распознавания образов, такие как сложность формализации самой задачи, недостаточность современного математического аппарата для ее решения.

Основные определения. Приводятся определения понятий и терминов, используемых в работе, таких как "информация", "образ", "сигнал", "распознавание" и т. п.

Постановка задачи распознавания текстов. Формулируются задачи распознавания печатного текста и обеспечения помехоустойчивости признаков, по которым осуществляется распознавание. Предлагается разбиение задачи распознавания текста на этапы (подзадачи), такие как, выделение строк текста, выделение отдельных символов, распознавания символов.

Современные методы решения задачи распознавания образов. Параграф посвящен описанию современных математических методов, используемых при решении задач распознавания образов. Проводится анализ наиболее распространенных методов выделения признаков изображений. Рассматриваются способы классификации признаков и обосновывается выбор методов выделения признаков и их классификации, используемых в данной работе.

Постановка задачи улучшения качества томографических изображений. В парат рафе формулируется задача улучшения качества томографического изображения. При томографическом ска-

нировании объекта мы можем пoJ[yчить только набор интегральных характеристик этого объекта вдоль некоторого конечного набора направлений (лучей). Процесс сканирования приводит к потере информации. поэтому восстановление структуры реального объекта возможно выполнить лить приближенно. При этом в восстановленном изображении будут присутствовать шумы и артефакты вызванные процедурами сканирования и восстановления. Учитывая свойства преобразования изображения в процессе сканирования, необходимо минимизировать влияние возможных артефактов на восстановление исходного изображения.

Глава 2 содержит описание математических методов и алгоритмов, используемых при построении систем распознавания. Обсуждаются преимущества используемого в данной работе подхода к задаче распознавания. Глава состоит из трех параграфов.

Линейные преобразования в анализе сигналов. В параграфе приводится анализ некоторых хорошо известных математических методов обработки сигналов (преобразования Фурье, Габора, оконное преобразование Фурье) использующихся в практике анализа сигналов. Описываются достоинства и не1 достатки этих методов.

Основные положения теории вейвлет-анализа. Параграф посвящен описанию метода вейвлет-анализа сигналов.

Дискретное вейвлет-преобразование сигнала определяется соотношением:

+оо -оо

Это выражение является основой вейвлет-анализа сигналов. На нем

Рис. 1: Схема многомасштабного анализа.

базируются методы фильтрации сигналов, кодирования сигналов, мно?омасштабпо?о анализа.

В процессе проведения многомасштабного анализа, исследуемая 1

функция подвергается разложению на составляющие < различным 1

разрешением (Рис. 1).

I

В главе 3 данной работы предлагается метод фильтрации изображений основанный на многомасштабном анализе.

Вейвлет-анализ в обработке изображений. В параграфе обсуждаются возможные способы применения вейвлет-анализа к обработке изображений, такие как вейвлет-фильграция изображений

I

и вейвлет-аппроксимация изображений.

Глава 3 является основной. В ней рассматриваются математи- *

ческие модели, используемые при решении поставленных задач. Эта глава состоит из пяти параграфов.

Этапы решения задачи распознавания текста. Параграф посвящен рассмотрению некоторых возможных подходов к решению каждой подзадачи распознавания текста с описанием достоинств и недостатков этих подходов. Особое внимание уделяется этапу распознавания символов, а именно построению метода выделения признаков изображений символов.

В качестве признаков изображений используются последователь-нос ги т,к, построенные по описанному ниже алгоритму.

Пусть на изображении Л, имеется объект О. Рассмотрим N радиус-векторов г и, с началом в центре изображения С и концом на границе изображения, отстоящих друг от друга на угловое смещение 2и/N. Вдоль каждого вектора существуют точки изображения, принадлежащие объекту О и точки не принадлежащие этому объекту. Эти точки формируют отрезки ВиЛ < I < Л^, которые представляют собой "куски" объекта О, вдоль вектора ?>. Для каждого из этих отрезков мы можем определить его длину Ьы и его расстояние от центра изображения <1^. Величину, определяемую выражением

будем называть моментом изображения вдоль вектора Проведя нормировку

можно обеспечить инвариантность момента изображения к масштабированию. Это позволяет обеспечить распознавание объектов на изображениях независимо от их масштаба.

к

Поиск вейвлет-базиса для представления изображений символов. В параграфе рассматриваются вопросы поиска вейвлет-базиса, наилучшим образом подходящего для аппроксимации изображений символов. На практике вейвлет-преобразование осуществляется при помощи пары фильтров: низкочастотного и высокочастотного. Таким образом, если ввести ограничения на фильтры, обеспечивающие выполнение некоторых заданных условий на результат преобразования исследуемого сигнала, то можно получить вейвлет-базис, выделяющий из сигнала требуемые составляющие.

В данной работе вейвлет-базис выбирался из условия, что аппроксимации зашумлепного изображения и изображения без искажений были максимально близки друг к другу по введенной в работе метрике.

Классификация искажений изображений символов. Параграф посвящен описанию наиболее часто встречающихся искажений изображений символов, которые следует учитывать при решении задачи распознавания. Описываются методы борьбы с типами искажений, наиболее характерными для изображений символов, полученных при сканировании.

Разложение преобразования Радона изображения по базису. Это параграф посвящен описанию метода решения второй поставленной задачи. Метод основан на разложении преобразования Радона изображения по базису, состоящему из преобразований Радона структурных элементов, которые требуется выделить на восстановленном изображении. В общем виде искомое разложение нро-

екций исходного изображения имеет вид:

I

3=1

Здесь Ь3 представляет собой набор из I базисных векторов, выбор которых определяет качество восстановления изображения. Для определения значений коэффициентов с3 используется метод наименьших квадратов.

Глава 4 посвящена алгоритмизации и компьютерной реализации методов, изложенных в главах 2 и 3.

Выбор средств разработки программного обеспечения. Параграф включает в себя перечисление и анализ средств разработки программного обеспечения, использованных при компьютерной реализации методов, описанных в предыдущих главах с разъяснением причин выбора среды разработки и языка программирования.

Общий алгоритм решения задачи распознавания текста. В данном параграфе приводятся общие алгоритмы каждого этапа решения задачи распознавания текста. Рассматриваются также возможные способы взаимодействий между подпрограммами, реализующими этапы решения задачи распознавания, описанные в главе 3.

Алгоритм распознавания символов. В параграфе подробно описан алгоритм, реализующий этапы обработки изображения символа (с учетом результатов главы 2), получения признаков изображения и сравнения этих признаков с эталонными значениями.

Алгоритм разложения преобразования Радона по базису. Параграф содержит описание реализации метода разложения преобразования Радона изображения но базису.

Оценка возможности масштабирования рассмотренных алгоритмов. В параграфе обсуждается возможность реализации предложенных алгоритмов с использованием высокопроизводительных вычислительных систем.

Глава 5 посвящена тестированию созданного программного обеспечения. Она содержит описание вычислительных экспериментов, проведенных в ходе тестирования разработанных в данной работе программных продуктов. В главе даются оценки качества распознавания текста рассмотренными в главах 2 и 3 методами, а также результаты вычислительных экспериментов по улучшению качества томографических изображений.

Оценка эффективности предложенных методов распознавания текстов. Параграф посвящен оценке эффективности (по быстродействию) предложенных методов распознавания текста. Приводятся результаты сравнения быстродействия с известными (коммерческими) системами распознавания текстов.

Тестирование системы распознавания текста. В параграфе дается оценка качества распознавания на примере реальных текстов и по сравнению с известными системами распознавания текстов.

Тестирование метода улучшения качества восстановления изображения. Оценивается качество восстановления исходного изображения после преобразования Радона с учетом применения описанного в данной работе метода фильтрации.

В Заключении перечислены основные результаты работы и указаны способы дальнейшего совершенствования предложенных методов решения задач распознавания текста и улучшения качества вос-

становления томографических изображений.

В Приложении приведены результаты вычистительных экспериментов (в том числе схемы, графики, рисунки) проведенных в ходе тестирования реализованных в данной работе алгоритмов, а также представлен Акт о внедрении созданного программного обеспечения.

Результаты, выносимые на защиту

1. Разработан метод предварительной обработки изображений символов перед распознаванием, использующий аппарат вейвлет-анализа.

2. Разработаны и реализованы в виде программных продуктов алгоритмы выделения признаков и принятия решений в задаче распознавания текстов.

3. Разработан и реализован в виде программного продукта метод улучшения качества томографических изображений.

Щ1 77 8 2

Публикации по теме диссертации

1. Абрамов Е.С. Применение стандарта DICOM для хранения медицинских изображений. Сборник XXXIII конференции ПМ-ПУ. 2002.

2. Абрамова A.C. Абрамов Е.С. Технологии проектирования распределенных вычислительных систем с дистанционным доступом. Сборник XXXIV конференции ПМ-ПУ. 2003.

3. Абрамов Е.С. Применение вейвлет-преобразований к распознаванию текстов. Сборник XXXV конференции ПМ-ПУ. 2004.

4. Абрамов Е.С. О выборе вейвлет-базиса для кодирования изображений. Сборник трудов XXXVI конференции ПМ-ПУ. 2005.

Подписано в печать 19.09.2005. Формат бумаги 60x84 1/16. Бумага офсетная. Печать ризографическаная. Усл. печ л. 1,0. Тираж 100 экз Заказ 3673. Отпечатано в отделе оперативной полиграфии НИИХ СПбГУ. 198504, Санкт-Петербург, Старый Петергоф, Университетский пр.26

РНБ Русский фонд