Исследование и разработка методов идентификации объектов на изображениях на основе пирамидально-рекурсивных структур

Анисимов, Валерий Анатольевич

Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Исследование и разработка методов идентификации объектов на изображениях на основе пирамидально-рекурсивных структур

кандидата технических наук: Анисимов, Валерий Анатольевич
город: Санкт-Петербург
год: 1993
специальность ВАК РФ: 05.13.16

Автореферат по информатике, вычислительной технике и управлению на тему «Исследование и разработка методов идентификации объектов на изображениях на основе пирамидально-рекурсивных структур»

Автореферат диссертации по теме "Исследование и разработка методов идентификации объектов на изображениях на основе пирамидально-рекурсивных структур"

РГ6 од

114 «п РОССИЙСКАЯ АКАДЕМИЯ НАУК

_ К далИКТ-ПЕТЕРБУРГСКИИ ИНСТИТУТ ИНФОРМАТИКИ Л П111 и^и и АВТОМАТИЗАЦИИ

На правах рукописи

АНИСИМОВ Валерий Анатольевич

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ НА ОСНОВЕ ПИРАМИДАЛЬНО-РЕКУРСИВНЫХ СТРУКТУР

СПЕЦИАЛЬНОСТЬ 05.13.16 -ПРИМЕНЕНИЕ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ,

МАТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ И МАТЕМАТИЧЕСКИХ МЕТОДОВ В НАУЧНЫХ ИССЛЕДОВАНИЯХ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

САНКТ-ПЕТЕРБУРГ — 1993

Работа выполнена в Санкт-Петербургском институте информатихи и автоматизации РАН

Научный руководитель -доктор технических наук Н.Д.ГОРСКИЙ.

Официальные оппоненты: доктор технических йаук, профессор О.В.ТИМОФЕЕВ кандидат технических наук Д.А.ДЕНИСОВ

Ведущая организация - Государственный Оптический

ии^т'тлтчг'т* '-»ч £ М Паои нлоа

Защита состоится " 1993 г°Да

в часов на заседании специализированного совета Д.003.62.01 при Санкт-Петербургском институте информатики и автоматизации РАН по адресу: 199178, Санкт-Петербург, 14-я линия В.О., д.39.

С диссертацией можно ознакомиться в библиотеке специализированного совета Д.003.62.01.

Автореферат разослан ^(Л'й^И&У^93г

Ученый секретарь специализированного совета г кандидат технических наук / 'V ¿Х В. Е. МАРЛЕЙ

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

В настоящее время существенно повысился интерес к решению разнообразных задач автоматизации научных исследований и технологических процессов. Многие из этих задач связаны с обнаружением заданных объектов или классов объектов на изображениях. В качестве примеров можно привести задачи анализа аэрофотоснимков, управления автономным роботом-манипулятором, снабженным средствами технического зрения, автоматизации медико-биологических исследований и т.д.

Одним из способов решения указанных задач является метод сравнения с эталоном. Он достаточно часто позволяет достичь желаемого результата в тех случаях, когда другие методы по различным причинам (невозможность явного выделения характерных признаков, сильная зашумленность или слабая структурированность изображения и т.д.) работают неудовлетворительно. Однако, методы сравнения с эталоном имеют и общий недостаток связанный с весьма низкой скоростью работы. Так как при решении многих задач распознавания выдвигаются достаточно жесткие ограничения на время принятия решения, этот недостаток становится весьма существенным.

Эффективным способом ускорения работы методов сравнения с эталоном является применение пирамидально-рекурсивных структур видеоданных, предложенное в ряде работ (Р.Янг, Е.Холл, С.Танимото, В.В.Александров и "Н.Д.Горский). Однако, рассматриваемая задача обладает рядом особенностей; требующих доработки существующего к настоящему времени теоретического аппарата. Во-первых, при прямой реализации . пирамидально-рекурсивного подхода проявляется мешающее влияние фона, попадающего вместе с объектом в прямоугольное окно эталона: Во-вторых, допущение о произвольной ориентации объекта приводит к необходимости хранения не одного его прототипа, а достаточно большого их числа, отличающихся лишь своей ориентацией.

В случае решения задачи идентификации на изображении не одного, а многих классов объектов, дополнительно встает вопрос о необходимости предварительного отсева неперспективных эталонов, так как в противном случае время принятия ресения становится слишком большим. Данная проблема может быть решена с помощью привлечения дополнительных источников информации, в частности, атрибутивного и контекстного характера. Однако, существующие в настоящее время подходы к совместному учету нескольких источников информации не всегда позволяют добиться желаемого результата в такой специфической области, как обработка и анализ изображений.

Педь работы. Целью диссертационной работы является разработка методов и алгоритмов идентификации на изобрахениях объектов, задаваемых эталонной и контекстной информацией на основе использования пирамидально-рекурсивных струкур данных.

Для достижения этой цели в работе решаются следующие основные задачи:

1} разработка метода быстрого поиска на изображении объекта произвольной формы и ориентации;

2) разработка методики совместного использования различных методов при идентификации на изображении мнохества объектов;

3) разработка способа оценки надежности работы созданных' алгоритмов идентификации объектов;

4) создание математического и программного обеспечения систем локализации и идентификации объектов на полутоновых и бинарных изобрахениях.

Научная новизна. В процессе реиения поставленных задач полученц следужщиэ новые научные результаты, которые выносятся автором на защиту:

1) метод быстрого поиска на полутоновых изобрахениях двумерного объекта сложной формы I! произвольной ориентации;

2) кзходиха хькллехсного использовании эталонной, жситехетвог и атрибутивной информации при идентификации на

изображении нескольких объектов, задаваемых множеством эталонов:

3) способ хранения информации о форме объектов при применении пирамидально-рекурсивных структур видеоданных:

4) способ расчета вероятности необнаружения заданного объекта при использовании пирамидально-рекурсивных структур для поиска объектов на полутоновых изображениях.

полученных результатов заключается в следующем:

1) разработана подсистема поиска объектов на изображении, являющаяся составной частью системы автоматизированной обработки изображений "РЕКС" и позволяющая идентифицировать заданные в базе видеоданных объекты-прототипы на исследуемом изображении;

2) разработана система распознавания текстов "1ЯТЕХТ", позволяющая распознавать текст на машинописных и типографских документах, введенных в компьютер посредством сканера или другого устройства ввода изображений;

3) разработана подсистема принятия решения о распознаваемом объекте на основании информации, поступающей от нескольких независимых источников;

4) разработана подсистема обучения программы распознавания текстов при работе с новыми ирифтами.

Реализация и внедрение. Результаты диссертационной работы получены в процессе выполняемой в ЛИИАН темы "Создание и ввод в эксплуатацию специализированной автоматизированной системы обработки изображений на основе пирамидально-рекурсивных структур данных" (НТП 0.80.03., задание 07.05.) и конкурсного научно-технического проекта в рамках государственной научно-технической программы "Перспективные информационные технологии" - "Разработка интеллектуальных систем анализа и синтеза визуальной информации на основе пирамидально-рекурсивных структур." Программа распознавания объектов была использована при создании в ЛИИАН аппаратно-программной системы автоматизированной обработки изображений РЕКС. Программа

распознавания текстов ШТЕХТ используется в следующих организациях Санкт-Петербурга: объединении Лентрансгаз, акционерном обществе "Ниеншанц", центральном телеграфе Санкт-Петербурга, обществе с ограниченной ответственностью "Руссикон", Государственном Оптическом Институте им. С.И.Вавилова. Результаты диссертационной работы внедрены в институте информатики и автоматизации РАН.

Апробация работы. Основные результаты диссертационной работы докладывались на:

XVIII Дальневосточной математической школе-семинаре, Находка, 1988 г.

IV Всесоюзной конференции "Методы математического распознавания образов", Рига, 1989 г.

- III Всесоюзной конференции "Автоматизированные системы обработки изображений", Ленинград, 1989 г.

- II Республиканском семинаре по проблемам создания систем обработки, анализа и распознавания изображений, Ташкент, 1990 г.

публикации. по теме диссертации опубликовано 7 научных работ.

Объели и структура работы. Диссертационная работа состоит из введения, 4 глав и заключения (120 страниц машинописною текста), приложения (10 страниц), списка литературы (55 наименований на 7 страницах).

СОДЕРЖАНИЕ РАБОТЫ

Во вдедении содержится обоснование актуальности темы диссертации, сформулированы основные научные результаты, выносимые автором на защиту, а также практичзокая ценность полученных результатов.

В первой главе дается обзор современных подходов к идентификации объектов на изображениях и Формулируются основные цели и задачи работы.

Большинство из современных подходов к идентификации объектов на изображениях можно разделить на три основные группы: метод сравнения с эталоном и его многочисленные модификации, методы основанные на вычислении предикатов и

большая группа синтаксических и структурных методов распознавания.

Дается формальное описание и примеры применения различных методов распознавания. Проводится сравнительный анализ рассматриваемых методов, отмечаются их .сильные и слабые стороны. Анализируются наиболее эффективные с практической точки зрения области применения каждого из описываемых методов.

На основе краткого анализа последних достижений в области физиологии обосновывается переспективность дальнейшего раЗЕИтня пирамидально-рекурсивного подхода к обработке и анализу изображений и делается вывод о целесообразности интеграции различных методов идентификации объектов на изображениях. В заключительной части первой главы ставятся основные цели и задачи работы.

Вторая глава посвящена разработке метода идентификации на изображении объектов произвольной формы и ориентации.

В начале главы дается описание пирамидально-рекурсивного подхода к представлению и обработке изображений. В рамках этого подхода исследуемое изображение представляется в виде пирамиды, состоящей из нескольких "слоев", каждый из которых соответствует определенному уровню детализации

рассматриваемого изображения. В основании пирамиды находится оригинальное изображение, а изображения на каждом из последующих слоев получаются путем усреднения значений яркости по соседним пикселам предыдущего слоя. Таким образом, для построения пирамидальной структуры может быть использовано следующее рекурсивное соотношение:

ки+1)-1 к( ¿ + 1 )-1 к-2 £ 21.

Р-К1 <з=ко

где:

Э*^ - значение яркости элемента изображения с координатами о на Ъ-м уровне пирамиды;

Зь+1рд - то же для элемента с координатами р, я на уровне с номером 1+1.

к - коэффициент, задающий основание разбиения рекурсивного дерева.

При применении описанной выше структуры удается существенно повысить эффективность обработки и анализа изобраяений за счет учета высокой коррелироьанности значений яркости у соседних пикселов. Кроме того, благодаря рекурсивности и однородности пирамидальной структуры ее построение весьма эффективно реализуется как на традиционных ЭВМ, так и на многопроцессорных системах.

Наиболее естественный путь использования пирамидально-рекурсивных структур видеоданных заключается в последовательном просмотре уровней пирамиды сверху вниз с последующим выделением "интересных" областей изображения с целью их более детального изучения на более низких уровнях. Именно такой подход и был предложен рядом исследователей для идентификации на изображении заданных фрагментов прямоугольной формы. Искомый фрагмент вначале грубо локализуется на верхних уровнях пирамиды изображений, а затем на нижних уровнях принимается окончательное решение об идентификации и уточняются его координаты. Проведенные исследования подтвердили высокую эффективность данного метода. .

Однако, описанная методика не позволяет идентифицировать на изображении двумерные объекты заданного размера, так как они, вообще говоря, могут иметь произвольную форму и ориентацию. Для преодоления указанных ограничений в диссертационной работе предлагается способ обобщения пирамидально-рекурривного подхода на случай поиска произвольно-ориентированного объекта. Суть предложенного метода заключается в построении дополнительной пирамидальной структуры, позволяющей хранить информацию о форме объекта, и в добавлении в поисковое пространство угловой координаты.

Введем понятие веса элемента яркости эталона на 1-м уровне двумерной пирамиды, определяющееся рвкурентно через веса элементов (1+1)-го уровня:

к"2 21.

к(1+1)-1 к(о + 1)-1

Р=кх

где t= т,т-1,...,1; 1,0= 0,1.....кь-1;

Вес элементов нижнего уровня равен 1 или 0, в зависимости от их принадлежности эталону или фону соответственно.

Дополнительная пирамидальная структура позволяет для каждого элэмента пирамиды хранить значение весового коэффициента, представляющее собой долю площади объекта по отношению к общей площади участка изображения, соответствующего данному элементу. В процессе распознавания объекта вклад слагаемых в корреляционную сумму принимается пропорциональным весовым коэффициентам соответствующих элементов эталона. Это позволяет по мере спуска на нижние уровни пирамиды все более точно учитывать форму объекта. Кроме того, сохранение пирамидально-рекурсивной структуры данных приводит к минимальному усложнению в программной реализации. Введение в пространство поиска дополнительной угловой координаты для достижения инвариантности алгоритма идентификации по отношению к повороту объекта позволяет сохранить традиционный метод иерархической локализации объектов с учетом увеличения размерности поискового пространства.

В заключительном разделе второй главы описывается модель полутонового изображения, основанная на его представлении в виде полумарковского случайного поля с заданным коэффициентом автокорреляции г. На основе этой модели показано, что оценка ожидаемого значения коэффициента корреляции искомого объекта на изображении и его эталона на всех уровнях пирамиды может быть вычислена по формуле:

[?*2= к2(1-2к-Ч1-зчгиС°оо>>2>кН

где:

й - соответствующее значение коэффициента корреляции в случае поиска прямоугольного фрагмента изображения;

0°00 " вес элемента яркости верхнего уровня пирамиды.

Множитель kR, в свою очередь, вычисляется в соответствии с выражением:

kt-l kt-l sqrt(li2+lT2-21iliCos(?T/2t))

И 21 6t1;Jrt

i=0 j=0

kR= -

kt-l kt-l

Г r

i=0

где:

li= i-(kt+l)/2, lj=j-(kt+l)/2;

rt - коэффициент корреляции между соседними элементами

ni»r>auif «ti "»та ir«t»a tía * •

tjtij - вес соответствующего уровня пирамиды эталона.

Приводятся формулы, позволяющие осуществлять селекцию перспективных положений эталона для всех уровней пирамиды исходя из заданной вероятности не пропустить искомый объект на области поиска. Описывается формальная схема работы алгоритма.

Третья_слава посвящена разработке алгоритмов

распознавания объектов, заданных множеством эталонов на примере решения задачи распознавания печатного текста.

В условиях, когда на изображении присутствует множество объектов, которые требуется распознать, существенного увеличения эффективности работы алгоритмов можно добиться путем совместного использования эталонных (в частности, пирамидально-рекурсивных) методов идентификации с атрибутивными и контекстными методами анализа исходных данных. Это обстоятельство связано со спецификой работы эталонных методов, фактически не использующих возможностей усечения дерева перебора. Кроме того, непосредственное применение методов сравнения с эталоном оказывается малоэффективным при наличии двух или более классов, представленных визуально похожими прототипами объектов.

Предположим, что мы получаем информацию об интересующем нас объекте от К источников атрибутивной информации. При этом от каждого источника на вход распознающей системы

поступает информация о значении некоторого признака Х^, вычисленного на изображении исследуемого объекта. Пусть, кроме того, имеется еще один источник информации, связанный с использованием априорной (контекстной) информации о вероятностях отнесения исследуемого объекта к каждому из классов - Р*и.

Наиболее обоснованный со статистической точки зрения способ интеграции нескольких атрибутивных методов идентификации объектов дает байесовская теория решений. Эталонные методы распознавания также можно формально рассматривать как частный случай атрибутивных методов, задаваемых на специфическом М-мерном пространстве "визуальной близости" исследуемого и эталонных объектов. Таким образом, измерив координаты объекта в обобщгнном (К+М) - мерном пространстве", и учитывая априорные вероятности Р*п, мы можем в соответствии с байесовским подходом оценить апостериорную вероятность принадлежности объекта к одному из фиксированных классов, либо принять решение об отказе от классификации если апостериорная вероятность ни для одного из классов не превысит заданного порогового значения.

Однако, на пути практического использования байесовского подхода применительно к задаче идентификации объектов на изображениях, возникают определенные проблемы. Основная из них заключается в том, что вычисление значений всех признакоб, обеспечивающих надежное разделение признакого пространства на классы, может потребовать слишком больших временных затрат, что оказывается неприемлемым в частности для задачи распознавания текста в реальном времени. Кроме того, при увеличении размерности признакого пространства неизбежно встает так называемая проблема "проклятия размерности", т.е. ухудшения реального качества работы классификатора, связанного с недостаточным объемом обучающей выборки.

Для более полного использования преимуществ как эталонных, так и атрибутивно-контекстных споЪобов идентификации, целесеобразно вычислять значения ряда

признаков распознаваемого объекта до использования эталонных методов. В этом случае можно достичь существенного уменьшения числа тестируемых эталонов за счет исключения неперспективных классов объектов. После этого появляется возможность различения классов", представленных похожими эталонами за счет использования других признаков. Так как некоторые из используемых признаков могут быть эффективными лишь для определенных классов объектов, последовательность перебора признаков целесеобразо не фиксировать заранее, а определять непосредственно в ходе процесса распознавания. Для этого К+М-мерное признаковое пространство представляется в виде ооъединенин К нейавиСИиЫл подпространств, соответствующих группам признаков (в частности, любая группа может состоять из одного признака).

Основная идея метода состоит * в целенаправленном использовании групп признаков в порядке, обеспечивающем наиболее быстрое принятие решения. При этом, на каждом шаге процедуры текущие вероятности принадлежности объекта ко всем классам последовательно уточняются в соответствии с формулой Байеса. Классы, которые имеют текущую вероятность реализации меньше некоторого порогового значения Рцщ. в дальнейшем не рассматриваются. Благодаря этому, многие из возможных классов объектов исключаются еще до применения групп признаков, соответствующих эталонным распознавателям, что существенно сокращает время работы последних.

Введем понятие ситуации Б как вектора индикаторов рассматриваемых классов объектов, компоненты которого могут принимать значения 0 рли 1. Определим эффективность п-ой группы признаков Еп(3) в ситуации Б как величину, пропорциональную скорости ожидаемого уменьшения количества рассматриваемых классов объектов (числа единичных компонент вектора 5) после применения данной группы признаков в заданной ситуации.

Функционирование предложенного алгоритма классификации можно кратко описать следующим образом. В исходной ситуации

5(1,1,...,1) выбирается группа признаков, имеющая наибольшую эффективность ЕП(Э) по правилу:

Еп(иах ( Е Б) ) 1=1...N

Проводится вычисление на исследуемом объекте значений признаков из выбраннй группы и, в соответствии с заданными априорными вероятностями реализации классов Р*п, вычисляются текущие апостериорные вероятности отнесения объекта ко всем рассматриваемым классам Р**и. Из дальнейшего рассмотрения исключаются все классы, имеющие вероятность реализации меньше, чем заданное значение Рцп- Соответствующим образом преобразуется вектор ситуации Б и опять вычисляется группа признаков, имеющая наибольшую эффективность. Далее указанный порядок действий повторяется, причем вместо априорных вероятностей реализации классов в формулу Байеса подставляются соответствующие апостериорные вероятности, полученные на предыдущем шаге процедуры.

Процедура повторяется до тех пор, пока сумма компонент вектора ситуации Б не станет равной единице, либо не будут исчерпаны все возможные группы признаков. Окончательная классификация осуществляется по наиболее вероятному классу, причем вероятность правильной идентификации вычисляется в соответствии с выражением Р**Шах( 1-РИт)1 > гДе ~ число исключенных из рассмотрения классов объектов.

Для наиболее эффективного применения предложенного подхода к задаче идентификации символов разработана формальная модель процесса эталонного распознавания, дающая необходимые исходные данные для совместного использования эталонной и атрибутивно-контекстной информации в описанной выше процедуре. Пусть эй I двумерные сигналы распознаваемого символа и эталона соответственно. Сигнал распознаваемого символа э можно условно представить в виде суммы идеального эталонного сигнала 1 и некой случайной добавки б". Данная добавка возникает из-за отличия изображения любого реального символа от' его эталонного изображения. Величина в свою очередь, раделяется на два независимых слагаемых - слагаемого, связанного с дефектами и

особенностями печатающего устройства s~<jev и слагаемого, связанного с искажениями, возникающими при передаче изображения в компьютер (.собственные шумы сканера, дискретность полученного изображения и т.д.) s~rnc| . В работе показано, что при типичных разрешениях сканера применяемых для распознавания текстов (150 т/дюйм и выше) пороговое значение отсечки неперспективных эталонов для всех уровней пирамиды должно быть приблизительно одинаковым.

Оценивается зависимость вероятностей ложной

идентификации символа и отказа от распознавания как функции от выбранного порога отсечки. Даются рекомендации по выбору значения указанного ппрпгя r зависимости от специфики конкретного текста.

Описываются результаты экспериментальных исследований, позволяющие получить исходные данные для наполнения разработанной модели эталонного распознавания символов. Показано, что функция распределения ожидаемого значения невязки распознаваемого и соответствующего ему эталонного символов носит нормальный характер и обеспечивает надежное распознавание приблизительно 80 процентов символов русского алфавита. Обосновывается целесообразность применения интегрального признакого пространства, состоящего из 54 эталонных и 5 геометрических признаков. На основе анализа матрицы корреляций используемых признаков выполнено разделение признакого пространства на подпространства независимых групп признаков. С целью использования контекстно-лингвистической информации построена матрица парной встречаемости символов в текстах на русском языке.

Описывается порядок работы алгоритма распознавания символов, основанного на совместном использовании образной, атрибутивной и лингвистической информации. При этом пирамидально-рекурсивный и атрибутивные алгоритмы основаны на изучении визуальной похожести символов, а лингвистический

на оценке вероятностей их взаимной сочетаемости. Приводятся схема функционирования соответствующего алгоритма

и список управляющих параметров с диапазоном возможных значений.

реализации разработанных алгоритмов распознавания.

Программа распознавания двумерных объектов произвольной ориентации реализована на языке Microsoft С и может работать на персональных компьютерах фирмы IBM (IBM PC/XT, IBH PC/AT и т.д.) или совместимыми с ними под управлением операционной системы DOS версий 3.30 и выше. Функционально программа делится на следующие основные блоки: интерфейс пользователя, блок управления процессом поиска, блок принятия решения, вычислительный блок, блок отображения процесса поиска и его результатов. Каждый блок, в свою очередь, состоит из нескольких функций языка С. Структура данных, реализозаиная ь программе, позволяет хранить и обрабатывать информацию о перспективных положениях эталона (включая ориентацию) и его форме на различных уровнях пирамиды изображения - области поиска.

Программа идентификации двумерных объектов произвольной формы была использована при создании аппаратно-программного комплекса обработки изображений РЕКС. Время поиска объекта размером 32x32 пиксела на изображении размером 256x256 пикселов составляло (на машине класса IBM PC/AT с тактовой частотой 12Мгц) от 10-ти секунд до 2-х минут. Экспериментально определенная вероятность правильного распознавания оказалась несколько ниже расчетной и составляла для большинства случаев величину порядка ЭО - 95 процентов. Как общее время поиска, так и его распределение по уровням пирамиды оказалось существенным образом зависящим от степени симметричности эталона :i специфических особенностей области поиска.

Программа распознавания текстов IHTEXT реализована на языке программирования Borland С и функционирует при выполнении тех же аппаратно-программных требований, что и предыдущая. Она может работать в двух основных режимах распознавания и обучения.

посвящена вопросам программной

При работе в режиме распознавания программа последовательно сканирует строки текстового документа и используя эталонные символы алфавита, а так же атрибутивную и контекстную информацию преобразует исходный Файл, содержащий изображение распознаваемого текста, в соответствующий текстовый файл.

При работе в режиме обучения при появлении нераспознанного символа пользователь имеет возможность указать соответствующий ему ASCII код. При этом видеоданные по соответствующему символу корректируются, а результаты корректировки тут же отображаются на экране, так что пользователь имеет возможность контролировать указанный процесс. Кроме того, для текстов хорошего качества предусмотрен особый режим обучения программы новым шрифтам, не требующий на первом этапе вмешательства пользователя. При этом программа автоматически запоминает все незнакомых ей символы. В дальнейшем пользователю остается лишь указать соответствующие коды новых символов.

Программа распознавания символов использовалась в различных организациях Санкт-Петербурга (Ленинграда) для автоматизац-ч ввода машинописных и типографских документов в ПК типа IBM PC. При этом время распознавания одной машинописной страницы на компьютере IBM PC/AT (12 Мгц) составляло 3-4 минуты. Типичный коэффициент распознаваемости составлял величину порядка 95-98 процентов в зависимости от качества исходного текста. Как показали проведенные исследования, на последнем уровне пирамиды в большинстве случаев рассматриваются лишь два-три эталона в наибольшей степени похожие на распознаваемый символ. Использование пирамидальной структуры данных и учет атрибутивной и лингвистической информации позволило добиться ускорения по сравнению с прямыми методами сравнения с эталоном в три-четыре раза.

В приложении приведены фрагменты программ на языке С, реализующие наиболее существенные блоки разработанных алгоритмов распознавания.

ЗАКЛЮЧЕНИЕ

В работе получены следующие основные результаты:

1) На основе пирамидально-рекурсивного подхода предложен способ быстрого поиска двумерных объектов произвольной Формы и ориентации на полутоновых изображениях.

2) Предложена методика расчета надежности работы разработанного способа идентификации объектов.

3) Предложена методика интеграции эталонных и атрибутивных алгоритмов распознавания на осноЕе последовательного учета наиболее информативных для данного объекта источников информации.

4) Разработан алгоритм распознавания печатных символов, основанный на интеграции атрибутивного, пирамидально-рекурсивного и лингвистического источников информации.

5) Разработана программа поиска на полутоновом изображении заданных объектов произвольной формы и ориентации.

6) Разработано программное обеспечение, позволяющее распознавать тексты на русском языке, отличающееся возможностью работы с документами посредственного качества.

7) Разработан интерфейс подсистемы обучения новым шрифтам, позволяющий осуществлять обучение новым шрифтам в полуавтоматическом режиме.

работах:

1. Анпсимов В.А. Горский Н.Д. Поиск произвольно ориентированного объекта на изображении на основе пирамидально-рекурсивных структур данных // Информационные проблемы автоматизации. Л.: ЛИИАН, 1988, стр. 84-94.

2. Анксимов В.А. Некоторые принципы переработки зрительной информации во внутреннюю модель мира. // 4-я Всесоюзная конференция "Математические методы распознавания образов", Рига, 1989, стр. 6-8.

3. Анисимов В.А., Горский Н.Д. Алгоритм поиска на изображении фрагмента произвольной формы и ориентации // Автоматизированные системы обработки изображений АСОИЗ-89, -Л., 1989, стр. 53.

4. Анисимов Б.А., Горский Н.Д. Зрительное восприятие и его моделирование в интеллектуальных системах // Представление знаний и экспертные системы. Л.: ЛИИАН, 1989, стр 130-142.

5. Александров В.В., Анисимов В.А., Горский Н.Д., Мысько С.Н., Сухаричев В.П.,.Харинов М.В., Искандеров П.М. Отчет о научно-исследовательской работе "Создание специализированной автоматизированной системы хранения и обработки изображений на основе пирамидально-рекурсивных структур" (научно-исследовательская програма 0.80.03, задание 07.05.). Л.: ЛИИАН, 1989, 24 стр.

6. Александров В.В., Анисимов В.А., Горский Н.Д., Харинов М.В. Итоговый отчет о работе по научно-техническому проекту "Разработка интеллектуальных систем анализа и синтеза визуальной информации на основе рекурсивных структур" (ГНТП "Перспективные информационные технологии", проект N539, шифр "Эволюция"). Спб.,: СПИИРАН, 1992, 53 стр.

7. Anisimov V.A., Gorsky N.D. Fast hierarchical Batching of arbitrary oriented tenplate // Pattern Recognition Letters, 1992, v.10, N 6.

Подписано к печати

Тираж 100, формат бумаги 60x84, 1/18, 1.25 печ.л. Бесплатно. Санкт-Петербург. Типография в/ч 3«*. 322-

Похожие работы

Информатика, вычислительная техника и управление
05.13.00