автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Адаптивное распознавание и его применение к системе ввода печатного текста

доктора технических наук
Славин, Олег Анатольевич
город
Москва
год
2011
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Адаптивное распознавание и его применение к системе ввода печатного текста»

Автореферат диссертации по теме "Адаптивное распознавание и его применение к системе ввода печатного текста"

На правах рукописи

4845992

Славин Олег Анатольевич

АДАПТИВНОЕ РАСПОЗНАВАНИЕ И ЕГО ПРИМЕНЕНИЕ К СИСТЕМЕ ВВОДА ПЕЧАТНОГО ТЕКСТА

Специальность 05 13 01 - Системный анализ, управление и обработка информации

в отраслях (информационно-вычислительное обеспечение)

АВТОРЕФЕРАТ

на соискание ученой степени доктора технических наук

1 2 МАЙ 2011

Москва - 2011

4845992

Работа выполнена в Учреждении Российской академии наук Институт системного анализа РАН в лаборатории 9-4 "Дискретные методы в управлении".

Научный консультант: чл. корр. РАН, д.т.н., проф.

Арлазаров Владимир Львович

Официальные оппоненты: академик РАН, д.т.н., проф.

Соколов Игорь Анатольевич

доктор технических наук, профессор Гливенко Елена Валерьевна

доктор технических наук, профессор Петровский Алексей Борисович

Ведущая организация: ГОУ ВПО Московский Государственный

Защита состоится 23 июня 2011 г. в 11 часов на заседании Диссертационного совета Д 002 086 02 при Учреждении Российской академии наук Институте Системного Анализа РАН по адресу Москва, проспект 60-лет октября, д. 9.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Института системного анализа РАН (Москва, проспект 60-лет октября, д. 9).

Отзывы на автореферат, заверенные печатью, просим направлять по адресу. 117312, Москва, проспект 60-лет октября, д. 9

Технологический Университет «Станкин»

Автореферат разослан 29 апреля 2011 г

Ученый секретарь диссертационного совета, д.т.н , профессор

А.И. Пропой

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы: Рост научно-технического прогресса и его успехи в компьютерной отрасли привели к качественным изменениям в обработке документов, содержащих текстовую информацию. Современные возможности сканирования документов и реализации трудоемких алгоритмов распознавания делают возможным автоматизировать ввод документов в компьютер. Программы распознавания текстовых документов являются сложными программными средствами, реализующими большое число наукоемких алгоритмов. Настоящая диссертация посвящена проблемам распознавания текстов в рамках создания и функционирования персональных и профессиональных программных систем ввода документов в компьютер.

Можно выделить три типа задач распознавания образов. Первый тип -с заранее известным описанием классов, заданных строго и однозначно. Второй тип - с заранее известным числом и описанием классов с нестрогими описаниями. Третий тип - с заранее неизвестными классами, к которым требуется отнести объекты.

Задачи первого типа успешно решаются с использованием компьютера, задачи второго типа - менее успешно, задачи третьего типа практически не решаются, так как число классов для компьютерного распознавания сильно ограничено.

В диссертационной работе рассматриваются в основном задачи второго типа, как наиболее распространенные в реальности. Однако даже они далеки от окончательного решения. Так, в случае обработки изображений плохого качества, в случае различных искажений символов, возникающих, например, на краях отсканированных страниц, в случае не вполне стандартного начертания некоторых символов программы распознавания могут давать большее число ошибок, чем при обработке однородных текстов. В то же время человек, как правило, уверенно распознает текст даже плохого качества, напечатанный малознакомым шрифтом. Успешное распознавание текста человеком нередко происходит за счет адаптации к конкретной странице. При этом сомнительные символы сравниваются с четко напечатанными символами, в построенном шрифте проверяется

наличие тех или иных символов, производится сопоставление с известными словами.

Таким образом, разработка новых высокоточных алгоритмов распознавания текстов, равно как и улучшение уже существующих алгоритмов представляется актуальной задачей.

Предметом диссертации является разработка алгоритма адаптивного распознавания текстовых документов, цель которого состоит в перестройке механизма принятия решений, поддерживаемого системой распознавания образов, направленная на обеспечение максимального соответствия особенностям графических образов в образе документа.

Целями диссертации являются:

1) создание модели адаптивного распознавания, учитывающей искажения образов символов отсканированных документов и основанной на нескольких механизмах: геометрическом распознавании символов, статистических методах кластеризации, сегментации границ символов, словарных механизмах;

2) разработка алгоритмов адаптивного распознавания, направленных на учет особенностей отсканированного документа в различных механизмах распознавания и обеспечивающих оптимизацию нескольких характеристик качества таких как точность распознавания, монотонность оценок и быстродействие;

3) доказательство работоспособности разработанных алгоритмов адаптивного распознавания с помощью формальных исследований и имитационного моделирования;

4) реализация алгоритмов адаптивного распознавания в составе модульной системы распознавания отсканированных документов.

Методология исследования. В работе для проведения исследований были использованы математические методы обработки изображений и распознавания образов, математический аппарат искусственных нейронных сетей, методы теории алгоритмов, машинной графики, а также концепции и методы имитационного моделирования.

Научная новизна работы состоит в следующем: - создан метод адаптивного распознавания, позволяющий перестраивать функционирование алгоритмов распознавания отдельных символов.

алгоритмов сегментации границ символов, алгоритмов словарной коррекции;

- реализован алгоритм быстрой кластеризации на основе метода ближайшего соседа и метода цепной развертки, позволяющий разбить множество распознанных образов на группы, соответствующие одноименным символам с одинаковыми атрибутами;

- предложен и реализован метод построения эталонов, основанный на анализе кластеров, поиске шрифтов, имеющихся в распознаваемом тексте, позволяющий повысить точность распознавания символов и монотонность оценок;

- разработан и реализован алгоритм сегментации границ символов, основанный на использовании эталонов, сформированных на основе результатов кластеризации, позволяющий существенно повысить как точность сегментации, так и точность распознавания;

- проведено теоретическое обоснование влияния расстояний при параллельном переносе при наложении двух изображений и доказана теорема о малом сдвиге при поиске оптимального наложения;

- разработаны приложения адаптивного распознавания в сжатии бинарных изображений.

Практическая ценность и реализация результатов работы. Основным практическим результатом работы является разработка алгоритма адаптивного распознавания и его использование в системах ввода документов в компьютер.

Диссертация состоит из шести глав, введения, заключения и списка литературы. Работа изложена на 275 страницах машинописного текста, содержит 53 иллюстрации, 120 таблиц и два приложения объемом 16 страниц. Список литературы включает 174 наименования.

Результаты диссертационной работы были использованы при реализации алгоритма адаптивного распознавания, являющегося составной частью программы оптического распознавания текстов (далее - OCR) Cognitive Cuneiform, начиная с 1996 года.

По теме диссертации опубликовано более 20 работ, 16 из них опубликованы в рецензируемых научных изданиях, рекомендуемых ВАК; зарегистрированы патент на изобретение и патент на полезную модель.

Основные результаты диссертации опубликованы в работах, список которых приведен в конце автореферата.

Апробация результатов диссертации. Результаты диссертации докладывались и обсуждались на семинарах Института системного анализа РАН под руководством чл.-корр. РАН В.Л. Арлазарова и д.т.н. Н.Е. Емельянова. По материалам диссертации был сделан ряд докладов на международных конференциях «Системный анализ и информационные технологии» в 2005,2007 и 2009 г.

Личный вклад автора. Основные научные результаты диссертационной работы принадлежат лично автору. Ряд экспериментальных данных получен разработчиками системы распознавания Сипе1йпп, в которой автор являлся инициатором разработок, формулировал теоретические и экспериментальные задачи, намечал пути их решения, разрабатывал методики исследований и участвовал в разработке программного обеспечения.

Положения, выносимые на защиту:

- метод адаптивного распознавания текстового документа, состоящий из пяти этапов, необходимых для самообучения на результатах распознавания текстовых строк, позволяет производить распознавание с высокой точностью и высокой монотонностью оценок распознавания;

- способ формирования обучающей последовательности, основанный на комбинировании монотонных оценок распознавания и подтверждения словарем, позволяет достичь надежности подтверждения символа 0,9999;

- функции сравнения бинарных образов, основанные на метрике Хэмминга и на симметрике, использующей единичную окрестность, позволяют кластеризовать множество бинарных образов символов с приемлемым качеством;

- задача поиска параллельного переноса эталонного изображения, при котором его совпадение с тестируемым изображением максимально, обладает оптимальным решением; для достижения оптимального наложения двух фигур достаточно малых сдвигов в том случае, когда мера несовпадения при малых сдвигах незначительна;

- моделирование процессов оцифровки, проведенное на большом объеме имитационных и реальных образов, позволяет показать адекватность

модели оцифровки и выбрать параметры модели для кластеризации и построения обобщенных портретов;

- разработанная модель образа кластера в форме разбиения на слои, равноудаленные от общей области, позволяет стабильным способом формировать обобщенные портреты символов;

- метод построения эталонов, базирующийся на анализе кластеров и поиске шрифтов, которыми был напечатан отсканированный документ, позволяет при повторном распознавании образов и сегментации границ символов достичь высокой монотонности оценок распознавания и точности распознавания при незначительных временных затратах;

- приложение адаптивного распознавания для сжатия бинарных изображений обеспечивает как уменьшение объема изображения, так и различные режимы хранения и воспроизведения изображений.

СОДЕРЖАНИЕ РАБОТЫ

К настоящему времени разработан целый ряд различных методов распознавания образов, некоторые из них описаны в первой главе. В основном методы распознавания образов (нейронные сети, БУМ и- др) основаны на извлечении признаков и последующей классификации образов в некотором пространстве. Распознавание текста является частным случаем общей задачи распознавания образов. Любой печатный текст имеет первичное свойство - шрифты, которыми он напечатан. С этой точки зрения существуют два класса алгоритмов распознавания печатных символов: шрифтозависимый и шрифтонезависимый. Шрифтозависимые алгоритмы используют априорную информацию о шрифте, которым напечатаны буквы. Это означает, что программе оптического распознавания символов должна быть предъявлена полноценная выборка образов символов текста, напечатанного данным шрифтом при обучении. По окончании процесса обучения шрифтовая программа оптического распознавания готова к распознаванию конкретного шрифта. Второй класс алгоритмов шрифтонезависимые, т.е. алгоритмы, не имеющие априорных знаний о символах, поступающих к ним на вход. Эти алгоритмы измеряют и анализируют различные характеристики (признаки), присущие буквам как таковым безотносительно шрифта и абсолютного размера (кегля), которым

они напечатаны. Общий путь создания базы характеристик заключается в обучении программы на представительной последовательности образов символов.

Часто для обучения используют кластерный анализ (кластеризацию). Целью кластеризации является построение набора кластеров оптимального с точки зрения минимизации изменчивости элементов внутри кластеров и максимизации расстояний между кластерами.

В агломеративно-иерархических методах кластеризации первоначально все объекты рассматриваются как отдельные, самостоятельные кластеры, состоящие всего лишь из одного элемента.

Кроме объединяющих методов иерархической кластеризации существуют и противоположные методы - дивизимные, в которых на начальном этапе вся выборка рассматривается как единый кластер, а затем уже начинается процесс его деления на составляющие части. Процесс деления продолжается до тех пор, пока каждое наблюдение не превратится в отдельный кластер.

Выбор метрики и правил объединения при кластеризации символов зависит от характера объекта распознавания.

Событийный метод, опирающийся на топологическое представление образа символа, использует структуру объекта, не изменяющуюся при некоторых непрерывных деформациях образа. Разбивая все множество образов символов на классы эквивалентности по признакам, инвариантным к малым непрерывным деформациям, мы получим модель, приводящую к некоторому методу распознавания.

Образ символа описывается как последовательность, называемая линейным представлением

Ev = {L, В, Е, (flV), OUTi), ..., (INn, OUT»)), содержащая L линий, количество свободных начал и концов Я и Е, и N интервалов (¡Nj, OUT), называемых событиями и состоящих из начальной IN, и конечной OUT) координат, определенных в координатах грубой сетки.

Результатом распознавания является мультимножество кодов символов

где N, - количество символов g, в обучающей последовательности, обладающих линейным представлением S(r,) в массиве эталонов.

Событийный метод порождает коллекции распознавания без оценок.

Нередко перед распознаванием символа проводится нормализация образа по различным параметрам, например, углу наклона, толщине линий или форме образа. Часто производят нормализацию по размерам или масштабирование. В процессе обучения каждый образ, соответствующий какой-либо из букв С, будем сжимать до требуемого размера, например, до размеров 3x5, а сжатые образы Е,{С) одной буквы объединим в соответствии с методом ¿-средних. В массиве эталонов {Е\, Е2, ..., Ет) ищутся эталоны с максимальным скалярным произведением (X, Е,) до распознаваемого сжатого образа X:

\X-Ei\2=\X\2+\Ei\2-2iX, Е,)=2-(1-(Х, Е,)). Соответствующие ближайшим эталонам коды символов С и расстояния lVj=\X-Ei\ до этих эталонов образуют коллекцию {(Сi,Wi), ..., (Сь Ж*)} альтернатив распознавания.

Большим достоинством метода сравнения нормализованных образов является монотонность получаемых оценок: большее значение скалярного произведения статистически означает большую вероятность правильного выбора.

Нормализация образа по размеру предоставляет возможность построения нейронной сети типа многослойного перцептрона над признаками растра/их«. Расчет по нейронной трехслойной сети производится следующим образом:

у, = о(2 w,y(2) • uj + i,(2)), U, = 0(1^(1)-*,+5,(1)), где х, - элементы входного слоя (признаки сжатого образа 16x16); и, - элементы промежуточного слоя;

yt - элементы выходного слоя (результаты распознавания);

W/j(k) - матрица пересчета;

s,(k) - вектор смещения;

о(х) — функция активации нейрона.

Качество распознавания зависит не только от алгоритмов, используемых программами распознавания и обучения нейронной сети, но и от того, как обучалась нейронная сеть.

Рассмотренные в первой главе диссертации алгоритмы пригодны для распознавания отдельно стоящих бинарных образов символов с вполне удовлетворительными показателями распознавания как в случае известного, так и неизвестного заранее шрифта.

Реально достижимое качество распознавания шрифтонезависимых алгоритмов ниже, чем у шрифтозависимых алгоритмов. Это связано с тем, что уровень обобщения при измерениях характеристик символов гораздо более высокий, чем в случае шрифтовых алгоритмов.

У шрифтозависимого подхода имеется преимущество, благодаря которому его активно используют. А именно, имея детальную априорную информацию о символах, можно построить весьма точные и надежные алгоритмы распознавания. Вообще, при построении шрифтозависимого алгоритма распознавания надежность распознавания символа является интуитивно ясной и математически точно выразимой величиной. Эта величина определяется как расстояние в каком-либо метрическом пространстве от эталонного символа, предъявленного программе в процессе обучения, до символа, который программа пытается распознать.

Вторая глава посвящена исследованию существующих для распознавания печатного текста с неизвестными заранее границами алгоритмов, имеющих отношение к распознаванию шрифтозависимыми и шрифтонезависимыми методами.

Пусть дано множество объектов распознавания В={Ь}, множество кодов S={s} и множество оценок W'={w}. Образуем множество альтернатив M=S®IV. Альтернатива является парой (s, w), первый элемент которой - код, а второй - оценка.

Алгоритмом распознавания символов (далее - APC) А назовем функцию, ставящую в соответствие любому объекту из В упорядоченную последовательность альтернатив т, (может быть, пустую), которая удовлетворяет следующему условию:

если Л(6)=(ш0. m,, ..., mk)=((S0, IV0). (Sh W,), ..., (Sk, Wk)) и i<j, то .S>.S, и [! '>!)',.

Предполагаем, что последовательность образов В достаточно представительна, чтобы на ней можно было проверить все основные проблемы исследуемых алгоритмов. Последовательность может быть создана

искусственно или содержать реальные отсканированные объекты. В экспериментах будем использовать несколько различных последовательностей, объем которых составляет примерно 2 млн. символов.

На последовательности В определена функция «кодировки» элементов базы К{Ь), отображающая эту последовательность в пространство Af, причем так, что вектор К(Ь) всегда имеет лишь одну непустую альтернативу. Пространство Kf предполагается либо метрическим, либо псевдометрическим с некоторой функцией г(/ь /2), играющей роль расстояния между элементами множества.

Точностью распознавания алгоритма А на последовательности В по метрике г, называется величина

5>(К(6),Л(6)) = 0)

а = а(А,В,г) = -—-—

Распределением оценок алгоритма А назовем совокупность частот (v(0), v(l),..., v((('„,„)}, соответствующих каждой из возможных оценок, где = W) л (г, (ОД, А{Ь)) = 0))

|й| |В|

здесь N(W) - число образов, распознанных с оценками W, превышающими значение W, |5| - число образов в последовательности В.

Монотонность оценок - это свойство оценок альтернатив (в первую очередь, ведущих) характеризовать надежность распознавания символа.

Пусть {0=х0<*i<...<х„= IV„ах} - некоторое разбиение отрезка [0, lV„ax], Обозначим через N(WU И'2) общее число образов из последовательности В, получивших оценку распознавания первой альтернативы в полуинтервале (и'ь н>2], а через ntrr(И',, IV2) - число ошибок распознавания в том же самом полуинтервале.

Если существует разбиение шкалы оценок на т полуинтервалов и при всех (=0,..., т-2 выполняется условие

то алгоритм считается монотонным.

Пусть '¡'<ll'mul. Пороговой монотонностью называется величина, равная

^(ЩЬ)^)л{г{(К(Ь),А(Ь))* 0)) м =ш_= >

ъ*в

где Л^ДР^)- число неправильно распознанных образов с оценкой ¡V¡>IV,

N(W) - общее число образов, распознанных с оценкой W\ > W.

Для шкалы оценок с Wmax-255 будем пользоваться пороговыми монотонностями Mus и Л/240 Для оценки надежности распознающего алгоритма.

Ниже приведены дополнительные характеристики АРС, наиболее часто используемы в комбинировании АРС.

Алфавит обучения определяется перечнем классов (образов символов различных языков, цифр, специальных символов), на которые разбита обучающая последовательность.

Способность к отказам - возможность АРС порождать коллекции нулевого объема для незнакомого образа или образа, сильно отличающегося от образов, использованных в процессе обучения.

Скорость распознавания (быстродействие) - количество распознанных в единицу времени образов в процессе обработки тестовой последовательности.

Скорость обучения зависит от соотношения объема обучающей базы образов и времени, необходимого для достижения цели обучения.

На основании рассмотренных характеристик становится возможным комбинирование нескольких АРС с целью получения большей точности, большего быстродействия или большей монотонности оценок результирующего метода. Например, комбинирование описанными в диссертации способами быстрого структурного алгоритма (не порождающего оценки), алгоритма сравнения нормализованных образов (не обладающего высоким быстродействием) и штрафных функций (критериев несоответствия идеальным моделям образов) позволяет достичь в результирующем алгоритме % высоких значений характеристик быстродействия (8500 образов в секунду, все оценки быстродействия производились на компьютере с CPU 2000 МГц), точности (99,8%) и монотонности оценок (А/24о=0,01, М255=0).

Распознавание в OCR в общем случае не может опираться на знание приблизительных границ символов. Априори надежными могут считаться

только границы строки текста, а содержащиеся в ней элементы могут являться

- образами символов;

- частями символов;

- объединениями символов и их частей;

- образами, не имеющими отношения к символам текста.

Сегментация (поиск границ, локализация) символов печатного текста, вследствие возможности объединения нескольких компонент связности в условиях искажения образа страницы, предполагает несколько взаимосвязанных процедур:

- нахождение областей (зон) с необходимостью сегментации склеенных символов;

- построение набора разделяющих кривых, являющихся кандидатами сегментации компонент связности;

- перебор возможных вариантов с целью выбора оптимального пути в графе обхода кривых разрезания.

Пусть для зоны сегментации известен массив возможных координат, называемых точками сегментации х<>, х\, ...,х„ по горизонтальной оси (л0 и х„ - границы зоны). В общем случае точка Xj определяет отрезок, располагающийся между верхней и нижней границей.

Выбор пары точек сегментации (х„х^ определяет компоненту, то есть образ $(/, ]), извлекаемый из исходного образа и расположенный между этими точками сегментации, который не обязан быть связным множеством. Задача сегментации базируется на некотором алгоритме распознавания символов /?, который позволяет получить коллекцию альтернатив распознавания образов ¡(у)). Ведущая альтернатива коллекции и ее оценка р, определяют оценку пары (х„д:у) точек разрезания и обозначается Путем сегментации

длины к для образа 5(р, <у) называется набор точек

' = {*„ = = -Г^.О < Jl¡ < у, <... < Л < п

Алгоритмы сегментации, рассматриваемые в диссертационной работе, опираются на некоторую аддитивную функцию, которая каждому пути г ставит в соответствие неотрицательное число /41)- Для такой функции (меры) для любого пути 1, являющегося суммой двух других путей /=н+V, справедливо равенство ¿/(V).

В процессе определения оптимального пути используется принцип Беллмана, основанный на следующей гипотезе: если путь является оптимальным для своей компоненты «(р, ц), то любой подпуть (траектория) этого пути также является оптимальным для своей компоненты.

При оценке пути в случае, когда в точку х„ ведут п путей, используются оценки путей в предыдущие точки, и путь оценивается на основе вычисленных ранее оценок путей:

/<а„)=гпах(/О(0,х„), /<аь л,), ..., •*«>))•

При сегментации областей для сокращения объема вычислений предварительно производится поиск возможных границ из геометрических соображений, затем выбирается подмножество границ методом динамического программирования. Эвристические алгоритмы априорных оценок качества и ранжирования точек разрезания позволяют уже на первых итерациях получать искомые результаты и останавливать вычисления, избегая полного перебора.

Одним из критериев, используемых в алгоритмах сегментации, является механизм, манипулирующий символами, собранными в строки, для нахождения четырех базовых линий: 6, - верх заглавных букв, Ь2 - верх обычных, ¿з - низ обычных и ¿»4 - низ опущенных букв. Получены оценки вероятностей нахождения базовых линий. Например, вероятность надежного определения второй базовой линии в строке с N символами равняется " ЛП

лг=т+| п2\(Ы-п2)\

.^„и.ЧКЛ'-«,-«,)! 1,1 12 где п, - число символов, начинающихся на Ь„ Л (Р2) - вероятность того, что символ начинается с первой (второй) линии в строке из N символов.

Надежное определение второй базовой линии (с вероятностью ошибки, равной 0,999) возможно уже при наличии шести символов в строке. Частные случаи формирования строк, наличие коротких строк и дефекты сканирования уменьшают надежность определения базовых линий с помощью гистограмм границ символов. Для компенсации этого предлагается воспользоваться результатами работы алгоритмов распознавания символов, в особенности умеющих различать прописные и строчные буквы. Найденные

базовые линии могут использоваться в качестве дискриминирующего механизма в распознавании символов, а также отделения знаков препинания от малых компонент связности, являющихся случайным шумом.

В процессе сегментации возникают случаи, для распознавания которых регулярные алгоритмы оказываются неэффективны, что требует разработки специальных эвристических алгоритмов.

Некоторые из этих проблем могут быть разрешены только применением лингвистических или словарных механизмов, базирующихся на представительном корпусе слов (словоформ) или представительном наборе сочетаний символов в общеупотребительных текстах определенного языка. По исходному представлению слова a>0-Ct, ..., С„ словарный механизм

-(О -<<>

генерирует несколько последовательностей символов согс\ '•••>с„1 ,

близость к которым оценивается с помощью некоторой функции расстояния ¿1(oj0, (o¡). В зависимости от степени трансформации исходного слова (количество инверсий символов, количество замен одних групп символов на другие) возможны различные стратегии использования словаря:

- подтверждение - при выполнении условия d(oj0, <и,)=0;

- ограниченная замена, в которой происходит замена кода ведущей альтернативы ai0 на код других альтернатив распознавания;

- агрессивная замена - символы могут быть заменены иными символами, даже отсутствующими среди альтернатив.

Рассмотренные во второй главе алгоритмы позволяют для произвольного набора строк в отсканированном тексте:

- распознать отдельно стоящие образы символов;

- отделить образы, не являющие символьными, для игнорирования или последующей обработки;

- найти заранее неизвестные границы в образах, не являющихся отдельными символами;

- проверить наличие слова в словаре или найти ближайшее словарное слово.

Характеристики распознавания описанных алгоритмов являются высокими для текстов хорошего качества, однако эти характеристики ухудшаются при распознавании странице искажениями.

В третьей главе описаны основные понятия и алгоритмы адаптивного распознавания.

Под адаптивным распознаванием понимается гибкая перестройка механизма принятия решений в OCR, направленная на обеспечение их максимального соответствия фактическим изменениям объекта распознавания, т.е. на соответствие искажениям символов при сканировании и модификациям шрифтов, используемых при создании документа.

Метод адаптивного распознавания включает в себя следующие этапы:

- формирование обучающей последовательности;

- кластеризация распознанных символов;

- анализ кластеров и поиск шрифтов;

- построение эталонов;

- повторное распознавание ненадежно распознанных слов и символов.

Таблица I — Оценки монотонности алгоритмов распознавания печатных образов

Метод Оценка f!1 .V Р

Мао 0,483917% 0,002030% 0,004792%

Л/255 0,068213% 0,00% 0,003062%

Формирование обучающей последовательности производится на основании монотонности оценок надежности, порождаемых алгоритмами распознавания образов. Рассмотрим три шрифтонезависимых алгоритма: комбинированный алгоритм нейронную сеть Л' и метод полиномиальной регрессии р. Из данных таблицы I, полученных для различных тестовых последовательностей следует, что наибольшей монотонностью обладает алгоритм »V, который имеет наибольшую оценку точности распознавания (более 99%). Однако график распределения ошибок v/( IV) является монотонным только для метода р при оценках, превышающих 1У„ах/2, но при этом график распределения оценок р растет в диапазоне [\¥„шх!2, 1Утш] медленнее, чем график Л*.

Модификация алгоритма 9}состоящая в переоценке полученных альтернатив с помощью метода Л" или р, обеспечивает высокую надежность оценок распознавания, характеризуемая Мг40 и Л/255.

Таблица 2 - Вероятности ошибок распознавания

Si si Pii Si si Рп Si si Ра Si si Рп Si si Ра

д А 0,028 Й и 0,018 ы м 0,032 я п 0,008 Щ Ш 0,009

й А 0,016 н и 0,076 в н 0,006 ч Ц 0,010 ъ Ь 0,006

л А 0,008 п и 0,006 и н 0,047 м ч 0,013 3 Э 0,021

в Б 0,018 Д л 0,016 я н 0,008 Ц ч 0,014 й ю 0,034

ф Е 0,010 п л 0,052 и п 0,010 Щ ч 0,005 ыо Ью 0,02

э 3 0,014 я л 0,008 л п 0,011 й ш 0,009 кж Кю 0,015

Надежность оценок распознавания символов может быть повышена с помощью механизма словарного подтверждения. Для слова w, состоящего из последовательности символов а^...«», распознанных алгоритмом с известным распределением ошибок (s,, Sj, p,j=p(s„sj)), осуществляется проверка наличия слова в корпусе словарных слов некоторого языка. Было проведено численное моделирование оценки вероятности ошибки словарного подтверждения одного словарного слова другим словарным словом, при этом использовалось распределение ошибок алгоритмов распознавания, описанных в главах 2 и 3, которое приведено в таблице 2.

Р,t

0,004 -0.0035 -0,003 -0,0025 -0,002 -0,0015 -0,001 -0,0005 -

Рисунок 1 - Распределение вероятности ри ошибки подтверждения в слове длины к при игнорировании ошибок в окончаниях

Анализ результатов распознавания слов русского языка показал, что большинство ошибок словарного подтверждения происходит из-за трансформаций в окончаниях слов, таких как "ой", "ою" и им подобные.

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29

Такие ошибки устраняются как комбинированием с монотонными оценками алгоритма распознавания символов, так и с помощью позиционного анализа слов в предложении.

Надежность словарного подтверждения при обработке особых случаев в окончаниях слов проиллюстрирована на графике распределения ошибок, приведенном на рисунке 1.

Описанный способ словарного подтверждения при комбинировании с монотонными оценками алгоритма распознавания делает ошибку словарного подтверждения практически невозможным событием. Результаты подсчета ошибок словарного подтверждения слов из двух тестовых последовательностей ТБг, содержащих как словарные, так и несловарные словоформы, приведены в таблице 3.

Таблица 3 - Ошибки подтверждения слов

Частоты ошибки подтверждения

Тестовая Количество Количество слов длиной к

последовательность слов ошибок

А=4 к=5 к=6 к=1 *= 8 к= 9 к> 9

Г5, 13984 16 7 4 2 1 2 0 0

7'5'2 11036 3 1 0 1 1 0 0 0

Предложенный способ словарного подтверждения надежности распознанных символов обеспечивает с избытком потребности адаптивного распознавания в классах документов с хорошим и средним качеством печати, обеспечивая вероятность правильного подтверждения 0,9999.

На этапе кластеризации происходит объединение распознанных символов бинарных образов в группы С/, состоящие из одного или нескольких элементов ..., 5„. Целью кластеризации является разбиение обучающей последовательности на кластеры, соответствующие символам некоторого шрифта для последующего построения эталонов и повторного распознавания с использованием построенных эталонов. Для обеспечения кластеризации необходимо решить несколько проблем:

- построение функции для оценки близости отсканированных (искаженных) образов;

- стабильное определение образа кластера;

- определение идеальных образов кластера.

Описанная в диссертации кластеризация является агломеративной, использующей начальное разбиение на кластеры с учетом алфавита распознавания символов. Для кластеризации применялись следующие методы:

- метод ближайшего соседа;

- метод цепной развертки, базирующийся на цепном расстоянии с1с(Х, У)<, для которого справедливо неравенство

¿¿Хь Лг*)<тах{ ¿¿Х„ X]), ОД **)} Хк

При использовании цепной развертки нет необходимости определять и использовать расстояние между кластерами, достаточно измерять расстояния только между отдельными элементами.

Функция сравнения двух бинарных образов должна удовлетворять следующим условиям:

- фЫ)>0УЛ;

- рефлективность - Л(А^4)=0 УЛ;

- симметричность - с{(А,В)= с1(В, А) \/Л.В.

Таким условиям удовлетворяет метрика Хэмминга

/10(А,В)= ХХ^'УI, а также псевдометрика, которая вычисляется

.-1 у-1

следующим образом: для каждого образа 5 строится изображение его единичной окрестности Л< 1 '(5)„ то есть множества всех точек, находящихся на расстоянии 1. Расстояние между образами и В={Ь^} вычисляется

по формуле

¿=1 у=|

где А'*1\А) ={ а'я" ¡, Л*''(б) ={ Ь'." }- единичные окрестности образов А и В.

Функция сравнения должна учитывать особенности искажения символов при оцифровке, основными классами которых являются случайные искажения и искажения оцифровки. Пример искажений оцифровки приведен на рисунке 2, на котором ни один из оцифрованных образов не совпадает с прообразом.

щ

ив

Рисунок 2 - Примеры оцифровки образа при различном наложении на сетку сканера (серые полосы - прообразы, черные -оцифрованные образы)

Для учета эффектов оцифровки образы подвергаются центрированию, то есть помещению в центр некоторой выпуклой фигуры. При сравнении центрированных образов А и В будем производить несколько сдвигов образа Л=||а,у|| в разных направлениях, выбирая в качестве расстояния между центрированными образами А и В минимальную величину из полученных значений

d0(A, В) = тт(МА(НП, В)) или </,(Л, В) = тт{цх{А(т, В)), где Н, Уе Sp(z) ={-z, -z+1,... ,-1,0,1, ...,z-l,z}.

Эксперименты показывают, что для симметрию-! р, при сравнении бинарных образов всегда достаточно сдвигов на 1, а для метрики ^ менее, чем для 0,8% исследуемых образов требуется сдвиг на 2, тогда как для оставшейся доли образов - сдвиг на 1. В работе была решена задача поиска параллельного переноса эталонного изображения, при котором его совпадение с тестируемым изображением максимально. В диссертации доказано, что для достижения оптимального наложения двух фигур достаточно малых сдвигов в том случае, когда мера несовпадения при малых сдвигах незначительна. Была доказана следующая теорема о малых сдвигах при наложении двух фигур:

Теорема. Зафиксируем вектор v единичной длины. Пусть d{v)- минимальное число такое, что для вектора a—\a\v, при |a|>£/(v) выполнено неравенство S(a)>2!. Тогда при \a\>d(v) справедливо неравенство

J1 ¿{x-a)-g(x)dp>l.

Rn

В частности, для минимизации М(а) достаточно рассматривать лишь векторы а =\ а | v, для которых | а \< d(v).

I

mi г

си сч

-jr~

ш.

Выберем опорный элемент S0 кластера как образ с лучшей оценкой распознавания среди подтвержденных словарем образов. Произведем дополнительные сдвиги для всех элементов кластера. Для поиска оптимального положения по отношению к опорному элементу положение любого элемента Sx, отличного от опорного элемента So, изменяется таким образом, чтобы расстояние d(S(/y),So) между образами этих элементами было наименьшим.

Выбор опорного элемента So и симметрики d позволяет определить образ кластера P(CF)=\\pij\\, как сумму бинарных центрированных образов

всех элементов Sj-e ^ , составивших кластер С/, причем положение каждого из элементов Sx оптимизировано по отношению к опорному элементу:

d(Sx, So)->min. (1)

Возможны другие способы суммирования. Например, следующая процедура обеспечивает выбор оптимального положения по отношению к уже существующей сумме. На первом шаге в качестве суммы £0 берется образ опорного элемента 50. На последующих шагах положение образа /?=||гу|| очередного элемента модифицируется с целью максимизации наложения на сумму 2?=||Гу|[, подготовленную на предыдущем шаге

М N

X (2)

,=i j.1

после чего полагаем = Е, + R.

Определим понятие порогового образа кластера 7У(Г), получаемого из образа кластера бинаризацией с порогом Т. Пороговый образ Tr(f4.CI)) будем называть общей областью кластера, причем пороговый образ 7У(0) совпадает с образом кластера.

Полученный суммированием образ кластера представим в виде мультимножества точек • (ij)}, где p,j - значение накопленной суммы в точке (i,j).

Образ кластера описывается моделью, состоящей из совокупности равноудаленных слоев ¿ь L2..., каждый из которых содержит точки образа кластера Р(С1) с одинаковым расстоянием Хаусдорфа du до общей области: Lq = {г,у | г0еР(С1), [d„ (rv, Ас)] =<?!, где dn(x. У) = min d2(x, у), уе Y;

I ] - операция взятия целой части от действительного числа:

di - некоторая функция расстояния в R2. Тогда образ кластера можно представить в следующем виде: P(a) = AcuLx ui2u... Для избавления от влияния случайных искажений используется другая модель образа, содержащая два параметра кЕ<1Л и ks>Vi, и два соответствующих им порога LE= кв ■ iKCl) и Ls = ks ■ /ÄCI). Порог LE призван избавиться от искажений индивидуальных образов символов в Р(С1), а порог Ls позволяет расширить общую область. Образ кластера в этой модели представим следующим образом:

Р*{Cl, Le. ¿¿> = 7> (¿s) и /, и /2 и ... , (3)

где слои /ь /2,..., содержат точки порогового образа 7У (£/;), находящиеся на одинаковом расстоянии от Tr(Ls).

Автором диссертации была разработана модель оцифровки, используемая при моделировании эффектов оцифровки. Модель оцифровки включает в себя следующие процедуры: поворот, смещение, бинаризация, сжатие, случайные искажения.

Результаты, предложенные автором в третьей главе, будут использованы ниже в описании моделирования процессов оцифровки и алгоритмов повторного распознавания образов символов и слов.

Четвертая глава диссертации посвящена моделированию процессов оцифровки для проверки адекватности модели образа кластера (3) и модели оцифровки.

Автором диссертации был создан набор имитационных последовательностей, который соответствует представительной группе символов различных шрифтов и начертаний, содержащей:

- различные гарнитуры (шрифты Arial, Courier New, Times New Roman),

- различные атрибуты шрифтов (Normal, Bold, Italic),

- различные символы и графемы (символы кириллицы и латиницы),

- различные углы наклона (от 0°до 6° включительно).

Кроме того был создан набор последовательностей отсканированных образов различного качества, соответствующих имитационным последовательностям.

В проведенных экспериментах были использованы следующие

последовательности:

- 4312 имитационных последовательности без случайных искажений

Ь, 2, т, п, а, Тв), где с - код символа, Ьх() - размеры прообраза, тхп - размеры образов при сжатии, а - угол наклона, Тв - уровень бинаризации;

- 2548 имитационных последовательностей ¿Хс> Ь, <2, Р, т, п, а, Тв) со случайными искажениями, где Р - вероятность случайного искажения;

- 2989 последовательностей отсканированных образов высокого и среднего качества;

- 60 последовательностей отсканированных образов низкого качества.

Целями проведения экспериментов являлись:

- оценка возможностей симметрик ¿1а и при кластеризации, эффективность применения симметрики оценивалась с точки зрения попадания в один кластер элементов последовательности образов, соответствующих одному прообразу;

- оценка возможностей способов суммирования (1) и (2) при суммировании элементов одной последовательности с точки зрения плотности кортежей укладки, при этом оценивается зависимость от выбора опорного элемента;

- оценка плотности кортежей укладки при различных значениях коэффициентов кЕ и а также выбор диапазонов к,.: и для приемлемых значений укладки, при этом оценивается зависимость от выбора опорного элемента;

- оценка влияния случайных искажений и эффектов оцифровки на формирование стабильной модели образа кластера.

Проведенное моделирование позволило сделать следующие выводы:

- функция расстояния является пригодной для кластеризации последовательностей отсканированных образов, обладающих одним прообразом;

- функция расстояния ¿0 пригодна для дополнительного разбиения кластера на подкластеры;

- способ суммирования (1), состоящий в оптимальном наложении каждого из образов элементов кластера на образ опорного элемента, является

предпочтительным по отношению к способу (2) при формировании образа кластера как суммы образов составляющих его элементов;

- способ формирования эталона, состоящий в игнорировании точек образа кластера (3) при значениях, меньших кЕ-^С[), и в расширении нулевого слоя до значений, больших к$-/4СГ), позволяет получить разбиение на слои, слабо зависящие от выбора опорного элемента;

- оптимальными являются диапазоны параметров кЕе [0,2; 0,3] и /с^е[0,6; 0,9];

- малые случайные искажения образов при сканировании не влияют на результаты кластеризации и формирования эталонов в случае использования диапазона параметра кЕе[0,2; 0,3].

В результате выбора алгоритмов и параметризации выявлен стабильный способ формирования эталона, не зависящий от случайных искажений и слабо зависящий от выбора опорного элемента При этом в эталоне основной массив точек располагается в общей области и первом слое, а площадь второго слоя мала по отношению к площади образа кластера.

В пятой главе рассмотрены вопросы определения шрифтов в найденных кластерах и формирования эталонов для последующего распознавания.

Для более точного определения использованных на странице шрифтов и для последующего отбора кластеров иерархическим способом проводится кластеризация кластеров символов. Первоначально все кластеры рассматриваются как отдельные элементы, которые постепенно группируются в шрифты, рассматриваемые как мультимножества символов. При этом в шрифте может быть не более одного кластера с одним кодом символа.

Для оценки качества построенных шрифтов применялся метод, основанный на использовании критерия Романовского о соответствии теоретической и эмпирической функций распределения вероятностей. Теоретическая функция распределения вероятностей появления задается таблицами частот встречаемости символов в шрифтах общеупотребительных текстов.

Пусть а={а|, ..., а,} - алфавит распознавания и р=[р\, ..., р¡) -соответствующее распределение вероятностей появления символов алфавита, заданное с помощью частот встречаемости символов.

Рассмотрим шрифт ф ={ni»at, ..., ns»as} в форме мультимножества

символов а с кратностями {«i,..., ns). Пусть п = n\+...+ns.

_ , ^(п-пр)2 „

Тогда вычислим величину р =1 , . 1, где х -У,——В том

V2(s-1) ы пр,

случае, если р < 3, то расхождение между эмпирическим и теоретическим

распределениями считается несущественным (критерий Романовского).

Если величина р> 3, то расхождение между распределениями

существенно. Вычисляем индекс «' = {/: max——,1 <i <s) и удаляем его

пр,

из шрифта, полагая к. = 0. Определяем для алфавита а ={а1,...,а'. ,а'. ,...,а]} новое распределение р' ={/?,',...,р'. ,р'. ,...,/>'} следующим образом:

Р, =-^—J = ls,j*i'.

Полагаем п =п-п.. Повторяем процедуру вычисления р для новых

значений параметров, проверяем условие р>3 и определяем очередной индекс, дающий максимальный вклад в расхождение. Такую процедуру

можно повторить несколько раз с тем, чтобы найти в шрифте ф кластеры, сомнительные с точки зрения частоты встречаемости букв.

Кластеры, вошедшие в построенные шрифты, в последующем используются для дополнительного распознавания символов и повторной сегментации ряда слов.

Для получения эталона Е(С1) из суммарного образа кластера С/ удаляются все точки, значения в которых меньше некоторого порога LE. с целью избавиться от искажений индивидуальных образов символов.

Автором был разработан метод Яс сравнения с эталонами, который позволяет сравнивать образы символов более точно, чем шрифтонезависимые методы. Распознавание символа происходит на основе разбиения образа кластера на слои.

Из образа кластера Р(С1) извлекаются Tr(kt:/j^Cl)) следующие бинарные образы:

- общий образ GEN(CÍ)=\\gij\l определенный границами общей области Tr(ks-p{Cl)) и ее единичной окрестности, то есть g¡¡= 1 при d^{bkij, Tr(ks-/j(Cl)))<2, в противном случае ^=0;

- образ к-ой окрестности (k>\) LAYk(CÍ)=\\bk¡j\\, определенный границами 4, то есть bk,j=l при с!н(Ькф Tr(ks-fj(Cl)))-k, в противном случае bk¡j= 0.

Рассмотрим способ вычисления расстояния между распознаваемым бинарным образом R и образом кластера Р(СГ), в котором штрафуются точки образа R, не попавшие в общий образ кластера, а также точки, попавшие во второй и старшие слои:

Pen(R, С7)= I GEN (Cl) nR\+j^n>\LAYt(Çl)nR\

t-2

где Z - ограничения на число слоев,

лк - штраф за попадание точки в слой к.

Степень сходства Conß^RE) рассматриваемого образа R и эталона Е вычисляется следующим образом:

Conf[R,E) = max(0, 255 - Pen(R,E)).

Такое вычисление проводится для нескольких взаимных положений растра и эталона, то есть помимо центрированного положения исследуются также сдвиги образа на один точку в разных направлениях, а в качестве степени сходства берется максимальная величина из полученных значений

ConfmaAR,E)=mzx{Conj{R,E), ConA^(±",£), Conj[Rv{iX),E), Conf[Rhí±x),E)).

Результаты проведенных экспериментов показывают стабильность точности распознавания при ¿£е[0,18, 0,36] и ^е[0,80, 0,88], рабочим приближением являются значения порогов kg»0,21 и £¿¡«0,84. При этом в диапазоне А£е[0,18, 0,36] и ¿уб[0,80, 0,88] оценка монотонности Л/255=0.

Комбинирование способом 9?,с основывается на распределениях ошибок двух алгоритмов: используемого на первом проходе комбинированного алгоритма и алгоритма -Wc сравнения с эталонами, полученными в результате кластеризации. Другой способ комбинирования 'Ji2í ориентирован не на повышение точности распознавания, а на повышение монотонности оценок распознавания алгоритма с высокой точностью. В таблицах 4 и 5 приведены оценки точности и монотонности оценок для методов 97и. и кЯ1с.

Объектом распознавания на втором проходе служит образ I, соответствующий последовательности из нескольких символов, которые

были распознаны на первом проходе недостаточно надежно. Образу / ставится в соответствие один или несколько шрифтов (/)={£,, ..., /•"„(/)}. Возможен случай, когда ?(/)= 0.

Таблица 4 - Точность распознавания алгоритмов А', и

стенд обучения стенд распознавания ТБъ 7Х4 755

ТУз - Я", 99,25 да, | 99,25

да, с 99,77 да,с I 99,77

99,25 - да, 99,25

да.с 99,63 с 1 99,60

755 да. 99,59 да, 1 99,59 -

да.с 99,78 да,с 1 99,61

Таблица 5 - Монотонность оценок алгоритмов и 911с

~~ --^алгоритм стенд ~~ да. да2с

Миа М2 5!

753 0,748% 0,313% 0,25 % 0,0%

0,78% 0,161% 0,37% 0,0%

0,373% 0,0% 0,373 % 0,0%

Повторная сегментация образа / проводится следующим образом: зафиксируем набор эталонов £ ~{Еи...,Ед), принадлежащих одному или нескольким построенным шрифтам. Для каждого эталона задана правая граница, которая будет использоваться для выделения части образа для сравнения с эталоном. В соответствии с размером и правой границей каждого из эталонов Е1 из распознаваемого образа I выделяется левая часть ¿(/) так, чтобы размер Ь(Г) соответствовал размеру эталона Е,. После этого образ ЦГ) сравнивается с эталоном Е, с помощью функции расстояния с/. Процедура выделения части образа должна учитывать случаи невертикальных границ, что типично, например, в курсивном шрифте, но также встречается и в прямом шрифте при близком расположении символов.

Таким образом, получается некоторое количество вариантов образов левого начального символа /.//), таких, что расстояние ¿/(¿//). £,) меньше заданного порога. Для каждого варианта успешного распознавания левая часть удаляется из распознаваемого образа в соответствии с правой границей эталона, а с каждой из оставшихся частей операция повторяется

до тех пор, пока весь образ не будет распознан, или не будет установлено, что приемлемых вариантов сегментации нет.

Таблица б - Точность сегментации после первого и второго прохода

N. Стенд Проход4^ TS, TSA TSs TS6 TS7 TSt TS9

первый 99,24% 99,83% 99,43% 99,76% 99,69% 99,40% 99,92%

второй 99,84% 99,92% 99,87% 99,76% 99,76% 99,68% 100%

Результаты, приведенные в таблице 6, иллюстрируют повышение точности сегментации при повторном распознавании с использованием алгоритма сравнения с эталонами, извлеченными из кластеров.

Описанный алгоритм поиска шрифтов позволяет реализовать алгоритм сжатия бинарных изображений, состоящий в распознавании образа страницы и замене образов отдельных символов ¡¡, ..., 1к ссылками на образы кластеров соответствующего шрифта.

В результате проведенной кластеризации, использующей в качестве функции расстояния симметрику d\, некоторые из образов ..., станут элементами, образовавшими несколько кластеров С1\,... , С1Ч. Другие образы Ii2\,.../2)il.p не войдут ни в один из кластеров. Образы /'заменяются представлениями кластеров в форме пороговых идеальных образов, определяемых при максимизации выражения:

fl d, (ЩС1, Т), Sp), * р-1

где к - количество элементов в кластере С/, а 5реС/. При выполнении условий

q «рч 2р «к (3)

становится возможным уменьшение суммарного объема образов ¡¡, ..., 1к за счет представлений образов кластеров С1Ь ..., С1Ч, заменяющих ...,

Для изображения, удовлетворяющего условию (3), поиск шрифтов позволяет значительно уменьшить количество одноименных кластеров С/|, ..., С7?, полученных из набора бинарных изображений /*''ь ...,

Различные сценарии сжатия позволяют реализовать различные режимы хранения и воспроизведения распознанных изображений:

- репринтом;

- с удалением случайных образов;

При этом воспроизведенная страница по отношению к воспроизводимой будет выглядеть как различные экземпляры одного издания.

Таблица 7 - Улучшение характеристик качества распознавания символов

\ rt \ * \ S \ ь* \ ° \ Си \ Ь \ * \ « \ CL \ гз \ * \ = \ 4» \ <- \ Точность (%) Монотонность оценок Скорость распознавания (изображений в сек)

Л/240 (%) Л/255 (%)

без адаптивного распознавания с использованием адаптивного Ъаспознаваиня_ без адаптивного распознавания с использованием адаптмвного распознавания с использованием адаптивного распознавания с использованием адаптивного распознавания без адаптивного распознавания с использованием адаптивного распознавания

TS, 99,47 99,93 1,1 0,2 3,78 0,01 0,36 0,43

TSt 99,67 99,84 0,43 0,56

TSi 99,25 99,77 0,39 0,46

TSf, 99,92 99,95 0,43 0,48

TSi 99,79 99,97 0,76 0,85

TSs 98,54 99,28 0,33 0,4

TS9 99,87 99,87 0,29 0,33

TSt „ 98,13 98,86 0,48 0,51

TSu 99,68 99,85 0,37 0,40

В шестой главе описаны особенности реализации алгоритмов адаптивного распознавания. Описаны следующие программные компоненты, использованные в исследованиях и в разработке:

- контейнеры для хранения промежуточных результатов;

- модули распознавания;

- модуль кластеризации;

- модуль сегментации;

- модуль сравнения коллекций;

- компоненты отладки, просмотра и редактирования.

В таблице 7 приведены результаты сравнения результатов распознавания различных стендов OCR Cuneiform в режиме без адаптивного распознавания и режиме с использованием адаптивного распознавания.

Результаты таблицы 7 включают как повторное распознавание отдельных символов, так и повторную сегментацию границ символов согласно описанным в диссертации алгоритмам.

В диссертации показано, что применение алгоритмов адаптивного распознавания на различных видах текстов уменьшает количество ошибок в среднем в 3,65 раза при уменьшении быстродействия на 13,1%, что является очень хорошим показателем эффективности метода и его реализации.

Дополнительным эффектом применения разработанного метода является существенное повышение монотонности оценок распознавания.

В заключении перечислены основные теоретические и практические результаты, полученные в рамках диссертационной работы, состоящие в следующем:

1. Предложен и разработан метод адаптивного распознавания текстового документа, состоящий из пяти этапов.

2. Разработаны способы формирования обучающей последовательности для кластеризации результатов первичного распознавания.

3. Разработаны модель оцифровки и модель образа кластера.

4. Проведено моделирование процессов оцифровки на большом объеме данных. Результаты моделирования позволяют построить функцию сравнения бинарных образов при кластеризации:

5. Проведено теоретическое обоснование влияния расстояний при параллельном переносе в случае наложения двух изображений.

6. Предложен и реализован метод построения эталонов, извлекаемых из набора кластеров.

7. Разработан алгоритм сегментации границ символов, основанный на использовании шрифтов и эталонов, сформированных на основе результатов кластеризации.

8. Разработано приложение адаптивного распознавания для сжатия бинарных изображений.

9. Разработанные алгоритмы адаптивного распознавания являются составной частью программы распознавания текстов OCR Cognitive Cuneiform, начиная с 1996 года.

ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЦИИ ИЗЛОЖЕНЫ В СЛЕДУЮЩИХ РАБОТАХ:

1. Арлазаров В.Л., Корольков Г.В., Славин O.A. Линейный критерий в задачах OCR // В сб. " Развитие безбумажных технологий в организациях", 1999. С. 17-23.

2. Арлазаров В.Л., Котович Н.В., Славин O.A. Адаптивное распознавание // "Информационные технологии и вычислительные системы". 2002. Вып. 4, С.11-23.

3. Арлазаров В.Л., Куратов П.А., Логинов A.C., Славин O.A. Алгоритмы поиска границ печатных символов, используемые при оптическом распознавании символов // Информационные технологии и вычислительные системы № 4, 2004, С. 59-70.

4. Арлазаров В.Л., Куратов П.А., Славин O.A. Распознавание строк печатных текстов // В сб. трудов ИСА РАН "Методы и средства работы с документами", М.: Эдиториал УРСС, 2000, С. 31-51.

5. Арлазаров В.Л., Логинов A.C., Славин O.A. Характеристики программ оптического распознавания текста // Программирование. 2002. №3, С. 45-63.

6. Арлазаров В.Л., Романов А.Н., Котович Н.В., Славин O.A. Устройство для адаптивного распознавания символов текстовых документов. Патент РФ на изобретение № 2206918. опублик. Бюл. № 17 20.06. 2003.

7. Арлазаров В.Л., Славин O.A. Алгоритмы распознавания и технологии ввода текстов в ЭВМ // Информационные технологии и вычислительные системы, 1996. № 1, С. 48-54.

8. Арлазаров В.Л., Славин O.A., Хованский А.Г. Оценка расстояния между изображениями при параллельном переносе // Доклады академии наук. 2011. Т. 437, №3. С. 313-315.

9. Гавриков МБ., Мисюрев A.B., Пестрякова Н.В., Славин O.A. Об одном методе распознавания символов, основанном на полиномиальной регрессии // Автоматика и телемеханика. 2006. №3, С. 119-134.

10. Котович Н.В., Кчяцкин В.М., Славин O.A. Многопроходная схема распознавания документов с обучением // В сб. трудов ИСА РАН "Управление информационными потоками". М.: Эдиториал-УРСС. 2002. С. 211-222.

и.Котович Н.В., Славин O.A. Распознавание скелетных образов // В сб. трудов ИСА РАН "Методы и средства работы с документами", М.: Эдиториал УРСС, 2000. С. 204-215.

12.Романов А.Н., Славин О.А, Титов Ю.В. Система адаптивного распознавания символов. Патент РФ на полезную модель № 63571. опублик. Бюл. № 15 27.05. 2007

13. Славин O.A. Алгоритмы распознавания структурированных документов с переменным составом // Программирование № 4, 2005. С. 1-18.

14. Славин O.A. Алгоритмы распознавания шрифтов в печатных документах // Информационные технологии и вычислительные системы. 2010. № 4, С. 59-70.

15. Славин O.A. Использование мультимножеств в распознавании символов // сб. трудов ИСА РАН "Системный подход к управлению информацией", М.: КомКнига, Том № 23, 2006. стр. 155-173.

16.Славин O.A. Комбинированные методы распознавания печатных и рукопечатных символов // сб. трудов ИСА РАН " Документооборот. Концепции и инструментарий", М.: Едиториал УРСС, 2004, С.151-174

П.Славин O.A. Многопроходное распознавание смешанных печатных текстов на примере русско-английского распознавания // сб. трудов ИСА РАН "Обработка изображений и анализ данных". Т.38. Едиториал УРСС, 2008. С. 272-277.

18. Славин O.A., Титов Ю.В. Динамическое построение функций сравнения с идеальным образом в задаче адаптивного распознавания текстовых символов // Информационные технологии и вычислительные системы. 2007. № 1, С. 3-12.

19. Славин O.A. Алгоритмы распознавания и обработки факсов в системе электронного документооборота // сб. трудов первой Международной конференции «Системный анализ и информационные технологии», Переславль-Залесский, Россия, сентябрь 2005, стр. 282-285.

20. Славин O.A. Алгоритмы распознавания шрифтов в печатных документах // сб. трудов третьей Международной конференции «Системный анализ и информационные технологии», Звенигород, Россия, сентябрь 2009, стр. 954-964.

Подписано в печать: 22.04.11

Объем: 1,5 усл.п.л. Тираж: 100 экч Заказ № 798 Отпечатано в типографии «Реглет» 119526, г. Москва, пр-т Вернадского,39 (495)363-78-90: www.reglet.ru

Оглавление автор диссертации — доктора технических наук Славин, Олег Анатольевич

ВВЕДЕНИЕ.

1 АЛГОРИТМЫ РАСПОЗНАВАНИЯ СИМВОЛОВ ПЕЧАТНОГО ТЕКСТА.

1.1 Общие методы распознавания образов.

1.1.1 Нейронные сети.

1.1.2 Многослойный перцептрон.

1.1.3 Сети с радиальными базисными функциями.

1.1.4 Обучающееся векторное квантование.

1.1.5 Иерархическое векторное квантование.

1.1.6 Метод опорных векторов.

1.1.7 Алгебраический подход Ю.И.Журавлева.

1.2 Методы распознавания одиночных символов.

1.2.1 Исходные данные для распознавания символов.

1.2.2 Шрифтовые алгоритмы.

1.2.3 Шрифтонезависимые алгоритмы.

1.3 Выводы по главе.

2 РАСПОЗНАВАНИЕ ПЕЧАТНОГО ТЕКСТА.

2.1 Характеристики качества распознавания символов.

2.2 Комбинирование алгоритмов.

2.3 Алгоритмы распознавания строк символов.

2.3.1 Основные понятия сегментации.

2.3.2 Оценки сегментации и критерии оптимальности.

2.3.3 Некоторые подходы для реализации сегментации.

2.3.4 Способы сокращения перебора вариантов сегментации.

2.3.5 Обсуждение алгоритмов сегментации.

2.4 Характеристики распознавания строки символов.

2.5 Использование базовых линий для распознавания строки символов.

2.6 Использование словарных механизмов.

2.8 Выводы по главе.

3 АДАПТИВНОЕ РАСПОЗНАВАНИЕ.

3.1 Место адаптивного распознавания в системы ввода текстов.

3.2 Формирование обучающей выборки.

3.2.1 Подтверждение надежности распознавания с помощью монотонности.

3.2.2 Подтверждение надежности распознавания с помощью словарей.

3.3 Алгоритмы кластеризации и способы формирования эталонов.

3.4 Модели образа кластера и формирование эталонов.

3.4.1 Модель оцифровки.

3.4.2 Модель образа кластера.

3.5 Исследование влияния сдвигов при сравнении с образом кластера.

3.5.1 Описание задачи.

3.5.2 Описание абстрактной задачи.

3.5.3 Частичное решение задачи 1.

3.5.4 Случай евклидова пространства.

3.5.5 Следствия найденных оценок.

3.5.6 Качественное объяснение рассматриваемого эффекта.

3.6 Модель сжатия бинарного изображения.

3.7 Выводы по главе.

4 МОДЕЛИРОВАНИЕ ПРОЦЕССОВ ОЦИФРОВКИ.

4.1 План вычислительных экспериментов.

4.2 Эксперименты для исследования симметрики с!о.

4.3 Эксперименты для исследования симмстрики d\.

4.4 Эксперименты для оценки зависимости вариантов укладки от выбора опорного элемента при суммировании с помощью симметрики d\.

4.5 Эксперименты для оптимизации плотности укладки сумм, подсчитанных с помощью симметрики d\.

4.6 Эксперименты для оценки зависимости вариантов укладки от выбора опорного элемента при суммировании с помощью симметрики d\ и использования пороговой модели образа кластера.

4.7 Эксперименты по оценке влияния случайных искажений формы на распределения значений точек образов кластеров.

4.9 Комбинирование использования симметрик do и d\.

4.5 Выводы по главе.

5 АЛГОРИТМЫ ПОИСКА ШРИФТОВ И РАСПОЗНАВАНИЯ СИМВОЛОВ С ПОМОЩЬЮ КЛАСТЕРОВ.

5.1 Определение шрифтов в распознанном тексте.

5.2 Поиск шрифтов в наборе кластеров.

5.3 Оценка состава найденных шрифтов.

5.4 Использование шрифтов при сжатии бинарных изображений.

5.5 Алгоритм распознавания образов с помощью набора образов кластеров.

5.6 Комбинирование результатов шрифтонезависимого распознавания и сравнения с набором образов кластеров.

5.7 Выводы по главе.

6 РЕАЛИЗАЦИЯ АДАПТИВНОГО РАСПОЗНАВАНИЯ В СИСТЕМЕ ВВОДА ПЕЧАТНЫХ ТЕКСТОВ.

6.1 Описания возможностей системы ввода печатных текстов Cuneiform.

6.2 Основные понятия.

6.2.1 Представление символа.

6.2.2 Представление строки.

6.2.3 Представление слова.

6.2.4 Результаты распознавания групповых объектов.

6.2.5 Модуль.

6.3 Интерфейсные модули.

6.3.1 Контейнер изображения CImage.

6.3.2. Контейнер строки CString.

6.3.3 Контейнер обучения Ctb.

6.4 Служебные модули.

6.4.1 Пользовательский отладчик SNAP.

6.4.2 Утилиты работы с контейнером обучения.

6.5 Модули алгоритмов распознавания образа символа.

6.5.1 Автономные модули распознавания образа символа.

6.5.2 Комбинирование алгоритмов распознавания символов.

6.6 Модули распознавания строки.

6.6.1 Модули поиска характ еристик текста.

6.6.2 Модули критериев.

6.6.3 Модули сегментации границ.

6.6.4 Модуль распознавание атрибутов символов Strattributes.

6.6.5 Модули лингвистической обработки StrLingvo.

6.6.6 Модуль двуязычного распознавания строки Str21ang.

6.6.7 Модуль адаптивного распознавания PageFon.

6.7 Схема взаимодействия модулей.

6.8 Описание приложений с реализациями алгоритмов адаптивного распознавания.

6.9 Выводы но главе.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Славин, Олег Анатольевич

Распознаванием образов называют задачи отнесения оцениваемых объектов к каким-либо классам. Когда мы говорим о компьютерном распознавании, мы имеем в виду способность машины, то есть компьютера, "понимать", что представлено ему на рассмотрение. Любая задача распознавания изображений сводится к самостоятельной классификации машиной изображения, без помощи человека.

Более формально задача распознавания (классификации) объекта может быть сформулирована следующим образом. Имеется некоторый способ кодирования объектов (например, печатных букв), принадлежащих заранее известному конечному множеству классов, и некоторое конечное множество объектов (обучающее множество), про каждый из которых известно, какому классу он принадлежит. Нужно построить алгоритм, который по любому входному объекту, не обязательно принадлежащему обучающему множеству, решает, какому классу этот объект принадлежит, и делает это достаточно хорошо. Качество распознавания оценивается как вероятность ошибки классификации на другом конечном множестве объектов с заранее известными ответами (тестовом множестве). Конечно, это всего лишь одна из возможных постановок задачи классификации, не претендующая на общность.

Обучающее и тестовое множество могут не быть даны заранее, а пополняться в процессе работы распознающего алгоритма. Система распознавания должна быть достаточно адаптивна к наличию артефактов различной природы, поскольку на вход распознавания почти всегда попадают объекты, не укладывающиеся в классификацию (в примере с распознаванием текста - кляксы, слипшиеся буквы, картинки и т.п.). Качество распознавания можно оценивать не вероятностью ошибки, а какой-либо другой функцией от ошибки. Помимо частоты ошибочных решений, современные системы распознавания используют целый ряд критериев оценивания качества алгоритмов распознавания, ставших фактически отраслевыми стандартами и вычисляемых как производные от распределений оценок вероятностей, получаемых по тестируемой выборке (error rate, acceptance level). Желательны статистические гарантии того, что на любом другом тестовом множестве частота ошибки распознавания будет почти такой же.

Сходство и различия образов, являющиеся очевидными для человека, нередко ставят в тупик даже наиболее сложные компьютерные системы распознавания. Таким образом, бесчисленное количество важных приложений, в которых компьютеры могут заменить людей в опасных, скучных или неприятных работах, остаются за пределами их текущих возможностей.

Можно выделить три типа задач распознавания образов (мы не рассматриваем задачи распознавания сцен, в которых в задачу компьютера входит не только классификация предложенных ей объектов, но в первую очередь выделение на изображении этих отдельных объектов, которые можно было бы классифицировать). Первый тип - мы точно знаем описания классов, к которым требуется отнести объекты, при этом все классы задаются строго и однозначно. Второй тип - мы знаем число и описания классов, к которым требуется отнести объекты, но описания самих классов заданы нестрого. Третий тип - мы не знаем, объекты каких классов предстоит распознавать. К первому типу можно отнести такие задачи, как распознавание российских денежных купюр или распознавание текста, напечатанного известным заранее фиксированным шрифтом. Ко второму типу можно отнести, например, распознавание предметов мебели, распознавание произвольного текста, и многие другие. К третьему типу можно отнести задачи распознавания предметов, находящихся в произвольном помещении.

Задачи первого гипа компьютер решает наиболее успешно, задачи второго типа - с разной степенью, задачи третьего типа практически не решает, так как число классов для компьютерного распознавания всего сильно ограничено.

У человека число классов, конечно, тоже не бесконечно, но может быть очень велико - человек легко узнает многое из того, что он видит вокруг, что он слышит. Однако человек обладает способностью быстрой адаптации к вариациям известных классов и к обучению новым классам объектов.

В диссертационной работе рассматриваются в основном задачи второго типа, как наиболее распространенные на практике. Однако они далеки от окончательного решения. Так, в случае обработки изображений плохого качества, в случае различных искажений символов, возникающих, например, на краях отсканированных страниц или при не вполне стандартных начертаниях некоторых символов, программы распознавания могут давать большее число ошибок, чем при обработке однородных текстов. С другой стороны, человек, как правило, уверенно распознает текст даже плохого качества, напечатанный малознакомым шрифтом. Успешное распознавание текста человеком нередко происходит за счет адаптации к конкретной странице. При этом сомнительные символы сравниваются с четко напечатанными символами, в построенном шрифте проверяется наличие тех или иных символов, производится сопоставление с известными словами. Таким образом, разработка новых высокоточных алгоритмов распознавания текстов, равно как и улучшение уже существующих алгоритмов представляется актуальной задачей.

Предметом диссертации является разработка алгоритма адаптивного распознавания образов текстовых документов, цель которого состоит в перестройке механизма принятия решений, поддерживаемого системой распознавания образов, направленная на обеспечение их максимального соответствия особенностям графических образов, использованных при печати документов.

Целями н задачами диссертации исследования:

1) Построение модели адаптивного распознавания, учитывающей искажения образов символов отсканированных документов и основанной на нескольких механизмах: геометрическом распознавании символов, статистических методах кластеризации, сегментации границ символов, словарных механизмах.

2) Разработка алгоритмов адаптивного распознавания, направленных на учет особенностей отсканированного документа в различных механизмах распознавания и обеспечивающих оптимизацию нескольких характеристик качества: точности распознавания, монотонное ш оценок и быстродействия.

3) Обоснование работоспособности разработанных алгоритмов адаптивного распознавания с помощью формальных методов и ими гационного моделирования.

4) Реализация алгоритмов адаптивного распознавания в составе модульной системы распознавания отсканированных печатных документов.

Научная новизна работы состоит в следующем:

Создан новый метод адаптивного распознавания, который позволяет перестраивать функционирование алгоритмов распознавания отдельных символов, алгоритмов сегментации границ символов, алгоритмов словарной коррекции.

Реализован алгоритм быстрой кластеризации, который позволяет разбить множество распознанных образов на группы, соответствующие одноименным символам с одинаковыми атрибутами;

Предложен новый метод построения эталонов, основанный на анализе кластеров, поиске шрифтов, имеющихся в распознаваемом тексте, .который позволяет повысить точность распознавания символов и монотонность оценок.

Разработан и реализован алгоритм сегментации границ символов, основанный на использовании эталонов, сформированных на основе результатов кластеризации, который позволяет существенно повысить как точность сегментации, так и точность распознавания.

Проведено теоретическое обоснование влияния расстояний при параллельном переносе при наложении двух изображений и доказана теорема о малом сдвиге при поиске оптимального наложения.

Работа состоит из шести глав, введения, заключения, содержит 275 страниц, 53 иллюстрации, 120 таблиц, список литературы из 174 наименования и два приложения.

Содержание диссертации организовано в соответствии с указанными выше целями.

Первая глава содержит обзор существующих алгоритмов распознавания отдельных символов, имеющих отношение к распознаванию шрифтозависимыми и шрифтонезависимыми методами.

Рассмотрены современные алгоритмы распознавания образов (нейронные сети, сети с радиальными базисными функциями, методы векторного квантования, метод опорных векторов 8 УМ, алгоритмы Журавлева) и алгоритмы распознавания образов символов (топологические, сравнения с эталонами, нейронная сеть, метод полиномиальной регрессии).

Описаны иерархические агломеративные методы и итеративные методы кластерного анализа, а также оценены достоинства и недостатки шрифтонезависимого и шрифтонезависимого распознавания.

Во второй главе проведено исследование существующих алгоритмов распознавания печатного текста с неизвестными заранее границами, имеющих отношение к распознаванию шрифтозависимыми и шрифтонезависимыми методами.

Приведена система характеристик, позволяющая сравнивать достоинства и недостатки алгоритмов распознавания, на основе которой производится комбинирование результатов работы алгоритмов с целями оптимизации характеристик.

Описаны подходы к сегментации заранее неизвестных границ символов. Предложен алгоритм сегментации границ символов для шрифтонезависимого распознавания.

Приведены описания средств словарной проверки и коррекции.

В третьей главе описан разработанный метод адаптивного распознавания текста, призванный объединить достоинства шрифтозависимых и шрифюнезависимых методов.

Метод включает в себя первоначальную сегментацию и распознавание текста, формирование обучающей выборки (на основе монотонных оценок распознавания и подтверждения надежности словарными механизмами), кластеризацию распознанных символов, анализ кластеров, поиск шрифтов, построение эталонов символов для имеющихся шрифтов, повторное распознавание и повторную сегментацию ненадежно распознанных слов и символов.

Произведена формализация понятий, необходимых для исследования возможностей этапов адаптивного распознавания.

Описаны механизмы формирования обучающей выборки, такие как монотонные оценки методов распознавания отдельных символов и подтверждение с помощью корпуса слов, исследована надежность использования этих механизмов.

Приведены модели оцифровки и модели образа кластера, полученного суммированием образов элементов, составивших кластер.

В главе приводится доказательство теоремы о границах параллельного переноса изображении при нескольких попытках сравнения двух образов, которая использована в реализации алгоритмов сравнения бинарных символов.

В четвертой главе описаны результаты моделирования процессов оцифровки, позволяющие оценить применимость описанных ранее симметрии (функций сравнения); оценить влияние эффектов оцифровки на стабильность формирования образа кластера и эталонных изображений; произвести параметризацию способа формирования эталонных изображений; оценить влияние случайных искажений на стабильность формирования образа кластера и эталонных изображений; сформулировать принципы комбинирования нескольких симметрии. Показано, что результаты моделирования, проведенного на большом объеме данных (более чем из 8000 тестовых выборок), дают границы применимости алгоритмов самообучения.

В пятой главе приведены описания алгоритмов нахождения шрифтов в построенных кластерах, позволяющие повысить надежность и полноту формирования кластеров; сгруппировать кластеры в соответствии со шрифтами, использованными при печати документа; сформировать метод шрифтового распознавания образов для найденных шрифтов.

В главе описаны алгоритмы повторного распознавания образов символов, соответствующие моделям главы 3, обладающие следующими достоинствами: высокая точность распознавания; управляемость множеством эталонов извне, то есть использование внешних ограничений на алфавит распознавания и на перечень эталонов; высокая монотонность оценок, реализуемая на множестве образов символов кириллицы и латиницы; возможность самоконтроля, состоящая в опознавании символов, непохожих на эталоны.

Таким образом, предложенный алгоритм адаптивного распознавания позволяет получить способ распознавания текста, совмещающий универсальность шрифтонезависимого подхода и высокую точность шрифтового распознавания.

В шестой главе описаны особенности реализации алгоритмов адаптивного распознавания и их внедрение в программу оптического распознавания текста (OCR) Cognitive Cuneiform. Приведено описание модулей и использованных программных компонент, созданных специально для исследования алгоритмов распознавания.

В главе рассмотрены варианты применения распознавания печатных документов и программ сжатия образов страниц печатных документов. Результаты диссертационной работы были использованы при реализации механизма адаптивного распознавания, являющегося составной частью программы распознавания текстов OCR Cognitive Cuneiform, начиная с 1996 года.

По теме диссертации опубликована 21 работа, 16 из них опубликованы в рецензируемых научных изданиях, рекомендованных ВАК; получены патент на изобретение [105] и патент на полезную модель [151]. Основные результаты диссертации опубликованы в работах [99-107], [111], [116], [134, 135], [155-164].

Результаты диссертации докладывались и обсуждались на международных конференциях «Системный анализ и информационные технологии» в 2005, 2007 и 2009 г., а также на семинарах Института системного анализа РАН под руководством чл.-корр. РАН B.JI. Арлазарова и д.т.н. Н.Е. Емельянова.

Заключение диссертация на тему "Адаптивное распознавание и его применение к системе ввода печатного текста"

6.9 Выводы по главе

В данной главе были рассмотрены модули системы Cuneiform, используемые в адаптивном распознавании, а также внешние по отношению к системе Cuneiform приложения, необходимые для отладки и анализа алгоритмов адаптивного распознавания.

Реализованные алгоритмы адаптивного распознавания на различных видах текстов уменьшает количество ошибок в среднем в 3,65 раза при уменьшении быстродействия на 13,1%, что является очень хорошим показателем эффективности метода и его реализации.

Дополнительным эффектом применения разработанного метода является существенное повышение монотонности оценок, что открывает путь к дальнейшему совершенствованию распознавания отсканированных документов.

Алгоритмы адаптивного распознавания являются составной частью OCR Cognitive Cuneiform, а также компонентой, используемой в проектных решениях для оцифровки отсканированных страниц в системах обработки документов [155,159].

Заключение

Основные теоретические и практические результаты диссертационной работы состоят в следующем:

1. Разработан метод адаптивного распознавания текстового документа, использующий самообучение, которые имеет более высокие оценки характеристики точности распознавания и монотонности оценок распознавания по сравнению к результатам предварительного распознавания. 2. Разработаны способы формирования обучающей выборки образов символов для кластеризации результатов первичного распознавания, основанные на комбинировании алгоритмов распознавания с монотонными оценками, со словарным подтверждением и позиционным анализом слов в предложении.

3. Разработаны модель оцифровки изображений, включающая процедуры поворота, параллельного переноса, сжатия, бинаризации и случайных искажений границы образа, и модель образа кластера, учитывающая разбиение на слои.

4. С помощью имитационного моделирования процессов оцифровки на большом объеме данных построены функции близости бинарных образов при кластеризации.

5. Проведено теоретическое обоснование влияния расстояний при параллельном переносе в случае наложения двух изображений.

6. Предложен и реализован метод сравнения распознаваемого бинарного образа с эталонами, извлекаемыми из построенного набора кластеров образов символов.

7. Разработан алгоритм сегментации границ символов, основанный на использовании шрифтов и эталонов, сформированных в процессе кластеризации.

8. Разработано приложение адаптивного распознавания для сжатия бинарных изображений.

Начиная с 1996 года, разработанные алгоритмы адаптивного распознавания являются составной частью программы распознавания текстов OCR Cognitive Cuneiform.

Библиография Славин, Олег Анатольевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. «Планшетные сканеры» // Scan & Recog. - Совм. издаиие Hewlett-Packard и Cognitive Technologies, № 1, 1994.

2. Baudouin С. Elements de cryptographie. — Ed. Pedone A., Paris, 1939.

3. Bojadziev G., Bojadziev M. Fuzzy Logic for Business, Finance and Management // Advances in fuzzy systems. 2nd edition. World Scientific Pub Co, 2007.

4. Borovikov E., Zavorin L, Mark Turner M A filter based post-OCR accuracy boost system // Proc. of the 1st ACM workshop on Hardcopy document processing. 2004. - P.23-28.

5. Böser B.E., Guyon Î.M., Vapnik V.N. A training algorithm for optimal margin classifiers// Proc. of the 5th Annual ACM Workshop on Computational Learning Theory. ACM Press, 1992.- P. 144-152.

6. Braun E.W. Applying Neural Networks to Character Recognition. http://www.ecs.neu.edu/home/feneric/charrecnn.html.

7. Casey R.G. "Text OCR by Solving a Cryptogram" // Proc. Eighth Int'l Conf. Pattern Recognition. 1986. - P. 349-351.

8. Cortes C., Vapnik V. Support Vector Networks, Machine Learning 20(3). -1995, № 323. P. 533-536.

9. Сип Y Le et al., "Back-Propagation Applied to Handwritten Zip Code Recognition", Neural Computation. 1989. V. 1. - P. 541-551.

10. Dong J-X, Krzyzak A., Suen C.Y. Fast SVM Training Algorithm with Decomposition on Very Large Data Sets, IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, V. 27, №. 4. - P. 603-618.

11. Xi.Duda R., Stock D., Hart P. Pattern Classification. Wiley, John & sons, December 1999.

12. Duda R.O. and Hart P.E., Pattern Classification and Scene Analysis. New York: John Wiley and Sons, 1973.216

13. Everett B., Landau S., Leese M. Cluster Analysis. Oxford University press, May 2001.

14. Faarborg A.J. Using Neural Networks to create an Adaptive Character Recognition System. Cornell University, New York, 2002.

15. Feng S., Manmatha, R. A Hierarchical, HMM-Based Automatic Evaluationthof OCR Accuracy for a Digital Library of Books. Proc. of the 6 ACM/IEEECS Joint Conference on Digital Libraries, 2006. - P. 109-118.

16. Flake G.W., Lawrence S. Efficient SVM Regression Training with SMO. -Machine Learning, 2002, V. 46, № 1-3. P. 271-290.

17. Fumera G., Roli F. Error Rejection in Linearly Combined Multiple Classifi-ers // Int. Report n. 2001-113, Dept. of Electrical and Electronic Eng. Univ. of Cagliari, 2001.

18. Gordon A.D. Classification. CRC Press, June 1999.

19. Hubert L., De Soete G., Hubert Lawrence J., Arabbie P. Clustering and Classification. World Sceintific Publishing Company, 1996.

20. Keysers D., Deselaers T., Gollcm C., Ney Ii. Deformation Models for Image Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2007, V. 29, №. 8, P. 1422-1435.

21. Kohonen T. Self-Organizing Maps. Springer, Berlin, Heidelberg, 1995.

22. Krishnamoorthy M, Nagy G., Seth S., Viswanathan M. "Syntactic segmentation and labeling of digitized pages from technical journals" IEEE Journal on Pattern Analysis and Machine Intelligence. 1993, V. 15, №.7. - P.737-747.

23. Lam L., Lee S.W., Snen C.Y. Thinning Methodologies: A Comprehensive Survey. IEEE Trans. Pattern Analysis and Machine Intelligence. 1992, V. 14. - P. 869-885.

24. Lam L., Suen C.Y. An Evaluation of Parallel Thinning Algorithms for Character Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1995, V. 17, № 9. - P. 914-919.

25. Yaeger L. S., Webb B. J., Lyon R. F. Combining Neural Networks and Context-Driven Search for Online, Printed Handwriting Recognition in the NEWTON, AI Magazine. Spring 1998, № 19(1). - P. 73-90.

26. Li Y., Lopresti D., Nagy G., Tomkins A. Validation of Image Defect Models for Optical Character Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1996,V. 18, № 2. -P. 99-108.

27. Lippmann R.P. "An Introduction to Computing with Neural Nets", IEEE ASSP Magazine. Apr. 1987, V.4, № 2. - P. 4-22.

28. McCulloch IV.S. and Pitts W. A logical Calculus of Ideas Immanent in Nervous Activity. Bull. Mathematical Biophysics, 1943, V. 5-P. 115-133.

29. Mohiuddin K., Mao J. "A Comparative Study of Different Classifiers for Handprinted Character Recognition", in Pattern Recognition in Practice IV, E.S. Gelsema and L.N. Kanal. eds. Elsevier Science, 1994.- P. 437-448.

30. Nabney I.T. Netlab: Algorithms for Pattern Recognition. SpringerVerlag New York. December 2001. - P. 440.

31. Nagy G. Twenty Years of Document Image Analysis in PAMI, IEEE Trans. Pattern Analysis and Machine Intelligence. 2000, V. 22, №. 1. - P. 38-62.

32. Nagy G., Xu Y. Automatic prototype extraction for Adaptive OCR// Proceedings of the 4th ICDAR. 1997. - P. 278-282.

33. Nagy G., Xu Y. Priming the Recognizer. -Proc. DAS-96, Malvern, PA, 1996.- P. 263-281.

34. Niblack W. An Introduction to Digital Image Processing, Prentice Hall. 1986,- P. 115-116.

35. Pao Y-H. Adaptive pattern recognition and neural network. -"Addison-Wesley", 1989.

36. Portegys T.E. A Search Technique for pattern Recognition Using Relative Distances // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1995, V. 17, № 9. - P. 910-912.

37. Richard M.D., Lippman R.P. Neural Network Classifiers estimate Bayesian a posteriori probabilities // Neural Computation. 1991, №3.- P. 461-483.

38. Rosenblatt F. The perceptron: a probabilistic model for information storage and organization of the brain. Psychological Review. -1959, №65.- P. 386-408.

39. Rosha J., Pavlidis T. Character Recognition Without Segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1995, V. 17, № 9. - P. 903-909.

40. Roy B. Méthodologie Multycritere d'Aide a la Decision. Paris: Economoica, 1985.

41. Rummelhart D.E., Hinton G.E., Williams R.J. Learning Representations by Backpropagation Errors. Nature, 1986, № 323.- P. 533-536.

42. Saieki H. Allocation of Importance. An axiom system // Journal of Mathematical Psychology. 1972, №9. - P. 55-65.

43. Sarkar P, Nagy G. Style Consistent Classification of Isogenous Patterns // IEEE Transactions on Pattern Analysis and Machine Intelligence. January 2005, V. 27, № 1. - P. 88-98.

44. Sarkar P.and Nagy G. Style Consistency in Isogenous Patterns // Proc. Sixth Int'l Conf. Document Analysis and Recognition. Sept. 2001.-P. 1169-1174.61 . Schumann J. Pattern Classification. John Wiley&Sons, Inc., 1996.

45. SchVrmann J. Polynomklassifikatoren. Miinchen, Oldenbourg, 1977.

46. Sebastian T. B., Klein P. N., Kimia B. B. Recognition of Shapes by Editing Their Shock Graphs // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2004, V. 26, №. 5, P. 550571.

47. Shi H., Pavlidis T. Font Recognition and Contextual Processing for More Accurate Text Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997, V 17, № 9. - P. 39-44.

48. Sholomov D.L. Syntactical Approach to Post-Processing of Fuzzy Recognized Text // Proc. of The International Conference on Machine Learning, Technologies and Applications. CSREA Press, June 2003.-P. 115-121.

49. Sneath P.H.A., Sokal R.R. Numerical Taxonomy. San Francisco: W.H. Freeman, 1973.

50. Sokal R., Sneat P. Principles of Numerical Taxonomy. San Francisco: W.H. Freeman, 1963.

51. Stubberud P., Kanai J. and Kalluri V. Adaptive Image Restoration of Text Images That Contain Touching or Broken Characters // Third International Conference on Document Analysis and Recognition. August 1995.-P. 778 - 781.

52. Stubberud P., Kanai J. and Kalluri V. Improving OCR Accuracy using Adaptive Image Restoration // SPIE Journal of Electronic Imaging. January 1996, V. 5, № 3. - P. 379-387.

53. Szmurlo M. Boundary normalization for recognition of non-touching non-degraded characters // The 4th International Conference on Document Analysis and Recognition (ICDAR 97). -August 1997, Ulra, Germany. P. 463-466.

54. Takasu A., Aihara K. Quality Enhancement in Information Extraction from Scanned Documents // ACM Symposium on Document Engineering (DocEng 2006). 2006, Amsterdam. -P.122-124.

55. Tang Y.Y., You X. Skeletonization of Ribbon-Like Shapes Based on a New Wavelet Function // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2003, V. 25, №. 9. - P. 1118-1133.

56. Theodoridis S., Koutroumbas K. Pattern Recognition. Academic Press, October 1998.

57. Trier □. D., Taxt T. Evaluation of Binarization Methods for Document Images // IEEE Transactions on pattern analysis and machine intelligence. March 1995, V. 17, No 3. - P. 312-315

58. Tryon R.C. Cluster Analysis. Ann. Arb.: Edw. Brathers, 1939.

59. Vapnik V. An Overview of Statistical Learning Theory // IEEE Transactions on Neural Networks. September 1999. № 10(5). -P. 988-999.

60. Vapnik V. Statistical Learning Theory. Wiley, 1998.

61. Veeramachaneni S. and Nagy G. Adaptive Classifiers for Multisource OCR // Int'l J. Document Analysis and Recognition. -Aug. 2004, V. 6, № 3. P. 154-166.

62. Veeramachaneni S. and Nagy G. Style-Conscious Quadratic Classifier // Proc. 16th Int'l Conf. Pattern Recognition. August 2002. V. II. - P. 72-75.

63. Veeramachaneni S., Nagy G., Liu C.-L., and Fujisawa H. Classifying Isogenous Fields // Proc. Eighth Int'l Workshop Frontiers of Handwriting Recognition. August 2002. - P. 41-46.

64. Verbeek J., Vlassis N. and KrCse B. Efficient Greedy Learning of Gaussian Mixture Models // Neural Computation. 2003, V. 15, № 2. - P. 469-485.

65. Verikas A. A., Bachauskene M. I., Vilunas S. J., Skaisgiris D. R. Adaptive character recognition system // Pattern Recognition Letters. 1992, V. 13 ,Issue 3. - P. 207-212.

66. Wakahaga T., Odaka K. Adaptive Normalization of Handwritten Characters Using Global/Local Affine Transformation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998, V. 20, № 12.- P. 28-33.

67. Wang J., Jean J. Segmentation of merged characters by neural networks shortest path // Pattern Recognition. 1994, V. 5, Issue 27.-P. 649-658.

68. Ward J. H. Hierarchical grouping to optimize an objective function // Journal of the American Statistical Association. 1963, V. 58. -P. 236-244.

69. Wasserman P. D. Neural Computing: Theory and Practice. New York: Van Nostrand Reinhold, 1989.

70. Westall J.M., Narasimha M.S. Vertex directed segmentation of handwritten numerals // Pattern Recognition. 1993, V. 26, Issue 10.-P. 1473-1486.

71. White H. Learning in artificial networks: A statistical perspective // Neural Computation. 1989, № 1. - P. 425-464.

72. Xu J., Lipton R., Essa I., Sung M., Zhu Y. Mandatory Human Participation: A NewAuthentication Scheme for Building Secure Systems // Proc. The 12th International Conference on Computer Communications and Networks. 2003. - P. 547 - 552

73. Xu Y, Nagy G. Prototype Extraction and Adaptive OCR // IEEE Trans. Pattern Analysis and Machine Intelligence. Dec. 1999, V. 21, № 12. - P. 1280-1296.

74. Yang S. Symbol Recognition via Statistical Integration of PixelLevel Constraint Histograms: A New Descriptor // IEEE Transactions on Pattern Analysis and Machine Intelligence. -2005, V. 27, №. 2. P. 278-281.

75. Yang Y., Summers K., Turner M. A Text Image Enhancement System Based on Segmentation and Classification Methods, Proc. of the 1st ACM workshop on Hardcopy document processing -Conference on Information and Knowledge Management. 2004, -P. 33-40.

76. Zeyu L., Tang L., Wang H. Fast Recognition of Handwritten Digits Using Pairwise Coupling Support Vector Machine // Proc. Int'l Joint Conf. Neural Networks. 2002, V. 1. - P. 878-883.

77. Zheng Y., Li hi., Doermann D. Machine Printed Text and Handwriting Identification in Noisy Document Images // IEEE

78. Transactions on Pattern Analysis and Machine Intelligence. -2004, V. 26, №. 3. P. 337-353.

79. Арлазаров B.JJ., Астахов А.Д., Троянкер В.В., Котович Н. В. Адаптивное распознавание символов // Сб. трудов ИСА РАН "Интеллектуальные технологии ввода и обработки информации". М.:Эдиториал УРСС, 1998. - С. 39-56.

80. Арлазаров В.Л., Корольков Г.В., Славин O.A. Линейный критерий в задачах OCR // Сб. трудов ИСА РАН "Развитие безбумажных технологий в организациях". М.: Эдиториал УРСС, 1999.-С. 17-23'.

81. Арлазаров В.Л., Котович Н.В., Славин O.A. Адаптивное распознавание // Информационные технологии и вычислительные системы. 2002, Вып. 4. - С. 11-23.

82. Арлазаров В.Л., Куратов П.А., Логинов A.C., Славин О.А Некоторые аспекты сегментации границ печатных символов // Информационные технологии и вычислительные системы. -2004, № 4. С. 59-70.

83. Арлазаров В.Л., Куратов П.А., Славин O.A. Распознавание строк печатных текстов // Сб. трудов ИСА РАН "Методы и средства работы с документами". М.: Эдиториал УРСС, 2000. - С. 31-51.

84. Арлазаров В.Л., Куратов П.А., Славин O.A. Сегментация границ символов, управляемая моделью слова // Сб. трудов ИСА РАН "Организационное управление и искусственный интеллект". -М.: Эдиториал УРСС, 2003. С.176-184.

85. Арлазаров В.Л., Логинов A.C., Славин O.A. Характеристики программ оптического распознавания текста. // Программирование. 2002, №3. - С. 45-63.

86. Арлазаров В.Л., Романов А.Н., Котович Н.В., Славин O.A. Устройство для адаптивного распознавания символов текстовых документов // Патент РФ на изобретение № 2206918 от 20.06.2003. Бюл. № 17. 2003 (РосПатент).

87. Арлазаров В.Л. ', Славин O.A. Алгоритмы распознавания и технологии ввода текстов в ЭВМ // Информационные технологии и вычислительные системы. 1996, № 1. - С. 48-54.

88. Арлазаров B.JI., Славин O.A., Хованский А.Г. Оценка расстояния между изображениями при параллельном переносе // Доклады академии наук. 2011, Т. 437, № 3. - С. 313-315.

89. Беллман Р. Динамическое программирование. -М.: ИЛ. 1960.

90. Беллман Р., Заде Л. Принятие решений в расплывчатых условиях. В кн.: Вопросы анализа и процедуры принятия решений. -М.: Мир. 1976.- С.172-215.

91. Бербышев Е.М. Технологии ММХ. Новые возможности процессоров Р5 и Р6. М.: Диалог-Мифи, 1998.

92. Болотин П.В., Корольков Г.В, Славин O.A. Методы распознавания грубых объектов // Сб. трудов ИСА РАН "Развитие безбумажных технологий в организациях". М.: Эдиториал УРСС, 1999. - С. 331-355.

93. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. М.: Наука, 1983.

94. Вапник В.Н., Червоненкис А.Я. О равномерной сходимости относительных частот событий к их вероятностям // Теория вероятностей и приложения. 1971, № 16(2). - С. 264-280.

95. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. -М.: Наука, 1974.

96. Васильев В.И. Распознающие системы. Киев:Наукова думка, 1983.

97. Гавриков М.Б., Мисюрев A.B., Пестрякова PI.В., Славин O.A. Об одном методе распознавания символов, основанном на полиномиальной регрессии // Автоматика и телемеханика. -2006, №3. С. 119-134.

98. Глумов H.H., Мясников Е.В. Метод отбора информативных признаков на цифровых изображениях // Компьютерная оптика. 2007, Т. 31, №3. — С. 73-76.

99. Гоппа В.Д. Введение в алгебраическую теорию информации. -М.: Наука, 1995.

100. Горелик A.JJ., Скрипкин В.А. Методы распознавания, Изд. 2. М.: Высшая школа, 1984.

101. Джексон Т. Intel: взгляд изнутри. М.: Лори, 1998.

102. Журавлев Ю. И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов I, II, III.— Кибернетика. 1977, № 4. - С. 14 - 21, № 6, С. 21 - 27; № 2, С. 35 - 43.

103. Журавлев Ю.И. Непараметрические задачи распознавания образов. М.: Кибернетика. 1976. № 6. - С. 93-103.

104. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы Кибернетики. 1978. № 33. - С. 5-67.

105. Журавлев Ю.И. Экстремальные алгоритмы в математических моделях для задач распознавания и классификации // Докл. АН СССР. 1976, Т. 231, № 3. - С. 212 -214.

106. Журавлев Ю.И., Камилов М.М., Туляганов Ш.Э. Алгоритмы вычисления оценок и их применения. Ташкент: Фан, 1974.

107. Журавлев Ю.И, Никифоров A.B. Алгоритмы распознавания, основанные на вычислении оценок // Кибернетика. 1972. № 3. - С. 1 - 11.

108. Загоруйко Н.Г. Методы распознавания и их применение. -М.: Сов. Радио, 1972.

109. Калеватых A.B., Павлов Б.А. Обзор современных методовавтоматизированного анализа изображений // Автоматика и телемеханика. 1995, Вып. 9. - С. 3-21.

110. Классификация и кластер. Сборник. М.: Мир, 1980.

111. Кляцкин В.М., Котович И.В. Применение методов вычислительной геометрии для поиска линейных объектов // Сб. трудов ИСА РАН В "Управление информационными потоками". М.: Эдиториал УРСС, 2002. - С. 201-210.

112. Ковалевский В.А. Методы оптимальных решений в распознавании изображений. — М.: Наука, 1967.

113. Козин Н.Е., Фурсов В.А. Снижение размерности векторов признаков по критериям мультиколлинеарности // Компьютерная оптика. 2008. Т. 32, №3. - С. 307-311.

114. Колмогоров А.Н. О представлении непрерывной функции нескольких переменных суперпозицией непрерывных функций одной переменной и сложения // ДАН СССР. 1957, Т. 114(5) . -С. 953-956.

115. Котович Н.В., Кляцкин В.A4., Славин O.A. Многопроходная схема распознавания документов с обучением // Сб. трудов ИСА РАН "Управление информационными потоками". -М.: Эдиториал-УРСС, 2002. С. 211-222.

116. Котович Н.В., Славин O.A. Распознавание скелетных образов // Сб. трудов ИСА РАН "Методы и средства работы с документами". М.: Эдиториал УРСС, 2000. - С. 204-215.

117. Кохонен Т. Ассоциативная память. -М.: Мир, 1980.

118. Кочин Д.Ю., Хлебутин П. С. Разработка многомодульных программных комплексов // Сб. трудов ИСА РАН " "Развитие безбумажной технологии в организационных системах". -М.:Эднториал УРСС, 1999.- С.110-126.

119. Логинов A.C. О некоторой схеме распознавания на основе признакового подобия объектов. Алгоритм построения дерева распознавания // Сб. трудов ИСА РАН "Развитие безбумажных технологий в организациях". М.:Эдиториал УРСС, 1999. - С. 127-136.

120. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика. 1988.

121. Мерков А.Б. Распознавание образов. Введение в методы статистического обучения. М. Едиториал УРСС, 2011.

122. Минский М., Пейперт С. Перцептроны. М.: Мир, 1971.

123. Мисюрёв A.B. Использование искусственных нейронных сетей для распознавания рукопечатных символов // Сб. трудов ИСА РАН "Интеллектуальные технологии ввода и обработки информации". М.:Эдиториал УРСС, 1998. - С.122-127.

124. Михайлов H.A. Распознавание изображений с помощью метода радиальных окрестностей // Компьютерная оптика. -2010, Т. 34, №3. С. 399-407.

125. Нильсон Н. Обучающиеся машины. М.: Мир, 1967.

126. Петровский А.Б. Основные понятия теории мультимножеств. М.:Эдиториал УРСС, 2002.

127. Петровский А.Б. Пространства множеств и мультимножеств. М.:Эдиториал УРСС. 2003.

128. Пиотровский Р.Г., Бектаев, К.Б., Пиотровская A.A. Математическая лингвистика. -М.: Высшая школа. 1977.

129. Постников В. В. Разработка методов наложения формы на графическое изображение документа // Сб. трудов ИСА РАН "Интеллектуальные технологии ввода и обработки информации". М.:Эдиториал УРСС, 1998. - С. 157-163.

130. Промахова И.М., Коростелев А.П. Об одном классе вероятностных рекуррентных алгоритмов распознавания. ВНИИСИ, препринт. М.: 1984.

131. Розенблатт Ф. Принципы нейродииамики. Перцептроны и теория механизмов мозга. М.: Мир. 1965.

132. Романов А.Н., Славин О.А, Титов Ю.В. Система адаптивного распознавания символов // Патент РФ на полезную модель № 63571 от 27.05.2007. Бюл. № 15 2007 (РосПатент).

133. Рутковская Д., Пшинъский М., Рутковский JT. Нейронные сети, генетические алгоритмы и нечеткие системы. М.: Горячая линия - Телком, 2007.

134. Сатин М.С. Фотоэлектрическое устройство, воспринимающее цифровые печатные знаки // Электрон. Вычисл. Машины. 1960, № 1. - С. 110-123.

135. Себастиан Г. Процессы принятия решения при распознавании образов. Киев:Техника, 1965.

136. Славин O.A. Алгоритмы распознавания структурированных документов с переменным составом // Программирование. 2005, №4.-С. 1-18

137. Славин O.A. Использование мультимножеств в распознавании символов // Сб. трудов ИСА РАН "Системныйподход к управлению информацией". М.: КомКнига, 2006, Том №23.-С. 155-173

138. Славин O.A. Комбинированные методы распознавания печатных и рукопечатных символов // Сб. трудов ИСА РАН "Документооборот. Концепции и инструментарий". -М.: Едиториал УРСС, 2004. С. 151-174

139. Славин O.A. Многопроходное распознавание смешанных печатных текстов на примере русско-английского распознавания // Сб. трудов ИСА РАН "Обработка изображений и анализ данных". М.: Едиториал УРСС, 2008, Т.38.-С. 272-277.

140. Славин O.A. Об одной реализации системы распознавания факсов // Сб. трудов ИСА РАН "Информационно-аналитические аспекты в задачах управления". -М.: Издательство ЖИ, 2007, Том № 29. С. 320-328.

141. Славин O.A. Распознавание атрибутов текстовых символов // Сб. трудов ИСА РАН "Документооборот. Концепции и инструментарий". М.: Эдиториал Едиториал УРСС, 2004.-С. 142-150.

142. Славин O.A. Средства управления базами графических образов символов и их место в системе распознавания // Сб. трудов ИСА РАН "Развитие безбумажных технологий в организациях". М.: Эдиториал УРСС, 1999. - С. 277-289.

143. Славин O.A., Подрабинович A.A. Древовидное распознавание нормализованных символов // Сб. трудов ИСА РАН "Интеллектуальные технологии ввода и обработки информации". -М.: Эдиториал УРСС, 1998. С. 137-157.

144. Славин O.A., Титов Ю.В. Динамическое построение функций сравнения с идеальным образом в задаче адаптивного распознавания текстовых символов // Информационные технологии и вычислительные системы. 2007, № 1. - С. 3-12.

145. Славин O.A., Шахвердиев Б.М. Алгоритмы сохранения результатов оптического распознавания // Сб. трудов ИСА РАН "Методы и средства работы с документами". М.: Эдиториал УРСС, 2000.-С. 3-12.

146. Террайен Ч.У., Куатьери Т.Ф., Даджон Д.Е. Алгоритмы анализа изображений, основанные на статистических моделях // ТИИЭР. 1986, Т. 74, № 4. - С. 4-25.

147. Титов Ю. В. Об искажении символов при сканировании // Сб. трудов ИСА РАН "Системный подход к управлению информацией". М.: КомКнига, 2006, Том № 23. - С. 260-288.

148. Фу К. Структурные методы в распознавании образов. -М.: Мир. 1977.

149. Хмелев Р.В. Совместное использование структурного анализа и метрики Хаусдорфа при сравнении объекта и эталона // Компьютерная оптика. 2005, Т. 27. - С. 174-176.

150. Шеннои К. Работы по теории информации и кибернетике. -М.: ИЛ, 1963.

151. Щепин Е.В. Кластерный анализ Электронный ресурс., http://www.mi.ras.ru/~scepin/Q-clust.pdf

152. Щепин Е.В., Непомнящий Г.М. К топологическому подходу в анализе изображений. Геометрия, топология и приложения (Межвузовский сборник научных трудов). М.: Московский институт приборостроения, 1990. - С. 13-25.

153. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. -М: Финансы и статистика. 1988.

154. Яглом А. М., Яглом И. М. Вероятность и информация. -М.: Наука. 1973.

155. Ян Д.Е. Исследование, развитие и реализация методов автоматического распознавания рукописных текстов в компьютерных системах // Автореферат диссертации на соискание ученой степени кандидата физико-математических наук.-2003.-С. 153-158.