автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Структурирование визуальных представлений информационной среды и методы определения надежности распознавания

кандидата технических наук
Арлазаров, Владимир Викторович
город
Москва
год
2004
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Структурирование визуальных представлений информационной среды и методы определения надежности распознавания»

Автореферат диссертации по теме "Структурирование визуальных представлений информационной среды и методы определения надежности распознавания"

На правах рукописи

Арлазаров Владимир Викторович

Структурирование визуальных представлений информационной среды и методы определения надежности распознавания

Специальность 05.13.01 - Системный анализ, управление и обработка информации (металлургия).

Автореферат диссертации на соискание ученой степени кандидата технических наук.

Москва, 2004 г.

Работа выполнена в Институте Системного Анализа РАН

Научный руководитель

доктор технических наук

профессор Емельянов Николай Евгеньевич

Официальные оппоненты

доктор технических наук профессор

Рыков Александр Семенович

кандидат технических наук Трофимов Евгений Александрович

Ведущая организация

Институт проблем информатики РАН

Защита состоится «ßiJ» f^ä^fßL_2005 года в часов на заседании

диссертационного совета Д.212.132.07 в Московском государственном институте стали и сплавов (технологический университет) по адресу: 119049, г. Москва, Ленинский проспект, д. 4.

С диссертацией можно ознакомится в библиотеке Московского государственного института стали и сплавов (технологический университет)

Автореферат разослан

JC ^^¿иЯ

2005

Ученый секретарь диссертационного совета кандидат технических наук профессор

Е. А. Калашников

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В современном мире ежедневно вводятся с бумажных носителей, заполняются на экранах компьютеров, обрабатываются различным образом и выводятся на бумагу миллиарды различных Документов: платежных поручений, таможенных или налоговых деклараций, банковских чеков, почтовых карточек, бюллетеней для голосования, разного рода бумажных и электронных анкет, заказов на товары Или услуги в электронных магазинах, разных отчетов и множество других. Вводя формы, сотни тысяч операторов выполняют однообразную последовательность действий: бросают взгляд на очередную страницу, находят и читают текст заполнения, затем набирают его на клавиатуре. Как альтернатива ручному вводу существуют технологии автоматизированного ввода документов. Есть и активно используются тысячи различных систем электронного документооборота, базирующихся на понятии «форма»; эти системы применяются практически во всех сферах деятельности.

Все активнее просматривается тенденция к объединению систем бумажного и электронного документооборота в единые комплексные системы, в которых идет оборот как бумажных, так и электронных документов. В эти системы интегрируются системы ввода/вывода бумажных документов и системы ввода/вывода электронных документов. Примером таких систем могут быть системы проведения социологических опросов, которые проводятся одновременно как посредством электронных форм, так и с помощью обычных бумажных анкет. Например, форма анкеты опроса, размещенная в глобальной сети, разосланная по электронной почте и напечатанная на бумаге, по сути, это одинаковые формы, содержащие одни и те же вопросы; их отличие заключено в способе представления и частично в способе взаимодействия с пользователем. Без единой модели формы необходимо, в лучшем случае, создать два описания (в некоторых случаях три) - описание электронных документов для глобальной сети и для распознавания бумажных документов при этом большая часть спецификаций (модель данных, правила проверки и заполнения) будет дублироваться. Для этого необходимо будет воспользоваться несколькими различными системами описания формы и языками программирования для создания этих форм. После чего еще необходимо реализовать обработку различных заполнений этих форм, используя разные средства разработки. Актуальной задачей проектирования таких комплексных систем документооборота является построение единого подхода к форме во всех ее проявлениях и создание модели формы, позволяющей описывать форму, как минимум, в трех представлениях.

Большую роль в обеспечении функционирования систем бумажного и электронного документооборота играют системы автоматического ввода заполненных бумажных форм, предоставляющие альтернативу ручному вводу. Такие технологии обладают рядом явных преимуществ: современные модели сканеров могут вводить до 200 страниц в мину-

ту, программы оптического распознавания текста "читают" несколько сотен символов в секунду и могут делать это 24 часа в сутки. Помимо выигрыша в стоимости и качестве ввода, технологии сканирования и распознавания документов имеют и другое существенное преимущество: корректно идентифицированный поток документов, включающий распознанную информацию и графические образы, может составлять основу электронного архива, представляющего функции быстрого поиска документа, извлечения, пересылки и печати графического образа документа (по качеству аналогичной ксерокопии документа). Развитие глобальных компьютерных сетей и возможность организации удаленного доступа к таким архивам подчеркивают это технологическое преимущество, постепенно выдвигают его на первый план.

Таким образом, разработка систем массового ввода стандартизированных форм документов представляется актуальной задачей. Эти технологии опираются на достижения в обработке изображений и в распознавании - двух самостоятельных, быстро развивающихся областях искусственного интеллекта. Однако в этих технологиях две задачи связаны не столько с распознаванием, сколько с процессами его окружающими. Об одной из этих задач уже говорилось это использование в распознавании и интерпретации его результатов той же информации, что и при заполнении экранных форм и печати их на бумагу.

Другая важная задача, определяющая, наряду с качеством распознавания, эффективность системы ввода, выявление необходимости ручного контроля результатов распознавания, иначе говоря, автоматическое определение достоверности результатов распознавания того или иного объекта без помощи человека.

Предмет диссертации. Предметом диссертации является анализ и изучение систем работы с формами, выявление общности, обеспечивающей конструктивную основу для решения задач ввода/вывода и распознавания структурированных документов в рамках систем документооборота стандартных форм, и построение методов оценки достоверности результатов распознавания. В рамках диссертации проводится исследование и разработка методологических основ, а также конкретных моделей, методов и средств для решения задач:

• моделирования структурированного документа с точки зрения различи«и задач ввода/вывода и распознавания,

• автоматизации разработки шаблона документа (экземпляра модели структурированного документа определенного типа),

• автоматического определения достоверности результатов распознавания полей структурированных документов в задачах ввода стандартных форм.

Цель работы. Целью диссертации является построение концептуальной модели формы, которая бы позволяла органично связать и описать основные процессы ввода/вывода

структурированных документов, и построение методов автоматического определения достоверности результатов распознавания полей структурированных документов в рамках разработанной концепции документа.

Задача состоит в построении концептуальной модели, которая позволяла бы описать форму в процессах:

• ввода/вывода электронных форм на дисплей монитора,

• автоматического распознавания форм,

• вывода форм на бумагу.

Методы исследования. Теоретические исследования основывались на применении методов системного анализа, математической статистики, теории оптимального управления, методах математического моделирования и нейросетевых алгоритмах. В работе используются различные методы нахождения оптимальных решений в задачах многокритериальной оптимизации. Особое внимание уделено надежности и эффективности работы алгоритмов в задачах принятия решения о надежности результата распознавания.

Научная новизна! Новизна предложенного в диссертации подхода состоит, прежде всего, в разработке универсальной модели формы структурированного документа, используемой для различных задач и абстрагированной от конкретных методов обработки, в отличие от существующих подходов, как правило, ориентированных на представление либо экранных, либо бумажных форм; впервые модель объединяет процессы ввода/вывода вне зависимости от того, экранная или бумажная форма используется в них. Независимость модели от особенностей конкретных методов обработки обеспечивает ее от!фытость для разработки и подключения новых методов, расширение классов обрабатываемых документов в рамках предложенной концепции. Кроме того, предложены новые подходы к реализации критериев достоверности результатов распознавания полей структурированных документов при использовании распознающих схем с оценкой, не имеющей вероятностного характера.

Практическая ценность. Разработанные в диссертационной работе модель формы и алгоритмы позволили создать на их основе высокопроизводительную надежную систему автоматизированного ввода структурированных документов. За счет использования модели формы система может обрабатывать большую номенклатуру различных документов и обеспечивает поддержку всех процессов ввода/вывода документов, позволяя с различной' степенью автоматизировать наиболее ресурсоемкие операции. Кроме того, заложенные в модели идиомы повторного использования объектов документов позволяют в сжатые сроки перенастраивать систему для ввода новых типов документов, сохраняя эффективность и надежность ввода.

Разработанные в работе алгоритмы оценки достоверности позволяют настраивать систему ввода на заданный уровень надежности, достоверности и скорости ввода документов.

Результаты исследований подтвердили, что использование нейросетевых алгоритмов для построения методов оценки надежности распознавания символа в условиях не стохастических подходов к оцениванию результатов распознавания дает высококачественный результат и позволяет строить системы ввода документов в реальном времени с минимальным числом ошибок, быстрее и надежнее человека. На защиту выносятся следующие результаты работы:

Модель формы структурированного документа, для решения задач обработки документов (распознавание, экранный ввод/вывод, печать), абстрагированная от конкретных методов обработки.

Многокритериальные методы определения надежности результатов распознавания структурированных документов.

Реализация и внедрение результатов работы. Результаты диссертационной работы были использованы при создании системы автоматизированного ввода документов Cognitive Forms. На основе их были реализованы и введены в эксплуатацию проекты по автоматизации ввода:

• «Табеля учета рабочего времени и расчета заработной платы» и «Накладных на вагоны» в ГМК Норильский Никель.

• Ввод документов персонифицированного учета в Московском отделении Пенсионного фонда России.

• Ввод платежных документов в Сбербанке России и ряде других коммерческих банков.

• В ряде других государственных и частных организаций.

В данный момент Модель документа и алгоритмы определения надежности распознавания используются в проекте по автоматизации ввода счетов-фактур для Магнитогорского Металлургического Комбината.

Апробаиия работы. Основные положения и результаты диссертационной работы неоднократно докладывались и обсуждались на семинарах ИСА РАН. Публикации. По теме диссертации опубликовано пять работ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы (наименований) и приложение. Общий объем работы - 120 страниц, включающих 40 рисунков и 6 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

В введении обосновывается актуальность задач, решению которых посвящена диссертация, формулируются цели диссертационной работы, определяется научная новизна и практическая значимость полученных результатов.

В первой главе диссертационной работы приведен обзор современного состояния проблем создания модели формы документа в различных его представлениях и дан критический анализ существующих методик и моделей, обобщающих документ в том или ином наборе представлений. Далее приведены обзоры и анализ методов и моделей оценки достоверности результатов распознавания символов комбинирующими схемами распознавания в условиях стохастической и не стохастической природы оценки результата распознавания. Формулируются цели и задачи исследований.

Исследование, проведенное в первой главе, ясно показывает постепенное изменение отношения к работе с формами, происходящее у разработчиков программного обеспечения за последние 10-15 лет. Сначала это было вспомогательное средство ввода, одно из многих - сервисная утилита «генератор ввода» в 70-х годах. Характерно, что о системе ввода, не говоря уже о работе с формами, даже не упоминается в фундаментальных работах по базам данных в 1975-1985 годов. Только с середины 80-х годов работа с экранными формами ввода стала рассматриваться как необходимая часть серьезной СУБД.

Теоретические основы построения модели отображаемого на бумагу электронного документа и классификация основных приемов визуализации сложноструктурированных данных представлены в работах Н.Е. Емельянова и его учеников. В рамках данной теории под документом понимается структурированный текст как совокупность взаимосвязанных семантических блоков (некоторых фрагментов документа, выделенных по смысловому содержанию).

С развитием глобальной сети Интернет развитие данной тематики пошло ускоряющимися темпами: работа с экранными формами появляется в HTML и в библиотеках «визуальных» языков программирования. Одновременно расширяется работа с бумажными формами, которые считались самостоятельными утилитами ввода. Типичный, вариант предоставляет система Crystal Report1. Сегодня некоторые возможности для создания и печати форм имеет даже MS Word2.

С точки зрения распознавания структурированных документов можно выделить 3 основные группы методов:

1 Crystal Report - система подготовки отчетов.

2 MS Word - текстовый процессор разработки фирмы Microsoft, входящий в пакет Microsoft Office.

1) методы описания формы документа и его идентификации на основе линий разграфки,

2) методы и модели описания форм документов табличного вида,

3) методы и модели описания и идентификации нежестко определенных форм документов.

Включение системы распознавания бумажных документов в обпито систему работы с документами сразу показало недостаточность существующих концепций структуризации имеющихся объектов и процессов. Такие вопросы, как использование описания форм для распознавания, поддержка технологий массового ввода, поддержка ручной верификации - просто не укладываются в существующие концепции.

В работе дается обзор методов определения достоверности результатов распознавания, когда оценки gk являются либо апостериорными вероятностями принадлежности, либо существует простое преобразование из шкалы оценок классификатора к апостериорным вероятностям. Система распознавания (далее классификатор) - как некоторая функция, решающая проблему определения, к какому классу из М классов {С,}" (далее алфавит распознавания) принадлежит образ х в виде:

С(х) = а(а],...,ак,...) kel...M, где С(х) - классифицирующая функция, а а - вектор альтернатив. Каждая альтернатива представляет из себя пару (i,, pt), где i, - индекс класса, pt - оценка апостериорной вероятности принадлежности к tt—му классу. В этом случае правило выбора альтернативы с максимальной оценкой является правилом Байеса. С.К. Chow модифицировал правило Байеса, дополнив его возможностью отказа от классификации в случае недостаточной достоверности результата:

Г ^т We~WR

результат достоверен, если max pv > Г = —4-—

Л(в,0) = j w к k WE-WC ,

[результат не достоверен, в противном случае где WE - цена ошибки распознавания, WR - цена обработки отбракованного символа и Wc - цена ввода правильного символа.

Это правило прямо опирается на оценку первой альтернативы, мы будем в дальнейшем называть такие правила «первой» альтернативы.

Далее дается анализ методов, базирующихся на комбинировании оценок первых двух альтернатив: уа= pF и ц/ь =1 ~{ps! pF), где pF - максимальная оценка принад-

лежности (pF - тъх{рк}), a ps - следующая за ней. Проанализированы правила отбраковки, различным способом комбинирующие у/а и у/ь в качестве порогов:

\-Va-4>b+1yavb

Более комплексный подход к решению задачи построения правил определения достоверности результатов распознавания предложен Н. Горским. Для построения решающего правила автор ставит проблему определения достоверности как обычную задачу распознавания с двумя возможными классами: «достоверные», «недостоверные» в рамках парадигмы выбора Байеса, т.е.:

1. Необходимо определить пространство признаков каждого вектора альтернатив;

2. Вычислить в этом пространстве апостериорную вероятность принадлежности к классам «достоверно» и «недостоверно»;

3. Применить решающее правило Байеса с различными ценами ошибки и отбраковки. Для определения апостериорных вероятностей и выбора решающих правил могут

применяться различные методы, в частности, во многих случаях хорошие результаты дает использование нейронных сетей.

Приведенное в первой главе исследование моделей и алгоритмов оценки достоверности показывает, что основная часть методик оценки надежности результата распознавания опирается на стохастическую природу оценки, выдаваемой каждому классу распознающей схемой. Поэтому большинство методик не применимы (за исключением простейших пороговых правил) или требуют изменения пространств признаков, на которые они опираются, в случаях, когда оценка распознавания имеет не стохастическую природу. Из того факта, что приведение природы оценки к стохастической не всегда возможно, и/или может быть крайне затруднительным и распространенности схем с не стохастической природой оценки при решении практических задач, следует необходимость исследования возможности адаптации существующих алгоритмов и разработки новых для оценки результатов распознавания.

Во второй главе разрабатывается подход к построению Формы на основе выделения трех ее основных компонентов: модели содержания, модели взаимодействия и модели визуализации (рис.1.) - и дальнейшего разложения каждой компоненты на слои обязательные, регламентированные и слои расширения.

Введенное разделение не является общепринятым даже на верхнем уровне. Если понятия, аналогичные модели содержания и модели визуализации присутствуют во многих концепциях, то модель взаимодействия присутствует в них в виде набора статических или операциональных описаний конкретных программ ввода/вывода и записи/извлечения данных из базы.

Явное выделение модели взаимодействия позволило структурировать необходимые функции, исследовать их с единых позиций и, в ряде случаев, симметризировать. В частности, процесс распознавания - один из основных механизмов ввода бумажных документов, который до сих пор рассматривался как функция - «черный ящик», занял свое место наряду с другими процессами ввода/вывода.

Важным результатом является также выделение обязательных и регламентированных слоев. Оно обеспечивает разработку стандартных интерфейсов, благодаря чему «правильные описания» воспринимаются даже системами, их не обрабатывающими. При этом система всегда может быть дополнена (а не переработана) для обработки соответствующих слоев.

Все слои моделей разбиты на три группы:

1. Обязательный слой - слой модели, который должен присутствовать в любой конкретной Форме.

2. Регламентированный слой - слой модели, состав и функции которого заранее определены в данной концепции (хотя и не являются обязательными для каждой конкретной Формы). Обязательный слой является Регламентированным.

3. Слой расширения - слой модели, синтаксис и грамматика которого задаются в данной концепции, но его состав и назначение в данной концепции не заданы.

Слои модели, выделенные и описанные в главе 2, представлены в таблице 1.

Таблица 1

Модель формы Слой

Обязательный Регламентированный

Модель содержания Слой «Модель данных» Слой ограничений данных

Схема создания данных Формы

Схема сохранения данных Формы

Модель взаимодействия Слой «секционная модель документа» Событийная модель

Слой «модель объектов ввода/вывода» Свойства распознавания полей

Схема преобразования модели содержания в секционную модель Ограничения на данные сегментной модели

Модель визуализации Схема преобразования модели взаимодействия в модель визуализации Слой описания визуализации на стандартных языках (например, на ХЭЬ-РО)

Слой описания визуализации формы на экране

Слой визуализации формы на печатном устройстве

Слой идентификации/распознавания формы

Особо описывается в главе концепция секционной модели документа - базовой компоненты модели взаимодействия. Секционная модель документа задает способ представления объекта как дерева текстовых и бинарных фрагментов, определяя, с одной стороны, взаимосвязь между моделью взаимодействия и моделью содержания, а с другой стороны, взаимосвязь между моделью взаимодействия и моделью визуализации, и фактически является результатом работы процессов ввода или вывода. Реализация секционной модели представляет собой документ, записанный деревом, вершинами которого являются секции и абзацы.

Модель представляет из себя ориентированный граф, задающий описание сегментации в дерево секций класса документов. Вершинами этого графа являются схемы секций, а ребрами - схемы «переходов» к следующей секции. Схема секции содержит описание секции документа и задает тип секции.

Пример такой модели представлен на рис 2.

Рис. 2. Граф секционной модели документа СЗВ-З в процессе распознавания.

Далее в главе выделяется понятие базисной секции, выделяются семантические блоки, являющиеся необходимыми для сохранения смысла документа. В работе выделены и описаны семь типов базисных секций: «Имя», «Дата», «Перечисление», «Сумма», «Адрес», «Реквизиты физического лица», «Реквизиты юридического лица». Для примера приведем структуру и описание двух секций: «Имя» и «Адрес»:

1. «Имя» - тип секции, описывающий либо личные данные («фамилия», «имя», «отчество»), либо название организации (но не название документа - документ может и не иметь названия) рис 3.

2. «Адрес» - тип секции, описывающий адресную информацию, получен из понятия «Место» путем более четкой его спецификации, рис 4. Секция описывает адресную информацию в принятом в Российской Федерации виде. Схема представлена на рис. 4, где А - адрес, записанный по канонам русского языка, И - индекс, С - страна,, Рн -район региона РФ, Нп - населенный пункт (село, деревня, ПГТ и т.д.). Адрес разделяется на два блока с одной общей вершиной - индекс. Первый блок - адрес, записанный по правилам русского языка - 5', второй блок - представление адреса в стандартизированной форме из 10 полей - 5*, которая используется для его представления в информационных системах. При выводе информации происходит преобразование 5" -> 5', при вводе информации - обратное 5' -> 5", надо отметить, что задача обратного преобразования значительно сложнее прямого.

Рис. 3. Схема секции «Имя».

В конце главы даны синтаксические определения понятий, сформулированных в этой главе, в Бэкусовой нормальной форме (БНФ).

Третья глава посвящена вопросам построения моделей и алгоритмов оценки принятия решения о надежности результатов распознавания и построения оценки эффективности работы системы распознавания. Для оценки эффективности устанавливается основной объект обработки - поле документа, и для полей вводятся определения ошибок работы системы. Наиболее важные определения:

Определение 1. Поле считается обработанным с ошибкой распознавания первого рода, если поле правильно распознано, но не признано достоверным.

Определение 2. Поле считается обработанным с ошибкой распознавания второго рода, если поле неправильно распознано, но признано достоверным.

Вводится понятие системы распознавания - Система распознавания (далее классификатор) - это функция, решающая проблему определения, к какому классу из М классов {С,}" (далее алфавит распознавания) принадлежит образ х в виде

С(дс) = а(а1>...,а„...)

где С{х) - классифицирующая функция, а а - вектор альтернатив. Каждая альтернатива представляет из себя пару , где - индекс класса, - оценка принадлежности к

¡'4 -му классу. При этом оценка принадлежности gk тем выше, чем больше, по мнению С(х), возможность принадлежности образа х к С^ классу. Необходимо отметить, что природа оценки может быть как вероятностной, так и иметь не стохастическую природу, например: расстояние между эталоном и образцом gl = -|х - д || , где д - эталонная модель класса . В задаче распознавания документов имеется необходимость каким-либо образом детектировать те случаи, когда классификатор выдал максимальную оценку для класса, к которому образ в реальности, возможно, не принадлежит, например для последующей ручной обработки. Определяется С1 - множество распознаваемых образов и вводится функция

{1, если образ а», правильно распознан О, если образ а\ распознан с ошибкой,

разбивающая множество П на подмножества С1с - правильно распознанных образов и С1е - неправильно распознанных образов. Определяется решающее правило Л(й>, , в), которое определяет достоверность результата распознавания ¿-го образа множества О на основании результатов распознавания и множества внешних параметров в. Все множество полей разбивается на 4 подмножества по правильности распознавания и правильности определения достоверности, рис 5.

о

Достоверные Недостоверные

Рис 5. Разбиение множества О.

Для фиксированного классификатора сформулированы три постановки задачи выбора оптимального правила определения надежности результатов классификации-Задача 1. Выбор Л , обеспечивающий + - .

Задача 2. Выбор Л, обеспечивающий тах А, Е < Ке. Задача 3. Выбор Л, обеспечивающий тт£,

т |

А =—• 100 - процент правильно распознанных и достоверных полей в контрольной N

выборке, Е = £^-100 - процент ошибок второго рода, IV- соответственно

«чистые» (без учета издержек ввода) веса исправления, контроля и ошибки, а Ргс, Р^ -вычисленные апостериорные вероятности соответствующих событий.

Рассматриваются различные подходы (правила первых альтернатив, двух альтернатив и комплексный подход) к построению схем принятия решения о достоверности и различные способы решения задач 1-3 в условиях распознавания рукопечатных цифр (пример приведен на рис. 6).

а г^н ес*

Рис 6. Пример рукопечатных символов цифр от 0 до 9.

Для правил первой альтернативы проводится рассмотрение алгоритма выставления как одного порога для всех классов, так и для каждого класса в отдельности. Для поклас-сового правила «первой» альтернативы приводится постановка и решение следующей задачи: имеется К- мерное целочисленное пространство порогов Тк и всюду определенные в этом пространстве функции E(t) - процент ошибок второго рода и R{t) - процент ошибок первого рода, f е Г*, а К = М, задача:

opt(t) = mmX(t)

E(t) = ^ ^ ^ где с _ процент ошибок,

N

ю

NJt) = ZZ'fe- * maxgt) а (g, = maxgt) л (x e С,) л (max gk >(,))•

f-1 X ' '

m = , где Nc = = wngt) л(х € С,)),

"с IX

10

NJt) = XZ'((ä = JMxg4) л (x б С,) л (шах gk </,))■

(=1 X '

Аналогично для поклассового правила двух альтернатив ставится и решается следующая задача: пусть имеется К- мерное целочисленное пространство порогов Тк и всюду определенные в этом пространстве функции E(t',t") - процент ошибок второго рода и R(t',t') - процент ошибок первого рода, t',f еТк, а К = 2М, задача:

opt(t',r) = mmR{t\t") т

E(tf, t") = 100 <, с,, где С, - процент ошибок.

N

м

= =maxgt)A(x6C,)) /((maxgk S<,')A(maxgk </,*))

Ы X * 1 1-t 1-i

R(l\t') = 10°"УЛ ,где Nc = £ £/((,, = raaxgi)A(xeC,)),

"с 1 x

10

= = mP&) A(xeC,))-/((maxgk <r(')v(maxgl atf)).

(-1 jf 4 n

Эти две задачи решаются с помощью адаптации стандартных методов оптимизации и результат решения показан на рис. 7.

О 0 1 0 2 0 3 04 0506070809 1 11 1213141516171819 2 212223242526272829 3 3132333435363738

Ошибок второго рода %

ЕЯ - первая альтернатива ЕЙ - двух альтернатив ЕЯ-дельта —ЕЯ-оптимального поклассового двух альтернатив

Рис. 7 ЕЙ кривые для правил одной и двух альтернатив

Далее автором предлагается комплексный системный подход к построению алгоритмов принятия решения о надежности распознавания. Для чего определяется пространство параметров, в которых будут оперировать такие алгоритмы. Все параметры разбиты на три группы:

1. Априорные параметры, характеризующие саму систему и объекты распознавания, такие как: матрица межклассовой близости и матрица межклассовых отношений.

2. Параметры, характеризующие вектор альтернатив - оценки, число альтернатив, индексы классов альтернатив, у/а,угь, Д,, А2 и другие.

3. Параметры применения - множество параметров, которое задается извне и зависит от применения системы распознавания, примерами таких параметров являются ЦГЕ - цена ошибки распознавания второго рода, - цена отбраковки и 1УС - цена правильного распознавания.

Все эти параметры образуют параметрическое пространство Л, в котором каждому вектору альтернатив а, соответствует точка с координатами X, =(Я[,...,ХК), где N - размерность пространства. Таким образом, задача определения достоверности заключается в построении решающего правила /г*(А,)е {С,,С2}, что эквивалентно решению обычной задачи распознавания с двумя возможными классами.

Для решения этой задачи была использована нейронная сеть. После того как сеть обучена на размеченном эталонном множестве, на выходе она выдает апостериорные вероятности Р(С1 | х) - вероятность достоверного ответа распознающей схемы и Р(С21 х) -вероятность ошибки.

Для распознавания двух классов принцип выбора Байеса можно записать следующим образом: объект х принадлежит к классу С,, если выполняется условие

цпР(С1\х)>^2Р(С2\х), в противном случае - к классу С2. Коэффициенты М\2>Ми означают цену ошибок первого и второго рода. Приняв во внимание, что Р(С, | х) + Р(С2 | дг) = 1, правило выбора можно преобразовать к виду:

Р(С1\х)>(1 + м21/н2Г'-

Видно, что решение зависит от одного параметра - отношения цен ошибок первого и второго рода. Каждое значение этого порога определяет конкретное соотношение числа ошибок первого и второго рода - точку на ЕЯ кривой.

Нейронная сеть frNET(a,0) выдает Pg - оценку вероятности Р(С, | х). Определим порог Т, все образцы с вероятностью > 7' будем считать достоверными, а все образцы с вероятностью Pg<T будем считать недостоверными и забракуем. Число ошибок первого и второго родов будет задаваться соотношениями:

= ££'((& = 6 С,) л(/,"ст(Д,0) < 7-))

Ы А"

fcl JT * *

К преимуществам описываемого подхода относятся:

• сведение задачи к стандартной задаче распознавания с двумя классами,

• учет как большинства внутренних свойств системы, так и области ее применения,

• использование теоретически и практически хорошо проработанных методов теории распознавания.

Для обучения и построения решающего правила отбраковки в системе Cognitive Forms была разработана трехслойная нейронная сеть с четырнадцатью входами и двумя выходами в виде оценок вероятностей достоверности и недостоверности. Для обучения использована специально набранная из реальных документов база рукопечатных символов, состоящая из 100000 образцов, в том числе и 5% ошибок. После проведения обучения были замерены значения ошибок первого и второго рода для различных порогов, и была получена ER кривая, которая показана на рис. 8. Для сравнения на рис. 8 показана лучшая (с точки зрения отношения ошибок первого и второго рода) из кривых для правил первой и второй альтернатив.

14 ---------------------------

Рис. 8. ЕЛ кривые для оптимального поклассового порога двух альтернатив и нейронной сети.

В четвертой главе изложены подробности практической реализации системы обработки форм, включая систему распознавания, использующую концепцию формы, представленную во второй главе, и алгоритмы принятия решения о надежности распознавания, изложенные в третьей главе.

Модель обработки описывает основные субъекты и объекты, процессы, которые выполняются с формами, и программные блоки, которые реализуют тот или иной процесс. Схема обработки формы представлена на рис 9.

Система оборота Форм и документов

Преобразование | Форм и ^

Архив Форм и документов

документов

Дизайнер Форм

Рис 9 . Схема модели обработки Форм.

Все процессы, описанные на рис. 9, разделены на три категории:

1. Проектирование и подготовка форм, один из важнейших процессов, обеспечивается системой - «Дизайнер форм».

2. Ввод/Вывод форм - взаимодействие с пользователем и другими системами, параметризуется Формами и обеспечивается четырьмя блоками:

a. Система «Ввод бумажных форм» - распознавание и ввод бумажных документов,

b. Система «Генератор отчетов» - вывод форм на бумагу.

c. Система «Экранных Форм» - ввод/вывод форм на дисплей.

(1. Система «Электронных Форм» - ввод/вывод форм в глобальных сетях, например в Интернет.

3. Оборот и хранение данных форм - семейство процессов, обеспечивающих хранение, архивирование и движение форм, представлено, четырьмя блоками:

a. Хранилище форм и документов - обеспечивает хранение моделей форм и данных.

b. Преобразование Форм и документов - обеспечивает преобразование из одной формы в другую.

c. Архив Форм и документов - обеспечивает архивное хранение форм и документов и доступ к ним.

d. Система оборота Форм и документов - обеспечивает процессы документооборота форм.

Далее основное внимание в главе уделяется вопросам и задачам реализации системы автоматизированного ввода и документов. Модели и алгоритмы, описанные в работе нашли свою реализацию в системе Cognitive Forms, которая представляет собой программный комплекс, предназначенный для организации технологических линий массового ввода документов стандартных форм. Система позволяет вводить как бумажные документы с печатным заполнением, так и формы с рукопечатным заполнением, кроме того, система обеспечивает порождение электронных форм в стандартных форматах, используемых в глобальных и локальных сетях - HTML, Adobe PDF и XForms, и сбор данных порожденным формам. Модули системы устанавливаются на компьютерах, соединенных в локальную вычислительную сеть, и, взаимодействуя между собой, организуют конвейер обработки данных, позволяющий вводить до 50 ООО (реально достигнутая величина) и более страниц за сутки. Система функционирует на платформе Win32, система включает 14 исполняемых модулей (основных и вспомогательных) и более 100 динамически подгружаемых библиотек. Основная часть системы реализована на языке С++, общий объем кода составляет около 800 000 строк.

В процессе разработки системы был сформулирован ряд принципов, в соответствии с которыми и велась ее разработка: Иерархическая организация, «Нечеткое» распознавание, Модульность и Стандартизация, Адаптивность, Устойчивость, Бесперебойность, Масштабируемость и распределенные вычисления, Качество и Эффективность. Схема функционирования системы разделена на два этапа:

1. Подготовительный - на этом этапе выполняется полный дизайн множества макетов форм, описанный выше, или производится дополнительная настройка готовых макетов для их распознавания. Результатом этого этапа является множество моделей форм, подготовленных для их распознавания.

2. Рабочий - на этом этапе выполняется основная технологическая цепочка:

a. Получение электронного образа документа, например путем сканирования.

b. Подготовка полученного образа для распознавания (цветоредукция, удаление погрешностей сканирования и т.д.).

c. Сортировка документов по типу - поток документов разделяется на отдельные подпотоки, которые обрабатываются отдельно. Кроме того, на этапе происходит предварительный контроль целостности документа (например, все ли листы документа присутствуют) и контроль операции сканирования (отслеживаются склейки страниц при протяжке и другие дефекты сканирования). Эта процедура применяется, когда технологические линии обработки различны для различных типов документов, или имеется необходимость раннего обнаружения структурных ошибок документов или ошибок сканирования.

<1. Обработка ошибок сортировки - оператор обрабатывает ошибки процесса сортировки и сканирования. Оператор принимает решение отправить документ на пересканирование, на дальнейшую обработку или, если документ содержит неустранимые ошибки, отправителю.

е. Распознавание документа — идентификация типа формы, выделение объектов формы, распознавание полей и контроль логической непротиворечивости, распознанных данных в соответствии с описанием формы.

Г Верификация документа - исправление ошибок заполнения и распознавания, подтверждение «сомнительных» полей, просмотр полей, не прошедших логический контроль, и принятие оператором решения о судьбе таких документов.

g. Обработка «плохих» документов - принятие оператором решения о судьбе документов, содержащих неисправимые ошибки.

Ь. Экспорт данных - преобразование данных из модели взаимодействия в модель данных, контроль целостности в соответствии с описанием и передача данных во внешнее хранилище.

Результатом второго этапа являются поля данных бумажного документа, преобразованные в электронный вид. Фактически на этом этапе происходит преобразование документа реального мира (бумажного документа) в электронный документ. В главе приведено описание каждого этапа системы, его задачи и цели.

Заключение представляет перечень основных результатов диссертационной работы, характеризующих выполнение поставленной цели.

В Приложении представлены примеры форм документов и модели технологических линий обработки документов.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Основные теоретические и практические результаты работы заключаются в следующем:

1. Проведен анализ существующих моделей представления формы в различных областях применения, проанализированы методы и средства описания моделей форм и системы обработки форм. Проведен анализ алгоритмов и моделей принятия решения о надежности результатов в задаче распознавания символа. Показана необходимость разработки единой концепции формы, охватывающей большинство процессов ее обработки. Кроме того, показана необходимость разработки методов определения надежности результата распознавания в системах с комбинирующими схемами распознавания, выдающими оценку в виде отличном от вероятности.

2. Разработан комплексный подход к построению модели формы документа, который позволил создать модель формы, унифицировано описывающей ее в трех процессах: распознавании, редактировании на экране и печати на принтере. В рамках подхода проведено выделение трех ее основных компонентов- модели содержания, модели взаимодействия и модели визуализации - и дальнейшее разложение каждой компоненты на слои обязательные, регламентированные и слои расширения. Важным результатом является выделение модели взаимодействия. Модель взаимодействия занимает промежуточное положение между моделью содержания и моделями визуализации и описывает схемы взаимодействия «пользователя» и данных формы. В слоях этой модели содержится специфика процессов, в которых принимает участие форма, и необходимые дополнительные описания и данные для обеспечения процесса обработки и целостности данных.

3. Построены различные критерии определения достоверности результатов распознавания символов полей документов и проведено практическое исследование их эффективности. Для критериев первой альтернативы и двух альтернатив были сформулированы и решены задачи нахождения порогов в виде стандартных задач условной оптимизации. Построен оптимальный комплексный критерий достоверности, основанный на подходе к проблеме определения достоверности как одной из разновидностей задачи классификации. Была дана постановка задачи определения достоверности и предложено решение с помощью нейронной сети, выдающей ответ в виде оценки вероятности достоверности результата распознавания.

4. Разработаны методы, алгоритмы и процедуры принятия решения о надежности, базирующиеся на критериях надежности распознавания, позволяющие создавать схемы распознавания с регулируемым числом отказов и ошибок распознания для различных задач ввода документов.

5. Разработана структура и отдельные модули системы автоматизированного ввода и обработки форм документов Cognitive Forms, которая автоматизирует процессы ввода форм с бумаги и их дальнейшую обработку. В данной системе нашли свое применение концептуальные модели, предложенные в работе, критерии, алгоритмы и процедуры определения надежности распознавания символа. Система нашла свое применение для решения задач управления и планирования на ряде Металлургических комбинатов и в других крупных организациях.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1 Арлазаров В.В. «Задачи, возникающие в системах массового ввода структурированных документов». Сборник тезисов докладов участников Ш региональной- научно-практической конференции «Профессиональная ориентация и методика преподавания в системе Школа-ВУЗ». М., 2002 г, том 1 стр. 68-69.

2. Арлазаров В.В. «Cognitive Form: Распределенная система потокового распознавания стандартных форм документов». 6-я Международная конференция «Распознавание образов и анализ изображений: новые информационные технологии», РОАИ-б-2002, том 1, стр. 41-45, Великий Новгород, 2002 г.

3. Арлазаров В. В., Постников В. В., Шоломов Д. Л. Cognitive Forms - система массового ввода структурированных документов. //«Управление информационными потоками» Сборник трудов Института системного анализа РАН./ М., УРСС, 2002 г.

4. Арлазаров В. В. Управление информационными потоками в системе автоматического ввода документов. //«Управление информационными потоками», Сборник трудов Института системного анализа РАН./ М., УРСС, 2002 г.

5. Арлазаров В.В., Кляцкин В.М. Решение задачи определения достоверности результатов распознавания символа в системе Cognitive Forms. // «Документооборот. Концепции и инструментарий», М., УРСС, 2004.

Соискатель fJr// Арлазаров

РНБ Русский фонд

2006-4 6441

Издательство УРСС

дистрибьютор научной и учебной литературы

Телефон / факс: (095) 135-42-46,135-42-16 е-шаИ: URSS@URSS.ru Каталог изданий //URSS.ru

Отпечатано в типографии ООО «РОХОС». 117312, г Москва, пр-т 60-летия Октября, 9. Подписано к печати 21 12 2004 г. Формат 60x90/16. Ткраж 100 экз Псч. л. 1,5

\

С /

Е /

Оглавление автор диссертации — кандидата технических наук Арлазаров, Владимир Викторович

Введение.

Глава 1. Обзор существующих моделей форм и методов определения достоверности распознавания.

1.1. Обзор существующих моделей форм.

1.1.1. Модели вывода структурированных данных.

1.1.2. Обзор моделей идентификации и распознавания бумажных структурированных документов.

1.1.3. Анализ средств разработки экранных форм документов.

1.1.4. Обзор наиболее распространенных в мире форматов/моделей представления форм документов.

1.2. Обзор существующих методов определения достоверности результатов распознавания.

1.3. Выводы.

Глава 2. Концепция Формы.

2.1. Модель формы и ее компоненты.

2.1.1. Определение формы.

2.1.2. Основные положения.

2.1.3. Структура Моделей Формы.

2.2. Концепция Формы и Процессы обработки Формы.

2.3. Модель содержания.

2.3.1. Слой «модель данных» Формы. Назначение: описание данных Формы, их структуры и связи с внешними источниками данных.

2.3.2. Схема обмена данными с внешним информационным объектом.

2.3.3. Слой ограничения данных.

2.4. Модель взаимодействия.

2.4.1. Секционная модель документа.

2.4.2. Базисные секции.

2.4.3. Слой «модель объектов ввода/вывода».

2.4.4. Слой «событийная модель».

2.4.5.Слой «свойства распознавания полей».

2.4.6. Слой «ограничения на данные сегментной модели».

2.4.7. Слой «словари».

2.4.8. Слой «модель содержания в секционную модель».

2.5. Модель визуализации.

2.5.1. Схема преобразования модели взаимодействия в модель визуализации.

2.6. Синтаксические определения, связанные с формой.

2.7. Выводы.

Глава 3. Достоверность распознавания в модели взаимодействия.

3.1. Задача распознавания форм.

3.2. Классифицирующая функция.

3.3. Оценка эффективности системы распознавания.

3.4. Правила определения достоверности.

3.5. Правила «первой» альтернативы.

3.6. Правила «двух» альтернатив.

3.7. Комплексные правила отбраковки.

3.8. Практическая реализация и исследование поведения различных правил определения достоверности.

3.9. Выводы.

Глава 4. Система обработки форм.

4.1. Система обработки форм.

4.1.1. Общая модель системы обработки форм.

4.2. Проектирование и подготовка форм.

4.2.1. Дизайнер Форм.

4.3. Система Распознавания форм.

4.3.1. Основные принципы, заложенные в систему при разработке.

4.3.2. Схема функционирования.

4.3.3. Основные этапы рабочего цикла технологии.

4.3.4. Варианты технологических линий ввода документов.

4.3.5. Вопросы эффективности и качества работы системы ввода документов.

4.4. Примеры применения системы Cognitive Forms для решения задач массового ввода документов.

4.4.1. Ввод документов Московского отделения Пенсионного Фонда Российской Федерации.

4.4.2. Ввод банковских Платежных документов.

5. Выводы.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Арлазаров, Владимир Викторович

В современном мире ежедневно вводятся с бумаги, заполняются на экранах компьютеров, обрабатываются различным образом и выводятся на бумагу миллиарды различных форм документов: почтовых карточек, платежных поручений, таможенных или налоговых деклараций, банковских чеков, бюллетеней для голосования, разного рода бумажных и электронных анкет, заказов на товары или услуги в электронных магазинах, разных отчетов и множество других. Вводя формы, сотни тысяч операторов выполняют однообразную последовательность действий: бросают взгляд на очередную страницу, находят, и читают текст заполнения, и быстро набирают его на клавиатуре. Как альтернатива ручному вводу существуют технологии автоматизированного ввода форм. Существуют и активно используются тысячи различных систем электронного документооборота, базирующихся на понятии «форма», эти системы применяются практически во всех сферах деятельности.

Все активнее просматривается тенденция к объединению систем бумажного и электронного документооборота в единые комплексные системы, в которых идет оборот как бумажных, так и электронных документов. В эти системы интегрируются системы ввода/вывода бумажных документов и системы ввода/вывода электронных документов. Примером таких систем могут быть системы проведения социологических опросов, которые проводятся одновременно как посредством электронных форм, так и с помощью обычных бумажных анкет. Например, форма анкеты опроса, размещенная в глобальной сети, разосланная по электронной почте и напечатанная на бумаге, по сути, это одинаковые формы, содержащие одни и те же вопросы; их отличие заключено в способе представления и частично в способе взаимодействия с пользователем. Без единой модели формы необходимо, в лучшем случае, создать два описания (в некоторых случаях три) - описание электронных документов для глобальной сети и для распознавания бумажных документов, при этом большая часть спецификаций (модель данных, правила проверки и заполнения) будет дублироваться. При этом необходимо будет воспользоваться несколькими различными системами описания формы и языками программирования для создания этих форм. После чего еще необходимо будет реализовать обработку различных заполнений этих форм, используя разные средства разработки. Актуальной задачей построения таких комплексных систем документооборота является построение единого подхода к форме во всех ее проявлениях и создание модели формы, позволяющей описывать форму, как минимум, в трех представлениях.

В данный момент в мире активно происходит переход от бумажных форм к электронным или экранным формам, при этом сохраняется и оборот бумажных форм. Большую роль в обеспечении такого перехода и в функционировании таких смешанных систем играют системы автоматического ввода заполненных бумажных форм, предоставляющие альтернативу ручному вводу. Такие технологии обладают рядом явных преимуществ: современные модели сканеров могут вводить до 200 страниц в минуту, программы оптического распознавания текста "читают" несколько сотен символов в секунду и могут делать это без перерыва на обед. Помимо выигрыша в стоимости и качестве ввода, технологии сканирования и распознавания документов имеют и другое существенное преимущество: корректно идентифицированный поток документов, включающий распознанную информацию и графические образы, может составлять основу электронного архива, представляющего функции быстрого поиска документа, извлечения, пересылки и печати графического образа документа (по качеству аналогичной ксерокопии документа). Развитие глобальных компьютерных сетей и возможность организации удаленного доступа к таким архивам подчеркивают это технологическое преимущество, постепенно выдвигают его на первый план.

Таким образом, разработка систем массового ввода стандартизированных форм документов представляется актуальной задачей. Эти технологии опираются на достижения в обработке изображений и в распознавании двух самостоятельных, быстро развивающихся областях искусственного интеллекта. Однако в этих технологиях две задачи связаны не столько с распознаванием, сколько с процессами его окружающими. Об одной из этих задач уже говорилось, это использование в распознавании и интерпретации его результатов той же информации, что и при заполнении экранных форм и печати их на бумагу.

Другая важная задача, определяющая, наряду с качеством распознавания, эффективность системы ввода, выявление необходимости ручного контроля результатов распознавания, иначе говоря, автоматическое определение достоверности результатов распознавания, того или иного объекта без помощи человека.

Предметом данной работы является анализ и изучение систем работы с формами, выявление общности, обеспечивающей конструктивную основу для решения задач ввода/вывода, и распознавания структурированных документов в рамках систем документооборота стандартных форм, и построение методов оценки достоверности результатов распознавания. В рамках работы проводится исследование и разработка методологических основ, а также конкретных моделей, методов и средств для решения задач:

• моделирования структурированного документа с точки зрения различных задач ввода/вывода и распознавания,

• автоматизации разработки шаблона документа (экземпляра модели структурированного документа определенного типа),

• автоматического определения достоверности результатов распознавания полей структурированных документов в задачах ввода стандартных форм.

Целью данной работы является построение концептуальной модели формы, которая бы позволяла органично связать и описать основные процессы ввода/вывода структурированных документов и построение методов автоматического определения достоверности результатов распознавания полей структурированных документов в рамках разработанной концепции документа.

Задача состоит в построении концептуальной модели, которая позволяла бы описать форму в процессах:

• ввода/вывода электронных форм на дисплей монитора,

• автоматического распознавания форм,

• вывода форм на бумагу.

Новизна предложенного в работе подхода состоит, прежде всего, в разработке универсальной модели формы структурированного документа, используемой для различных задач и абстрагированной от конкретных методов обработки, в отличие от существующих подходов, как правило, ориентированных на представление либо экранных, либо бумажных форм; впервые модель объединяет процессы ввода/вывода вне зависимости от того, экранная или бумажная форма используется в них. Независимость модели от особенностей конкретных методов обработки обеспечивает ее открытость для разработки и подключения новых методов, расширение классов обрабатываемых документов в рамках предложенной концепции. Кроме того, предложены новые подходы к реализации критериев достоверности результатов распознавания полей структурированных документов при использовании распознающих схем с оценкой, не имеющей вероятностного характера.

По теме диссертации опубликовано пять работ, две из них в соавторстве.

Заключение диссертация на тему "Структурирование визуальных представлений информационной среды и методы определения надежности распознавания"

5. Выводы.

В этой главе показана модель общей системы обработки форм и описаны реализации двух ее компонент: дизайнера форм и системы распознавания форм.

Дизайнер форм наиболее ярко демонстрирует преимущества разработанной в главе 2 концепции. Он позволяет реализовать несколько различных парадигм: от простейших, когда на основе одной из моделей строится одна или две другие, до сложнейшей, когда одной модели содержания соответствуют несколько различных визуальных моделей и моделей взаимодействия. При этом, в последнем случае создание каждой новой модели достигается минимальными средствами за счет использования уже имеющихся.

Описание системы распознавания форм показывает, что представляет собой одно из важнейших средств обработки форм. Сложная технология, позволяющая работать с большими объемами документов, опирается на те же базовые модели, что и другие системы: модель содержания, одну или несколько моделей визуализации, галерею базовых секций модели взаимодействия.

В то же время, в системах распознавания существенную роль играют специфические слои, в частности, рассматриваемые в предыдущей главе методы определения достоверности результатов распознавания, обеспечивающие одну из важнейших функций технологии ввода документов - верификацию ввода.

Таким образом, предложенная в работе концепция формы и разработанная на ее основе программные средства во многих случаях достаточны для сборки готовых систем обработки форм, но могут служить и базовыми частями сложных специальных технологий.

Заключение.

Основные теоретические и практические результаты работы заключаются в следующем:

1. Проведен анализ существующих моделей представления формы в различных областях применения, проанализированы методы и средства описания моделей форм и системы обработки форм.

2. Проведен анализ алгоритмов и моделей принятия решения о надежности результатов в задаче распознавания символа.

3. Показана необходимость разработки единой концепции формы, охватывающей большинство процессов ее обработки. Кроме того, показана необходимость разработки методов определения надежности результата распознавания в системах с комбинирующими схемами распознавания выдающими оценку в виде отличном от вероятности.

4. Разработан комплексный подход к построению модели формы документа, который позволил создать модель формы, унифицировано описывающей ее в, как минимум, трех процессах: распознавании, редактировании на экране и печати на принтере. В рамках подхода проведено выделение трех ее основных компонентов: модели содержания, модели взаимодействия и модели визуализации и дальнейшее разложения каждой компоненты на слои обязательные, регламентированные и слои расширения.

5. Важным результатом является выделение модели взаимодействия. Модель взаимодействия занимает промежуточное положение между моделью содержания и моделями визуализации и описывает схемы взаимодействия «пользователя» и данных Формы. В слоях этой модели содержится специфика процессов, в которых принимает участие Форма, и необходимые дополнительные описания и данные для обеспечения процесса обработки и целостности данных.

6. Построены различные критерии определения достоверности результатов распознавания символов полей документов и проведено практическое исследование их эффективности.

7. Для критериев первой альтернативы и двух альтернатив были сформулированы и решены задачи нахождения порогов в виде стандартных задач условной оптимизации.

8. Построен оптимальный комплексный критерий достоверности, основанный на подходе к проблеме определения достоверности как одной из разновидностей задачи классификации.

9. Была дана постановка задачи определения достоверности и предложено решение с помощью нейронной сети, выдающей ответ в виде оценки вероятности достоверности результата распознавания.

10. Разработаны методы, алгоритмы и процедуры принятия решения о надежности, базирующиеся на критериях надежности распознавания, позволяющие создавать схемы распознавания с регулируемым числом отказов и ошибок распознания для различных задач ввода документов.

11. Разработана структура и отдельные модули системы автоматизированного ввода и обработки форм документов Cognitive Forms, которая автоматизирует процессы ввода форм с бумаги их дальнейшую обработку. В данной системе нашли свое применение концептуальные модели, предложенные в работе, критерии, алгоритмы и процедуры определения надежности распознавания символа. Система нашла свое применение для решения задач управления и планирования на ряде Металлургических комбинатов и других крупных организациях.

Библиография Арлазаров, Владимир Викторович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. АПШ02. Арлазаров В. В., Постников В. В., Шоломов Д. JI. Cognitive Forms система массового ввода структурированных документов. //"Управление информационными потоками" Сборник трудов Института системного анализа РАН./ М., УРСС, 2002 г.

2. Арл02. Арлазаров В. В. Управление информационными потоками в системе автоматического ввода документов. //"Управление информационными потоками", Сборник трудов Института системного анализа РАН./ М., УРСС, 2002 г.

3. Еме87. Емельянов Н.Е. Теоретический анализ документного интерфейса: Препринт. — М.: ВНИИСИ, 1987

4. Еме88. Емельянов Н.Е. Виды представления структурированных дан-ных.//Теоретические основы информационной технологии/ Сб. тр. Вып. 22. — М.:ВНИИСИ, 1988

5. БЕ03. Богачева А.Е., Емельянов Н.Е. Семантическая Модель докумен-та.//Системные исследования. Ежегодник/М., УРСС. 2003 г. с.:360-375.

6. ESS96. Emelyanov N.E., Solovyev A.V., Schelkacheva I.V. Classification of Structured Data Representations //Proceedings of the Third International Workshop on Advances in Databases and Information Systems./ MEPhI Publishing. , Vol. 2, 1996

7. XSL01. Extensible Stylesheet Language (XSL) Version 1.0 W3C Recommendation 15 October 2001. http://www.w3.org/TR/2001/REC-xsl-20011015/

8. XML04. Extensible Markup Language (XML) 1.0 (Third Edition)

9. W3C Recommendation 04 February 2004. http://www.w3.org/TR/2004/REC-xml-20040204

10. Пос98. Постников B.B., Разработка методов наложения формы на графическое изображение документа. //В сб. «Интеллектуальные технологии ввода и обработки информации»/, Москва, 1998

11. Издательский дом «КноРус», 2000 г. Кир99. Дмитрий Кирсанов, Web-дизайн. Санкт-Петербург, «Символ-Плюс», 1999

12. SMT94. Sabourin M., Mitche A, Thomas D., Nagy G. "Classifier combination for handprinted digit recognition", hoc. of the 2d ICDAR, Tsukuba, Japan, 1994.

13. Gor97. Gorski N. "Optimizing error-reject trade-off in recognition systems", Proc. of the 4-th ICDAR, Ulm, Germany, 1997.

14. DH73. Duda R., Hart P. Pattern Classification and Scene Analysis. John Wiley & Songs, N.Y., 1973.

15. AK96. Akiyama K. "A new reject decision method for statistical pattern recognition", Proc. of IWFHR-5, Univ. of Essex, England, 1996.

16. PKPD95. Price D., Knerr S., Perssonaz L., Dreyfus G. "Pairwise neural network classifiers whit probabilistic outputs", In Advances in Neural Information Processing Systems 7, MIT Press, 1997.

17. Lippmann R.P., Richard M.D., "Neural network classifiers estimate Bayesian a posteriori probabilities", Neural Computation, 3,1991.

18. UUU01. URIs, URLs, and URNs: Clarifications and Recommendations 1.0, Report from the joint W3C/IETF URI Planning Interest Group W3C Note 21 September 2001, http://www.w3.org/TR/2001/NOTE-uri-clarification-20010921/.

19. БиОЗ. Рэнди Бирн. Создание приложений с Microsoft Outlook Версия 2002., Эком. 2003,928 стр.

20. Ст95. Страуструп Б. Язык программирования С++ (2-ред)./Пер. с англ.-М.: Радио и связь, 1995. 352с.

21. КУ99. Дж. Крейг, Дж.Уэбб. Microsoft Visual Basic б. Мастерская разработчика /Пер. с англ. — М.: Издательский отдел "Русская Редакция" ТОО "Channel Trading Ltd." 1999. 5-е изд., испр. и доп. - 648 е.: ил.

22. КТ97. Круз И., де ла, Талер JL, Основы MAPI (пер. с англ. Новоселова Д.Г.) издательство: Русская Редакция, 1997, стр.: 552.

23. KhOO. R. Khare, "Can XForm Transform the Web?" IEEE Internet Computing, March/April 2000.

24. HV01. M. Honkala, P. Vuorimaa. XForms in X-Smiles Second International Conference on Web Information Systems Engineering (WISE'01),Volume 1 December 03 06,2001, Kyoto, Japan.

25. MA03. Дэвид Мак-Амис. Профессиональная работа с Crystal Reports для Visual Studio.NET, Вильяме,2003, стр.: 352.1096. ISO, editor. ISO/IEC 11578: Information technology Open Systems Interconnection - Remote Procedure Call (RPC). ISO, Geneva, CH, 1996.

26. ФрОЗ. Дж. Фридл. Регулярные выражения. Издательство Питер, 2003 г., 464 стр.

27. JIo98. Ломаке П. Изучаем Visual Basic Script Издательство: BHV-Киев, 1998, стр.: 624.

28. Че98. Дэвид Чеппел. Технологии ActiveX и OLE. "Русская Редакция", 1998, стр.: 320.

29. St90. L. Stringa. "A New Set of Constraint-Free Character Recognition Grammars" IEEE Transactions on Pattern Analysis and Machine Intelligence. December 1990 (Vol. 12, No. 12) pp.:1210-1217.

30. BRR02. Anja Brakensiek, Jorg Rottland, Gerhard Rigoll. Handwritten Address Recognition with Open Vocabulary Using Character N-Grams. Eighth International Workshop on Frontiers in Handwriting Recognition (IWFHR'02), 2002, pp. 357.

31. CGMS95. F. Cesarini, M. Gori, S. Marinai, G. Soda. A system for data extraction from forms of known class. Third International Conference on Document Analysis and Recognition (Volume 2). 1995. pp. 1136.

32. CDD97. C. Cracknell, A. C. Downton, L. Du. An Object-Oriented form Description Language and Approach to Handwritten Form Processing. 4th International Conference Document Analysis and Recognition (ICDAR '97) Volume I and Volume II. 1997. pp. 180.

33. KKC02. Кляцкин В. M., Котович Н. В., Славин О. А. Многопроходная схема распознавания документов с обучением. "Управление информационными потоками" // Сборник трудов Института системного анализа РАН / М., УРСС. 2002 г.

34. АКС00. Арлазаров В. Л., Куратов П. А., Славин О. А.Распознавание строк печатных текстов. "Методы и средства работы с документами". // Сборник трудов Института системного анализа РАН / М., УРСС. 2000 г.

35. СКБ99. Славин О.А., Корольков Г.В., Болотин П.В. Методы распознавания грубых объектов. В сб. "Развитие безбумажных технологий в организациях", 1999, с. 290-311

36. Уос92. Ф.Уоссермен, "Нейрокомпьютерная техника.", М.: Мир, 1992

37. АЕОЗ. Арлазаров B.JL, Емельянов Н.Е. Документооборот или управление знаниями? //"Организационное управление и искусственный интеллект" Сборник трудов Института системного анализа РАН/ М., УРСС. 2003 г.

38. ДП03. Даниленко А.Ю., Павлова Н.С. Методика и средства работы с системами электронного документооборота через WEB-браузер. //"Организационное управление и искусственный интеллект" Сборник трудов Института системного анализа РАН/ М., УРСС. 2003 г.

39. СолОЗ. Соловьев А.В. Генератор отчетов для систем электронного Документооборота.//"Организационное управление и искусственный интеллект" Сборник трудов Института системного анализа РАН/, 2003 г.

40. АЕ02. Арлазаров В. JL, Емельянов Н. Е.Системы обработки документов. Основные компоненты."Управление информационными потоками" Сборник трудов Института системного анализа РАН/ М., УРСС. 2002 г.

41. Sho 103. Sholomov D.L. Syntactical Approach to Post-Processing of Fuzzyrecognized Text. //Proc. of The International Conference on Machine Learning, Technologies and Applications, CSREA Press, pp. 115-121. June 2003, USA

42. Sho203. Sholomov D.L., Interpreting the Indistinctly Recognized Textual

43. Constructions. // Pattern Recognition and Image Analysis, 2003, vol. 13, no. 2, pp. 353-355.

44. Nik03. Nikolaev D.P. Segmentation-based binarization method for color document images. Proceedings of 6th Open Russian-German Workshop on Pattern Recognition and Image Understanding, Novosibirsk. 2003, pp. 190-193.