автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Разработка и исследование методов повышения достоверности информации в системах, использующих технологию оптического распознавания символов

кандидата технических наук
Литвинюк, Сергей Борисович
город
Москва
год
1999
специальность ВАК РФ
05.25.05
Диссертация по документальной информации на тему «Разработка и исследование методов повышения достоверности информации в системах, использующих технологию оптического распознавания символов»

Текст работы Литвинюк, Сергей Борисович, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

/ /

/ • / / / / ( /

Г / Л' # / >. '

МПС РОССИЙСКОЙ ФЕДЕРАЦИИ МОСКОВСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ

/миит/

УДК 681.5.017:519.711.3

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ПОВЫШЕНИЯ ДОСТОВЕРНОСТИ ИНФОРМАЦИИ В СИСТЕМАХ, ИСПОЛЬЗУЮЩИХ ТЕХНОЛОГИЮ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ

05.25.05 Информационные системы и процессы

Диссертация на соискание ученой степени кандидата технических наук

Научные руководители Профессор Ефимов А.Н. Профессор Резер С.М.

МОСКВА -1999

СОДЕРЖАНИЕ

ВВЕДЕНИЕ.........................................................5

СОДЕРЖАНИЕ РАБОТЫ..........................................10

Глава 1.ОБЗОР СОСТОЯНИЯ ПРОБЛЕМЫ И ПОСТАНОВКА ЗАДАЧИ ИССЛЕДОВАНИЯ ............................................... 15

1.1 Понятие "новые технологии" применительно к устройствам ввода, передачи и вывода данных .......................... 16

1.1.1 Определение термина "новые технологии" ......... 16

1.1.2 Проблемы, возникающие при применении новых технологий ...........................................17

1.2 Понятие достоверности информации и основные ее показатели...............................................18

1.3 Факторы, влияющие на достоверность информации в АСУ ..21

1.4 Анализ процессов обработки данных и повышения их достоверности ............................................ 25

1.5 Способы контроля ошибок при обработке информации в АСУ .........................................................30

1.6 Оценка эффективности методов контроля ................ 34

1.7 Визуальный контроль .................................. 37

1.8 Цель и постановка задач исследования ................. 3 8

Глава 2.ИССЛЕДОВАНИЕ ОШИБОК, ВОЗНИКАЮЩИХ ПРИ ИСПОЛЬЗОВАНИИ НОВЫХ ТЕХНОЛОГИЙ ОБРАБОТКИ ДОКУМЕНТОВ ...................... 3 9

2.1 Ошибки, возникающие в процессе работы программ оптического распознавания символов ....................... 3 9

2.2 Экспериментальное исследование эффективности оптического распознавания текстовых документов...........4 0

2.2.1 Методика определения зависимости качества распознавания от параметров шрифта, раскладки, и типа символов .............................................40

2.2.2 Проведение эксперимента ........................ 43

2.3 Методика оформления машиночитаемых форм документов, настройки системы оптического распознавания символов и создания машиночитаемых форм документов, с которых предполагается снятие нескольких поколений копий.........53

2.3.1 Разработка форм документов, подлежащих оптическому распознаванию ........................................ 54

2.3.2 Настройка параметров ОСЫ-системы ............... 55

2.4 Выявление и классификация возникающих ошибок ......... 57

2.4.1 Классификация искажений ........................ 5 7

2.4.2 Математическая модель искажения символа ........ 62

2.4.3 Доказательство адекватности предложенной математической модели искажения символа путем применения аппарата дискретных цепей Маркова .................... 69

2 . 5 Выводы...............................................7 6

Глава 3.ИССЛЕДОВАНИЕ, КЛАССИФИКАЦИЯ И ПРОГРАММНОЕ МОДЕЛИРОВАНИЕ ИСКАЖЕНИЙ, ВОЗНИКАЮЩИХ ПРИ ФАКСИМИЛЬНОЙ ПЕРЕДАЧЕ ТЕКСТА............................................7 7

3.1 Основные определения ................................. 77

3.2 Моделирование типичных искажений ..................... 7 9

3.3 Модельные эксперименты ............................... 8 6

3.4 Обработка и анализ полученных результатов ............ 87

3.5 Выводы

88

Глава 4.РАСЧЕТ ДОСТОВЕРНОСТИ РЕЗУЛЬТАТОВ ОБРАБОТКИ МАШИНОЧИТАЕМЫХ ФОРМ ДОКУМЕНТАЦИИ ........................... 8 9

4.1 Метод оценки достоверности первичной информации ...... 8 9

4.2 Расчет вероятности появления ошибочной информации в документе на выходе элементарной схемы 1, 2 и 3 типов .... 95

4.3 Выводы..............................................100

Глава 5.ПРИМЕНЕНИЕ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ К РАЗРАБОТКЕ МАШИНОЧИТАЕМЫХ ФОРМ ДОКУМЕНТОВ (применительно к подсистеме АСУ МИИТ).................................................101

5.1 Разработка технологии автоматизированного ввода документов для подсистем АСУ МИИТа ...................... 105

5.1.1 Технология создания машиночитаемой формы документа (ведомости), с использованием полей рукопечатного заполнения "HandPrint" .............................. 105

5.1.2 Технология создания машиночитаемой формы документа (ведомости), с использованием полей рукопечатного заполнения "HandPrint" совместно с полями CheckBox .. 107

5.1.3 Технология создания машиночитаемой формы документа (ведомости), с использованием полей CheckBox ........ 114

5.2 Выводы..............................................117

ЗАКЛЮЧЕНИЕ................................................121

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ................................124

СПИСОК ЛИТЕРАТУРЫ.........................................12 5

ПРИЛОЖЕНИЯ

140

ВВЕДЕНИЕ

Актуальность темы

В настоящее время широкое развитие получает

автоматизированный ввод текстовых документов в информационные системы. Все больше внимания уделяете?: решению проблемы автоматического распознавания образов. Идея вводить текстовые документы со сканера не нова. Этой проблеме было посвящено множество работ таких ведущих специалистов, как Шамис А.Л., Аврух М.Л., Агаджанян Ж.М., Белянкин Г.А., Бирман К.Я., В.Рыбкин, В.Тирещенко, Гвильдис И.Ю., Гришин М.П., Гудялис Л.П., Лашас A.B., Ян Д.Е., Норгрен Р, Романов В.П., Федорец Л.Л.,

Харкевич A.A. и др. Основными направлениями исследований, которыми занимаются перечисленные авторы, являются совершенствование и разработка алгоритмов распознавания образов, решение задач оптимизации при построении эталонов, разработка специализированных стилизованных шрифтов для оптического распознавания символов, подготовка и исследование структуры распознаваемого изображения, использование лексического анализа текста для коррекции ошибок распознавания [3, 5, 6-14, 18, 19, 21, 22, 4 0, 42, 51, 59, 65, 70, 72, 77, 78, 82, 87-101] . Однако осталась незатронутой область исследования ошибок, возникающих в процессе работы систем оптического распознавания символов.

Распознаваемое изображение Лексический анализ текста

+

Алгоритмы распознавания < —С^РАСПОЗНЛВАНИЕ ОБРАЗШГ^>

4-

Специализированные шрифты

Исследование ошибок распознавания

Систему оптического распознавания символов -(OCR - optical character recognition) можно представить как схему, которая с вероятностью р вносит ошибку при распознавании текстового документа, жесткая копия которого поступает к ней на вход. Тогда Р - вероятность ошибки на выходе этой системы, будет зависеть от г -вероятности возникновения ошибки на ее входе, т.е. вероятности того, что исходный текст содержит ошибку и вероятности внесения ошибки самой системой. Таким образом, Р = г + р - гр. Предположим, что критерием оценки качества работы OCR-системы является соответствие символов исходного документа распознанным. Тогда можно исключить вероятность наличия ошибки в исходном тексте документа, приняв ее равной нулю. В этом случае объектом изучения становится вероятность внесения ошибки самой системой. Исследование этих ошибок позволит разработать методы повышения достоверности данных за счет снижения количества ошибок, возникающих в процессе работы OCR-программ.

Поскольку, прежде всего, для системы оптического распознавания символов объектом обработки является отдельно взятый символ (а не их логическое объединение в слова, предложения, и т.д.), а также не важен смысл, заложенный в распознаваемом тексте, то далее понятия данные и информация будут применяться как синонимы. Под понятием достоверности информации будет подразумеваться тоже самое, что и под понятием достоверности данных, определение которым дано в первой главе диссертации.

Цель работы

Разработка методов повышения достоверности информации (снижения вероятности возникновения ошибок) на выходе системы оптического распознавания символов, которые заключаются в выработке практических рекомендаций, как для конечных пользователей ОСК-систем, так и для их разработчиков.

Задачи работы

1.Анализ процедур контроля ошибок, возникающих при автоматизированном вводе.

2.Исследование природы, вероятностей и характера возникающих искажений данных при использовании программ оптического распознавания символов.

3.Разработка методов моделирования процесса "зашумления" документов.

4.Разработка технологии создания машиночитаемых документов.

Научная новизна

Впервые за последние десять лет была накоплена и

представлена современная статистика ошибок, возникающих в процессе работы программ оптического распознавания символов.

Автором разработана оригинальная методика

тестирования, сбора статистики и последующей оценки эффективности систем оптического распознавания символов.

Проведен анализ экспериментальных данных, результатом которого явилась классификация ошибок, возникающих в процессе работы программ оптического распознавания символов.

Впервые с целью исследования эффективности работы OCR-программ при распознавании текста документов, переданных по линиям факсимильной связи, предложен и разработан метод программного моделирования шумов, возникающих в реальных каналах связи. Суть этого метода заключается в генерации векторного шрифта, в котором на исходный символ накладывается определяемая алгоритмом зашумления последовательность точек, моделирующая возникающие шумы в каналах связи.

Все положения, включенные в выводы, являются новыми.

Практическая ценность и реализация результатов

Полученные результаты и разработанные методы

позволили существенно повысить уровень достоверности информации, поступающей в базы данных различных подсистем АСУ, что подтверждается соответствующим актом.

В проекте нового поколения АСУ МИИТ учтены предложения, основанные на результатах экспериментального исследования, проведенного в рамках диссертационной работы. Эти предложения включают рекомендации по автоматизации процесса ввода данных в АСУ МИИТ, используя систему оптического распознавания символов, разработку машиночитаемых форм "Экзаменационной (зачетной)

ведомости" и настройку автоматизированного рабочего места ввода первичных данных.

Результаты имеют практическую ценность, так как могут быть использованы разработчиками систем оптического распознавания символов, дизайнерами документов и форм для того, чтобы документы и машиночитаемые формы распознавались с наименьшим количеством ошибок. Методики

настройки параметров OCR-системы также могут быть использованы конечными пользователями с целью повышения эффективности работы программы оптического распознавания символов.

Апробация работы

Материалы диссертации рассматривались на III научно-

технической конференции "Современные технологии в информационно-библиотечном обеспечении научных

исследований", г. Таруса, 1997г.; на периодических заседаниях кафедры "Электронные вычислительные машины" МИИТа, 1997-1998 гг.

Публикации

По теме диссертации опубликовано 5 печатных работ. Объем работы

Диссертация состоит из введения, шести частей, заключения, списка основной литературы по теме из 103 наименований и девяти приложений. Работа изложена на 161 страницах машинописного текста, включая 32 рисунка и 12 таблиц.

СОДЕРЖАНИЕ РАБОТЫ Во ВВЕДЕНИИ

обосновывается актуальность исследуемой проблемы, формулируются основные цели и задачи исследования.

ГЛАВА 1

имеет обзорный характер. Здесь приводятся определения основных терминов и понятий, используемых далее в работе. Проводится анализ современного состояния и проблем автоматизированного ввода достоверной информации в ЭВМ. Проводится анализ методов контроля ошибок при обработке данных и оценка эффективности этих методов.

ГЛАВА 2

посвящена разработке методов, направленных на снижение уровня ошибок, допускаемых при работе программ оптического распознавания символов. С этой целью разработана методика исследования зависимости качества распознавания от параметров шрифта, языка и символов, используемых для создания исходного документа, подлежащего распознаванию. На основе экспериментальных исследований предлагаются оптимальные параметры для создания документов, подлежащих автоматизированному вводу. Здесь же представлена разработанная методика классификации возникающих при OCR-вводе ошибок. На основе результатов экспериментов, проводимых по этой методике, для наиболее часто используемых гарнитур шрифтов, таких как Times New Roman, Courier New и Arial Narrow, набрана статистика наиболее устойчивых результатов распознавания,

сведенных в таблицу. Выполнена классификация наиболее часто возникающих ошибок.

Далее предложена математическая модель - описание результатов работы ОСИ-программы в виде графа переходов исходного (распознаваемого) символа или группы символов в возможные состояния с определенной вероятностью.

Выделены отдельные символы и сочетания символов, уверенно превращающиеся друг в друга, уверенно переходящие из одного в другой, переходящие в некоторые далее неизменные состояния. Рассчитаны статистические вероятности появления таких переходов распознавания.

Для дальнейшего математического описания был применен аппарат дискретных цепей Маркова. Распознаваемые состояния классифицированы как сообщающиеся, достижимые, поглощающие. Построена матрица вероятностей переходов распознаваемых символов в другие состояния

соответствующих множеств. Показано как изменяются величины вероятностей в зависимости от параметров шрифтов, используемых для создания документа.

Целью данного теста было выявление сочетаний символов, наиболее часто приводящих к ошибке распознавания, а также выявление наиболее устойчивых результатов распознавания этих сочетаний с целью осуществления дополнительного контроля за возникновением подобных ошибок.

С целью уменьшения количества ошибок, возникающих при распознавании документов, с которых предполагается снятие нескольких поколений копий, проведены исследования зависимости качества распознавания документов от числа

поколений копий. На основе анализа результатов этих исследований выделены характеристики шрифтов, наиболее устойчивых к искажению при ксерокопировании, и даны рекомендации по созданию машиночитаемых форм и документов, сохраняющих высокое качество распознавания при снятии с них нескольких поколений копий.

ГЛАВА 3

Целью главы ставится разработка метода программного моделирования "шумовых" эффектов в реальном канале связи, позволяющего создавать тестовые документы для проведения исследований качества распознавания текста, переданного по каналу факсимильной связи. С этой целью проводится исследование типичных искажений, возникающих вследствие воздействия электрических помех при передаче документов по линиям факсимильной связи. На основе полученных экспериментальных данных делается вывод о том, что воздействие помех на информационный поток носит аддитивный характер, что приводит к идее создания программной модели "шумовых" эффектов, возникающих в реальном канале связи.

При сравнении качества оптического распознавания документов, обработанных с помощью таких моделей, и документов, переданных по реальным каналам связи, разница результатов составила менее 1%, что подтвердило возможность создания и применения в исследовательских работах "шумовых" моделей.

ГЛАВА 4

На основе результатов экспериментальных данных производится расчет вероятностей возникновения ошибок на этапе ввода информации в ЭВМ при использовании ручного ввода (с дисплея и клавиатуры), при использовании оптического распознавания рукопечатных символов и при использовании оптического распознавания машиночитаемых форм, выполненных по технологии СЪескВох. Далее на примере элементарных схем, составляющих любой технологический процесс сбора и обработки [67], исследуются зависимости вероятности возникновения ошибок на выходе таких элементарных схем от вероятности их возникновения на входе.

На основе результатов расчетов делается вывод о том, что и в условиях применения сканерного ввода использование в схеме технологического процесса операций контроля и исправления ошибок является эффективным способом борьбы с возникающими ошибками.

ГЛАВА 5

представляет прикладную часть диссертационной работы, в которой, на основе методов повышения уровня достоверности информации, разработанных в предыдущих главах, предлагается схема технологического процесса ввода данных в АСУ на этапе заполнения, ввода и первичной обработки входных документов.

В качестве модельного эксперимента послужила разработка технологии автоматизации ввода данных в АСУ МИИТ. Для этого были применены методики заполнения и

оформления машиночитаемых документов. Методики настройки режимов сканирования и параметров системы оптического распознавания символов. На основе этих методик разработаны три основные вида машиночитаемых форм, использующих технологии ввода печатной, рукопечатной (написанной от руки печатными буквами) информации и чекбоксов (англ. - Check Box) - поля двоичного "переключателя" (выбран/не выбран). Производится

экспериментальное исследование каждой из выбранных технологий и делаются выводы о целесообразности их выбора.

Результаты проведенного эксперимента показали, что использование методов, разработ