автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Технология и система автоматической корректировки результатов при распознавании архивных документов
Автореферат диссертации по теме "Технология и система автоматической корректировки результатов при распознавании архивных документов"
На правах рукописи
Смирнов Сергей Владимирович
ТЕХНОЛОГИЯ И СИСТЕМА АВТОМАТИЧЕСКОЙ КОРРЕКТИРОВКИ РЕЗУЛЬТАТОВ ПРИ РАСПОЗНАВАНИИ АРХИВНЫХ ДОКУМЕНТОВ
Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
2 9 АПР 2015
Санкт-Петербург — 2015
005568168
005568168
Работа выполнена в Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук (СПИИРАН). Научный руководитель: Кулешов Сергей Викторович,
доктор технических наук
Официальные оппоненты: Городецкий Андрей Емельянович,
доктор технических наук, заслуженный деятель науки РФ, профессор, заведующий лабораторией "Интеллектуальных электромеханических систем", Федеральное государственное бюджетное учреждение науки Институт проблем машиноведения Российской академии наук (ИПМаш РАН)
Пиотровская Ксения Раймондовна, кандидат технических наук, профессор кафедры методики обучения математике и информатике, Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Российский государственный педагогический университет им. А.И. Герцена» (РГПУ им. А.И. Герцена)
Ведущая организация: Федеральное государственное автономное
образовательное учреждение высшего образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики» (Университет ИТМО) Защита состоится «04» июня 2015 г. в 13.00 часов на заседании диссертационного совета Д.002.199.01 при Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.
С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии наук Автореферат разослан « рел чЯ 2015 г.
Ученый секретарь
диссертационного совета Д.002.199.01 кандидат технических наук, доцент
Фаткиева Роза Равильевна
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы диссертации. Достоверность результатов оптического распознавания сильно зависит от качества исходного изображения, лексикона, используемого при написании текста, особенностей шрифтов, наличия сторонних объектов, шумов и многих других факторов. Высокая точность достигается в случае распознавания изображений, где текст размещен на монотонно ровном фоне с хорошей контрастностью; тезаурус, используемый при написании текста, соответствует встроенному словарю системы распознавания и не содержит редких слов и словоформ; начертание букв и слов позволяет однозначно произвести сопоставление с шаблоном.
Существующие коммерческие системы распознавания текста («Abbyy Finereader», «Nuance OmniPage» и др.), а также системы с открытыми исходными кодами («Cuneiform», «Tesseract» и др.) достигают высокой точности результатов при обработке современных качественных печатных документов. В случае же распознавания архивных документов, происхождение которых датируется десятками лет назад, количество допущенных ошибок в результатах распознавания значительно возрастает и эффективность применения средств автоматизации снижается. Результаты, получаемые на выходе систем распознавания необходимо подвергать последующей корректировке.
Методы автоматической корректировки ошибок распознавания во многом основываются на адаптации известных подходов корректировки орфографических ошибок, использующих скрытые марковские модели, нейронные сети, n-граммы слов и символов, конечные автоматы. Также применяются методы, объединяющие результаты нескольких систем распознавания, использующие дополнительную информацию о контексте и эвристические алгоритмы. Большой вклад в теорию и практику корректировки ошибок в текстах внесли Philips L., Brill Е., KolakO., Mays Е., FossatiD., KukichK., ReynaertM. и другие зарубежные ученые. Среди отечественных авторов в области автоматической обработки текстов можно выделить труды Арлазарова В.Л., Шоломова Д.Л., Постникова В.В., Захарова В.П. и других.
Во многих случаях существующие методы требуют привлечения ручного труда, предназначены для обработки современных текстов и не пригодны для обработки результатов распознавания архивных документов, отличающихся обилием узкоспециализированных терминов и нестабильным уровнем качества.
Решению описанных проблем и разработке системы распознавания архивных документов с применением методов автоматической корректировки и посвящена данная диссертационная работа.
Объектом исследования является процесс распознавания архивных документов.
Предметом исследования являются методы и технология автоматической корректировки результатов распознавания архивных документов.
Цель работы и задачи исследования. Основной целью диссертационной работы является разработка технологии и системы распознавания архивных документов с автоматическим обнаружением и корректировкой допущенных
/ /
ъ
ошибок.
Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:
1. Сравнение качества существующих систем оптического распознавания, классификация основных видов допускаемых ошибок и анализ существующих подходов к корректировке ошибок распознавания.
2. Разработка метода автоматической корректировки результатов распознавания архивных документов, выполняющего поиск ошибок и генерацию упорядоченного по рангу списка корректировок для их замены.
3. Разработка технологии распознавания архивных документов различных тематических областей и корректировки полученных результатов.
4. Проектирование, разработка и апробация системы распознавания документов архивного фонда, отвечающей требованиям разработанной технологии и реализующей предложенный в работе метод корректировки. Методы исследования. Для решения поставленных задач в работе
используются методы теории множеств, теории вероятности, статистического анализа, корпусной и компьютерной лингвистики. Реализация разработанных алгоритмов произведена в соответствии с объектно-ориентированной методологией разработки программного обеспечения.
Положения, выносимые на защиту. На основе проведенных теоретических работ' и их экспериментальной апробации на защиту выносятся следующие положения:
1. Метод автоматической корректировки ошибок распознавания архивных документов на основе рейтинго-ранговой модели текста.
2. Правила ранжирования и выбора наилучших корректировок, основанные на частотных характеристиках и статистической вероятности сочетаемости с предшествующими словами.
3. Технология распознавания архивных документов с последующей корректировкой результатов.
4. Архитектура и компонентная модель системы распознавания и автоматической корректировки результатов, с входящим в ее состав инструментарием настройки конфигурации для обработки архивных документов различных тематических областей.
Научная новизна работы состоит в следующем:
1. Разработан метод автоматической корректировки ошибок распознавания архивных документов на основе рейтинго-ранговой модели текста, основной особенностью которого является способность выявлять и устранять ошибки распознавания документов, содержащих большое количество узкоспециализированной терминологии, за счет автоматического формирования тезаурусов без необходимости предварительного обучения.
2. Разработаны правила ранжирования и выбора наилучших корректировок, основанные на предварительно проведенном п-грамм анализе корпуса результатов распознавания и тематических текстов и учитывающие
статистическую вероятность сочетаемости с предшествующими словами.
3. Разработан инструментарий, позволяющий эксперту ограничивать пространство конфигураций процесса обработки архивных документов для повышения качества распознавания.
4. Разработаны технология и система распознавания архивных документов и автоматической корректировки результатов, позволяющие производить потоковую обработку больших наборов документов с учетом лексикона и специфики их предметной области.
Обоснованность и достоверность научных положений обеспечены аналитическим обзором исследований и разработок в данной области, подтверждаются положительными итогами практического использования результатов диссертации, а также апробацией основных научно-практических положений в печатных трудах и докладах на всероссийских и международных конференциях.
Прастическая ценность работы заключается в создании программной системы, реализующей теоретические результаты работы, которая может использоваться в проектах массовой оцифровки и распознавания документов фондов государственных архивов, библиотек, музеев, судов, ЗАГС и других учреждений.
Разработанная в диссертационной работе технология и система автоматического распознавания и корректировки результатов позволяет значительно повысить скорость обработки документов и сократить потребность трудоемкой дорогостоящей ручной работы.
Предложенные в диссертационной работе подходы, методы и алгоритмы автоматического обнаружения и корректировки ошибок оптического распознавания позволяют значительно повысить качество конечных результатов.
Реализация результатов работы. Представленные в работе методы и алгоритмы были реализованы на языке программирования Java в виде программных модулей системы оптического распознавания текста и введены в эксплуатацию в составе государственной информационной системы «Государственные архивы Санкт-Петербурга» (государственный контракт №0172200006113000229J46076 от 24.12.2013)
Апробация результатов работы. Основные положения и результаты диссертационной работы представлялись на конференциях: I Всероссийская электронная научно-практическая конференция-форум молодых ученых и специалистов «Современная российская наука глазами молодых исследователей - 2011»; IV Всероссийская научно-практическая конференция "Научное творчество XXI века" с международным участием (Красноярск, 2011); XVI Международная научно-практическая конференция «Перспективы развития информационных технологий» (Новосибирск, 2013); XXI Международная научно-практическая конференция «Перспективы развития информационных технологий» (Новосибирск, 2014); XIV Санкт-Петербургская международная конференция «Региональная информатика (РИ-2014)» (Санкт-Петербург, 2014); X Всероссийская научно-практическая конференция «Электронные ресурсы
библиотек, музеев, архивов» (Санкт-Петербург, 2014); XVII Всероссийская объединенная научная конференция «Интернет и современное общество» (Санкт-Петербург, 2014).
Разработанное программное обеспечение было апробировано на документах фондов центральных государственных архивов Санкт-Петербурга в составе государственной информационной системы «Государственные архивы Санкт-Петербурга», свидетельство о регистрации информационной системы в Реестре государственных информационных систем Санкт-Петербурга №2053/14/08 подписано 21.11.2014г.
Публикации. Основные результаты по материалам диссертационной работы опубликованы в 13 печатных работах, среди них 6 работ в рецензируемых изданиях из перечня ВАК, получено 2 свидетельства о государственной регистрации программы для ЭВМ.
Структура и объем работы. Диссертационная работа включает введение, четыре главы, заключение, список использованных источников (122 наименования) и три приложения. Объем работы — 130 страниц машинописного текста, включая 34 рисунка и 16 таблиц.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована важность и актуальность темы диссертации, сформулированы цели диссертационной работы и решаемые задачи, определяется научная новизна работы, а также ее практическая значимость, приводится краткое содержание работы по главам.
В первой главе приводится аналитический обзор предметной области и существующих систем оптического распознавания, определяется степень их пригодности к распознаванию архивных документов, выявляется необходимость корректировки допускаемых ошибок распознавания, приводится классификация ошибок по видам и анализ существующих подходов к их корректировке, уточняются требования к разрабатываемой системе.
Сфера деятельности государственных архивов включает в себя широкий спектр задач, связанных с комплектованием, учетом, использованием и обеспечением сохранности документов. Эффективность выполнения каждой задачи архива имеет сильную зависимость от скорости нахождения и получения доступа к нужным документам. Поиск документов является своего рода «узким» местом во всех рабочих процессах архива (рисунок 1) и накладывает серьезное ограничение на скорость выполнения ежедневных задач.
Снижение влияния данного ограничения может быть достигнуто за счет автоматизации процессов пополнения поисковой базы и развития поисковых механизмов, использующихся в архивах.
Разрабатываемая в данной работе система пакетного распознавания архивных документов, является тем самым инструментом, с помощью которого возможно существенно увеличить скорость пополнения и объем поисковой базы, путем добавления в нее результатов распознавания, удовлетворяющих критериям качества. Причем, для достижения поставленной задачи при
распознавании не требуется построения полной электронной копии документа. Пользователю результаты поиска будут отображаться в виде подсвеченных областей текста на электронном образе документа.
Сотрудники архива
Рис. 1. Схема типовых рабочих процессов государственного архива На сегодняшний день существует несколько десятков коммерческих и свободно распространяемых систем оптического распознавания. Сравнительный анализ выявил наличие ошибок в результатах распознавания архивных документов различного качества среди всех испытуемых систем: "Abbyy Finereader", "Cuneiform Linux", "Cuneiform Windows", "IRIS Readiris", "Nuance OmniPage", "Tesseract".
В обзоре методов и работ по корректировке ошибок, вначале отдельно рассматривается класс методов, относящихся к обработке орфографических ошибок, поскольку эта тема является более подробно исследованной. После дается обзор методов, систем и работ по корректировке непосредственно ошибок оптического распознавания. Особое внимание уделяется возможности применения существующих методов для построения систем корректировки архивных документов без участия человека.
Существующие методы в общем случае неплохо решают ряд задач по обработке результатов распознавания с использованием словарей, статистических моделей языка, хорошо развита тематика обнаружения и коррекции ошибок в тексте. Тем не менее, во многих случаях рассмотренные методы предназначены для обработки современных текстов и не подходят в чистом виде для обработки исторических текстов, содержащих большое количество специализированных терминов, имен собственных, географических наименований и т.п. В большинстве работ корректировка основана на предварительном ручном обучении системы или участии человека на этапе финального выбора корректировки. Также стоит отметить очень малое
количество работ нацеленных на корректировку именно русскоязычных текстов. Это вызывает потребность разработки алгоритмов корректировки, учитывающих особенности русского языка и позволяющие обрабатывать корпуса текстов больших объемов в полностью автоматическом режиме.
Из рассмотренных методов в данной работе будет использоваться алгоритм нахождения минимального расстояния между словами (расстояние Левенштейна) и алгоритм поиска схожих слов методом анаграмм, предложенный Мартином Рейнартом. Выбранные алгоритмы позволяют обрабатывать ошибки типичные для систем оптического распознавания, не требуют проведения предварительного обучения и могут применяться для обработки текстов независимо от языка написания.
Во второй главе содержится описание используемых методов и разработанного метода автоматической корректировки ошибок распознавания на основе рейтинго-ранговой модели текста.
Разделим весь процесс корректировки результатов распознавания на четыре основных этапа (рисунок 2).
Этап 1. Подготовка структур данных. На первом шаге необходимо произвести анализ всего корпуса распознанных документов и
тематических текстов для формирования статистической информации по встречающимся словам. Корректная работа метода будет достигнута, в том случае если результаты распознавания и другие тексты будут принадлежать одной тематике.
Предварительная_обработка.
Назовем лексемой последовательность символов, разделенных пробелом или символами {,.;: 0"&П ?!?'{}/+#=<>%}, либо определенных системой распознавания как слова.
Выразим весь набор лексем, полученных в результате распознавания документов, в виде упорядоченного по порядку следования элементов множества
Lsowce ={s\,s2,...£m). Преобразуем последовательность ¡source в нормализованную последовательность L = {sj,^,---^} путем проведения ряда операций по очистке лексем, шаблонной замене символов и объединению лексем, разделенных знаком переноса.
Структуры для отбора корректировок. Сформируем множество лексем в
г lo\V w
нижнем регистре символов L и его рейтинговое распределение £ /ои, :
Тематические тексты
Скорректированный результат распознавания
Рис. 2 Этапы корректировки
l!ow = {lower(s) \ s e L} , = {< s, fr >| j e L/mv}, fr > 1,
где lower(s) — функция перевода строки в нижний регистр; fr — частота
повторения лексемы s во множестве Llow .
Предполагая, что наиболее часто встречающиеся лексемы с наименьшей вероятностью содержат ошибки, сформируем сокращенное множество jlowpnmed и erQ pe{jXIIHrOBOe распределение £ /оиpnmej :
Llmvpnmed = {j | .у e Lhw,iLlm. (s) > a}, где a — минимальное пороговое количество повторений одной лексемы, <HLio»(s) — частота повторения лексемы .у во множестве L,ow .
Сформируем множество биграмм Lb'£ram 5 сокращенное множество биграмм jbipnnied и их рейтинговые распределения £ ыцт,„ и ^^„„ы :
jbigram _ |(iower(s^),lower(s2))| e L;seq(s\,s2) vseq{s2,) = 1}, ¿¡pruned = j(,b,2) | (,ь,2) e ¿warn;, ,, | > 1;| ,2 | > 1; (,,,,2) > /?},
где функцияseq{a\,...fi-) возвращает значение 1, если элементы аря. следуют строго друг за другом, и 0 в противном случае; | s | — длина строки s в символах; /? — минимальное пороговое количество повторений одной биграммы.
Сформируем множество лексем для выбора корректировок Lco", рейтинговое распределение и хэш-таблицу анаграмм ¡-¡cmaS'a,n:
Lcorr = jjouprlined у ^^ ( ^^ (?| ^} g ¿¡pruned J^
„anagnm = [{hash{s)^^ | , 6 j,
где функция concat (щ,а2) возвращает результат конкатенации строк а\,а2\ хэш-функция hash (s) возвращает значение одинаковое для слов-анаграмм и вычисляется для каждого элемента множества Lcorr при добавлении в хэш-таблицу наш&ат.
Структуры для ранжирования корректировок. Произведем нормализацию морфологической формы каждой лексемы множества L, не входящей в список
стоп слов Ds,op, используя функцию морфологического анализа morph (s) :
morph (s) = Хг,, b 6 Xft, s 6Z,->kIs,
где Zi — множество лемм (нормальных форм) лексемы .v; Z5 - множество
словоформ лексемы s .
Функция morph обладает следующими свойствами:
morph (b) = b, Vi г Zj ->morph(s) = b,b€~Es. В результате перевода всего множества лексем в нормальную форму получим множество лемм:
&тт = [morph (lower(sj)\szL,s£ Ds,op J.
„, jlemm rlemm rlemm
Сформируем отношения Ц , L2 для связок лексем множества L и их рейтинговые распределения , ^.¡епт :
L, L2
jlemm _ jlemm^ ¿етт = е L^seq(bbb2)=\\.
Структуры для обнаружения ошибок. Корпусный тезаурус осогрш будет впоследствии применяться для определения множества лексем, подлежащих корректировке:
jycorpiis _ jlowpnmed р |^general у ^special j
где ßSeneral — словарь общих слов русского языка, jysPecml — тематические тезаурусы предметной области документа (имена собственные, географические наименования, аббревиатуры и т.п.).
Этап 2. Генерация корректировок. Пусть последовательность
Lexsollrce = {.S'i, Л"2,.. • ,sm }— набор лексем, полученных в результате
распознавания отдельного изображения документа.
Lex = {.S'i, .s'2,. •. Sn}— результат нормализации последовательности
т source т error
Lex , разделим его на множество лексем Lex , подлежащих
корректировке, и множество лексем Lexconect, которые будем считать корректно распознанными:
Lex = Lexerror\jLexcorrect.
В область лексем Lexcor'ect, не подлежащих корректировке, отнесем
лексемы, для которых найдено соответствие в корпусном тезаурусе pforpus или длина которых меньше порогового значения <р:
Lexcorrect = J5 ! f еLex^ Dcorpus )_
Задача генерации корректировок сводится к отбору методом анаграмм множества корректировок Wj cz I?orr для замены каждой лексемы 5,- е Lexerror, ie[l...\Lexe,ror |].
Этап 3. Ранжирование корректировок. После получения множества корректировок W необходимо определить вероятность каждой из них и провести ранжирование в порядке убывания вероятности.
j _ 2 -
Ранжирование будем производить в два шага: W->W->W.
Шаг 1. Инвариантная оценка соответствия корректировки w для замены лексемы s:
score{s, w) = In{%Lcorr (w)) x (| vv | -LD(s, w)) x /-(w) x dfactm., ¡3,eamw€DcorP"s}
faC'0r\ Ucmv./)^ '
ll ......„ ncorpus
где LD(s,w) — расстояние Левенштейна между лексемой s и корректировкой и1; r(w) — количество повторений корректировки w в ходе отбора методом анаграмм.
В итоге для каждой лексемы ssLexe"or формируется упорядоченное по убыванию инвариантной оценки score (s, w) множество корректировок:
fV = {w\wе W,score{s,wk)>score(s,wk+x\ 1 <к <| W|}. Шаг 2. Вычисление финального ранга.
Сократим размер множества W до п элементов: | W | = min(«,| fV\), и вычислим значение финального ранга Rankes, w) для каждой корректировки w:
Rank(s, vv) = х P(vv) ,
у ^ score(s, Wj)
где P(w) — статистическая вероятность нахождения корректировки w на позиции лексемы s в тексте.
/<4-i)
где P(Wj I W| ¿_i) — вероятность появления слова w, при наличии предшествующей ему последовательности слов ; f(w,-\) —
частота повторения слова, /(w/-i»wi) — частота повторения бифаммы (wM,w,).
Поскольку предшествующая лексема может являться ошибочной, вместо слова \Vj_j будем использовать множество корректировок IV, информацию о частоте повторения слов и биграмм будем получать из рейтинговых распределений лексем в нормальной форме £, ^„т , .
Формула расчета вероятности принимает вид:
, XT'i''^"™ (morph(\vj_\), morph(yv\ ))
P(wf ) = -M h-—-,
—l^-i I
Ylj^^^morphi^l,))
где wf — к -ая по порядку корректировка лексемы .у,-, 1 < к <| Щ |; wj_{ — j -ая по порядку корректировка лексемы .у(_].
В итоге для каждой лексемы s е Lexenor формируется упорядоченное по убыванию финального ранга множество наиболее вероятных корректировок: W = {vv| IV е W,Rankes,wk) > Rank{s,wk+x), Rank(s,w) e [0. ,1],1 < к <\ W|}. Этап 4. Формирование результата. Результат распознавания представляет собой множество:
RES = {(s,wbest ,Wa,ternate) I seLex],
best Tiralternate
где vv — наилучшая корректировка, W — дополнительные
корректировки.
Выбор наилучшей корректировки wbest производится по следующим правилам:
1. Если больше половины символов в лексеме s являются прописными и
среди корректировок W есть корректировки из тезауруса аббревиатур f)ahbr ; то среди них выбирается корректировка с наивысшим рангом:
wbest _ y^-omax Rank(s, w) .
we(fvr\DMr)
2. Если первый символ лексемы s прописной, а остальные строчные и в
списке корректировок W есть корректировки из тезауруса фамилий £>surname
или имен D>iame, то среди них выбирается корректировка с наивысшим рангом:
wbest = Argmax Rank(s,w)
w<=(WP[(Dmmame UD"""*))
3. Если по предыдущим правилам наилучшая корректировка не была выявлена, то выбирается самая первая корректировка из списка W :
wbest =wX,W = {wx..Syv |}.
В случае если правила 1 и 2 возвращают множество корректировок с одинаковым рангом, то наилучшей считается первая выбранная.
Во множество дополнительных корректировок цга^е17ш1е включаются все
корректировки W за исключением наилучшей wbest:
waltemate
В третьей главе представлены технология и система распознавания архивных документов с последующей корректировкой результатов, приводится описание инструментария конфигурирования процесса обработки архивных документов, компонентная модель и программная реализация системы.
Опишем технологию распознавания архивных документов и корректировки результатов в виде процесса массовой обработки электронных образов архивных документов с целью извлечения текста с исправленными ошибками распознавания при помощи разработанной системы, инструментария и метода автоматической корректировки (рисунок 3).
1. Вначале эксперту необходимо произвести анализ электронных образов архивных документов на предмет качества сканирования и принадлежности к определенной тематической группе. Для каждой из тематических групп должны быть отобраны тестовые изображения и вручную введен эталонный текст для оценки качества распознавания.
Электронные 1.Определение тематических групп документов 2.Настройка профилей распознавания 3.Сравнительный анализ профилей ■Э 4.Выбор И профилей распознавания 7 5.Распознавание групп документов
образы
документов А А
1® 10.Корректировка результатов распознавания 9.Выбор И профилей корректировки 8.Сравнительный анализ профилей 7.Настройка профилей корректировки * 6. Под готовка структур данных для корректировки -I4
документов
Рис. 3. Технология распознавания архивных документов и корректировки результатов (фигурой человека обозначены этапы, выполняемые с участием эксперта)
2-4. Следующей задачей эксперта является настройка и выбор конфигурационных профилей для распознавания групп документов. При помощи специального инструментария, описанного далее, эксперт подготавливает набор профилей и на основе сравнительного анализа качества распознавания тестовых изображений выбирает наиболее подходящие.
5. Далее производится пакетное распознавание сформированных тематических групп документов в соответствии с конфигурационными профилями.
6. По окончании процесса распознавания запускается процесс построения структур данных, необходимых для процедуры автоматической корректировки результатов. Структуры данных строятся по корпусу результатов распознавания документов отдельной тематической группы и могут быть дополнительно расширены путем добавления к результатам распознавания перечня текстов, относящихся к той же тематической группе. При запуске процесса построения структур данных эксперту необходимо задать минимальные пороговые значения частоты повторений лексем и биграмм лексем, а также указать набор тематических тезаурусов и словарей, которые будут использованы для формирования корпусного тезауруса.
7-9. Обладая подготовленными структурами данных, эксперт производит настройку и выбор наиболее подходящих профилей для корректировки отдельных тематических групп документов, опираясь на результаты сравнительного анализа распознавания тестовых изображений. Если сформированные структуры данных не обеспечивают должное качество корректировки, то эксперт может перезапустить процесс их перестроения с
новыми параметрами.
10. Последним этапом является запуск процесса автоматической корректировки результатов распознавания с подготовленными профилями.
Программная реализация системы состоит из Java веб-приложения, набора прикладных программ и базы данных (рисунок 4).
ПК
-) Веб-браузер
Оператор
-HTTP
Сервер приложений
Контейнер сервлетов
Веб-
Сервер БД
СУБД
-
Рис. 4. Архитектура системы распознавания архивных документов
Компонентная модель разработанной системы распознавания архивных документов представлена на рисунке 5.
Система распознавания архивных документов
ПК настройки процесса обработки
ПМ настройки профилей
ПМ
сравнительного анализа
ПМ подготовки структур данных
ПК пакетного распознавания и корректировки
ПМ управления заданиями ПМ обработки задания ПМ планирования выполнения
БД
-4 ►
Прогр. интерфейс
Импорт заданий
Экспорт результатов
ПК автономной обработки
ПМ предобработки ПМ OCR ПМ корректировки результатов ПМ оценки качества
Электронный архив
Распознавание
ш
Полнотекстовая индексация
X
Поиск
I
Отображение
Рис. 5. Компонентная модель системы распознавания архивных документов (ПК — программный комплекс. ПМ — программный модуль, БД — база данных)
Разработанная система состоит из трех программных комплексов, связанных между собой единой базой данных, и программного интерфейса для взаимодействия с внешними системами:
1. Программный комплекс настройки процесса обработки.
Инструментарий, позволяющий эксперту ограничивать пространство конфигураций для повышения качества распознавания, реализован в виде программных модулей настройки профилей и сравнительного анализа.
Под профилем понимается множество допустимых параметров из всего множества конфигураций процессов распознавания и корректировки документов определенного типа.
Процесс ограничения пространства конфигураций и формирования
профилей проиллюстрирован на рисунке 6. Определим множество конфигураций: Q = Qpre u Ц
;OCR u ^ POST u QQA ■■
где ill
PRE> "POST'
¿g^ — множества параметров настроики стадии
предварительной обработки, оптического распознавания, автоматической корректировки результатов распознавания, оценки качества итогового результата распознавания изображения соответственно.
Задачей эксперта на этапе настройки профилей является формирование
vPROFILE
, „ г, PRO FI LES г ^PROFILE п PRO FILE-, множества профилен 5,2 = L"i J, где
Q
профиль, содержащий множество параметров, наиболее подходящих для
распознавания отдельных типов документов.
Множество
конфигураций
а
Множество _ PROFILES профилей
Множество типов документов
Предобработка П PRE Профиль 1
Оптическое nOCR
распознавание /q profile
Œ POST
Корректировка
Профиль N
Оценка качества Пол
Тип 1
Тип N
Рис. 6. Иллюстрация процесса ограничения пространства конфигураций
Используя программный модуль сравнительного анализа, эксперт может определить профиль, который наиболее эффективно решает задачу распознавания группы изображений. Для определения эффективности эксперту предоставляются рассчитанные системой значения критериев оценки качества распознавания.
Также в задачи подготовки к работе входит предварительный разбор всего корпуса распознанных текстов и построение тезаурусов и структур данных, необходимых для автоматической корректировки ошибок.
2. Программный комплекс пакетного распознавания и корректировки предназначен для управления ходом выполнения заданий на обработку документов. Его основными задачами являются: предоставление возможности просмотра журнала заданий, управление приоритетами заданий, вызов процедур распознавания и корректировки отдельных документов, сбор результатов и запись их в базу данных.
3. Программный комплекс автономной обработки отвечает за процесс распознавания и корректировки отдельного документа в соответствии с заданным профилем.
4. Программный интерфейс системы предоставляет ряд сервисов для постановки на распознавание отдельных документов электронного архива, опроса состояния и получения результатов.
В четвертой главе даются сведения об опытной эксплуатации
разработанной технологии и системы распознавания архивных документов, приводится экспериментальная оценка предложенного метода корректировки ошибок распознавания и результаты автоматической корректировки всего корпуса распознанных документов.
Испытания проводились на базе документов научно-справочного аппарата пяти центральных государственных архивов Санкт-Петербурга.
Для проведения экспериментальной оценки предложенного метода корректировки были вручную отобраны изображения, содержащие печатный текст, отражающий тематическую направленность архива. Каждому изображению был вручную подготовлен эталонный текст. Формат изображений — JPEG, разрешение - 300dpi.
Отобранные изображения были распознаны и сгруппированы в наборы, каждый набор содержал по несколько десятков изображений и соответствовал определенному диапазону точности распознавания на уровне слов. Примеры изображений из каждого набора представлены на рисунке 7.
Расчетные ведомости та 20
Индивидуатьные сведения и начисленных страховых обятятсльнос пенсионное с 2005-2007 годи
0 юла заполнения поста! КПСС от 26 февраля 1971 парткоме Тихвинского гж| пропаганда и внедрен» : ханяв наj:<H, техника I I свете требована! девабр! Пленума ЦК КПСС".
0 дренирования освобоада
ЙГГЧПЙДР
tea рожай cjjpl ■ вара
Ьшшп Ьяре а 19»7 г. "M jcaaaaea a caacTaax caraaaa spa a 4M «H aoaaaaaa в aaa
H-3 (60%-40%)
Утверждаю!» пей pev^ia в овпиооб Угмрдик в»
lis»
..... 0 m*"opjoot длг^ьия)!». «. г.рс
H-l ( 100%-80%)
Н-2 (80%-60%)
Н-4 (40%-20%)
Н-5 (20%-0%)
Рис. 7. Примеры тестовых изображений каждого набора, в скобках указан диапазон точности распознавания изображений набора
Результаты распознавания были получены коммерческой системой оптического распознавания «Abbyy Finereader» (Abbyy) и свободно распространяемой системой «Tesseract». Для оценки качества эталонный текст и результат распознавания изображения разбивались на поисковые токены, далее вычислялась полнота Recall и точность Precision наличия токенов эталона в результате распознавания:
Recall — Tcommonj'1groundti'uth > Pi ecision — Тсоттоп/Тосг , где Tcommon — количество токенов эталона, содержащихся в распознанном тексте; Tp.olindtl.uth — количество токенов в эталоне; Тосг — количество токенов
в результате распознавания.
Сравнение значений полноты и точности результатов распознавания тестовых наборов изображений без корректировки, с результатами распознавания, содержащими один (+1) и три варианта (+3) замены ошибочных слов, представлено на рисунке 8.
Разработанный метод корректировки повышает качество распознавания как коммерческих, так и свободно распространяемых систем. Наибольшие приращения (до +15%) показателей полноты и точности отмечаются на результатах распознавания, находящихся в диапазоне словарной точности от 80 до 20%, что объясняется малым количеством «простых» ошибок в верхнем диапазоне и низким качеством результатов в нижнем диапазоне.
Увеличение значения полноты результатов распознавания при учете альтернативных корректировок свидетельствует о том, что верные корректировки не всегда определяются как наилучшие, но присутствуют в списке альтернативных корректировок, что указывает на возможность улучшения алгоритма ранжирования корректировок.
Полнота (Recall)
Точность (Precision)
Рис. 8. Сравнение оценок полноты и точности до и после корректировки После внедрения разработанной системы в центральные государственные архивы Санкт-Петербурга было распознано 32 608 документов, состоящих из 708 663 изображений. Размер результатов распознавания составил более 88 миллионов лексем.
Для оценки качества распознавания всего корпуса документов проводилось
вычисление словарной точности Ав = 1 - Пеггог , где п№ — общее количество
«И'
лексем (слов) в результате распознавания, пегго1. — количество «ошибочных» слов в результате распознавания, т.е. слов, отсутствующих в словаре и дополнительных тематических тезаурусах. В состав словаря было включено 5 498 345 словоформ сгенерированных из словаря Зализняка и программы проверки орфографии НишреП, также были подключены следующие
тематические тезаурусы: фамилии (918 659 словоформ), имена (105 560 словоформ), отчества (231 313 словоформ), аббревиатуры (1 413 словоформ).
Количество ошибочных слов после автоматической корректировки сократилось на 46%, было исправлено 16 497 948 ошибочных слов, значение словарной точности в среднем по всем архивам увеличилось на 18%. На рисунке 9 представлено распределение количества изображений по диапазонам словарной точности результатов распознавания до и после корректировки.
Диапазоны словарной точности Аа:
■ 80%-100%
■ 60%-80%
■ 40%-60%
■ 20%-40%
■ 0%-20%
до корректировки после корректировки
Рис. 9. Процентное распределение количества изображений по диапазонам словарной точности результатов распознавания до и после корректировки
Электронный архив с включенной в его состав подсистемой потокового распознавания документов с автоматической корректировкой ошибок обладает рядом существенных преимуществ перед архивными системами, в которых распознавание отсутствует либо осуществляется вручную. Данными преимуществами являются высокие темпы перевода документов в электронную форму, возможности построения эффективного поискового аппарата, высокая скорость поиска и доступа к электронным образам документов. Основываясь на статистических данных проекта «Государственные архивы Санкт-Петербурга», расчет времени ручного ввода текста 500 тысяч изображений описей составляет около 50 человеко-лет. Применение средств автоматического распознавания и корректировки позволило сократить годы ручного труда и значительно расширить поисковую базу для работы граждан, исследователей и сотрудников архивов.
ЗАКЛЮЧЕНИЕ
Полученные в диссертационном исследовании результаты представляют собой решение актуальной задачи повышения качества распознавания изображений. В ходе исследования получены следующие основные результаты: 1. Разработан метод автоматической корректировки ошибок распознавания архивных документов на основе рейтинго-ранговой модели текста, производящий поиск корректировок по тезаурусам, предварительно извлеченным из результатов распознавания и текстов одной тематической области (объем текстов порядка 100 миллионов символов).
2. Разработаны правила ранжирования и выбора наилучших корректировок, основанные на вычислении инвариантной оценки соответствия и вероятности нахождения финального слова n-граммы по известным предыдущим словам.
3. Разработан инструментарий, позволяющий эксперту производить настройку системы для обработки архивных документов различных тематических областей путем установки набора параметров, определенных по результатам сравнительного анализа качества распознавания тестовых изображений.
4. Разработаны технология и система распознавания архивных документов и автоматической корректировки результатов, успешно интегрированные с системой электронного архива и производящие массовую параллельную обработку документов в пакетном режиме, позволившие сократить количество ошибочных слов на 46%, а значение словарной точности в среднем повысить на 18%.
Полученные результаты соответствуют п.З «Модели, методы, алгоритмы, языки и программные инструменты для организации взаимодействия программ и программных систем» и п.7 «Человеко-машинные интерфейсы; модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработки изображений, систем виртуальной реальности, мультимедийного общения» паспорта специальности 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей».
СПИСОК ОСНОВНЫХ ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ Публикации в рецензируемых научных изданиях из перечня ВАК
1. Смирнов, C.B. Оцифровка, каталогизация, хранение и поиск архивной документации / C.B. Смирнов, М.В. Белозёрова // Информационно-измерительные иуправляющиесистемы.— 2010.— т. 8,№7.— С. 97-101.
2. Кулешов, C.B. Методы сегментации OCR систем в задачах автоматической обработки архивных документов / C.B. Кулешов, C.B. Смирнов // Труды СПИИРАН. - 2011. - Выпуск 1(16). - С. 110-122.
3. Смирнов, C.B. Подсистема массового распознавания изображений архивных документов / C.B. Смирнов // Труды СПИИРАН. - 2012. - Выпуск 3(22). -С. 234-248.
4. Смирнов, C.B. Методы автоматической постобработки результатов распознавания в задачах оцифровки архивных документов / C.B. Смирнов // Информационно-измерительные и управляющие системы. — 2013. — т. 11, №9.
- С. 22-32.
5. Смирнов, C.B. Сравнительный анализ OCR систем в контексте построения системы поиска по изображениям архивных документов / C.B. Смирнов // Информационно-измерительные и управляющие системы. — 2014. — т. 12, №12.-С. 44-51.
6. Смирнов, C.B. Корректировка ошибок оптического распознавания на основе рейтинго-ранговой модели текста / C.B. Смирнов // Труды СПИИРАН. - 2014.
- Выпуск 4(35). - С. 64-82.
Публикации в других изданиях
7. Смирнов, C.B. Таксономия информационных объектов электронного архива / C.B. Смирнов // Сборник научных трудов Всероссийской научно-практической конференции-форума молодых ученых и специалистов «Современная российская наука глазами молодых исследователей». — Красноярск: Научно-инновационный центр, 2011. — С. 192-194.
8. Смирнов, C.B. Логическая модель представления информации в электронном архиве / C.B. Смирнов // Сборник научных трудов IV Всероссийской научно-практической конференции с международным участием «Научное творчество XXI века». — Красноярск: Научно-инновационный центр, 2011. — Выпуск 2. — С. 93-94.
9. Смирнов, C.B. Критерии оценки качества результатов оптического распознавания / C.B. Смирнов // Сборник материалов XVI Международной научно-практической конференции «Перспективы развития информационных технологий». — Новосибирск: Издательство ЦРНС, 2013. — С. 33—38.
10. Смирнов, C.B. Особенности построения системы массового оптического распознавания архивных документов / C.B. Смирнов // Труды XVII Всероссийской объединенной конференции «Интернет и современное общество». СПб: Университет ИТМО, 2014. - С. 37-42.
П.Смирнов, C.B. Система полнотекстового поиска по изображениям архивных документов / C.B. Смирнов // Сборник материалов XXI Международной научно-практической конференции «Перспективы развития информационных технологий». Новосибирск: Изд-во ЦРНС, 2014. — С. 16-21.
12. Воронцов, A.B. Настоящее и будущее государственных электронных архивов Санкт-Петербурга / A.B. Воронцов, A.B. Кожин, C.B. Смирнов // Материалы X всероссийской научно-практической конференции «Электронные ресурсы библиотек, музеев, архивов». СПб: Изд-во «Перфектум», 2014. - С. 106-114.
Свидетельства о государственной регистрации
13. Программный комплекс «Формирование метаданных» ГИС «Государственные архивы Санкт-Петербурга» : свидетельство о гос. регистрации программы для ЭВМ №2014662557 Российская Федерация / C.B. Смирнов, A.B. Кожин, A.B. Воронцов, М.В. Белозерова; правообладатель Санкт-Петербург, Комитет по информатизации и связи. — зарегистрировано в Реестре программ для ЭВМ 03.12.2014г. - 1 с.
14. Программный комплекс «Информационно-лингвистическое обеспечение» ГИС «Государственные архивы Санкт-Петербурга» : свидетельство о гос. регистрации программы для ЭВМ №2014662676 Российская Федерация / C.B. Смирнов, A.B. Кожин, A.B. Воронцов, М.В. Белозерова; правообладатель Санкт-Петербург, Комитет по информатизации и связи. — зарегистрировано в Реестре программ для ЭВМ 05.12.2014г. - 1 с.
Подписано в печать 06.04.2015г.
Формат 60x841/16. Цифровая печать. Усл. печ. п. 1. Тираж 150 экз. Отпечатано в СПб ГУП «СПб ИАЦ». 191040, РФ, Санкт-Петербург, Транспортный переулок, д.6, литер А, пом. 7Н, 8Н. тел.: (812) 764-39-57, факс: (812) 764-95-48, e-mail secretar@iac.spb.ru, http://iac.spb.m
-
Похожие работы
- Комбинированные алгоритмы в задачах распознавания текстов
- Устройство распознавания изображений текстовых знаков по энтропийным характеристикам
- Автоматизированная система реставрации изображений архивных фотодокументов
- Алгоритм управления информационными ресурсами регионального музея и методы реставрации изображений текстовых документов
- Система идентификации структуры печатных документов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность