автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.15, диссертация на тему:Методы, алгоритмы и программные средства построения автоадаптивных шрифтов для аппаратно-программных комплексов обработки и создания неформатных электронных документов

кандидата технических наук
Чередниченко, Игорь Николаевич
город
Москва
год
2014
специальность ВАК РФ
05.13.15
Автореферат по информатике, вычислительной технике и управлению на тему «Методы, алгоритмы и программные средства построения автоадаптивных шрифтов для аппаратно-программных комплексов обработки и создания неформатных электронных документов»

Автореферат диссертации по теме "Методы, алгоритмы и программные средства построения автоадаптивных шрифтов для аппаратно-программных комплексов обработки и создания неформатных электронных документов"

На правах рукописи

Г"7

Чередниченко Игорь Николаевич

МЕТОДЫ, АЛГОРИТМЫ И ПРОГРАММНЫЕ СРЕДСТВА ПОСТРОЕНИЯ АВТОАДАПТИВНЫХ ШРИФТОВ ДЛЯ АППАРАТНО-ПРОГРАММНЫХ КОМПЛЕКСОВ ОБРАБОТКИ И СОЗДАНИЯ НЕФОРМАТНЫХ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ

Специальность 05.13.15. - Вычислительные машины, комплексы и компьютерные сети (технические науки)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

2 0 НОЯ 2014

Москва 2014

005555586

Работа выполнена в Федеральном государственном бюджетном учреждении науки Межведомственном суперкомпьютерном центре Российской академии наук в соответствии с планами научно-исследовательской работы.

Научный руководитель:

Официальные оппоненты:

Ведущая организация:

Сотников Александр Николаевич,

доктор физико-математических наук, профессор, зам. директора по научной работе, Федеральное государственное бюджетное учреждение науки Межведомственный суперкомпьютерный центр Российской академии наук Решетников Валерий Николаевич,

доктор физико-математических наук, профессор, директор Центра визуализации и спутниковых информационных технологий, Федеральное государственное бюджетное учреждение науки Научно-исследовательский институт системных исследований Российской академии наук Пранов Борис Михайлович,

доктор технических наук, профессор, заместитель заведующего кафедрой по научной работе, Государственное бюджетное образовательное учреждение высшего профессионального образования города Москвы, Московский городской педагогический университет

Факультет вычислительной математики и кибернетики Московского государственного университета им.Михаила Васильевича Ломоносова

Защита состоится "18" декабря 2014 г. в 15-00 на заседании диссертационного совета Д 212.131.05 при МГТУ МИРЭА, по адресу: 119454, г.Москва, пр. Вернардского, 78, ауд.Д117.

С диссертацией можно ознакомиться на сайте www.mirea.ru и в библиотеке МГТУ МИРЭА

Автореферат разослан "15" ноября 2014 г.

Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу 119454, г. Москва, пр-т Вернадского, 78, диссертационный совет Д 212.131.05

Ученый секретарь диссертационного совета к.т.н, доцент

Е.Г. Андрианова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования.

Работа посвящена созданию методов, алгоритмов и программных средств построения автоадаптивных шрифтов для создания аппаратно-программных комплексов (АПК) обработки неформатных графических документов. В диссертации отмечено, что развитие компьютерных технологий и насущная потребность перевода в электронный вид документов на бумажных носителях выдвинуло в число актуальных проблему разработки методов и алгоритмов для автоматических комплексов обработки и веб-публикаций неформатных графических документов он-лайн библиотек.

В настоящее время основным методом перевода документов с бумажных носителей в электронный вид является сканирование. При сканировании документов используются специальные аппаратно-программные комплексы, с развитым программным обеспечением, требуемым для подготовки документа. Немаловажное значение в этом процессе имеют распознавание, обработка и интеграция графических образов в электронный документ. При сканировании любого бумажного документа генерируется его образ, сохраняемый в одном из графических форматов. Из этих сканированных электронных документов строится электронная библиотека — информационная система, позволяющая сохранять, эффективно использовать разнообразные коллекции электронных документов, локализованных в самой системе, а также обеспечивать доступ к этим коллекциям через телекоммуникационные сети.

Если ситуация с новыми изданиями и публикациями компьютерного периода выглядит достаточно хорошо (в последние годы публикации в большинстве случаев готовятся в цифровом виде), то в работе с неформатными графическими документами, по сути, являющимися сканами, приходится сталкиваться с множеством задач, требующих своего решения. Объем изданий, публикаций и документов, выпущенных в бумажном виде

еще до внедрения компьютерных технологий обработки исчисляется сотнями миллионов страниц. Проблема усугубляется еще и тем, что все эти документы продолжают стареть и ветшать и если их не перевести в цифровой формат, многие из них могут бьггь безвозвратно утрачены.

Попытки перевести отсканированные изображения в современные форматы электронных документов при помощи программ оптического распознавания текста сталкиваются с серьезными трудностями, причина которых состоит в том что до-компьютерную эпоху не придавалось особого значения стандартизации набора шрифтов и оформления печатных документов. В результате неформатные бумажные документы часто использовали нерегулярные и нестандартные наборы шрифтов. В дополнение ко всему, существует насущная необходимость сохранения в электронном формате первоначального вида таких документов, их особенностей и стилей. Тем более, что для многих полу-рукописных, старинных печатных и руко-печатных текстов, а также уникальных изданий необходимо сохранять не только сам текст исторического документа, но и всю графическую и цветовую гамму первоисточника. Специальные подходы, методы обработки и принципы хранения и представления данных в неформатных электронных документов разработаны недостаточно, а проблемы их разработки остаются крайне актуальны.

В 1977 году Абрахам Лемпель и Якоб Зив предложили алгоритм сжатия данных, названный позднее «LZ77». Этот алгоритм используется в программах архивирования compress, lha, pkzip и arj. Алгоритм предполагает кодирование последовательности бит путем разбивки ее на фразы с последующим кодированием этих фраз. Системы кодирования по методу Лемпеля-Зива используют технологию кодирования с применением т.н. «адаптивного словаря», содержание которого состоит из набора произвольных фрагментов данных, не связанных с содержанием документа и

может изменяться в зависимости от обрабатываемых данных в процессе словарного кодирования. Поскольку в словарь включены лишь разнородные фрагменты данных, длинной от пары до сотен бит, он неплохо себя показывает в случаях универсального применения, но не совсем удобен для текстовых графических документов. Реализация такого словарного подхода на низком фрагментарном уровне, заложенная в стандарте 1РЕ02000, ни к каким преимуществам не привела и стандарт так и не получил широкого распространения. На наш взгляд, продуктивная идея не сработала в полной мере из-за выбора слишком «низкого» уровня разбиения и детализации минимальных объектов, подлежащих обработке.

Точка зрения автора данной работы состоит в том, что разбиение графического документа на объекты, мельче, чем буквы - далеко не всегда эффективно при решении задачи обработки неформатных графических документов. Действительно, если смотреть на любой графический документ с позиции пользователя, то изначальными и основными «кирпичиками», определяющими восприятие текстового материала будут, прежде всего, изображения букв и их сочетаний. В связи с этим, в работе гипотезируется возможность построения расширяемого адаптивного словаря, но уже на более высоком уровне - выделения графических объектов, максимально приближенным к соответствующим буквам, а, по сути, к их шрифтам, составляющих графический документ. Поэтому, проведя предварительную обработку графического документа и выделив в нем все отдельные объекты, соответствующие уровню букв и шрифтов, можно построить уникальный расширяемый словарь графических объектов, адаптированный к данному графическому документу. Словарь автоматически корректируется по мере обработки графических объектов и накопления статистической информации для каждого нового документа. Именно этот адаптивный расширяемый словарь графических букв, шрифтов и других объектов автоматизированной

обработки конкретного документа условно назван нами «автоадаптивным шрифтом», а совокупность методов его применения - «технологией построения автоадаптивного шрифта».

В работе предпринята попытка на основе математического аппарата модели алгоритма вычисления оценок (ABO) построить модифицированные методы и алгоритмы, позволяющие эффективно обрабатывать неформатные графические документы в АПК с конвертацией бумажных документов в электронные. На пути реализации этой попытки необходимо восполнить целый ряд пробелов в технических решениях, применяемых в настоящее время при решении аналогичных задач. К таким пробелам следует отнести отсутствие адекватных алгоритмов и программных средств автоматической обработки неформатных графических документов с целью формирования их уникальных автоадаптивных шрифтов; отсутствие алгоритмов обратного восстановления исходного вида графических документов, построенных на основе информации автоадаптивного шрифта, позволяющего обеспечить достижение наилучшего качества восстановления документа; отсутствие математических моделей, представляющих единым образом все виды объектов неформатных графических документов, с построением для каждого объекта вектора признаков и с использованием выбранной метрики для оценки похожести этих объектов; неопределенная процедура выбора необходимого количества членов разложения в ряд Фурье для решения поставленной задачи и др.

Объектом исследования данной работы являются автоматизированные программно- аппаратные комплексы обработки и создания электронных документов.

Целью диссертации является разработка методов, алгоритмов и программных средств для построения автоадаптивных шрифтов для эффективной обработки и создания неформатных электронных документов в

АПК, обрабатывающих бумажные документы и создающих их точные

электронные версии с уменьшением временем доступа к документу и

сокращением затрат памяти на его хранение.

Для достижения этой цели в диссертации поставлены следующие задачи:

• Разработать метод построения автоадаптивных шрифтов для неформатных графических документов, основанный на модели алгоритма вычисления оценок, контурного анализа и процедуре кластеризации графических символов. Метод должен позволять строить двухкомпонентное компактное представление таких документов в виде файла адаптивного словаря графических символов и файла, содержащего набор их координат.

• Разработать метод обработки графических образов электронных документов позволяющий уменьшать их размер при сохранении качества и улучшении визуального восприятия исходного документа, размещая обработанный материал во внутреннем словаре АПК.

• Разработать программные средства автоматической обработки неформатного графического документа с целью формирования его уникального автоадаптивного шрифта.

• Разработать алгоритм обратного восстановления исходного графического документа, построенный на основе информации автоадаптивного шрифта и координат графических объектов, позволяющий обеспечить достижение наилучшего качества восстановления документа с защитой его от прямого копирования.

• Разработать программное обеспечение клиентской части АПК для двух вариантов веб-публикации документов: с использованием НТМЬ-5 и РЫЬ-технологии.

• Разработать унифицированную структуру программно-аппаратного комплекса, включающего в себя необходимые программные модули и структурные связи аппаратной реализации.

• Верифицировать научные положения диссертации с внедрением результатов, выводов и практических рекомендаций диссертации в конкретные разработки.

Перечисленные задачи составляют предмет исследования диссертаиии. определённый паспортом специальности 05.13.15 «Вычислительные машины, комплексы и компьютерные сети», область исследования №3 «Разработка научных методов и алгоритмов организации логической, символьной и специальной обработки данных».

Методы исследования базируются на теоретических и методологических основах модели ABO (алгоритма вычисления оценок), контурного анализа, аппарата математической статистики, Фурье анализа, теории кластеризации. Теоретическая значимость исследования обоснована тем, что: На основе теории алгоритмов вычисления оценок (ABO) построена математическая модель, позволяющая представить все объекты неформатного графического документа единым образом, построить для каждого объекта вектор признаков и проводить оценку похожести этих объектов в выбранной метрике.

Обоснован выбор методов контурного анализа графических образов для обработки неформатных электронных документов.

Предложен новый подход к формированию автоадаптивных шрифтов на основе методов статистического анализа.

Доказана теорема о возможности точного определения коэффициентов разложения Фурье для контура объекта, являющегося кусочно-линейной функцией.

Разработана процедура получения вектора признаков графических объектов с использованием Фурье преобразования контуров объектов, заданных параметрически, метод устранения проблемы граничных условий при проведении процедуры Фурье преобразования.

Разработан алгоритм адаптивной коррекции образцов графических образов и предложен критерий для объединения похожих объектов в один элемент для построения автоадаптивного шрифта, что позволило построить программное ядро АПК обработки неформатных графических документов.

Практическая ценность полученных результатов:

Предложена, разработана и внедрена в практические разработки технология построения автоадаптивного шрифта.

Разработана типовая блок-схема аппаратно-программного комплекса обработки неформатных графических документов.

Приведено описание работы всех блоков этого комплекса, включая станцию обработки документов и ее взаимодействие с веб-сервером публикаций электронных документов.

Предложены алгоритмические решения практической реализации работы с неформатными электронными документами, выделение объектов в таких документах и методы обработки.

Для решения задачи поиска объектов графического документа использована оригинальная реализация алгоритма выделения контуров графических объектов на основе метода маркированных квадратов, позволяющий получать контура графических объектов документа за один проход обработки.

Разработаны программные средства поддержки технологии автоадаптивного шрифта, включая программную реализацию процедур поиска объектов графического документа и выделения границ объектов, процедуру формирования вектора признаков, НТМЬ-код для обратного восстановления документа из адаптивного шрифта и программу восстановления графического объекта из элемента автоадаптивного шрифта.

Рассмотрены решения сопряженных задач, для которых возможно продуктивно использовать технологию автоадаптивного шрифта

Апробация результатов исследования. Основные положения и результаты диссертационной работы доложены и обсуждены на международных научных конференциях и семинарах:

2011 г. XVII-ая Международная конференция по вычислительной механике и современным прикладным программным системам, Украина, Крым, Симферополь,

2012г., ХХХХ-я Международная конференция и X Международная конференция молодых ученых «Информационные технологии в науке, образовании, телекоммуникации и бизнесе» 1T+SE42,' Майская сессия, Украина, Крым, Ялта-Гурзуф,

2012г., XL-я Международная конференция и X Международная конференция молодых ученых «Информационные технологии в науке, социологии и бизнесе» IT+SE'12, Осенняя сессия, Украина, Крым, Ялта-Гурзуф,

2013-2014гг. ежегодные совместные научные семинары МСЦ РАН и Вычислительного центра РАН им. A.A. Дородницына.

Личный вклад соискателя .состоит в том, что выбор темы, постановка задачи исследования, обсуждение и обобщение всех полученных результатов, формулирование и разработка научных положений и выводов, вынесенных на защиту, принадлежат лично автору настоящей работы.

Публикации. Основные теоретические результаты, представленные в диссертации, изложены в 11 публикациях автора в том числе 4 ([2], [3], [5] и [6]) в российских рецензируемых научных журналах, рекомендованных ВАК.

Структура и объем работы. Структура диссертации включает в себя Введение, определяющее актуальность и место данной работы, четыре главы содержательного текста, Заключение, представляющее результаты работы, выносимые на защиту с указанием их теоретической и практической

значимости, список Литературы, включающий 81 источник и четыре Приложения, в которые вынесены программные аспекты работы. Общий объём работы с Приложениями - 127 страниц.

Основное содержание работы

Во введении обоснована актуальность темы исследования и сформулированы проблематика и цель диссертационной работы.

В первой главе рассмотрена краткая ретроспектива развития оптических систем распознавания образов. Приведена классификация систем распознавания по типу использования обучающей информации: системы без обучения, обучающиеся системы, самообучающиеся системы. Обосновано применение общей модели вычисления оценок (ABO), впервые предложенной в работах Ю.И.Журавлева, приведен анализ современного состояния работ в области хранения и обработки неформатных текстовых графических документов.

Приведены примеры современных проектов электронных библиотек, включая программы «American Memory» (с 1989 г. по настоящее время) и «National Digital Library» (с 1990 г., в 1998 г. преобразована в единую межведомственную программу — «Digital Libraries Initiative — Phase 2»), проекты, запущенные в России (оцифровка коллекций Эрмитажа, редких рукописей в РГБ, ВГБИЛ и т. д.).

К сожалению, большая часть этих оцифрованных неформатных электронных документов публикуется почти в том виде, в каком они получены из под сканера. И объясняется это, в первую очередь, трудностями, связанными с распознаванием (современные ОСР системы дают очень большой процент ошибок) и последующей обработкой и отображением (многие символы давно вышли из употребления или вообще уникальны), поскольку шрифты и стиль оформления таких документов сильно отличаются от современных стандартов в весьма широких пределах. Исправить эту

ситуацию предлагается с помощью предложенной в данной работе технологии формирования автоадаптивных шрифтов для неформатных графических документов.

Первая глава завершается разделом 1.3, в котором обсуждена постановка задачи и приведен перечень задач, отвечающих цели диссертации.

Во второй главе рассмотрена формальная постановка задачи построения автоадаптивного шрифта и описан математический аппарат, использованный для построения системы обработки объектов текстовых графических документов, содержащих нерегулярные шрифты. Сформирован вектор признаков объектов неформатного графического документа. Определен выбор необходимого количества членов ряда Фурье для получения требуемой точности решения задачи обратного восстановления их вида. Обоснован выбор метрики расстояния в пространстве признаков описания объектов графического документа. Описан метод построения автоадаптивного шрифта на основе процедуры кластеризации графических объектов.

Контур рассматривается как вектор-функция, заданная параметрически: 1УЛ,) = Х(1)- 1=1,2,...,т

Гу(,) = у((), /=1,2.....т (1)

Очевидно, что подобное описание объекта не может обойтись без дополнительных преобразований, чтобы использоваться в качестве вектора признаков. Во-первых, необходимо чтобы описание графического объекта было инвариантно по отношению к положению объекта. Во-вторых, представление объекта не должно зависеть от его размеров (масштаба объекта), хотя и может содержать масштаб объекта как дополнительный параметр. Некоторые специальные приложения накладывают и дополнительные требования. Например, может потребоваться инвариантность описания объекта к углу поворота в случае, когда разрешается ввод графической информации с произвольной ориентацией по отношению к

устройству ввода и т.д. Выбор в пользу преобразования Фурье сделан, главным образом, в силу равномерной сходимости ряда Фурье при приближении кусочно-линейной функции, ортогональности его компонент и ряда других особенностей этого метода. Коэффициенты разложения Фурье Ьк для кусочно-линейной функции вычисляются по формуле:

, (-1)*2/(>г) 2т Й . . . . , . кл

Из равномерной сходимости компонент Фурье-преобразования как 1/х, следует необходимый для практических расчетов вывод о том, что если эти коэффициенты Ък для кусочно-линейной функции вычисляются точно, и если использовать их в качестве компонент вектора признаков, то их количество определяется точностью поставленной задачи и однозначно определяется процедурой выбора необходимого количества членов ряда Фурье для получения необходимой точности решения задачи обратного восстановления вида графических объектов. При этом, восстанавливать объекты обратным Фурье преобразованием необходимо не точнее шага сетки сканирования. В связи с этим доказывается теорема об оценке необходимого количества т членов разложения в ряд Фурье:

где е - требуемая точность, й - линейный размер графического объекта, п количество точек в контуре и т — количество компонент, обеспечивающих требуемую точность приближения. Задавшись нужной точностью е , количеством компонент преобразования Фурье и линейным размером графического объекта получаем необходимое количество компонент т, которые обеспечивают требуемую точность приближения. На практике п и требуемая точность е - заданные величины. При работе с графическим объектом, необходимо оценивать количество точек, при котором соблюдается необходимая точность приближения. Рассматривается выбор метрики

расстояния в пространстве признаков описания объектов графического документа. Разработан метод построения автоадаптивного шрифта на основе процедуры кластеризации графических объектов. Поскольку процедура построения автоадаптивного шрифта - это объединение нескольких близких графических объектов в один образец (элемент автоадаптивного шрифта), то метод, объединяющий похожие графические объекты в один элемент, предполагает последовательную обработку объектов неформатного графического документа и их сравнение с уже существующими элементами автоадаптивного шрифта. Для решения этой задачи необходимо: осуществить выбор и выполнить корректировку порога принадлежности

рассматриваемого входного графического объекта уже существующим элементам автоадаптивного шрифта, выполнить коррекцию элемента автоадаптивного шрифта и включить в него информацию об обработанном объекте.

Входные объекты графического документа, как правило, зашумлены дефектами сканирования. Вполне правомерно считать, что шум от дефектов сканирования имеет нормальное распределение. Поэтому в работе был выбран статистический подход к формированию центра кластера и его границ, который, при достаточном количестве исследуемых образцов, позволяет минимизировать шумы. Предполагается, что на реальные координаты кластера накладываются случайные искажения. Координаты центра кластера рассчитываются как математическое ожидание:

Соответственно, для формирования и корректировки границ кластера, вычисляется и хранится дисперсия отклонений всех входящих в кластер образцов:

т ы

1

(4)

Такой подход помимо минимизации помех от дефектов сканирования, позволяет максимально точно восстановить первоначальный вид графических объектов. Адаптивный алгоритм обратной коррекции состоит из следующих шагов:

Шаг I: Пересчет центра кластера при добавлении в него нового объекта:

т + 1 'у ' «1 + 1 ^ ; /и + 1 ^ > 'У >А

Шаг 2: Пересчет значения дисперсии сг2 после добавления нового члена кластера:

/йт!

Данный алгоритм позволяет пересчитывать уточненные параметры кластера после добавления нового его представителя. Глава завершается краткой сводкой полученных результатов.

В третьей главе разработаны методы предварительной обработки исходных данных неформатных графических документов для построения АПК. Рассмотрена бинаризация исходного изображения графического документа. Разработана процедура выделения графических объектов и получение их контуров из бинаризованного электронного документа методом маркированных квадратов. Разработан алгоритм построения вектора признаков графических объектов из контурной информации. Приведен алгоритм вычисления порога определения похожести графических объектов для включения в элемент словаря адаптивного шрифта.

Алгоритм выделения графических объектов и получение их контуров предполагает рассмотрение и анализ четырех ближайших точек сетки. Узлы сетки раскрашиваются (маркируются) в зависимости от значения исследуемой функции в данном узле. Для бинарных изображений такая раскраска есть просто наличие или отсутствие черного пикселя. В результате возникает 16 различных вариантов построения фрагмента контура для данной ячейки:

1 1 з г

3 3

входное

изображение О

0 О

1 1 1 1 1 1

О О

Бинаризованное изображение

7—*—•--9-•

с о о о ,

1-т"'""?-гт

е» <? <? о #

А—§—4—«—i

Присвоение каждой значения из таблицы

Преобразование таблицы в контур

Сравнение исходного изображения и полученного контура

В рТ1 В «я •

¥—] 0 < 1 < > < >»

Таблица возможных типов сегментов

1— —( 0 Ц □ в

п 4 и 5 ш 6 п Сше7

п 8 Ш 9 п III □ Саяо 11

н □ п п

Рис. 1.. Метод «маркированных квадратов" для выделения контуров на исходном изображении.

Разработанный в диссертации вариант модифицированного метода маркированных квадратов позволяет получать замкнутые внутренние и внешние контура всех графических объектов документа за один проход. После завершения обхода внешнего контура, делается дополнительный поиск и если в поле были еще не обработанные точки, процедура повторялась и в описание объекта вносится следующий контур. Алгоритм построения вектора признаков графических объектов из контурной информации строился на том, что контур рассматривался как вектор-функция (1). Поскольку компоненты

IV, и ж, ортогональны, их преобразование в компоненты вектор признаков можно производить независимо используя (2).

Последовательность шагов, необходимых для решения задачи построения автоадаптивного шрифта документа, представляет следующий алгоритм:

Рис.2. Схема работы алгоритма формирования автоадаптивного шрифта графического документа.

Главу 3 завершает перечисление алгоритмических решений, соответствующих практической реализации работы с неформатными электронными документами.

В четвертой главе приведена общая схема АПК для публикации неформатных графических документов. Описаны модули, реализующие алгоритм построения автоадаптивного шрифта, модуль ввода и первоначальной обработки электронных документов, модуль выделения объектов графического документа на основе метода "маркированных квадратов" и выбор точки привязки графического объекта (Приложение!), модуль построения векторов признаков графических объектов документа (Приложение2), модуль вычисления матриц расстояний и сходства и формирования ячейки автоадаптивного шрифта графического документа. Описан процесс организации веб-публикаций электронных документов с

использованием НТМЬ-5 и Р1азЬ-технологии (ПриложениеЗ), реализация метода поиска информации по многостраничному графическому документу при помощи автоадаптивного шрифта. Приведены сопряженные задачи, для которых возможно использовать технологию автоадаптивного шрифта.

Для оценки правильности подхода к процессу обработки неформатных электронных документов, содержащих графические символы, и решения проблем, связанных с безопасностью, размерами электронных публикаций, а также построения системы поиска в графических файлах в процессе работы реализован и запущен в эксплуатацию программный комплекс А-ЫЫю. Использование различных программных средств и технологии при реализации комплекса, связано с разнородной средой работы подсистем АПК.

бинаризации - Модуль выделения объектов

построения - Модуль шрифт»

объекта« шрифт

Станция подготовки документов

Выкодной документ

Рис.3. Структура АПК обработки неформатных графических документов.

Программная реализация комплекса включает в себя развитые подсистемы, прежде всего это станция подготовки документов, выполняющая первоначальный ввод, обработку неформатного графического документа и построение его уникального автоадаптивного шрифта. Восстановление документа и его подготовка для веб-публикации выполняются другим компьютером комплекса, на котором работает веб-сервер и находится база электронных документов, выставленных для просмотра. Конечная сборка и просмотр восстановленного электронного документа производится в третьей подсистеме комплекса. Окончательная сборка документа происходит на

компьютере клиента либо при помощи средств HTML-5 либо Flash-модулем. В качестве клиента может выступать в том числе и планшетный компьютер -необходимо лишь, чтоб его браузер поддерживал стандарт HTML-5.

Важной сопряженной задачей, решаемой в АПК, является задача минимизации интернет-траффика при работе с неформатными электронными документами. Технические требования к электронным библиотекам (взято из технических требований электронной библиотеки научного наследия РАН [68]) подразумевают сканирование и хранение электронных документов с разрешением 600 dpi (точек на дюйм). Получаемое при этом качество документа позволяет сделать очень хорошую копию на высококачественном принтере и эта копия весьма мало будет отличаться от оригинала. Но, в большинстве случаев, например, при просмотре документов на экране монитора более чем достаточно разрешения 120 или даже 64 dpi. А выставление в общий доступ полноценной копии с разрешением 600 dpi, помимо проблем с большим размером передаваемого по сети изображения, вполне может привести к несанкционированному копированию первоисточника и проблемами с правопреемниками и авторскими правами. Чтобы избежать этих коллизий для электронных публикаций документов, предполагается использовать свойство автоадаптивного шрифта, позволяющее регулировать выходное качество документа. Речь идет о том, что при восстановлении шрифта при обратном Фурье преобразовании, вполне возможно разумно уменьшать количество коэффициентов, участвующих в восстановлении информации, что иллюстрируется серией изображений увеличенной буквы "Ж" на рисунке 4.

А) Б) В) г)

Рис.4. Качество восстановления объекта в зависимости от использованного количества компонент Фурье разложения. А) Число использованных компонент и=256; Б) Число использованных компонент п= 128; В) Число использованных компонент /¡=64; Г) Число использованных

компонент и=16.

Еще одной сопряженной задачей, является проблема контекстного поиска текстовой информации в многостраничных графических документах. Следует отметить, что в современных системах электронных библиотек, публикующих свои документы, содержащие от десятков до сотен изображений страниц информации в виде многостраничных ТН-Т-файлов или других файлов с изображениями, в основном, если не произведена полная процедура оптического распознавания, дополнительно присутствует минимальная аннотация к документу и его оглавление. Таким образом, если необходимо найти в каком месте документа встречается заданная информация, то нужно приложить массу усилий по постраничному изучению всего объема многостраничного документа. При использовании технологии автоадаптивного шрифта, появилась возможность организовать поиск текстовой информации внутри графического документа для которого не проведена процедура полного оптического распознавания. В практической реализации была опробована версия с использованием виртуальной экранной клавиатуры, которая динамически генерируется из самого автоадаптивного шрифта, а все объекты, удовлетворяющие заданному условию, выделись цветом.

Четвертая глава завершается выводом о том, что опыт практической реализации алгоритма построения автоадаптивного шрифта и используемые в диссертации математические подходы могут содержать большие

потенциальные возможности для новых направлений исследований в данной предметной области.

В Заключении обобщены основные научные и практические результаты, отмечена их новизна и практическая значимость. Приведен перечень тезисов, выносимых на защиту.

На защиту выносятся:

1. Метод построения автоадаптивных шрифтов для неформатных графических документов, основанный на модели алгоритма вычисления оценок и контурного анализа. В отличии от известных методов, в качестве компонентов вектора признаков выбраны компоненты Фурье-разложения контуров изображений входного графического документа. Метод позволяет представить исходный документ как набор кластеризованных объектов, что обеспечивает уменьшение объема исходного графического документа в несколько раз.

2. Метод обработки графических образов электронных документов, позволяющий уменьшить его информационный объем, улучшить визуальное восприятие. В основе метода лежит идея кластеризации графических объектов, позволившая из полученной информации о кластере формировать элемент автоадапгивного шрифта.

3. Алгоритм обратного восстановления графического документа, построенный на основе информации автоадаптивного шрифта и координат графических объектов. Алгоритм позволяет обеспечить достижение регулирование качества восстановления документа, защитить документ от прямого копирования, а так же организовать приближенный поиск внутри графического документа.

4. Программа автоматической обработки неформатного графического документа с целью формирования его уникального автоадаптивного шрифта.

5. Программа клиентской части, реализованная в двух вариантах - для технологии НТМЬ-5 и НаяИ-технологии. Программа восстанавливает

первоначальный вид графического документа и работает на стороне пользователя.

6. Программно-аппаратный комплекс «А-ВШЫО», включающий в себя рабочую станцию с модулем нахождения границ графических объектов документа методом "маркированных квадратов", модулем векторизации и выделения контуров графических объектов, модулем построения вектора признаков графических объектов, модулем вычисления матрицы расстояний и матрицы сходства, модулем включения объекта в релевантный кластер и модулем формирования автоадаптивного шрифта.

7. Программные средства поддержки технологии автоадаптивного шрифта, включая программную реализацию процедур поиска объектов графического документа и выделения границ объектов, процедуру формирования вектора признаков, НТМЬ-код для обратного восстановления документа из адаптивного шрифта и программу восстановления графического объекта из элемента автоадаптивного шрифта.

Дальнейшее развитие результатов, полученных в ходе работы над диссертацией, планируется вести на основе разработанной в ней технологии автоадаптивного шрифта, решая методами этой технологии задачи: 1) обработки плоских изображений, полученных с перьевого и рукописного ввода, 2) распознавания раздельного рукописного текста, 3) идентификации личности по подписи субъекта и рукописному многоразовому паролю и 4) генерации произвольных документов, выполненных стилем и почерком конкретного субъекта. Пути решения перечисленных задач намечены в разделах 4.5.5, 4.5.2 и 4.5.3 четвертой главы диссертации.

ПО ТЕМЕ ДИССЕРТАЦИИ ОПУБЛИКОВАНЫ СЛЕДУЮЩИЕ РАБОТЫ

1. И.Н.Чередниченко. Биометрические технологии идентификации. Теоретические и прикладные задачи нелинейного анализа. ВЦ РАН, 2005 г., стр. 132-142.

2. И.Н.Чередпичепко. Построение системы биометрической идентификации. Программные продукты и системы. 2007 г., Л» 2, стр. 20-22.

3. В.А.Березнев, А.Н.Сотпиков, И.Н.Чередпичепко. Адаптивная статистическая модель распознавания образов. Информационные технологии и вычислительные системы. 1996 г., №1, стр. 55-63.

4. В.А.Березпев, А.С.Сепаторов, И.Н.Чередниченко. О задаче объединения график. Вопросы кибернетики, вып. 119. 1997 г.

5. Построение авто-адаптивного фонта в документах электронных библиотек. А.Н.Сотников, И.Н.Чередниченко. Программные продукты и системы, №2(82), 2008 г. ISSN 0236-235Х.

6. V.A.Bereznev, A.N.Sotnikov, I.N.Cherednichenko. A Probabilistic Criterion and an Integral Method in Graphic-Object Recognition and Information Retrieval. Pattern Recognition and Image Analysis. Moscow,Interperiodika, 1994, Vol. 4,1, pp. 32-35.

7. В.А.Березпев, А.Ю.Волков, И.Н.Чередпичепко. Об использовании преобразования Фурье в задаче распознавания рукописного текста. Вопросы моделирования и анализа в задачах принятия решений. ВЦ РАН, 2003 г., стр. 153-159.

8. В.А.Березпев, А.Ю.Волков, И.Н.Череднпченко. О выборе параметров в алгоритме распознавания раздельного рукописного текста. Вопросы моделирования и анализа в задачах принятия решений. ВЦ РАН, 2004 г., стр. 136-143.

9. А.Н.Сотников, И.Н.Чередниченко. Построение словаря авто-адаптивного фонта. Материалы XVII Международной конференции по вычислительной механике и современным прикладным программным системам (ВМСППС7011), 2011г., стр. 218-220.

10. И.Н.Чередниченко. Система публикаций документов в электронных библиотеках с использованием автоадаптивного шрифта. // Приложение к журналу «Открытое образование» Материалы ХХХХ-ой Международной конференции и X Международной конференции молодых ученых «Информационные технологии в науке, образовании, телекоммуникации и бизнесе» IT+SE'12, Майская сессия, Украина, Крым, Ялта-Гурзуф, 25 мая - 4 июня 2012 г. - с.186-189.

11. И.Н.Чередниченко. Построение системы анализа качества графических объектов// Приложение к журналу «Открытое образование» Материалы XL-ой Международной конференции и X Международной конференции молодых ученых «Информационные технологии в науке, социологии и бизнесе» IT+SE'12, Осенняя сессия, Украина, Крым, Ялта-Гурзуф, 1-10 октября 2012 г. — с.54-56.

Подписано в печать 06.11.2014г. Бумага офсетная. Печать цифровая. Заказ № 141 Тираж 100 экз. Типография «КОПИЦЕНТР» 119234, г. Москва, Ломоносовский пр-т, д.20 Тел. 8(495)213-88-17