автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Обработка и распознавание рукописного текста в системах электронного документооборота
Автореферат диссертации по теме "Обработка и распознавание рукописного текста в системах электронного документооборота"
На правах рукописи
003455048
ГОРОШКИН АНТОН НИКОЛАЕВИЧ
ОБРАБОТКА И РАСПОЗНАВАНИЕ РУКОПИСНОГО ТЕКСТА В СИСТЕМАХ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА
05.13.01 - Системный анализ, управление и обработка информации (космические и информационные технологии)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
О 5 ДЕК 2003
Красноярск - 2008
003455048
Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева», г. Красноярск
Научный руководитель:
кандидат технических наук, доцент Фаворская Маргарита Николаевна
Официальные оппоненты:
доктор технических наук, профессор Медведев Александр Васильевич
кандидат физико-математических наук Епихин Андрей Михайлович
Ведущая организация
Сибирский государственный технологический университет, г. Красноярск
Защита состоится 19 декабря 2008 года в 14 часов на заседании диссертационного совета Д 212.249.02 при Сибирском государственном аэрокосмическом университете имени академика М.Ф. Решетнева по адресу: 660014, г. Красноярск, пр. им. газеты «Красноярский рабочий», 31
С диссертацией можно ознакомиться в научной библиотеке Сибирского государственного аэрокосмического университета имени академика М.Ф.Решетнева
Автореферат разослан 17 ноября 2008 г.
Ученый секретарь диссертационного с
Е.П. Моргунов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. Входной информацией в системах электронного документооборота могут быть не только документы с печатным текстом, но и рукописные документы (документация паспортно-визовой службы, анкетирование, прием заявлений от населения). Также имеется большое количество унаследованных рукописных документов, содержащих важную техническую информацию, которые желательно перевести в электронный вид.
Несмотря на то, что задачей распознавания рукописных символов исследователи начали заниматься с 70-х гг. XX в. (Ковалевский В.А., Рыбак В.И., Фукунага К. и др.), до сих пор имеются как теоретические, так и практические проблемы, связанные с большим многообразием написания отдельных рукописных символов и текста. В настоящее время наиболее активные разработки в данном направлении проводятся университетами State University of New York at Buffalo, University of Massachusetts Amherst (США), Concordia University (Канада), Univesite de Monreal (Франция), Московский государственный университет, Московский физико-технический институт (Государственный университет) (РФ).
Известны два основных подхода к распознаванию рукописного текста: распознавание в режиме текущего ввода символов и распознавание ранее написанных документов. Первый подход используется в системах реального времени, к которым относятся системы сенсорного ввода рукописных символов. Входными данными являются траектории указывающего устройства (стилус, перо и т.д.). Системы, решающие задачу в рамках второго подхода, имеют невысокую точность распознавания (около 70-75%), требуют настройки на конкретный почерк и стиль написания. Данные системы используются при вводе информации с бумажных носителей. Входными данными в этом случае являются изображения, полученные со сканера или других цифровых устройств. Разработка методов и алгоритмов распознавания ранее написанного рукописного текста позволит повысить эффективность работы таких систем. Таким образом, задача обработки и распознавания рукописного текста является актуальной и востребованной в различных сферах деятельности.
Целью диссертационной работы является усовершенствование методов и алгоритмов обработки и распознавания рукописного текста в системах электронного документооборота, представленного в виде изображений текстовых документов.
Поставленная цель определила необходимость решения следующих задач:
1. Провести анализ подходов для построения систем обработки изображений текстовых документов, методов сегментации изображений на информативные текстовые зоны, а также методов распознавания отдельных рукописных символов и рукописного текста.
2. Усовершенствовать методы и алгоритмы сегментации изображений на текстовые зоны, содержащие рукописные слова, а также сегментации текстовых зон на отдельные символы.
3. Модифицировать методы и алгоритмы распознавания рукописных символов и текста на основе векторного подхода.
4. На основе предложенных методов и алгоритмов создать программные модули для реализации системы обработки и распознавания рукописных символов и текста, представленных в виде изображений.
5. Разработать экспериментальную систему распознавания для оценки эффективности предложенных алгоритмов при решении различных задач распознавания, основанных на контурной информации об объектах.
Методы исследования. При выполнении диссертационной работы использовались методы теории информации, теория обработки сигналов, теория распознавания образов, теория математической морфологии, методы аналитической геометрии, методы объектно-ориентированного программирования.
Научная новизна диссертационной работы состоит в следующем:
1. Усовершенствован метод сегментации изображений, содержащих рукописный текст, на отдельные текстовые зоны (строки и слова) на основе операций морфологической обработки и на отдельные символы с использованием процедуры адаптивной подстройки выделяющей ячейки и усиления ядра символов. Это позволило сократить количество ложных сегментаций и увеличило точность сегментации на 5-7%.
2. Предложена векторная модель описания внешнего контура изображений рукописных символов, основанная на нахождении опорных точек с применением модифицированного фильтра Робертса, а также алгоритм построения модели на основе процедур уплотнения и нормализации параметров векторного представления. Данные процедуры позволили получить векторное описание, инвариантное к преобразованиям аффинной группы (масштабирование, сдвиги, поворот).
3. Разработаны алгоритмы распознавания рукописных символов, использующий базу эталонных векторных описаний с обучением и без обучения на конкретный почерк, и распознавания текста с использованием тематических электронных словарей, что обеспечивает повышение точности распознавания в среднем на 5-9%.
Практическая значимость. Предложенные в диссертационной работе методы и алгоритмы предназначены для практического применения в системах документооборота предприятий, анкетирования населения, паспортно-визовой службы и других систем, где входными данными являются изображения текста, написанного от руки. На основе диссертационных исследований разработана библиотека компонентов для создания систем обработки и распознавания изображений рукописного текста.
Реализация результатов работы. Разработанная программа «Система векторизации и распознавания внешнего контура изображений рукописных
символов (Vectoiyzator)» зарегистрирована в Российском реестре программ для ЭВМ г. Москва, 7 июня 2007 г. (свидетельство №2007612407), а также программа «Сегментация изображений рукописного текста (SegPic)» зарегистрирована в Российском реестре программ для ЭВМ г. Москва, 5 сентября 2008 г. (свидетельство №2008614243).
Разработанные алгоритмы и программное обеспечение используются в учебном процессе при проведении занятий по дисциплинам «Интеллектуальная обработка данных», «Теоретические основы цифровой обработки изображений» в Сибирском государственном аэрокосмическом университете им. академика М. Ф. Решетнева (СибГАУ), а также в программном комплексе по обработке результатов социологических исследований «Социорасчет» социологической лаборатории Центра общественных связей СибГАУ.
Основные положения, выносимые на защиту:
1. Метод сегментации изображений рукописного текста на отдельные текстовые зоны и символы на основе морфологической обработки и процедуры адаптивной подстройки выделяющей ячейки.
2. Векторная модель описания внешнего контура изображений рукописных символов, основанная на нахождении опорных точек, а также алгоритм построения данной модели.
3. Алгоритм распознавания рукописных символов и текста на основе векторного подхода с использованием тематических словарей.
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на 10-й международной конференции и выставке «Цифровая обработка сигналов и ее применение» (Москва 2008), IX международной научно-технической конференции «Кибернетика и высокие технологии XXI века» (Воронеж 2008), всероссийской конференции «Модели и методы обработки изображений» (Красноярск 2007г.), всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Решет-невские чтения» (Красноярск 2004, 2005, 2006, 2007 гг.), всероссийской научной конференции студентов, аспирантов и молодых ученых «Наука. Технологии. Инновации» (Новосибирск 2004 г.), региональном смотре-конкурсе программных проектов «5о/г-Парад-2007» (Красноярск 2007 г.), всероссийской конференции творческой молодежи, посвященной дню космонавтики «Актуальные проблемы авиации и космонавтики» (Красноярск 2005, 2006, 2007 гг.), студенческом семинаре Летней школы компании «Интел» (Москва, Нижний Новгород 2008г.), а также на научных семинарах лаборатории систем цифровой обработки изображений СибГАУ.
Публикации. По результатам диссертационного исследования опубликовано 18 печатных работ, из них 4 статьи, 12 докладов, 2 свидетельства, зарегистрированных в Российском реестре программ для ЭВМ.
Структура работы. Работа состоит из введения, трех глав, заключения, списка литературы и приложения.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность работы, сформулирована цель и поставлены задачи исследования, показана научная новизна и практическая ценность выполненных исследований, представлены основные положения, выносимые на защиту.
В первой главе рассмотрены основные подходы, применяемые при распознавании рукописных символов и текста, приведена классификация известных методов, а также проанализированы характеристики систем распознавания текста. В настоящее время для распознавания рукописных символов и текста используются несколько технологий, сравнительная характеристика которых приведена в табл. 1 и 2 соответственно.
Таблица 1
Сравнительная характеристика методов распознавания рукописных символов
Основные технологии Характеристика
Искусственные нейронные сети: многослойный перцептрон; сети с радиальными базисными функциями Хорошо классифицируют нормализованные образы, позволяют подстраиваться под конкретный класс изображений (обучаться)
Обучающееся векторное квантование Позволяет группировать схожие образы в кластеры и тем самым классифицировать близкие входные классы признаков
Метод опорных векторов: опорные векторы (линейно разделимый случай); ядра (линейно неразделимый случай); обобщения базовой модели Теоретическое обоснование, сводит задачу классификации к квадратичной оптимизации, сложно подобрать вид ядра в случае плохой разделимости классов признаков
Таблица 2
Сравнительная характеристика методов распознавания текстовых последовательностей
Основные технологии Характеристика
Скрытая марковская модель с дискретным временем, конечным пространством состояний и конечным пространством наблюдаемых состояний Позволяет учитывать грамматики языка, уменьшает количество сравнений с эталонами
Распознавание графов: распознавание слов с распознавателем букв и распознавание слов без распознавателя букв Существует возможность распознавания слов без распознавания букв, позволяет распознавать различные стили написания. Инвариантность к преобразованиям аффинной группы
Наиболее эффективным методом распознавания рукописных символов по быстродействию и точности распознавания является метод векторного квантования. Простейший алгоритм распознавания рукописного текста состоит в сегментировании изображения на отдельные символы, распознавании символов и выдаче последовательности наиболее вероятных ответов. Однако данный способ не исправляет ошибок сегментации и распознает с достаточной точностью
только случайные последовательности независимых хорошо разделенных объектов. Для повышения эффективности используются различные грамматики и вероятностные методы. Большинство этих методов получили свое развитие в различных системах распознавания рукописных символов и текста, как коммерческих, так и свободно распространяемых. Сравнительная характеристика некоторых наиболее известных систем приведена в табл. 3.
Таблица 3
Сравнительная характеристика систем"распознавания рукописных символов и текста
Название системы Основные функциональные характеристики
PenReader Используется графический анализ на базе всевозможных начертаний символов, собранных из огромного количества реальных почерков и орфографический анализ на базе специально созданного словаря. Система не требует обучения и настройки. Интерактивный режим распознавания
«Рукопись» Поддержка ввода русского и английского языка, а также знаков препинания и цифр. Высокая скорость работы и качество распознавания. Интерактивный режим распознавания
CalliGrapher Имеет усовершенствованный алгоритм нечеткой логики и нейронных сетей. Распознает произвольные буквенно-цифровые строки и слова. Поддержка метода ввода «Write Anywhere». Имеет панель ввода Write Pad. Интерактивный режим распознавания
FineReader Имеет распознающее ядро с поддержкой 16 языков. Поддержка сложных документов с таблицами, цветными картинками в любой ориентации. Контроль качества вводимых данных. Пассивный режим распознавания
OmniPage Поддержка индивидуального обучения при помощи системы IntelliTrain, работа со сложными документами, распознавание и конвертация PDF документов. Пассивный режим распознавания.
Как видно из табл. 3, существующие на рынке системы, в основном, используют распознавание в интерактивном режиме. Это обусловлено тем, что изображения могут содержать различные стили написания рукописного текста, в них может варьироваться в широких пределах почерк и т.д. Поэтому разработка методов и алгоритмов распознавания ранее написанного текста (распознавание в пассивном режиме) имеет широкую практическую значимость и является актуальной задачей в системах электронного документооборота.
Во второй главе диссертации представлены методы и алгоритмы обнаружения текстовых зон на изображении, сегментации полученных зон на отдельные символы, построения инвариантной векторной модели изображения внешнего контура символов, распознавания рукописных символов на основе данной модели, также распознавания рукописного текста с использованием вероятностной лингвистической модели слова с предсказанием по словарю.
Сложность задачи состоит в том, что помимо инвариантности к таким преобразованиям, как сдвиги, масштабирование, повороты, возможны произвольные искажения фрагментов символов, зависящие от почерка человека. Ограничения на написание текста и их критерии приведены в табл. 4.
Таблица 4
Ограничения, предъявляемые к рукописным документам
Ограничение Критерий
Стиль написания документа Единообразный
Минимальный размер символов Более 4 мм
Расстояние между строками Не менее 2 мм
Параллельность строк Угол отклонения составляет ±5°
Тип почерка Четкий, прямой
Сокращения слов Не желательны
Контрастность текста Хорошая
Фон документа Однородный
Пятна различного происхождения Отсутствуют
Метод распознавания рукописного текста на основе векторного подхода можно разделить на следующие этапы:
I этап. Определение текстовых зон документа:
- предварительная обработка изображения (устранение шумов, бинаризация);
- морфологическая обработка (операции расширения и сжатия);
- обнаружение связанных областей и построение текстовых зон;
- определение угла поворота текстовых зон относительно горизонтального направления и поворот изображения.
II этап. Сегментация текстовых зон на отдельные символы:
- поиск минимальных текстовых зон для оценки ориентировочных размеров символов;
- сегментация полученных текстовых зон на отдельные символы при помощи адаптивной процедуры подстройки размеров выделяющей ячейки.
III этап. Построение векторной модели символа:
- построение векторных моделей символов;
- нормализация векторных моделей;
- приведение векторных моделей к виду, инвариантному к группе аффинных преобразований.
IV этап. Распознавание рукописных слов:
- распознавание и классификация векторных моделей с учетом вероятностного предсказания по словарю;
- использование лингвистической модели слова с применением тематических словарей.
В общем случае модель определения текстовых зон на изображении (I этап) выражается формулой
TZ=<{Onn), {Omrz}, [Ocrz), {OsTz}>
где Onjz - оператор предварительной нормализации текстовых зон; Omjz - оператор морфологической обработки; OcTZ - оператор категоризации символов; OsTZ~ оператор нахождения специальных символов (точек, запятых, двоеточий, знаков восклицания, знаков вопросов и т.д.).
Следующим самым трудно реализуемым этапом в распознавании рукописного текста является разделение слов на отдельные символы. Здесь действуют операторы усиления центральной части символа Ос sc, определения верхней части символа OuSc, определения нижней части символа Od.sc, поиска и анализа предлогов, союзов и т. п. Oase, адаптивного нахождения символов в слове Ossc. Модель определения отдельных символов на изображении слова выражается формулой:
SC=<{Ocsc}, {Ousc}, {Odsc}, {Oa.sc}, {Ossr}> .
Этап перехода к нормализованным образам отдельных символов связан с выделением внешнего контура символа, параметризацией векторного представления контура и нормализацией векторного представления. Если задачи выделения внешнего контура объекта и параметризация его векторного представления являются хорошо разработанными, то нормализация векторного представления в контексте поставленной задачи требует дополнительных усилий. Особенностью распознавания рукописных символов является большое разнообразие контуров. Предлагается инвариантность к сдвигам, масштабу и различным стилям написания символов обеспечивать приведением суммы длин векторов к единице и выбором направлений векторов в соответствии со стандартными направлениями, а инвариантность к повороту - выбором начальной точки обхода контура (определение вектора с минимальной длиной). При наличии нескольких векторов с минимальной длиной используются специальные правила выбора начальной точки обхода, реализуемые на этапе обучения системы. Таким образом, модель нормализации образа символа можно представить в виде:
VI><{OoyD}, {Ov1D}, {OnVD}>
где {Ooi'd} - оператор выделения внешнего контура символа, {OvVD} - оператор параметризации векторного представления контура, {Ort у о) - оператор нормализации векторного представления.
Модель распознавания рукописного текста включает оператор построения лингвистической модели слова OIrhi , оператор распознавания рукописных символов OsrRHT и оператор подключения тематических словарей OtsRm:
RHT=< {0lR„j), {OsrRHT), {OtsRHT} >
Рассмотрим алгоритмическую реализацию этапов распознавания изображений рукописного текста на основе векторного подхода. В рамках первого этапа на шаге предварительной обработки для устранения помех на изображении применяются линейный и медианный фильтры. Поскольку изображение с рукописными символами чаще всего представляет собой двухцветное изображение, то целесообразно преобразовать его к бинарному виду методом пороговой бинаризации. В качестве порога можно использовать среднее значение яркости пикселей изображения. Существуют более сложные схемы выбора порога. Однако, поскольку в данном случае интерес представляет лишь контурная информация, их применение является нецелесообразным.
На шаге морфологической обработки при определении текстовых зон документа осуществляется последовательное применение операции расширения и сжатия. В качестве примитивов в операции расширения используются маски апертурой 3x5, 3><7 и выше (в зависимости от средней высоты рукописных символов), в результате чего контуры близко стоящих символов будут связаны в общий контур текстовой зоны. Далее применяется операция сжатия для сглаживания внешних краев связанных областей. В качестве примитива используется маска апертурой 3x3. Данные операции могут осуществляться последовательно несколько раз для более эффективного слияния в общие области (выбираются эмпирическим путем для соответствующих примитивов операций) (см. рис. 1 б). Тестирование показывает, что для маски апертурой Зх5 необходимо в среднем выполнить 3 операции расширения и сжатия, а для маски апертурой 3x7 достаточно 1-2 операции расширения и сжатия. После этого осуществляется маркировка связанных областей с учетом окружающих маркеров, В качестве окружающих маркеров используется маркер вышестоящего пикселя и пикселя слева. Если вышестоящий пиксель помечен маркером, то для текущего пикселя при сканировании изображения устанавливается аналогичный маркер. В противном случае текущий пиксель помечается маркером, которым обладает пиксель слева. Если этот пиксель не имеет маркера, то текущий пиксель маркируется следующим маркером. На основании полученных маркеров строится таблица связности маркированных областей и осуществляется связывание этих областей в общую текстовую зону с пометкой данной зоны индексом.
Далее по средним углам наклона текстовых зон относительно горизонтальной линии вычисляются угол поворота всего изображения для обеспечения более качественной сегментации текстовых зон на отдельные символы. Вычис-
а)
6)
Рисунок 1 - Построение общих текстовых зон: а - исходное изображение, б - выделение изображений зон
ляются координаты центров масс изображений текстовых зон и дальних отстоящих точек, а также углы поворота изображений текстовых зон:
А1/агМап{(ут-у,с)1{хш-х1с)),
где А1/а1 - угол поворота 1-й текстовой зоны, хш, ут - координаты дальней отстоящей точки 1-й текстовой зоны, х1С, у1С - координаты точки центра масс г-й текстовой зоны.
Соответственно, угол поворота всего изображения вычисляется нахождением среднеарифметического углов текстовых зон:
ÍAlfat
Alfa = —- ,
п
где Alfa - угол поворота изображения, Alfa¡ - угол поворота ¡'-той текстовой зоны, п - общее число текстовых зон.
После этого изображение поворачивается на вычисленный угол, и найденные зоны выделяются прямоугольной областью. Происходит наложение этих областей на первоначальное изображение и осуществляется сегментация выделенных текстовых зон. На этапе сегментации текстовых зон на отдельные символы изображение подвергается повторной морфологической обработке с целью выделения возможного ядра каждого символа в текстовой зоне. Для этого зона, содержащая изображения текстовых символов, делится на две части средней горизонтальной линией. Изображение верхней и нижней частей зоны подвергаются морфологической процедуре расширения с примитивами раз.мер-ности 3x3 (см. рис. 2).
0 1 0
0 1 0
0 0 0
0 0 0
0 1 0
0 1 0
а) б)
Рисунок 2 - Примитивы морфологической операции расширения: а - для верхней части зоны, б - для нижней части зоны
В результате такой процедуры получается расширенное изображение группы символов, в которых внутренние области символов наиболее насыщены (ядра). При этом межсимвольные расстояния остаются практически неизменными. Затем среди информативных зон ищутся самые наименьшие зоны (предположительно одиночные символы союзов и предлогов). Вычисляется среднее значение размера ячейки для нескольких типов символов (строчные, прописные и строчные с дополнительными элементами - «в», «б», «д», «у» и т.д.). Далее на
оставшиеся группы символов накладывается полученная выделяющая ячейка. По умолчанию накладывается ячейка для строчного типа символов, т.к. такие символы, как правило, составляют большую часть документа. Предположим, что написание текста идет слева направо. В этом случае для определения границы символа на правой границе выделяющей ячейки ищется локальный минимум плотности точек изображения текстовых символов. Пусть /М(/,у) - изображение группы символов, ЯС - высота группы символов, ИТ? - ширина группы символов. Вычисляется массив средних значений яркости пиксельных столбцов в изображении группы символов:
8в_СОЩ) = / Нв
где/=1,2,..., ЯС;;=1,2,..., ГГв.
Далее в массиве БО СОЬЦ) находятся номера столбцов, которые входят в текущую область на правой границе выделяющей ячейки и для которых значения элементов массива минимальны. Делается предположение о том, что эти столбцы представляют собой местоположение связующего символы элемента и происходит коррекция выделяющей ячейки до этого местоположения, а также происходит закраска цветом фона границы выделяющей ячейки. Таким образом, получаются новые параметры выделяющей ячейки, которые заносятся в таблицу для дальнейших операций. Последующие параметры выделяющей ячейки (длина, ширина) выбираются как средние между всеми параметрами ячеек, занесенных в таблицу. В результате происходит сегментация изображений групп символов на отдельные символы и получается набор сегментированных изображений. Полученные отдельные символы подвергаются процедуре векторизации внешнего контура и классифицируются.
На этапе построения векторной модели символа и ее классификации вначале необходимо найти опорные точки внешнего контура символа. Опорной точкой является такая точка, где линия, описывающая внешний контур изображения символа, имеет изгиб. Для нахождения таких точек предлагается использовать модифицированный фильтр Робертса:
А'=\А-В\ + \В-С\ илиА'= т1(А--Ъ)2 + (В-С)2 причем, если >255, то Л'=127 (любое значение отличное от 255),
где А'~ новое значение яркости пикселя окна, А, В, С, й- первоначальные значения яркости пикселей окна (текущего, снизу, справа, справа и снизу соответственно). Результат работы фильтра изображен на рис. 3.
V ...' \ч
а б
Рисунок 3 - Фильтр Робертса: а - исходное изображение, б - изображение после фильтрации
После наложения данного фильтра на бинарное изображение, осуществляется его сканирование на предмет принадлежности каждой точки изображения к классу опорных или не опорных точек. Модификация фильтра позволяет получить на выходе изображение в трех градациях яркости пикселей. Опорная точка при этом будет иметь максимальное значение яркости. После того, как найдена любая из опорных точек, осуществляется обход изображения по внешнему контуру с последовательным определением всех последующих опорных точек. Для обхода изображения применяется модифицированный волновой алгоритм. Алгоритм работает с двухмерным массивом, представляющим собой матрицу изображения, полученную после предварительной обработки и содержащую инверсные значения яркости пикселей изображения. В процессе работы алгоритма осуществляется распространение фронта волны в 4-х направлениях от предыдущего фронта волны. Модификация алгоритма представляет собой направленное распространение фронта волны вдоль предполагаемого контура. Данный алгоритм осуществляет поиск связности опорных точек от первой найденной опорной точки (при сканировании изображения слева - направо и сверху вниз) до последней опорной точки в данном контуре.
После нахождения опорных точек и занесения их в таблицу строится векторная модель, представляющая собой набор векторов и последовательность их связи между собой
Model={V,,V2, ...VíVm.-.V,,} .
Здесь начало каждого последующего вектора находится в конце предыдущего Vj, образуя замкнутый контур. Каждый вектор характеризуется парой координат: угол относительно горизонтальной линии {alfa) и длина вектора (1еп). Определение координат вектора \,=(Len¡, AlfaJ осуществляется путем перехода от абсолютных координат к относительным координатам:
¿en, = tJx,2 + у,2 , Alfa, = ArcTan
где х„ у, - относительные координаты вектора, определяемые по формулам:
XrXj+1-Xj , yryj+1-yj ,
где хл yj — координаты текущей опорной точки, а х,, ь yj+i - координаты последующей опорной точки.
Далее векторная модель подвергается процедурам уплотнения и нормализации, что позволяет обеспечить инвариантность модели к группе аффинных преобразований (масштабирование, сдвиги и повороты). Под уплотнением понимается удаление несущественных векторов, соединяющих близко стоящие точки. Данная процедура осуществляется по следующей схеме:
1. i=l.
2. Выбирается V,- вектор модели.
3. Если длина V,- меньше некоторого порогового значения EPS, то данный вектор удаляется из модели.
4. г=г'+1.
5. Если i<N, то переход на шаг 2. (т. е. осуществляем перебор всех векторов модели).
После уплотнения выполняется процедура нормализации, заключающаяся в нормализации длин векторов и углов векторов по направлениям. Нормализация длины происходит следующим образом: сумма длин векторов в модели приводится к единичной длине, а все остальные длины векторов в соответствии с этим масштабируются:
п
Len^LenJK , K = ^jLenl ,
м
где К- коэффициент масштабирования.
Нормализация углов по направлениям осуществляется следующим образом: вычисляется ближайшее направление вектора к текущему вектору в модели и затем производится нормализация угла к данному направлению (для чего угол вектора выбирается равным углу направления). В качестве направлений выбираются единичные векторы:
E=(l,E^Alfa,) , E_Alfa,=~^ >
где Z-количество направлений.
Таким образом, в соответствии с предложенным построением векторной модели в зависимости от выбора первоначальной опорной точки можно получить N вариантов векторной модели (N-количество векторов в модели):
Моае1_2={У„,УьУ2,...,У.....,У„.,} ,
Мо(1е1_3= {У„.1 ,У„, У|, У2,..., V......У„.2} ,
Моае1_п={У2,У3,...,У,,...,У„,У,} .
Последовательный перебор всех полученных моделей требует дополнительных ресурсов времени и памяти в процессе распознавания. Целесообразным является построение векторной модели, инвариантной к выбору начального вектора:
1. Определяется вектор минимальной длины модели V*.
2. Если такой вектор один, то осуществляется построение инвариантной модели, которая представляет собой набор векторов. В качестве начального вектора выбирается найденный минимальный вектор:
3. Если векторов минимальной длины несколько, то осуществляется поиск «наилучшего» вектора, и осуществляется построение инвариантной модели. В качестве начального вектора выбирается найденный «наилучший» вектор
V,:
Мос1е1= {V,, У,+1,...,V,,...,V,. |} .
Алгоритм поиска «наилучшего» вектора модели состоит в следующем:
1. Выбирается первый найденный вектор минимальной длины.
2. Определяется суммарная длина пути до последующих векторов минимальной длины.
3. Выбирается следующий вектор минимальной длины.
4. Если не все минимальные вектора обработаны, то переход к шагу 2.
5. Выбирается тот вектор, суммарная длина пути от которого минимальна. Этот вектор считается «наилучшим».
Для повышения достоверности распознавания слова целиком предлагается построение вероятностной модели слова с применением тематических словарей. На основе такой модели можно построить таблицу вероятностей и тем самым осуществлять подстройку системы распознавания одиночных символов. Пусть А={я;,ял ..., а„] — алфавит языка, содержащий буквы и цифры (для русского языка это 33 буквы и 10 арабских цифр). Тогда слово можно записать следующим образом: иНа основе данного алфавита можно построить словарь слов Щ ,^,,1}, где и>,-г'-тое слово. Таким образом, мы можем
использовать информацию о слове в системе распознавания, путем выбора из всех эталонов символов наиболее вероятных с учетом вхождения символов в каждое слово. Пусть у нас есть набор эталонов векторных моделей символов
E={eheb...,et\} упорядоченный по возрастанию символьных наименований классов моделей («О», «1», ..., «9», «а», «б», «в», ..., «я»), а также упорядоченный в алфавитном порядке словарь слов S={w|,w2,...,wj,ww|}, где w¡ = а^аца^-.а^ - j-тое слово. Обозначим через г=г1г2гз...с| — часть распознанного слова, состоящую из /-символов г,. Пусть ^-количество слов w¡ из словаря S в которые входит текущая часть распознанного слова г, тогда вероятность каждого возможного очередного эталонного символа еч q-того класса в предполагаемом слове:
/V(ai+,j)=l/ qi + sum¡ ( o,+lj )/N | a¡+i¡ =eq ,
где q=\..q^, q^- количество классов моделей.
Для построения алгоритма распознавания используется метод максимального правдоподобия. Решающее правило определяется выражением:
Vj=arg max, шах, P{Xt,E{) .
Здесь максимум ищется по всем классам и всем возможным эталонам. С помощью этого правила находится эталон длиной /, ближайший к изображению X]. Мера близости изображения и эталонов вычисляется по формуле:
Z)y=sum, (|Alfa,, Len,\ - \E_Alfa/, E_Len,J\ f ,
где D) — мера близости входной модели символа с 7-той эталонной моделью, Alfa,, Len, - координаты г'-того вектора во входной модели, E_Alfa„ E_Len, - координаты /-того вектора в /-той эталонной модели.
Вероятность того, что входная модель относится к данному классу, может быть вычислена по следующей формуле:
Ре/=( 1 -Dj/sumj(Dj)y sum/(Dy) .
Окончательное значение вероятности принадлежности входной модели j-той эталонной модели с учетом вероятностной модели слова будет равна
P{X¡,EÍ)~P\f Pe¡ .
Если значение вероятности P{X¡,E¡) ниже некоторого порогового значения, то предполагается, что в тексте идет слово, которое не содержится в словаре. В этом случае вероятность очередного эталонного символа /V принимается равной единице, и слово распознается побуквенно без учета модели слова и заносится в текущий вспомогательный словарь. Таким образом, необходимо иметь определенный набор словарей и в зависимости от тематики текста осу-
ществлять выбор того или иного словаря, что позволяет учитывать особенность текста в целом.
Третья глава посвящена вопросам практического создания приложений на основе разработанных методов и алгоритмов, приведена структурная схема экспериментального программного комплекса по распознаванию рукописных символов в анкетных формах, а также представлены методика и результаты тестирования разработанных методов и алгоритмов.
В результате практической апробации метода была разработана экспериментальная программа, позволяющая осуществлять распознавание рукописных символов. Программа позволяет распознавать изображение рукописных символов, как в режиме обучения на конкретный почерк человека, так и независимо от стиля написания и почерка. В модуле предварительной обработки осуществляется приведение изображения к бинарному виду, затем в модуле векторизации осуществляется построение векторной модели внешнего контура изображения и приведение данной модели к инвариантному виду. В модуле распознавания и принятия решения осуществляется классификация текущей векторной модели па основании принадлежности к одному из классов эталонных векторных моделей. Если система работает в режиме обучения, то этот модуль позволяет осуществлять коррекцию решений в случае неверного ответа распознавания.
На основе данной программы был разработан программный комплекс по распознаванию рукописных символов и текста в анкетных формах. Структурная схема комплекса представлена на рис. 4.
Рисунок 4 - Структурная схема экспериментального программного комплекса
Программный комплекс состоит из нескольких модулей, каждый из которых проходил собственное тестирование. Ряд модулей носит самостоятельный характер и представляет собой отдельные приложения и библиотеки. Наименования разработанных модулей и их функциональные характеристики приведены в табл. 5.
Разработанные программные модули и их назначение
Название модуля Функциональная характеристика
1. Модуль организации интерфейса с пользователем Обеспечивает взаимодействие с пользователем и координирует работу всех модулей
2. Модуль сегментации Осуществляет сегментацию изображения рукописного текста на отдельные текстовые зоны, а также сегментацию текстовых зон на отдельные символы
3. Модуль предварительной обработки Осуществляет фильтрацию изображения и приведение его к бинарному виду (к формату, пригодному для дальнейшего использования в модели сегментации)
4. Модуль распознавания и принятия решения Осуществляет построение инвариантных векторных моделей рукописных символов и лингвистических моделей слов, а также распознавание рукописного текста с использованием предсказания по словарю (с возможностью подключения тематических словарей)
5. Конфигурационный модуль Осуществляет сохранение и загрузку параметров системы в конфигурационный файл
Программный комплекс состоит из нескольких модулей, каждый из которых проходил собственное тестирование. Для тестирования программных модулей и системы в целом использовались изображения с различными типами почерка и стилями написания. Из криминалистики известна следующая классификация почерков:
1. Общий тип (строение) почерка может быть простым, упрощенным и усложненным (вычурным).
2. Размер. По высоте строчных элементов букв почерки бывают мелкими (до 2 мм), средними (от 2 до 5 мм) и крупными (5 мм и больше).
3. По наклону почерки делятся на правонаклонные, прямые, левонаклон-ные и смешанные.
4. Разгон почерка характеризуется соотношением высоты письменных знаков и их ширины. Почерки делятся на сжатые, средние и размашистые.
5. Связность почерка определяется по числу букв, выполненных без отрыва пера от бумаги. Почерк бывает связный, средний и отрывистый.
Таким образом, для тестирования модуля сегментации были выбраны изображения, содержащие основные характеристики почерка, и на их основе осуществлялось тестирование. В качестве экспериментальных данных использовалось более 50 изображений документов, полученных со сканера, а также документов сети Интернет, содержащих рукописный текст. Результаты тестирования модуля сегментации представлены в табл. б.
В результате исследований было получено, что разработанный метод может также применяться для наклонных типов почерка. При этом, чем больше размер почерка, тем выше точность сегментации, которая в среднем для среднего размера почерка составляет 70,7% без использования процедуры усиления ядра символов и 74,3% с использованием процедуры усиления ядра.
Результаты тестирования модуля сегментации
Тип почерка Без усиления ядра символов С усилением ядра символов
Мелкий, % Средний, % Крупный, % Мелкий, % Средний, % Крупный, %
Правонаклонный (связный) 64,7 67,6 68,6 64,7 69,3 71,5
Прямой (связный) 70,1 75,6 77,4 74,2 78,3 81,2
Лсвонаклонный (связный) 60,3 63,2 64,1 63,1 68,1 69,2
Правонаклонный (средний) 68,9 69,1 71,4 71,1 74,5 75,9
Прямой (средний) 75,3 80,3 82,2 78,7 84,5 86,7
Левонаклонный (средний) 65,5 68,5 70,1 68,2 71,3 73,2
Наиболее высшая точность сегментации получается для типа почерка, удовлетворяющего ограничениям на входное изображение, которые указаны в постановке задачи, что показывает эффективность предложенного подхода.
Тестирование модуля распознавания и принятия решения осуществлялось в двух режимах: с обучением и без обучения на конкретный почерк. Обобщенные результаты тестирования модуля распознавания и принятия решения для слов и символов приведены в табл. 7, 8.
Таблица 7
Результаты тестирования модуля распознавания и принятия решения при распознавании слов
Без использования словаря С использованием словаря
Без обучения, % С обучением, % Без обучения % С обучением %
Слова (киршища) 62,6 73,8 65,5 78,9
Слова (латиница) 64,3 75,6 68,1 80,3
Средняя точность распознавания слов в режиме без обучения составила 62,6% (кириллица), 64,3% (латиница) и 66,2% (цифры), в режиме с обучением на конкретный тип почерка точность распознавания составила 73,8% (кириллица), 75,6% (латиница) и 77,4% (цифры). В случае использования тематических словарей точность распознавания составила в режиме без обучения 65,5% (кириллица), 68,1% (латиница) и в режиме с обучением на конкретный тип почерка 78,9% (кириллица), 80,3% (латиница). Таким образом, использование тематических словарей позволяет увеличить точность распознавания в среднем на 5-9% в зависимости от режима функционирования системы и выбора тематического словаря.
Таблица 8
Результаты тестирования модуля распознавания и принятия решения при распознавании символов
Без обучения, % С обучением, %
Кириллические символы 70,2 90,3
Латинские символы 75,7 88,1
Цифры 91,2 97,6
Кроме того, система может функционировать в режиме распознавания отдельных символов, в этом случае точность распознавания достигает 90,3% (кириллица), 88,1% (латиница), 97,6% (цифры) в режиме функционирования с обучением, что показывает эффективность предложенной методики.
В заключении сформулированы основные результаты и выводы, полученные в диссертационной работе.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ
1. Усовершенствован метод сегментации изображений, содержащих рукописный текст, на отдельные текстовые зоны (строки и слова) на основе операций морфологической обработки и на отдельные символы с использованием процедуры адаптивной подстройки выделяющей ячейки, позволяющей увеличить точность сегментации в среднем на 5-7%.
2. Предложена векторная модель описания внешнего контура изображений рукописных символов с применением модифицированного фильтра Робер-тса, процедур уплотнения и нормализации параметров векторного представления , а также алгоритм построения этой модели и приведения ее к инвариантному виду. Исследования показывают, что для описания рукописных символов необходимо не менее 15 эталонов на каждый символ, что обеспечивает точность распознавания одиночных символов 90-95%.
3. Разработан алгоритм распознавания рукописных символов, использующий базу эталонных векторных описаний с обучением и без обучения на конкретный почерк, и распознавания текста с использованием тематических электронных словарей, что позволяет повысить точность распознавания слов в среднем на 5-9%.
4. Разработан экспериментальный комплекс по обработке и распознаванию рукописных символов и текста. Отдельные модули комплекса, выполненные в виде программ ЭВМ, зарегистрированы в российском реестре программ. Проведено тестирование модулей для различных типов почерка.
Таким образом, разработанные методы и алгоритмы позволяют разрабатывать системы обработки и распознавания рукописного текста и повышать точность распознавания в системах электронного документооборота за счет применения в них метода сегментации изображений текста на отдельные сим-
волы с применением процедуры адаптивной подстройки выделяющей ячейки и векторного подхода для построения инвариантной модели описания отдельного символа.
Основные положения и результаты диссертационной работы представлены в следующих работах автора (знаком * обозначены работы, опубликованные в издании, включенном в список изданий, рекомендованных ВАК для опубликования результатов диссертационных исследований):
1. * Горошкин, А.Н. Адаптивное выделение символов рукописного текста/ А.Н. Горошкин // Вестник Сибирского государственного аэрокосмического университета. - Вып. 1 (18), Красноярск, 2008.-С. 15-18.
2. * Горошкин, А.Н. Модель распознавания изображения рукописного текста/ М.Н. Фаворская, А.Н. Горошкин // Вестник Сибирского государственного аэрокосмического университета. - Вып. 2 (19), Красноярск, 2008. - С. 5258.
3. Горошкин, А.Н. Обработка изображений в системах распознавания рукописного текста // Материалы 10-й международной конференции и выставки «Цифровая обработка сигналов и ее применение», Москва, Россия, 2008. - С. 489-491.
4. Горошкин, А. Н., Фаворская, М. Н. Метод распознавания рукописного текста с предсказанием по словарю в системах обработки документов // Материалы IX международной научно-технической конференции «Кибернетика и высокие технологии XXI века», т.1, Воронеж, 2008. С. - 183-191.
5. * Горошкин, А. Н. Морфологическая обработка контурных изображений в системах распознавания текстовых символов/ М. Н. Фаворская, А. Г. Зо-тин, А. Н. Горошкин // Вестник Сибирского государственного аэрокосмического университета. - Вып. 1(14).- Красноярск, 2007. - С. 70-75.
6. * Горошкин, А.Н. Применение векторного подхода к распознаванию рукописных символов / А.Н. Горошкин // Вестник Сибирского государственного аэрокосмического университета. - Вып. 6 (13). - Красноярск, 2006. - С. 1517.
7. Горошкин, А.Н. Система векторизации и распознавания внешнего контура изображений рукописных символов (Vectoryzator). Свидетельство Л°2007612407. Зарегистрировано в Реестре программ для ЭВМ г. Москва, 7 июня 2007 г.
8. Горошкин, А.Н., Фаворская М.Н. Сегментация изображений рукописного текста (SegPic). Свидетельство №2008614243. Зарегистрировано в Реестре программ для ЭВМ г. Москва, 5 сентября 2008 г.
Горошкин Антон Николаевич
Обработка и распознавание рукописного текста в системах электронного документооборота
Автореферат
Подписано к печати 6.11.2008 Формат 60x84/16. Бумага писчая. Печ. л. 1.0 Тираж 100 экз. Заказ №
Отпечатано в отделе копировальной и множительной техники СибГАУ. 660014 г. Красноярск, пр. им. газеты «Красноярский рабочий», 31
Оглавление автор диссертации — кандидата технических наук Горошкин, Антон Николаевич
ВВЕДЕНИЕ.
Глава 1. Анализ методов и систем обработки и распознавания рукописных символов и текста.
1.1 Классификация существующих методов обработки изображений рукописных документов.
1.1.1 Предварительная обработка изображений.
1.1.2 Сегментация изображений рукописных документов.
1.2 Сравнительный анализ подходов к распознаванию рукописных символов и текста.
1.2.1 Распознавание рукописных символов в пассивном режиме.
1.2.2 Распознавание рукописного текста.
1.3 Анализ существующих систем распознавания рукописных символов и текста.
1.4 Выводы по главе.
Глава 2. Построение моделей сегментации и распознавания рукописных символов и текста в пассивном режиме.
2.1 Метод обнаружения информативных зон на изображении.
2.2 Метод сегментации изображений текстовых зон на отдельные символы.
2.3 Векторный подход к распознаванию рукописных символов.
2.3.1 Построение векторной модели.
2.3.2 Преобразование векторной модели к инвариантному виду.
2.3.3 Распознавание рукописных символов на основе инвариантной векторной модели.
2.4 Метод распознавания рукописного текста с использованием вероятностного подхода на основе лингвистической модели слова.
2.4.1 Разработка лингвистической модели слова.
2.4.2 Адаптивное построение дерева решений на основе вероятностного подхода.
2.5 Выводы по главе.
Глава 3. Построение экспериментальной комплексной системы распознавания рукописного текста.
3.1 Структурная схема комплекса по распознаванию рукописного текста.
3.2 Описание основных модулей системы.
3.3 Результаты экспериментальных исследований.
3.4 Программа «Модуль ввода данных».
3.5 Выводы по главе.
Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Горошкин, Антон Николаевич
Актуальность работы. Входной информацией в системах электронного документооборота могут быть не только документы с печатным текстом, но и рукописные документы (документация паспортно-визовой службы, анкетирование, прием заявлений от населения). Также имеется большое количество унаследованных рукописных документов, содержащих важную техническую информацию, которые желательно было бы перевести в электронный вид.
Несмотря на то, что задачей распознавания рукописных символов исследователи начали заниматься с 70-х гг. XX в. (Ковалевский В.А., Рыбак В.И., Фукунага К. и др.), до сих пор имеются как теоретические, так и практические проблемы, связанные с большим многообразием написания отдельных рукописных символов и текста. В настоящее время наиболее активные разработки в данном направлении проводятся университетами State University of New York at Buffalo, University of Missouri, University of Massachusetts Amherst (США), University of Fribourg (Швейцария), Ohio University (Греция), Concordia University (Канада), Univesite de Monreal (Франция), Queensland University of Technology (Австралия), Московский государственный университет, Московский физико-технический институт (Государственный университет) (РФ).
Известны два основных подхода к распознаванию рукописного текста: распознавание в режиме текущего ввода символов (интерактивный режим) и распознавание ранее написанных документов (пассивный режим). Первый подход используется в системах реального времени, к которым относятся системы сенсорного ввода рукописных символов в карманных персональных компьютерах, коммуникаторах и других устройствах. Существует множество алгоритмов, решающих данную задачу достаточно эффективно. Точность распознавания символов достигает 98%, при этом в ряде случаев не требуется обучения на конкретный почерк. Входными данными являются траектории указывающего устройства (стилус, перо и т.д.). Системы, решающие задачу в рамках второго подхода, имеют невысокую точность распознавания (около 70—75%), требуют настройки на конкретный почерк и стиль написания. Данные системы используются при вводе информации с бумажных носителей. Входными данными в этом случае являются изображения, полученные со сканера или других цифровых устройств. Таким образом, задача обработки и распознавания рукописного текста является актуальной и востребованной в различных сферах деятельности, а разработка методов и алгоритмов распознавания ранее написанного рукописного текста позволит повысить эффективность работы таких систем.
Целью диссертационной работы является усовершенствование методов и алгоритмов обработки и распознавания рукописного текста в системах электронного документооборота, представленного в виде изображений текстовых документов.
Поставленная цель определила необходимость решения следующих задач:
1. Провести анализ подходов для построения систем обработки изображений текстовых документов, методов сегментации изображений на информативные текстовые зоны, а также методов распознавания отдельных рукописных символов и рукописного текста на основе структурных грамматик.
2. Усовершенствовать методы и алгоритмы сегментации изображений на текстовые зоны, содержащие рукописные слова, а также сегментации текстовых зон на отдельные символы.
3. Модифицировать методы и алгоритмы распознавания рукописных символов и текста на основе векторного подхода.
4. На основе предложенных методов и алгоритмов создать программные модули для реализации системы распознавания рукописных символов и текста, представленных в виде изображений.
5. Разработать экспериментальную систему распознавания для оценки эффективности предложенных алгоритмов при решении различных задач распознавания, основанных на контурной информации об объектах.
Методы исследования. При выполнении диссертационной работы использовались методы теории информации, теория обработки сигналов, теория распознавания образов, теория математической морфологии, методы аналитической геометрии, методы объектно-ориентированного программирования.
Научная новизна диссертационной работы состоит в следующем:
1. Усовершенствован метод сегментации изображений, содержащих рукописный текст, на отдельные текстовые зоны (строки и слова) на основе операций морфологической обработки и на отдельные символы с использованием процедуры адаптивной подстройки выделяющей ячейки и усиления ядра символов.
2. Предложена векторная модель описания внешнего контура изображений рукописных символов, основанная на нахождении опорных точек с применением модифицированного фильтра Робертса, а также алгоритм построения модели на основе процедур уплотнения и нормализации параметров векторного представления.
3. Разработан алгоритм распознавания рукописных символов, использующий базу эталонных векторных описаний с обучением и без обучения на конкретный почерк, и распознавания текста с использованием тематических электронных словарей.
Практическая значимость. Предложенные в диссертационной работе методы и алгоритмы предназначены для практического применения в системах документооборота предприятий, анкетирования населения, паспортно-визовой службы и других систем, где входными данными являются изображения текста, написанного от руки. На основе диссертационных исследований разработана библиотека модулей для создания систем обработки и распознавания изображений рукописного текста.
Реализация результатов работы. Разработанная программа «Система векторизации и распознавания внешнего контура изображений рукописных символов (Vectoryzator)» зарегистрирована в Российском реестре программ для ЭВМ г. Москва, 7 июня 2007 г. (свидетельство №2007612407), а также программа «Сегментация изображений рукописного текста (SegPic)» зарегистрирована в Российском реестре программ для ЭВМ г. Москва, 5 сентября 2008 г. (свидетельство №2008614243).
Разработанные алгоритмы и программное обеспечение используются в учебном процессе при проведении занятий по дисциплинам «Интеллектуальная обработка данных», «Теоретические основы цифровой обработки изображений» в Сибирском государственном аэрокосмическом университете им. академика М. Ф. Решетнева (СибГАУ), а также в программном комплексе по обработке результатов социологических исследований «Социорасчет» социологической лаборатории СибГАУ.
Основные положения, выносимые на защиту:
1. Метод сегментации изображений рукописного текста на отдельные текстовые зоны и символы на основе морфологической обработки и процедуры адаптивной подстройки выделяющей ячейки.
2. Векторная модель описания внешнего контура изображений рукописных символов, основанная на нахождении опорных точек, а также алгоритм построения данной модели.
3. Алгоритм распознавания рукописных символов и текста на основе векторного подхода с использованием тематических словарей.
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на 10-й международной конференции и выставке «Цифровая обработка сигналов и ее применение» (Москва 2008 г.),
IX международной научно-технической конференции «Кибернетика и высокие технологии XXI века» (Воронеж 2008 г.), всероссийской 6 конференции «Модели и методы обработки изображений» (Красноярск 2007 г.), всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Решетневские чтения» (Красноярск 2004, 2005, 2006, 2007 гг.), всероссийской научной конференции студентов, аспирантов и молодых ученых «Наука. Технологии. Инновации» (Новосибирск 2004 г.), региональном смотре-конкурсе программных проектов «£о//1-Парад-2007» (Красноярск 2007 г.), всероссийской конференции творческой молодежи, посвященной дню космонавтики «Актуальные проблемы авиации и космонавтики» (Красноярск 2005, 2006, 2007 гг.), студенческом семинаре Летней школы компании «Интел» (Москва, Нижний Новгород 2008 г.), а также на научных семинарах лаборатории систем цифровой обработки изображений СибГАУ.
Публикации. По результатам диссертационного исследования опубликовано 18 печатных работ, из них 4 статьи, 12 тезисов докладов, 2 свидетельства, зарегистрированных в Российском реестре программ для ЭВМ.
Структура работы. Работа состоит из введения, трех глав, заключения, списка литературы и приложения.
Заключение диссертация на тему "Обработка и распознавание рукописного текста в системах электронного документооборота"
3.5 Выводы по главе
Рассматривается разработанный экспериментальный комплекс по распознаванию изображений документов, содержащих рукописный текст. Приведены структурные схемы функционирования основных модулей и их функциональные характеристики, а также структура базы данных эталонных векторных моделей. Рассмотрены основные типы почерков с учетом общепринятой криминалистической классификации.
Программный комплекс представляет собой модульное приложение, состоящее из отдельных программных модулей, которые позволяют решать определенный класс задач, связанный с сегментацией изображений, f содержащих рукописный текст, векторизацией внешнего контура изображения и распознаванием отдельных рукописных символов и текста. Система состоит из пяти модулей: модуль организации интерфейса с пользователем, конфигурационный модуль, модуль предварительной обработки, модуль сегментации и модуль распознавания и принятия решения. Кроме того, в состав комплекса входит база данных эталонных векторных моделей и набор тематических словарей, а также различного рода конфигурационные файлы. Среди множества типов почерка были выбраны основные типы (левонаклонный, средний, правонаклонный, слабосвязанный, сильносвязанный, крупный, мелкий и т.д.).
Проведено тестирование модулей для данных типов почерка в различных режимах функционирования системы, как с применением
83 предложенных в работе модификаций методов и алгоритмов, так и без них. Предложенная процедура адаптивной подстройки выделяющей ячейки позволяет увеличить точность распознавания в среднем на 5—7%. А применение в системе распознавания лингвистической модели слова позволяет увеличить точность распознавания на 5-9%, при этом средняя точность распознавания составляет 75—80% для среднего типа почерка в зависимости от режима функционирования системы. Работа системы распознавания в режиме обучения позволяет увеличивать точность распознавания на 10-15%.
ЗАКЛЮЧЕНИЕ
В диссертационной работе исследовалась задача обработки и распознавания рукописного текста в системах электронного документооборота.
Был проведен анализ методов и алгоритмов обработки и распознавания изображений рукописных документов. К основным методам обработки относится: предварительная обработка и сегментация. Основной задачей предварительной обработки изображений текстовых документов является бинаризация, поскольку в данном случае цвет текста не является его функциональной характеристикой, и улучшение вида изображения в целом (устранение разрывов, мелких искажений контуров и т.д.). Известны три метода бинаризации (по пороговому значению, по площади, по гистограмме), которые могут быть применены для решения задач данного класса. Для сегментации изображений рукописного документа на отдельные строки и слова применяется ряд процедур, к которым относятся метод построения гистограмм изображения с последующим поиском максимальных и минимальных значений, подход, основанный на построении контура изображения с эвристическими процедурами поиска изображений примитивов, метод сегментации на основе построения скелета изображения и т.д. Известны два основных подхода к построению систем распознавания рукописного текста — распознавание в пассивном режиме, характерном для систем документооборота при анкетировании населения, паспортно-визовой службы, наличии унаследованных документов и т.п., и распознавание в интерактивном режиме, учитывающем динамику написания текста (карманные персональные компьютеры). Диссертационное исследование было посвящено реализации первого подхода.
В работе предложена модификация метода сегментации, основанного на построении гистограмм. Метод поиска текстовых зон на изображении усовершенствован посредством маркировки изображения и построения таблицы связности текстовых зон. Он позволяет за один проход по
85 изображению обнаруживать все имеющиеся текстовые зоны изображения документа (строки и слова) и определять их основные геометрические характеристики: угол наклона изображения строки, максимальные геометрические размеры прямоугольников, описывающих изображения отдельных слов. Разработана процедура сегментации изображений текстовых зон на отдельные символы при помощи адаптивной подстройки выделяющей ячейки на основе операции морфологического расширения к базовой линии (усиление ядра символов).
Для формирования признаков изображений рукописных символов предложена модификация фильтра Робертса, позволяющая осуществлять построение векторной модели описания внешнего контура символов с применением модифицированного волнового алгоритма для определения связности опорных точек. Разработанные процедуры уплотнения и нормализации векторного представления в рамках решаемой задачи позволяют получить инвариантное к сдвигам и масштабированию описание символов. Разработанный алгоритм построения инвариантной к выбору начального вектора модели символа (инвариантность к поворотам и форме написания) повышает эффективность последующего распознавания рукописных символов.
На основе векторной модели разработан алгоритм распознавания рукописных символов и текста. Алгоритм распознавания рукописных символов основан на вычислении меры близости между текущей векторной моделью символа и эталонными векторными моделями. В качестве меры близости было использовано четыре метрики, основанные на комбинации нормализованных длин и нормализованных углов векторов модели.
Предложена методика построения лингвистической модели слова, которая строится с использованием вычисления вероятности появления очередного символа в слове на основе тематических словарей (словарь Ожегова, орфографический словарь Лопатина, русско-английский и англо-русский словари, толковый словарь В. Даля) и учитывает предыдущие распознанные
86 символы. Применение такой модели слова в разработанном алгоритме распознавания рукописного текста позволяет повышать точность распознавания за счет сокращения количества эталонных векторных моделей на этапе распознавания одиночных рукописных символов.
На основе предложенных методов разработан экспериментальный комплекс по распознаванию изображений документов, содержащих рукописный текст. Программный комплекс представляет собой модульное приложение, состоящее из отдельных программных модулей, которые позволяют решать определенный класс задач, связанный с сегментацией изображений, содержащих рукописный текст, векторизацией внешнего контура изображения и распознаванием отдельных рукописных символов и текста. Система состоит из пяти модулей: модуль организации интерфейса с пользователем, конфигурационный модуль, модуль предварительной обработки, модуль сегментации и модуль распознавания и принятия решения. Кроме того, в состав комплекса входит база данных эталонных векторных моделей и набор тематических словарей, а также различного рода конфигурационные файлы. Среди множества типов почерка были выбраны основные типы (левонаклонный, средний, правонаклонный, слабосвязанный, сильносвязанный, крупный, мелкий и т.д.).
Проведено тестирование модулей для данных типов почерка в различных режимах функционирования системы, как с применением предложенных в работе модификаций методов и алгоритмов, так и без них. Предложенная процедура адаптивной подстройки выделяющей ячейки позволяет увеличить точность распознавания в среднем на 5—7%. А применение в системе распознавания модели слова позволяет увеличить точность распознавания на 5-9%, при этом средняя точность распознавания составляет 75-80% для среднего типа почерка в зависимости от режима функционирования системы. Работа системы распознавания в режиме обучения позволяет увеличивать точность распознавания на 10—15%.
Дальнейшие направления работы связаны с исследованием комбинаций методов сегментации и распознавания. Так, в частности, заложенный принцип последовательного распознавания позволяет осуществлять предварительное распознавание на этапе сегментации и, таким образом, позволяет учитывать наиболее гибко специфику отдельных рукописных символов («ш», «щ», «ы» и т.д.). Это позволяет применять различные параметры выделяющей ячейки для различных символов и сокращать количество ложных сегментаций. На этапе последующего распознавания целесообразно применять более сложные грамматики, построенные на скрытых марковских моделях и учитывающие совокупность всех символов в слове, например на основе алгоритма Витерби. При этом учет результата распознавания на этапе сегментации символов позволяет сократить число сравнений на этапе последующего распознавания. Кроме того, целесообразным является автоматический выбор соответствующего тематического словаря на основе распознаваемых слов. Дальнейшее применение более сложных алгоритмов, основанных на понимании смысла текста на естественном языке, позволяет осуществлять коррекцию не только слов, написанных с ошибками, но и словосочетаний и предложений в целом.
Библиография Горошкин, Антон Николаевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Арлазаров В.Л., Славин О.А. Алгоритмы распознавания и технологии ввода текстов в ЭВМ. // Информационные технологии и вычислительные системы, №1, 1996. — с. 15—19.
2. Белан С. М., Моторнюк Р. Л. Сегментация изображений в однородных клеточных автоматах // Вторая Международная научно-методическая конференция «ИНТЕРНЕТ ОБРАЗОВАНИЕ - НАУКА - 2000», Винницкий гос. Техн. Ун-т, Винницк, 2000. - с. 307-310.
3. Богуславский А.А., Соколов С.М. Программно-аппаратные средства ввода зрительных данных в память персонального компьютера. Препринт ИПМ им. М.В.Келдыша РАН №52, Москва, 2002. 22 с.
4. Богуславский Ан. С++ и компьютерная графика. — М.: КомпьютерПресс, 2003. 352 с.
5. Борисов В. В. , КругловВ. В. Искусственные нейронные сети. Теория и практика. М.: Горячая линия-Телеком, 2001. — 382 с.
6. Браверман Э. М, Мучник И. Б. Структурные методы обработки эмпирических данных. М.: Наука, ГРФМЛ, 1983. — 368 с.
7. Бутаков Е, А„ Островский В. И., Фадеев И. Л, Обработка изображений на ЭВМ, М: Радио и связь, 1987. - 238 с,
8. Гайдышев И. Анализ и обработка данных: специальный справочник. — СПБ:Питер, 2001. 752 с.
9. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2005. - 1072 с.
10. Ю.Горелик А. Л., Скрипкин В. А. Методы распознавания: Учеб, пособие, 3-е изд. -М.: Высшая школа, 1989. 350 с.
11. П.Горелик А. Л., Гуревич И. Б., Скрипкин В, А, Современное состояние проблемы распознавания: Некоторые аспекты. Сер, Кибернетика. — М,: Радио и связь, 1985. — 160 с.
12. Горошкин А.Н. Обработка изображений в системах распознавания рукописного текста // В материалах 10-й международной конференции и выставке «Цифровая обработка сигналов и ее применение», Москва, Россия, 2008. с. 489-491.
13. Горошкин А.Н. Адаптивное выделение символов рукописного текста // Решетневские чтения: материалы XI Международной научной конференции. Красноярск, 2007. — с. 285.
14. Горошкин А.Н. Алгоритм векторизации внешнего контураизображения // Материалы Всероссийской научной конференции
15. Модели и методы обработки изображений ММОИ-2007» (Красноярск,9019.22 ноября 2007) / ред. Г.М. Цибульский, М.В.Носков. — Красноярск, 2007.-с. 35-38.
16. Горошкин А.Н. Метод обнаружения информативных текстовых зон на изображении // Актуальные проблемы авиации и космонавтики: материалы Всероссийской научно-практической конференции / СибГАУ. Красноярск, 2007.
17. Горошкин А.Н. Программный комплекс по распознаванию рукописных символов в анкетных формах // Решетневские чтения: материалы 9 Всероссийской научной конференции с международным участием / СибГАУ. Красноярск, 2006.
18. Горошкин А.Н. Система предварительной обработки изображений объектов динамической двухмерной сцены // Решетневские чтения: материалы 8 Всероссийской научной конференции с международным участием / СибГАУ. Красноярск, 2005. - с. 313.
19. Горошкин А.Н. Алгоритм динамического обучения в системе распознавания // Актуальные проблемы авиации и космонавтики: материалы Всероссийской научно-практической конференции / СибГАУ. Красноярск, 2005. - с. 288-289.
20. Горошкин А.Н. Алгоритм инвариантных преобразований в системеобработки изображений // Наука. Технологии. Инновации: материалы91
21. Всероссийской научной конференции молодых ученых / НГТУ. -Новосибирск, 2004. Часть 1. — с. 17—18.
22. Горошкин А.Н. Инвариантная система обработки изображений объектов двухмерной сцены // Решетневские чтения: материалы 7 Всероссийской научной конференции с международным участием / СибГАУ. Красноярск, 2004. - с. 198-199.
23. Горошкин, А.Н. Система векторизации и распознавания внешнего контура изображений рукописных символов (Vectoryzator). Свидетельство №2007612407. Зарегистрировано в Реестре программ для ЭВМ г. Москва, 7 июня 2007 г.
24. Горошкин, А.Н., Фаворская М.Н. Сегментация изображений рукописного текста (SegPic). Свидетельство №2008614243. Зарегистрировано в Реестре программ для ЭВМ г. Москва, 5 сентября 2008 г.
25. Ищенко Е.П., Топорков А.А. Криминалистика: Учебник. Изд. 2-е, испр. И доп. /Под ред. Доктора юридических наук, профессора Е.П. Ищенко. М., «Инфра-М», 2005. - 696с.
26. Калинкина Д., Ватолин Д. Проблема подавления шума на изображениях и видео и различные подходы к ее решению // Научно-образовательный сетевой журнал «Графика и мультимедиа», 2005.
27. Каллан Р. Основные концепции нейронных сетей. М.:Изд. Дом «Вильяме», 2001.
28. Коневский O.JI. Адаптивная морфологическая обработка бинарных контуров. Электронный журнал «Исследовано в России», 149, 1722— 1731, 2001. http://zhurnal.ape.relarn.ru/articles/2001/149.pdf
29. Корн Г., Корн Т. Справочник по математике. — М.: "Наука", 1984.
30. Котович Н.В., Славин О.А. Распознавание скелетных образов. Электронный ресурс. Электрон. Дан. — Режим доступа: http://ocrai.narod.ru/skeletrecognize.html -Загл. С экрана.
31. Линейка продуктов ABBYY FineReader Электронный ресурс. -Электрон. Дан. — Режим доступа: http://www.abbyy.ru/finereader/ — Загл. С экрана.
32. Мерков А.Б. Основные методы, применяемые для распознавания рукописного текста Электронный ресурс. Электрон. Дан. — Режим доступа:http://www.recognition.mccme.iWpub/RecognitionLab.html/methods.html -Загл. С экрана.
33. Местецкий Л.М. Непрерывный скелет бинарного изображения. Доклад на конференции Графикон-99.
34. Никулин Е. Компьютерная геометрия и алгоритмы машинной графики. Серия «Учебное пособие». — СПб.: БХВ-Петербург, 2003. — 560 с.
35. Павлидис Т. Алгоритмы машинной графики и обработки изображений. Пер. с англ. М.: Радио и связь, 1986.
36. Патрик Э. Основы теории распознавания образов: Пер. с англ. /Под ред. Б.Р.Левина. М.: Сов. Радио, 1980. - 408 с.
37. Петров М.Н., Молочков В.П. Компьютерная графика: Учебник для вузов. СПб.: Питер, 2002. - 736 с.
38. Поляков А. Методы и алгоритмы компьютерной графики в примерах на Visual С++. Серия «Мастер». СПб.: БХВ-Петербург, 2002. - 416 е.: ил.
39. Помощь по Microsoft Office: Распознавание рукописного текста Электронный ресурс. — Электрон. Дан. Режим доступа: http://office.microsoft.com/ru-ru/assistance/CHO 10003311049.aspx — Загл. С экрана.
40. Порев В. Компьютерная графика. Серия «Учебное пособие». СПб.: БХВ-Петербург, 2002. - 432 с.
41. Поцепаев Р.В., Петров И.Б. Эффективный алгоритм предобработки изображений для структурных методов распознавания рукописныхсимволов. Электронный журнал «Исследовано в России», 149, 1722— 1731, 2001. http://zhurnal.ape.relarn.ru/articles/2001/149.pdf.
42. Претт Э. Цифровая обработка изображений: Пер. с англ. — М.:Мир, 1982.-312с.
43. Применение волнового алгоритма для нахождения скелета растрового изображения Электронный ресурс. — Электрон. Дан. — Режим доступа: http://ocrai.narod.ru/vectory.html -Загл. С экрана.
44. Рейнбоу В. Компьютерная графика. Энциклопедия. СПб.: Питер,2003. 768 с.
45. Рукопись система рукописного распознавания русского языка для КПК PocketPC Электронный ресурс. - Электрон. Дан. - Режим доступа: http://chis.nnov.ru/rukopis/ — Загл. С экрана.
46. Русый Б. П. Структурно-лингвистические методы распознавания изображений в реальном времени. Киев: Наукова думка, 1986 — 127 с.
47. Себастиан Г. Процессы принятия решения при распознавании образов. Киев, 1965.- 151 с.
48. Сергиенко А. Цифровая обработка сигналов: Учебник для вузов. — СПб.: Питер, 2002. 608 с.
49. Сойфер В. А. Компьютерная обработка изображений. Часть 1. Математические модели. Соросовский образовательный журнал, №2, 1996.
50. Сойфер В. А. Компьютерная обработка изображений. Часть 2. Методы и алгоритмы. Соросовский образовательный журнал, №3, 1996.
51. Сойфер В.А. Методы компьютерной обработки изображений. — М.: «Физматлит», 2004. 784 с.
52. Соколов Е. Н., Вейткявичус Г. Г. Нейроинтеллекг. От нейрона к нейрокомпьютеру. -М.: Наука, 1989. -240 с.5 7. Сэломон Д. Сжатие данных, изображений и звука. М.: Техносфера,2004. 339 с.
53. Тимохин В, И. Применение ЭВМ для решения задач распознавания образов: Учеб, пособие, Д.; ЛГУ, 1983. - 215 с.
54. Титаренко А., Ватолин Д. Удаление шума и царапин в старых видеозаписях // Материалы XIII Международной конференции студентов, аспирантов и молодых учёных «Ломоносов», секция «Вычислительная математика и кибернетика», Москва, 2006. с.52-53.
55. Ту Дж., Гонсалес Р. Принципы распознавания образов — М.: МИР, 1978.-414 с.
56. Убитый яблоком Электронный ресурс. Электрон. Дан. — Режим доступа: http://www.ferra.ru/online/mobilis/12848/ - Загл. С экрана.
57. Форсайт ДА., Понс Дж. Компьютерное зрение. Современный подход.
58. М.: Издательский дом «Вильяме», 2004. 928 с.
59. Фу К.С. Структурные методы в распознавании образов: Пер. с англ. -М.: Мир, 1977.-320 с.
60. Фурман Я. А., Кревецкий А. В., Передреев А. К. и др. Введение в контурный анализ; приложения к обработке изображений и сигналов. — М.: ФИЗМАТЛИТ, 2003. 592 с.
61. Шикин Е.В., Боресков А.В. Компьютерная графика. М.: "Мир" 1995.- 220 с.
62. Щепин Е. В., Непомнящий Г. М. К топологическому подходу в анализе изображений. Геометрия, топология и приложения // Межвуз. Сб. научн. Труд. М.: Мин. Высшего и среди, спец, образ. РСФСР, Московский институт приборостроения, 1990. -с. 13-25.
63. Ян Д.Е., Анисимович К.В., Шамис А.Л. Новая технология распознавания символов. Теория, практическая реализация, перспективы. М. : Препринт, 1995.
64. A. Aksela Matti and Laaksonen Jorma . On Adaptive Confidences for Critic-Driven Classifier Combining // In Proceedings of ICAPR 2005, pp. 71-80, 2005.
65. Aksela Matti, Laaksonen Jorma , Oja Erkki, Kangas Jari . Application of adaptive committee classifiers in on-line character recognition // Published in the Proceedings of ICAPR' 01, pp. 270-279, 2001.
66. Aksela Matti, Laaksonen Jorma , Oja Erkki , Kangas Jari. Rejection methods for an adaptive committee classifier // Published in the Proceedings oflCDAR'Ql, pp 982-986, Seattle, USA, September 2001.
67. Belongie S., Malik J., Puzicha J. Shape matching and object recognition using shape contexts. // IEEE Trans. On Pattern Analysis and Machine Intelligence 2002 vol. 24, no. 4, pp. 509-522.
68. Brakensiek A., Rottl J., Kosmala A. and Rigoll G. Off-line handwriting recognition using various hybrid modeling techniques and character n-grams // In 7th International Workshop on Frontiers in Handwritten Recognition, 2000, pp. 343-352.
69. Cheng-lin Liu and In-jung Kim and Jin H. Kim. Model-based stroke extraction and matching for handwritten Chinese character recognition // Pattern Recognition 34, p.2339-2352, 2001.
70. Deng, P.S., Liao, H.-Y.M., Ho, C.W., Tyan, H.-R. Wavelet-Based Off-Line Handwritten Signature Verification // Computer Vision and Image Understanding, 76 (3), p. 173-190, Dec 1999.
71. Dong, J.x., Krzyzak, A., Suen, C.Y. An improved handwritten Chinese character recognition system using support vector machine // Pattern Recognition Letters, 26 (12), p.l849-1856, Sep 2005
72. Giovanni Seni and Edward Cohen. External word segmentation of off-line handwritten text lines //Pattern Recognition, 27, p. 41—52, 1994.
73. Goltsev, A., Rachkovskij, D. Combination of the assembly neural network with a perceptron for recognition of handwritten digits arranged in numeral //Pattern Recognition, 38 (3), p.315-322, Mar 2005.
74. Govindaraju, V, Krishnamurthy, R.K. Holistic handwritten word recognition using temporal features derived from off-line images // Pattern Recognition Letters, 17 (5), p.537-540, May 1996.
75. Guilevic, D., Nishiwaki, D., Yamada, K. Word lexicon reduction by character spotting // Proceedings of the Seventh International Workshop on Frontiers in Handwriting Recognition, September 11—13 2000, Amsterdam, pp. 373-382.
76. Guler, I, Meghdadi, M. A different approach to off-line handwritten signature verification using the optimal dynamic time warping algorithm // Digital Signal Processing, 18 (6), p.940-950, 2008.
77. Hall J., Greenhill D., Jones G. Segmenting in sequences using active surfaces //In International Conference on Image Processing, 1997.
78. Hewavitharana S., Fern H. C. and Kodikara N. D. Off-line Sinhala Handwriting Recognition using Hidden Markov Models // Proc. Of Indian Conference on Computer Vision, Graphics & Image Processing (ICVGIP) 2002, Ahmedabad, India, 2002, pp. 266-269.
79. Howe, N., Rath, T. and Manmatha, R. Boosted Decision Trees for Word Recognition in Handwritten Document Retrieval // The Proceedings of the 28th Annual International ACM SIGIR Conference (SIGIR2005), pp. 377-383.
80. Huang, K., Yan, H. Off-line signature verification using structural feature correspondence //Pattern Recognition, 35 (11), p.2467—2477, Nov 2002.
81. Husni A. Al-Muhtaseba, Sabri A. Mahmouda, and Rami S. Qahwajib. Recognition of off-line printed Arabic text using Hidden Markov Models // Signal Processing, Volume 88, Issue 12, 2008, pp. 2902-2912.
82. Jaehwa Park and Venu Govindaraju and Sargur N. Srihari. Ecient word segmentation driven by unconstrained handwritten phrase recognition // In Proceedings of International Conference on Document Analysis and Recognition, 1999, pp. 605-608.
83. Kim, S.H., Jeong, S., Suen, C.Y. A lexicon-driven approach for optimal segment combination in off-line recognition of unconstrained handwritten Korean words // Pattern Recognition, 34 (7), Jan 2001, pp. 1437-1447.
84. Koerich A. L., Sabourin R., Suen C. Y. Large vocabulary off-line handwriting recognition: A survey // Pattern Analysis and Applications, 2003, Volume 6, pp. 97-121.
85. Lallican, P., Viard-Gaudin, С., Knerr, S. From Off-line to On-line Handwriting Recognition // Proceedings of the Seventh International Workshop on Frontiers in Handwriting Recognition, September 11-13, 2000, Amsterdam, pp. 303-312.
86. Lam L., Suen C. Y. An Evaluation of Parallel Thinning Algorithms for Character Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1995, vol. 17, no. 9, pp.724-737.
87. Lasko, T. Approximate string matching algorithms for limited-vocabulary OCR output correction // Proceedings of SPIE, Vol. 4307, Document Recognition and Retrieval VIII, 2000.
88. Lavrenko, V., Rath, T. and Manmatha, R. Holistic Word Recognition for Handwritten Historical Documents // The Proceedings of Document Image Analysis for Libraries (DIAL), 2004, pp. 278-287.
89. Lazzerini, В., Marcelloni, F. A linguistic fuzzy recognizer of off-line handwritten characters // Pattern Recognition Letters, 21 (4), p.319—327, Apr 2000.
90. Liu, J., Gader, P. Neural networks with enhanced outlier rejection ability for off-line handwritten word recognition // Pattern Recognition, 35 (10), p. 2061-2071, Oct 2002.
91. Mahmoud, S. Recognition of writer-independent off-line handwritten Arabic (Indian) numerals using hidden Markov models // Signal Processing, 88 (4), p. 844-857, Apr 2008.
92. Manmatha, R. and Srimal, N. Scale space technique for word segmentation in handwritten manuscripts // The Proceedings of the Second International Conference on Scale-Space Theories Computer Vision (Scale Space 99), p. 22-33.
93. Marquis, R, Taroni, F , Bozza, S , Schmittbuhl, M. Quantitative characterization of morphological polymorphism of handwritten characters loops //Forensic science international, 164 (2—3), p. 211—220, Dec 2006.
94. Marti U.-v. and Bunke H. Text line segmentation and word recognition in a system for general writer independent handwriting recognition // In Sixth International Conference on Document Analysis and Recognition, p. 159—163, 2001.
95. Mati'c, N. , Guy on, I. , Denker, J. and Vapnik, V. Writer adaptation for on-line handwritten character recognition // In ICDAR93, Tokyo, 1993. IEEE Computer Society Press.
96. Nacken, P. Image Analysis Methods Based on Hierarchies of Graphs and Multi-Scale Mathematical Morphology // PhD-thesis, University of Amsterdam, 1994.
97. Plamondon R., Srinari S, On-Line and Off-Line Handwriting Recognition: A Comprehensive Survey // IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000. vol. 22, no. 1, pp. 914—919.
98. Plamondon R., Suen C. Y., Bourdeau M., Barriere C. Methodologies for Evaluating Thinning Algorithms for Character Recognition // Pattern Recognition and Artificial Intelligence, special issue thinning algorithms. 1993. vol. 7, no. 5, pp. 1247-1270.
99. Plamondon, R. and Lorrette, G. Automatic signature verification and writer identification — the state of the art // Pattern Recognition, 22(2), pp. 107-131, 1989.
100. Plamondon, R., Srihari, S.N. Online and off-line handwriting recognition: a comprehensive survey // Pattern Analysis and Machine Intelligence, IEEE Transactions on, Volume: 22, Issue 1, 2000, pp. 63-84.
101. Sargur Bin Zhang, Srihari N. Analysis of Handwriting Individuality Using Word Features // 7th International Conference on Document Analysis and Recognition, Edinburgh, Scotland, August 3-6, 2003.
102. Srihari, S. N., Cha, S.-H., Arora, H. and Lee, S. Individuality of handwriting// Journal of Forensic Sciences, 47(4), pp. 1-17, July 2002.
103. Thoma, G.R. Automating data entry into MEDLINE // Proceedings of the 1999 Symposium on Document Image Understanding Technology, pp. 217-218,1999.
104. Tubbs, J. D. A note on binary template matching // Pattern Recognition, 22(4), p. 359-365, 1989.
105. Vinciarelli, A., Bengio, S. Writer adaptation techniques in HMM based Ojf-Line Cursive Script Recognition // Pattern Recognition Letters, 23 (8), p. 905-916, Jun 2002.
106. Vinciarelli, A. A survey on off-line Cursive Word Recognition // Pattern Recognition, 35 (7), p.1433-1446, Jul 2002.
107. Vinciarelli, S. Bengio, and H. Bunke. Offline recognition of unconstrained handwritten texts using HMM and statistical language models // IDIAP-RR 3-22, Dalle Molle Institute for Perceptual Artificial Intelligence, 2003.
108. Vuokko Vuori, Erkki Oja. Analysis of Different Writing Styles with the Self-Organizing Map // Published in the proceedings of the ICONIP2000, volume 2, p. 1243-1247, Taejon, South Korea, November 2000.
109. Vuokko Vuori, Jorma Laaksonen, Erkki Oja, Jari Kangas. Controlling On-Line Adaptation of a Prototype-Based Classifier for Handwritten
110. Characters // Published in the proceedings of the ICPR2000, volume 2, pp. 331-334, Barcelona, Spain, September 2000.
111. Vuokko Vuori, Jorma Laaksonen, Erkki Oja, Jari Kangas. Speeding up On-line Recognition of Handwritten Characters by Pruning the Prototype Set // Published in the Proceedings ofICDAR'01, pp. 501-505, Seattle, USA, September 2001.
112. Vuokko Vuori, Jorma Laaksonen, Jari Kangas. Influence of Erroneous Learning Samples on Adaptation in On-line Handwriting Recognition // Published in Pattern Recognition, pp 915-926, volume 35, number 4, 2002.
113. Vuokko Vuori, Jorma Laaksonen. A Comparison of Techniques for Automatic Clustering of Handwritten Characters // Published in the Proceedings of the 16th International Conference on Pattern Recognition, volume 3, pp. 168-171, August 2002.
114. Vuokko Vuori. Clustering Writing Styles with a Self-Organizing Map // Published in the Proceedings of the 8th International Workshop on Frontiers in Handwriting Recognition, pp. 345-350, August 2002.
115. Wakahara T. Shape machine using LAT and its application to handwritten character recognition //IEEE Transactions on Pattern Analysis and Machine Intelligence, 1994. vol. 16, no, 6. pp. 618-629.
116. Wang, X. , Govindaraju, V. and Srihari, S. N. Holistic digit pair recognition // Journal of Pattern Recognition, 33(12), pp. 1967—1974, December 2000.
117. Weissman, H. , Schenkel, M. , Guy on, I., Nohl, C. and Henderson, D. Recognitionbased Segmentation of On-line Run-on Handprinted Words: Input vs. Output Segmentation//Pattern Recognition, October 1992.
118. Wienecke, M. , Fink, G. A. and Sagerer, G. Videobased on-line handwriting recognition // In Proc. Of Int. Conf. on Document Analysis and Recognition, pp. 226-230, 2001.
119. Wu V., Manmatha R., Riseman E. M., Finding Text In Images // In Proc. Of the 2nd Intl. Conf. on Digital Libraries. Philadaphia. PA. 1997, pp. 1-10.
120. Wu Y., Tian Q., Huang T. S. Discriminant-EM algorithm with application to image retrieval //Proc. CVPR, 2000, pp. 222—227.
121. Xie L., Xu P., Chang S. F., Divakaran A., Sun H. Structure analysis of soccer video with domain knowledge and hidden Markov models // Pattern Recogn. Lett. 2004 vol. 25, no. 7, pp. 767-775.
122. Yang J., Gao J., Zhang Y, Chen X., Waibel A. An automatic sign recognition and translation system // Proceedings of Perceptual User Interface Workshop 2001.
123. Yanikoglu Berrin and Sandon Peter A. Segmentation of off-line cursive handwriting using linear programming // Pattern Recognition, 31 (12), pp. 1825-1833, 1998.
124. Y-HPao Adaptive pattern recognition and neural network// Addison-Wesley, 1989.
-
Похожие работы
- Методы распознавания рукописных текстов в системах автоматизации документооборота на промышленных предприятиях
- Комбинированные алгоритмы в задачах распознавания текстов
- Технология и методы управления документооборотом промышленных предприятий Социалистической Республики Вьетнам
- Разработка алгоритмов распознавания рукописных символов на основе аналитических свойств изображения
- Исследование, развитие и реализация методов автоматического распознавания рукописных текстов в компьютерных системах
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность