Компьютерная идентификация символов арабской графики

Курбанова, Назакет Гаджи кызы

Системы обработки информации и управления

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.14, диссертация на тему:Компьютерная идентификация символов арабской графики

кандидата технических наук: Курбанова, Назакет Гаджи кызы
город: Баку
год: 1994
специальность ВАК РФ: 05.13.14

Автореферат по информатике, вычислительной технике и управлению на тему «Компьютерная идентификация символов арабской графики»

Автореферат диссертации по теме "Компьютерная идентификация символов арабской графики"

;'ГВ Ой

АКДЦЕШЯ МУК АЗЕРБАЙДЖАНА ИНСТИТУТ КИБЕРНЕТИКИ

5 АГГР Ж

На правах рукописи УДК 681.5.015

КУРБАНОВА НАЗАКЕТ ГАДКИ кизы

КОМПЬЮТЕРНАЯ ИДЕНТИФИКАЦИЯ СИМВОЛОВ АРАБСКОЙ ГРАФИКИ

Специальность: 05.13.14 - Системы обработки информации

и управления

АВТОРЕФЕРАТ

диссертации т соискание ученой степени кандидата технических наук

Баку - 1994

Работа выполнена в Институте кибернетики АН Азербайджана

Научные руководители: член-корр. АН Азербайджана, доктор технических наук, профессор Алиев Т.Д.

кандидат физико-математических наук, старший научный сотрудник Абдудяаева Г.Г.

Официальные оппонент«: доктор технических наук, профессор АОдудлавв I3.it.' .

кандидат вивикс^-ыаге.матачвс^ наук, дедиге ■■ -Гусейнов В.А.

Ведущая организация - Нвучио-лроизюдотвзнше обьединеше "Инфорааяпса".

Защита состоится я/4т Шг/гёлА- 1994 г. в ^ час. не* заседании специализированного совета Н 004.21.01 по присуждению ученой степени кандидата технических наук в Институте кибернетики Академии наук Азербайджана по адреоу: 370141, г.Вшсу, ул.Ф.Агаева 9.

С диссертацией можно ознакомиться в библиотеке Института кибернетики АН Азербайдхана. . , /

Автореферат разослан " / " ^(¿^¡ЪЯОи 1994 г.

Ученый секретарь специализированного совета

к.ф.м..н. /, г . ' Ибрагимов О.В.

Ойцая характеристика работы

Актуальность темы.

Эволюция систем обработки информации показывает, что по мера развития систем, усложнения и расширения реализуемых ими функций наиболее эффективными и жизнеспособными являются системы, в которых расширение функциональных возможностей элементов, находящихся на различных уровнях иерархии системы, опережает рост их сложности. Развитие вычислительной техники убедительно иллюстрирует ториодичоскор изменение соотношения между многофункциональными и специализированными средствами на различных этапах развития. Учитывая то, что почти все отрасли науки и техники з своем развитии достигли такого этапа, когда интеллектуализация систем управления становится неизбежным, встает вопрос о необходимости расширония области разработки систем искусственного интеллекта в системах различного назначения. Одной из таких систем можно считать распознавание изобракений, которая относится к области моделирования интеллектуальной деятельности человека во внешнем ее проявлении-интерпретагш визуальной информации.

Подавляющая часть исторического наследия, касающегося не только Азербайджана, но и достаточно Лэльиого региона, представлена в рукописях на арабском, персидском, турецком языках в арабской графике, в связи с чем особую значимость приобретает задача распознавания символов арабской графики.

Анализ существующих систем распознавания показывает, что их реальное использование в большинстве случаев связаны с такими трудностями как кодирование и ввод рукописной информации в обрабатывающую систему, огромное многообразие возможных написаний этдэл!■ ых знаков, сложность определения характерных свойств при-зущих отдельным элементам. Применение стандартных систем и алгоритмов для кодирования и идентификации символов арабской графики становится невозможным из-за специфики написания букв арабского алфаьита. Помимо этого при составлении математичесикх формул распознавания необходимо четкое разбиение слов на элементы (буквы), что так же долает эти системы чеггризмлимыми.

В связи с этил представляется актуальным разработка методики, алгоритмов и аппаратно-программных средств для кодирования и

- 4 ~

идентификации символов арабской графики.

Цель работы.

Целка диссертационной работы являются: -разработка методики, алгоритмов и аппаратно-программных средств кодирования и идентификации символов арабской графики -создание базы знаний для распознавания символов арабской графики и базы данных слов и фраз.

Методы исследования.

При разработке алгоритмов И программ идентификации символов арабской графики использованы статистические метода, а также принципы программного анализа и распознавания образов; методология искусственного интеллекта¡проводились вычислительные эксперименты и корректировал!'сь алгоритмы. Моделирование разработанных алгоритмов и принципов функционирования системы распознавания реализовано на IBM PC/AT на алгоритмическом языке BASIC версии 4.50.

Научная новизна.

Разработаны алгоритмы иерархического выделения признаков для распознавания арабской письменности без выделения отдельных букв, целыми словами,.а также фразами и соответствующая классификация слов и фраз.

Создана база знаний и экспертная система, распознащая арабскую письменность, и база данных в виде перевода отдельных слов и фраз.

Разработаны аппаратно-программные средства для одномерного и двумерного кодирования и идентификации слов и фраз, основанные на использовании спешг'ическюс информативных признаков символов арабской графики.

Практическая ценность и внедрение результатов работы.

Разработанная система распознавания и идентификации позво- -ляет ускорить процесс обработки материалов в арабской графике независимо от языка написания, так повысить скорость чтения и точность перевода; оказать помощь специалисту в принятии решения: сократить время, затрачиваемое на поиск нужной информации .

Разработанные аппаратно-программные средства и алгоритмы использованы при создании автоматизироьанного каталога рукописного фоида института рукописей АН Аз.Р.

АпроЗация работы. Основные результаты диссертационной рабой.

- 5 -

были локоны и обсуждены на:

- Научной конференции аспирантов ЛН Лз.Р. (Баку, 1987)

- Научной конференция аспирантов ЛН Аз.Р. (Баку, 1988)

- Республиканской научно-практической конференции молодых ученых и специалистов "Актуальные проблемы информатики и ВТ", (Баку, 1990)

- Всесоюзной научной конференции "Интеллектуализация систем управления", (Баку, 1991)

Публикация. По.теме диссертации опубликовано 7 печатных работ.

Структура и обьем работы.'Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы, включающего 75 наименований и 2 приложений. Основное содержание работы изложено на 127 страницах, включая 9 рисунков, I таблицу.

Содержание работы.

Во введении обоснована актуальность исследований, сформулирована цель работы, методы исследовгчия, научная новизна, практическая цешюсть полученных результатов и дано ее краткое содержание.

В первой главе рассматривается задача распознавания графических изображений как один из разд&.юв теории искусственного интеллекта, обосновывается актуальность распознавания символов арабской графики, дается анализ существующих систем.

Автоматизация распознавания в любом случае подразумевает евод информации, ев обработку и вывод результата. Вводимую информацию глобально можно рассматривать по форме представления, т.е. в двух вариак эх: форматированную и неформатированную.

К форматированному виду входной информации относится информация, где каждой букве или символу присваиваотся строго определенный код. К неформатированному виду входной информации относится информация с выхода читающего автомате, текст котор^о является рукописным, т.е. несмотря на практически накладывав ограничения на высоту и среднюю статистическую 'чиркну символов, каждый элемент текста или слова должен задаваться множеством составлявши.?. , инвариантных к таким факторам как почерк.

В первом случае эта функция сводится к присвоении конкретного номера каждому элементу тексга.Лряч згша: з.темента-та могут быть

как сами буквы, буквосочетания, так и целые слова или словосочетания (в дальнейшем элементов текста будем называть символами). При использовании в качестве устройств ввода специальных экранов или клавиатура отпадает необходимость в функции распознавания, так как система в этом случае оперирует уже не изображениями, а строго заданными кодами. Классификация в этом случае тривиальна, например путем позиционного сложения кодов.

Во втором случае функция распознавания является наиболее важной и ответственной частью в реализации всей задачи. Символы в этом случае представляются в виде изображения. Итоги распознавания существенно зависят от методов представления входной информации (способа кодирования или передачи изображения), по которым производится разбиение этого изображения на составляющие (разбиение изображения на сегменты, представление их в виде векторов и т.д.).

Особенности символов арабской графики и, в частности, трудности ввода в ЭВМ, неприемлимость существующих алгоритмов распознавания символов (так как не учитывают особенностей и специфики их написания) делают проблемы распознавания и идентификации их особенно важными.

Анализ работ показал, что во-первых, специфика символов арабской графики, т.е. непрерывный характер записи, осложняет задачу выделения отдельных букв в тексте, во-вторых, буквы арабского алфавита различаются шириной, поэтому для сегментации слова на отдельные буквы разработать единый алгоритм сложно.

В связи с вышеизложенным предлагается решение следующих задач:

- преобразование визуальной информации для ввода в компьютер

- распознавание, функциями которой являются выделение из преобразованной информации элементов с целью их идентификации с неким аналогом

- создание базы знаний и правил идентификации с использованием структурного описания символов арабской графики

- идентификация выделенных фрагментов с аналогами, расположенными по определенному правилу в созданной сгруктуруировинной базе данных.

Бо вгорий главе исс не давание си: ..шов арабской графики показало. что одной из глявных особенностей является то, что каждая буква арабского олфягита имеет 2 или 4 формы изображения и фзрма

букв лисит от места, которое она занимает в слове (начало, середина и конец слова). Если добавить выпадание гласных букв при написании, непрерывность характера письма, то побуквенное распознавание на арабской графике не всегда приводит к достоверным результатам.

Проведенный анализ дает основашга сделати еывод, что распознавание и идентификации символов в арабской графике наиболее целесообразно проводить пословно, иногда целыми фразами.

Исследования и эксперименты показали целесообразность рассматривать слово как совокупность признаков, составляющих базис для формирования символов арабской графики.

Для формирования вектора признаков была использована модификации метода геометрических признаков (ГП). Метод ГП помехоустойчив, инвариантен к сдвигу, повороту, масштабу. При этом обнаруки-ваются то топологические и геометрические признаки, которые присуще символам арабской графики и отражают механизм формирования слова, среди которых можно назвать точки, вортикальные линии и т.д. Каждый признак описывается характерным параметрсм.

В качестве этих параметров используются: Р - параметр, выражающий количество и последовательность точек над и под буквами в слове (может принимать до2.'° значений);

Этот параметр вычисляется по формуле:

Р= £ 1»рисК».) • 2

иу рис!(О- местоположение точек При о! - количество точек I - параметр, выражающий количество разрывов при написании слова (мс./ет принимать до 10 значений); этот параметр вычисляете.! по формуле:

/О , -

I = Ц Ми) если ¿=

шЩ

- количество разрывов

Ащ ) А; - кодовая последовательность слова Н - параметр, выражающий количество изменений направления движения пера по вертикали в процессе письма (округлость или изгиО; может принимать до 20 значений); этот параметр вычисляется по фэрмуле:

Я = если или

- количество округлостей или изгибов V - параметр, выражающий количество вертикальных линий содержащихся в слове (мокет принимать до 10 значений); этот парамэтр вычисляется по формуле:

V тгсг(1) если Ц-у^М 4 и-е

- количество вертикальных линий

Размерность интервалов определяется из эвристических знаний и задается априорно.

Для определения количества информации, вносимой этими признаками, была вычислена энтропия каждого признака в отдельности по формуле

р(х^) - вероятность появления конкретного признака

Для оценки признака точки были отобраны оимволы с одной точкой наверху, двумя внизу и т.д., т.е. со всевозможными встречаемыми комбинациями точек. При этом энтропия оказалась 0,651; для оценки признака округлости энтропия была равна 0,361; для оценки . признака разрыва энтропия была равна 0,286; для оценки признака вертикальной линии энтропия была равна 0,283.

Таким образом, расчеты энтропии показали, что признак точки вносит больше информации, чем признак округлости и тем более признак разрыва и вертикальной линии.

Выделение этих признаков позволяет принимать модели символов в виде

При даннпй модели для классифика:^ м символа необходимо вычислить класс символа. Для однозначной классификации символов по признакам с учетом их д,.агностическо! ценности используется фор--

- э -

мула

W- Р+ R-IP + J-IP-TR + V-IP-IR-ltf

Подставляя априорно определенные для конкретной графики предали изменений этих параметров в формулу, получим классификатор символа в виде, который служит ключом при поиске в словаро

VC/= Р + R • Î02h Г- WZh'ZO + V- iÛZ^-20-iO

Использование классификатора такой формы позволяет определить принадлежность исходного символа соответствующему классу для дальнейшего распознавания и идентификации.

При наховдении в словаре более одного символа с вычисленным КЛВЧ1М определяется корреляция с каждым из них и введенный символ идентифицируется с символом, с которым имеет максимальное значение коэффициента корреляции.

Показано, что при современных знаниях о реализации процессов распознавания наиболее перспективной представляется шаровая обработка изображений, позволяющая обеспечить высокую точность и гибкость систем обработки информации.

На базе модели символа рассмотрим применение аппаратно-программного средства, осуществляющего идентификацию символов арабской графики в процессе письма.

Для эффективной разработки и функционирования, в гппаратной части в качестве устройства кодирования применяются как существующие, гак и разработанные технические средства.

Основным различием разработанных технических средств от существующих является конструктивное исполнение узла кодирования, где производится одномерное, двумерное кодирование исходного символа. 1ля одномерного кодирования разработан планшет с нанесенными на него горизонтальными шинам!!, где кодирование производится nyTL.M обведения спроектированного символа,в результате чего полу- ■ чается кодовое описание исхо.чюго символа. А для двумерного кодирования разработан планшет, на который нанесены ром^чки опредэ-ле'пшм образом соединенные между собой, позволяют). злучэть информацию о двух координатах каждой точки слова. Так'_->1 ггинцип построения позволяет кодировать символы арабской графики, а такта лк: .:х фигур (плоскостных геометрических), графиков, иробрзгк-нкй, и такта образом расаглргть область использования устройства. Ча рис Л а показано слово с—> (к; -а) на плангето с горr.vj;-

талышми шинами и его развернутая графика, а на рис.10 показано кодирование слова на таком планшоте и его развернутая гра -

фика. Как'видно из графиков при двумерном кодировании повышается достоверность восстановления исходной информации, т.е. развернутая графика отражает фигуру символа.

В результате кодирования в аппаратной части, программное средство производит процесс идентификации. Для этого из кодового описания вычисляется класс символа по алгоритму описанному выше, после чего происходит сравнение исходного и искомого символов.

Так как описания символов представлены в виде кривых, то для их сравнения применяется корреляционный анализ. При этом вычисляется коэффициент корреляции между идентифицируемым символом и существующими символами-эталонами в найденном классе. Максимальное значение коэффициента корреляции позволяет выдать соответствующее этому значению символ-эталон за значение исходного символа.

В третьей главе показано, что задачи распознавания образов и идентификации не могут быть полностью формализованы и решены с применением только строгих алгоритмических процедур и математических методов. В этих условиях для создания автоматизированных систем распознавания образов может быть усташнэ применена "интеллектуализация" программных средств. Создание "интеллектуальных" программных средств распознавания образов должно обеспечить эффективность строгих математических методов обработки и методов эвристического программирования со знаниями экспертов о свойствах исследуемых систем. Функциональное исполнение программных средств этого класса разрабатывается на основе эвристической модели творческой деятелыпсти исследования и экспертов при описании и оценке состояний слабоформализируемых систем на основе методов распознавания образов.

В связи с тем, что распознавание и идентификация символов и слов относится к области слабоструктуированных (не формализованных) знаний, представляется, что разработка и использование экспертной системы для такой задачи должна в первую очередь повысить формализацию етой области знаний. Жесткие модели,на которых основаны существующие системы, не всегда могут обеспечите возможность принятия приемлемых решений в неопределенных ситуациях. Отсюда следует вывод о целесообразности при* эния гибких моделей при создании системы, позволяющей на основе накопленных знаний произвести распознавание и идентификацию, оперируя имеющимся описашгем

]ыннд AM точек сверху

Рис. lu

PUC. i ó~

символов и способной по заданным параметрам-признакам сформировать приемлимые гипотезы.

Процесс анализа строится как выдвижение и проверка гипотез, которые формируются по выделяемым на слове, фразе основным признакам (описание признаков см. гл.2), текущему результату и информации из модели.

Одной из важнейших черт экспертных систем является наличие в них свойств характерных для общения между людьми. Поэтому экспертная система должна эффективно использовать аппаратно-программные средства, чтобы воспринимать изображения.

Специфика арабской графики позволяет создать базу знаний (БЗ) "РгХгпак" основываясь на геометрии написания, которая имеет древовидную иерархическую структуру.

Экспертная система идентификации символов арабской графики используется в нескольких целях:

1. для побуквенного распознавания, идентификации перевода на любой заданный алфавит.

2. распознавания и идентификации слов для дословного перевода на заданный язык.

На рис.2 дана блоктсхема экспертной системы "Б1шуо1" идентификации символов арабской графики.

Для первоначальной идентификации символа прежде всего проводится экспертиза по наличию конкретных признаков. В случае не нахождения такого символа в базе данных (БД) система сама запрашивает особенности символа для занесения его в базу знаний "Р^г-пак". Экспертная система построена таким образом, что каждое введенный символ проверяется согласно имеющимся "знаниям" о символах и выдается вопрос на правильность результата - применения системой своих знаний.

Например, пусть первые два символа в базе данных "символ1".и "симбол2", причем "символ2" имеет одну точку наверху. В этом случае если входной символ равен "символ1", в системе не происходит никаких изменений и она переходит в режим готовности принятия следующего ствола. В случав, если введенный "символЗ" имеет одну точку, но расположению внизу, система проверяет его с символами находящимися в БД и, не обнаружив символа с таким признаком система записывав? "символЗ" в БД, и с це ■ о увеличения своих "знаний" задает вопрос на отличие "символЗ" от "символ1" и "символ2". Пользователь вносит понятиь месторасположение точек ...низу. Приняв эт!

Peu. Z

информацию система увеличивает свою БЗ еще на одно понятие точка внизу.

Функционируя аналогичным образом, система автоматически наращивает свою БД и увеличивает БЗ. По истечении некоторого времени такого обучения система совершенствуется до полной идентификации символов. Эта система может ответить на запрос о ходе рассуждения.

При дальнейшем увеличен и БД (свыше 5-6 тыс. слов) и применения системы для идентификации фраз, она моют несколько видооиз-меняться, т. е. основные признак югут бить определены в интервале новых, более сложных комбиш..,ий.

В четвертой главе рассматривается вопрос разработки и создания информационно-поисковой системы (ИПС), основными функциями которой являются вопросы ввода, хранения, доступа, поиска и т.д. Основным отличием разработанной ИПС от существующих является включение в ее среду функционирования дополнительных задач, таких как сжатие, расжатие, распознавание, идентификация поступившей информации.

Для ввода большого обьома информации используется сканер, где вводимая информация кодируется и представляется з виде I и 0. Необходимость такого кодирования и преобразования обусловлена тем. чтобы в дальнейшем проводить распознавание. Но эта информация занимает большой обьем памяти. Для устранения этой избыточности проведено кодирование со сжатием данных, где каждая строка закодированного изображения группируется побайтно и в результате хранится

информация в обьеме: £

где л/^-элембЪтк' изображения, принимающие значения I и О Л - количество строк £ - длина строки К - высота столбца При таком сжатии обьем хранимой исходной информации уменьшается как минимум е 8 раз. Но можно достичь еще Сюлэе существенный эффект сжатия, если прослеживать соседние члемонты. полученные после сжатия. Разность между соседними элементами обозначим ч^рез Д у/^.Если для подрядидущих элементов равна 0, т.е.

I - / 1 ~ '

то хранится код количества и значение этих эл*к»нтов. Таким обра-

зом, информация хранится в вида элементов, состоящих из кода количеств подрядидущих одинаковых значений и самого значения элемента.

Проведение сжатия предложенным способом позволяет провести раскатив (т.е. восстановить запись строки в I и 0) без потерь и искажений. Достоверность расжатия при значен™ кода количества элементов I проверяется по исходной информации выборочно. Расжатие храню/ой информации проводится с целью дальнейшей обработки, т.е. для распознавания и идентификации поступившей информации.

Исходя из особенностей задачи распознавания символов, а именно большого числа составляющих, необходимости принятия решения среди множества сходных символов, наиболее приемлимьш является построение новой базы знаний "ЗуоЗз^о" к разработанной экспертной системе "31ш701". Эги знь/шя позволяют проводить классификацию, применяя подхода распознавания образов и метода,ориентированные на использование экспертной информации, которыми являются определение признаков и их возможных значений, описывающих различные символы, и на основе знаний эксперта определить свойства символьной информации и тем самым построить классификацию символов. В базе знаний множество символов разбиваются на классы по признаку длина символа. Тля определения длины символ заключается в равномерную прямоугольную сетку-матрицу, высота которой задается стандартной для конкретной формы записи, а длина зависит от составляющих символа, что и определяет класс.

Так как процессу распознавания всегда предшествует обучение конкретному стилю написания, то первично распределенные по классам символы принимаются за символы-эталоны и образуют множество эталонных матриц в базе знаш1й, а значения символов-эталонов заносятся соответственно в базу данных. При решении практических задг.ч возникает необходимость в уточнении степени выраженности признаков, которые могут быть естественннм образом упорядочены. При этом определение групп состояния символов, в которых они обладают одной и той же степенью выраженности признака означает разбиение состояний символов на совокупность упорядоченных классов, что и позволяет быстрый поиск в базе знаний.

На первом этапе, определив длину символа, БЗ "БуоЗ:гуо" определяет класс в котором ведется дальнейшее распознавание символа. Так, при нахождении проводится с! шюние свойств между исходным символом . [ а'„ , я'п 1\'11П }

-л» I

I > Акг г ■ /^/</1 I

и пталонными матрицами

онному методу. Значение экспериментов позволяет

1. г 0,75

2. 0,5 < г < 0,75

3. г ^ 0,5

В первом случае значение символа берется как значение символа-эталона е базе данных,.свойства которого соответственно описаны и БЗ.

Во втором случае для уточнения значения символа проводится распознавание по признакам, т.е. символ обводится на планшете, подключается первая база знаний "Рг1гпз!С, описывающий символ по выделэн-кым признакам и проводится экспертиза.

В третьем слутае этот символ заносится в БЗ как символ-эталон в соответствующем классе м значение вносится соответственно в БД.

При не нахождении соответствующей сегки с размером ¡_ , она вносится в БЗ "БгоЗб^о" как новая длина-эталон с соответствующим свойством символа, а значение вносится в БД.

Таким образом разработанная ЭС "31т.'о1" состоит из следующих основных блоков:

- первая база знаний "Рг1спак", основанная на приеме и: формации с планшета;

- вторая база знаний "буо,)з1уо", основанная на приеме информации со сканера;

- база данных в виде значений упорядоченных символов (букв, буквосочетаний, слов, словосочетаний);

- система управления базой данных;

- интерфейс с разработчиком;

- интерфейс с пользователем;

- пакет прикладных программ различного назначения.

Результаты применения ЭС "Б1шуо1" показали достоверность идентификации и распознавания для ЕЗ "Рг1гпак" 92?, а для БЗ "Зтс^Мл'о"

(А/, ■ • у ) по корреляци-

А = /

коэффициента корреляции г в результате принять решение о принадлежности символа:

78%.Время проработки разработанной ЭС "Slmvol" по распознаванию и идентификации одного символа составляет 5 сек.

На основе вышеизложенного'предлагается следующая блок-схема ИПС (рис.3).

Построенная таким образом ИЧС нашла свое применение в институте рукописей под названием "Katalog",которая содержит несколько функций: ввод, хранение рукописей, переработка, распознавании, идентификация рукописи, создание каталога, доступ в каталог, поиск в каталоге .

Содержимое рукописного фонда выделяется не только своей угш-кальностыо, калиграфией и красотой оформления, но и представляет огромную историческую ценность в изучении истории и культуры Азербайджана й ближнего Востока. Именно благодаря ей мы можем познать древнюю цивилизацию, приблизиться к ней,-понять ее и извлечь уроки из ее истории и культуры. При этом оказалось, что имеется большой обьем информации на староазербайджанском алфавите, на арабском, персидском языках с арабской графикой, относящихся к данному региону, которые требуют хранения, переработки, систематизации и доступа. Все перечисленные функции реализуются на созданном ИПС "Katalog".

Эффективность от применения подобной состемы достигается в результате избавления специалистов-востогаведов от рутинного труда в процессе перевода, поиска, систематизации, издания и представления возможности для более высококвалифицированной творческой работы, переработки большего количества информации за единицу времени.

ХРАН€ШП-

~СЖАтЩ

РЙСЖПТЫЕ

поиск

ИВОА инмормйциц

-рпеош

рпспоз • йпвйние-

„3//Ч

-г~

£~3 „МОХНС

(

ьз

СиС ТI? М/1'7Ц3 в ЦиЯ

создянсе к.игй/Ю!

поиск,

е кнгииш

издннис

Рис.3

ВЫВОДИ

1. Критический обзор работ, посвященных распознаванию и идентификации показал, что распознвва.ше письменных знаков, в особенности арабских представляет собой сложный процесс переработки информации, задача распознавания рукописях знаков окончательно еще не решена, так как существует много как теоретических, так и практических трудностей, связанных с огромным многообразием возможных написаний отдельных рукописных знаков и поэтому общего решения для распознавания обычного почерка не существует. Для решения же различных задач распознавания необходимо в каждом случае построить свое, адекватное задаче описания обьектов.

2. Показано, что целесообразно рассматривать изображение как совокупность признаков, составляющих базис для формирования символов арабской графики. Формируется вектор признаков по топологическим

и геометрическим признакам, присущим символам арабскг1 графики и отражающий механизм образования слова. На основе базиса признаков приняты V 'Дели цля классификации слова.

Т. Создан алгоритм идентификации для распознавания символов арабской графики, на основе модели для классификации слова. 4-. Для реализации алгоритма идентификации разработаны ряд устройств для считывания графической информации, существенно обл гчаю-щие процесс ввода и кодирования информации в ЭВМ. Предложен новый принцип построения устройств простейшей конструкции, позволяющий произвести ввод и кодирование изобракений.

5. Так как распознавание и идентификация символов арабской графики относится к слабоструктуруированным (неформализованным) знаниям, то для "гнтеллектуализации" программных средств разработана экспертная система идентификации информации, вводимой с планшета. База знаний "РПэтак." производит распознавать и идентификацию, оперируя имеющимся описанием символов, и способна по заданным параметрам-признакам сформировать приемлимые гипотезы. База данных зостоит из идентифицируемых слов и имеет способность к наращиванию.

3. Для обработки большого количества инф' тмации, полученного со сканера и обладающего значительной избыточностью, предложен алгоритм сжатия и расжатия без потер! и искак^чий. Учитывав ыше-лоншм :войс,тва закодированной информации, непосредственно сзя?аниоГ. со гканированием, построена база знаний "н'/о^и'п" к ЭС "¿Лт.уоГ', рас

познающая и идентифицирующая символы (буквы, буквосочетания, слова, словосочетания, фразы).

7. Разработанные аппаратно-программные средства и экспертная система идвнтификации были внедрены к конкретному объекту рукописному фонду института рукописей ЛН Аз.Р. Создана информационно-поисковая система "Katalog".

■ Основные положения диссертации изложены в следующих работах.:

1. Н.Г.Курбанова. Аппаратурно эграммные средства для автоматизации перевода рукописей. - Теаисы докладов научной конференции аспирантов АН Аз.Р. Книга I - Баку, 1987, с. 46-47

2. Н.Г.Курбанова. Распознавание рукописных текстов при помощи статистических алгоритмов. - Уезиси докладов научной конференции аспирантов АН Аз.Р. Книга I - Баку, 1988, с. 34-35

3. A.c. I* 1562946. Устройство для считывания графической информации. Алиев Т.А., Курбанова Н.Г., 1990

4. Т.А.Алиев, Дж.В.Каграманов, Б.М.Касумов, Н.Г.Курбанова Компьютерная идентификация рукописей на арабском алфавите. -Доклада АН Аз.Р., 1990, N 4-5, с. 14-16

5. Н.Г.Курбатова. Экспертная система идентификации рукописей на арабском алфавите. - Тезисы докладов республиканской научно-практической конференции молодых ученых и специалистов "Актуальные проблемы информатики и ВТ", Баку, 1990, с. 52

6. Т.А.Алиев, Н.Г.Курбанова. Распознавание скорописных текстов с арабской графикой. - Тезисы докладов всесоюзной научной конференции "Интеллектуализация систем управления". Баку, 1991, с. I40-141

7. A.c. Л 1709362. Устройство для считывания графической информации. Алиев Т.А., Курбанова Н.Г., Касумов P.M., 1991

X У Л А С Э

ДиссертасиЗа иши араб графикалы символларын компутердэ идон-тификасиЗа едилмасинэ hacp едилмишдар.

Иш 4 фэсилдэн ибарэтдар. Биринчи фэсил Зазы ишаралэринин иден-тифнкасиЗасы, эрэб графикалы символларын хусусиЗЗэтлэринин тедгм-

икинчи фэсил иденгификасиЗа учун алгсритмин, апарат-програм васитесинин ишлэниб Ъвзырланмасы, учунчу фэсил идентификасиЗа учун експерт системинин Зарадылмасы, дердунчу фэсил исэ чох функсиЗалы информасиЗа-ахтарыш системинин гурулмасы мэсэлэлэри-нин haдлине hacp олунмушдур.

Эраб графикалы символларын анализи нэтичэсиндэ бу Зазылара хас олан эламэтлэр ашкар едилмишдар. Бу эламэтлэрин свчилмэси эсасында ишлэниб Ьазырланмыш алгоритм, апарат-програм васитэси сезлэрин, ифадэлэрин компутердэ идентификасиЗа вэ тэрчумэсине никак верир. «7арадшшыш експерт системиндэ билик базасы символларын эламэтларинэ эсасланыр, верилэнлэр базасы символларын тэрчумэсш-дэн ташкил олунмушдур. ИнформасиЗа-ахтарыш системиндэ бир чох функсяЗал р Jepime 'Зетирилир: дахилетмэ, Задда сахлама, ахтариш, "ыхылма, идентификасиЗа, верилэнлэрин системлэшд-филмэси.

SUMMARY

The Thesis deals with computer-aided identification of symbols in Arabic graphic.

The Thesis consl3t of four chapters. The first chapter considers identification of writing slmbol, investigation specific of slmbols in Arabic graphic, in second chapter elaborated algorithm, device-program meana, in the third parta elaborated the expert systems for identification, the fourth parts deals with the information-searching systems with many function.

In analuslng simbol3 in Arabic graphic some peculiarities have been discovered which permitted to work out algorithm, firmware, to enable computer-aided identification and translation of slmbols by words and plirase3. In the expert system the base of taiowledge on the Ьаз1з of peculiarities of slmbloa, the onne of lata contain translation of slmbc'.s. Many Amotion Information-searching system nxecute the funetiora: Introduce, keeping, appro-ich. -onpression, identification, systematize о! data.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00