автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.02, диссертация на тему:Исследование нейросетевой системы распознавания чертежных спецификаций
Автореферат диссертации по теме "Исследование нейросетевой системы распознавания чертежных спецификаций"
2_ ''^Національна Академія наук України
Інститут кібернетики ім.В.М.Глушкова
На правах рукопису
ЛАВРЕНКЖ Алла Миколаївна
УДК 007. 001. 362
ДОСЛІДЖЕННЯ НЕЙРОМЕРЕЖНОЇ СИСТЕМИ ДЛЯ РОЗПІЗНАВАННЯ КРЕСЛЯРСЬКИХ СПЕЦИФІКАЦІЙ
05.13.02 - математичне моделювання в наукових дослідженнях
Автореферат дисертації на здобуття наукового ступеня кандидата технічних наук
■ Дисертацією є рукопис
Роботу виконано в Інституті кібернетики ім.В.М.Глушкова НАН України
Науковий керівник: доктор технічних наук
Е. М. Куссуль
Офіційні опоненти: ' доктор технічних наук, проф.
В. І. Васильєв
доктор фізико-математичних наук
О.С. Макаренко
Провідна організація: Інститут проблем матемагичкх машин та систем НАН
України
Захист відбудеться “ ' 1997 р. о ''Т годині
на засіданні спеціалізованої вченої ради Д 01.39.05 у Інституті кібернетики ім.В.М.Глушкова НАН України за адресою: 252187 Київ, проспект Академіка Глушкова, 40
З дисертацією можна ознайомитись у науково-технічному архіві інституту.
Автореферат розіслано 1997 року.
Вчений секретар спеціалізованої вченої ради
доктор біологічних наук Л.М.КОЗАК
Актуальність* Моделювання структури та процесів обробки інформації в нейронних мережах людини та тварини дає можливість створювати технічні пристрої, що мають нові позитивні властивості: висока надійність, здатність до навчання, можливість розв'язання складних слабоформалізованих задач розпізнавання образів.
Такі пристрої широко застосовуються в різноманітних системах розпізнавання для виконання фінансовій прогнозів і таке інше. Однак у таких пристроях, як правило, застосовуються нейронні мережі з так званим зосередженим або точковим кодуванням, при якому кожній ознаці або об'єкту ставиться у відповідність окремий нейрон. Реальним нейронним мережам людини та тварини властиве розподілене кодування, тобто таке кодування, при якому кожній ознаці ставиться у відповідність деяка підмножина нейронів. Воно вивчено значно гірше, а в його межах майже зовсім не досліджена можливість формування розподілених нейронних кодів, внутрішня структура яких не залежить від положення об’єкта на зображенні. Ця проблема є досить актуальною, оскільки її розв'язання з одного боку дозволило б побудувати більш адекватну математичну модель реальних нейронних мереж, а з іншого боку дало б можливість створі ті технічні пристрої для розв'язання складних задач штучного інтелекту.
Однією з таких задач є зберігання та обробка креслярської інформації за допомогою ЕОМ. Виділення потрібних елементів креслень та введення інформації у ЕОМ, розмноження креслень та внесення змін часто виконуються вручну, що призводить до похибок та дуже великих витрат часу. Розв'язання проблеми полягає у автоматичному розпізнаванні та перетворенні креслень.
Для введення у ЕОМ креслень використовується технологія автоматичних сканерів. При цьому важливою задачею є введення у комп’ютер не тільки образа креслень, а й його змісту, тобто перетворення графічної інформації в осмислену. Ця задача є однією із задач розпізнавання образів, якою зараз займаються багато вчених.
При розпізнаванні креслень можна виділити дві підзадачі: розпізнавання графічної та розпізнавання текстової інформації на кресленнях.
При розпізнаванні креслень виникають труднощі, пов'язані з відділенням текстової та графічної інформації на кресленнях, відділенням замкнених
контурів та з'єднувальних ліній, різними розмірами символів та щільністю написання. Можливі також пошкодження паперу та деяке спотворення зображення.
Щоб подолати ці труднощі, системи розпізнавання повинні працювати з високою точністю та надійністю, дуже чітко розпізнавати інформацію навіть при деякому ступені зашумленості, тобто моделювати функції мозку людини.
Для розв’язання подібних проблем можна використовувати нейронні мережі, які мають властивості асоціативності, паралельності обробки інформації, здатності до навчання.
Ступінь досліпжуваності теми. Відомо, що в нейронних мережах людини та тварин для збереження та обробки інформації використовується розподілене кодування, при якому кожній ознаці або об’єкту ставиться у відповідність деяка підмножина нейронів, а не один нейрон. Однак у штучних нейронних мережах цей тип кодування застосовувався порівняно рідко. Хоча ідея ансамблевої організації мережі з’явилася ще в 1949 р. у Хебба, повністю реалізована вона була лише в асоціативно-проективних нейронних мережах (АПНМ). В АПНМ використовувався алгоритм локальнозв’язного кодування. Одна з переваг цього підходу полягає в тому, що коди подібних ознак або об’єктів корелюють між собою. Але недоліком алгоритму є те, що для одного й того ж об’єкту, розміщеного у різних місцях зображення, формуються різні коди. При цьому порушується схожість з біологічними нейрошшмн мережами, що розпізнають об’єкт однаково добре незалежно від його положення.
Таким чином, у рамках розподіленого кодування майже зовсім не вивчена можливість формування розподілених нейронних кодів, внутрішня структура яких не залежить від розміщешія об’єкта на зображенні. Тому для розв’язання поставлених у роботі задач пропонується метод розподіленого зсувного кодування, що дозволяє формувати код зсунутої ознаки шляхом зсуву елементів коду цієї ознаки.
Розв’язання даної проблеми для штучних нейронних мереж дозволило б досягти більшої подібності математичної моделі до біологічного прототипу та створити технічні пристрої для розв’язання складних задач розпізнавання образів з підвищеною надійністю.
Мета дослідження — побудова математичної моделі нейронної мережі первинної зорової кори головного мозку людини або тварини з використанням
розподіленого кодування інформації та її використання в технічних системах розпізнавання креслярських специфікацій.
Поставлена мета досягається шляхом розв'язання такихзадан:
- вивчення проблеми кодування інформації в нейронних мережах людини і тварини, аналіз існуючих моделей нейронних мереж та підходів до кодування інформації в них;
- розробка та дослідження методу зсувного кодування інформації в моделях нейронних мереж персептронного тішу, при якому внутрішня структура коду не залежить від положеній об'єкта;
- розробка алгоритмів попередньої обробки зображень символів;
- дослідження задачі виділення інформативних ознак символів на зображенні;
- створення алгоритму навчання нейронної мережі розпізнаванню креслярських специфікацій;
- розв’язанім :йдачі розпізнавання окремих символів у креслярських специфікаціях, виділених в інтерактивному режимі;
- створення автоматичної системи розпізнавання креслярських специфікацій за допомогою нейронної мережі персептронного тішу.
Об'єктом дослідження є нейронні мережі. Предмет дослідження — моедлювання функцій первинної зорової кори головного мозку для розв'язання задач розпізнавання образів.
Методи досліджень базуються на методах математичного моделювання біологічних структур та експериментальному дослідженні їх властивостей, на методах розпізнавання образів. ■
Застосовується також евристичний підхід до побудови алгоритмів . обробки інформації.
- на основі вивчення проблеми кодування інформації в нейронних мережах людини і тварини, аналізу існуючих моделей нейронних мереж та підходів до кодування інформації в них створено модель нейронної мережі для розв’язання задачі розпізнавання стилізованих рукописних символів;
- розроблено та досліджено метод зсувного кодування інформації в моделяї нейронних мереж, при якому внутрішня структура коду не залежить від положення об’єкту;
полягає у тому, що
- розроблено ефективні алгоритми попередньої обробки зображень символів;
- виділено інформативні ознаки символів на зображенні;
- побудовано алгоритм навчання нейронної мережі розпізнаванню креслярських специфікацій;
- розв’язано задачу розпізнавання окремих символів у креслярських специфікаціях;
- створено автоматичну систему розпізнавання креслярських специфікацій за допомогою нейронної мережі персешроішого типу.
1.Створена математична модель нейронної мережі персептронного типу дозволяє будувати системи розпізнавання образів з підвищеною надійністю.
2.Розроблений метод зсувного кодування, що базується на принципі розподіленого кодування інформації в біологічних нейронних мережах, дозволяє відобразити зсув об’єкта на зображенні з високою точністю та зберегти кореляцію кодів об’єктів, що розміщені на зображенні близько один від одного.
3.Основні алгоритми обробки інформації, що використовуються в системі розпізнавання стилізованих рукописних символів, можуть бути представлені у вигляді функціонування спеціалізованих нейронних структур, що моделюють процес обробки інформації в окремих областях зорової кори головного мозку.
Особистий внесок автора у розробку наукових результатів, які виносяться на захист, полягає у тому, що:
-розроблено і досліджено модель нейронної мережі персешроішого типу та метод зсувного кодування інформації в ній, що дозволяє будувати коди ознак та об'єктів, інваріантні до зсуву об’єкта на зображенні та корельовані для близько розташованих об'єктів;
-розроблено та досліджено алгоритми попередньої обробки інформації, навчання та розпізнавання стилізованих рукописних символів;
-побудовано автоматичну систему розпізнавання креслярських специфікацій, що базується на розроблених алгоритмах.
Особистий внесок автора у роботи, виконані у співавторстві, полягає в математичному моделюванні нейронної мережі для задачі розпізнавання
образів, розробці алгоритму розпізнавання стилізованих символів та його програмній реалізації.
Теоретична та практична цінність. Розроблені математігша модель нейронної мережі та алгоритми обробки інформації в ній розширюють обсяг відомостей про різні способи представлення інформації у нейронних мережах.
Теоретична цінність роботи полягає в аналізі нових властивостей нейронних кодів, що дозволяють розпізнавати символи незалежно від їх положення на сітчатці, розв’язанні проблеми кореляції таких кодів для об’єктів, зміщення яких на зображенні невелике, можливості побудови двомірних та трьохмірних зсувних кодів.
Практична цінність полягає у тому, що розроблено конкретну систему розпізнавання рукописних символів на основі нового способу кодування інформації, у якій розв’язано багато прикладних проблем; проблема нормування товщини символів, проблема виділення рядків, вирівнювання рядків та символів у рядку, розділення злитих символів, проблема навчання нейронної мережі. Ця система може бути застосована для розв’язання реальних задач розпізнавання слів у креслярських специфікаціях.
Розроблена математична модель нейронної мережі та алгоритми обробки інформації в ній можуть використовуватись при розв’язанні задач розпізнавання складних сцен, акустичної та інших видів інформації.
дисертації отримано в рамках теми "Розробка принципів і методів представлення знань на різних ієрархічних рівнях нейроподібних систем" (реєстраційний номер 01944009547) (1994-1997рр.) та проекту 6.3.3/043-92 "Нейрокомп'ютер” державної науково-технічної програші 6.3.3 "Нейрокомп’ютер” (1992-1994 рр.), що виконувалися у Інституті кібернетики ім. В.М.Глушкова НАН України. Результати дисертаційної роботи було використано у НДР "Тема" в в/ч Е6133А. Розроблені методи та алгоритми використовуються в ІК НАНУ при розробці нейрокомп'ютерних систем розпізнавання образів.
дисертаційної роботи доповідались та обговорювались на Міжнародній конференції по проблемам моделювання в біоніці "Биомод-92" (Санкт-Петербург,1992), Першій Всеукраїнській конференції "Обробка сигналів і зображень та розпізнавання образів" (Київ, 1992), Третій Українській
Основні положення та результати
конференції по автоматичному керуванню "АВТОМАТИКА-96" (м. Севастополь, 1996) та щороку на Республіканському семінарі "Нейрокомп'ютери".
Публікації. За результатами роботи опубліковано 6 наукових праць.
Структура та об'єм роботи. Дисертація складається з вступу, 4 розділів, висновків, списку літератури з 120 найменувань та 1 додатку,' викладена на 115 сторінках машинописного тексту, містить 33 малюнки.
ЗМІСТ РОБОТИ
В першому розділі проводиться порівняльний аналіз моделей нейронних мереж різної складності, розглядаються їх переваги та недоліки. За їх допомогою моделюється робота нейронних мереж різних відділів головного мозку людини та тварини. Застосування аналогії з біологічними нейронними мережами дозволяє створювати технічні системи для розв’язання складних слабоформалізованих задач розпізнавання образів, які успішно розв’язуються людиною або твариною. Найбільш універсальними моделями нейронних мереж є персептрон та мережі зворотного розповсюдження помилки. Однак великий час навчання методом зворотного розповсюдження помилки та можливість попадання мережі у локальні мінімуми часто стоїть на перешкоді широкого використання цього методу у складних задачах штучного інтелекту в реальному часі.
Тому залишається актуальною проблема створення математичної моделі нейронної мережі для конкретної задачі, тобто вибору оптимальної структури нейронної мережі з точки зору швидкості роботи, складності розв’язуваної задачі та відносної простоти реалізації на ЕОМ. Враховуючи це, для розв'язання задачі розпізнавання креслярських специфікацій використовується нейронна мережа персептронного типу, що є простою для математичного моделювання на персональній ЕОМ та показала хороші результати при розв'занні прикладних задач.
Простий персептрон складається з одного шару штучних бінарних нейронів ("детектори ознак”), з'єднаних за допомогою вагових коефіцієнтів фіксованими зв’язками з множиною (матрицею) входів ("сенсорні нейрони"), а також бінарних нейроподібних елементів із зв'язками, що модифікуються (вирішальні елементи) (мал. 1). Кількість вирішальних елементів обирається рівною числу класів, на які необхідно розділити образи, що подаються
персептрону. Основною структурною одиницею в нейронних мережах с нейрон. Штучний нейрон, зображений на мал. 2, відображає властивості біологічного нейрона. На вхід нейрона подається вектор вхідних дій х, кожний компонент якого х. є виходом іншого нейрона. Вхідне збудження
NET нейрона визначається як зважена сума його входів.
NET=x*W,
де W - вектор вага зв'язків. Вихідний сигнал нейрона визначається за допомогою активаційної функції від вхідного збудження.
OUT=f(NET).
Мал.1. Персептрон з багатьма виходами.
Мал.2. Штучний нейрон з активаційною функцією.
Активаційна функція псрсептрона є бінарною пороговою функцією вигляду '
де Т - деяка стала величина.
Для навчання персептрона використовується дельта-правило. Корекція вага зв’язків для і -го нейрона у відповідності з цим методом навчання відбувається за алгоритмом:
де \у.(1+1) - значення і-ї ваш після корекції, - значення і-ї ваги до
корекції, <1 = 0-А - різниця між цільовим О та реальним виходом А, а її -коефіцієнт "швидкості навчання".
Нейронні мережі персептронного типу дозволяють успішно розв’язувати різні задачи розпізнавання образів. При цьому ефективність розв'язку задачі визначається, зокрема, типом кодування інформації в мережі.
В другому розділі розглядаються різні методи кодування вхідної інформації для нейронних мереж, що відносяться до розподіленого кодування, яке найбільш точно відповідає біологічному прототипу. Аналізуються переваги та недоліки багатопоплавкового та локальнозв’язного методів кодування, котрі використовуються в АПНМ. Перевагою локальнозв’язного та багатопоплавкового методів кодування є кореляція кодів близьких ознак або об’єктів. А до їх недоліків можна віднести необхідність формування різних кодів для різних положень одного й того ж об’єкта на зображенні. Пропонується новий метод кодування - зсувне кодування, при якому внутрішня структура кодів не залежить від положення об’єкта на зображенні. Алгоритм зсувного кодування базується на аналогії з функціонуванням первинної зорової кори головного мозку.
При реалізації зсувного кодування виникає проблема кореляції близьких значень ознак, яка розв’язана за допомогою наступного алгоритму.
Нехай ознака ґ представляється N-мірним двоїчним випадковіш вектором, у якому кількість одиничних елементів т значно менша від N. Стохастичний вектор £ можна представити у вигляді двомірного масиву, що містить в рядків по г елементів. Наприклад, шістнадцятирозрядний вектор
\у.(1+1)= ^'.(О+Ікіх.,
f = [0 O O 1 O 1 O O 10 0 0 0 1 o o]
можна представити у вигляді двомірного масиву:
"0 0 0 Г
0 10 0
1 0 0 0'
0 10 0
f =
(і)
При цьому r s=N.
Нехай ознака f приймає цілочисельне значення х.. Оскільки х. - ціле
число, то його можна представити у вигляді:
х. = k. -s+m.,
(2)
де к - ціла частина від ділення х на 8,а т - остача від ділення.
1 . 11
Тоді код ознаки (■, що має значення х., формується так: ш. рядків у
коді ознаки Г зсуваються на (к.+1) розрядів, а решта (з-т.) рядків
зсуваються на к. розрядів. Такий алгоритм кодування дає можливість
кодувати схожі ознаки корельованими векторами.
Для прикладу розглянемо коди ознаки Г, що прігіімає значення: хі=2; х2=3; х3=9. Відповідно до (2) для значення х( = 2 остача від ділення
х) на я рівна 2 (ш1 - 2), ціла частіша від ділення рівна 0 (к1 =0). Аналогічно
ш =3, к =0;
ш3 = 1, к3=2.
Код ознаки ґ, що приймає значення х = 2, отримаємо в результаті зсуву в початковому коді ознаки (1) т1 рядків на (к1 +1) розрядів, а (ї-п^)
рядків на kj розрядів. Таким чином,
0 0 0 0 0 0 10 10 0 0 0 10 0
Аналогічно код ознаки ґ, що приймає значення х2=3, отримаємо в результаті зсуву в початковому коді ознаки (1) ш2 рядків на (к2 +1) розрядів,
а решту (в-т ) рядків ;іа к2 розрядів, тобто 3 рядки зсуваються на 1 розряд, а останній рядок не зсувається:
*2 =
зсуву в початковому коді ознаки (1) одного рядка на 3 розряди, а решти трьох рядків - на 2 розряди:
0 0 0 0"
0 0 1 0
0 1 0 0
0 1 0 0
значення хз =
0 0 0 0
0 0 0 1
0 0 1 0
0 0 0 1
Представимо коди ї2, Гз знову у вигляді векторів:
Хі=2 *і = № 0 0 0 0 0 1 0 Гі 0 ¡0 1 0 0 1 0 01
х2=3 Ї2 = [0 0 0 0 0 0 1 0 і 0 1 1 ¡0 1 0 0 1 0 0]
х3=9 Сі = [0 0 0 0 0 0 0 1 “о"' ~б "■ 1 0 0 0 0 1]
Таке представлення кодів ознак визначає велику корельованість ознак, що приймають близькі значення (1Г та і , при цьому різниця у векторах
показана пунктиром), і некорельованість цих ознак з і .
При розв’язанні задачі розпізнавання креслярських специфікацій коди ознак розглядалися у вигляді трьохмірних двоїчних масивів з заданою ймовірністю появи одиниць у кожному елементі такого масиву тавк^гЦУЦХ], тавк [гЦУ](Х1, ... . їх можна представити у вигляді
паралелепіпедів розмірами X, У, Z. Ці масиви отримали назву масок ознак. На мал. З зображено маску ознаки у вигляді кубу. Таке представлення маски ознаки по формі аналогічне організації клітин первинної зорової кори головного мозку в орієнтаційні колонки.
Код ознаки, що має координати (х ;у ), формується за наступним
алгоритмом. Маска ознаки зсувається по осі ОХ наступним чином: Я шарів
зсуваються на (Е^+1) елементів; шарів зсуваються на Е^ елементів,
де та обчислюються за формулами:
Ех=Х,/Х>
Я = х,%Х,
X 1
тобто Е - ціла частіша від ділення х, на X; II - остача від ділення.
X ї х
Величини Е^ та беруться по модулю. В залежності від знаку величини х] зсув виконується в додатньому чи від’ємному напрямку осі ОХ.
Зсунута по осі ОХ маска ознаки аналогічішм чином зсувається по осі ОУ: шарів зсуваються на (Еу +1) елементів; (2-К^) шарів зсуваються на
Е елементів, де Е та Я обчислюються за формулами:
У У У
Еу=у>/¥’
КГУг%У,
тобто Е - ціла частина від ділення у, на У; Я - остача від ділення.
у - М У
Величини Еу га беруться по модулю.
За такім же алгоритмом зсуваються всі маски ознак в залежності від їх положення на зображенні. Код об’єкта формується як порозрядна диз’юнкція кодів всіх ознак, що складають даний об’єкт.
Таким чішом, якщо літера зсувається на зображенні в інше місце, то при зсувному кодуванні достатньо відповідно до цього зсунути її код і немає необхідності кодувати кожне нове положення ознаки, як при локальнозв’язному кодуванні.
У третьому розділі розглядається задача розпізнавання окремих символів (літер та цифр) у креслярських специфікаціях, що виділяються в інтерактивному режимі. Процес розв’язання задачі складається з наступних етапів:
• виділення символа на зображенні;
• скелетизація символа;
• потовщення символа;
• виділення ознак на зображенні;
• кодування;
• навчання;
• розпізнавання.
На екран виводиться зображення фрагменту креслення, введеного до комп'ютера за допомогою сканера. Оператор виділяє на зображенні окремий символ. Для приведення товщини символа до єдиного стандарту виконується спочатку' скелетизація символа, а потім його потовщення до певного розміру.
Експерименти показали, що інформативними ознаками є відрізки певної довжини, розміщені під різними кутами нахилу з інтервалом 15 ірадусів. Така процедура формування ознак відповідає організації клітин первинної зорової кори головного мозку в орієнтаційні колонки.
Виділення ознак відбувається наступним чином. Кожна ознака послідовно накладається на всі точки зображення і, якщо ознака співпадає з точками, що належать зображенню символа, на зображенні фіксується точка, яка відповідає даній ознаці (будемо говорити, що в цій точці присутня дана ознака).
Реально отримується ціла область точок, у яких присутня дана ознака. Якщо при розпізнаванні враховувати усі ці точки, то час розпізнавання істотно збільшується. Для зменшення кількості виділених точок використовується алгоритм, котрий залишає лише частину із ідах точок.
Точки, що відповідають усім виділеним ознакам, виводяться на одне і те ж зображення, в результаті чого отримується символ, складений із точок.
Виділені ознаки кодуються на основі алгоритму зсувного кодування, описаного у розділі 2. Отримані в результаті виконання такого алгоритму маски ознак об’єднуються в маску символа операцією порозрядної диз'юнкції.
Оскільки розмір ансамблю фіксований (ш нейронів), а в отриманій масці може міститися більше число активних нейронів, то їх кількість нормується для підтримки фіксованого числа активних нейронів.
Для розв'язання задачі розпізнавання окремих символів використовувалась модель нейронної мережі у вигляді одношарового персептрону розміром 8192 нейрона.
Для навчання системи пропонується використовувати наступну процедуру. На вхід мережі (див. мал. 1) послідовно подаються для розпізнавання маски літер у вигляді одномірних масивіз, на вихід мережі -імена літер. Якщо літера розпізнається неправильно, то її маска подається на навчання. При цьому у матриці зв'язків на перетині рядків з одиничними елементами у масці літери із стовпчиком, що відповідає імені істинної літери, вагові коефіцієнти збільшуються на одиницю, а на перетині рядків з одиничними елементами у масці літери із стовпчиком, що відповідає імені неправильно розпізнаної літери, вагові коефіцієнта зменшуються на одиницю.
Мережа навчається до виконання будь-якої з умов: 1) кількість помилок зменшується до наперед заданої величини; 2) кількість циклів навчання досягає наперед заданої величини.
Навчена мережа використовувалась для розпізнаванім символів, виділених в інтерактивному режимі. Ймовірність розпізнавання цифр складала 100% при об'ємі контрольної вибірки 100 цифр (при досягненні розміру нейронного ансамблю 500 нейронів), ймовірність розпізнавання літер - 93% при об'ємі контрольної вибірки 200 літер. •
Для повноти експерименту необхідно, щоб вибірка для навчання складалася з великої кількості літер, а виділення літер в інтерактивному режимі займає надто багато часу. Тому було розроблено автоматичну систему розпізнавати креслярських специфікацій, котра розглядається у четвертому розділі.
У процесі розв'язання зздзчі з.втомзтптіного читзння креслярських специфікацій можна виділити наступні етапи:
• виділення рядків з текстом; .
• вирівнювання рядків;
• виділення окремих символів;
• розпізнавання символів;
• створення інтерфейсу користувача.
Для розв'язання задачі використовуються папки креслярської документації, написаної на стандартних бланках, розграфлених горизонтальними лініями. Оіже рядок з текстом знаходиться між двома горизонтальними лініями. ,
При введенні зображення тексту до комп'ютера за допомогою сканера лінії, а відповідно і текст, розміщуються під невеликими кутами нахилу. Для покращення процесу розпізнавання такі рядки попередньо вирівнюються.
Для знаходження точного положення лінії та кута її нахилу будується лінійна регресійна модель за методом найменших квадратів:
^А0+АГХ.
У ролі п вибірок експериментальних даних (х,,у,), (х„,у„).....(х ,у )
II 2 2 а п
виступали центри тяжіння кожної із п частин, на які попередньо розбивалась лінія.
Отримана пряма найбільш точно апроксимує дану лінію на зображенні. Кут нахилу прямої приймається за кут нахилу даної лінії, а відповідно і рядка з текстом, розташованого над лінією. Потім рядок вирівнюється за рахунок повороту його на знайдений кут вверх чи вниз в залежності від величини куга.
Наступним етапом розв'язання задачі автоматичного читання креслярських специфікацій є видалення літер у рядку. Для більш точного виділення літер попередньо виконувалась процедура вирівнювання літер. У креслярському шрифті літери розміщуються під певним кутом нахилу. В результаті виконання процедури вирівнювання усі літери записуються без нахилу. При розв'язанні задачі вирівнювання літер застосовувався алгоритм, аналогічний до алгоритму виділення ознак, котрий ми використовували при розв'язанні задачі розпізнавання окремих літер, виділених в інтерактивному режимі, що описаний у третьому розділі.
У задачі автоматичного розпізнавання текстів виникає проблема розділення злитих літер, для розв'язанім якої застосовується наступний алгоритм. Визначаються проекції літер на горизонтальну вісь. Якщо довжина проекції літери більша ніж проекція найширшої літери на зображенні, то це означає, що літери злились, і їх потрібно розділити.
У вікно розмірами НхАУ, де Н - висота вікна, рівна висоті рядка з текстом на зображенні, \У - ширина вікна, рівна максимально можливій ширині літери, розміщується фрагмент рядка з текстом від лівої границі проекції літери до правої. Цей фрагмент подається на розпізнавання. В результаті розпізнавання визначається певна літера. По середній ширині цієї літери розділяємо літери у рядку. Під час навчання мережі формуються три масиви. В один записується для кожної і - ї літери кількість екземплярів N., котрі зустрілися при навчанні. В другий масив записуються сумарні ширини цих екземплярів для кожної літери 5.. В третій - середня ширина кожної літери, котра визначається діленням сумарної ширини екземплярів літери на кількість цих екземплярів:
с!і = Є, / Н.
Відділена таким чином по середній ширині літера знову подається на розпізнавання (контроль відділення). Якщо літера при цьому розпізнається невірно, то оператор, змінюючи розмір вікна, визначає істинну ширину літери. Середня ширина даної літери відповідно корегується, і дана літера записується у файл для подальшрго використання її при навчанні мережі. Потім у вікно записується наступна літера і виконуються аналогічні дії. При досягненні наперед заданої кількості помилок відбувається процес навчання мережі. У процесі навчання мережі використовуються усі літери, котрі розпізнавалися неправильно. Для розв’язання задачі розпізнавання літер застосовуються алгоритми скелетизації, потовщення літер, виділення ознак, зсувного кодувашія, навчання, що використовувалися при розв'язанні задачі розпізнавання окремих літер (розділ 3), виділених в інтерактивному режимі.
Система автоматичного розпізнавання креслярських специфікацій на основі нейронної мережі перссптронного типу розміром 8192 нейрони з використанням зсувного кодування була реалізована у вигляді комплексу програм. Проведені експерименти підтвердили ефективність запропонованих методів та алгоритмів.
Довжина навчальної вибірки у проведених експериментах збільшувалась до 1200 (використовувались різні варіанти написання символів). При цьому проводились експерименти по розпізнаванню символів, написаних різними почерками. Розмір нейронного ансамблю збільшувався, починаючи з 250 нейронів, при цьому зростав відсоток правильно розпізнаних символів. І при досягненні розміру нейронного ансамблю 650 нейронів ймовірність розпізнавання становила 98% при об’ємі контрольної вибірки 1000 символів. При подальшому збільшенні розміру нейронного ансамблю настає переповнення мережі та ймовірність розпізнавання падає. Результати розпізнавання рукописних стилізованих текстів підтверджують правильність вибраного підходу моделювання окремих функцій мозку та. ефективність запропонованих методів обробки інформації у технічній системах розпізнавання текстів.
РЕЗУЛЬТАТИ РОБОТИ ТА ВИСНОВКИ
1. При моделюванні нейронних мереж людини та тварини доцільно використовувати нейронні мережі персептрошюго типу та застосовувати розподілений спосіб кодування інформації в них.
2. За допомогою запропонованого методу зсувного кодування інформації можна будувати математичні моделі розподілених нейронних кодів, внутрішня структура яких не залежить від положення об’єкта. При такому методі кодування близькі ознаки та об'єкти кодуються корельованими векторами.
3. Розроблено ефективні алгоритми попередньої обробки зображень стилізованих рукописних символів.
4. Для розв'язання задачі розділення злитих символів доцільно застосовувати алгоритм навчання системи, що полягає в послідовному уточненні середньої ширини символа за рахунок операторное корекції ширини вікна для виділення символу. ■
5. Для розпізнавання стилізованих рукописних символів достатнім є набір ознак, що містить відрізки прямих ліній різної орієнтації. Алгоритм виділення таких ознак моделює роботу складних клітин первинної зорової кори головного мозку людини та тварини.
6. На базі розроблених алгоритмів створено, інтерактивну систему розпізнавання стилізованих рукописних символів, робота якої підтверджує ефективність розроблених алгоритмів.
7. Побудовано та реалізовано у вигляді програми систему автоматичного розпізнавання креслярських специфікацій на базі математичної моделі нейронної мережі людини з використанням розподіленого кодування інформації.
Основні результати роботи опубліковано в працях:
1. Лавренюк А.Н. О выборе информативных признаков для нейрокомпьютерного распознавания рукописных текстов// Нейросетевые технологии и нейрокомпьютеры. - Киев: Ин-т кибернетики им.В.М.Глушкова АН Украины, 1994. - С. 36-41.
2. Лавренюк А.Н. Применение нейронных сетей для распознавания надписей на чертежах// Нейрокомпьктшг. Вопросы теории и практики. -Киев: Ин-т кибернетики им.В.М.Глушкова НАН Украины, 1995. - С.24-31.
3. Лавренюк А.Н. Нейросетевая система для автоматического чтения чертежных спецификаций// Нейрокомпьютинг. Вопросы теории и практики. -Киев: Ин-т кибернетики им.В.М.Глушкова НАН Украины, 1996. - С. 28-35.
4. Куссуль М.Э., Лавренюк А.Н. Программно-аппаратный ассоциативнопроективный нейрокомпьютер// Тезисы докладов Международной конференции по проблемам моделирования в бионике "Биомод-92". - С.-Петербург, 1992. - С. 258-259.
5. Куссуль Н. М., Куссуль М. Е., Лавренюк А.М., Чумак В. В. Асоціативно-проективний нейрокомпьютер та деякі питання створення пристроїв для задач розпізнавши образів// Праці І Всеукраїнської конф. "Обробка сигналів і зображень та розпізнавання образів". - Київ, 1992. -
С. 209-210.
6. Лавренюк А.Н. Автоматическая система чтения чертежных спецификаций// Труды III Украинской конф. по автоматическому управлению "АВТОМАТИКА-96". - Севастополь, 1996. - т. 2. - С. 73.
АННОТАЦИЯ
Лавренюк А.Н.
Исследование нейросетевой системы распознавания чертежных спецификаций.
Диссертация (рукопись) на соискание ученой степени кандидата технических наук по специальности 05.13.02 - математическое моделирование в научных исследованиях, Институт кибернетики им. В.М.Глушкова НАН Украины, Киев, ¡997. ■
Защищается 6 научных работ, в которых содержатся теоретические и практические результаты по моделированию нейронных сетей и кодированию информации в них. Предложен метод сдвигового кодирования, разработаны алгоритмы предварительной обработки изображений стилизованных рукописных символов, обучения и распознавания. Разработана и реализована в ьиде программного обеспечения автоматическая сисгема чтения чертежных спецификаций.
Lavrenyuk A.N.
Investigation of neural network system for drawing specifications recognition.
Thesis (manuscript) for scientific degree of Candidate of Technical Sciences, speciality code 05.13.02 - Mathematical Modelling in Scientific Investigations, V.M.Glushkov Institute of Cybernetics, National Academy of Sciences of Ukraine, Kiev, 1997.
Six publications are defended containing theoretical and practical results on neural network modelling and coding of information in the networks. Shift coding method is proposed, algorithms for image pre-processing of drawing symbols, learning and recognition are developed. Automatic system for drawing specifications reading is developed and realised in software.
Ключові слова:
Нейронні мережі, розпізнавання символів, виділення ознак, кодування інформації, попередня обробка зображень, алгоритм навчання.
Підписано до друку 03. 03. 97. Формат 60x90 1x16.
Папір друкарський № 2* Друк офсетний*
Умов, друк* л* 1, 16, Ф2з, друк* л. 1, 25.
Замовлення 279. Тираж 100*
Вул. Суворова, 4/G, КОС, ,
-
Похожие работы
- Разработка и исследование коллективных нейросетевых алгоритмов дикторонезависимого распознавания речевых сигналов
- Синтез нейросетевой системы классификации динамических объектов
- Разработка и исследование нейросетевых алгоритмов управления стационарными и нестационарными объектами
- Разработка и исследование маршрута проектирования нейросетевого приложения с аппаратной поддержкой
- Применение нейрокомпьютеров для представления и визуализации статических и динамических трехмерных данных
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность