автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Модели и методы выявления закономерностей в информационном потоке на примере рукописного текста с целью установления его авторства

кандидата технических наук
Шаталов, Андрей Александрович
город
Тамбов
год
2015
специальность ВАК РФ
05.25.05
Автореферат по документальной информации на тему «Модели и методы выявления закономерностей в информационном потоке на примере рукописного текста с целью установления его авторства»

Автореферат диссертации по теме "Модели и методы выявления закономерностей в информационном потоке на примере рукописного текста с целью установления его авторства"

На правах рукописи

ШАТАЛОВ Андрей Александрович

МОДЕЛИ И МЕТОДЫ ВЫЯВЛЕНИЯ ЗАКОНОМЕРНОСТЕЙ В ИНФОРМАЦИОННОМ ПОТОКЕ НА ПРИМЕРЕ РУКОПИСНОГО ТЕКСТА С ЦЕЛЬЮ УСТАНОВЛЕНИЯ ЕГО АВТОРСТВА

Специальность 05.25.05 «Информационные системы и процессы» (технические науки)

8 АПР 2015

Автореферат диссертации на соискание ученой степени кандидата технических наук

Тамбов — 2015

005566936

Работа выполнена в Старооскольском технологическом институте им. А. А. Угарова (филиал) федерального государственного автономного образовательного учреждения высшего профессионального образования «Национальный исследовательский технологический университет «Московский институт стали и сплавов» (СТИ НИТУ МИСиС).

Научный руководитель

доктор технических наук, профессор Еременко Юрий Иванович

Официальные оппоненты:

Сербулов Юрий Стефанович,

доктор технических наук, профессор, ФГБОУ ВПО «Воронежская государственная лесотехническая академия», кафедра вычислительной техники и информационных систем, профессор

Шмырин Анатолий Михайлович,

доктор технических наук, доцент, ФГБОУ ВПО «Липецкий государственный технический университет», кафедра высшей математики, заведующий

Ведущая организация

ФГБОУ ВПО «Воронежский государственный технический университет»

Защита диссертации состоится 22 мая 2015 г. в 13 часов на заседании диссертационного совета Д 212.260.05 ФГБОУ ВПО «ТГТУ» по адресу: 392000, г. Тамбов, ул. Ленинградская, 1, ауд. 160.

С диссертацией можно ознакомиться в библиотеке и на сайте ФГБОУ ВПО «ТГТУ» www.tstu.ru.

Автореферат разослан 24 марта 2015 г.

Ученый секретарь диссертационного совета

Селиванова Зоя Михайловна

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы нсследоваппя. Экспертиза почерка является одной из самых распространенных и в то же время наиболее сложных и спорных экспертиз в плане объективности результатов. От эксперта требуется разносторонний подход, умение логически осмысливать и сопоставлять большое количество факторов, правильно применять и выбирать необходимые средства и методы исследования, оценивать их результаты как в отдельности, так и в совокупности. При этом эксперты часто совершают ошибки, а наибольший процент выводов о невозможности опознания личности приходится на этот вид экспертиз.

Это связано с тем, что почерк представляет собой сложный информационный поток, имеющий высоковариативную мультикомпонентную структуру. Он зависит от многочисленных факторов, в том числе от психофизиологических свойств пишущего, особенностей обучения письму и различных эпизодических условий внутреннего и внешнего характера. Невозможно также исключить ошибки экспертизы, потому что их наличие определяется опытом и физическим состоянием эксперта. Таким образом, результаты почерковедче-ской экспертизы в высокой степени зависят от субъективной оценки эксперта.

Ученые, занимающиеся вопросами информатизации, указывают, что применяемые в настоящее время методы для экспертизы почерка являются трудноформализуемыми и затрудняют использование современных вычислительных средств. Они используют устаревшие особенности прописей, поэтому некоторыми исследователями отмечается снижение адекватности почер-коведческих экспертиз. Для создания новых методов необходимо проводить сбор и обработку большого количества статистических данных, что представляется дорогой и трудозатратной работой. Рационально при помощи современных методов интеллектуальной обработки данных и высокопроизводительных вычислительных средств заменить или упростить работу эксперта-криминалиста, снизив влияние человеческого фактора при определении автора неизвестного текста, и увеличить его производительность труда, особенно при работе с большими потоками информации.

Таким образом, проблема автоматизации и объективизации результатов экспертизы почерка является актуальной и обуславливает выбор темы диссертационного исследования.

Степень разработанности темы исследования. В отечественной науке наиболее значимые результаты в области интеллектуального анализа и поиска скрытых закономерностей информационных потоков получены учеными: А. С. Комаровым, С. Д. Куликом, В. Н. Мальцевым, Р. М. Ланцманом, Э. Г. Хомяковым и др. Отдельные вопросы в области анализа почерка рассмотрены А. В. Кучугановым, Ю. Н. Павловым, А. С. Романовьм, Ю. Ю. Громовым и др. В зарубежной науке проблемами интеллектуального анализа текста занимались: D. Dasgupta, А. К. Muda, В. Huang.

Практическая задача состоит в повышении объективности экспертной оценки результатов анализа почерка и увеличении скорости экспертизы в условиях обработки больших массивов информации.

Научная задача заключается в создании эффективных алгоритмизируемых методов и процедур, пригодных для автоматического анализа информационного потока в виде почерковых данных.

Объект исследования: информационный поток со скрытыми закономерностями.

Предмет исследования: методы выявления закономерностей в информационном потоке рукописного текста.

Цель и задачи. Целью диссертационной работы является повышение эффективности процедуры выявления закономерностей в информационном потоке на основе разработанного иммунного метода мультиклональной селекции. Для достижения поставленной цели были решены задачи:

• проведен анализ существующих методов и подходов к решению проблем исследования и произведена оценка применимости аппарата искусственных иммунных систем к решению задачи выявления закономерностей в информационном потоке;

• разработан метод и процедурная модель для выявления автора неизвестного почерка на основе результатов анализа разновидностей иммунных процедур;

• разработана структурная схема информационной системы на основе полученной процедурной модели, позволяющей решать задачу выявления закономерностей в информационном потоке рукописного текста с целью определения его авторства;

• произведено опытное тестирование разработанного метода и оценена его эффективность по критериям оперативности, достоверности и ресурсоемкое™.

Научная новизна результатов диссертационной работы, выносимых на защиту:

1. Впервые для анализа почерка предложен метод на основе аппарата искусственных иммунных сетей, отличающийся скоростью анализа и качеством сходимости результатов, за счет наличия механизма выявления патологий иммунной системой живого организма, способного проводить мультипарал-лельный многоэкстремальный анализ данных в условиях высокой энтропии.

2. Предложен метод мультиклональной селекции, отличающийся механизмом одновременного анализа всех образцов неизвестного почерка и предоставляющий выборку вероятных авторов с информацией о сделанном заключении анализа.

3. Разработана процедурная модель, отличающаяся наличием оператора для автоматического определения оптимального количества антител и оператора анализа динамики изменения аффинности всей иммунной сети, а также остановки процедуры.

4. На основе разработанного метода мультиклональной селекции предложена функциональная схема информационной системы для анализа информационного потока рукописного текста.

Теоретическая н практическая значимость работы заключается в предложенной концепции создания информационной системы, реализующей разработанный метод мультиклональной селекции, предназначенной для решения задачи определения автора неизвестного почерка в почерковедении и смежных сферах деятельности. Разработанная программа может быть использована как средство сужения круга вероятных авторов исследуемых образцов почерка, особенно если речь заходит о больших базах данных.

Разработанные методы и процедуры могут быть применены в ряде систем, связанных с распознаванием графической информации и компьютерным зрением, так как имеют под собой общий механизм распознавания образов.

Результаты, полученные при моделировании и опытном тестировании иммунных процедур, могут быть использованы в дальнейших исследованиях по развитию иммунного аппарата.

Методы исследования. В работе используются методы системного анализа, дедукции и сравнения, объектно-ориентированного программирования.

Положения, выносимые на защиту:

1. На основе результатов анализа применимости методов искусственного интеллекта, для выявления закономерностей в информационном потоке рукописного текста установлено, что наилучшим способом решения поставленной задачи является иммунный аппарат, позволяющий решать задачи классификации больших объемов данных.

2. Разработан метод мультиклональной селекции, позволивший одновременно анализировать большие массивы образцов неизвестного почерка и производить исследование информационного потока рукописного почерка, как взаимосвязанной системы признаков.

3. На основе разработанного метода мультиклональной селекции предложена процедура решения задачи исследования и функциональная схема информационной системы для анализа информационного потока рукописного текста, позволяющая использовать подходы объектно-ориентированного и веб-программирования при разработке проблемно ориентированных программ.

4. Результаты исследования эффективности разработанного метода мультиклональной селекции, убеждающие в гарантированном попадании в заданный интервал установления авторства, не превышающий 5% от контрольной выборки.

Реализация и внедрение результатов работы. Основные теоретические и практические результаты диссертационной работы использованы при разработке программного модуля анализа рукописных данных с целью использования в составе программного продукта «АСУ УЗ Universys Web Server» ООО «ГИСОФТ», а также реализованы в виде информационных систем, что подтверждено тремя свидетельствами об официальной регистрации программ для ЭВМ №2013610807, 2013613885,2013615713, а также актом внедрения.

Основные результаты исследования применяются в учебном процессе кафедры АИСУ СТИ НИТУ МИСиС в ходе преподавания учебных дисцип-

лин «Интеллектуальные системы управления» и «Методы искусственного интеллекта», а также при подготовке учебного и методического материала по этим предметам.

Степень достоверности и апробация результатов. Степень достоверности обусловлена сходимостью результатов выявления закономерностей информационного потока рукописного текста, полученных с помощью разработанного иммунного метода мультиклональной селекции и результатов, полученных при проведении практических экспериментов.

Основные положения и результаты работы обсуждались на научных семинарах кафедры ЛИСУ СТИ НИТУ МИСиС, докладывались на 6 международных научно-практических конференциях: V Международная научно-практическая конференция «Наука в современном мире» (Таганрог, 2011); Современные сложные системы управления X (Старый Оскол, 2012); Актуальные вопросы современной науки (Санкт-Петербург, 2013); XII Международная научно-практическая конференция «Современное состояние естественных и технических наук» (Москва, 2013); П Международная научно-практическая конференция «Техника и технологии: роль в развитии современного общества» (Краснодар, 2013); XIII Международная научная конференция «Актуальные вопросы современной техники и технологии» (Липецк, 2013).

Диссертационная работа удостоена гранта и выполнена в рамках НИОКР по программе фонда содействия развитию малых форм предприятий в научно-технической сфере «УМНИК», а также под держана грантом РФФИ № 12-07-00252/12 по теме «Разработка методов и алгоритмов интеллектуального управления сложными технологическими процессами и системами в условиях стохастических возмущений» и хоздоговором ОАО «Проект электромонтаж» по теме «Исследование модели оператора» № 91 от 12.09.11.

Публикации. Результаты исследований опубликованы в 13 печатных трудах, в том числе 4 — в изданиях, рекомендованных ВАК при Минобрнауки РФ, 6 — в материалах международных конференций. Получены 3 свидетельства об официальной регистрации программ для ЭВМ.

Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка использованных источников, содержащего 130 наименований, и 6 приложений. Общий объем диссертации составляет 169 страниц, из них список используемых источников — 15 страниц. Основной текст работы содержит 33 рисунка и 7 таблиц.

Область исследований соответствует п. 1 паспорта специальности 05.25.05 «Информационные системы и процессы».

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении представлены актуальность выбранной темы, цель и задачи, научная новизна, теоретическая и практическая значимость работы, методы исследования, положения, выносимые на защиту, приведены данные

о степени достоверности и апробации результатов исследования, о публикациях, о структуре и объеме диссертационной работы.

В главе 1 «Анализ существующих методов в почерковедческой экспертизе» проведено исследование современных направлений и методов решения задачи определения автора неизвестного почерка. Обосновано применение методов искусственного интеллекта (ИИ), в частности, аппарата искусственных иммунных систем (ИИС) и проведена постановка задач исследования.

Анализ современных источников по вопросам выявления скрытых закономерностей в информационном потоке рукописного почерка показал, что наиболее востребованными являются задачи, связанные с определением автора неизвестного почерка. Установлено, что эти задачи относятся к классу некорректно поставленных задач. Однако их решение аналитическими методами, в том числе численными методами нецелесообразно, потому что создание адекватной универсальной аналитической модели почерка крайне затруднено из-за высокой энтропии объекта исследования.

Проанализированы известные методы автоматизированного определения автора неизвестного почерка, основанные на методах аналитического моделирования, а также статической и интеллектуальной обработки данных. Имеющиеся сведения говорят о недостаточном уровне достоверности этих методов при определении автора неизвестного текста. Кроме того, эти методики для получения достоверных результатов требуют большое количество образцов почерка, которые на практике не всегда возможно получить. Принцип работы этих методик предполагает наличие эксперта на этапе ввода га-формации о почерковых объектах или анализа данных, полученных в ходе исследования этих почерковых объектов, что привносит значительную степень субъективности в процесс определения автора почерка.

Было установлено, что для решения задачи исследования наиболее перспективными являются методы искусственного интеллекта, поскольку их возможности наиболее адекватно отражают аналитический образ работы мозга человека. В частности аппарат искусственных иммунных систем, основанный на принципе работы иммунитета живых организмов, сочетает в себе достоинства и гибкость нейронных сетей и мультиагентных систем. Он способен решать классификационные задачи и проводить многоэкстремальный анализ больших объемов данных. Применимость ИИС к решению задачи определения автора неизвестного почерка доказана ранее произведенными исследованиями А. К. Muda и S. М. Shamsuddin.

В связи с вышеизложенным ИИС, по нашему мнению, может являться основой для создания метода определения автора неизвестного почерка.

Глава 2 «Исследование характеристик и параметров искусственных иммунных сетей для решения задачи выявлепия закономерностей в информационном потоке рукописного текста с целью определения его авторства» посвящена исследованию методов ИИС, применительно к дис-

сертационной задаче. Разработана общая аналитическая модель ИИС в приложении к решаемой задаче. Описано и обосновано создание репрезентативной выборки образцов почерков для проведения экспериментального тестирования.

Для задачи определения автора неизвестного почерка общая аналитическая модель ИИС принимает следующий вид. Антитело или известный образец почерка в базе данных почерков (БД): At = <Mas, inf>; Mas = (gb g2, ..., — массив признаков (генов) или монохромное изображение размером к пикселей, где g е Z, g е [0; 255], 0 - черный пиксель, 255 - белый пиксель; inf— информация о владельце почерка в виде символьной строки. Антиген или неизвестный образец почерка: Ag = <Mas>. МР = {At} — БД образцов почерков. Степень схожести или аффинность Ag-At может быть вычислена при помощи манхэттенской метрики (1):

I

D = \, (1)

/=1

где I — количество элементов массива генов; at, — значение /-го гена текущего антитела At; agi — i-й ген антигена Ag.

Для изменения или мутации генов использована формула 2, полученная экспериментальным путем:

Pm(at,) = var ■ Datj - Km/D, (2)

где var - число, случайно принимающее значения 1 и —1 и определяющее направление мутации; Km — эмпирически установленный коэффициент (принят за 17 ООО); Dat. — аффинность между atj и /-м геном agi антигена Ag.

Для расчета количества клонов F(D) предложено использовать формулу 3, также полученную экспериментальным путем:

F(D) = n +1, (3)

100(Dmax —Ds)

где D - аффинность At-Ag; п - целое число (принято за 6), определяющее максимальное число клонов; Ds — средняя аффинность между всеми антителами и антигеном; Dmax - максимальная аффинность между антителом и антигеном, полученная на текущей итерации иммунной процедуры.

С помощью существующих методов статистической обработки информационного потока была рассчитана и сформирована репрезентативная выборка образцов почерков различных лиц. На основе этого каждому анкетируемому было предложено написать 50 раз предложение, состоящее из всех букв русского алфавита (панграмма): «Съешь же ещё этих мягких французских булок да выпей чаю». В итоге была получена база, насчитывающая образцы рукописных символов всего алфавита для 300 человек в возрасте от 20 до 45 лет, общей сложностью около 500 000 символов.

Применительно к задаче исследования программно были реализованы иммунные процедуры CLONALG, AINet и DCA, основанные на ведущих теориях, существующих в аппарате ИИС: клонального отбора, идиотипических сетей Эрне и теории опасности. А также произведено тестирование и исследование их свойств. Исследования производились на БД 40 лиц. Для опытов использовался компьютер с 2-ядерным процессором частотой 2,6 ГГц, 3 Гб ОЗУ.

Результаты, полученные при экспериментальном исследовании рассмотренных иммунных процедур, позволили выявить их особенности.

Графики на рис. 1 и 2 иллюстрируют результаты выявления автора неизвестного текста для процедур CLONALG и AINet, а также зависимость времени выполнения этих процедур от размера базы данных почерков. Точки на графике показывают положение искомого лица в списке вероятных авторов для сорока опытов, где в каждом опыте анализировался неизвестный текст, представленный одним образцом почерка.

Р о

£ с 3

О <0 ш

s: I Х4

У s о.

-е-о

к

=г та ¡

s а

п о

о h

С m

.................т^т- ~-ю-.......щ-........ ........... -»-'♦-i»..... ...... ■-w^-ww -i

............................4

»•.........-......—........-.....

S 10 15 20 25

Порядковый номе!> неизвестного почерка

■ AINet • CLONALG

Рис. 1. Сравнительные результаты анализа информационного потока для процедур CLONALG и AINet

Анализ результатов, полученных при тестировании процедур CLONALG и AINet, позволил сделать следующие выводы. Результаты AINet показывают, что искомый автор попал на первые, вторые и третьи позиции более чем в 80% случаев, а процедура CLONALG имеет худшие показатели. Оператор сжатия сети позволяет повысить качество анализа информационного потока рукописного текста AINet по сравнению с CLONALG. Однако недостатком этого оператора является низкая производительность, потому что его вычислительная сложность имеет квадратичную зависимость от размера популяции клонов.

Процедура AINet

Процедура CLONALG

Размер базы данных почерков, экз.

Рис. 2. Зависимость производительности процедур CLONALG и AINet от размера базы данных образцов почерков

Процедуры AINet и CLONALG отбирают определенное заранее количество антител (/V) и формируют популяции фиксированного размера, что не позволяет учитывать различные размеры БД, которые могут быть загружены для анализа. К каждой БД придется подбирать свое значение N для наиболее эффективного анализа почерка.

Механизм работы CLONALG и AINet позволяет проводить исследование неизвестного текста, используя только один образец почерка за одну итерацию работы процедуры. Результаты такой оценки не являются объективными, так как очевидно, что анализа одного образца для оценки всего почерка недостаточно.

Реализация метода бинарной классификации DCA, основанного на теории опасности, применительно к решению задачи определения автора неизвестного текста на данный момент не принесла положительных результатов. Однако при исследовании свойств DCA удалось адаптировать этот метод для решения задачи автоматического разделения рукописного текста на отдельные символы, которая в настоящее время не решена до конца, а существующие методы работают в рамках определенных ограничений. Нами были предложены процедура и программа, удовлетворительно решающие данную задачу сегментации.

На основе анализа полученных результатов можно сделать вывод о том, что иммунный аппарат даже в исходном виде позволяет решать задачу исследования, превосходя по качеству существующие аналитические методы. В процессе дальнейшего исследования иммунных процедур представлен ряд предложений, позволивших разработать иммунный метод мультиклональной селекции, в котором были устранены обнаруженные недостатки, а также было повышено качество работы и производительность процесса выявления автора неизвестного текста.

В главе 3 «Разработка метода и процедуры для решения задачи выявления закономерностей в информационном потоке рукописного текста» предложены новый метод и процедура для решения задачи выявления закономерностей в информационном потоке рукописного текста, основанные на результатах, полученных при реализации и исследовании процедур CLONALG, AINet и DCA. Рассматривается практическая реализация предложенного метода.

На рисунке 3 изображена блок-схема разработанной процедуры. Как в процедуре DCA, предлагается выбирать несколько образцов почерка вместо одного. Для этого изначальная процедура была дополнена внутренним циклом, который позволяет за одну итерацию для всех антигенов выбирать наиболее похожие антитела и формировать из них одну промежуточную популяцию TMP. Таким образом, появилась возможность проводить анализ образцов неизвестного почерка в совокупности.

Кроме того, предложено заменять МР на TMP, так как в TMP уже выбраны все интересующие антитела. Так быстрее достигается критерий выхода из основного цикла иммунной процедуры.

( Пуск )

Открыть начальную популяцию МР

! Ввести антигены Agn

7

Для

каждого антигена

>

Рассчитать аффиность, выбрать антитела At выше определенного порога

т

Клонировать выбранные At и мутировать их

з:

Отбор лучших антител в популяцию ТР. Удалить худшие

Добавить TP в популяцию TMP

Рассчитать разницу между средней аффинностью ТР на текущей и предыдущей итерации -Е

_£2

•Нет-

Заменить МР на TMP, очистить TMP

Е < Порога^З^->——Да—frj Оценка результата |

7= *

(__Останов )

Рис. 3. Блок-схема иммунной процедуры мультиклоналыюй селекции

Порог выборы! Pv, который рассчитывается по формуле 4, позволяет динамически определять количество антител, выбираемых в промежуточную популяцию TP, в зависимости от размера МР и аффинности к текущему антигену:

Pv = Dmm+(Dmix-Dmm)k, (4)

где Dm¡п — минимальная аффинность, полученная между At и Ag на текущей итерации процедуры; к - коэффициент, определяющий порог отбираемых антител в диапазоне от Dmm до £>тах (принят за 0,96). Применяя Pv, стало возможным за один проход по БД отобрать все интересующие антитела, а также исключить сортировку антител по аффинности к текущему антигену, как лишнюю машинную операцию.

Исследования также показали, что предложенные в ряде работ критерии выхода из основного цикла иммунной процедуры не дают необходимую

точность, поэтому предложена формула 5:

N<* /

e=YjPvl/NaR, (5)

¿=0 /

где Pv — порог выборки для МР; Nag — число антигенов, представленных для анализа в TMP. Условие выхода выполняется, если е] — — экспери-

ментально установленное значение, равное 0,5; J — итерация процедуры.

Кроме того, предложено при завершении работы метода формировать список вероятных авторов неизвестного текста, ранжированный по процентной доле веса 1¥р, которая рассчитывается по формуле 6:

= (6)

/ /=0

где IV — суммарная аффинность образцов почерка I для одного лица из финальной выборки клонов или вес вероятного автора; п — число почерков, попавших в финальную выборку клонов. Цель произведенного анализа считается достигнутой, если искомое лицо попало в список вероятных авторов. Такое решение позволило минимизировать реакцию иммунной процедуры на похожие варианты образцов почерка, принадлежащих лицам, не являющимся авторами исследуемого текста.

На основе предложенного метода разработана информационная система для определения автора неизвестного почерка (рис. 4 и 5).

; Получить нзобрс Отра*^ Спряакз - ~ Чч ч , ч ~ ~ , ч Л ч чч Л ч ееенне Сохранить базу образцов Изменить олини Обработать контекст Найти автора . Добавить антигены

с™ -О 5 41 Почерк №75|85 *а . . * -

>»,.,„,».«11 121 5. ■с^ем^.б г-х-е 9ггии,я. С)

Соединение с базой данных успешно. Инициализация иммунной сети завершена

Рис. 4. Интерфейс предложенной информационной системы

( Вывод ^. результатов у

(Вывод опций ] | Ввод Ч^_J | настроек

Интерфейс пользователя

|

Отчетные данные |

1 |

Графическое | представление | шаблона з Графическое изображение символа

1

Графический; файл |

Модуль обработки и формирования шаблонов антител

Модуль обработки результатов

Статические 1 данные :

Массив антигенов

Антитело

Модуль обработки

контекста ?-

Массив настроек

^ БД антител

ч ^...............

настроек

Г2-

Модуль настроек

Модуль организации взаимодействия между лимфоцитами

Рис. 5. Структурная схема предложенной информационной системы для анализа информационного потока рукописного текста

Система работает следующим образом. Пользователь открывает БД почерков и загружает в центральное окно образец текста неизвестного лица. Используя рамку выделения в центральной области, образцы почерка вносятся пользователем в окно Patterns. По завершении процедуры, выводится ранжированный список вероятных авторов неизвестного почерка.

В главе 4 «Исследование эффективности разработанной процедуры мультиклональной селекции в решении задачи выявления закономерностей в информационном потоке рукописного текста» проводится оценка эффективности разработанной иммунной процедуры.

Проведена серия опытов для оценки качества работы разработанной процедуры. Используя собранную БД, включающую 300 человек и дающую достаточную репрезентативность результатов, поочередно анализировали все неизвестные почерки. Для анализа были использованы образцы почерка, не включенные в базу данных. График на рисунке 6 иллюстрирует результаты анализа этих почерков.

На оси абсцисс отмечены неизвестные почерки. Точками на графике отмечена позиция искомого автора в списке вероятных авторов. Вероятность попадания искомого автора на первую позицию 58,3%, на вторую позицию 22,7%, на третью позицию 11%. Наихудшей позицией является позиция 12, что составляет диапазон 4% от используемой БД почерков, в который с точностью 100% попадает искомое лицо.

Для подтверждения размера гарантированного диапазона была проведена аналогичная серия опытов с использованием БД меньшей размерности. Результаты исследований показали, что уверенно можно говорить о 5%-ном интервале, в который обязательно попадает автор искомого текста.

SCG iso Ж»

Порядковый номер неизвестного почерка

Рис. 6. Результаты выявления автора неизвестного текста для процедуры мультиклональной селекции

На рисунках 7 и 8 представлены графики зависимости качества анализа информационного потока рукописного текста и производительности разработанного метода от размера БД и количества образцов неизвестного почерка, поданных на анализ.

11 X I

а в j

га го J

° Í о с -е-#15

5 и ;

птах Я1 Q. CL20 roo я £ ш s ffi 3

СС ГО а 25- _

IS Р ' I 1 '-1--■---1-

И „ ,5 6 Э

а | Число образцов неизвестного почерка, ¿¡- и поданных на анализ, экз.

Рис. 7. Зависимость качества определения неизвестного почерка от количества образцов, поданных на анализ

150 100 SC

Q.

CQ

Число образцов неизвестного почерка, иоданиых да анализа, экз.

.......33

. ----

--.J0

- • -5

.......^т"-ГТТ"Г 'Г|—Г-Т—V Т"!.....Г

Количество человек в базе данных почерков

Рис. 8. Зависимость времени выполнения процедуры мультиклональной селекции от размера базы данных почерков и количества образцов, поданных на анализ

Опыты проводились следующим образом. Как в предыдущем опыте, определялся автор всех неизвестных почерков, используя различное количество образцов, поданных на анализ и различный объем базы данных почерков.

На рисунке 7 на оси абсцисс отмечено число образцов неизвестного почерка, поданных на анализ. Гистограмма показывает средний диапазон, в который попадает искомый автор в каждой серии опытов. Из рисунка видно, что при увеличении количества образцов качество анализа растет, и при исследовании пяти образцов кривая входит в насыщение. Кроме того, как видно из графика на рис. 8, время анализа изменяется пропорционально количеству образцов почерков, поданных на анализ, и количеству человек в базе данных.

Из полученных зависимостей видно, наибольшая эффективность определения автора неизвестного почерка достигается при анализе 5-7 образцов этого почерка, поскольку увеличение количества образцов не повышает эффективность анализа, а ведет лишь к увеличению времени работы информационной системы.

Произведена сравнительная оценка эффективности разработанного метода и эксперта отдела почерковедческого анализа управления МВД Белго-

родской области. Ему было предложено определить автора неизвестного текста по пяти образцам почерка среди 300 анкет при помощи существующих стандартных методик, применяемых в почерковедческой экспертизе, а также при помощи разработанной информационной системы. График на рис. 9 иллюстрирует сравнительное время выполнения этой задачи для 30 опытов. Из графика видно, что эксперт выполняет задачу в 4—5 раз быстрее, используя разработанную информационную систему. Ему не приходится просматривать все анкеты, следовательно, исключается фактор утомления. На основе полученных данных можно сделать вывод о том, что разработанный иммунный метод позволяет эксперту работать быстрее и качественнее.

х \ _г—- - • информационной г_^ — _>»_ системы

________С использованием

""'** "' ' ' . — информационной

........ . , , . ¡-—-г " 1 1 : ' 1 : : системы

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29

Порядковый номер вензвестаого почерка

Рис. 9. Время определения автора неизвестного текста экспертом-криминалистом с использованием разработанной информационной системы и без нее

Произведена комплексная оценка эффективности разработанного метода в сравнении с наиболее известными методами выявления автора неизвестного почерка: ДСМ метода автоматического порождения гипотез, дифференциально-идентификационного метода (ДИА), нейросетевого метода и метода мультиклональной селекции (МСБ). Нормированные значения частных показателей эффективности представлены в табл. 1, где ноль соответствует лучшему значению показателя, а единица — худшему.

1. Нормированные значения частных показателей качества

Оперативность Ресурсоемкосгь Результативность

Среднее время выполнения анализа Затраты на программно-техническое обеспечение Среднее число элементарных операций Минимальное число образцов почерка для анализа Вероятность ошибки анализа Заключение о невозможности анализа

ДСМ метод 0,70 1,00 0,67 1,00 0,00 0,00

ДИА 1,00 0,00 0,00 0,00 1,00 1,00

Нейросеть 0,05 0,40 0,33 1,00 0,64 0,00

MCS 0,00 0,50 1,00 0,44 0,09 0,00

.100 1 80 S 60

1 40 I 20

При помощи аддитивной свертки получены значения обобщенного показателя эффективности для рассмотренных методов: ДСМ метод — 0,41; ДИА — 0,67; нейросеть — 0,45; MCS — 0,24, что говорит о достаточно высоких результатах.

В заключении сформулированы основные результаты работы и приведены следующие разработки:

1. Исследованы существующие подходы к решению задачи определения автора неизвестного почерка и установлено, что наиболее перспективными для решения этой задачи являются методы интеллектуального анализа данных, в частности аппарат ИИС.

2. Разработан метод мультиклональной селекции, сочетающий в себе достоинства процедур CLONALG, AINet и DCA и позволяющий проводить исследование почерка как взаимосвязанной системы признаков при помощи использования дополнительного цикла, дающего возможность анализа нескольких антигенов в совокупности. Оператор для динамического расчёта числа антител, выбираемых во временную популяцию, позволяет работать с базами данных произвольной размерности без предварительной перенастройки коэффициентов аналитической модели, что также позволило исключить сортировку, как избыточную машинную операцию, обязательную в классических иммунных процедурах.

3. Разработана структурная схема информационной системы для анализа информационного потока рукописного текста на основе разработанного метода мультиклональной селекции. На основе функциональной схемы построена проблемно-ориентированная программа для решения задачи исследования.

4. Гарантированный диапазон выборки, в который попадает автор искомого текста, составил не более 5%, при этом в 58% искомый автор оказывается на первом месте. Разработанная процедура хотя и не может абсолютно определить одного автора, однако значительно приближается к аналитическим способностям человека и существенно выигрывает у него по быстродействию, особенно если это касается больших объемов информации. По комплексному показателю эффективности за счет скорости и точности сходимости результата анализа разработанный метод превосходит известные методы определения автора неизвестного почерка минимум на 41%, а в среднем на 50,7%. Таким образом, можно сделать вывод о том, что цель исследования достигнута.

Рекомендации и перспективы дальнейшей разработки темы. Разработанный иммунный метод мультиклональной селекции целесообразно применять в организациях и учреждениях, деятельность которых предполагает автоматический или автоматизированный анализ почерка или использующих бумажный документооборот. В частности, разработанный метод можно рекомендовать к внедрению в Федеральной таможенной службе, Федеральной кадастровой палате и в целом ряде других учреждений и организаций, где требуется анализ рукописной информации.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, рекомендованных ВАК при Минобрнауки России:

1. Еременко, Ю. И. Исследование модификаций иммунных алгоритмов для решения задачи распознавания текстовых символов / Ю. И. Еременко, И. В. Мельникова, А. А. Шаталов // Системы управления и информационные технологии. - 2011. - № 2(44). - С. 81 - 85.

2. Еременко, Ю. И. Применение иммунных алгоритмов для разработки интеллектуальной системы поиска проектных решений в электронном архиве проектной документации / Ю. И. Еременко, И. В. Мельникова, А. А. Шаталов // Вестник ВГТУ. - 2011. - № 7(7). - С. 115 - 121.

3. Еременко, Ю. И. Иммунный алгоритм мультиклональной селекции в решении задачи идентификации почерка / Ю. И. Еременко, А. А. Шаталов // Научные ведомости БелГУ. - 2013. -№ 22(165). - С. 218 - 224.

4. Еременко, Ю. И. Построение интеллектуальной системы извлечения знания из электронного архива проектной документации на базе иммунного алгоритма мультимодальной оптимизации CLONALG / Ю. И. Еременко, И. В. Мельникова, А. А. Шаталов // Автоматизация и современные технологии. - 2014.-№ 3. - С. 17-24.

Публикации в периодически изданиях'.

5. Еременко, Ю. И. Распознавание изображений букв печатного текста с применением иммунных алгоритмов клонального отбора / Ю. И. Еременко, И. В. Мельникова, А. А. Шаталов // V Между нар. науч.-практ. конф. «Наука в современном мире» (H-VI). - Москва : Изд-во «Спутник +», 2011. — С. 177- 187.

6. Еременко, Ю. И. Анализ эффективности современных методов идентификации почерка / Ю. И. Еременко, А. А. Шаталов // Материалы 10-й междунар. науч.-техн. конф. «Современные сложные системы управления» (HTCS'2012). - Старый Оскол : СТИ НИТУ МИСиС, 2012. - С. 270-272.

7. Мельникова, И. В. Сегментация рукописных символов с использованием алгоритма дендритных клеток DCA / И. В. Мельникова, А. А. Шаталов // Актуальные вопросы современной науки : материалы VI Междунар. науч. конф. Секция «Информационные технолопш». - Санкт-Петербург: Изд-во «Айсинг», 2013 - С. 31 - 44.

8. Еременко, Ю. И. Разработка иммунного алгоритма для решения идентификационной задачи в почерковедении / Ю. И. Еременко, А. А. Шаталов // Техника и технологии: роль в развитии современного общества : сборник трудов II Междунар. науч.-практ. конф. - Краснодар : Изд-во «Априори», 2013.-С. 119-120.

9. Еременко, Ю. И. Метод мультиклональной селекции для решения идентификационной задачи в почерковедении / Ю. И. Еременко, А. А. Шаталов // Современное состояние естественных и технических наук: сборник трудов XII Междунар. науч.-практ. конф. (16.09.2013). - Москва: Изд-во «Спутник +», 2013. - С. 24 - 27.

10. Еременко, Ю. И. О разработке иммунного алгоритма для решения задачи идентификации почерка / Ю. И. Еременко, А. А. Шаталов // Актуальные вопросы современной техники и технологии : сборник трудов XIII Междунар. науч. конф. (25.10.2013). - Липецк: Издательский центр «Гравис», 2013. - С. 17-19.

Свидетельства о регистрации программ для ЭВМ:

11. Свидетельство о гос. регистрации программ для ЭВМ №2013610807 Российская Федерация. Программа для идентификации почерка / А. А. Шаталов ; заявка №2012660459; заяв. 29.11.2012; зарегистр. 9.01.2013. - Бюл. №5.-2013.-С. 856-857.

12. Свидетельство о гос. регистрации программ для ЭВМ №2013613885 Российская Федерация. Программа для исследования иммунных алгоритмов («Imalga») / A.A. Шаталов; заявка №2013611913/69; заяв. 05.03.2013; зарегистр. 17.04.2013 ; опубл. 20.06.2013.

13. Свидетельство о гос. регистрации программ для ЭВМ №2013615713 Российская Федерация. Программа для сегментации текста / А. А. Шаталов ; заявка №2013611924/69; заяв. 05.03.2013; зарегистр. 19.06.2013; опубл. 20.09.13.

Подписано в печать 19.03.2015. Формат 60 х 84/16. 0,93 усл. печ. л. Тираж 100 экз. Заказ № 136

Издательско-полиграфический центр ФГБОУ ВПО «ТГТУ» 392000, г. Тамбов, ул. Советская, д. 106, к. 14 Тел./факс (4752) 63-81-08, 63-81-33. E-mail: izdatelstvo@admin.tstu.ru