автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Программное обеспечение для многоуровневого структурирования контента информационного пространства по системной модели

кандидата технических наук
Бармин, Александр Александрович
город
Уфа
год
2014
специальность ВАК РФ
05.13.11
Автореферат по информатике, вычислительной технике и управлению на тему «Программное обеспечение для многоуровневого структурирования контента информационного пространства по системной модели»

Автореферат диссертации по теме "Программное обеспечение для многоуровневого структурирования контента информационного пространства по системной модели"

На правах рукописи

БАРМИН Александр Александрович

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ МНОГОУРОВНЕВОГО СТРУКТУРИРОВАНИЯ КОНТЕНТА ИНФОРМАЦИОННОГО ПРОСТРАНСТВА ПО СИСТЕМНОЙ МОДЕЛИ

Специальность: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов, компьютерных сетей

11 Ш 2014

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Уфа-2014

005556702

005556702

Работа выполнена на кафедре автоматизированных систем управления Уфимского государственного авиационного технического университета

Научный руководитель: доктор технических наук, профессор

КУЛИКОВ Геннадий Григорьевич

Официальные оппоненты: доктор физико-математических наук,

профессор

СПИВАК Семен Израилевич

ФГБОУ ВПО «Башкирский государственный университет», заведующий кафедрой математического моделирования

кандидат технических паук АНТОНОВ Дмитрий Вячеславович

ООО «Комплексные решения», ведущий программист

Ведущая организация: ФГБОУ ВПО «Башкирский

государствешшй педагогический университет им. М. Акмуллы», г. Уфа

Защита диссертации состоится 30 января 2015 г. в 1200 часов на заседании диссертационного совета Д-212.288.07 на базе ФГБОУ ВПО «Уфимский государственный авиационный технический университет» по адресу:

450000, г. Уфа, ул. К. Маркса, 12.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Уфимский государственный авиационный технический университет» и на сайте www.ugatu.su.

Автореферат разослан « 25 » ноября 2014 года.

Ученый секретарь диссертационного совета д-р техн. наук, доцент

И.Л. Виноградова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. В корпоративных информационных хранилищах, распределенных сетях, собраны терабайты данных, накопленных в результате работы корпоративных автоматизированных информационных систем. Эти данные можно рассматривать, с одной стороны, как сетевую среду для информационного поиска, с другой стороны, как источник данных для исследований. Наличие множества источников данных порождает необходимость разработки общих принципов работы с данными, представленными в различных форматах и способах представления, для обеспечения их эффективного использования в бизнес-процессах организации.

Современное информационное общество в процессе своего функционирования опирается на информационные технологии. Развитие средств вычислительной техники и программного обеспечения во многом опережает разработку математического аппарата, который лежит в его основе. Одной из актуальных задач яатяется выявление принципов, лежащих в основе функционирования программного обеспечения. Абстрактный объектно-ориентированный подход к разработке программного обеспечения схож с представлением предметной области с применением аппарата теории категорий, поэтому разумно использование аппарата теории категорий для представления модели предметной области, реализуемой в программном обеспечении.

Степень разработанности темы исследования. При решении указанных проблем в рамках диссертационного исследования использовались труды отечественных и зарубежных ученых, внесших значительный вклад в различные аспекты: в области системного проектирования и построения автоматизированных информационно-управляющих систем - A.B. Речкалов, Г.Г. Куликов; в области информационных моделей данных - В.В. Миронов, Н.И. Юсупова; в области общей теории систем — М. Хаммер, Дж. Чампи, В.М. Глушков, А.Г. Мамиконов, И.Ю. Юсупов, Б.Я. Советов, О.В. Козлова; в области моделей передачи данных - А.Х. Султанов; в области моделей защиты данных -В.И. Васильев; в области системной инженерии и проектирования архитектуры систем - И. Соммервил, Дж. Захман.

Информационное пространство организации включает в себя структурированные и неструктурированные информационные ресурсы, работа с которыми должна быть прозрачна для пользователя. В частности, требуются средства структурирования и классификации информационных ресурсов безотносительно к формату их представления. Для этого целесообразно использовать принципы и методы системного, многомерного и интеллектуального анализа данных с учетом структуры выполняющихся бизнес-процессов.

Актуальность обозначенной проблемы определила цель и основные задачи исследования.

Объектом исследования является математическое и программное обеспечение для структурирования контента информационного пространства на

основе моделей бизнес-процессов, заданных в атрибутивной форме во время исполнения.

Предметом исследования являются модели, методы, алгоритмы и программный инструментарий для структурирования контента информационного пространства в соответствии с моделями исполняемых бизнес-процессов.

Целью исследования является повышение эффективности исполнения бизнес-процессов за счет структурирования контента информационного пространства с использованием информационно-поисковых систем путем формирования поисковых запросов на основе моделей бизнес-процессов.

Задачи исследования

1. Разработка теоретико-множественной модели контента информационного пространства, отражающей многомерный характер контента, находящегося в гетерогенных хранилищах ограниченной области информационного пространства.

2. Разработка алгоритма формирования многомерного классификатора информационных ресурсов ограниченной области информационного пространства на основе семантического анализа их контента.

3. Разработка алгоритма формирования поисковых запросов для структурирования контента информационных ресурсов на основе онтологических данных системной модели выполняемого бизнес-процесса.

4. Разработка программного обеспечения, реализующего предлагаемые модели и алгоритмы.

Положения, выносимые на защиту:

1. Теоретико-множественная модель контента информационного пространства, отличительной особенностью которой является представление в атрибутивной форме данных гетерогенных хранилищ, что позволяет единообразно представлять контент как структурированных, так и неструктурированных информационных ресурсов, что обеспечивает их единообразную идентифицируемость и прослеживаемость на всех этапах жизненного цикла.

2. Алгоритм формирования многомерного классификатора информационных ресурсов, новизна которого заключается в использовании фасетного классификатора, отличительной особенностью которого является использование терминов онтологии системной модели в качестве фасетов, что позволяет идентифицировать и отбирать информационные ресурсы в соответствии с моделью выполняемого бизнес-процесса.

3. Алгоритм формирования поисковых запросов для структурирования контента информационных ресурсов, новизна которого состоит в формировании запроса во время выполнения. Отличительной особенностью предлагаемого алгоритма является использование атрибутивных моделей выполняемых бизнес-процессов для формирования критериев структурирования, что позволяет адаптировать программное обеспечение к изменениям бизнес-процессов без необходимости перепрограммирования.

4. Определен и разработан комплекс программных средств в рамках существующей ИТ-инфраструктуры для реализации разработанных моделей и алгоритмов в едином гетерогенном информационном пространстве, что позволяет сократить время подготовки документов и выполнения бизнес-процессов.

Научная новизпа результатов работы заключается в следующем:

1. Научная новизна теоретико-множественной модели контента информационного пространства заключается в единообразном представлении как структурированных, так и неструктурированных информационных ресурсов в рамках требований математической теории категории множеств, что обеспечивает их единообразную идентифицируемость, прослеживаемость и семантическую обработку перспективными программными средствами на всех этапах жизненного цикла

2. Научная новизна алгоритма формирования многомерного классификатора информационных ресурсов заключается в использовании фасетного классификатора и использовании терминов онтологии системной модели в качестве фасетов, что позволяет адекватно идентифицировать и отбирать информационные ресурсы в соответствии с системной моделью выполняемого бизнес-процесса существующими перспективными программными средствами.

3. Новизна алгоритма формирования критериев для структурирования контента информационных ресурсов состоит в интеллектуальном формировании запроса во время выполнения на основе атрибутивных моделей выполняемых бизнес-процессов, что позволяет адаптировать программное обеспечение к изменениям системных моделей бизнес-процессов без необходимости перепрограммирования.

4. Новизна разработанного программного обеспечения состоит в автоматизации предложенных теоретико-множественных моделей и алгоритмов, отличительной особенностью является однотипное использование разнородных источников данных. Использование разработанного программного обеспечения позволяет сократить время поиска, обеспечить прослеживаемость и идентифицируемость информационных ресурсов контанта для эффективного управления.

Теоретическую и практическую значимость представляют следующие результаты, полученные в ходе исследований:

1. Разработана теоретико-множественная модель контента информационного пространства, отвечающая требованиям математической теории категории множеств, обеспечивающая идентифицируемость, прослеживаемость и семантическую обработку как структурированных, так и неструктурированных информационных ресурсов за счет их единообразного представления в атрибутивной форме.

2. Предложен алгоритм формирования многомерного фасетного классификатора, позволяющий адекватно идентифицировать и прослеживать

связи контента информационных ресурсов в аспекте системной модели выполняемых бизнес-процессов.

3. Предложен алгоритм структурирования информационных ресурсов на основе семантического анализа их контента за счет использования онтологии системной модели бизнес-процессов для формирования критериев структурирования.

4. Разработано программное обеспечение, основанное на предложенных методах, позволяющее повысить эффективность процессов обработки, передачи и поиска данных и знаний в гетерогенном информационном пространстве.

Результаты работы внедрены в учебный процесс кафедры автоматизированных систем управления ФГБОУ ВПО «УГАТУ», а также в тиражную версию системы электронного документооборота «Логика СЭД» начиная с версии 3.3.1. Тиражная версия системы внедрена в Федеральное Агентство Водных Ресурсов Российской Федерации и используется совместно с системой межведомственного электронного документооборота.

Методология и методы исследования. Для решения поставленных задач в диссертационной работе был использован комплекс научных методов. При анализе и идентификации информационных ресурсов были использованы методы системного анализа, в качестве средства моделирования были применены методологии ЯАБТ (включая ГОЕБО и ГОЕР1Х), ВРМЫ и ИМЬ. При разработке прототипа программной системы были использованы методы объектно-ориентированного, модульного и системного программирования на основе многоуровневой клиент-сервеной архитектуры, а также как реляционная, так и многомерная (предполагающая денормализацию) методология организации хранилища данных на основе стандарта ГОЕР1Х. Для описания математической модели использована теория множеств и теория категорий. Для оценки эффективности и достоверности предлагаемых моделей использовались: верификация и тестирование программных средств, экспертные оценки и результаты обработки эксперимента.

Достоверность полученных результатов

Теоретические и практические результаты, полученные автором, докладывались на заседаниях кафедры АСУ, а также на 7 международных и всероссийских научно-технических конференциях:

— II международная конференция «Информационные технологии интеллектуальной поддержки принятия решений», Уфа 2014;

- XVI международный семинар «Компьютерные науки и информационные технологии», Шеффилд, 2014.

— VIII всероссийской зимней школы аспирантов и молодых ученых, Уфа 2014, Уфа 2013, Уфа 2012;

- П открытой городской научно-практической конференции школьников и студентов «Решение-2013», Пермь 2013;

-VII всероссийской молодежной научной конференции «Мавлютовские чтения», Уфа 2013, Уфа 2011;

- XXX международной научно-технической конференции «Математические методы и информационные технологии в экономике, социологии, образовании», Пенза 2012;

- XXXVII международной молодежпой научной конференции «Гагаринские чтения», Москва 2011;

Публикации. По теме диссертации опубликованы 19 печатных работы, из них 4 опубликованы в рецензируемых журналах из списка ВАК, остальные в других изданиях. Разработанное программное обеспечение защищено четырьмя Свидетельствами о государственной регистрации программ для ЭВМ №2013660840, №2014610730, №2013616126, №2014617480.

Структура и объём диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованных источников и приложений. Полный объем работы составляет 157 страницы. Работа содержит 36 иллюстрации по тексту, 7 таблиц по тексту, список использованных литературных источников из 107 наименований. Объем основного текста диссертации составляет 131 страницу.

Благодарности

Автор выражает благодарность канд. техн. наук, доценту Г.В. Старцеву, а также канд. техн. наук С.Ф. Бабаку за консультации при подборе материалов, а также за ценные советы при работе.

ОСНОВНОЙ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы исследования, сформулирована цель работы и решаемые задачи, научная новизна и практическая значимость выносимых на защиту результатов.

В первой главе выполнен обзор общих вопросов организации и управления контентом информационного пространства, проведен анализ существующих математических (формализованных) моделей информационного поиска, а рассмотрен подход к построению корпоративных приложений на основе многоуровневой объектно-ориентированной архитектуры, включая этапы программирования.

В рамках проведенного обзора введено понятие информационного ресурса и информационного пространства, приведена классификация информационных ресурсов по классам собираемой информации, форме собственности, способу доступа и другим признакам.

Также в рамках исследования рассмотрены вопросы организации и управлега1я контентом информационных ресурсов в корпоративной среде -введено понятие информационной системы, приведена классификация информационных систем по сфере применения. Особое внимание уделено корпоративны системам управления контентом - ЕСМ (enterprise content management systems). Корпоративные системы управления контентом не являются ушгеерсальным решением и значительная часть корпоративного контента находится в облачных хранилищах, таких как DropBox, Google Drive, OneDrive и других, которые также обладают функциями ЕСМ. Использование

разнородных источников данных и форм представления значительно усложняет задачу классификации, структурирования и идентификации контента информационных ресурсов, а также прослеживания их связей.

Данные, накапливаемые в процессе функционирования автоматизированной информационной системы могут стать ценной информацией только тогда, когда они легкодоступны и интерпретируемы в форме знаний. Использование информационно-поисковых систем и средств контентной аналитики позволяет обеспечить оперативный доступ к контенту информационных ресурсов, распределенным по различным узлам вычислительной сети и представленным в различных форматах на основе общих правил. Многие системы управления корпоративным контентом имеют встроенные механизмы информационного поиска, но обеспечивают идентификацию ресурсов и прослеживаемость их связей только в рамках одной системы. Также очень редко обеспечивается возможность формирования поисковых запросов в контексте моделей выполняемых бизнес-процессов. В связи с этим актуальным является выявление общих правил структурирования контента, определения границ области структурирования и выявления необходимых прецедентов на основе моделей выполняемых бизнес-процессов. При реализации проектов по построению информационно-поисковых систем и систем организации и управления контентом возникает ряд общих задач, независящих от предметной области - проектирование архитектуры программного обеспечения с учетом возможностей расширения и повторного использования разработанных компонентов, в связи с чем, обоснованным является использование типовых решений, применяемых при разработке программного обеспечения.

Все это обуславливает актуальность и значимость исследований в области математического моделирования процессов интеллектуального информационного поиска и разработки программных технологических решений по его реализации.

Во второй главе описан алгоритм структурирования контента информационного пространства в соответствии с системной моделью выполняемого бизнес-процесса.

Системная модель бизнес-процесса представляет собой совокупность моделей, каждая из которых описывает бизнес-процесс в различных аспектах: функциональном, информационном, динамическом, онтологическом. Каждая из моделей описывает определенный аспект рассматриваемого бизнес-процесса, но использование их совместно дает полное представление.

Каждая из моделей, входящих в состав системной модели по свойству вход-выход может быть представлена в виде ориентированного однодольного графа, включающего глоссарий. Рассмотрим функциональную модель бизнес-процесса в данном аспекте. Здесь вершинами выступают входы и выходы функциональных блоков, а ребрами - функции преобразования ресурсов. Так как функциональное моделирование строится на принципе декомпозиции, представление обладает следующими свойствами:

1. Ассоциативность: (Ли-Д,2)-ДП^А1,-(АП'Л13) , то есть возможна вариативность при декомпозиции, но результат не зависит от того, какие именно функциональные блоки будут декомпозированы.

2. Некоммутативность: А1 * з то есть результат выполнения процесса зависит от последовательности дочерних процессов.

3. Ресурсы могут быть как входами, так и выходами функциональных блоков.

Наличие этих свойств говорит о возможности представления модели бизнес-процесса в форме категории, где классом объектов выступают вершины графа, то есть ресурсы, а классом морфизмов — функции преобразования входных ресурсов в выходные. Также выполняются две необходимые аксиомы -операция композиции ассоциативна и тождественный морфизм действует тривиально.

ПрмижуняныА рмумтат]

_ футция» _

Ф-

Промежуточна* рмуяляг 2

Функция 1 ФуНМ1ИЛ2 •--♦

промежуточны! результат!

Проммуточямй pciyw*r3.Z

Представление в форме диаграммы в Представление в форме

нотации IDEF0 ориентировашюго графа

Рисунок 1 Представление системной модели бизнес-процесса в форме диаграммы в нотации IDEF0 и ориентированного графа по свойству вход-выход

В случае, если процессы предметной области предсташгены в форме категорий, то можно объединять их в более общую категорию. В этом случае обеспечивается единообразная идегггификация объектов модели и прослеживаемость их связей в рамках контента предметной области.

Описанные выше положения можно проиллюстрировать на примере системы управления корпоративным контентом «Логика СЭД». Система выполняет автоматизацию организационно-распорядительного

документооборота и функционирует на базе документоориентированной СУБД ШМ Domino. Здесь в качестве класса объектов выступают документы, а классом морфизмов являются решения участников процессов

документооборота. Каждый участник может делегировать выполнение своего решения другому участнику или создать собственное дополнительное согласование, обеспечивается возможность декомпозиции процессов с точки зрения участников. Один и тот же документ может в разных бизнес-процессах выступать в качестве входного ресурса и результата. Таким образом, каждый бизнес-процесс представляет собой категорию, а программное средство объединяет их в более общую категорию.

Также тождественную категорию можно выделить на онтологии. Представим онтологию в виде следующей модели: 0-(Т,R,F), где О — онтология, Т — термины онтологии, R - конечное множество отношений и F — конечное множество функций интерпретации. В этом случае классом объектов выступают термины, классом морфизмов - отношения между ниш. Термины онтологии также могут быть декомпозированы, порядок декомпозиции терминов имеет значение. В этом случае выполняются необходимые аксиомы для утверждения наличия категории. Пример с категорией на онтологии может быть проиллюстрирован на структуре глоссария LDEF0 модели или на интернет-энциклопедии «Википедия». В последнем примере в качестве терминов онтологии (объектов) выступают статьи, а в качестве отношений (морфизмов) - гиперссылки между ними. Каждая статья может являться, собственно, статьей, а может быть категорией с гиперссылками на дочерние уточняющие статьи.

Мы видим, что модели бизнес-процессов, их реализация в форме программного обеспечения и онтология могут быть представлены в форме категории. Так как они построены по общим правилам, то могут быть объединены в более общую категорию, что позволяет единообразно идентифицировать объекты и прослеживать их связи вне зависимости от формы представления. Данное положение позволяет сделать вывод, что можно обеспечить прослеживаемость связей между конкретными информационными ресурсами, участвующими в выполнении бизнес-процессов с использованием программного обеспечения вне зависимости от формы их представления, то есть идентифицировать как структурированные, так и неструктурированные информационные ресурсы. Также возможно структурирование контента информационного пространства под конкретный выполняемый бизнес-процесс.

Представим предметную область в виде совокупности программно-аппаратных комплексов и данных, созданных в процессе их функционирования: IS={<H,S,D>}-{<HÍ,SUD1>,<H2,S2,D1>,..., (1)

<H„S„Dt>)

Каждый экземпляр данных d¡BD представлен следующей

атрибутивной моделью:

D—[di,d1J...,di\,di=<enc, format, lahg,data> (2)

где etic - кодировка данных, format - формат их представления, lang — язык данных, data — содержимое.

Содержимое представлено следующей атрибутивной модель, состав атрибутов которой, в случае структурированных данных определяется моделью, в случае неструктурированных — содержимым:

¿аГа=(<Г,,п1) у,>,<с2,п2,у2>,...,<^,пру^1 (3)

где - тип ]-го атрибута, п1 - наименование ]-го атрибута, V, - значение ]-го атрибута.

Многомерный фасетный классификатор контента информационного пространства формируется на основе классов эквивалентности терминов контента информационных ресурсов, входящих в область информационного пространства. Для структурирования контента также необходимо представление модели бизнес-процесса в атрибутивной форме и выполнение поискового запроса к пространству на выделение необходимых ресурсов:

searchPart[dj,q,)=

1, если 3 LC(: (Lc> edj) л (LCi Gq,) О, иначе

М W

Result=search¡Q,ISj=^] searchPart (dj.qJ 1=0 j=0

(4)

(5)

где searchPart — функция, выполняющая проверку, удовлетворяет ли информационный ресурс dj части поискового запроса Я,, search — функция, выделяющая информационные ресурсы пространства IS, удовлетворяющие запросу Q.

На рисунке 2 приведено графическое представление описанного алгоритма

Рисунок 2 Представление алгоритма структурирования информационного пространства в виде блок-схемы

контента

В третьей главе представлена многоуровневая архитектура программного обеспечения для структурирования контента информационного

пространства на примере государственного учреждения и корпоративной системы управления содержимым «Логика СЭД» на платформе ЮМ Domino.

Структура информационного пространства системы управления содержимым представляет собой совокупность документо-ориентированных баз данных и приложений, реализующих выполнение организационно-распорядительных и межведомственных бизнес-процессов. Информационное пространство является открытым, так как взаимодействует с внешними системами и дополняется структурно-связанными системами управления контентом.

сэд

PTIWJVMI« |

OetgAcctíSÜbjKtí

Пакет элементов

поаьэоагтельаиуо

интерфейса

МяйЙГжчКоптЛег фреймюря

Modet-VtatbCorürollw фреймворк

Приложат*

Представление

I 1

Subfcrm Componente

Контроллер 1

«- ccfrtfoBefiYoces ♦ cqntreUcr.OpStoraee ♦ contro8er.Arártving ♦ contro8«r.£xecutloik + eartfcUef ,R*rtew •»cantrodefXhtóiton * contrcíter-Attach + _

Модам данных J

♦ DTStaff «-BTCcntrasef« ♦ ОТРвпоо «• DTConfigufatJüoDoc ♦ OTCorrespondent ♦ OTContrírt ♦ ШРпзсея

Доступ« ид |

♦ Nat MDocument + DTDocument ♦ LS:DO ♦ OD&CDS

Рисунок 3 Укрупненная диаграмма пакетов программного обеспечения для структурирования контента информационного пространства на платформе ЮМ Domino

В качестве модели управления качеством предоставляемого системой контента предложена модель, базирующаяся на цикле Деминга. Введем следующие обозначения: RK — множество возможных параметров управляющего воздействия, Тк (Rw) - функция, определяющая полезность данных, предоставляемых системой, Р„ - множество критериев отбора данных, С* (RJ — функция получения данных на базе управляющих параметров, ® -оператор тензорного произведения. Цикл состоит из следующих блоков: определение критериев семантической близости информационных ресурсов, извлечение нечетких прецедентов в соответствии с определенными ранее критериями, проверка релевантности результатов, корректировка критериев в соответствии с полученными результатами.

Тогда результирующие функции при прохождении цикла будут выглядеть следующим образом:

CK'(Rj=CK(Kj®«K (6)

Г/(Кк)=Гк(Як)®Як (7)

Рк'=Рк*Тк'{*к) (8)

Дх'=йк®Рк' (9)

Каждая стадия цикла начинается с блока "Определение критериев семантической близости информационных ресурсов". Данное действие выполняется пользователем на основе имеющегося у него опыта и знаний, а также согласно документированным процедурам и регламентам. На этом этапе пользователь формирует модель результата выполнения структурирования и на следующих этапах, сравнивая полученные результаты с собственной моделью, принимает решение о необходимости корректировки критериев и повторном выполнении. При этом происходит операция обновления управляющих параметров:

RK=RK\TK=TK',PK=PK',CK=CK' (10)

Решение о соответствии полученных результатов документированным процедурам и регламентам, а также решение о необходимости повторного структурирования принимается пользователем самостоятельно на основе его собственного опыта. Приведенная выше модель показывает итеративность данного процесса.

Также в главе рассмотрены подходы к построению многоуровневого корпоративного программного обеспечения на основе типовых архитектурных решений - паттернов проектирования, рассмотрен подход к описанию моделей предметной области с использованием объектно-ориентированного подхода и подхода, основанного на метаданных.

В качестве примера хранилища данных выступает документоориентированная СУБД ШМ Domino, идентификация и структурирование контента обеспечивается подсистемой информационного поиска, критериями для структурирования выступают модели бизнес-процессов, описанные с помощью CASE-средства IBM Domino WorkFlow Architect.

В четвертой главе описана программная реализация процесса структурирования информационного пространства с использованием корпоративной системы управления содержимым «Логика СЭД» На базе документоориентированной СУБД ШМ Domino.

Мнемосхема процесса структурирования контента информационного пространства системы электрошюго документооборота приведена на рисунке 4.

Программное обеспечение реализовано в виде приложения с трехуровневой архитектурой, каждый из уровней представлен отдельным пакетом классов. Состав пакетов:

1. Пакет классов, реализующих множество моделей объектов предметной области, в форме классов в объектно-ориентированном представлении предметной области. Данные объекты также обеспечивают связывание данных,

хранящихся в базе данных и данных, находящихся в свойствах экземпляров классов.

2. Пакет классов, реализующий реакцию на действия пользователей в графическом пользовательском интерфейсе. Также данные классы обеспечивают подготовку контекста и выбор представления для отображения результатов.

3. Пакет классов и шаблонов, реализующих пользовательский интерфейс. Серверная часть программного обеспечения реализована с

использованием объектно-ориентированных языков программирования LotusScript и Java, клиентская часть реализована с использованием объектно-ориентированного языка программирования JavaScript и библиотеки

Рисунок 4 Мнемосхема процесса структурирования контента информационного пространства с использованием подсистемы поиска СЭД

Для примера проведен анализ использования предложенных моделей и методов обработки и анализа. Анализ использования предложенных моделей и методов в государственном учреждении показал, что сокращается время поиска документов в рамках СЭД с 40 до 2 минут, также сокращается время заполнения карточек документов за счет использования контекстного поиска. Время поиска в толстом клиенте ШМ Notes сокращается с 10 минут до 7 мин, в тонком клиенте с 8 минут до 6 минут.

По оценкам экспертов, применение предложенных моделей для получения, обработки и анализа данных, необходимых для управления организационно-распорядительным документооборотом, позволило организовать оперативный поиск и снабжение лиц, принимающих решения необходимой информацией (процесс поиска вручную последовательно в

нескольких системах не мог обеспечить приемлемую оперативность его выполнения).

Кроме того, использование системных моделей бизнес-процессов в качестве критериев позволяет значительно повысить точность и полноту поиска за счет последовательного сужения области поиска заранее заданными параметрами.

Результаты оценки эффективности приведены в таблице 1. Таблица 1. Результаты оценки эффективности применения предложенных методов структурирования контента

Бизнес-процесс Без использования средств адаптации контента С использованием средств адаптации контента Изменение (прирост)

Заполнение карточек документов (мин) 10 7 30%

для тонкого клиента 8 б 25%

Поиск в информационном пространстве (мин) 40 2 95%

На основе данных, приведенных в таблице 1 видно, что наблюдается 25% сокращение времени на заполнение карточек документов.

Статистические данные получены на основе анализа протокольных файлов доступа к системе электронного документооборота за период с августа 2013 года по апрель 2014 года. Данные 2013 года были приняты за базовые, так как с января 2014 года была введена в промышленную эксплуатацию система электронного документооборота «Логика СЭД» версии 3.3.1.

Таким образом, прямой эффект выражен в сокращении «ручных» операций (снижение времени на поиск, синхронизацию и интеграцию информации, необходимой для управления, ее анализ), что достигается за счет применения методов и средств интеллектуального информационного поиска и формирования единого классификатора контента информационного пространства.

Таблица 2. Результаты оценки полноты, точности, аккуратности поиска

Показатель До использования предложенных методов После применения предложенных методов Изменение

Всего документов в коллекции 100 100

Найдено релевантных 46 68. 22

Найдено нерелевантных 20 7 -13

Не найдено релевантных 12 8 -4

Не найдено неревантных 22 17 -5

Полнота поиска. 0,79 0,89 0,10

Точность поиска 0,70 0,91 0,21

Аккуратность поиска 0,68 0,85 0,17 .

Показатель До использования предложенных методов После применения предложенных методов Изменение

Ошибка поиска 0,32 0,15 -0,17

К-мера 0,74 0,90 0,16

Также сокращение ручных операций значительно повышает точность и полноту предоставляемых данных, что имеет существенное значение для поддержки принятия управленческих решений.

Для оценки точности и полноты предоставляемых данных была подготовлена тестовая коллекция документов, на основе которой экспертами была оценена релевантность полученных результатов.

Результаты оценки показателей полноты, точности, аккуратности и ошибки приведены в таблице 2. Мы видим увеличение данных показателей на 10% для государственного учреждения. В среднем показатель точности поиска увеличился на 21% для рассматриваемых предметных областей. Использование предложенных методов повышает аккуратность поиска на 18%, что говорит о повышении достоверности полученных результатов относительно имеющихся данных. Использование предложенных методов позволяет сократить ошибки поиска на 18%.

Б-мера является интегральной метрикой, объединяющей полноту и точность поиска. Использование предложенных методов повышает интегральный показатель на 16% для государственного учреждения.

Таким образом, предложенные методы позволяют не только сократить время принятия решений за счет более оперативного предоставления информации, но и повысить качество предоставляемой информации за счет повышения ее точности и полноты.

В заключении изложены основные результаты работы.

В приложениях приведены: фрагменты исходного кода подсистем структурирования данных, фрагмент информационной модели информационного пространства кафедры, а также свидетельства о регистрации программных средств.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

В работе решена задача, имеющая научно-практическое значение, заключающаяся в разработке программно-инструментальных средств структурирования контента информационного пространства, находящегося в гетерогенных хранилищах, на основе моделей бизнес-процессов и получены следующие результаты:

1. Разработана теоретико-множественная модель контента информациошюго пространства, отличительной особенностью которой является представление в атрибутивной форме данных гетерогенных хранилищ. Модель позволяет единообразно представлять контент как структурированных,

так и неструктурированных информационных ресурсов в рамках требований математической теории категории множеств.

2. Предложен алгоритм формирования многомерного классификатора информационных ресурсов, новизна которого заключается в использовании фасетного классификатора, отличительной особенностью которого является использование терминов онтологии системной модели в качестве фасетов. Предложенный алгоритм позволяет идентифицировать и отбирать информационные ресурсы в соответствии с системной моделью выполняемого бизнес-процесса.

3. Предложен алгоритм формирование поисковых запросов для структурирования контента информационных ресурсов, новизна которого состоит в формировании запроса во время исполнения. Отличительной особенностью предлагаемого алгоритма является использование атрибутивных моделей выполняемых бизнес-процессов для формирования критериев структурирования, что позволяет адаптировать программное обеспечение к изменениям системных моделей бизнес-процессов без необходимости перепрограммирования.

4. Разработано программное обеспечение для распределенного гетерогенного информационного пространства, позволяющее повысить эффективность процесса обработки, передачи и поиска данных и знаний распределенной информационной среды за счет сокращения времени поиска, обеспечения идентфицируемости и прослеживаемости информационных ресурсов.

Перспективы дальнейшей разработки темы. В рамках дальнейших исследований планируется разработка методов и алгоритмов распределенной обработки данных для системы MediaWiki, а также разработка SOAP API, который позволил бы существенно упростить интеграцию новых систем.

ПУБЛИКАЦИИ, ОТРАЖАЮЩИЕ РЕЗУЛЬТАТЫ РАБОТЫ

В рецензируемых журналах из списка ВАК

1. Куликов Г.Г., Старцев Г.В., Бармин A.A., Бармина О.В. Методика интеграции информационно-поисковых систем и корпоративных информационных систем на основе системных моделей бизнес-процессов. // Прикладная информатика- 2014 -№ 1-е. 6-15.

2. Бармин A.A., Старцев Г.В., Куликов Г.Г., Бабак С.Ф. Идентификация слабоструктурированных информационных ресурсов в интеллектуальных системах управления на основе системных моделей и аппарата теории категорий. // Вестник УГАТУ - 2014 - №1 (62) - с. 122-130.

3. Бармин A.A., Старцев Г.В., Бабак С.Ф., Куликов Г.Г. Семантическая интеграция автоматизированных и поисковых систем в пространстве исследуемой предметной области на основе системных моделей и ролевой модели доступа. // Вестник УГАТУ - 2014 - №2 (63) - с. 85-92.

4. Бармин A.A., Бармина О.В., Старцев Г.В., Шилина М.А. Структурирование информационного пространства технического университета

с использованием процессного подхода и семантической идентификации // Вестник УМО, Экономика, статистика и информатика №3, 2014, с. 203-207.

Патенты и свидетельства о регистрации программ для ЭВМ

5. Свидетельство о государственной регистрации программы для ЭВМ №2013660840. Подсистема автоматизированной генерации документов по шаблону для системы управления содержимым веб-портала / Г.Г. Куликов, Г.В. Старцев, В.А. Суворова, Е.Е. Попкова, К.А. Конев, Г.Р. Шакирова, A.A. Бармин, О.В. Бармина. М. Роспатент. М: Зарег. в реестре программ для ЭВМ 20.11.2013.

6. Свидетельство о государственной регистрации программы для ЭВМ №2014610730. Подсистема информационного поиска для системы управления содержимым веб-портала / Г.Г. Куликов, Г.В. Старцев, В.А. Суворова, Е.Е. Попкова, К.А. Конев, Г.Р. Шакирова, A.A. Бармин, О.В. Бармина. М. Роспатент. М: Зарег. в реестре программ для ЭВМ 16.01.2014.

7. Свидетельство о государственной регистрации программы для ЭВМ №201361626. Система управления контентом локального веб-портала / Г.Г. Куликов, Г.В. Старцев, В.А. Суворова, A.A. Бармин, О.В. Бармина. М. Роспатент. М: Зарег. в реестре программ для ЭВМ 26.06.2013.

8. Свидетельство о государственной регистрации программы для ЭВМ №20140617480. Система интеллектуальной поддержки принятия решений для организационного управления проектами / Н.О. Никулина, A.A. Бармин, О.В. Бармина. М. Роспатент. М: Зарег. В реестре программ для ЭВМ 23.07.2014.

В других изданиях

9. Куликов Г.Г., Старцев Г.В., Бармин A.A., Бармина О.В. Многоаспектный метод семантического поиска в слабоструктурированном контенте информационного пространства. // Актуальные проблемы гуманитарных и естественных наук — 2014 - №5 (52) — с. 16-21.

10. Куликов Г.Г., Старцев Г.В., Бармин A.A. Подход к построению информационно-поисковых систем для систем электронного документооборота! // Актуальные проблемы в науке и технике. Том 1. Информационные и телекоммуникационные технологии. Сборник научных трудов восьмой Всероссийской зимней школы аспирантов и молодых ученых, 14-16 февраля 2013 г. - Уфа: УГАТУ, 2013. - 405 с.

11. Куликов Г.Г., Старцев Г.В., Бармин A.A. Подход к построению информационно-поисковых систем для систем электронного документооборота // Актуальные проблемы в науке и технике. Том 1. Информационные и инфокоммуникационные технологии. Сборник научных трудов восьмой Всероссийской зимней школы-семинара аспирантов и молодых ученых, 14-16 февраля, 2013 г. / Уфимск. гос. авиац. тех. ун-т. - Уфа: УГАТУ, 2013.-405 с.

Диссертант

A.A. Бармин

БАРМИН Александр Александрович

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ МНОГОУРОВНЕВОГО СТРУКТУРИРОВАНИЯ КОНТЕНТА ИНФОРМАЦИОННОГО ПРОСТРАНСТВА ПО СИСТЕМНОЙ МОДЕЛИ

Специальность: 05.13.11 — Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Подписано в печать 18.11.2014. Формат 60x84 1/16 Бумага офсетная. Печать плоская. Гарнитура Times New Roman. Усл. печ. л. 1,0. Уч.-изд. л. 0,9. Тираж 100 экз. Заказ № 562.

ФГБОУ ВПО «Уфимский государственный авиационный технический университет» Центр оперативной полиграфии 450000, Уфа-центр, ул. К. Маркса, 12