автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.12, диссертация на тему:Интеллектуальные методы организации архивов технической документации научно-производственного объединения
Автореферат диссертации по теме "Интеллектуальные методы организации архивов технической документации научно-производственного объединения"
На правах рукописи
005054105
РАДИОНОВА Юлия Александровна
ИНТЕЛЛЕКТУАЛЬНЫЕ МЕТОДЫ ОРГАНИЗАЦИИ АРХИВОВ ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ НАУЧНО-ПРОИЗВОДСТВЕННОГО
ОБЪЕДИНЕНИЯ
Специальность 05.13.12 — Системы автоматизации проектирования (промышленность)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
- 1 НОЯ 2012
Ульяновск — 2012
Работа выполнена на кафедре «Информационные системы» в Ульяновском государственном техническом университете.
Научный руководитель: доктор технических наук, профессор
Ярушкина Надежда Глебовна
Официальные оппоненты: доктор технических наук, профессор,
зав. кафедрой «Вычислительная техника» УлГТУ
Сосннн Петр Иванович
кандидат технических наук, главный конструктор ОАО «Ульяновское конструкторское бюро приборостроения» Ларин Кирилл Валентинович
Ведущая организация: ФГБОУ ВПО «Ульяновский
государственный университет»
Защита диссертации состоится «21» ноября 2012 г. в 12-00 на заседании диссертационного совета Д 212.277.01 при Ульяновском государственном техническом университете по адресу: 432027, г. Ульяновск, ул. Северный Венец, 32 (ауд. 211, Главный корпус).
С диссертацией можно ознакомиться в библиотеке Ульяновского государственного технического университета.
Автореферат разослан «19» октября 2012 г.
Ученый секретарь диссертационного совета, доктор технических наук, профессор
В.И. Смирнов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
В функции любого научно-производственного предприятия входит проектирование, разработка и поддержка научно-технической продукции. При создании своих решений предприятие опирается на современные средства и методы обработки информации в рамках корпоративной информационной системы предприятия (КИСП). Одним из центральных звеньев в построении эффективной КИСП является автоматизация деятельности службы архивов технической документации предприятия, обеспечивающих выполнение всего комплекса работ по учету, хранению, тиражированию и обращению технической документации.
Большой объем технической документации, необходимость постоянных корректировок и новых разработок, присущие опытному производству, увеличивает объем работы и усложняет задачи архивных служб. Также проблемой является наличие большого количества бумажных документов.
Правильно организованная система хранения документации не только позволяет ускорить и оптимизировать работу сотрудников архивов и объединить разнородные архивы в единую информационную систему, но и предоставить оперативный доступ к информации архивов всем сотрудникам предприятия.
Информация архива должна быть достоверной и актуальной, необходимой частью архива является система контроля за достоверностью и целостностью информации.
Процесс предоставления доступа к информации должен опираться на систему правил разграничения доступа, которая является следствием не субъективного восприятия сотрудника-архивариуса, а утвержденной на предприятии системы доступа к документации.
Также в настоящее время все более актуальным становится организация архива не только как совокупности архивных единиц - документов, но и как общей базы знаний предприятия, позволяющей сохранить опыт разработчиков документов и осуществлять поиск информации по содержанию документов.
Таким образом, предметом исследования в данной работе является создание автоматизированной информационной системы архива технической документации, включенной в систему электронного документооборота службы технической документации и в общую информационную систему предприятия и снабженной некоторыми интеллектуальными методами организации информации.
Объектом и материалом исследования послужили архивы, а также общая система учета, хранения и изготовления документации отдела технической документации ФНПЦ ОАО «НПО «Марс».
Актуальность темы
В результате анализа рынка программного обеспечения стало понятно, что на момент постановки задачи автоматизированной системы, удовлетворяющей большинству предъявляемых требований, не существовало. Современные системы электронного документооборота и архивов рассчитаны, в основном, на организационную документацию и не учитывают многи
требований, обязательных для конструкторской и программной документации. Отсутствует организация архива не только как совокупности архивных единиц - документов, но и как общей базы знаний предприятия, позволяющей сохранить опыт разработчиков документов и осуществлять поиск информации по содержанию документов. При построении архивов в данных системах не решен вопрос автоматической классификации технической документации. Отсутствуют какие-либо интеллектуальные методы организации информации. Таким образом, организация архивной системы с применением интеллектуальных методов классификации и кластеризации является актуальной темой в настоящее время. Основы современной теории кластеризации излагаются в трудах таких ученых, как С. Макнаотон, Гюстафсон, Кессель, Т. Кохонен, Г. Болл, Д. Холл, Дж. Мак-Кин, Г. Ланс, У. Уильяме, М. Жамбю, Г. Миллиган, М. Брюинош, Р. Дженсен, X. Фридман, Дж.Рубин, Н.Г. Загоруйко, В.Н. Елкина и других. Основы построения интеллектуальных САПР рассмотрены в трудах Хилла П., Дж. Джонса, Норенкова И.П., Борисова А.Н. и др. Основы классификации документации рассмотрены в трудах Ч. Мидоу, Дж. Солтона. Современное архивоведение (в том числе и зарубежное) подробно рассмотрено в трудах Е.В. Старостина, Е.В. Булюлиной и др.
Цель диссертационной работы
Целью работы является исследование и разработка эффективных механизмов интеллектуальной организации информации в автоматизированном архиве технической документации.
Задачи исследования
В соответствии с целью работы необходимо решить следующие задачи:
1. Провести сравнительный анализ современных систем электронного документооборота и электронных архивов, возможностей существующих информационно-поисковых систем, принципов разграничения прав доступа.
2. Разработать структурно-функциональное решение программной системы архива технической документации и алгоритм автоматической экспертной классификации документов, основанный на структуре архива. Включить систему архива в систему электронного документооборота отдела технической документации и общую информационную систему предприятия.
3. Рассмотреть возможности алгоритмов кластеризации, в том числе нечеткой, на массиве технической документации. Разработать методику оценки эффективности применения алгоритмов кластеризации для классификации технической документации. Разработать модель интеграции алгоритмов кластеризации для системы архива технической документации.
4. Разработать модель разграничения прав доступа к документации архива в общей информационной системе предприятия, основанную на экспертной классификации и организационной структуре предприятия, включить разработанную модель в программную систему архива.
Методы исследования
Для решения поставленных задач использовались следующие методы исследования: теория кластеризации, метод экспертной оценки специалистов, объектно-ориентированный подход при создании комплекса программ.
Научная новизна
1. Методика экспертной оценки результатов работы алгоритмов кластеризации на массиве технической документации.
2. Модель интеграции алгоритмов кластеризации для системы архива технической документации.
3. Интегрированный алгоритм кластеризации технической документации.
4. Модель разграничения прав доступа к документации, основанная на экспертной классификации документации и организационной структуре предприятия.
5. Структурно-функциональное решение программной системы архива технической документации, включающее в себя алгоритм автоматической экспертной классификации и подсистему разграничения прав доступа.
Достоверность результатов диссертационной работы
Достоверность научных положений, выводов и рекомендаций подтверждена результатами вычислительных экспериментов, а также результатами использования разработанных алгоритмов и методик в повседневной работе отдела технической документации и общей информационной системе ФНПЦ ОАО «НПО «Марс».
Теоретическая значимость работы
Теоретическая значимость работы заключается в разработке: методики оценки эффективности применения алгоритмов кластеризации на массиве технической документации; модели интеграции алгоритмов кластеризации; интегрированного алгоритма кластеризации технической документации; модели разграничения прав доступа, основанной на экспертной классификации документации и структуре предприятия; структурно-функционального решения программной системы архива, содержащей алгоритм автоматической экспертной классификации и подсистему разграничения прав доступа, и включенной в общий электронный документооборот предприятия.
Практическая значимость работы
Разработанная система ЭДО и архива используется в работе отдела технической документации ФНПЦ ОАО «НПО «Марс» и позволяет организовать более эффективную работу сотрудников отдела. Система разграничения прав доступа используется в общей информационной системе ФНПЦ ОАО «НПО «Марс», обеспечивая оперативный и удобный доступ к информации архива для всех сотрудников предприятия.
Реализация результатов работы
Результаты работы оформлены в виде комплекса программных приложений и программной документации «Автоматизированная система управлением отчетностью и выполнением работ отдела технической документации» АБЕИ.97630.001, отчетов и программного обеспечения по х/д НИР №100/05 УлГТУ по заказу ФНПЦ ОАО «НПО «Марс».
Апробация результатов исследования
Основные положения и результаты диссертации докладывались, обсуждались и получили одобрение: на всероссийской научной конференции с международным участием «Нечеткие системы и мягкие вычисления» (Ульяновск, 2008), на одиннадцатой национальной конференции по искусственному интеллекту КИИ-2008 с международным участием (Дубна, 2008), на У-й Международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2009), на двенадцатой национальной конференции по искусственному интеллекту КИИ-2010 с международным участием (Дубна, 2010), на семинаре с международным участием «Интеллектуальный анализ временных рядов» по результатам НИР, поддержанной ФЦП, проект №02.740.11.5021 (Ульяновск, 2010), на молодежной научно-практическая конференция «Автоматизация процессов управления» (Ульяновск, 2011). Апробация результатов диссертации осуществлялась в работе над системой архивов ФНПЦ ОАО «НПО «Марс». Основные положения и результаты неоднократно докладывались и обсуждались на научно-технических конференциях УлГТУ «Вузовская наука в современных условиях».
Публикации
По теме диссертации опубликована 21 работа, в том числе 3 в журналах из перечня, рекомендованного ВАК РФ.
Личный вклад
Все результаты, составляющие содержание диссертации, получены автором самостоятельно.
Структура и объем работы
Диссертационная работа состоит из введения, четырех глав и заключения, содержит 224 страницы машинописного текста, 11 таблиц, 71 рисунок, список литературы из 140 наименований, 6 приложений.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении рассмотрена актуальность создания автоматизированных архивохранилищ, формируются цель и задачи работы, определяются теоретическая значимость и практическая ценность исследования, а также структура работы, сформулированы положения, выносимые на защиту.
В первой главе рассмотрены основные понятия и типы информационно-поисковых систем, виды классификаций документов, история и способы организации архивов.
Приведено краткое описание используемых в работе алгоритмов автоматической кластеризации, обоснована возможность использования рассмотренных алгоритмов при организации поисковой системы архива электронной документации.
Рассмотрены модели разграничения прав доступа, используемые в современных СУБД и системах защиты информации, сформулированы требования к системе разграничения доступа архива электронной документации.
Сформулированы общие требования к организации учета и хранения технической документации научно-производственного объединения.
Проведен сравнительный анализ существующих (из наиболее известных) систем электронного документооборота и электронных архивов. Рассмотрена возможность применения данных систем для архива технической документации научно-производственного объединения.
Сделаны выводы, что существующие системы электронного документооборота и электронных архивов не подходят в полной мере для создания основного архива технической документации НПО.
Сформулированы требования к системе архива технической документации научно-производственного объединения.
Вторая глава посвящена разработке системы архива технической документации, удовлетворяющей сформулированным требованиям и содержащей алгоритм автоматической экспертной классификации технической документации, а также исследованию эффективности применения алгоритмов автоматической кластеризации на массиве технической документации.
В первом разделе описывается разработанный алгоритм выделения классификационных признаков документа с точки зрения организации архива, приведено обоснование выбранных принципов классификации.
Во втором разделе описывается разработанная методика оценки качества работы алгоритма автоматической кластеризации (рисунок 1). Для оценки эффективности алгоритмов автоматической кластеризации необходимо сделать вывод о том, насколько близко разбиение массива документации в результате кластеризации к разбиению этого же массива, полученному в результате экспертной классификации. Необходимо объединить в единую структуру разнородные данные различных алгоритмов кластеризации и разработать алгоритм построения оценочной функции результатов. Далее необходимо сформировать несколько различных массивов технической документации, провести экспертную классификацию каждого массива и провести эксперименты по автоматической кластеризации массивов, используя различные алгоритмы с различными параметрами. На основании данных экспериментов, используя формулу оценочной функции, сделать выводы об оптимальных параметрах каждого алгоритма и об оптимальной «нише» использования каждого алгоритма кластеризации.
Рисунок 1 Схема оценки эффективности применения алгоритмов автоматической кластеризации
Введем следующие обозначения:
К - разбиение массива документов, полученное в результате экспертной классификации;
К- разбиение того же массива документов, полученное в результате работы алгоритма автоматической кластеризации;
К' - множество документов, входящих в ¡-й класс согласно экспертному делению;
/ = 1 ,п - номер класса, п — количество классов эксперта;
К'- множество документов, входящих в .¡-й кластер согласно автоматическому разбиению;
j = l,l - номер кластера, / - количество кластеров автоматической системы.
Будем считать кластеризацию тем более качественной, чем ближе разбиение ¿кразбиению К.
Устанавливаем пары расчета максимального совпадения
элементов множеств К' и К'.
Далее необходимо удалить одинаковые элементы из обоих множеств. В результате получаем:
где К1 и К'г - редуцированные множества документов экспертной классификации и автоматической кластеризации, / = 1,шах(и,/).
В результате можно получить формулу целевой функции, формализующую качество кластеризации, используя два критерия: отсутствие документов в кластере (то есть количество документов, которые должны быть
в кластере, но отсутствуют в нем - и наличие «лишних» документов в кластере / =а-|^| + (1 —где а = 0,1 - коэффициент важности
критерия, / = 1,тах(л,/) - номер кластера.
Для того чтобы убрать зависимость значения целевой функции от количества кластеров в эксперименте, значение целевой функции нормируем:
^ тах(|^|,|£;|)
Чем меньше значение целевой функции, тем более качественным является результат кластеризации.
Далее приводится описание структур данных экспертного классификатора и алгоритмов автоматической кластеризации Кохонена, БСМ и генетического, приведение данных к единому формату для последующего построения матриц соответствия. Структура матриц соответствия определяется следующими полями:
1) коё ехр - код кластера экспертной классификации;
2) kod_avt - код кластера автоматической классификации;
3) count_eq - количество документов принадлежащих обоим кластерам;
4) exp all - количество документов, принадлежащих кластеру экспертной классификации;
5) avt_all - количество документов, принадлежащих кластеру автоматической классификации.
Каждая строка матрицы формируется для кластера экспертной кластеризации N и кластера автоматической кластеризации М. По сформированным матрицам соответствия вычисляется значение оценочной функции для каждого типа экспертной классификации и каждого эксперимента автоматической кластеризации:
select sum((alpha*(exp_all-count_eq)+(1- alpha)*(avt_all-count_eq))/max(exp_all-
count_eq,avt_all-count_eq))
as resjunctlon from resMatrix<NNN>
Alpha — коэффициент важности критерия (от 0 до 1). Для получения значения целевой функции для эксперимента в целом значения целевой функции для каждой пары класс - кластер суммируются. В качестве нормирующего коэффициента в процессе проведения экспериментов были взяты различные комбинации параметров и среди них выбран оптимальный.
В третьем разделе описывается модель интеграции алгоритмов кластеризации, разработанная на основании проведенных экспериментов по оценке качества алгоритмов.
Для полноты проводимых экспериментов было необходимо обеспечить вариативность используемых параметров. Для алгоритма Кохонена в процессе проведения экспериментов изменялось количество нейронов, радиус активации, множитель нормы обучения. Полученная зависимость количества получаемых кластеров от параметров использовалась для формирования экспериментов с количеством кластеров, близким к количеству классов экспертной классификации. Количество нейронов варьировалось от 4 до 13, значение множителя нормы обучения - от 0.3 до 0.9, радиус активации взят равным 2. Для двух этапов проведено в общей сложности 57 экспериментов, по результатам которых сделаны следующие выводы:
1) количество кластеров, получаемых в результате работы алгоритма, находится в прямой зависимости от количества нейронов и в обратной зависимости от нормы обучения и множителя нормы обучения;
2) лучшие значения оценочной функции при сравнении с экспертной классификацией с малым количеством классов дают эксперименты с наибольшим количеством получившихся кластеров (при одинаковых значениях количества кластеров лучший результат получается при более высоких значениях нормы и множителя нормы обучения и средних значениях количества нейронов); для экспертных классификаций с большим количеством классов лучшие результаты достигаются при малом числе кластеров и больших значениях нормы и множителя нормы обучения, дающих небольшое количество кластеров;
3) значения оценочной функции при росте значения коэффициента важности критерия ухудшаются для экспериментов с большим количеством кластеров и улучшаются для экспериментов с малым количеством кластеров;
4) при значении коэффициента важности критерия от 0,6 до 0,9 наилучшие результаты для документов более технического содержания получены для архивной классификации по тематике работ и разделам документации, для документов более произвольного содержания - по тематике работ и видам документации, при значении коэффициента важности критерия от 0,5 до 0,1 наилучшие результаты получены для классификации по классам документации (рисунок 2).
Алгоритм Кохонена. Этап 1. Коэффициент важности критерия 0.7_
з видудскум —по классу докум —*-по разделу докум
Рисунок 2. Алгоритм Кохонена. Этап 1. Результаты сравнения с различными видами экспертных классификаций при альфа<0,5 и при альфа>0,5
Для БСМ-алгоритма изменялось значение экспоненциального веса (меры нечеткости) и требуемое количество кластеров. Эксперименты проводились со значениями экспоненциального веса 1.3, 1.4, 1.5 и 1.6. Количество кластеров также устанавливалось близким количеству классов экспертной классификации и варьировалось от 3 до 60. Для трех этапов проведено 40 экспериментов, по результатам которых сделаны следующие выводы:
1) при смещении значений важности критерия в сторону полноты поиска лучшие значения оценочной функции получаются для архивной
классификации по тематике работ и видам документации и для экспериментов с малым количеством кластеров;
2) при выборе коэффициента важности критерия от 0,4 до 0,1 лучшие значения оценочной функции получаются при сравнении экспериментов с большим количеством кластеров и архивной классификации по классам документации.
Для генетического алгоритма изменялись значения количества кластеров (от 2 до 32). Значения предела популяции, размера первого поколения, вероятности мутации и плодовитости были приняты соответственно 100, 100, 3.2 и 1.5 - данные значения признаны оптимальными. Для трех этапов проведено 46 экспериментов, по результатам которых сделаны выводы:
1) сравнение с экспертной классификацией с большим количеством классов при росте количества кластеров дает сначала ухудшение, затем улучшение значения оценочной функции при значении коэффициента важности критерия от 0,1 до 0,6; при значении коэффициента от 0,7 до 0,9 значение оценочной функции сначала резко, а затем более плавно ухудшается;
2) сравнение с экспертной классификацией с малым количеством классов при росте количества кластеров дает улучшение оценочной функции при альфа от 0,1 до 0,4; ухудшение - при альфа от 0,6 до 0,9; практически одинаковые значения при альфа 0,5;
3) сравнение с экспертной классификацией со средним количеством классов при росте количества кластеров дает улучшение оценочной функции при альфа от 0,1 до 0,3; при альфа 0,4-0,6 сначала ухудшение, затем плавное улучшение; и ухудшение оценочной функции при альфа 0,7-0,9.
4) при сравнении с разными видами экспертных классификаций большое влияние оказывает характер документации: для документации более технического содержания при малых значениях коэффициента важности критерия лучшие значения оценочной функции получаются при сравнении с классификацией по классам документации, при высоких значениях коэффициента важности критерия лучшие результаты достигаются для классификации по тематике работ и разделу документации (рисунок 9); для документации более свободного содержания при малых значениях коэффициента важности критерия лучшие значения оценочной функции получаются при сравнении с классификацией по классам документации, худшие при сравнении с классификацией по тематике работ; при высоких значениях коэффициента важности критерия лучшие результаты достигаются для классификации по тематике работ, худшие для классификации по разделу документации (рисунок 3).
Рисунок 3. Сравнение оценочной функции для разных экспертных классификаций.
Генетический алгоритм. Альфа<0,5.
Была поставлена задача в общей системе поиска архива технической документации определить нишу для каждого алгоритма с определенными параметрами. По результатам алгоритмов сформирована таблица параметров алгоритмов, дающих лучшие значения оценочной функции (рисунок 4), построена схема выбора алгоритма (рисунок 5) и сформирована обобщенная таблица выбора параметров алгоритма кластеризации в зависимости от указанных параметров поиска (таблица 1).
&льфа характер учитывать группировку по:
документа тематике виду документа разделу документации не учитывать ГК8'0.70.7/47
0.1 свободный К 12/0.9/0,9/38 К 120,9/0,9/38 КІЗДОДМв К 8/0.7/0.7/47
технтеекмй К 8 0,5 0.5/34 К 7 0.4,0.436 К 8/0.5/0.5/34 К 7/0.4/0,4/36 К 7/0.4,0.4,06
не учитывать К 8/0.5-0,5/34 К И'О^О^/Зв К 12/0«9-'0,9<Э8 К 8/0.7/0.7/47 К 8/0.7,0,7/47
0,2 свободный К 12/0,9/0.938 К 12Ч),90,9/38 К12.0.9/0.9/38 К 8/0,7/0,7/47 К 8/0.7.0,7/47
техютксгнй К 8 0.50.5-34 К 7-0.4,0.4-36 К 8/0.5 0.5/34 К 7/0.4/0.4/36 К 7/0,4,0.4/36
не учитывать К 8/0.5-0,5/34 К 12/0,9/0.9/38 К 12'0.9/0.9'Э8 К 8-0.7/0.7/47 К 8/0.7,0.7/47
0.3 свободный К 1Г0,9/0.9.38 К 12/0,9'0,9/3 8 К12/0.9/0.9/38 К 8/0.7/0,7/47 К 8/0.7,0,7/47
тгхтмеский К 8/0,5/0,5/34 К 7-'0,4<0,4-36 К 8/0,50,5/34 К 7/0,4'0,4.'36 К 7/0,4.0,4/36
не учитывать К 8■:0.5'0,5/34 К 12/0,9.0^9/38 К 12/0,9/0,9/38 К 8/0.70,7/47 К 8/0,7,0,7/47
0,4 свободный К 8/0,9Ю,9'18 К 12Ю.9.0.9/38 К 12/0,9/0,9/38 К 8/0.7/0,7/47 К 8/0,7,0,7/47
технтеский К 13/0,9/0.9/21 К 7-0,4.11,436 К 13/0.9/0.9^1 К 7/0.4/0,4/36 К 7/0,4,0,4/36
не учитывать К 13/0.9/0,9/21 К 12'0,9/0.9'38 К 12/0.9/0,9/38 К 8/0.7-0,7/47 К 8/0.7,0,7/47
о-5 свободный Г 322 К 5'0,9/0,9/4 К 5/0,9,0,9/4 ГСМ 1,3/26 ГСМ 1,3/26
технтеский К 11 К 6/0,9,Г),9-2 Г 3,2'10 К 7 ;0,4/<1,4.'36 К 13/и. 9/0,9/21
не учитывать К 13/0.9/0.9/2! К 5-0,9/0,9'4 К 5/0.90.9/4 ГСМ 1.3/26 РСМ и/26
0.6 свободный ГЗД-2 К 5'0.9/0.9/4 Г 32/2 К 5'0,8Ю.9/4 Г 3,2/2
технтеский г здло Г 3.2/3 Г 3,2/10 К 6/0,9/0,9/2 ГЗД/10
не учитывать Г 322 ГЗД'З Г 3.2/10 К 5/0,8 >0,9/2 Г 3.2/2
0.7 свободный Г ЗД'2 ГЗД/2 Г 32/2 Г 3,2/2 Г 3,2/2
технический Г З.ГЗ ГЗД'З РСМ 1.5/3 К 6/0,90.9/4 ГЗДЗ
не учитывать г 3,2/2 Г ЗД'З Г 3.2/2 К 6/0.9/0,9/4 Г 3,2/2
0.8 свободный Г 3.2/2 ГЗД/2 Г ЗД'2 Г 3,2/2 Г 3,2/2
технтеский г зд/2 ГЗД'З Г 3,2/2 Г 322 Г' ЗД/2
не учитывать Г 3.2/2 Г 3,2/3 1' 3.2/2 [" 3,2/2 Г' 3.2/2
0,9 свободный І" 3,2.2 Г 3,2/2 Г 3,2/2 1' 3,2/2 I- 3,2/2
технический ГЗД/2 ГЗД'З Г ЗД'2 ГЗД/2 ГЗД/2
не учитывать ГЗД-2 гзд/з Г ЗД/2 Г 32/2 ГЗД/2
не свободный гэ.2/2 гзд'г ГЗД/2 К 8.0,7/0.7/47 К 8/0.7/0,7/47
учитывать технический гзд/2 Г 3.2/3 Г 3.2/2 К 7/0,4/0,4/36 Г ЗД/2
не учитывать Г 3,2/2 ГЗД'З Г 32/2 К 8/0,7/0,7/47 К 8/0,7/0,7/47
Кг гая-во не нов/нор че/мно житель нор мы/хеш-во кластеров; ГСМ: вес/ кол-во кластеров; Г: вероятность/ кол-во кластеров
Рисунок 4. Параметры алгоритмов
Анлпщ параметров (а. «. г. с))
і ~~
(определи «к требуемого \ мятстн кластере* )
Рисунок 5. Схема выбора алгоритма
Таблица 1. Обобщенная таблица выбора алгоритма
Параметры пользователя Параметры кластеризации
({0,1;0,2;0,3};{1;у;Г};{1}), ({0,1;0,2;0,3;0,4};{у;г};{0;1}) Кох (12;0,9;0,9;38)
({0,6-0,9;0};{у};{2;0});({0,7};{1;-};{2}) Ген (3,2;3)
({0,1;0,2;0,3;0,4};{у;с1;-};{2}),({0,5;0};{с1};{2}) Кох (7;0,4;0,4;36)
({0,1;0,2;0,3;0,4};{с1;-};{0;1}),({0};{с1;-};{1;0}) Кох (8;0,7;0,7;47)
Параметры пользователя Параметры кластеризации
({0,1-0,3};П};{2;0}),({0,1-0,3};{г};{2}) Кох (8;0,5;0,5;34)
({0,6};{1;г;-};{2});({0,5};{г};{2});({0,6};{г};{0}) Ген (3,2; 10)
({0,5;0,6};{1};{1});({0,6};{г;-};{1});({0,6};{1;-};{0});({0,7}; {1;у;г;с1;-};{1});({0,7};{1;г;-};{0});({0,8;0,9;0};{1;г};{1;2;0}); ({0,8;0,9;0};{у};{1});({0,8;0,9};{с1;-};{1;2;0});({0};{-};{2}) Ген (3,2;2)
({0,4};П};{1}) Кох (8;0,9;0,9;18)
({0,4;0,5};{1};{2;0}), ({0,4};{г};{2}); ({0,5};{-};{2}) Кох (13;0,9;0,9;21)
({0,5};{у;г};{1;0}), ({0,6};{с1};{1;0}), ({0,6};М;{1}) Кох (5;0,8-0,9;0,9;4)
({0,5};{у};{2});({0,6};{с1};{2});({0,7};{с1};{2;0}) Кох (6;0,9;0,9;2)
({0,7};{г};{2}) РСМ (1,5;3)
({0,5};{с1;-};{1;0}) РСМ (1,3;26)
Таким образом, получаем следующее описание: Р(Х) = 7, где
■, к € [0;1;2], а е [0;0,1;. ..0,9], ^ е у;г;с1,-\а е {¡{ох, Ген,БСМ},
її а
Х = а п
Ь
и —количество параметров, Ь = {¿>,,..., } =
Сппри а = Кох Ск, IV, при а = БСМ Ск, Р, при а = Ген
Учитывая разницу значений оценочной функции, можно определить средний коэффициент ухудшения эффективности применения кластеризации при использовании на каком-либо этапе поиска произвольного алгоритма вместо алгоритма, оптимального для данного этапа. Значения коэффициента приведены в таблице 2.
То есть оценку качества модели интеграции можно представить как функцию, зависящую от входных параметров: Р(а,Ь^).
Таблица 2. Коэффициент ухудшения эффективности применения кластеризации при использовании произвольного алгоритма
Класс документации Раздел документации Вид документа Тема работы
Документация более технического содержания (этапы 1,3 плана экспериментов)
Приоритет точности 1,23 1,24 1,24 1,24
Приоритет полноты 1,2 1,21 1,29 1,27
Документация более свободного содержания (этап 2 плана экспериментов)
Приоритет точности 1,04 1,4 1,3 1,18
Приоритет полноты 1,06 1,37 1,18 1,15
В четвертом разделе описывается разработанное структурно-функциональное решение программной системы архива, а также принципы организации системы внутреннего электронного документооборота отдела технической документации ФНПЦ ОАО «НПО «Марс». Система архива имеет
модульную структуру. Основными функциями хранилища данных являются: реализация единого источника данных, обеспечение достоверной информацией сотрудников предприятия, обеспечение автоматизированного учета документации в соответствии с ГОСТ и стандартами предприятия, обеспечение хранения информации и гарантии ее целостности, обеспечение оперативного поиска документации, автоматизированной обработки и изготовления комплектов документации, обеспечение оперативного доступа сотрудников предприятия к информации архивохранилища в соответствии с системой разграничения доступа, обеспечение возможности поиска документации с использованием индексирования и классификации.
На рисунке 6 приведена схема функций основных АРМ разработанной системы, отсутствующих в современных системах электронных архивов и электронного документооборота.
АРМ Диспетчера
1. Перевод • электронным вид документов. солрово*даю>1»«>гапы выполним работ
2. Пофамильным и временной контроль выполняемых работ
3. Автоматическое формирование оби«« отчетов по выпоппммии реботвми расходным метеримам
вдотд
1. Накопление информации о выполненных работах
2. Постоянное рвсиеуме перечня Суметом документа*«, пярее судімо« е злвктроный вид для обеспечена оперативного доступа сотрудник» предприятия
3. Поэтапное внедрение с
АРМ Администратора
1. Корректировка карты доступа к документам через
АРМ Пользователя
АРМ Архивариуса
1. Автомат1веков формироамим структуры файлового храни1ыи«в и создиме трех копии апеоромгшх документов
2. Использование алгоритма автоматического выделения ипатафика^иочцх признаков документ» для органивцим »«форма»*' арх>»01фаиилища
3. Автомвгнмфоеамное внесение информации по вьаюлнвннм« работам, пофамитъныи учет выполненных работ, атоматичвасое формироынм отчета «Карга учета рабочего времени»
4. Автометмчеаии подбор кошотектое документами
5. Автомат» ис*ое формирование отчетов -сопроеодиге/ьиои документации « Сфорквфоеаниым
документации
7. Разделение инвентарных ким- для резных типов
АРМ проверки комплектности
1. Контро/к наличия необходимой документации в структуре изделия
2 Сохранение сформированных справок 3. Ведение картотеки справок с возмомюстыо перед*м данных ив мзду справками
АРМ материального
1 • Автоматизация учете КМТ предприятия с расчетом годового гомл! на РМ
2. Расчет требуемого «отчества РМ на последующие периоды, исходя из вылошенных работ
3. Автоматизация учете профилактического обспум*вания КМТ
4. Предварительный расчет стоимости изготовления программных продуктов и комплектов документации для формирования цены изделия
АРМ аналитика
1. Сбор статистики, формирование отчетов по показателям ребот архивохранилища и разработчиков документации
Рисунок 6. Функциональность системы архива и электронного документооборота
В таблице 3 приведены некоторые количественные показатели эффективности применения автоматизированной системы архива.
Таблица 3. Количественные показатели эффективности автоматизации
Операция Длительность
до после
Получение копии документа из архива ~25 мин. ~2 мин.
Изготовление копии бумажного документа ~6 мин. 1 лист А4 ~2,5 мин. 1 лист А4
Создание сопроводительных документов к копиям ~10 мин. 1 лист А4 -0,3 мин. 1 лист А4
Подбор электронного документа ~4 мин. ~0,2 мин.
Общее количество записей в картотеках архивов: 79364 (основной электронный); 158624 (основной бумажный); 9666 (дополнительные).
За 1 месяц в среднем 1500 обращений за копией документа через производственный сервер
И в последней части четвертого раздела описывается разработанная модель разграничения доступа к информации архива технической документации, основанная на номенклатуре документации и организационной структуре предприятия. Систему, обеспечивающую доступ к информации архива, можно представить в виде совокупности трех подсистем:
1) подсистема назначения прав доступа к конкретным документам, функционирующая в составе электронной картотеки архива;
2) подсистема корректировки карты доступа, определяющая данные, которые используются как входящие алгоритмами назначения прав доступа первой подсистемы;
3) подсистема шеЬ-интерфейса, использующая механизмы авторизации пользователей в операционной системе и права доступа к документам, зарегистрированным в картотеке архива.
Общепринятая схема разграничения прав доступа, реализованная в современных СЭДО, предполагает назначение прав к документу разработчиком документа при его создании. Как показывает практическая эксплуатация, данная система имеет существенные недостатки:
1) разработчик документа не всегда имеет представление об общей структуре изделия, не всегда может предусмотреть состав всех групп сотрудников, которым может быть необходим доступ к данному документу;
2) назначение прав к каждому конкретному документу при регистрации его в архиве является достаточно трудоемкой задачей;
3) нет возможности назначить доступ к целой группе документов, разрабатываемых различными сотрудниками;
4) нельзя назначить доступ к документу на основании его подобия другому документу.
В данной работе представлены модель, алгоритм и программная реализация другого способа назначения прав доступа. При постановке на учет в картотеке архива в соответствии с разработанным алгоритмом экспертной классификации проводится классификация документа по четырем признакам: изделию, в схеме которого закреплен документ; типу документа; разделу и классу документации. Также проводится кластеризация документов.
В результате классификации все множество документов X можно представить в виде следующих разбиений:
х={*/}= {х;}={х;}= {х.)={х?}, где
X! - подмножество документов, принадлежащих г-му изделию;
Хт.~ подмножество документов, принадлежащиху'-му типу;
X" - подмножество документов, принадлежащих 1-му разделу;
ХЦ - подмножество документов, принадлежащих к-му классу;
X"— подмножество документов, принадлежащих д-му кластеру;
Хп - конкретный документ архива.
Для подмножеств выполняется следующее условие:
Х"[~\Х" =0 \/М е {Г, Л, С }, то есть классификация по данным признакам однозначно определяется принадлежностью документа определенному классу. Для разбиения на подмножества по принадлежности к изделиям выполняется условие: 31,]\Х'.(\Х'. так как существуют
документы, используемые в нескольких изделиях. Для разбиения на подмножества по принадлежности к кластерам выполняется условие:
Таким образом, для массива документации £> = {£>, ...Ду} получаем следующую схему: \/с1 е [1, ¿V] 3/: Ц, е Х],31: £)_, £ Х*,3к: Ц, е Хск,
Также все множество сотрудников можно представить в виде следующих разбиений: [/ = {£//>} = {[/;}= {и,}, где
и° - подмножество сотрудников, имеющих должность О;
иг
— подмножество сотрудников, работающих в подразделении Р\
ик — учетная запись конкретного сотрудника.
Таким образом, ставится задача организации системы разграничения прав доступа, исходя из данных классификации документов и структурной схемы «пользователь» - «должность» - «подразделение» предприятия.
Сотрудник может иметь только одну должность, но может быть включен в состав нескольких групп;
При назначении доступа может быть использован результат разбиения множества документов на кластеры, то есть назначен доступ ко всем документам, подобным данному.
Ставится задача сформировать карту доступа и алгоритм определения множества документов, доступных данному пользователю в соответствии с картой доступа.
Каждая строка карты доступа будет иметь вид:
X. X' 1 х: к ха ч ип к
и будет определять наличие доступа для группы пользователей к группе документов, то есть пользователь Vп, имеющий должность £/" и принадлежащий группе ирр, имеет доступ к документу X., входящему в состав изделия X'., имеющему тип документа Хт., принадлежащему к разделу документации X'', классу документации Хк и кластеру X". Или более формально: группа пользователей 1/К = Vп П и° П ирр имеет доступ к группе документов Хк =ХтГ\ Х\ П X] П X? П Хск П Х'ч'.
Данный способ назначения прав доступа обладает следующими существенными достоинствами:
1) реализована возможность назначать права доступа к группам документов, сформированным на основе номенклатуры документации на предприятии;
2) при изменении подразделения или должности пользователя для него автоматически меняются права доступа;
3) при вводе нового документа нет необходимости назначать для него персональные права доступа, доступ будет предоставлен автоматически в соответствии с принадлежностью документа определенным классификационным группам;
4) реализована возможность назначать права доступа к группе документов на основе их подобия данному документу.
Пример реализации системы разграничения прав доступа приведен на рисунке 7.
алгоритм а
_^ обозначения - определение
классификационных групп документа
- изделие (12345) класс (ЕСПД) раздел (комплекс) -вид (формуляр)
запрос на соответствие документа * АБВГ. 12345-01 30 01 классификационным признакам
- 12345 формуляр комплекс ЕСПД - - инженер- лаб.101
программист
администратор СРПД
ГК изделия 12345: «Предоставить доступ инженерам-программистам лаб. № 101 к формулярам программных ю
ГК изделия 12345: «Предоставить доступ инженерам-программистам лаб. Мв 101 ко всем документам, подобным АБВГ. 12345-01»
Учетная (К/апоу И)
Г
запрос на получение документа АБВГ. 1234501 ЗО 01
Определение
^ должности и _
структурного подразделения
- лаб. N3 101
Кластер документа - инженер- лаб.101
АБВГ. 12345-01 программист
перечень кластеров, которым ► картотека архива —► принадлежит запрошенный документ
Рисунок 7. Пример реализации системы разграничения прав доступа
Модель, разработанная в рамках данной работы, предполагает разграничение прав доступа к строкам объекта в пределах одной метки конфиденциальности, исходя из классификационных данных документа, являясь, таким образом, развитием мандатной модели. Также предлагаемая модель позволяет осуществлять автоматическое назначение прав доступа по классификационным признакам вновь регистрируемого документа, используя формирование некоторой динамической группы доступа, как пересечения трех заложенных в структуре групп. То есть данная модель является развитием и ролевой модели доступа (рисунок 8).
организация пользователей в группы разделение доступа по метке конфиденциальности
- , -
Дискретная модель Ролевая модель I Мандатная модель
доступ субъекта к -* - доступ группы субъектов ■{_ доступ группы субъектов к отдельным
объекту (таблице) к объекту (таблице) строкам объекта в соответствии с меткой
определение требуемой _J_ конфиденциальности
группы как пересечения _ Г
заданных групп
Назначение прав доступа к Разграничение доступа динамических групп разделение доступа
группам «похожих» документов, - субъектов к отдельным строкам объекта в по ВИДУ документа
организованных в кластеры пределах одной метки конфиденциальности
Рисунок 8. Отношение предлагаемой модели к существующим моделям разграничения прав доступа
В первом разделе третьей главы описана структура базы данных АСУ отдела технической документации. Описание основных функций и приложений АСУ ОТД приведено в приложении 4.
Во втором разделе описаны общие принципы программной реализации системы разграничения прав доступа (СРПД) и интерфейс программного приложения администратора СРПД. СРПД объединяет в себе три подсистемы:
1) модуль автоматической классификации технической документации, встроенный в картотеки архивов ОТД;
2) АРМ администратора СРПД, предоставляющий интерфейс формирования и корректировки карты доступа в соответствии с моделью разграничения прав доступа, описанной в главе 2.;
3) систему web-интерфейса производственного сервера с реализацией доступа к базе данных архивов ОТД.
В третьем разделе описан инструментарий оценки эффективности работы алгоритмов автоматической кластеризации на массивах технической документации. Разработанное программное приложение предоставляет возможность:
1) подбора списка документов и проведения экспертной классификации;
2) подключение справочников-классификаторов и картотеки документов из БД АСУ ОТД;
3) построение результатов классификации в виде дерева;
4) преобразование структур таблиц, полученных в результате работы алгоритмов кластеризации в единую структуру;
5) загрузка данных экспериментов из файлов формата MS Excel;
6) построение матриц соответствия и вычисление значений функций соответствия для экспериментов с выбранными алгоритмами;
7) применение различных значений нормировочного коэффициента и коэффициента важности критерия при вычислении функции соответствия;
8) просмотра значений функции соответствия, а также формирования отчета по значениям функции в файл формата MS Word и в таблицы БД;
9) проведения вычислительных экспериментов по сравнению эффективности поиска на массиве документации с применением и без применения кластеризации;
10) построения сравнительных графиков по результатам экспериментов.
В четвертой главе приводится описание разработанного плана
экспериментов и проведения вычислительных экспериментов, используемых для проверки и формирования теоретических результатов исследования.
В первом разделе описаны результаты экспериментов по оценке эффективности алгоритмов автоматической кластеризации на массиве технической документации. Для проведения экспериментов сделаны три выборки из массива технической документации, отличающиеся по количеству и содержанию документов. Проведена экспертная классификация выборок. Проведены два этапа экспериментов для алгоритма Кохонена и по три этапа для алгоритма FCM и генетического алгоритма. При вычислении значений оценочной функции использовались разные значения нормировочного коэффициента и разные значения коэффициента важности критерия. Пример
зависимости значений целевой функции от нормировочного коэффициента показан на рисунке 9 (эксперименты с алгоритмом Кохонена вторая часть).
38 23 47 18 12 5 4 21 15 12 14 8 4 8 4 19 14 14 16 12 34 35 7 7 ♦— коэфф=Мэ+Ма —и— коэфф=Мэ*Ма коэфф=С
Рисунок 9. Выбор нормировочного коэффициента
По результатам экспериментов сделаны выводы об оптимальном подборе параметров алгоритмов кластеризации.
Также была проведена оценка полноты поиска с учетом применения кластеризации. В качестве исходных данных был взят массив документов, подобранный в третьем этапе экспериментов (как наиболее близкий по составу и количеству документации к небольшому архиву), а также РСМ-алгоритм. Результаты работы РСМ-алгоритма были объединены в три группы по количеству кластеров. Схема проведения экспериментов приведена на рисунке 10. Результаты проведения экспериментов приведены на сравнительных графиках на рисунке 11.
Рисунок 10 Блок-схема алгоритма оценки эффективности поиска
Общее сравнение количестве лоьументов результирующего массива
Рисунок 11. Сравнительные графики оценки эффективности поиска
Продолжение рисунка 11. Сравнительные графики оценки эффективности поиска
Во втором разделе описываются работы, проведенные при вводе в эксплуатацию системы разграничения прав доступа к информации электронного архива. Проведено заполнение исходных данных справочников и карты доступа, в течение года в процессе эксплуатации системы собиралась статистическая информация по осуществлению доступа к документации, на основании которой были сделаны выводы о работоспособности системы.
В приложении 1 приведены таблицы параметров для проведенных экспериментов с алгоритмами кластеризации.
В приложении 2 приведены значения оценочной функции для всех проведенных экспериментов, а также общая сравнительная таблица.
В приложении 3 приведены отдельные фрагменты исходных кодов программного обеспечения: алгоритм автоматической экспертной классификации технической документации, алгоритм построения матриц соответствия и алгоритм вычисления значений оценочной функции по результатам экспериментов.
В приложении 4 приведено краткое описание работы с АРМ системы архива и электронного документооборота отдела технической документации.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
В ходе диссертационного исследования получены следующие результаты:
1. Разработан алгоритм автоматического выделения классификационных признаков документа на основе экспертной классификации, учитывающей особенности структуры технической документации научно-производственного предприятия.
2. Изучены возможности алгоритмов автоматической кластеризации на массиве технической документации, проведено сравнение результатов работы различных алгоритмов классификации и кластеризации, разработана методика оценки эффективности применения алгоритмов кластеризации, разработана модель интеграции алгоритмов автоматической кластеризации.
3. Разработана модель разграничения доступа пользователей к информации архива, основанная на экспертной классификации документации и организационной структуре предприятия.
4. Разработана программная система архива технической документации НПО, организационно-нормативная база для функционирования архива, удовлетворяющего требованиям, поставленным в данной работе, структура базы данных, пользовательский интерфейс, программные алгоритмы функционирования архива и системы электронного документооборота. В состав системы архива включена подсистема разграничения прав доступа.
5. Разработанные структуры данных и программные реализации алгоритмов используются в работе отдела технической документации, а также в общей информационной системе ФНПЦ ОАО «НПО «Марс».
СПИСОК ПУБЛИКАЦИЙ
Статьи, опубликованные в журналах, рекомендованных Перечнем ВАК России:
1. Радионова Ю.А., Селяев А.Г. Применение лексического анализа для решения задач автоматической классификации электронной документации // Приложение к международному журналу «Проблемы теории и практики управления» - «Программные продукты и системы», № 4(84), 2008. - Тверь. - С.71-73.
2. Радионова Ю.А. Хранение истории изменения данных в архивах технической документации //Научно-технический журнал «Автоматизация процессов управления». - № 1(19). - 2010. - Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». С. 82-88.
3. Радионова Ю.А. Система разграничения прав доступа к данным архивохранилища технической документации на основе использования экспертной классификации документов //Научно-технический журнал «Автоматизация процессов управления». - № 3(21). - 2010. — Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». С. 63-71.
В прочих изданиях:
1. Селяев А.Г., Радионова Ю.А. Разработка программного обеспечения архива машинных носителей //Научно-технический журнал «Автоматизация процессов управления». - № 1(7). - 2006. - Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». - С. 31-32.
2. Радионова Ю.А. Интерактивное классифицирование в архивах электронной конструкторской и программной документации на основе дескрипторного поискового языка // Научно-технический журнал «Автоматизация процессов управления». - № 1(9). - 2007. - Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». - С. 107-109.
3. Радионова Ю.А. Обзор современных систем электронного документооборота и организации архивных хранилищ, возможность их применения для архивов технической документации // Научно-технический журнал «Автоматизация процессов управления». - № 2(10). - 2007. -Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». - С.87-92.
4. Радионова Ю.А., Тронин В.Г. Модель включения электронного архива конструкторской и технической документации в информационное хранилище предприятия документации // Научно-технический журнал «Автоматизация процессов управления». - № 1(11). - 2008. - Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». - С.97-100.
5. Островский A.A., Радионова Ю.А. Кластеризация набора электронных информационных ресурсов // Научно-технический журнал «Автоматизация процессов управления». - № 1(11). - 2008. - Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». - С. 101-104.
6. Радионова Ю.А., Тронин В.Г. Проектирование структуры данных архива электронных документов НПО с использование среды MS SQL Server 2000 // Научно-технический журнал «Автоматизация процессов управления». -№ 2(12). - 2008. - Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». -С.119-123.
7. Радионова Ю.А., Тронин В.Г. Классификация технической документации на основе лексического анализа децимального номера // Научно-технический журнал «Автоматизация процессов управления». - № 3(13). -
2008. - Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». - С.69-72.
8. Радионова Ю.А. Включение электронного архива технической документации в информационное хранилище предприятия // Тезисы докладов 42 научно-технической конференции УлГТУ «Вузовская наука в современных условиях» (28.01-04.02.2008). - Ульяновск: УлГТУ, 2008. -С.130.
9. Наместников A.M., Ярушкина Н.Г., Корунова Н.В., Островский A.A., Селяев А.Г., Радионова Ю.А., Чекина A.B. Интеллектуальный проектный репозитарий // Одиннадцатая национальная конференция по искусственному интеллекту КИИ-2008 с международным участием: Труды конференции. Т. 3. - М.: ЛЕНАНД, 2008. - С. 345-353.
10. Радионова Ю.А., Селяев А.Г. Автоматизация процесса классификации технической документации // Сборник научных трудов второй всероссийской научной конференции с международным участием «Нечеткие системы и мягкие вычисления». Т.2. - Ульяновск, 27-29 октября 2008 года.-С. 139-144.
11. Радионова Ю.А. Метод построения оценочной функции, определяющей эффективность алгоритмов автоматической кластеризации // Научно-технический журнал «Автоматизация процессов управления». - № 1(15). -
2009. - Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». - С.23-28.
12. Радионова Ю.А. Методика оценки эффективности методов кластеризации при построении интеллектуального репозитария // V-я Международная научно-практическая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (28-30 мая 2009г.). - Сборник научных трудов, Том 2. - М.,Физматлит, 2009. - С. 897-908.
13. Радионова Ю.А. Инструментарий оценки эффективности методов автоматических кластеризаций // Научно-технический журнал «Автоматизация процессов управления». - № 4(18). - 2009. - Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». - С.89-96.
14. Радионова Ю.А. Исследование эффективности методов кластеризации для построения интеллектуального репозитария // Тезисы докладов 43 научно-технической конференции УлГТУ «Вузовская наука в современных условиях» (26-31 января 2009г.) - Ульяновск: УлГТУ, 2009. - С. 123.
15. Радионова Ю.А. Методика настройки автоматических кластеризаторов // Тезисы докладов 44 научно-технической конференции УлГТУ «Вузовская наука в современных условиях» (1-7 февраля 2010г.) - Ульяновск: УлГТУ, 2010.-С.185.
16. Корунова Н.В., Наместников A.M., Островский A.A., Чекина A.B., Ярушкина Н.Г., Радионова Ю.А. Интеллектуальный репозиторий проектных документов // Сборник научных трудов семинара с международным участием «Интеллектуальный анализ временных рядов» по результатам НИР, поддержанной ФЦП, проект №02.740.11.5021. -г. Ульяновск, 15 июня 2010г. - С. 54-60.
17. Наместников A.M., Ярушкина Н.Г., Корунова Н.В., Островский A.A., Чекина A.B., Радионова Ю.А. Интеллектуальный репозитарий проектных документов //12 национальная конференция по искусственному интеллекту с международным участием КИИ-2010 (20-24 сентября 2010г.) - Тверь. - С. 257-264.
18. Радионова Ю.А. Интеграция алгоритмов кластеризации технической документации // Молодежная научно-практическая конференция «Автоматизация процессов управления». Сборник докладов. — 2011. -Ульяновск, типография ФНПЦ ОАО «НПО «МАРС». С. 77-84
Радионова Юлия Александровна
Интеллектуальные методы организации архивов технической документации научно-производственного объединения
Автореферат
Подписано в печать. 15.10.2012_. Формат 60x80/16
Бумага писчая. Усл. печ. л. 1,00 Тираж 100 экз. Заказ 1257 Типография УлГТУ, 432027, г. Ульяновск, Северный Венец, 32.
Оглавление автор диссертации — кандидата технических наук Радионова, Юлия Александровна
Перечень использованных сокращений.
Введение.
Глава 1 Обзор методов и средств автоматизации электронных архивов.
1.1 Основные понятия.
1.2 Общая структура электронных архивов.
1.2.1 Способы организации архивов.
1.2.2 Классификация документов в системе архива.
1.2.3 Общая схема архива технической документации.
1.2.4 Файловое хранилище архива.
1.2.5 Информационное обеспечение архива.
1.2.6 Информационный поиск и информационно-поисковые системы.
1.3 Информационно-поисковые языки и виды классификации документации
1.3.1 Основные определения.
1.3.2 Иерархическая классификация.
1.3.3 Язык предметных заголовков.
1.3.4 Фасетная классификация.
1.3.5 Дескрипторная классификация.
1.3.6 Использование системы весов ключевых слов.
1.3.7 Использование тезаурусов.
1.3.8 Различные системы поиска в архиве электронных документов.
1.4 Требования к организации архива технической документации НПО.
1.4.1 Виды конструкторской, программной, технической документации. Правила учета.
1.4.2 Особенности учета электронных документов.
1.5 Применение алгоритмов автоматической кластеризации при организации электронных архивов.
1.5.1 Принципы кластеризации массива документации.
1.5.2 Формальная постановка задачи кластеризации.
5.3 Алгоритмы кластеризации.
5.4 Применение алгоритмов кластеризации в архиве технической документации.
6 Модели разграничения прав доступа.
6.1 Дискреционная модель.
6.2 Ролевая модель.
6.3 Мандатная модель.
6.4 Требования к системе разграничения прав доступа в архиве технической документации.
7 Обзор возможностей современных автоматизированных систем электронного документооборота и систем электронных архивов.
7.1 Общая схема электронного документооборота.
7.2 Аппаратные и программные требования.
7.3 Система безопасности.
7.4 Взаимодействие с другими системами.
7.5 Хранение истории документа.
7.6 Резервное копирование данных.
7.7 Использование имеющейся информации.
7.8 Коллективная работа с документами.
7.9 Отечественные и зарубежные разработки.
7.10 Сравнительная таблица СЭД.
7.11 Возможность применения СЭД к архивам технической документации
7.12 Анализ возможности использования электронного архива
1С. Предприятие» для организации архивохранилища НПО «Марс».
8 Постановка задачи исследования.
Выводы по главе.
Глава 2 Методы и алгоритмы интеллектуальной организации информации электронного архива технической документации Научно-производственного объединения.
2.1 Классификация технической документации с точки зрения организации архива.
2.1.1 Принципы классификации технической документации.
2.1.2 Алгоритм анализа обозначения документа.
2.1.3 Сравнительный анализ архивной классификации.
2.2 Методика оценки эффективности автоматической кластеризации.
2.2.1 Постановка задачи оценки.
2.2.2 Формализация процесса оценки качества кластеризации.
2.2.3 Алгоритм построения оценочной функции.
2.3 Модель интеграции алгоритмов кластеризации.
2.4 Структурно-функциональное решение программной системы электронного архива технической документации НПО.
2.4.1 Общая структура электронного архива.
2.4.2 Организация поиска в системе электронного архива.
2.4.3 Организация систем оперативного доступа и долговременного хранения
2.4.4 Организация условий хранения. Выбор носителя информации.
2.4.5 Система электронного документооборота отдела технической документации.
2.4.6 Организация общего доступа к информации архива.
2.4.7 Система разграничения прав доступа к данным архивохранилища технической документации на основе использования экспертной классификации документов.
Выводы по главе.
Глава 3 Описание программной системы электронного архива технической документации.
Глава 4 Вычислительные эксперименты.
Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Радионова, Юлия Александровна
В процессе деятельности любой организации, в том числе и научно-производственного объединения, наступает момент, когда становится трудно или даже почти невозможно ориентироваться в накопленном массиве разнообразной документации. Прежде чем управлять информацией об изделии или как-то ее использовать, необходимо организовать ее получение и хранение - то есть создать систему электронного архива. Информация должна накапливаться в процессе жизненного цикла изделия, и должны присутствовать механизмы, обеспечивающие ее накопление и обработку. Как правило, для хранения необходимой информации организуется архив — выделенное помещение, в котором собирается вся необходимая документация. Учет бумажных документов ведет архивариус. При этом архивариус, как правило, не определяет правила доступности документации, а руководствуется решениями руководителей структурных подразделений, которые подписывают заявки на получение документов.
Масса времени сотрудников тратится на поиск того или иного документа или на создание нового, который, возможно, будет повторять то, что уже имеется в архивах.
В качестве основных проблем архивного хранения информации можно выделить следующие:
1) длительность процесса постановки на учет документа архивариусом и получения документа из архива сотрудником предприятия;
2) наличие на предприятии разрозненных архивов бумажной и электронной документации с различными правилами хранения и учета;
3) большой объем бумажной документации, налагающей определенные ограничения на пользование - недоступность документа (документ на руках другого абонента), невозвращение (потеря) документа абонентом, износ документа;
4) наличие бумажных картотек, затрудняющих поиск документов, зато сильно облегчающих «потерю» документа в архиве;
5) отсутствие стандартизованной структуры хранения электронных документов, не позволяющее проводить автоматический подбор комплектов документов;
6) отсутствие взаимосвязи между существующими электронными картотеками разных архивов, приводящее к невозможности осуществлять какие-либо совместные операции с документами, например, проверку комплектности хранимой документации и структуры изделия;
7) невозможность обеспечения оперативной информацией как сотрудников архивов, так и сотрудников других подразделений предприятия;
8) отсутствие системы разграничения доступа для сотрудников предприятия к информации картотек и документации архивов;
9) в системах бумажного документооборота эксперты допускают 15 процентные потери документов при работе [102], в архивах технической документации такие потери недопустимы;
10) отсутствие каких-либо интеллектуальных методов организации и поиска информации.
Возникает необходимость каким-то образом упорядочить накопленную информацию, создать систему, обеспечивающую:
1) быструю регистрацию, классификацию и размещение документов с возможностью отслеживания операторских ошибок;
2) обеспечение целостности информации;
3) оперативный доступ к информации с разграничением прав доступа.
Для организации более эффективной и упорядоченной работы с документацией применяются системы архивных хранилищ и электронного документооборота.
В функции каждого научно-производственного предприятия входит проектирование, разработка и поддержка научно-технической продукции. При создании своих решений предприятие опирается на современные средства и методы обработки информации в рамках корпоративной информационной системы предприятия (КИСП). Одним из центральных звеньев в построении эффективной КИСП является автоматизация деятельности службы архивов технической документации предприятия, обеспечивающих выполнение всего комплекса работ по учету, хранению, тиражированию и обращению технической документации.
Большой объем технической документации, необходимость постоянных корректировок и новых разработок, присущие опытному производству, увеличивают объем работы и усложняют задачи архивных служб. Также проблемой является наличие большого количества бумажных документов.
Правильно организованная система хранения документации не только позволяет ускорить и оптимизировать работу сотрудников архивов и объединить разнородные архивы в единую информационную систему, но и предоставить оперативный доступ к информации архивов всем сотрудникам предприятия.
Информация архива должна быть достоверной и актуальной, поэтому необходимой частью архива является система контроля достоверности и целостности информации.
Процесс предоставления доступа к информации должен опираться на систему разграничения прав доступа, которая является следствием не субъективного восприятия сотрудника-архивариуса, а утвержденной на предприятии системы доступа к документации.
Также в настоящее время все более актуальной становится организация архива не только как совокупности архивных единиц - документов, но и как общей информационной базы предприятия, позволяющей сохранить опыт разработчиков документов и осуществлять поиск информации по содержанию документов.
11 \ "I V
Цель работы
Исследование и разработка эффективных механизмов интеллектуальной организации информации в автоматизированной системе архива технической документации.
Объектом и материалом исследования послужила организация информации в архивах, а также общая система учета, хранения, обращения и изготовления документации отдела технической документации ФНПЦ ОАО «НПО «Марс».
Задачи исследования
1. Провести сравнительный анализ современных систем электронного документооборота и электронных архивов, возможностей существующих поисковых систем, принципов разграничения прав доступа.
2. Разработать структурно-функциональное решение программной системы архива технической документации, алгоритм автоматической классификации документов на основе структуры архива.
3. Рассмотреть возможности алгоритмов кластеризации, в том числе нечеткой, на массиве технической документации. Разработать методику оценки эффективности применения алгоритмов кластеризации для классификации технической документации. Разработать модель интеграции алгоритмов кластеризации для системы архива технической документации.
4. Разработать модель разграничения прав доступа к документации архива в общей информационной системе предприятия, основанной на экспертной классификации и организационной структуре предприятия. Включить разработанную модель в программную систему архива.
Для решения поставленных задач использовались следующие методы исследования: теория кластеризации, метод экспертной оценки специалистов, объектно-ориентированный подход при создании комплекса программ.
Научная новизна положений, выносимых на защиту
1. Методика оценки результатов работы алгоритмов кластеризации на массиве технической документации.
2. Модель интеграции алгоритмов кластеризации для системы архива технической документации.
3. Интегрированный алгоритм кластеризации технической документации.
4. Модель разграничения прав доступа к документации, основанная на экспертной классификации документации и организационной структуре предприятия.
5. Структурно-функциональное решение программной системы архива технической документации, включающее в себя алгоритм автоматической экспертной классификации и подсистему разграничения прав доступа.
Практическая значимость работы
Разработанная система ЭДО и архива используется в работе отдела технической документации ФНПЦ ОАО «НПО «Марс» и позволяет организовать более эффективную работу сотрудников отдела. Система разграничения прав доступа используется в общей информационной системе ФНПЦ ОАО «НПО «Марс», обеспечивая оперативный и удобный доступ к информации архива для всех сотрудников предприятия.
Достоверность результатов диссертационной работы
Достоверность научных положений, выводов и рекомендаций подтверждена результатами вычислительных экспериментов, а также результатами использования созданных алгоритмов и методик в повседневной работе отдела технической документации и общей информационной системе ФНПЦ ОАО «НПО «Марс».
Апробация результатов исследования
Основные положения и результаты диссертации докладывались, обсуждались и получили одобрение: на всероссийской научной конференции с международным участием «Нечеткие системы и мягкие
I } I вычисления» (Ульяновск, 2008), на одиннадцатой национальной конференции по искусственному интеллекту КИИ-2008 с международным участием (Дубна, 2008), на У-й Международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Москва, 2009), на двенадцатой национальной конференции по искусственному интеллекту КИИ-2010 с международным участием (Дубна, 2010), на семинаре с международным участием «Интеллектуальный анализ временных рядов» по результатам НИР, поддержанной ФЦП, проект №02.740.11.5021 (Ульяновск, 2010), на молодежной научно-практическая конференция «Автоматизация процессов управления» (Ульяновск, 2011). Апробация результатов диссертации осуществлялась в работе над системой архивов ФНПЦ ОАО «НПО «Марс». Основные положения и результаты неоднократно докладывались и обсуждались на научно-технических конференциях УлГТУ «Вузовская наука в современных условиях».
Структура и объем диссертационного исследования Диссертационная работа состоит из введения, четырех глав и заключения, содержит 224 страницы машинописного текста, 11 таблиц, 71 рисунок, список литературы из 140 наименований, 6 приложений.
Заключение диссертация на тему "Интеллектуальные методы организации архивов технической документации научно-производственного объединения"
Выводы по главе
В третьей главе описан комплекс программ, реализующий теоретические положения диссертационной работы. Структура программного обеспечения отдела технической документации позволяет осуществлять учет и хранение технической документации в соответствии с ГОСТ и требованиями внутренних стандартов предприятия. В картотеки архивов встроен алгоритм автоматической классификации документации. Организация базы данных архивов позволяет осуществлять доступ к данным всем сотрудникам предприятия в соответствии с системой разграничения доступа, корректировка данных карты доступа реализована в отдельном АРМ администратора системы.
В отдельном программном компоненте реализованы функции, необходимые для проведения экспериментов по оценке эффективности работы алгоритмов автоматической кластеризации. В функции пользовательского интерфейса входят:
1) связь с базой данных архивов технической документации, возможность подбора комплекта документации для экспериментов;
2) проведение экспертной классификации массива документации;
3) приведение разнородных данных алгоритмов автоматической кластеризации к единой структуре, формирование матриц соответствия, вычисление оценочной функции;
4) представление результатов экспериментов в виде таблиц базы данных, текстовых файлов, сравнительных графиков.
Для хранения данных использовалась СУБД MS SQL Server 2000, функционирующая на производственном сервере НПО «Марс». Для доступа к данным использовались механизмы ADO, ODBC. Для реализации пользовательского интерфейса использовалась среда программирования Borland Delphi 7.0.
Документация индексируется и кластеризуется с параметрами, дающими оптимальные значения оценочной функции на первом этапе экспериментов. Вычисляются значения оценочной функции.
На третьем этапе подбирается массив документов в объеме небольшого архива, классифицируется экспертом с использованием базы данных, накопленной в процессе проведения первых двух этапов. Затем массив индексируется и проводится процесс кластеризации с параметрами, установленными на предыдущем этапе.
По вычисленным значениям оценочной функции делается вывод об эффективности использования каждого алгоритма кластеризации и наиболее приемлемых параметрах кластеризации.
Дополнительным этапом эксперимента проводится оценка результатов кластеризации с различным значением коэффициента важности критерия.
4.1.2. Результаты экспертной классификации
На первом этапе из архива электронной технической документации выбраны 65 документов преимущественно организационно-нормативного содержания. Проведена экспертная классификация по четырем признакам, и получены следующие количества классов:
- по виду документов - 17 классов;
- по тематике работ - 22 класса;
- по классу документации - 3 класса;
- по разделу документации - 22 класса.
На втором этапе из архива электронной технической документации выбраны 265 документов исключительно организационно-нормативного содержания. Получены следующие количества классов:
- по виду документов - 14 классов;
- по тематике работ - 38 классов;
- по классу документации - 2 класса;
- по разделу документации - 14 класса.
На третьем этапе из архива электронной технической документации выбран 5021 документ различного содержания. Получены следующие количества классов:
- по виду документов - 51 классов;
- по тематике работ - 27 класса;
- по классу документации - 3 класса;
- по разделу документации - 26 классов.
4.1.3. Нормировочные коэффициенты функции соответствия
В процессе проведения экспериментов была выявлена существенная зависимость значения целевой функции от количества классов экспертной классификации и кластеров автоматической кластеризации - чем больше количество кластеров, тем больше строк в матрице соответствия, тем больше слагаемых при вычислении оценочной функции и тем больше значение функции. Например, динамика значений целевой функции для экспериментов Кохонена и видов документации в экспертной классификации по второй части плана экспериментов представлена на рисунке 4.1.1 (по горизонтальной оси - количество кластеров, по вертикальной - значения оценочной функции).
Рисунок 4.1.1 Алгоритм Кохонена. 2 этап экп. Число нейрон ов Радиус актива ции Норма обучен ия Множи тель нормы обучен ия Кол-во класт еров Значение оценочной { зункции
Виды документа ции Издели я Раздел ы Классы
010 6 2 0,9 0,8 12 0,5583 0,5835 0,6403 0,5004
011 6 2 0,8 0,8 14 0,6011 0,6159 0,6546 0,5001
012 5 2 0,9 0,8 8 0,5685 0,5912 0,6665 0,5007
013 5 2 0,8 0,9 4 0,5772 0,5619 0,6673 0,5014
014 5 2 0,8 0,8 8 0,5700 0,5838 0,6489 0,5006
015 5 2 0,8 0,7 4 0,5588 0,5717 0,6099 0,5031
016 5 2 0,7 0,7 19 0,5835 0,6245 0,6357 0,5001
017 5 2 0,7 0,75 14 0,58628 0,6083 0,6285 0,5004
018 5 2 0,7 0,78 14 0,5885 0,6288 0,6532 0,5001
019 6 2 0,8 0,9 15 0,5795 0,5946 0,6398 0,5003
020 6 2 0,9 0,85 12 0,5589 0,5792 0,6317 0,5005
021 7 2 0,7 0,7 34 0,5848 0,635 0,6273 0,5001
022 7 2 0,8 0,7 35 0,5889 0,6522 0,629 0,5001
023 5 2 0,9 0,85 7 0,5765 0,5662 0,649 0,5007
024 5 2 0,8 0,86 7 0,5833 0,5917 0,6679 0,5007
ЗАКЛЮЧЕНИЕ
В качестве основных результатов диссертационной работы можно назвать следующие:
1) проведен сравнительный анализ существующих (из наиболее известных) систем электронного документооборота и электронных архивов. Рассмотрена возможность применения данных систем для архива технической документации научно-производственного объединения. Сделан вывод о недостаточной функциональности существующих систем электронного документооборота и электронных архивов для целей создания основного архива технической документации НПО. Сформулированы требования к системе архива технической документации научно-производственного объединения. Рассмотрены модели разграничения прав доступа, используемые в современных СУБД и системах защиты информации, сформулированы требования к системе разграничения доступа архива электронной документации;
2) разработан алгоритм экспертной классификации технической документации, основанный на структуре архива и номенклатуре документации предприятия;
3) составлен план экспериментов для оценки различных алгоритмов автоматической кластеризации (Кохонена, РСМ и генетического), проанализированы структуры данных полученных результатов работы алгоритмов кластеризации, разработан алгоритм формирования оценочной функции;
4) обработаны результаты экспериментов, проведена сравнительная оценка результатов работы алгоритмов, на основании которой разработана модель интеграции алгоритмов для системы архива технической документации. Сделаны выводы об оптимальном использовании алгоритмов, исходя из заданных параметров алгоритма, характера документации, баланса точности и полноты поиска, предпочтительной близости результатов к определенному признаку экспертной классификации. Проведена сравнительная оценка полноты поиска без использования и с использованием результатов кластеризации;
5) разработано структурно-функциональное решение программной системы электронного архива, удовлетворяющей требованиям, сформулированным в первой главе. Разработана система электронного документооборота отдела технической документации, учитывающая требования к организации архивов электронной и бумажной документации, а также специфику работ по учету, хранению и изготовлению документации научно-производственного объединения;
6) разработана система доступа к файлам электронной документации архива через производственный сервер предприятия. Разработана модель разграничения прав доступа, основанная на структуре архива, экспертной классификации технической документации и организационной структуре предприятия;
7) система архива и система электронного документооборота реализованы в виде совокупности автоматизированных рабочих мест со встроенным алгоритмом экспертной классификации и системой корректировки прав доступа;
8) разработано программное приложение, реализующее функции сравнительной оценки работы алгоритмов автоматической кластеризации.
9) разработанная система архива и электронного документооборота внедрена и используется в отделе технической документации, система доступа к электронной документации используется в корпоративной сети НПО «Марс».
-
Похожие работы
- Система автоматизации формирования технологической документации на основе модифицированного метода поиска ассоциативных правил
- Организация хранения и использования научно-технической документации в архивах Народной Республики Болгарии
- Формирование навигационной структуры электронного архива технических документов на основе онтологических моделей
- Экономические архивы в Западной Европе и США
- Объединенные ведомственные и межведомственные архивы в РСФСР (история, современное состояние, перспективы развития)
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность