Разработка моделей и методов верификации и анализа документов в электронном архиве энергетических объектов

Харин, Максим Алексеевич

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.12, диссертация на тему:Разработка моделей и методов верификации и анализа документов в электронном архиве энергетических объектов

кандидата технических наук: Харин, Максим Алексеевич
город: Иваново
год: 2013
специальность ВАК РФ: 05.13.12

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка моделей и методов верификации и анализа документов в электронном архиве энергетических объектов»

Автореферат диссертации по теме "Разработка моделей и методов верификации и анализа документов в электронном архиве энергетических объектов"

На правах рукописи

ХАРИН Максим Алексеевич

РАЗРАБОТКА МОДЕЛЕЙ И МЕТОДОВ ВЕРИФИКАЦИИ И АНАЛИЗА ДОКУМЕНТОВ В ЭЛЕКТРОННОМ АРХИВЕ ЭНЕРГЕТИЧЕСКИХ ОБЪЕКТОВ

Специальность 05.13.12 -Системы автоматизации проектирования (электротехника, энергетика)

Автореферат диссертации на соискание ученой степени кандидата технических наук

? о гшз

005061780

Иваново 2013

005061780

Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Ивановский государственный энергетический университет имени В.И. Ленина»

Научный руководитель Кроль Татьяна Яковлевна,

кандидат технических наук

Официальные оппоненты Шведенко Владимир Николаевич,

доктор технических наук, профессор, ФГБОУ ВПО «Костромской государственный технологический университет», заведующий кафедрой «Информационные технологии»

Ильичёв Николай Борисович,

кандидат технических наук, доцент,

ЗАО «СиСофт Иваново», главный специалист

Ведущая организация ОАО «Зарубежэнергопроект», г. Иваново

Защита состоится 25 июня 2013 года в 14 часов на заседании диссертационного совета Д 212.064.02 при Ивановском государственном энергетическом университете по адресу: 153003, г. Иваново, ул. Рабфаковская, 34, корпус «Б», ауд. 301.

Отзывы на автореферат в двух экземплярах, заверенные печатью, просим присылать по адресу: 153003, г. Иваново, ул. Рабфаковская, 34, Ученый совет ИГЭУ. Тел.: (4932) 38-57-12,26-98-61, факс: (4932) 38-57-01, e-mail: uch_sovet@ispu.ru

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Ивановский государственный энергетический университет имени В.И. Ленина», автореферат размещён на сайте www.ispu.ru.

Автореферат разослан « 24 » мая 2013 г.

Учёный секретарь диссертационного совета, доктор технических наук, профессор

Тютиков Владимир Валентинович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Для предприятий энергетической отрасли важной задачей является создание единого информационного пространства путём перехода на безбумажный документооборот. При этом необходимо учитывать следующие особенности работы предприятий, занимающихся проектированием и монтажом энергетических объектов:

• территориальная распределенность (организации, занимающиеся проектированием, строительством, монтажом и эксплуатацией энергетических объектов всегда находятся на существенном расстоянии друг от друга);

• большое количество документации, которая должна поддерживаться в актуальном состоянии и быть доступной в сжатые сроки для оперативного принятия решений, особенно в аварийных ситуациях.

Эти особенности объективно требуют информационной интеграции процессов проектирования, монтажа и эксплуатации энергетических объектов. Ускорение информационных потоков необходимо для повышения эффективности и надёжности работы энергетических предприятий.

В организациях, занимающихся проектированием, строительством и реконструкцией энергетических объектов, обычно имеется архив технической документации порядка сотен тысяч документов. При этом организация может иметь распределённую структуру с филиалами в разных городах РФ, объекты строительства также могут быть удалёнными: от Нягани до Краснодарского края. В ходе строительных и особенно электромонтажных работ часто происходит изменение и дополнение проектной документации.

Поиск необходимой документации в "бумажном" архиве и её доставка (даже путём сканирования и электронной пересылки) в удалённые точки занимают много времени. Поэтому актуальна задача создания системы электронного архива: системы структурированного хранения проектной документации в электронном виде, обеспечивающей надёжность хранения, конфиденциальность и разграничение прав доступа, отслеживание истории использования документа, быстрый и удобный поиск, а также предоставляющей доступ к документации из любого места в любое время.

Особенности технической документации, которые необходимо сохранить при переходе к электронному архиву:

• соответствие ГОСТам серии СПДС;

• насыщенность символьными наименованиями (чертежи, объекты, устройства, материалы).

Рассмотрим комплект документации по некоторому энергетическому объекту (например, «Подстанция Мещанская»). Вся рабочая документация делится:

• по стадиям: проектная «ПД» и рабочая «РД»;

• по пусковым комплексам (ПК); 1 ПК — строительство подстанции; 2 ПК -строительство заходов КЛ 220 кВ на подстанцию; 3, 4 ПК — строительство дополнительных кабельных линий.

• по буквенной марке номера рабочей документации (в соответствии с требованиями ГОСТа), например: АЭВ, АЭП, РЗ, СС и др.

Практически каждый том рабочей документации содержит символьные наименования, например, спецификация оборудования содержит строки вида «Вентилятор 1U 48VDC для FOX515» или «Оптический лазер Sl.l LC SFP, 1310 нм». Также, в соответствии с ГОСТ 2.104-68*, в основной надписи на чертеже указываются фамилии и подписи лиц, выполняющих разработку, проверку, технологический контроль, нормоконтроль и утверждение документа.

В архиве необходимо предоставить возможность группировки документов в соответствии с приведённой классификацией, чтобы обеспечить доступ к единственной актуальной версии документа всем заинтересованным лицам: руководителю объекта (подстанции); проектировщикам из различных организаций, выполняющих проект; генподрядчику строительно-монтажных работ; начальнику монтажной бригады на объекте и т.д.

В унаследованной системе архива документы хранятся в бумажном или электронном виде на компакт-дисках в помещении в центральном офисе организации. При переходе на новую систему электронного архива бумажные документы должны быть отсканированы. Для обеспечения структурирования документов и их быстрого поиска в архиве должны храниться не только электронные образы (изображения) документов, но и их карточки (наборы атрибутов). Для формирования атрибутов документов применено распознавание отсканированных документов при помощи специализированных программных средств. При этом точность распознавания не всегда является стопроцентной, необходима верификация. Верификация - это процесс проверки правильности распознанных документов. Она производится человеком и заключается в сверке распознанного текста с графическим образом документа. Однако при большом потоке документов в силу монотонности работы увеличивается число ошибок верификации, что недопустимо для технической документации. В связи с этим актуальной является задача автоматизации процесса верификации для повышения скорости и уменьшения числа ошибок.

Так как некоторые атрибуты документов распознаются лучше, другие хуже, а процесс верификации является последовательным, для ускорения следует использовать зависимость значений атрибутов друг от друга. Наибольшую скорость в данном случае обеспечивают продукционные правила, так как они используют простую модель «ключ-значение», что обеспечивает наиболее быстрый поиск нужного правила. Актуальной является задача извлечения подобных зависимостей из уже накопленного архива документации. Для этого необходимо адаптировать методы Data Mining для работы с электронным архивом технической документации. Существующие программные продукты извлечения знаний часто ориентированы на

конкретную предметную область (например, Deep Data Diver™ - в основном на медицинскую диагностику, AnswerTree - на маркетинговые исследования) и не предоставляют возможности интеграции с программами сканирования и верификации. Поэтому необходимо разработать специализированную систему, предназначенную для работы с техническими документами различной структуры.

Точность верификации необходима для быстрого поиска полного набора документов по заданному пользователем запросу. Например, пользователю может понадобиться комплект документации по релейной защите на некотором объекте или сводный сметный расчёт по подстанции. Необходимо предоставить возможность построения сложных запросов по тексту документа с учётом морфологических форм заданных слов. Актуальна также задача разработки методов и средств, обеспечивающих более высокую скорость поиска документов по сравнению с существующими системами. Причём, важен не только и не столько поиск конкретного документа, сколько поиск полного набора документов, удовлетворяющих набору условий. Для решения этой задачи необходимы дополнительное структурирование и группировка документов. Следовательно, актуальна задача автоматизации создания пакетов документов по каким-либо критериям.

В целом, основные требования к архиву могут быть сформулированы следующим образом:

• хранение больших объёмов документации (порядка сотен тысяч страниц);

• ориентация на техническую документацию, насыщенную символьными наименованиями, которые должны иметь единый вид;

• высокая скорость занесения документов в архив с учётом существующей системы хранения документов. Комплект документации по объекту объёмом 5000 страниц должен быть доступен в архиве не более чем за 2 недели, срочные документы должны быть занесены в архив в течение дня с учётом всех временных задержек;

• обеспечение возможности поиска документа по тексту;

• наличие средств автоматизированной группировки документов.

Анализ рынка программного обеспечения показал, что существующие системы не полностью удовлетворяют приведённым требованиям. Таким образом, актуальна задача разработки системы электронного архива, решающей данные задачи.

Современное архивоведение, в том числе и зарубежное, подробно рассмотрено в трудах Е.В. Старостина, Е.В. Булюлиной. Автоматизация архивного дела рассматривается в работах И.Н. Киселёва, В.И. Тихонова. Е.В. Бобровой. Задачам извлечения знаний из документов посвящены труды И.П. Норенкова. В.А. Дюка, Р. Михальски, К. Парсайе. В соответствии с ГОСТ 23501.101-87, электронный архив может быть отнесён к обслуживающим подсистемам САПР. Основы построения интеллектуальных САПР с применением технологий знаний рассмотрены в трудах И.П. Норенкова, П. Хилла, Дж. Джонса. Информационная интеграция и построение

корпоративных информационных систем рассматриваются в работах В.Н. Буркова. Н.Г. Твердохлеба, В.Н. Шведенко, Д. О'Лири, И.Д. Ратмановой. МП Левина, А. Леона.

Работа выполнялась в ОАО «Электроцентромонтаж». занимающемся проектированием, строительством и реконструкцией энергетических объектов, монтажом и наладкой электрооборудования. Промышленное внедрение и эксплуатация выполнялись в 4-х филиалах этой же организации.

Диссертационная работа соответствует паспорту специальности 05.13.12 «Системы автоматизации проектирования (по отраслям)», так как затрагивает следующие вопросы:

• научные основы построения средств автоматизации проектирования, безбумажного документооборота и процессов работы электронных архивов технической документации (пункт 7 областей исследований в паспорте специальности);

• научные основы реализации жизненного цикла «проектирование -производство - эксплуатация», построения интегрированных средств управления и унификации прикладных протоколов информационной поддержки;

• разработка принципиально новых методов и средств взаимодействия «проектировщик - среда».

Цель работы. Целью работы является повышение скорости доступа к актуальной проект'но-конструкторской и технической документации путём создания электронного архива документов, а также точности и скорости верификации документов при загрузке в архив путём использования уже накопленных в архиве знаний. При этом решались следующие задачи:

1. Разработка информационно-аналитической модели электронного архива, обеспечивающей хранение массивов технической документации объёмом порядка сотен тысяч документов, группировку документов в соответствии с ГОСТами серии СПДС. использующимися в энергетике.

2. Разработка метода анализа документов, позволяющего оптимизировать верификацию и структурировать документы путём извлечения и применения нечётких продукционных правил.

3. Разработка методов и средств поиска в электронном архиве, позволяющих построить полный набор документов по запросу пользователя при заданных ограничениях на время и общее количество документов.

4. Экспериментальная проверка разработанных моделей и методов путём реализации в программной системе электронного архива.

Методы исследования. Использовались методы Data Mining, нечёткой математики, теории баз данных, систем искусственного интеллекта.

Научная новнзна результатов.

1. Разработана информационно-аналитическая модель электронного архива, позволяющая хранить документы и извлекать знания в виде нечётких продукционных правил. Она отличается от существующих моделей хранения тем, что позволяет варьировать набор атрибутов документа для разных типов, учитывать соответствие атрибутов типов и создавать на их основе продукционные правила.

2. Разработан метод анализа атрибутивного состава технической документации, основанный на разработанной модели метаданных и включающий в себя алгоритмы создания наборов правил-ассоциаций (справочников) и поиска последовательностей. Он отличается от существующих алгоритмов Data Mining, например FP-Growth, Apriori и их разновидностей, тем, что учитывает структуру хранения документов и особенности технических документов.

3. Разработан метод решения задачи кластеризации в архиве. Использование кластеризации позволяет группировать документы в соответствии с ГОСТами, либо по индивидуальным запросам пользователей. Метод отличается от традиционных алгоритмов агломеративной кластеризации тем, что вместо расстояния между точками использует разработанную модель метаданных, а также подготовленные на этапе анализа наборы продукционных правил. Это обеспечивает высокую скорость работы.

Практическан значимость работы.

1. На основе разработанной модели данных создана система электронного архива, позволяющая получать доступ к необходимым документам непосредственно с рабочих мест.

2. Применение методов извлечения знаний позволило сократить время верификации документов и увеличить скорость занесения документов в архив приблизительно на 25%, не увеличивая штат верификаторов. Метод позволяет извлекать знания с учётом того, что требуемые значения могут находиться в разных атрибутах, а также применять полученные знания при верификации без дополнительной интерпретации.

3. Разработанный метод поиска в архиве, использующий оригинальную схему взаимодействия компонент и дополнительные средства СУБД, обеспечивает построение полного списка документов по пользовательскому запросу при заданных временных ограничениях. Наличие атрибутивного и полнотекстового поиска позволяет учитывать многообразие технической документации и выполнять поиск только нужных пользователю документов.

4. Применение методов кластеризации позволяет более наглядно группировать документы в пакеты, что упрощает работу пользователям, например, при подготовке отчётов или комплектов технической документации по определённому объекту.

Апробация работы. Материалы диссертационной работы докладывались и обсуждались на следующих конференциях:

1) I Международная конференция «Автоматизация управления и интеллектуальные системы и среды (АУИСС - 2010)»;

2) XVI Международная открытая научная конференция «Современные проблемы информатизации» (2011);

3) конференция «Спецпроект: анализ научных исследований» (30-31.05.2011г);

4) конференция «Наука в информационном пространстве - 2011» (2930.09.2011г.).

Публикации. По результатам работы опубликованы 2 статьи в изданиях, рекомендованных ВАК, 6 статей в научных журналах, 5 тезисов докладов на конференциях, получено 1 свидетельство о государственной регистрации программы для ЭВМ.

Личный вклад. Выносимые на защиту модели и методы разработаны автором лично. В созданной системе электронного архива автором разработаны система шаблонов Flexi Capture, система конфигурирования, мастер загрузки документов, компоненты, реализующие описанные в диссертации методы.

Внедрение. Система ДокПрофи™ зарегистрирована в Реестре программ для ЭВМ, номер свидетельства 2011610409. Успешно внедрена и применяется в ОАО «Электроцентромонтаж» для оперативного доступа сотрудников предприятия к актуальной технической документации. Тем самым заложена основа для единого информационного пространства предприятия.

Структура и объем работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы из 101 наименования и включает 138 страниц основного текста, 36 рисунков, 3 таблицы, 8 формул. В приложении приведены 4 акта о внедрении и 1 свидетельство о государственной регистрации программы для ЭВМ.

СОДЕРЖАНИЕ РАБОТЫ

Во введении определены цели и задачи исследования, обоснована актуальность выбранной темы, сформулированы полученные научные результаты, перечислены основные положения, выносящиеся на защиту.

Первая глава посвящена анализу существующих систем электронного архива, а также существующих средств и методов извлечения знаний. На основе требований, предъявляемых к системе электронного архива в энергетической отрасли, был проведён анализ существующих систем. Однако найти готовый продукт, полностью удовлетворяющий данным требованиям, не удалось. Многие продукты не ориентированы на техническую документацию (Docs Fusion, LanDocs), не предоставляют возможности сканирования и распознавания (Staff ware, MS Sharepoint Portal Server). Есть адаптируемые платформы, с помощью которых можно реализовать

требуемый функционал, например SmaitPlant Foundation, Однако стоимость их адаптации превысит стоимость покупки в 3 - 5 раз (средние статистические данные рынка). Средний срок адаптации и внедрения подобных систем составляет 1,5-2 года. Среди недостатков также можно отметить ресурсоёмкий поиск по содержанию документа и недостаточно высокую скорость занесения новых документов в архив. Также существуют системы NormaCS и TDMS, ориентированные на техническую документацию, однако их связь с программами сканирования пока в сгадии разработки. В связи с этим актуальной является разработка специализированного программного обеспечения, удовлетворяющего приведённым требованиям.

Для ускорения занесения документов в архив важной является задача извлечения зависимостей значений атрибутов из ранее загруженных документов для повышения точности и скорости верификации. Программное средство извлечения знаний должно выполнять следующие функции и удовлетворять условиям:

• анализ и поиск закономерностей в архиве;

• высокая скорость работы с сохранением точности;

• учёт нечёткости совпадений;

• гибкая настройка на документы с переменным набором атрибутов;

• интеграция со справочниками, например справочником организаций 1С;

• возможность интеграции с электронным архивом и программами сканирования и верификации.

Был проведён анализ существующих средств извлечения знаний. Существующие российские (комплекс АТ-Технология, аналитическая платформа Deductor, система Deep Data Diver™ и др.) и зарубежные (аналитический модуль AnswerTree, система WizWhy, система See5/C5.0) разработки имеют свои достоинства и недостатки. Однако многие из них ориентированы на работу с конкретной предметной областью и не предоставляют возможности интеграции с программами сканирования и верификации. Так как названные системы не удовлетворяют всем требуемым условиям, необходима разработка специализированных компонентов, предназначенных для работы с электронным архивом документов и интегрируемых с программой верификации.

Таким образом, в результате анализа выявлено, что актуальной является разработка специализированной системы электронного архива, обеспечивающей основу для создания единого информационного пространства предприятия энергетической отрасли. Такая система обеспечит хранение проектной, технической, строительной, эксплуатационной, нормативной, юридической информации на всех этапах жизненного цикла энергетического объекта, предотвращая его информационный износ. Как показывает анализ, главной причиной аварий является именно информационный, а' не физический износ. Соответственно, внедрение электронного архива позволит повысить эффективность работы предприятия в целом и уменьшить вероятность аварийных ситуаций.

Вторая глава посвящена решению первой задачи построения электронного архива - разработке информационно-аналитической модели. Разработанная модель метаданных, интегрируемая с моделями хранения документов и учитывающая соответствие атрибутов документов различных типов, позволяет реализовать поиск знаний в документах с учётом особенностей технической документации.

Основные принципы разработанной модели данных:

1. Данные, содержащиеся в документах архива, хранятся в трёх основных блоках: заголовок докуме1г?а; атрибуты документа; файлы документа.

2. Система должна обеспечивать версионность документов. Для этого используются «таблицы-версии» и «таблицы-двойники». Для атрибутов и файлов документов создаются исторические таблицы-двойники, и для документа в целом ведётся таблица версий.

3. В системе используются связи между значениями атрибутов в ввде продукционных правил. Это обусловлено линейным характером корреляции атрибутов документа, а также линейностью процесса верификации: при подтверждении значения одного атрибута необходимо подставить значение другого.

Информационная модель электронного архива должна обеспечивать поддержку хранения и поиска документов, поиска закономерностей в документах.

Далее рассмотрена модель, описывающая хранение документов и извлекаемых закономерностей. Она имеет следующий вид:

m={aa,dt,qsa,ss),

где АА- jaa,,aa2,...,ûi7j44| j - множество возможных атрибутов документов. Каждый атрибут имеет имя и тип;

DT=](itl,dt2,...,dt\DTJ - множество типов документов. Каждый тип документа dt, представляется в виде набора dti = {type_пате,pt,TA}, где type_name - название типа, pteDT- родительский тип для поддержки вложенных типов, ТА = ^а1,шг,...,игщ\-множество атрибутов типа. Каждый атрибут типа ta, представляет собой набор tai = {aname,atype,forder,/sort_order,/sort _type, uniqueness_check,req} , где aname -наименование атрибута, atype - тип атрибута (строка, число, дата и др.), forder -номер по порядку, fsort_order и fsort_type - порядок при сортировке и её тип, uniqueness_check - признак задания уникальности документа, req - обязательность;

£ = множество документов. Каждый документ ^ представляет собой

следующий набор d, = {dt,doc_name,reg_date,regnumber,ownerfilial,active_doc,DA}, где dt 6 DT - тип документа, doc_name - имя документа, reg_date и regnumber -регистрационные дата и номер, owner_fiIial - филиал, в котором он был создан, active_doc - признак активности документа, DA = fal,da2,...,da^\ - множество

атрибутов документа. Атрибут документа dat представляет собой набор da, = {ta,value,active_attribute>j , где taeTA - атрибут типа, value - его значение, active_attribute - признак активности атрибута. В отличие от атрибутов типа, задающих некоторые шаблоны документов, атрибуты документа представляют собой конкретные значения для конкретных документов;

Л4 = |гв1,5а2,...^в|<.4|]' - множество правил-ассоциаций, связывающих значения атрибутов в одном документе. Ассоциация представляет собой правило вида «.Если t<\=s, то ta2 = st с вероятностью хк ». Пусть ) - множество всех значений атрибута /а,, S(la2) - множество всех значений атрибута ta2 . Тогда множество ассоциаций (справочник) представляет собой декартово произведение множеств:

S(to1)x5(/a2) = {(5,it):ie5(to1),ii eS(ta2)}, (1)

причём каждой паре (s,sk) соответствует значение вероятности ее появления в соответствующих атрибутах документа хк . Пример ассоциации: Если атрибут «Номер договора» равен «11-РП-11», то атрибут «Объект» равен «ПС Примерная» с вероятностью 95%, «Подстанция Примерная» с вероятностью 4% и «Пример» с вероятностью 1%;

} - множество правил-последовательностей, связывающих значения атрибутов в разных документах. Введём обозначение Sd (da:) для значения атрибута da, в документе d . Последовательности ищутся для каких-либо типов Тх и Т2 , которые имеют соответствующие множества атрибутов ГД и . Пусть ТА1г\ТА1 -ТЛ. Последовательности имеют смысл, когда мощность множества |734j>2. Тогда VA,,^ еТА необходимо найти вероятность х{2 истинности выражения

(А,) = Sj2 (А,) => SJt (А2) = S,3 (А2). (2)

Таким образом, множество последовательностей представляет собой декартово произведение TAxTA={(Ai,A1):Al,A2sTAi , где каждой паре (AltA2) соответствует значение вероятности х12 . Очевидные свойства вероятностей: хи = 1 и =xj: -следуют из определения последовательности. Пример последовательности: Если в документах типов «Рабочая документация» и «Акт освидетельствования работ» совпадают значения атрибутов «Объект», то значения атрибутов «Адрес объекта» совпадут с вероятностью 95%. Подобные правила следует использовать, когда документы создаются последовательно, один на основе другого.

Введено также отношение соответствия атрибутов типов. Атрибут /а, типа dtx называется соответствующим атрибуту ta2 типа dt,, если в этих атрибутах может содержаться одинаковая по сути информация. Для таких атрибутов будем использовать обозначение

ta, 1а2. (3)

Пусть, например, D - комплект документов по энергетическому объекту, где помимо всего прочего используются шкафы телемеханики. Это сочетание в разных типах документов dt, может находиться в разных атрибутах taj . Например, в чертежах оно содержится в наименовании документа, в рабочей и сметной документации - в списках оборудования, в акте о приемке работ - в списке сданных работ. Соответственно, можно сказать, что наименование чертежа соответствует оборудованию в рабочей документации и сданным работам в акте о приёмке работ. Правила продукции могут быть применены не только к атрибутам, непосредственно указанным в них, но и ко всем соответствующим атрибутам.

Рассмотрена операционная семантика модели. На этапе конфигурирования архива задаются множество возможных атрибутов документов АА и множество типов документов DT. При создании типа dt, задаётся множество его атрибутов на основе элементов множества АА. Если созданные атрибуты и типы документов ещё не были использованы в архиве, то их можно изменить или удалить. Документы d, создаются в процессе работы с архивом. При создании экземпляра документа задаётся его тип dt, на основе атрибутов типа создаются атрибуты документа DA. Значения атрибутов заполняются в процессе верификации документа Если документ занесён в архив, он не может быть удалён, может быть изменён только признак активности. Набор типов может иметь иерархическую структуру. Это даёт возможность группировки документов в пакеты в соответствии с обозначениями по ГОСТу, а также в соответствии с желанием пользователя.

Первоначально составление продукционных правил выполняется по существующим документам архива с помощью методов, приведённых в главе 3. Далее при занесении новых документов производится корректировка правил, то есть выполняется самообучение. Отметим также, что простая пара «ключ - значение» обеспечивает наиболее высокую скорость поиска подходящих правил во время верификации по сравнению с другими моделями представления знаний.

Для обеспечения быстрого поиска документов по атрибутам или тексту с возможностью искать документы по фразе, синонимам, а также на разных языках необходимо разработать информационную основу. Разработанная подмодель использует метаданные СУБД поисковые индексы, таблицы с двоичным индексом и HASH-таблицы для увеличения скорости поиска.

Для представления слов в поисковом индексе используется следующая модель. Имеются несколько словарей Diet = (Name, Lang, Words), где Name - наименование словаря, Lang - язык, Words - набор слов. Слово (Word) имеет следующие характеристики: Word = (SearchWord, Flags, Synonyms), где SearchWord - слово для поиска, Flags - набор флагов, характеризующий аффиксы для данного слова, Synonyms - множество синонимов типа Word. Данная модель позволяет учитывать различные формы слов. Например, для поиска сметных расчётов по разделу ЭО-ВР

необязательно знать точное наименование документа. Достаточно задать поиск по словам «Раздел ЭО-ВР» и получить необходимые документы.

Итак, разработанная модель данных в виде набора основных сущностей электронного архива и продукционных правил, связывающих значения атрибутов документов, является информационной основой для работы с документами, пакетами документов и типами документов электронного архива. Она предоставляет возможности создания, обновления и получения всех версий документа, настройки типов и пакетов документов. Модель правил позволяет извлекать закономерности из документов и применять их при верификации и группировке. Подмодель поиска документов является информационной основой атрибутивного и полнотекстового поиска документов электронного архива. На её базе возможен поиск с широким набором параметров.

Третья глава посвящена решению следующей задачи: разработке методов и алгоритмов извлечения и применения закономерностей в технических документах на основе созданной модели данных. Как отмечалось в главе 2, для описания корреляций между атрибутами документов архива наиболее подходящими моделями являются продукционные правила. Такая форма обеспечивает простую форму правил «ключ -

Поиск 1'досатсльноси

Автоматизированное Прогномрогание

формирование на ог.иопе

плкгтои документов

----- архива

^ Кон?ц |

Рис. 1 Общая блок-схема метода

значение», что позволяет находить нужные правила максимально быстро. Полученные правила могут быть применены при верификации новых документов, а также при создании кластеров для автоматизированного формирования пакетов документов и прогнозирования значений отдельных атрибутов документов. Таким образом, применение данных правил позволит решить одну из задач работы: ускорение занесения документов в архив и автоматизация группировки документов по пакетам.

Общая блок-схема разработанного метода приведена на рис. 1 и состоит из двух этапов: этап извлечения поиска закономерностей и этап применения закономерностей.

В работе предложены следующие алгоритмы, указанные на схеме.

1. Алгоритмы создания справочника (поиска ассоциаций):

■ алгоритм полного вероятностного справочника. Пусть £> - множество документов г? некоторого типа Л , А„А2еГА- некоторые атрибуты типа. Последовательным перебором документов находим все встречающиеся пары значений атрибутов (Л,) и и количество повторений пар в документах. Затем, разделив полученные количества на общее число документов, получаем справочник. Так как в этом методе дважды используется бинарный поиск, эффективность алгоритма - л), где п - количество документов;

■ алгоритм складывающихся столбцов. Пусть ей - пара документов. Тогда если Л',,,(Л,) = 5^(4), но 5'<(1(Л2)*51,2(Л2), то в справочник записывается значение некоторой функции сложения Г(3<11(А2),8112(А2)) . Эта функция может быть по-разному определена на разных типах значений. В результате получаем справочник, в котором все вероятности равны 100%. Эффективность данного алгоритма - 0(1о£2 и);

■ алгоритм ограничивающей выборки. Данный метод комбинирует два предыдущих с учётом особенностей архива. В качестве примера выборки возьмём выборку по периодам. Каждый документ архива имеет в качестве обязательного атрибута дату регистрации. Общее множество документов можно разбить на непересекающиеся подмножества по каким-либо периодам (например, месяцы, годы), далее построить справочники методом складывающихся столбцов. Полученные справочники можно объединить в один, который будет показывать, сколько раз то или иное значение встречается в справочниках. Эффективность данного алгоритма находится в интервале (О(1оё2 п);0(1о^] п)) и зависит от размера периода разбиения. При уменьшении периода алгоритм стремится к алгоритму полного вероятностного справочника, при увеличении - к алгоритму складывающихся столбцов. Целесообразно использовать данный метод и, варьируя значение периода, подобрать оптимальное соотношение скорости и точности. В качестве примера, анализируя

паспорта теплоизоляционных плит, можно выделить следующий набор ассоциаций: «Если марка плиты >4-111-60-Ь, то коэффициент теплопроводности при 25°С в Вт/(м К) равен 0,0324 с вероятностью 95% и 0,0035 с вероятностью 5%».

2.Алгоритм извлечения последовательностей. Для каждого значения 5(|(А,) ищутся все документы (1 , у которых 5,(Л,) = .5,(Л|) . Далее подсчитывается количество документов, где совпадают значения вторичного атрибута, то есть

(Л) = 5,,(/(,) . Пример извлекаемой последовательности: «Если в акте освидетельствования работ наименование проектной документации равно номеру чертежа, то наименование материалов изделий в этих документах совпадёт с вероятностью 98%».

Приведённые методы работы с ассоциациями и последовательностями извлекают знания из архива в виде связей между значениями атрибутов документов одного или разного типов. Это позволяет без дополнительной интерпретации применять их при верификации новых документов, при этом исправляется большое количество ошибок распознавания. Полученные правила могут быть применены не только к атрибутам, на которых строились правила, но и к соответствующим им по формуле (3) атрибутам. Благодаря этому значения атрибутов приводятся к единому виду. Это особенно важно для технической документации, где необходимо единообразное наименование технических средств в разных документах.

3. Алгоритм кластеризации. Он позволяет объединять документы архива в группы на основе значений какого-либо атрибута. Сначала строится справочник одним из описанных выше методов. Далее для каждого значения основного атрибута А, выбираются значения вторичного атрибута А,, если они встречались в каком-либо правиле справочника. Аналогично для каждого полученного значения вторичного атрибута А, выбираются значения основного атрибута А, . Такая процедура называется шагом кластеризации. Если полученное множество значений основного атрибута С отличается от исходного, то шаг кластеризации повторяется. Например, справочник представляет собой некоторую таблицу пар «Наименование организации - Адрес организации». Начинаем работу с некоторого конкретного адреса. Найдём все наименования организации, соответствующие этому адресу. Затем всем этим наименованиям найдём соответствующие адреса, которые могут не совпадать по написанию с ранее учтёнными. Если был найден новый вариант адреса, то повторим процедуру. В результате в кластер отбираются все варианты наименований и адресов одной и той же организации. Отметим, что справочники по разным парам атрибутов могут задавать разные разбиения на кластеры, поэтому в методе используются только пары атрибутов. Данный алгоритм используется для автоматизированной группировки документов, например, при разбиении документов по папкам в соответствии с буквенной маркой по ГОСТу. При этом рассматриваются пары атрибутов «Название документа» - «Номер документа», например. «Огнезащита металлоконструкций. Спецификация материалов» - «05-М-08-01-О31.СО изм. 1».

Таким образом, на основе созданной модели данных разработаны алгоритмы, позволяющие извлекать закономерности из документов и применять их при верификации и анализе. Эти алгоритмы отличаются от существующих алгоритмов Data Mining следующим:

• направлены на работу с электронным архивом, так как базируются на специализированной модели хранения данных;

• учитывают специфику энергетической отрасли, так как ориентированы на быстрый анализ больших объёмов информации, включая специфические символьные обозначения, и позволяют приводить неструктурированный набор документов к сложным структурированным спискам, требуемым ГОСТом.

Реализация данных алгоритмов в системе позволяет ускорить загрузку документов в архив и обеспечить их автоматизированную группировку.

В четвертой главе рассматриваются вопросы реализации модели и методов, приведено краткое описание системы электронного архива. Была поставлена задача перевода архива технической документации ОАО «Электроцентромонтаж» порядка 1 миллиона страниц в электронно-структурированный вид. Для этого разработана система ДокПрофи™. её общая архитектура представлена на рис. 2 в виде диаграммы развёртывания.

Рис. 2 Диаграмма развертывания архива

Данные хранятся в базе данных на основе реализованной модели хранения документов. Для доступа используются виртуальные представления (view) и хранимые процедуры. Приложения архива обращаются к ним унифицировано посредством сервера электронного архива. Применяемая архитектура даёт такие преимущества, как повышение скорости и надёжности работы, распределенность и простота доступа к сервису архива, масштабируемость, многоуровневая защита данных. Каждый компонент системы может быть изменён независимо от других: есть возможность сменить платформу СУБД, использовать нужные языки программирования для реализации клиентских приложений, добавлять и удалять новые компоненты архива.

Оценка эффективности разработанного в диссертации метода оценена следующим способом. Отслеживалась динамика скорости занесения в архив документов по нескольким объектам для нескольких верификаторов. В начале внедрения, когда количество правил было минимальным, средняя скорость составляла 100 страниц в день для одного человека. По мере занесения документов в архив происходила корректировка и внесение новых правил, что увеличило среднюю скорость занесения до 120 страниц в день. При начале работы с новым объектом скорость занесения уменьшалась до 110 страниц в день, так как документация по новому объекту подразумевает новые закономерности в атрибутах. Однако по мере работы скорость вновь увеличивалась до 120-125 страниц в день. Таким образом, использование метода позволяет увеличить количество верифицируемых документов в день в среднем на 20-25%. Это позволяет внедрять архив в других филиалах и организациях при сохранении существующего штата верификаторов.

Также в четвертой главе описана реализация возможности автоматизированного формирования пакетов документов на основе алгоритма кластеризации, предложенного в главе 3. Эго позволяет провести реорганизацию пакетов, что упрощает поиск документов и подготовку отчётов на их основе. Время подготовки комплекта документации по объекту после внедрения системы сократилось на 50%, отчёта по работам на объекте на основе актов КС-2 и справок КС-3 - на 70%.

Совместная работа с документами и удалённый доступ реализуются с помощью \¥еЬ-приложения (рис. 3). Оно реализует функции поиска и просмотра нужных документов. Представлены три вида поиска документов: поиск по атрибутам, полнотекстовый поиск и смешанный поиск. Атрибутивный поиск реализован на разработанной модели данных в виде параметризованных запросов. Для

Ф «го^члкт.фчыт*«

;; Лтрлбупииил! ОвИОС ! С«2ПфО«Н» р»

/; Ра/сыт явигв

.; Свг^ч« »«Д51>»гт« 4 сиетм* яс«>-игнг«и-п (165

}! 51.052811 «Й-АСУ !;«»я«1 опз-т»АСУ 10.08*31« б/ног:»io.ee. 1

Той 5 КМЙГ* г IАСУТП с тфмгамв* «м^мга» Мо*«» «кунам «ая-

ХуШая АСУ ТГ (05Л,"-:В-}1»

23062510 !

г ав1е.м.г. «яуиог-«.^. РМДО у зввсте©»«««

г ? РвСочпа^^к'с-тй^* .Раадтг 7 Ямятрогаимч

я влсдо Жусап у ета ». вне ж

.'< Сгрэзмр1 а I С««е«т»» »окунешь

к"

Книг*;.! П»кним&*>< Кап»! .2 Ниюа^мфеикт&ими амдашмдия .3 Кгм(«р»в!с|».-р1фямс1у» гкхкшая

5 Ик икр1 мвляк««ае пштп

' л Кемтруиданке к .епэхорлечюк ртшчпм

: .5 Смотаю еф нассядидо сМруаеажк. г

яи »я ; * | Ст ида мепрэш&кмсп

торвгуй;. : «Ов»вамав>аи!к»«и

*мкхы? ОАО зци Рис. 3 \УеЬ-припожение архива

строительство хозяйства аварийного дизельного топлива и мазута

первомайской ТЭЦ (ТЭЦ-14) филиала «невский» ОАО «ТГК-1»

проектная документация

об инжгмрком оборгдсв*ю!»1. о сетях

полнотекстового поиска использовалась разработанная схема взаимодействия компонент, что позволило сократить время поиска до требуемого ограничения. Параметры поиска задаются на первой вкладке (рис.3, область 1). На следующей вкладке выводятся результаты поиска по заданному условию. Также имеется возможность быстрой фильтрации списка документов. В области 2 отображаются свойства выбранного документа: атрибуты, файл предпросмотра, другие файлы, полнотекстовое содержание, версии документа, пакеты, в которые он входит. В области 3 также отображается файл предпросмотра документа. Экспериментальная проверка показала, что после внедрения системы электронного архива время поиска документов сократилось с 30-60 до 3-5 минут.

Разработанная система успешно применяется в ОАО «Электроцентромонтаж»: в архив занесена основная часть технической документации по различным объектам, она активно используется сотрудниками различных отделов. Проведённое анкетирование показало, что большинство пользователей системы отмечают удобство работы и поиска документов и наполненность архива всеми нужными документами. Отмеченные пользователями недостатки, например отсутствие нужных типов документов, были исправлены средствами системы. Реализованная система позволила привести техническую документацию к единому электронному виду, предоставлять доступ к ней сотрудникам предприятия непосредственно с рабочего места, осуществлять поиск документов по заголовкам и содержанию, а также группировать документы по пакетам в соответствии с задачами пользователей.

К перспективам развития системы можно отнести возможность реализации клиентских приложений архива, взаимодействующих с используемыми САПР. Это позволит работать с архивом (добавлять и извлекать документы) непосредственно в среде разработки.

В заключении подведены итоги работы и сделаны основные выводы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Разработана информационно-аналитическая модель электронного архива, обеспечивающая хранение массивов технической документации объёмом порядка сотен тысяч документов, группировку документов в соответствии с ГОСТами серии СПДС, использующимися в энергетике.

2. Разработан метод анализа документов, позволяющий оптимизировать верификацию и структурировать документы путём извлечения и применения нечётких продукционных правил. Разработан метод кластеризации, позволяющий автоматизировать создание пакетов документов на основе полученных правил.

3. Разработаны методы и средства поиска в электронном архиве, позволяющие построить полный набор документов по запросу пользователя при заданных ограничениях на время и общее количество документов.

4. Разработана клиент-серверная архитектура приложения и схема взаимодействия компонент архива. На основе этого реализована тиражируемая система электронного архива и достигнута требуемая скорость поиска документов.

Приведённая архитектура в перспективе позволит разработать клиентские приложения для существующих САПР в целях доступа к документам из сред разработки.

5. Разработанные модели и методы показали свою эффективность при реализации на предприятии энергетической отрасли. Время поиска документа сократилось до 3-5 минут, скорость занесения в архив увеличилась на 20%, время подготовки комплекта документации по объекту сократилось на 50-70%. Предложенные методы могут быть применены при реализации архива, ориентированного на схожие предметные области. Тем самым решена задача оперативного доступа сотрудников ОАО «Электроцентромонтаж» к актуальной проектно-конструкторской и технической документации путём создания электронного архива документов.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ

Публикации в изданиях, рекомендованных ВАК РФ:

1. Кроль Т.Я., Харин М.А., Евдокимов П.В. Методы создания справочника на основе электронного архива / Т.Я. Кроль, М.А. Харин, П.В. Евдокимов // Известия «КБНЦ РАН». -2011.- №1.С.154-158.

2. Кроль ТЛ, Харин М.А. Опыт построения и реализации электронного архива на базе системы сканирования и распознавания Flexi Capture / ТЛ. Кроль, М.А. Харин // Программная инженерия. — 2012. — №6. — С. 35 — 42.

3. Свидетельство о государственной регистрации программы для ЭВМ «ДокПрофи» / Т.Я. Кроль, A.C. Карпов, Д.В. Иванов, A.C. Капитонихин, A.C. Угрюмов, М.А. Харин, Е.А. Воробьев. -№ 2011610409; дата 11.01.2011.

Публикации в прочих изданиях:

4. Харин, М.А. Обзор средств автоматизированного извлечения знаний и их применение в электронных архивах документов / М.А. Харин // Молодой учёный. — 2010. — №5. Т.1. — С. 106-108.

5. Харин, М.А. Электронные архивы документов и средства автоматизированного извлечения знаний / М.А. Харин // Информационные технологии моделирования и управления. - 2010. - № 2. - С. 242 - 246.

6. Кроль, ТЛ. Методы решения задачи кластеризации и прогнозирования в электронном архиве / ТЛ. Кроль, М.А. Харин // Молодой учёный. — 2011. — №6. Т.1. — С. 135-137.

7. Кроль, ТЛ. Методы поиска в электронном архиве / ТЛ. Кроль, М.А. Харин, Н.В. Никоноров, Д.В. Иванов // Информационные технологии моделирования и управления. -2011,- №6.- С. 702-709.

8. Кроль, ТЛ. Модели данных для реализации поиска и прав доступа к документам / Т. Я. Кроль, М.А. Харин, Д.В. Иванов, Н.В. Никоноров // Молодой учёный. — 2011. — №11. -С. 79-84.

9. Кроль, ТЛ. Использование методов кластеризации для автоматизированного формирования пакетов документов / ТЛ. Кроль, М.А. Харин // Молодой учёный. — 2012. — №10.— С. 93 —95.

Труды конференций:

10. Кроль Т.Я., Харин М.А. Проблема верификации при занесении документов в электронный архив // Мат-лы I междунар. конф. «Автоматизация управления и интеллектуальные системы и среды (АУИСС - 2010)». Россия, Приэльбрусье, 20-27 декабря 2010 г. [Электронный ресурс]. -Режим доступа: http://www.iipru.org/docs/auiss2010_tom2.pdf

11. Кроль Т.Я., Харин М.А. Особенности занесения документов в электронный архив. Мат-лы XVI междунар, откр. науч. конф. «Современные проблемы информатизации»); публ. с 01 по 31 января 2011 г. (Конференция проводится в дистанционном режиме). [Электронный ресурс]. - Режим доступа: http://www.sbook.ru

12. Кроль Т.Я. Схема наполнения электронного архива документами / Т.Я. Кроль, М.А. Харин, П.В. Евдокимов // Мат-лы I междунар. Конф. «Автоматизация управления и интеллектуальные системы и среды». Терскол, 20-27.12.2010. Т. IV. - Нальчик, 2010. - С 53-56.

13. Кроль Т.Я., Харин М.А. Использование последовательностей при занесении документов в электронный архив // Мат-лы конф. «Спецпроект: анализ научных исследований», 30-31.05.2011г. [Электронный ресурс]. - Режим доступа: http://www.confcontact.com/20110531/tn8 krol.htm

14. Кроль Т.Я., Харин М.А. Расширение модели документа электронного архива с целью извлечения и использования накопленных знаний // Мат-лы конф. «Наука в информационном пространстве - 2011», 29-30.09.2011г. [Электронный ресурс]. - Режим доступа: http://www.confcontact.com/20110929/tn_hrol.htm

ХАРИН Максим Алексеевич

РАЗРАБОТКА МОДЕЛЕЙ И МЕТОДОВ ВЕРИФИКАЦИИ И АНАЛИЗА ДОКУМЕНТОВ В ЭЛЕКТРОННОМ АРХИВЕ ЭНЕРГЕТИЧЕСКИХ ОБЪЕКТОВ

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук

Подписано в печать Формат 60x84 1/16.

Печать плоская. Усл. печ. л. 1,16. Тираж 100 экз. Заказ №

ФГБОУВПО «Ивановский государственный энергетический университет имени В. И. Ленина». Отпечатано в УИУНЛ ИГЭУ 153003, г. Иваново, ул. Рабфаковская, 34.

Текст работы Харин, Максим Алексеевич, диссертация по теме Системы автоматизации проектирования (по отраслям)

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Ивановский государственный энергетический университет имени В.И. Ленина»

На правах рукописи

О[И .5 5 V?/7

ХАРИН Максим Алексеевич

РАЗРАБОТКА МОДЕЛЕЙ И МЕТОДОВ ВЕРИФИКАЦИИ И АНАЛИЗА ДОКУМЕНТОВ В ЭЛЕКТРОННОМ АРХИВЕ ЭНЕРГЕТИЧЕСКИХ ОБЪЕКТОВ

Специальность 05.13.12 - Системы автоматизации проектирования (электротехника, энергетика)

Диссертация

на соискание учёной степени кандидата технических наук

Научный руководитель: кандидат технических наук Кроль Т.Я.

Иваново 2013

СОДЕРЖАНИЕ

Введение...................................................................................................................4

1. ИСПОЛЬЗОВАНИЕ ЭЛЕКТРОННЫХ АРХИВОВ В ЖИЗНЕННОМ ЦИКЛЕ ЭНЕРГЕТИЧЕСКИХ ОБЪЕКТОВ........................................................13

1.1. Введение.....................................................................................................13

1.2. Требования, предъявляемые к системе электронного архива..............13

1.3. Краткий обзор систем электронного архива..........................................17

1.4. Краткое описание схемы автоматизированного наполнения архива ..28

1.5. Методы и системы Data Mining...............................................................30

1.6. Методы анализа исходных данных и поиска закономерностей..........34

ВЫВОДЫ ПО ПЕРВОЙ ГЛАВЕ......................................................................37

2. МОДЕЛИ ДАННЫХ ЭЛЕКТРОННОГО АРХИВА....................................39

2.1. Введение.....................................................................................................39

2.2. Информационно-аналитическая модель электронного архива............39

2.3. Подмодель хранения документов............................................................41

2.4. Подмодель, позволяющая реализовать поиск закономерностей в документах..........................................................................................................46

2.5. Подмодель прав доступа и структуры подразделений.........................52

2.6. Подмодель поиска документов................................................................55

ВЫВОДЫ ПО ВТОРОЙ ГЛАВЕ......................................................................63

3. МЕТОДЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ И АНАЛИЗА ЭЛЕКТРОННОГО АРХИВА.................................................................................................................65

3.1. Введение.....................................................................................................65

3.2. Схема наполнения электронного архива документами........................66

3.3. Общая схема метода извлечения и применения знаний.......................70

3.4. Алгоритмы создания справочника на основе электронного архива....73

3.5. Использование последовательностей при занесении документов в электронный архив.............................................................................................78

3.6. Алгоритмы решения задачи кластеризации в электронном архиве ....81

3.7. Методы поиска в электронном архиве...................................................86

ВЫВОДЫ ПО ТРЕТЬЕЙ ГЛАВЕ.....................................................................95

2

4. ОСОБЕННОСТИ РЕАЛИЗАЦИИ СИСТЕМЫ ЭЛЕКТРОННОГО АРХИВА.................................................................................................................96

4.1. Введение.....................................................................................................96

4.2. Общая архитектура электронного архива..............................................96

4.3. Реализация информационно-аналитической модели электронного архива...................................................................................................................98

4.4. Реализация системы настройки информационно-аналитической модели архива...................................................................................................101

4.5. Реализация процесса поточного занесения документов в архив.......104

4.6. Возможности автоматизированного формирования пакетов документов с использованием метода кластеризации.................................111

4.7. Реализация Web-приложения для поиска и просмотра документов .116

4.8. Внедрение и эксплуатация системы.....................................................119

4.9. Оценка эффективности разработанного метода..................................120

ВЫВОДЫ ПО ЧЕТВЕРТОЙ ГЛАВЕ.............................................................122

Заключение...........................................................................................................124

БИБЛИОГРАФИЯ...............................................................................................127

Введение

Актуальность темы. Для предприятий энергетической отрасли важной задачей является создание единого информационного пространства путём перехода на безбумажный документооборот. При этом необходимо учитывать следующие особенности работы предприятий, занимающихся проектированием и монтажом энергетических объектов:

• территориальная распределенность (организации, занимающиеся проектированием, строительством, монтажом и эксплуатацией энергетических объектов всегда находятся на существенном расстоянии друг от друга);

• большое количество документации, которая должна поддерживаться в актуальном состоянии и быть доступной в сжатые сроки для оперативного принятия решений, особенно в аварийных ситуациях.

Эти особенности объективно требуют информационной интеграции процессов проектирования, монтажа и эксплуатации энергетических объектов. Ускорение информационных потоков необходимо для повышения эффективности и надёжности работы энергетических предприятий.

В организациях, занимающихся проектированием, строительством и реконструкцией энергетических объектов, обычно имеется архив технической документации порядка сотен тысяч документов. При этом организация может иметь распределённую структуру с филиалами в разных городах РФ, объекты строительства также могут быть удалёнными: от Нягани до Краснодарского края. В ' ходе строительных и особенно электромонтажных работ часто происходит изменение и дополнение проектной документации.

Поиск необходимой документации в "бумажном" архиве и её доставка (даже путём сканирования и электронной пересылки) в удалённые точки занимает большое время. Поэтому актуальна задача создания системы

электронного архива: системы структурированного хранения проектной документации в электронном виде, обеспечивающей надёжность хранения, конфиденциальность и разграничение прав доступа, отслеживание истории использования документа, быстрый и удобный поиск, а также предоставляющей доступ к документации из любого места в любое время.

Особенности технической документации, которые необходимо сохранить при переходе к электронному архиву:

• соответствие ГОСТам серии СПДС;

• насыщенность символьными наименованиями (чертежи, объекты, устройства, материалы).

Рассмотрим комплект документации по некоторому энергетическому объекту (например, «Подстанция Мещанская»). Вся рабочая документация делится:

• по стадиям: проектная «ПД» и рабочая «РД»;

• по пусковым комплексам (ПК); 1 ПК - строительство подстанции, 2 ПК - строительство заходов КЛ 220 кВ на подстанцию, 3, 4 ПК - строительство дополнительных кабельных линий;

• по буквенной марке номера рабочей документации (в соответствии с требованиями ГОСТа), например, АЭВ, АЭП, РЗ, СС и другие.

Практически каждый том рабочей документации содержит символьные наименования, например, спецификация оборудования содержит строки вида «Вентилятор Ш 48УОСдля ТОХ515»или «Оптический лазер БЫ ГСБГР, 1310 нм». Также в соответствии с «ГОСТ 2.104-68*» в основной надписи на чертеже указываются фамилии и подписи лиц, выполняющих разработку, проверку, технологический контроль, нормоконтроль и утверждение документа.

В архиве необходимо предоставить возможность группировки документов в соответствии с приведённой классификацией, чтобы обеспечить доступ к единственной актуальной версии документа всем заинтересованным лицам: руководителю объекта (подстанции); проектировщикам из различных организаций, выполняющих проект; генподрядчику строительно-монтажных работ; начальнику монтажной бригады на объекте и т.д.

В унаследованной системе архива документы хранятся в бумажном или электронном виде на компакт-дисках в помещении в центральном офисе организации. При переходе на новую систему электронного архива бумажные документы должны быть отсканированы. Для обеспечения структурирования документов и их быстрого поиска в архиве должны храниться не только электронные образы (изображения) документов, но и их карточки (наборы атрибутов). Для формирования атрибутов документов применено распознавание отсканированных документов при помощи специализированных программных средств. При этом точность распознавания не всегда является стопроцентной, необходима верификация. Верификация - это процесс проверки правильности распознанных документов. Она производится человеком и заключается в сверке распознанного текста с графическим образом документа. Однако при большом потоке документов в силу монотонности работы увеличивается число ошибок верификации, что недопустимо для технической документации. В связи с этим актуальной является задача автоматизации процесса верификации для повышения скорости и уменьшения числа ошибок.

Так как некоторые атрибуты документов распознаются лучше, другие хуже, а процесс верификации является последовательным, для ускорения следует использовать зависимость значений атрибутов друг от друга. Наибольшую скорость в данном случае обеспечивают продукционные

правила, так как они используют простую модель «ключ-значение», что обеспечивает наиболее быстрый поиск нужного правила. Актуальной является задача извлечения подобных зависимостей из уже накопленного архива документации. Для этого необходимо адаптировать методы Data Mining для работы с электронным архивом технической документации. Существующие программные продукты извлечения знаний часто ориентированы на конкретную предметную область (например, Deep Data Diver™ - в основном на медицинскую диагностику, AnswerTree - на маркетинговые исследования) и не предоставляют возможности интеграции с программами сканирования и верификации. Поэтому необходимо разработать специализированную систему, предназначенную для работы с техническими документами различной структуры.

Точность верификации необходима для быстрого поиска полного набора документов по заданному пользователем запросу. Например, пользователю может понадобиться комплект документации по релейной защите на некотором объекте или сводный сметный расчёт по подстанции. Необходимо предоставить возможность построения сложных запросов по тексту документа с учётом морфологических форм заданных слов. Актуальна также задача разработки методов и средств, обеспечивающих более высокую скорость поиска документов по сравнению с существующими системами. Причём, важен не только и не столько поиск конкретного документа, сколько поиск полного набора документов, удовлетворяющих набору условий. Для решения этой задачи необходимы дополнительное структурирование и группировка документов. Следовательно, актуальна задача автоматизации создания пакетов документов по каким-либо критериям.

В целом, основные требования к архиву могут быть сформулированы следующим образом:

• хранение больших объёмов документации (порядка сотен тысяч страниц);

• ориентация на техническую документацию, насыщенную символьными наименованиями, которые должны иметь единый вид;

• высокая скорость занесения документов в архив с учётом существующей системы хранения документов. Комплект документации по объекту объёмом 5000 страниц должен быть доступен в архиве не более чем за 2 недели, срочные документы должны быть занесены в архив в течение дня с учётом всех временных задержек;

• обеспечение возможности поиска документа по тексту;

• наличие средств автоматизированной группировки документов.

Анализ рынка программного обеспечения показал, что существующие системы не полностью удовлетворяют приведённым требованиям. Таким образом, актуальна задача разработки системы электронного архива, решающей данные задачи.

Современное архивоведение, в том числе и зарубежное, подробно рассмотрено в трудах Е.В. Старостина, Е.В. Булюлиной. Автоматизация архивного дела рассматривается в работах И.Н. Киселёва, В.И. Тихонова, Е.В. Бобровой. Задачам извлечения знаний из документов посвящены труды И.П. Норенкова, В.А. Дюка, Р. Михальски, К. Парсайе. В соответствии с ГОСТ 23501.101-87, электронный архив может быть отнесён к обслуживающим подсистемам САПР. Основы построения интеллектуальных САПР с применением технологий знаний рассмотрены в трудах И.П. Норенкова, П. Хилла, Дж. Джонса. Информационная интеграция и построение корпоративных информационных систем рассматриваются в работах В.Н. Буркова, Н.Г. Твердохлеба, В.Н. Шведенко, Д. О'Лири, И.Д. Ратмановой, М.Г. Левина, А. Леона.

Работа выполнялась в ОАО «Электроцентромонтаж», занимающемся проектированием, строительством и реконструкцией энергетических объектов, монтажом и наладкой электрооборудования. Промышленное внедрение и эксплуатация выполнялись в 4-х филиалах этой же организации.

Диссертационная работа соответствует паспорту специальности 05.13.12 «Системы автоматизации проектирования (по отраслям)», так как затрагивает следующие вопросы:

• научные основы построения средств автоматизации проектирования, безбумажного документооборота и процессов работы электронных архивов технической документации (пункт 7 областей исследований в паспорте специальности);

• научные основы реализации жизненного цикла «проектирование -производство - эксплуатация», построения интегрированных средств управления и унификации прикладных протоколов информационной поддержки;

• разработка принципиально новых методов и средств взаимодействия «проектировщик - среда».

Целью диссертационной работы является повышение скорости доступа к актуальной проектно-конструкторской и технической документации путём создания электронного архива документов, а также точности и скорости верификации документов при загрузке в архив путём использования уже накопленных в архиве знаний. При этом решались следующие задачи:

1. Разработка информационно-аналитической модели электронного архива, обеспечивающей хранение массивов технической документации объёмом порядка сотен тысяч документов, группировку документов в соответствии с ГОСТами серии СПДС, использующимися в энергетике.

2. Разработка метода анализа документов, позволяющего оптимизировать верификацию и структурировать документы путём извлечения и применения нечётких продукционных правил.

3. Разработка методов и средств поиска в электронном архиве, позволяющих построить полный набор документов по запросу пользователя при заданных ограничениях на время и общее количество документов.

4. Экспериментальная проверка разработанных моделей и методов путём реализации в программной системе электронного архива.

Методы исследования. Использовались методы Data Mining, нечёткой математики, теории баз данных, систем искусственного интеллекта.

Научная новизна.

1. Разработана информационно-аналитическая модель электронного архива, позволяющая хранить документы и извлекать знания в виде нечётких продукционных правил. Она отличается от существующих моделей хранения тем, что позволяет варьировать набор атрибутов документа для разных типов, учитывать соответствие атрибутов типов и создавать на их основе продукционные правила.

2. Разработан метод анализа атрибутивного состава технической документации, основанный на разработанной модели метаданных и включающий в себя алгоритмы создания наборов правил-ассоциаций (справочников) и поиска последовательностей. Он отличается от существующих алгоритмов Data Mining, например FP-Growth, Apriori и их разновидностей, тем, что учитывает структуру хранения документов и особенности технических документов.

3. Разработан метод решения задачи кластеризации в архиве. Использование кластеризации позволяет группировать документы в соответствии с ГОСТами, либо по индивидуальным запросам пользователей. Метод отличается от традиционных алгоритмов агломеративной

кластеризации тем, что вместо расстояния между точками использует разработанную модель метаданных, а также подготовленные на этапе анализа наборы продукционных правил. Это обеспечивает высокую скорость работы.

Практическая значимость работы.

1. На основе разработанной модели данных создана система электронного архива, позволяющая получать доступ к необходимым документам непосредственно с рабочих мест.

2. Применение методов извлечения знаний позволило сократить время верификации документов и увеличить скорость занесения документов в архив приблизительно на 25%, не увеличивая штат верификаторов. Метод позволяет извлекать знания с учётом того, что требуемые значения могут находиться в разных атрибутах, а также применять полученные знания при верификации без дополнительной интерпретации.

3. Разработанный метод поиска в архиве, использующий оригинальную схему взаимодействия компонент и дополнительные средства СУБД, обеспечивает построение полного списка документов по пользовательскому запросу при заданных временных ограничениях. Наличие атрибутивного и полнотекстового поиска позволяет учитывать многообразие технической документации и выпо�