автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Информационная технология электронного архивирования в региональных структурах государственной службы

кандидата технических наук
Магомедов, Гирай Абдулхаликович
город
Москва
год
2005
специальность ВАК РФ
05.25.05
цена
450 рублей
Диссертация по документальной информации на тему «Информационная технология электронного архивирования в региональных структурах государственной службы»

Автореферат диссертации по теме "Информационная технология электронного архивирования в региональных структурах государственной службы"

На правах рукописи

Магомедов Гирай Абдулхаликович

Информационная технология электронного архивирования в региональных структурах государственной службы

Специальность 05.25.05 - «Информационные системы и процессы, правовые аспекты информатики»

АВТОРЕФЕРАТ 1

диссертации на соискание ученой степени кандидата технических наук

Москва - 2005

Работа выполнена на кафедре информатизации структур государственной службы Российской академии государственной службы при Президенте Российской Федерации.

Научный руководитель: доктор технических наук, профессор

Колин Константин Константинович

Официальные оппоненты: доктор технических наук, профессор

Орлов Евгений Иванович

кандидат технических наук, доцент Шаров Юрий Леонидович

Ведущая организация: Дагестанский Государственный

Технический университет.

Защита состоится « ¿иС/О^__2005 года в

в аудитории_на заседании Диссертационного совета

Д.502.006.17 в Российской академии государственной службы при Президенте Российской Федерации по адресу: 119606, г.Москва, пр-кт Вернадского, д. 84, 2-й учебный корпус.

С диссертацией можно ознакомиться в библиотеке РАГС.

Автореферат разослан «_»_2005 года

Ученый секретарь диссертационного совета, доктор педагогических наук, кандидат физико-математических наук, доцент ^^—Митин А.И.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. В последние годы в региональных структурах государственного управления количество текстовой информации в электронном виде возросло настолько, что возникают существенные трудности оперативного доступа к требуемым сведениям и документам среди множества текстов, хранящихся в электронных архивах. Особые трудности возникают в тех случаях, когда необходимо оперативно найти достаточно большое количество документов не по формальным признакам, а по их содержанию. Характерным примером здесь может служить задача корректировки региональных законодательных и нормативных актов в связи с изменением федерального законодательства.

В настоящее время все большее распространение получают полнотекстовые базы данных с хранением графических образов документов. Существует широкий спектр предлагаемых решений, но, учитывая специфику функционирования учреждений государственной службы, возникает необходимость проведения перспективных исследований в области информационного поиска, начиная от построения глобальных распределенных информационных структур и поисковых систем и заканчивая элементарным анализом документов. Если в центральном регионе страны использование таких баз получает все более широкое распространение, то отсталость регионов в этом отношении можно измерить годами.

В данной работе предлагается научно-обоснованная методика создания полнотекстовых баз данных на основе текстовой информации, накопленной в электронном виде, и графических образов документов. При этом полнотекстовые базы данных рассматриваются как часть электронного фонда архивной службы со всеми приданными ему характеристиками. В основном такой массив текстов документов обычно возникает как результат сканирования текстов по частным заказам пользователей. С возрастанием объемов накопленной информации возникает задача смыслового поиска и экспертно-статистического анализа данных с целью предоставить пользователю возможность правильно ориентироваться в среде электронных фондов большого объема, а эксперту — возможность выделять подклассы текстов по заданной тематике.

Основная трудность создания, внедрения и эксплуатации информационной системы электронного архивирования порождается противоречивостью требований к информационному обеспечению со

стороны пользователей, имеющих отношение к управлению.

Существует еще один важный фактор, определяющий эффективность любого информационного поиска - это человеческий фактор. Во многом поиск определяется слабо формализуемыми и нечеткими условиями, в значительной степени зависящими от опыта и предпочтений самого человека.

Все это обуславливает актуальность и значимость исследования, направленного на решение проблемы информатизации подразделений структур государственной службы, связанных с поиском документов в архивах. Актуальность этой задачи отмечена в федеральных программах «Электронная Россия», «Единое информационное пространство», «Межведомственные архивы», в «Концепции информатизации архивного дела России» и других.

Степень научной разработанности проблемы. Проблемы использования метода структурного моделирования текстовой информации достаточно широко проанализированы в работах зарубежных и российских ученых: Борисова С, Яковлева С.А., Харламова А.А., Ермакова А.Е., Кузнецова Д.М., Дубинского А.Г., Сэлтон Г., Шенк Р., Круз И.

Развитие мирового рынка информации, правовых основ информационной работы, а также вопросы компьютерной семантики и использования тезаурусов и классификаторов в современных информационных системах рассмотрены в работах Шемакина Ю.И., Лукашевича Н.В., Некрестьянова И.С., Марон М.Е., Куне Дж.Л.

Вопросы процессно-ориенторованного моделирования, анализа и использования CASE-инструментов (Computer-Aided Software/ System Engineering) для проектирования информационных систем раскрыты в работах Данчула А.Н., Калянова Г.Н., Маклакова СВ., Черемных СВ. Информация о методологии функционально-структурного анализа и моделирования (SADT - Structured Analisys & Design Technique) содержится в работах Д.А. Марка и К.Макгоуэна.

Что же касается вопросов, связанных с решением задач поиска документов в массивах неструктурированных данных учреждений государственной службы, то следует отметить невысокий уровень разработанности этой проблемы, что связано с непрекращающимися реформами государственных структур и слабым финансированием перспективных исследований данного направления. Анализ существующих исследований, посвященных вышеуказанной задаче, выявил крайне незначительное число готовых и апробированных решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач анализа неструктурированной ее-

тественно-языковой текстовой информации произвольного содержания.

В диссертации рассматриваются системы обработки текстов, особенностями которых являются: предпочтение скорости обработки текстов точности семантического и морфологического анализа, статистический частотный анализ словоупотреблений. В основе функционирования системы положен разработанный в диссертации метод концептуальной обработки текстов.

В России работы по концептуальному анализу текстов только начинают проводиться. Главным образом они ведутся:

• в Институте проблем информатики РАН, где ведутся работы по

исследованиям в области концептуального поиска (И.М.

Зацман);

• в корпорации "Галактика";

• в компании "Гарант-Парк-Интернет";

• в компании "MediaLingua";

• в компании 'Yandex".

В основном это дорогие коммерческие системы, имеющие клиентов в рекламном бизнесе, федеральных органах управления и средствах массовой информации.

В настоящее время в стране сложилась ситуация, когда разнообраные информационные системы, начиная от систем поддержки принятия решений и заканчивая системами смысловой обработки текстов, получили широкое распространение в центре. Регионы же, в силу своей отсталости (как в части финансирования, так и в части острой нехватки квалифицированных специалистов) оставляют желать лучшего в области информатизации различных организаций и учреждений. Ведомства органов государственной власти не являются исключением из этого правила. Это делает целесообразным применение малобюджетных решений с привлечением специалистов для расширения возможностей систем под конкретные задачи. В данном случае рассматривается задача создания и эксплуатации системы электронного архивирования, в состав которой включаются также и средства концептуального анализа и поиска текстов.

Исходя из этого, в данном диссертационном исследовании была сформулирована следующая цель работы: исследование, разработка и научно-практическое обоснование информационной технологии электронного архивирования для повышения качества информационного обеспечения деятельности региональных структур госу-

дарственной службы.

В качестве объекта исследования рассматривается система электронного архивирования в региональных органах государственной службы. Предметом исследования являются процессы функционирования и развития автоматизированных информационных технологий электронного архивирования в структурах государственной власти субъекта РФ.

Для достижения поставленной цели в диссертации были поставлены и решены следующие задачи:

• проведен сравнительный анализ существующих систем электронного архивирования и выработаны рекомендации по выбору системы с учетом специфики деятельности региональных структур органов государственной власти;

• разработана технологическая схема процесса обработки информации в архивах региональных структур государственной службы;

• разработана функциональная модель информационной системы электронного архивирования;

• разработаны метод и алгоритм классифицирования документов по их концептуальному представлению.

Средства и методы исследования базируются на системном подходе к изучению объекта и предмета исследования с применением научных результатов, полученных в инобласти информационных технологий. В работе использованы модели и методы статистического анализа, различные модели поисковых систем и модель структурного представления текста.

Научная новизна результатов данной диссертационной работы заключается в разработке метода и алгоритма концептуальной обработки и поиска информационных объектов в электронном архиве, а также в проектировании информационной технологии электронного архивирования. Полученные результаты могут использоваться как при решении конкретных задач поиска документов, так и для решения других задач аналитического характера.

Разработанный метод и алгоритм позволяют значительно повысить точность и адекватность тематического анализа. Их реализация применительно к решению задач поиска документов позволяет значительно повысить качество и эффективность такого поиска.

Практическая значимость результатов исследования заключается в анализе системы управления документами для создания информационной системы электронного архива и применении разра-

ботанной схемы технологического процесса создания, хранения и обработки электронного архива в региональном органе государственного управления. Это подтверждено актом о внедрении результатов исследования в Комитете Правительства Республики Дагестан по делам архивов.

Время, затраченное на создание экспериментальной базы данных (общее число текстов около 1200) и концептуальную обработку текстов по методу, предлагаемому в диссертационном исследовании, составило три рабочих дня, тогда как на создание аннотаций этого же объема документов пришлось бы потратить не менее двух месяцев.

Основные положения, выносимые на защиту:

1. Информационная технология электронного архивирования и функциональная модель системы электронного архивирования в региональных учреждениях государственной службы.

2. Метод концептуальной обработки и поиска текстовых документов в электронных архивах, разработанные на основе модели структурного представления текстов.

Публикации. По теме диссертации опубликовано 5 научных статей.

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы, включающего 112 наименований. Общий объем работы составляет 128 страниц.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ.

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель" и задачи исследования, приведено краткое содержание работы.

Основной целью работы определено исследование существующих и разработка новой информационной технологии электронного архивирования для повышения качества информационного обеспечения деятельности структур государственной службы. Качество информационного обеспечения характеризуется следующими факторами:

- сокращением времени на ввод, обработку и поиск информации;

- повышением полноты, достоверности и релевантности искомой информации.

- возможностью получения аналитических справок из архива для обеспечения аналитической деятельности региональных структур государственной службы.

Во введении сделан также вывод о необходимости расширять возможности существующих в России систем электронного архивирования за счет включения в них средств концептуального анализа и поиска текстов.

В первой главе «Анализ состояния проблемы электронного архивирования в системе региональных органов государственной

службы» проведен анализ текущего состояния информационных систем электронного архивирования в некоторых учреждениях и ведомствах РФ, информационно-поисковых систем, современного состояния исследований в области поиска документов и существующих методов тематического анализа. Проведен анализ структуры органов государственного управления Республики Дагестан, выявлено место Комитета по делам архивов, его связи и основные функции.

В результате этого анализа составлена сравнительная таблица характеристик некоторых существующих систем электронного архивирования и сделаны выводы об основных достоинствах электронного архива:

- повышение полноты и оперативности отработки запросов к архиву;

- компактность и надежность хранения информации;

- возможность проведения оперативного анализа имеющейся информации, что, повышает обоснованность решений, принимаемых высшим и средним звеньями руководителей, которые сегодня полагаются, как правило, лишь на свой опыт и интуицию.

Особенно эффективным электроный архив оказывается при выполнении нестандартных нерегламентированных запросов. Можно отказаться от дорогостоящих хранилищ документов, сократить издержки и занимаемые площади. Сужение круга допущенных лиц, контроль и учет доступа к системе позволяет не только повысить сохранность, но и обеспечить безопасность конфиденциальной информации. Хранение документов в электронном виде приводит к тому, что ряд архивных функций, таких как, ксерокопирование, микрофильмирование, ведение автоматизированных картотек, будут вообще сокращены за ненадобностью.

В первой главе проанализирована специфика поиска информации в электронном архиве государственного учреждения, что позволило выявить следующие особенности функционировния электронных архивов в регональных структурах государственной службы:

- большое количество документов;

- повышенные требования к безопасности хранимой информации;

- высокая динамика обновления информации;

- наличие взаимосвязи между страницами отдельных документов,

реализуемой при помощи гиперссылок;

- разнородность пользователей.

С учетом этих особенностей в работе сформулированы основные требования к современным информационно-поисковым системам для региональных государственных учреждений и определены перспективные направления исследований.

В диссертации рассмотрены следующие основные модели поиска информации в электронных архивах:

- простейшие модели, в которых документ представляется в виде набора ассоциированных с ним внешних атрибутов;

- модели, основанные на классификаторах, где документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ;

- булевские модели поиска, особенностью которых является то,что пользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕ;

- векторные модели, где документы и запросы представляются векторами. Координаты вектора соответствуют термам текста — словам или словосочетаниям, принадлежащим словарю системы, составленной на основе общеязыковой или предметной лексики;

- вероятностные модели, которые имеют более строгую математическую основу. Особенность этих моделей состоит в том, что наивысшая общая эффективность поиска достигается в случае, когда результирующие документы ранжируются по убыванию вероятности их релевантности запросу;

- сети вывода, которые, как и вероятностные модели поиска, основаны " на принципе вероятностного ранжирования результирующих документов поиска. Однако в моделях сетей вывода рассматривается оценка не вероятности релевантности документа по запросу, а вероятности того, что он удовлетворяет информационным потребностям пользователя.

Разнообразие функциональных возможностей различных систем поиска связано с различием реализованных в них моделей поиска. Поэтому отдельные разновидности моделей текстового поиска рассматриваются в диссертационном исследовании достаточно подробно.

В настоящее время к системам текстового поиска информации в электронных архивов региональных структур государственной службы предъявляются новые требования, которые в обобщенном виде можно сформулировать следующим образом:

- способность эффективно работать с большими объемами архивных документов;

- обеспечение существенно улучшенного отображения содержания документов и пользовательских поисковых запросов;

- способность совместно обрабатывать текстовые документы с документами иной природы — графическими образами, изображениями, аудио, видео и другими;

- обеспечение эффективных методов поиска не только в статических коллекциях, но и в потоках документов.

Не все из этих требований можно удовлетворить в современных технологиях электронного архивирования. Тем не менее, они обязательно должны будут обеспечиваться в перспективных разработках.

Вторая глава «Функциональное моделирование информационной системы электронного архивирования и разработка метода концептуальной классификации текстов» посвящена разработке и теоретическому обоснованию функциональной модели электронного архива и метода концептуальной обработки текстов.

1. Функциональная модель системы электронного архивирова-ния.Первым этапом создания информационной технологии электронного архивирования является ее формализации в виде функциональной модели, при разработке которой учитывались следующие фундаментальные принципы, выработанные в мировой и отечественной практике проектирования сложных информационных систем.

Принцип первого лица, который предполагает построение системы, исходя из интересов и потребностей пользователей «сверху вниз» по иерархической лестнице. Это значит, что при наличии нескольких вариантов построения предпочтение отдается тому, где полнее и лучше учитываются интересы старшего по должности пользователя -или объем и качество услуг, предоставляемых вышестоящему по рангу руководителю, не хуже тех, которые предоставляются его подчиненным.

Принцип сжатия информации. По мере продвижения по иерархической лестнице объем сведений, представляемых для непосредственной обработки пользователем, сужается по сравнению с объемом первичных данных, существующих в самом нижнем по иерархии звене управления.

Принцип дуржественного интерфейса, который заключается в том, что должно быть организовано общение со средствами автоматизации на деловом естественном общепринятом языке, с использованием профессиональной терминологии.

Принцип однократного ввода информации в месте ее возникновения: информация о событии должна вводиться в систему один раз и только в том звене, где это событие возникает.

Главная особенность создания автоматизированных информационных систем состоит в концентрации сложности на начальных этапах анализа требований и проектирования спецификаций при относительно невысокой сложности и трудоемкости последующих этапов. Фактически здесь происходит понимание того, что будет делать будущая система, каким образом она будет работать, чтобы удовлетворить предъявляемые к ней требования. Нечеткость и неполнота системных требований, нерешенные вопросы и ошибки, допущенные на этапах анализа и проектирования, порождают на последующих этапах трудные, часто неразрешимые проблемы и, в конечном счете, часто приводят к неуспеху всей работы в целом. ,

Функциональная модель «как должно быть» интегрирует перспективные предложения руководства и сотрудников Комитета Правительства Республики Дагестан по делам архивов и позволяет сформулировать видение новых рациональных технологий работы данного учреждения. Данная модель базируется на технологической схеме обработки документов, разработанной на основании анализа деятельности структур Комитета по делам архивов и современных перспектив развития электронных документов и архивов.

Общее представление об обработке документов в ИС электронного архивирования дает страница модели «Принять, обработать, хранить документы» (рис. 1). Дополнительные возможности и особенности обработки данных, представленные в функциональной модели информационной системы электронного архивирования, заключаются в более эффективном хранении и использовании документированной информации для повышения качества информационного обеспечения деятельности структур государственной службы.

AUTHOR' Giray A. Magomedov PROJECT: АИС "Электронный архив"

NOTES: 123456789 10

DATE:11.10 200' REV: 23.12.200.

RECOMMENDED

PUBLICATION

DATE CONTEXT:

A-0

S о

©

al я J= s о s

tr*

a

S3 ¡0

s

о ta a Sa c u ta <г

О

a a о

о

•8

X

s w m

нормативные документы no . правилам обработки и хранения документов

АО

TITLE:

принять, обработать, хранить

На рис. 2 показана декомпозиция блока обработки текстов, на выходе которого формируется объединенное множество ключевых слов - поисковая форма документа. Преимущество предлагаемого метода заключается в дополнении частотно значимых слов контекстно-связанными с ними словами, что позволяет более точно определить тематику текста В настоящее время документы региональных органов государственной власти, как правило, хранятся в бумажном виде, но большинство из них имеют электронную копию в различных подразделениях и учреждениях. Пользователи, в основном, работают с бумажными документами. Поэтому на переходном этапе к безбумажной технологии автоматизированная система документационного обеспечения управления должна поддерживать оба вида работы с документами. При традиционном исполнении документов возникают два информационных потока. Первый поток связан с движением и обработкой самих документов, второй — сформирован на основе электронных регистрационных карточек документов. При этом оба информационных потока объединяются в поток карточек с «прикрепленными» электронными копиями документов и набором ключевых слов, а оригиналы документов хранятся в системе отдельно и не могут быть удалены или модифицированы.

Весь информационный массив документов в региональных органах государственной власти, накопленный за многие годы, нецелесообразно переводить в электронный вид в связи с большой трудоемкостью этой работы. Более целесообразным представляется осуществление поэтапной замены бумажных документов на электронные в соответствии с частотой обращения к ним пользователей.

Переход на архивное хранение электронных документов даст возможность осуществления удаленной работы и коллективного использования необходимых данных, выполнения атрибутивного и полнотекстового поиска, ускорения проведения анализа требуемой информации, поддержки составных документов

Дополнительное снижение стоимости хранения данных обеспечит использование различных видов электронных носителей информации (жесткие диски, оптические диски, магнитооптические диски и т.д.) и соответствующего программного обеспечения, которое позволит обеспечить автоматическую миграцию документов в зависимости от частоты обращения к ним пользователей.

s

О

£ ж о 2 а

0

U

5 J3

s

ío

01

Í3

о

X в

0

6

и

01

о

й s ч

О X о H t»

2. Методконцептуальной классификации текстов.

Предлагаемый в диссертации подход к тематической классификации текстовой информации основывается на том, что словарный запас и частоты использования слов зависят от тематики текста. В настоящее время данная гипотеза успешно используется в методах поиска, ориентированных на тематику.

Тематическая классификация предполагает выделение множества ключевых слов, определяющих тематику текста. При этом каждому из них приписывается свой вес, определяющий значимость данного слова в тематике. Иначе говоря, какие-то ключевые слова играют большую роль в определении тематики, какие-то меньшую, но именно такая совокупность слов, с такой значимостью каждого из них в тематике и определяет тематическую направленность данного текста.

Предлагаемый подход обеспечивает снижение размерности решаемой задачи за счет перехода от основного текста к его представлению в виде множества ключевых слов, приближенно описывающих его содержание. Это необходимо, в частности, для последующей тематической идентификации текстов при поиске информации.

Ключевые слова определяются по количеству их вхождений в текст, а именно - частота ключевых слов в тексте выше частоты других слов. В рамках рассматриваемой модели структурного представления текста это будет означать, что именно ключевые слова характеризуют информационный поток, а информационные элементы, соответствующие этим словам, имеют большее количество связей с другими информационными элементами текста.

Проблема заключается в определении порога, который отделяет ключевые слова от всех остальных. В работе рассматривается гипотеза о том, что правильное машинное представление тематики текста должно включать в себя не только ключевые слова, но и контекст этих слов, так как смысл любого слова определяется исключительно в контексте тех слов, которые употреблялись вместе с ним, рядом по тексту. И сами по себе ключевые слова в отрыве от их контекста не отражают в полной мере тематической направленности текста. Ведь одно и то же слово, присутствующее в запросе и искомом документе, может нести в себе совершенно разные значения. Поэтому сравнение весовых коэффициентов оказывается недостаточным для корректного вычисления тематической близости.

Рассмотрим общую последовательность разработанного в диссертации алгоритма, реализующего предлагаемый метод. В качестве примера обработаем следующий текст:

«Информационное обслуживание регионального уровня заклю-

чается во взаимодействии с государственными органами, федеральными органами исполнительной власти на территории субъекта и местным самоуправлением. Управление на этом уровне направлено на рациональное размещение производства, углубление специализации и комплексное развитие территорий, выравнивание уровней их экономического и социального развития, решение других задач государственной региональной политики и обеспечивается разграничением прав и ответственности между федеральными и региональными органами власти (законодательными и исполнительными), Аппаратами Президента и Правительства.»

1. Формирование информационной структуры текста. Текст рассматривается в виде информационного потока, образованного информационными элементами - словами. Если последовательно брать слова из текста, начиная с самого первого и кончая последним, то это как раз и будет информационный поток. При этом набор всех слов в тексте можно выделить в конечное множество информационных элементов: I = , где 1 - информационный элемент соответст-

Рис. 3. Фрагмент информационной структуры текста.

вующий уникальному слову текста. Информационные элементы в потоке могут повторяться. Информационный элемент должен однозначно соответствовать слову из текста. Фрагмент структуры, отражающий фразы «с государственными органами, федеральными органами исполнительной власти» и «(законодательными и исполнительными), Аппаратами» приведен на рис. 3. Стрелками показана последовательность слов, а возвраты означают их повторения.

2. Получение множества всех информационных элементов, ранжированных по числу их повторений в тексте. Проводится подсчет повторяемости всех информационных элементов. Полученные результаты можно представить в виде таблицы (табл. 1), в котором отображены все слова (графа 1) и частота их встречаемости в тексте (графа 3).

Таблица 1. Фрагмент таблицы результатов подсчета и ранжирования

3. Получение базового множества ключевых элементов М¡. Из множества всех информационных элементов, полученных на предыдущем этапе, выбираются п первых (п определяется на основе заданной пороговой величины частоты встречаемости слова), которые и составят базовое множество ключевых слов М( = {к^, кг^г, кп'п}-

При этом весовые коэффициенты к|, кг.....кп определяют значимость

того или иного информационного элемента в данном тексте.

Для конкретного примера определим порог, равный единице. Это означает, что в дальнейшем будут рассматриваться те слова, у которых наивысшая частота встречаемости в тексте. В данном случае это будут три слова - «региональный», «уровень» и «орган» - с весовыми коэффициентами, равными 3. В случае, если порог равен двум, результатом будут девять слов с коэффициентами 3 или 2 соответственно частоте встречаемости.

4. Формирование уточняющего множества Мг, на основе контекстного анализа информационных элементов множества М¡. Выделяется в набор Л(1) множество всех потоков, проходящих через информационный элемент 1 в некоторой заданной окрестности о

Объединяются все наборы А(1) для каждого 1 в один общий набор Л(М1):

А(М,) = ^¡^М^О^]^ п(М,)

В результате получается общий набор У, включающий в себя все потоки, проходящие через информационные элементы множества

М1 в некоторой заданной окрестности о.

Исключаются все информационные элементы из У, принадлежащие

Теперь из набора информационных элементов У выделяется множество информационных элементов М2. При этом учитывается количество повторяющихся информационных элементов, и для каждого элемента множества Мг записывается число их повторений: Мг = {к^ь к212, кп1п}, где коэффициенты кь к2, ..., к„ перед ! - это число повторений этих информационных элементов.

На рис. 4 приведен пример выделения окрестности информационного элемента ц некоторой информационной структуры, при о = 1.

Рис. 4. Выделение связных слов.

Для данного примера Мг = {¡зв, Ы, Ь, ¡5, ¡19, ¡п}- Если анализируется текст, то это означает, что для некоторого слова определяются все его соседние слова в тексте в пределах некоторого диапазона - окрестности о (вперед и назад по тексту). После этого подсчитываются повторения всех слов, которые встретились в диапазоне каждого из вхождений. Число повторений затем используется для определения весов этих слов в тексте.

Для тех трех слов, выделенных на предыдущем этапе, учитывая заданную окрестность — 2, результат этого шага можно свести в таблицы (табл. 2). Для каждого слова в общее множество М2 выделены слова из окрестности с учетом их уникальности.

региональный уровень орган

уровня ¡4 3 регионального ■3 3 регионального ■3 3

органами |8 3 органами ■8 3 уровня |4 3

государственники! » 2 государственными 17 2 государственными 17 2

федеральными <9 2 федеральными 19 2 федеральными 19 2

исполнительной Л1 2 территории-'-* -- ь „ ИЗ 2 исполнительной ■ 11 2

власти Н2 2 обслуживание 12 1 власти ■ 12 2

информационное ■1 1 заключается 15 1 взаимодействии 16 1

обслуживание 12 1 взаимодействии 16 I задач >34 1

заключается 15 . 1 самоуправлением .16 1 ответственности 141 1

взаимодействии * ¡6 ) управление (17 1 законодательными 14« 1

управление 11? ' 1 направлено 119 1 аппаратами >48 1

направлено 119 - ■V 820-1-: 1

экономического <» 130, - т выршйванШЙ!-:. -128 - 1-

задач 134 г экономического 130 1

политики 137 1 социального г 1

обеспечивается 138 1 политики 137 1

ответственности 141! >

Таблица 2. Окружение трех ключевых слов

5. Получение общего множества ключевых элементов, определяющих тематику данного текста • М= М/ иМг

В данном примере результирующим является множество информационных элементов М (рис.5.), объединяющего множество Мь представленное тремя словами, и множество Мг-

Полученное общее множество ключевых элементов опре-деляет тематику тек-ста. Весовые коэффициенты обуславливают значимость того или иного информационного элемента в данной тематике.

Значение слова определяется по его контексту, по тем словам, которые употреблялись вместе с ним. Одно и то же слово, присутствующее в двух разных документах, может нести в себе совершенно раз-

1 Л

18 J

государственными 17 2 \

федеральными 19 2

исполнительной |И 2

власти <12 2

территории 113 2

власти 112 2

информационное |1 1

обслуживание |2 1

заключается 15 1

взаимодействии ■6 1

управление 117 1 [>м2

направлено 1)9 1

экономического ■30 I

задач 134 1

политики 137 1

обеспечивается 138 1

ответственности >41 1

самоуправлением 116 I

рациональное 120 1

выравнивание >28 1

социального |31 1

законодательными ■46 1

аппаратами ■48 1 )

Рис.5. Итоговое множество - образ текста.

ный смысловой оттенок. Поэтому простого сравнения весовых коэффициентов недостаточно для корректного вычисления тематической близости, необходимо еще учитывать контекст слов.

В данной главе диссертации приводится также методика работы автоматизированной системы электронного архивирования, включая разработанный метод концептуальной обработки текстов.

В результате использования предлагаемой системы полнотекстовые электронные архивы становятся частью поискового пространства, доступного пользователю на более высоком уровне. Кроме поиска по словам из текстов, пользователь получает дополнительную возможность находить тексты, близкие к его запросу по своей тематике. В качестве запроса может также выступать произвольный полный текст, внешний по отношению к архивной базе данных или же текст из этой базы.

Третья глава «Практическая реализация результатов диссертационного исследования» посвящена результатам реализации в Комитете Правительства Республики Дагестан по делам архивов информационной системы электронного архивирования с использованием разработанного метода концептуальной обработки текстов. В ней рассмотрены вопросы организации функционирования электронного архива и поиска в нем информации на основе полученных в диссертации научных и практических результатов.

Рассмотрен способ организации поиска документов с помощью стандартных, уже хорошо отработанных методов, реализуемых в настоящее время поисковыми системами. В частности, это вариант векторной модели поиска или взвешенной булевой модели. Такой вариант поиска предполагает формирование поискового запроса, состоящего из множества ключевых слов, которое формируется с помощью приведенного в работе метода концептуальной обработки текстов. Этот метод применен при создании электронного архива для хранения документов вместе с их подготовленными поисковыми образами, а также при формировании поисковых запросов пользователей. На его основе формируется поисковый запрос, который и отрабатывает поисковая система.

Рассмотрены основные этапы предварительной обработки текста, которая включает:

— выделение отдельных слов из текста;

- исключение часто используемых слов, не характеризующих основную тематику текста. Дело в том, что в текстах существует большое количество слов, используемых в качестве союзов, предлогов, местоимений и т.д. Как правило, эти слова не определяют

тематику текста, но при этом являются частотно-значимыми. Это затрудняет выделение ключевых слов на основе анализа статистики слов. Такие слова традиционно исключаются поисковыми системами при анализе документов. Данная процедура выполняется на основе предварительно составленного списка наиболее часто встречающихся слов в документах - списка игнорируемых слов;

- приведение слов к базовой форме. Например, слова: «власти», «властям» и т.д., заменяются одним словом - «власть».

После предварительной обработки текста, выполняется его тематический анализ по приведенному ранее методу.

В качестве экспериментального исследования возможности практической реализации описанного метода концептуальной обработки текстов рассмотрен актуальный на сегодняшний день вопрос подготовки и внесения изменений в региональное законодательство в связи с принятием Федерального Закона №122-ФЗ от 22.08.2004г, получившего широкий общественный резонанс в России и более известного как закон «о монетизации льгот».

Для поиска региональных законов и подзаконных актов, в той или иной степени связанных с указанным выше Законом, был применен разработанный в диссертации метод концептуальной обработки документов. Массивом ключевых слов для поиска документов, подлежащих корректировке, послужил сжатый образ самого закона (с изменениями от 29 ноября, 21, 29, 30 декабря 2004г.). После обработки и поиска документов было выявлено 136 региональных документов, связанных с данным Федеральным Законом. Проведенная экспертной комиссией Комитета по делам архивов оценка результатов, занявшая в общей сложности 8 человеко-дней, показала полное соответствие полученных результатов искомым документам. При этом из всего количества найденных документов невостребованными оказались всего два, а дополнять полученные результаты документами из архива, учитывая заполненность последнего на момент проведения экперимента, вообще не потребовалось.

По оценке этой же экспертной комиссии Комитета по делам архивов, на поиск всех подлежащих поправке документов традиционными методами было бы затрачено не менее одного месяца. Ведь использование этих методов подразумевает поиск в архиве стандартными средствами плюс ручной поиск и дополнительную обработку результатов. Поиск стандартными средствами, как правило, выдает большое количество документов, не связанных напрямую с исполнением федерального закона. Поэтому результаты такого поиска

приходится не только дополнять, но и сокращать за счет исключения невостребованных документов.

Таким образом, в результате проведенного эксперимента выявлена не только актуальность, но и практическая эффективность применения предлагаемого метода концептуального поиска информации в электронных архивах текстовых документов. Полученные результаты свидетельствуют о том, что имеется реальная возможность во много раз снизить затраты времени пользователей на поиск необходимых им документов, а также повысить релевантность этого поиска. А это и является свидетельством достижения цели диссертационной работы - повышения качества информационного обеспечения деятельности региональных структур государственной службы.

Результаты экспериментального исследования позволяют также сделать вывод о том, что применение разработанного в диссертации метода концептуальной обработки документов принципиально возможно и в других видах текстовых электронных архивов.

В заключении приведены основные результаты, полученные в ходе исследования:

1. На основании проведенного исследования выявлена специфика электронных архивов органов государственной власти, обоснована методика выбора системы архивирования и СЛ8Е-средств для проектирования информационной системы.

2. Разработана схема технологического процесса обработки документов в неструктурированных массивах данных.

3. Разработана функциональная модель процесса функционирования электронного архива для совершенствования информационного обеспечения органов государственной власти субъекта Российской Федерации.

4. Разработан метод и алгоритм классифицирования документа по его концептуальному представлению.

5. Полученные результаты работы и разработки применены в исследовании информационных ресурсов Комитета Правительства РД по делам архивов и в проекте создания информационной системы электронного архивирования.

В работе предложена методика создания полнотекстовых баз данных с хранением графических образов документов на основе текстовой информации, накопленной и воссозданной в электронном виде. Разработанный метод концептуальной классификации текстов позволяет выделять тематику текста в виде множества ключевых слов с весами, характеризующими значимость каждого слова.

Эффективность предлагаемой методики наглядно подтверждается данными таблицы 3, в которой приведены результаты прак-

тической апробации данного метода.

_Таблица 3.

Повышение релевантности найденных документов

(с 72 до 81%)_до 10 %

Оптимизация рабочего времени по сбору и поиску документов от 10 до 30 %

Сокращение затрат времени на внесение изменений

_до 90 %

Повышение количества оперативно анализируемых документов с 35 до 100 %

Дополнительно:

- Организация централизованного хранения

- Непосредственная доступность точной информации

- Защита от несанкционированного доступа к документам

По результатам диссертационной работы в целом можно сделать следующие основные выводы:

1. Современный электронный архив, используемый в региональных органах государственной службы, должен представлять собой интеллектуальную автоматизированную систему, обеспечивающую хранение и использование как текстовых баз документов, так и баз графических образов, электронных карточек и поисковых форм документов, тесно связанных между собой.

2. Полнотекстовый анализ информации является необходимой частью современной системы электронного архивирования, обеспечивающей информационную поддержку деятельности региональных органов управления. Он может существенным образом повысить качество этой поддержки и сократить время, затрачиваемое пользователями на поиск информации при решении многих аналитических задач.

3. Задачи семантического анализа текстов относятся к слабофор-мализованным и должны решаться с применением новейших средств и методов обработки текстовой информации.

В работе даны также рекомендации по применению автоматизированной системы электронного архивирования в региональных структурах государственной службы и показана эффективность их практического использования.

По теме диссертации опубликованы следующие работы:

1. Магомедов Г.А. Концепция построения электронного архива //Информационные ресурсы России, №5, 2003. - С 16-17.

2. Магомедов Г.А. Актуальные проблемы внедрения и использования электронных архивов в структурах государственной службы //Вестник Дагестанского научного центра РАН , №15, 2003.-С. 49-56.

3. Магомедов Г.А. Концептуальная обработка информации //Аспирант и соискатель. №5,2004.-С. 293-296.

4. Магомедов Г.А. Информационное обеспечение государственного управления //Техника и технология, №5, 2004.- С. 44-49.

5. Магомедов Г.А. Электронные архивы современных предприятий //Информационные технологии в управлении информационными системами: Сборник статей под общей редакцией д.т.н., профессора А.Н.Данчула.-М.:РАГС, 2004. -С. 135-141.

Автореферат

Диссертация на соискание ученой степени кандидата наук Магомедова Гирая Абдулхаликовича

Тема диссертационного исследования Информационная технология электронного архивирования в региональных структурах государственной службы

Научный руководитель доктор технических наук, профессор Колин Константин Константинович

Изготовление оригинал-макета Магомедов Г.А.

Подписано в печать Тираж экз. Уел п л. а

&Г7 ¿>{. РГг

Российская академия государственной службы при Президенте Российской Федерации

Отпечатано ОПМТРАГС. Заказ № 119606, Москва, пр-кт Вернадского, д 84

ы.

194 U

о9 НЮ/1 2005 V-^CS.

¿¿Zjiurtit 1

S

1644

Оглавление автор диссертации — кандидата технических наук Магомедов, Гирай Абдулхаликович

ВВЕДЕНИЕ.

Глава I. Анализ состояния проблемы электронного архивирования в системе региональных органов государственной службы.

1.1. Специфика современных региональных систем органов государственного управления.

1.2. Понятие и структура информационного обеспечения государственного управления.

1.3. Анализ информационных систем электронного архивирования в некоторых учреждениях и ведомствах.

1.4. Обзор моделей поиска и методов тематического анализа текстовой информации.

1.4.1. Модели поиска.

1.4.2. Методы тематического анализа текстовой информации

1.5. Выводы по главе 1.

Глава II. Функциональное моделирование информа-ционной системы электронного архивирования и разра-ботка метода концептуальной классификации текстов.

2.1. Функциональная модель системы электронного архивирования.

2.1.1. Разработка технологической схемы процесса обработки документов.

2.1.2. Основные принципы и проблемы проектирования информационной системы электронного архивирования.

2.1.3. Существующее состояние электронного архивирования.

2.1.4. Основы функционального моделирования системы электронного архивирования.

2.1.5. Функциональная модель разрабатываемой системы электронного архивирования.

2.2. Метод и алгоритм концептуальной классификации текстов.

2.3. Реализация алгоритма концептуальной обработки.

2.3. Выводы по главе II.

Глава III. Практическая реализация результатов диссертационного исследования.

3.1. Проблемы внедрения автоматизированной системы электронного архивирования в региональных структурах государственной власти.

3.2. Технологический процесс сбора и обработки информации.

3.3. Разработка основных компонентов системы электронного архивирования органов регионального управления.

3.4. Последовательность операций при создании и ведении базы данных в разработанной системе электронного архивирования.

3.5. Перспективы развития системы электронного архивирования в современных структурах региональных органов власти.

3.6. Выводы по главе III.

Введение 2005 год, диссертация по документальной информации, Магомедов, Гирай Абдулхаликович

Актуальность диссертационного исследования. Глобальный процесс, получивший название "информатизация общества", оказывает влияние на все стороны жизни общества. Главное, что отличает этот процесс, заключается в приобретении информацией статуса фундаментального фактора существования человечества. Если ранее жизнь и прогресс человечества зависели в основном от материального производства, то теперь они невозможны без максимального использования информации во всех ее видах. Информационный фактор быстро приобретает почти такую же значимость, как и материальный.

Именно поэтому сегодня на первый план должны быть поставлены не проблемы дальнейшей технизации общества, а проблемы его интеллектуализации, создания и использования новых социальных технологий, основанных на активизации и эффективном использовании главного стратегического ресурса человечества - информационного ресурса.

В]

Изменились общественные потребности в информации, одним из следствий чего стала коренная трансформация делопроизводства в государственных учреждениях. Оно все более превращается в одну из мощных и важнейших, отраслей индустрии информации, оснащаемую новейшей компьютерной и телекоммуникационной техникой, нетрадиционными носителями информации, высокоэффективными автоматизированными технологиями ее обработки и использования.

Кардинальные социально-экономические и политические преобразования в России и в мире, ориентация на использование новых информационных технологий меняют положение структур государственной службы в обществе, расширяют и усложняют ее функции и задачи. Учреждения государственной службы в настоящее время являются основой для создания в России новой информационной инфраструктуры.

Современное государственное учреждение является сложной информационной системой, состоящей как из традиционных, так и новых, нетрадиционных информационных подсистем. Важную роль среди новых информационных подсистем государственного учреждения играет электронный архив (ЭА), и его создание является приоритетной целью автоматизации архивов. Именно ЭА открывает быстрый и качественный доступ к информационным ресурсам государственного учреждения. Качество и эффективность ЭА определяются комплексом методов и средств, составляющих технологию его создания и исполЗэаюаишбразом, актуальна научная проблема, решению которой посвящено данное исследование: выработка концепции ЭА и разработка методов и средств, составляющих технологию внедрения ЭА, соответствующих тенденциям развития информационных технологий и ориентированных на реальную практику их использования. Эти методы и средства должны соответствовать тенденциям развития информационных технологий и быть ориентированы на реальную практику их использования.

Целью работы является разработка новой информационной технологии электронного архивирования для повышения качества информационного обеспечения деятельности структур государственной службы.

Качество информационного обеспечения характеризуется следующими факторами:

- сокращением времени, затрачиваемого на ввод, обработку и поиск информации;

- повышением полноты, достоверности и релевантности искомой информации;

- возможностью получения аналитических справок из архива для оперативного анализа деятельности структур государственной службы.

Разработанность проблемы. Начало процесса создания ЭА относится к 1960-1962 гг., когда ряд средних и малых библиотек США, преимущественно в учебных заведениях, независимо друг от друга приступили к разработке систем машиночитаемых архивов и средств доступа к ним. В 1963 г. с принятием программы MARC (MAchine-Readable Cataloguing - машиночитаемая архивизация) в Библиотеке Конгресса США этот процесс приобретает упорядоченный и направленный характер.

В России первые попытки создания ЭА относится к началу 1970-х годов, они связаны с исследованиями в области форматов по обмену библиографическими записями в ГПНТБ.

Теоретические и практические проблемы создания ЭА в течение длительного времени разрабатывают такие видные зарубежные ученые, как Henriette D. Avram, Hugh С. Atkinson, Cyril Cleverdon, Donald S. Cul-bertson, Richard de Gennaro, Franc W. Lancaster, Gerard Saltón, L. Syre и другие. Крупномасштабные проекты по созданию ЭА реализованы и реализуются в Библиотеке Конгресса США, Британской библиотеке, региональных и вузовских библиотеках США и стран Западной Европы. Особо следует отметить достижения в этой области библиотеки университета штата Огайо, ставшей ядром крупнейшей библиотечной сети OCLC (Online Computer Library Center) и центром масштабного распределенного ЭА.

В нашей стране основы решения проблемы создания ЭА заложены и в трудах P.C. Гиляревского, Д.Г. Лахути, В.П. Леонова, A.B. Соколова,

А.И. Черного. Теоретические и практические вопросы создания ЭА рассматриваются в работах А.Б. Антопольского, Ф.С. Воройского, Б.С. Елепова, Н.Е. Каленова, О.А. Лавреневой, Я.Л. Шрайберга и др., постоянно обсуждаются на международных конференциях и семинарах, среди которых следует отметить ежегодную Крымскую конференцию и конференции, проводимые в РГБ и РНБ. Масштабные проекты по созданию ЭА реализуют Аппарат Президента РФ, Счетная палата РФ, многие подразделения различных министерств РФ и другие крупнейшие государственные учреждения страны. Координация проектов осуществляется в рамках федеральных программ «Электронная Россия», «Единое информационное пространство», «Межведомственные архивы», «Концепции информатизации архивного дела России».

Проблемы использования метода структурного моделирования текстовой информации достаточно широко проанализированы в работах зарубежных и российских ученых: Борисова С., Яковлева С.А., Харламова А.А., Ермакова А.Е., Кузнецова Д.М., Дубинского А.Г., Сэлтон Г., Шенк Р., Круз И., и др.

Развитие мирового рынка информации, правовых основ информационной работы, а также вопросы компьютерной семантики и использования тезаурусов и классификаторов в современных информационных системах рассмотрены в работах Шемакина Ю.И., Лукашевича Н.В., Некрестьянова И.С., Марон М.Е., Куне Дж.Л.

Вопросы процессно-ориентированного моделирования, анализа и использования CASE-инструментов (Computer-Aided Software/System Engineering) для проектирования информационных систем раскрыты в работах Данчула А.Н., Калянова Г.Н., Маклакова С.В., Черемных С.В. Информация о методологии функционального анализа и моделирования

SADT - Structured Analisys & Design Technique) содержится в работах Д.А. Марка и К.Макгоуэна.

В настоящее время в России разработано много автоматизированных управленческих систем (АУС) различного уровня сложности и масштаба. Среди таких систем можно выделить ИРБИС, "Библиотека", МАРК, решающие задачу комплексной автоматизации государственного учреждения и содержащие стандартные средства создания и ведения ЭА, принятые для архивных баз данных. Среди зарубежных массовых систем наиболее известны: ALEPH, DYMX (HORIZON), GEAC, INNOPAC, Liber, TinLib, VTLS. Анализ описаний большинства из перечисленных АУС показал, что в них, как правило, отсутствуют эффективные средства поиска и исправления ошибок и автоматизированного индексирования [13].

Что же касается вопросов, связанных с решением задач поиска документов в массивах неструктурированных данных учреждений государственной службы, то следует отметить невысокий уровень разработанности этой проблемы, что связано с непрекращающимися реформами государственных структур и слабым финансированием перспективных исследований данного направления. Анализ существующих исследований, посвященных вышеуказанной задаче, выявил крайне незначительное число готовых и апробированных решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач анализа неструктурированной, естественноязыковой текстовой информации произвольного содержания.

Современные системы анализа текстов, особенностью которых являются: предпочтение скорости обработки текстов точности семантического и морфологического анализа, статистический частотный анализ словоупотреблений - можно выделить в отдельный класс, к которому относится и система, разрабатываемая в данной работе и включающая разработанный метод концептуальной обработки текстов.

В России работы по концептуальному анализу текстов только начинают проводиться. Главным образом они ведутся:

• в Институте проблем информатики РАН, где ведутся работы по исследованиям в области концептуального поиска (И.М. Зацман)

И];

• в корпорации "Галактика", где разработана автоматизированная система поиска и аналитической обработки информации "Galaktika-ZOOM";

• в компании "Гарант-Парк-Интернет", где разработаны программные продукты для анализа и классификации текстов, автоматического реферирования, морфологического, синтаксического и семантического анализа текста, для навигации по большим массивам текстов;

• в компании "MediaLingua", где разработана интеллектуальная система "СЛЕДОПЫТ", служащая для быстрого поиска текстовых фрагментов документов в больших объемах информации. В качестве запроса могут использоваться фразы на естественном языке;

• в компании "Yandex", где предлагается набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского и английского языков. Средства предназначены для работы с большими объемами русских или английских текстов всех типов в виде файлов различных форматов, полей баз данных и страничек Интернета. Подробные сведения об этих и других распространяемых программных продуктах содержатся в каталоге, составленном C.B. Логичевым [15]. Каталог включает описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных в Интернете.

В основном, это дорогие коммерческие системы, имеющие клиентов в рекламном бизнесе, федеральных органах управления и средствах массовой информации.

В настоящее время в стране сложилась ситуация, когда разнообраные информационные системы, начиная от систем поддержки принятия решений и заканчивая системами смысловой обработки текстов, получили широкое распространение в центре. Регионы же, в силу своей отсталости, как в части финансирования, так и в части острой нехватки квалифицированных специалистов, оставляют желать лучшего в области информатизации государственных организаций и учреждений. К сожалению, специфика современных региональных систем органов государственного управления делает комплексное лицензионное использование новейших технологий маловерятным, что обуславливает актуальность создания достаточно простой и мобильной в применении технологии электронного архивирования. Отсюда можно сделать вывод о целесообразности применения малобюджетных решений с привлечением специалистов для расширения возможностей систем под конкретные задачи. В данном случае рассматривается задача создания и эксплуатации системы электронного архивирования, в состав которой включаются также и средства концептуального анализа и поиска текстов.

Объект исследования представляет собой систему электронного архивирования в региональных органах государственной службы, как сложную метаинформационную систему. Предметом исследования являются процессы функционирования и развития автоматизированных информационных технологий электронного архивирования в структурах государственной власти субъекта РФ. Границы исследования определяются областью автоматизированных систем электронного архивирования в региональных структурах государственной службы.

Для достижения поставленной цели в диссертации следует решить следующие задачи:

• провести сравнительный анализ существующих систем электронного архивирования и выработать рекомендации по выбору системы с учетом специфики деятельности региональных структур органов государственной власти;

• разработать технологическую схему процесса обработки информации в архивах региональных структур государственной службы

• разработать обобщенную функциональную модель процесса функционирования информационной системы электронного архивирования.

• разработать метод и алгоритм концептуальной обработки текстовых документов.

Научная новизна результатов данной диссертационной работы заключается в разработке метода и алгоритма концептуальной обработки и поиска информационных объектов в электронном архиве, а также в проектировании информационной технологии электронного архивирования. Полученные результаты могут использоваться как при решении конкретных задач поиска документов, так и для решения других задач аналитического характера. Разработанный метод и алгоритм позволяют значительно повысить точность и адекватность тематического анализа. Их реализация применительно к решению задач поиска документов позволяет значительно повысить качество и эффективность такого поиска.

В работе предложен единый подход к технологии создания электронного архива, основанный на систематическом применении методов автоматизации всех этапов делопроизводства в государственном учреждении [13]. Помимо разработанного в работе метода обработки текстов, технология электронного архивирования включает в себя:

- контроль и корректировку вводимых библиографических записей;

- индексированию библиографических данных с созданием поисковых образов документов;

- повышение уровня распознаваемости и автоматизированной коррекции данных при ретроконверсии карточных архивов.

Практическая значимость заключается в анализе системы управления документами для создания информационной системы электронного архива и применении разработанной схемы технологического процесса создания, хранения и обработки электронного архива в региональном органе государственного управления. Это подтверждено справкой о внедрении результатов исследования в Комитете Правительства Республики Дагестан по делам архивов.

Ценность полученных результатов также состоит в том, что они обеспечивают пользователей средствами, позволяющими:

- ускорить процесс создания электронного архива за счет сокращения клавиатурного ввода;

- снизить количество недоступных документов в ЭА на основе применения метода концептуальной обработки текстов, разработанного в настоящем исследовании.;

- обеспечить высокорезультативный поиск документов в ЭА с применением новой технологии;

- обеспечить эффективную аналитическую деятельность подразделений региональных органов государственной службы

Диссертация состоит из введения, трех глав, заключения и списка литературы состоящей из 112 наименований. Общий объем работы составляет 128 страниц.

Заключение диссертация на тему "Информационная технология электронного архивирования в региональных структурах государственной службы"

3.6. Выводы по главе III.

В третьей главе рассматриваются вопросы практической реализации автоматизированной системы электронного архивирования в региональных структурах государственной власти на примере Комитета по делам архивов при Правительстве Республики Дагестан. Основная задача связана с включением в нее подсистемы, реализующей концептуальную обработку документов для обеспечения аналитической деятельности Комитета и повышения информационного обеспечения государственных структур регионального уровня в целом.

Из рассмотренного в главе материала можно кратко резюмировать следующее:

- разрабатываемые в российских научных кругах концепции и проекты систем информационной поддержки органов управления отмечают слабое обеспечение управления для устойчивого развитием регионов и несовершенство систем информационного обеспечения деятельности администраций регионов;

- ввиду ограниченности ресурсов и необходимости постоянного поддержания информационного обеспечения руководства на уровне не хуже существующего, предлагается разбить решение проблемы на две очереди. В рамках первой очереди реализации проекта решаются проблемы совершенствования системы сбора и первичной обработки информации, для чего производится соответствующая предварительная обработка документов по разработанному методу;

- результатом деятельности Комитета являются поддерживаемые в актуальном состоянии базы данных по определённой руководством тематике, электронные библиотеки первично рубрицированной информации и тематические подборки информации в электронном и бумажном виде;

- технология обработки информации складывается из операций приёма и регистрации входящей информации, ввода информации в систему и преобразования её к единому электронному виду, первичной верификации, рубрикации корреспонденции и её диспетчирова-ния, ведения электронных библиотек и баз данных, подготовки, вёрстки, корректуры и выпуска оперативных сводок и тематических подборок информации по установленной руководством номенклатуре, а также их последующей регистрации и рассылки адресатам.

Заключение.

Работа посвящена решению актуальной задачи совершенствования и повышения эффективности автоматизированной информационной системы электронного архивирования на основе формирования и использования информационных ресурсов Администрации Государственного совета и Правительства Республики Дагестан для повышения качества информационного обеспечения деятельности региональных структур государственной службы.

Информационная система электронного архивирования создается на базе перспективных информационных технологий, включает в себя разработанный в работе метод концептуальной обработки документов, что позволяет существенно улучшить показатели эффективности деятельности аналитических служб органов региональной власти. Она является функционально полной, обеспечивает образование единого информационного пространства, дающего пользователям средства эффективной, совместной работы с электронными документами архивного фонда.

В работе рассмотрены теоретические и практические вопросы решения задач поиска документов по образцу. Разработан метод концептуальной обработки документов и его алгоритм, что позволяет реализовать тематическую классификацию документа. Предложенные метод и алгоритм могут использоваться как для решения конкретных задач поиска документов по образцу, так и для решения общих задач тематического анализа и обработки текстовой информации. Они позволяют значительно повысить точность и адекватность тематического анализа. Их реализация применительно к решению задач поиска документов позволяет значительно повысить качество и эффективность такого поиска.

На основе проведенных исследований разработана технологическая схема обработки документов в электронном архиве, что послужило основой для построения функциональной модели системы электронного архивирования.

Получены следующие результаты диссертационного исследования.

• проведен сравнительный анализ существующих систем электронного архивирования и выработаны рекомендации по выбору системы с учетом специфики деятельности региональных структур органов государственной власти;

• разработана технологическая схема процесса обработки информации в архивах региональных структур государственной службы

• разработана нормативная функциональная модель процесса функционирования информационной системы электронного архивирования.

• разработаны метод и алгоритм классифицирования документов по их концептуальному представлению.

В диссертации заложен базис для дальнейшей теоретической и практической реализации методик опытной оценки адекватности и эффективности методов и алгоритмов тематической обработки.

В качестве направлений дальнейших исследований можно выделить разработку методологии оценки качества и эффективности концептуального анализа тематической классификации.

Библиография Магомедов, Гирай Абдулхаликович, диссертация по теме Информационные системы и процессы, правовые аспекты информатики

1. Конституция Российской Федерации.

2. Постановление Правительства РД от 08.01.2002 №9 "О республиканской программе "Развитие архивного дела в Республике Дагестан на 2001-2005 годы".

3. Постановление Правительства РД от 15.04.2003 № 98 "Об утверждении состава коллегии Комитета Правительства Республики Дагестан по делам архивов"

4. Конституция Республики Дагестан. Принята Конституционным Собранием РД 26 июля 1994 года. С изменениями от 22.03.1996г., 01.10.1996г., 24.03.1998г., 25.09.2000г.

5. Постановление Правительства Российской Федерации «О федеральной целевой программе «Электронная Россия (2002-2010 годы)» » №65 от 28 января 2002.

6. Федеральный закон «Об электронной цифровой подписи».

7. Регламент Правительства Республики Дагестан.

8. Положение об Администрации Государственного Совета и Правительства Республики Дагестан.

9. Автоматизация работы архивов на основе системы LanDocs. М.: Материалы компании «Ланит», 2001.

10. Аглицкий Д.С., Аглицкий И.С. Российский рынок информационных технологий: проблемы и решения. М.: ЛАМИНФО, 2000.

11. Современные методы и средства проектирования информационных систем. М.: Финансы и статистика, 1998.

12. Колин К.К. Информатика сегодня и завтра: фундаментальные проблемы и информационные технологии.

13. Степанов Е.А. Некоторые документоведческие проблемы защиты информации. Документы в административных структурах. М., Посткриптум, 2002.

14. Зацман И.М. Концептуальный поиск и качество информации. М.:Наука, 2003.

15. Каталог лингвистических программ и ресурсов в сети http://davidsonyuliya. boom.ru /catalog.htm, Версия 1.6 от 16 июля 2002г.

16. Никитов В.А., Орлов Е.И., Старовойтов A.B., Савин Г.Н. Информационное обеспечение государственного управления / Под редакцией академика РАН Ю.В. Гуляева.- М.: «Славянский диалог», 2000. С. 14.

17. Сэлтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. М.:Советское радио, 1973.

18. Когаловский М.Р. Энциклопедия технологий баз данных. -М.:Финансы и статистика, 2002.

19. ГОСТ Р 6.30 97. Унифицированные системы документации. Унифицированная система организационно-распорядительной документации. Требования к оформлению документов.

20. ГОСТ 34601-90. Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Стадии создания.

21. ГОСТ Р 54141- 98. Делопроизводство и архивное дело. Термины и определения.

22. Поппель г., Голдстайн Б. Информационная технология -миллионные прибыли. М., 1990.

23. Магомедов Г.А. Концепция построения электронного архива//Информационные ресурсы России, №5, 2003. С 16-17.

24. Магомедов Г.А. Актуальные проблемы внедрения и использования электронных архивов в структурах государственной службы //Вестник Дагестанского научного центра РАН , №15, 2003.- С. 49-56.

25. Магомедов Г.А. Концептуальная обработка информации //Аспирант и соискатель. №5, 2004.-С. 293-296.

26. Магомедов Г.А. Информационное обеспечение государственного управления //Техника и технология, №5, 2004.- С.

27. Магомедов Г.А. Электронные архивы современных предприятий //Информационные технологии в управлении информационными системами: Сборник статей под общей редакцией д.т.н., профессора А.Н.Данчула.-М.:РАГС, 2004. -С. 135-141.

28. Лаптев Г. Электронные хранилища: Россия подключена к программам ЕС. Журнал Cnews, http://www.cnews.ru

29. Вендров A.M. Проектирование программного обеспечения экономических информационных систем. М.: Финансы и статистика, 2000.

30. Глушков В.М. Основы безбумажной технологии. М.: Наука, 1982.

31. Глушенко В.В. Менеджмент: системные основы. Московская обл., г.Железнодорожный, НПЦ «Крылья», 1996.

32. Шемакин Ю.И. Семантика саморганизующихся систем. Академический проект, 2003.

33. Данчул А.Н., Домрачев С.А. Процессно-ориентированные методы анализа систем. М.: РАГС, 1997.

34. Делопроизводство. Рабочие документы и архивы. Архитектура. M.:InterTrust, 2000.

35. Единая система электронного документооборота «КОДЕКС: ДОКУМЕНТООБОРОТ». СПб.: Материалы консорциума «Кодекс», 2002.

36. Завьялов В.Е., Петров A.B., Тихомиров М.М. Системы информационно -аналитической поддержки кадровых решений. М.: РАГС, 1999.

37. Захарченко H.H., Минеева Н.В. Основы системного анализа. 41. СПб:, I 1992.

38. Информационные технологии в структурах государственной службы. Сборник научных трудов кафедры. Выпуск 1. М.: РАГС, 1995.

39. Казаков СИ. Основы сетевых технологий. М.: Микроин-форм, 1995. Калянов Г.Н. CASE структурный системный анализ (автоматизация и применение). М.: «ЛОРИ», 1996.

40. Калянов Г.Н. Консалтинг при автоматизации предприятий (подходы, методы, средства). М.: «СИНТЕГ», 1997.

41. Карминский A.M., Нестеров П.В. Информатизация бизнеса. М.: Финансы и статистика, 1998.

42. Козлов В.А. Открытые информационные системы. М: Финансы и статистика, 1999.

43. Кудряев В.А. и др. Организация работы с документами. М.: ИНФРА-М, 1998.

44. Кулопулос Т.М. Необходимость Workflow. Решения для реального бизнеса. М.: Весть-Метатехнология, 2000.

45. Литвак Б.Г. Экспертные оценки и принятие решений. М.: Патент, 1996.

46. Маклаков СВ. Bpwin и ERwin. CASE средства разработки информационных систем. М: ДИАЛОГ-МИФИ, 2000.

47. Марка Д., МакГоуэн К. Методология структурного анализа и проектирования. М., 1993.

48. Матвеев Л.А. Информационные системы: поддержка принятия решений. СПб.: Изд-во СПб УЭФ, 1996.

49. Мескон М.Х., Альберт М., Хедоури Ф. Основы менеджмента. М.: Дело, 1993.51 .Методология IDEF1X. Информационное моделирование. М.: МетаТехнология, 1993.

50. Мингалев B.C. Общие закономерности и тенденции доку-ментообразования в социально-экономических системах управления. Учебное пособие. М.: МГИАИ, 1983.

51. Надеев А.Т. Основы системного анализа. Н.Новгород, 1993.

52. Пахчанян А. Внедрение систем электронного документооборота: проблемы и решения. Директор информационной службы, №1,2002.

53. Пестрецов А.А. Сравнительный анализ программных систем делопроизводства и документооборота для автоматизации российских органов государственной власти, предприятий и учреждений. Методическое пособие. М.: ВНИИДАД, 1998.

54. Решения Documentum для автоматизации органов государственной власти. М.: Материалы ЗАО «Документум Сервисиз», 2001.

55. Саймон Г.А., Смитбург Д.У., Томпсон В.А. Менеджмент в организациях. М.: РАГС «Экономика», 1995.

56. Саттон М.Дж.Д. Корпоративный документооборот: принципы, технология, методология внедрения. СПб.: Азбука, 2002.

57. Селезнев M.JI. Информационно-вычислительные системы и их эффективность. М.: Радио и связь, 1986.

58. Aalbersberg I.J. Incremental relevance feedback. In Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 11-22, 1992.

59. Aggarwal С. C., Al-Garawi F., Yu P. S. Intelligent crawling on the world wide web with arbitrary predicates. In Proc. of the WWW 10, pp. 96-105, May 2001.

60. Agichtein E., Lawrence S., Gravano L. Learning search engine specific query transformations for question answering. In Proc. of the WWW10, pp. 169-178, 2001.

61. Allan J. Incremental relevance feedback. In Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR '96), pages 298-306, April 1996.

62. Amento B., Terveen L., Hill W. Does "authority" mean quality? Predicting expert quality ratings of web documents. In Proc. of the SIGIR'OO, pp. 296-303, 2000.

63. Arasu A., Cho J., Garcia-Molina H., Paepcke A., Raghavan S. Searching the web. ACM Transactions on Internet Technology, 1(1 ):2-43, Aug. 2001.

64. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.

65. Baker D. and McCallum A. Distributional clustering of words for text classification. In Proceedings of the SIGIR'98, pages 96-103, 1998.

66. Bharat K., Broder A. A technique for measuring the relative size and overlap of public Web search engines. In Proc. of the WWW7, 1998.

67. Bharat K., Broder A. Z., Dean J., Henzinger M. R. A Comparison of Techniques to Find Mirrored Hosts on the WWW. IEEE Data Engineering Bulletin, 23(4):21-26, 2000.

68. Brown E.W. Execution Perfomance Issue in Full-Text Information Retrieval: Dissertation. University of Massachusetts. Departament of Computer Science. February 1996.

69. Callan J. Learning while filtering documents. In Proc. of SIGIR'98, pages 224-231, Melbourne, Australia, 1998.

70. Chakrabarti S., Berg M., Dom B. Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery. In Proc. of the WWW8, May 1999.

71. Chang H., Cohn D., McCallum A. K. Learning to Create Customized Authority Lists. In Proc. of the ICML'OO, pp. 127-134, 2000.

72. Cho J., Garcia-Molina H. The Evolution of the Web and Implications for an Incremental Crawler. The VLDB Journal, pp. 200-209, 2000.

73. Cho J., Shivakumar N., Garcia-Molina H. Finding replicated Web collections. In Proc. of the SIGMOD'OO, pp. 355-366, 2000.

74. Cohn D., Chang H. Learning to Probabilistically Identify Authoritative Documents. In Proc. of the ICML'OO, pp. 167-174, 2000.

75. Craswell N., Bailey P. Is it fair to evaluate Web systems using TREC ad hoc methods? In Proc. of the SIGIR'99, 1999.

76. Craswell N., Hawking D., Robertson S. Effective site finding using link anchor information. In Proc. of the SIGIR'01, 2001.

77. Cruz I. F., Borisov S., Marks M. A., Webb T. R. Measuring Structural Similarity Among Web Documents: Preliminary Results. In Proc. of the EP'98, pp. 513-524, 1998.

78. Czumaj A., Finch I., Gasieniec L., Gibbons A., Leng P., Rytter W., Zito M. Efficient Web Searching Using Temporal Factors. In Proc. of the WADS'99, pp. 294-305, 1999.

79. Davison B. D. Topical locality in the Web. In Proc. of the SIGIR'00, pp. 272-279, 2000.

80. Dean J., Henzinger M. Finding Related Pages in the World Wide Web. In Proc. of the WWW8, 1999.

81. Ding L., Shivakumar N. Computing Geographical Scopes of Web Resources. In Proc. of the VLDB'00, Sep 2000.

82. Dreilinger D., Howe A. E. Experiences with Selecting Search Engines Using Metasearch. ACM Transactions on Information Systems, 15(3): 195-222,1997.

83. Dublin Core Metadata Element Set Reference Description, Version 1.1, 1999-07-02. http:/purl.org/dc/documents/proposedrecommen dations/pr-dces-19990702.html.

84. Dumais S. Latent semantic indexing: TREC-3 report. In Proc. of the Third Text REtrieval Conference, 1995.

85. Edwards J., McCurley K., Tomlin J. An adaptive model for optimizing performance of an incremental web crawler. In Proc. of the WWW10, pp. 106-113, May 2001.

86. Finkelstein L., Gabrilovich E., Matias Y., Rivlin E., Solan Z., Wolfman G., Ruppin E. Placing search in context: the concept revisited. In Proc. of the WWW10, pp. 406-414, 2001.

87. Flake G., Lawrence S., Giles C. L. Efficient Identification of Web Communities. In Proc. of the SIGKDD'00, pp. 150-160, Aug. 2000.

88. Foltz P.W. Using latent semantic indexing for information filtering. In ACM Conference on Office Information Systems (COIS), pages 40-47, 1990.

89. Gibson D., Kleinberg J. M., Raghavan P. Inferring web communities from link topology. In Proc. of the UK Conference on Hypertext, pp. 225-234, 1998.

90. Gravano L. Querying Multiple Document Collections Accross the Internet. PhD thesis, Stanford University, Aug 1997.

91. Gruber T. A translation approach to portable ontology specifications. Knowledge Acquisition, 5(2), 1993, pp. 199-220.

92. Harman D. Latent semantic indexing (LSI) and TREC-2. In Proc. of the Second Text REtrieval Conference, 1994.

93. Hatano K., Sano R., Duan Y., Tanaka K. An Interactive Classification of Web Documents by Self-Organizing Maps and Search Engines. In Proc. of the DASFAA'99, pp. 35-42, 1999.

94. Hatzivassiloglou V., Gravano L., and Maganti A. An investigation of linguistic features and clustering algorithms for topical document clustering. In Proc. of the SIGIR'2000, 2000.

95. Haveliwala T. Efficient computation of PageRank. Technical report, Stanford Database Group, Oct. 1999.

96. Hawking D., Craswell N. Which Search Engine is best at finding Online Services? In Proc. of the WWW 10, 2001.103 .Hawking D., Craswell N., Bailey P., Griffiths K. Measuring Search Engine Quality. Information Retieval, 4(l):33-59, 2001.

97. Hawking D., Craswell N., Thistlewaite P. B., Harman D. Results and Challenges in Web Search Evaluation. In Proc. of the WWW8, pp. 243-252, 1999.

98. Tajima K., Mizuuchi Y., Kitagawa M., Tanaka K. Cut as a Querying Unit for WWW, Netnews, and E-mail. In Proc. of Hypertexte, pp. 235-244, June 1998.

99. The 25th ACM SIGIR 2002 Conference, 11-15 August 2002, Tampere, Finland, http://www.sigir2002.org/html/aresofinterest.htm

100. Turtle H. R. Inference Networks for Document Retrieval. Dissertation. University of Massachusetts. Department of Computer and Information Science. February 1991.

101. Voorhees E., Harman D. Overview of the ninth text retrieval conference. In Proc. of the TREC9, pp. 1-15, 2000.

102. Yang Y., Pederson J. Feature selection in statistical learning of text categorization. In Proc. of the ICML'97, pages 412-420, 1997.

103. Zeinalipour-Yazti D., Dikaiakos M. High-Performance Crawling and Filtering in Java. In Proc. of the 8th Panhellenic Conference on Informatics, volume 2, pp. 377-386, Nov. 2001.

104. Zhang D., Dong Y. An efficient algorithm to rank web resources. In Proc. of the WWW9, pp. 449-455, 2000.

105. Zonghuan W., Weiyi M., Clement Y., Zhuogang L. Towards a highly-scalable and effective metasearch engine. In Proc. of the WWW10, 2001.