автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Методы адаптации и интеграции при эволюции больших информационных систем

кандидата технических наук
Цыганов, Андрей Михайлович
город
Москва
год
2009
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Методы адаптации и интеграции при эволюции больших информационных систем»

Автореферат диссертации по теме "Методы адаптации и интеграции при эволюции больших информационных систем"

0034092 1Э

На правах рукописи

Цыганов Андрей Михайлович

МЕТОДЫ АДАПТАЦИИ И ИНТЕГРАЦИИ ПРИ ЭВОЛЮЦИИ БОЛЬШИХ ИНФОРМАЦИОННЫХ СИСТЕМ (НА ПРИМЕРЕ ЦЕРН)

05.13.17 - «Теоретические основы информатики»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

1 7 дек 2003

Москва - 2009

003489219

Работа выполнена на кафедре "Математическое обеспечение автоматизированных систем управления" Государственного образовательного учреждения высшего профессионального образования «Московский государственный университете путей сообщения» (МИИТ).

Научный руководитель: доктор технических наук,

профессор Виктор Васильевич Доенин

Официальные оппоненты: доктор технических наук,

профессор

Александр Викторович Суворов

кандидат технических наук, доцент Николай Владимирович Коробков

Ведущая организация: Московский Государственный Университет Приборостроения и Информатики (МГУПИ),

Защита диссертации состоится «16» декабря 2009 в 1530 часов на заседании диссертационного совета Д 218.005.04 в Московском государственном университете путей сообщения (МИИТ) по адресу: 127994, г. Москва, ул. Образцова, д. 9, стр. 9. ауд. 4518

С диссертацией можно ознакомиться в библиотеке МИИТа

Отзывы на автореферат в двух экземплярах, заверенные печатью, просим

направлять по адресу диссертационного совета университета

Автореферат разослан «16» ноября 2009 г.

Ученый секретарь Диссертационного совета д.т.н.

В.Г. Сидоренко

Общая характеристика работы.

Актуальность темы. Одной из основных задач современной прикладной информатики является модернизация, модификация и оптимизация существующих на данный момент информационных систем (ИС), а также их адаптация к постоянно развивающимся информационным и программным технологиям. В то же время функционирование систем должно осуществляться в полном объеме при решении, как новых, так и уже давно сформировавшихся задач.

Существенной является методика выделения и классификации задач для организации новых подсистем и модулей в современных ИС, а также применение различных эвристических и математических моделей для решения подобных задач. Для этих целей приходится учитывать не только задачи, поставленные в прошлом, и задачи, которые были поставлены в данный конкретный момент времени, но и аспекты системы, которые могут потребовать модернизации, переработки или доработки в будущем. Быстрое развитие различных подходов к решениям проблем в информационном мире требует от современного разработчика глубоких теоретических и практических знаний. Таким образом, описание как теоретических, так и прикладных подходов к модификации ИС в различных промышленных, научных, финансовых и т.д. областях представляет собой одну из наиважнейших задач современных информационных технологий. На текущий момент большинство корпоративных ИС представляют собой огромные автоматизированные программные комплексы, для поддержания которых затрачиваются большие человеческие и временные ресурсы. Любая новая разработка в системах подобного рода представляет немалую опасность для их функционирования, поскольку каждое изменение может в той или иной степени затронуть всю систему в целом.

Современные корпорации тратят значительные финансовые и временные ресурсы для поддержания той информационной структуры, которая обеспечивает эффективную работу при этом решение многих задач так и остается на внутрикорпоративном уровне. Немаловажным аспектом, для описания и предоставления информации является открытость ИС. Наилучшим примером могут служить информационные разработки множества университетов и научно-исследовательских институтов. Одним из лидеров в этой области является Европейский центр ядерных исследований - ЦЕРН. Именно в этом институте родилась концепция WWW (World Wide Web), впоследствии превратившаяся в Интернет (Internet) или Всемирную Паутину. Эта концепция вывела информационные технологии на принципиально новый уровень развития.

В представленной диссертации детально рассматриваются две ИС ЦЕРН, относительно которых и была выполнена работа: EDH и EDMS.

Система EDH (Electronic Document Handling) является системой административного документооборота в институте ЦЕРН. Это приложение относится к классу Web систем и поддерживает циркуляцию электронных документов в ЦЕРНе. Система EDH реализована на языке Java с использованием J2EE архитектуры. Ключевым элементом EDH является система маршрутизации при утверждении конкретных документов. Маршруты подписей документа

основываются на типе документа и свойствах сущности, которую он описывает (стоимость, бюджет и т.д.).

Система EDMS (Engineering Document Management System) - система инженерного документооборота. Основными функциями системы является хранение различных инженерных документов (чертежей, схем и т.п.), а также поддержание полной информации о процессе строительства LHC. Данная система относится к классу PLM (Product Lifecycle Management) систем. PLM система отвечает за хранение и поддержку информационных компонентов LHC на протяжении всего их жизненного цикла, и эти описания должны быть постоянно доступны для всех заинтересованных лиц. Система EDMS так же является Web-приложением. Web-интерфейс системы является надстройкой над коммерческими продуктами: Axalant (Agile's Axalant Product Lifecycle Management) и Datastream7i (Datastream's D7i Asset Tracking). Необходимо отметить, что оба коммерческих продукта используют СУБД Oracle для хранения информации.

Объектом исследования Модели программных продуктов, которые можно использовать для больших ИС в процессе их эволюции

Предмет исследования - информационные системы ЦЕРН (EDH и EDMS).

Цель работы - разработка алгоритмических и программных модулей, обеспечивающих модификацию ИС ЦЕРН в процессе их эволюции.

, Задачи исследования:

- Анализ основных аспектов эволюции современных ИС на примере И С

. ЦЕРН в области систем электронного документооборота.

- Разработка и применение эволюционных моделей ИС для проектирования модулей, отражающих временную и событийную структуру ИС.

- Разработка методов синхронизации ИС, и применения моделей транспортных процессов для логического описания реализации синхронизации в неоднородной информационной среде.

- Внедрение методов модификации и адаптации в поисково-отчетных системах.

- Разработка методов ранжирования результатов поисковых запросов в ИС, на основе структурирования набора правил.

- Реализация предлагаемых подходов к решению задач поиска информации по базам данных.

Научная новизна исследования.

- Показана эффективность применения транспортных моделей для логического описания синхронизации ИС в неоднородной

' информационной среде.

■■■ - Решены задачи описания сохранения состояний ИС при их эволюции.

- Решены задачи адаптации поисково-отчетных систем при реструктуризации программных кодов. ¡

- Разработана модификация моделей ранжирования результатов контекстных поисковых запросов в системах со структурированным наборам правил.

Практическая значимость исследования. В рамках уникального проекта по созданию самого большого в мире ускорителя элементарных частиц LHC разработаны оригинальные программные модули, позволившие более эффективно использовать ИС ЦЕРН. Эти же разработки применимы для решения прикладных задач информатики при взаимодействии различных ИС друг с другом. Модули, описание которых приводится в данной работе, внедрены в производственную эксплуатацию и используются в рамках ИС ЦЕРН. Разработанные модули расширили функциональные возможности соответствующих систем. Кроме того, при разработке и проектировании программных модулей учитывалась дальнейшая перспектива эксплуатации и эволюции ИСЦЕРН.

Достоверность результатов. Достоверность результатов приведенных в диссертации подтверждена опытом их использования в производственной эксплуатации в рамках ИС ЦЕРН (акты о внедрении имеются в тексте диссертации).

Апробация работы. Результаты работы докладывались на научных конференциях Московского Инженерно-физического Института (2005 - 2008гг.), на научных и рабочих семинарах ЦЕРН, на международных конференциях по информационным технологиям в ядерной физике и физике высоких энергий (СНЕР - Computing in High Energy and Nuclear Physics) (2007 г - г. Виктория, Канада; 2009 г - г. Прага, Чехия), на научных семинарах и конференции Московского Государственного Университета путей сообщения.

Публикации. Основные результаты диссертации опубликованы в 21 печатной работе: 8 статей в российских и зарубежных журналах, в том числе в изданиях, рекомендованных ВАК — 2, 8 тезисов докладов на российских и международных конференциях, а также 5 презентаций докладов на научных семинарах ЦЕРН.

Структура и объем диссертационной работы.

Диссертация состоит из Введения, четырех глав, Заключения, списка цитируемой литературы (172 наименований), списка публикаций автора rio теме диссертации. Работа изложена на 145 страницах машинописного текста, включая 77 рисунков и 6 таблиц.

В главе I приведена краткая ретроспектива эволюции информационных технологий и ИС. Рассмотрены аспекты современных форматов проектирования, возможных архитектур построения информационных систем. Приводится общее описание ключевых информационных технологий, которые имеют отношение к данной работе. Более широко представлены аспекты, связанные с базами данных. Кроме того, дан анализ задач, решаемых в ЦЕРН, в том числе задач прикладной информатики. Определена важность адаптивного процесса модификации и развития в уже существующих ИС в процессе их эволюции.

В главе II представлена модель эволюционных систем, а также модификация данной модели в рамках поставленной задачи. Описана реализация модели в рамках системы EDH для модуля резервного сохранения и восстановления электронных документов. Представлена конечная реализация и результат мониторинга модуля во время эксплуатации.

В диссертации в качестве базовых математических описаний эволюционных систем (основная задача которых - полное сохранение своих состояний в любой момент времени) были использованы модели, предложенные голландскими учеными Оей (J. L. Oei), Пропером (Н. A. Proper) и Фалкенбергом (Е. D. Falkenberg). Модели эволюционных систем основываются на понятиях времени события Т., времени записи события Тг и транзакции. В общем случае время события и время записи события различно. Соответствующие события (рис. 1) в ИС, подразумевающие транзакции применительно к модели состояний приложения (Application Model State (AMS)), происходят на так называемом "уровне события". Последовательность таких переходов состояний приложения называется историей приложения.

Рис 1. АМБ транзакции на уровне событий Ь. Ое/, Н. А.Ргорег, Е. £).

Ра1кепЪег%).

На рис.1 , АМ5К, АЖ2- состояния, е,,е2 - события, вызвавшее изменение, /,,/г - время изменения состояния

Отсюда следует, что в модели приложения каждой последовательности случившихся событий может быть присвоена соответствующая история АМН (Application Model History). Запись событий должна быть произведена в надлежащее состояние перехода в ИС (рис. 2).

AMHistory0 AMHistory, AMHistory2

Н^Ц' UMsy^Um) i ",Tl >:' шщ^О^У^ищ \

\\_/al'l \__J ! \\_A'1 V._/ al'l \__У ;

''-—''Rec^ at/;) .............-*' Rec(ег at/2)..........................''

Рис 2. АМН переходы на уровне записи (J. L. Oei, Н. A. Proper, Е. D.

Falketiberg),

На приведенном рисунке Rec(e,att,) означает момент записи события е, в , момент I,. Данная модель описывает состояния системы при возврате системы на ' определенный момент времени в прошлом. При этом происходит либо дублирование, либо потеря информации.

Работа реализованного модуля разделяется на два независимых процесса: сохранение документов и их восстановление. Принципиальная разница между ними заключается в том, что сохранение документов идет в постоянном фоновом режиме во время работы пользователя, т.е. сохранение различных состояний документа - это внутренний системный процесс. В отличие от этого, восстановление утерянных данных происходит по желанию пользователя, т. е. процесс восстановления является внешне инициируемым. В диссертации представлены блок схемы алгоритмов функционирования этих двух процессов. Данный модуль рассматривается в рамках модели эволюционных систем. В реализованном подходе любая транзакция приводит к возникновению нового состояния системы. При этом все состояния оказываются упорядоченными последовательно относительно записи события. В таком случае время мож^т быть использовано для именования состояний. Обозначим запрос на восстановление состояния системы AMS,, как Recover(AMS,). Допустим поступил запрос на восстановление состояния системы в состояние AMSX. Тогда, последовательность событий принимает вид, представленный на рис. 3.

Рис. 3. Модификация модели эволюционных систем в райках модуля сохранения и восстановления документов EDH

Таким образом, в системе появляется новое состояние AMS,, которое содержит ссылку на AMHistoiy, и, в конечном счете, соответствует AMS,. Важно отметить, что при данном подходе возможно восстановление системы в одно и то же историческое AMS, состояние несколько раз.

Эта процедура была успешно реализована в рамках системы EDH. В результате получено гибкое решение проблемы восстановления утраченной информации в системах основанных на трехзвенной архитектуре. Следует отметить, что этот подход применим также в ИС с другими программными архитектурами с учетом поправок на конкретную реализацию. Модуль разрабатывался, как новая подсистема функционирующей ИС EDH. Одной из важнейших поставленных задач была адаптация механизма сохранения и восстановления электронных документов без понижения показателей производительности и функциональности системы EDH. В связи с этим были внесены коррективы в базовый механизм EDH. В диссертации представлены блок-схемы и обоснование этих изменений.

Механизм работы модуля следующий. Резервное сохранение документов происходит при каждой передаче данных от Web-клиента к V/еЬ-серверу через протокол передачи гипертекста (HTTP). Такая передача данных при редактировании документа происходит в среднем каждые 2 секунды. После того, как пользователь начал создавать или редактировать документ, все изменения автоматически сохраняются в базе данных и используются при восстановлении информации. При восстановлении сохраненные данные преобразуются в запрос HTTP, содержащий всю необходимую информацию о документе и о сессии пользователя. На основе этого запроса начинается процесс восстановления документа на определенный момент времени.

Актуальность проблемы сохранения и восстановления документов, а также эффективность использования предложенных в работе процедур и модуля, подтверждаются приведенными на рис. 4-5-7 статистическими данными

ш 50000

0 <5000

1 40000 5 35000

зоооо

г 25000 ц 20000 о 15000 ¥ 10000 5 5000

£ о

Месяц

.. 900000 О 800000 С 700000 2 600000 ю 500000

3 400000 О 300000

» 200000

с 100000

2 о

Месяц

Рис. 4. Количество документов, обработанных модулем резервного сохранения и восстановления в системе ЕОН по месяцам за полгода

Рис. 5. Количество пользовательских действий, обработанных модулем резервного сохранения и восстановления в системе ЕОН по месяцам за полгода

X

140

| | 100 £

Л4 л* & А4 С? <ъ-

Время суток

160 140 120 100 80 60 40 20 0

соазоэоэетоэсосодасосооэ ооооаооооооо оооооооооооо сдиисчмммиысчсчм

Дата и время

Рис. 6. Распределение количества действий пользователей в системе ЕОН за один день 01.12.2008

Рис. 7. График распределения действий пользователей в системе ЕОН по времени за неделю

Приведенные графики позволяют оценить объем обрабатываемой информации, а также подтверждают непрерывность обработки событий в модуле.

Разработанный модуль позволяет застраховать систему от определенного класса сбоев, повышает ее контролируемость, а также делает возможным сбор детальной статистической информации на одном из наиболее важных участков работы системы БОН - непосредственной работы пользователей с электронными документами. В тексте диссертации приведены различные статистические срезы работы модуля. Несколько примеров из такой статистической информации за полугодовой период представлены на рисунках 4-7.

Таким образом на основе предложенного в работе подхода решена актуальная проблема восстановления информации для разных состояний документов, причем это может происходить многократно.

В главе III рассмотрены модели синхронизации ИС в неоднородной информационной среде и применение транспортных моделей для описания процессов в такой системе. Представлены алгоритмы синхронизации содержания групп пользователей в системе EDMS. Рассмотрены основные аспекты проблематики синхронизации данных между взаимосвязанными базами данных в рамках большой организации.

Разработанный модуль автоматической синхронизации групп пользователей (АФСГП) в системе EDMS является примером организации взаимодействия ИС в неоднородной информационной среде. Для упрощения описания введен ряд основных понятий и определений. Внешний источник данных - любая информационная система или внешнее хранилище требуемой информации. Внешняя группа - группа пользователей во внешнем источнике данных. Группа доступа - группа пользователей в системе EDMS.

EDMS взаимодействует с различными системами ЦЕРН (административной системой, системой рассылок и т.п.), в каждой из которых определены группы пользователей, составленные по различным принципам. Задача модуля АФСГП -синхронизация состава групп доступа с составом внешних групп, а также сопровождение списка групп доступа (создание, удаление и модификация). Рассмотрим основные принципы работы этого модуля.

Модуль АФСГП состоит из двух разделов хранимой информации. Первый раздел содержит реплики всех доступных внешних групп для каждого внешнего источника данных и пользователей, принадлежащих к этим группам. Эта информация хранится в отношении один ко многим (одной группе принадлежит множество пользователей) в специальной структуре данных - Synchronization Buffer Storage (SBS) - буфер хранения внешней информации для процесса синхронизации. Второй раздел регистрирует отношения между внешними группами и группами доступа, снова подразумевая отношение один ко многим (группа доступа состоит из множества внешних групп). При этом поддерживается иерархическая структуру на группах, т.е. для каждой группы известно, подгруппой каких групп она является. Каждая внешняя группа, а также каждая группа доступа имеет свой уникальный идентификатор, который известен. Каждая группа доступа может состоять из одной или нескольких внешних групп. Следует особо отметить, что в SBS для каждой сконфигурированной группы доступа создается ее реплика, которая регистрируется как внешняя группа. Таким образом, при создании новой группы доступа можно базироваться на внешних группах, которые соответствуют уже существующим группам доступа. Для корректной реализации данного механизма в АФСГП применен важный принцип: группы доступа EDMS также являются внешними группами АФСГП. Поскольку, иерархия групп в АФСГП представляет собой древовидную структуру, то необходимо учитывать возможность образования циклов при составлении групп доступа на всех уровнях структуры (рис. 8).

Зарегистрирована группа доступа 2, которая состоит из внешней группы А (внешняя группа А является репликой группы доступа 1). Для группы доступа 2 регистрируется ее реплика -внешняя группа С.

В группу доступа 1 вносится изменение и делается попытка включения в нее группы С.

Рис. 8 Простейший пример цикла, при формировании групп доступа.

Процедура получения информации из внешних источников данных может осуществляться посредством прямого доступа к той или иной базе данных, LDAP (Lightweight Directory Access Protocol) серверу, Web-сервису и т.д. В общем случае, для каждого источника информации необходима уникальная процедура получения данных. Обработка же данных происходит по унифицированному алгоритму за счет единого хранилища SBS (рис. 9). Для некоторых внешних источников информации были разработаны специальные фильтры (в зависимости от типизации данных) для взаимодействия с EDMS. Примеры разработанных фильтров приведены в диссертации.

Рис. 9.

Автоматическое обновление SBS происходит каждую ночь. Специальный процесс обновляет всю информацию из внешних источников информации и актуализирует данные в группах доступа EDMS. Актуатизация данных в группах доступа - это обновление списка пользователей в соответствии с конфигурацией группы доступа и информацией в SBS - обновление списка пользователей, принадлежащих внешним группам. Предположим, что группа доступа 1 настроена таким образом, что должна состоять из списков пользователей внешних групп В и С. Тогда после обновления SBS в автоматическом режиме произойдет загрузка актуальной информации из групп В и С в группу доступа 1. Причем, каждый пользователь войдет в список группы доступа 1 только один раз, даже если пользователи дублируются, т.е. один или более пользователей находятся и во внешней группе В, и во внешней группе С. В случае, когда имеет место

тнистргпивн|:

Другие системы ЦЕРН

_]_ I' Процесс получ^иЯ обновления внешних данных

¡¡|icur;v/c^'4 /' Процедура ^"пгтиед/р^"^, f " Процедура >ч

_ ^ ^^ ...

Щвш

Модуль синхронизации EDMS с другими информационными системами

ЦЕРН.

многоуровневая иерархия групп доступа, обновление происходит, начиная с нижнего подуровня.

Особенностью представленного модуля является реализация модели синхронизации в неоднородной информационной среде. Был разработан унифицированный механизм для взаимодействия с множеством различных информационных систем, которые обладают своими правилами доступа и определения информации. Кроме того представлена модель синхронизации, построенная на базе транспортных процессов (МТП) в неоднородной информационной среде. Основная идея применения МТП, заключается в том, что процесс синхронизации происходит за счёт моделирования некоторой транспортной сети и перемещения объекта (запроса или данных) в ней. Результаты синхронизации оцениваются путем анализа при достижении конечного состояния в этой сети. Предлагаемая транспортная модель, используемая для анализа динамических процессов, происходящих в параллельных распределенных системах, формируется следующим образом. Задаётся некоторое множество транспортируемых объектов {V/, У2, Уз,...} и сеть, по которой они могут перемещаться. Сеть разбита на зоны, а каждый такт работы модели соответствует перемещению объекта от той зоны, в которой он находится, в одну из соседних свободных зон. Выбор такой зоны, зависит от события, происходящего в сети, содержимого соседней зоны и логики оператора, управляющего процессом перемещения. Содержимым зоны могут быть символы из множества В/, #„ У, Я,, Л',}, где Д указывает свободную от объектов

зону, V, - зону, содержащую в себе объект У1: - адреса узлов, N1 -непреодолимые для перемещения препятствия, /?; - зоны ветвления сети и возможного изменения направления движения, - зоны, в которых осуществляется управление возможностью дальнейшего перемещения. Кроме того, имеется множество состояний 0 = устройства управления

процессом перемещения объектов и множество О реакций этого устройства на различные события, возникающие в ходе реализации транспортного процесса: £>= {5Т,ПЕ,Ъ\1,Я(5к),ЕХ}, где ЛТ - команда перемещения на один шаг по ходу движения, &Е - команда изменения направления движения, ¡1 - движение направо, Ь - движение налево, ДО?,) - изменение направления в зоне 54, а ЕХ-

\ V V V }

команда ожидания. Теперь, если ввести множество ЗИ-у;-^;...;—7-}-, где V, - ¿-й

[?0 ?0 Ч,\

транспортный объект, а <7/ - состояние управляющего устройства этого объекта, то появляется возможность логически описать события, происходящие в различных по структуре и образу действия транспортных системах. Это делается с помощью

V V

выражений, называемых операциями. Например: — В5Т—, где первая тройка

Ч, '/;

V

символов —— В характеризует событие, которое может сложиться в транспортном

Ч:

• - • V.

процессе, а вторая 5Т —— одну из возможных реакции оператора.

Як

Введем следующие понятия: источником информации (источником) будем называть внешнюю ИС, из которой поступает информация; приемником информации (приемником) будем называть ИС, в которой осуществляется процесс синхронизации. Рассмотрим простейший случай синхронизации, когда существует один внешний источник. В таком случае множество транспортных объектов У={V,, У2, Уз,... V„} соответствует частям информации, подлежащей синхронизации. Множеству К поставим в соответствие множество V={Vj ,V2 ,...,Vn } где каждое К, является результатом преобразования К/. При этом предполагается, что множество Vв общем случае может содержать ошибочную информацию V = (VitVг...,V„),Vе К, а при преобразовании такого рода событий получается множество событий V -{Vi ,V2 ,...,Vr, }• Тогда реализуемый процесс синхронизации может быть представлен МТП на рис. 10.

В В Sx В Hdb В Я,од В В

В В В В В

Ус, V, ... Vi я; в S, Н, в S,

в в

в в в в

в в

V02 Vj ... vnl н'г в Si н2 в

в в в

в в

в в в в

в в

vDm-, vk ... Vj,, Я».1 в S,n-l I-L-, в Sm-1

в в в

в в

в в в в

в в

Vn ... Vk4 Ни в н,„ в Sa

Рис. 10. Пример МТП для синхронизации данных с множеством источников и последовательным потоком поступления информации, кластеризованной по типу источника данных

МТП описывается следующим набором операторов:

V У v, v, v V v v v■ v, v —• v

Чо Чо Чо Яа Ча _ Ча Ча_ 4k Ча Як Ча Ч,

у V V —• V V, — V, V V

Я, Яа _ Ча Яа _ Яа Чо ™ Яi

V. V V, V, V, V, V V У У' У . — V, -BST-1-—

Qi ЯI Ч, Чч Я1 Я» Ч„ Ят Яг Як Ям

V" V" V" V" v" V v' я. я„ <7. я, я, ?„ q.

В данной модели элементы множества V строго сортированы в соответствии с их источником данных. Множество V может быть разбито на подмножества V={{V,,...Vl}{Vi4,...Vj}{Vj4,...Vk}...{Vh...V„}}. Для управления процессом вводятся дополнительные подмножества операторов: H = {//; ,Н2 ,...,Н„} -семафоры, которые могут находиться в двух состояниях: открытом (в котором через него возможно движение) Я,- и закрытом (движение запрещено) Я,. Кроме того, введено множество операторов S={Si ,S2,...,S„}, которые отвечают за переходы в процессе синхронизации от одного источника информации к другому по достижении одного из конечных состояний, замыкающих поток информации от источника V0'={V0,',Va',...,V0„'}

Модуль АФСГП внедрен, эксплуатируется на протяжении более чем двух лет и доказал свою эффективность во время внутренней реорганизации ЦЕРН. Группа доступа может состоять из несколько сотен пользователей. После внедрения модуля время, необходимое на добавления одной внешней группы, стало эквивалентно времени добавления одного пользователя вручную, на что обычно требовалось 1-2 минуты. Соответственно, временная эффективность реализованного модуля возрастает пропорционально количеству пользователей в группе доступа. На текущий момент система автоматически синхронизируется с 9 внешними источниками данных, хранит примерно 18000 внешних групп и поддерживает около 1500 связей между группами доступа и внешними группами. Примером использования модуля синхронизации может служить создание в EDMS групп пользователей для проекта Enabling Grids for E-sciencE (EGEE).

В главе IV рассмотрены различные подходы при организации поисковых запросов в базах данных. Представлен разработанный модуль для контекстного поиска в рамках проекта EDMS Portal. Описаны проектировочные и программные решения, примененные при организации поисковых модулей. Рассмотрены аспекты использования объектных типов данных в реляционной модели.

Глава состоит из двух разделов. Первый раздел посвящен методам реорганизации внутренних программных процедур системы EDMS в модуле генерации запросов для поиска информации. Модуль реализован как внутренний пакет системы EDMS, в основном ориентированный на упрощение и унификацию при разработке компонентов системы EDMS. Одной из поставленных задач была разработка пакета, который может быть использован во многих аспектах системы, таких как генерация и обработка отчетных данных, поиск информации и даже Web-сервисы.

Реализованный модуль представляет собой систему закрытого типа. На вход поступает запрос на данные в некотором формате - на выходе результат. Все

внутренние процессы происходят непрозрачно для пользователя. Сам поисковый модуль разбит на несколько составляющих, названных атомарными поисками. Атомарный поиск - это поиск данных (в данном случае более точно -автоматическая генерация запроса) над определенным аутентичным типом информации. Такими типами являются: документы, информация по оборудованию, информация о внутренних процессах системы, информация по проектам и т.д. Результат каждого из подобных поисковых запросов впоследствии может быть объединен с результатом любого другого атомарного поискового запроса (рис. 11).

Рис. 11. Общий механизм функционирования атомарного поиска в системе EDMS

Для объединения результатов нескольких атомарных поисков используются объектные типы данных Oracle (Oracle Objects Types (OOT)). Такого рода типы данных Oracle обладают своими специфическими правилами построения и синтаксисом, но применимы с максимальной эффективностью в условиях поставленной задачи, поскольку в рамках программного решения представляют некоторый уровень абстракции (шаблона) для получаемого результата. По сути, результат поиска - это набор однородных объектов Oracle с однородными свойствами. Результат объединения различных атомарных поисков - это объединение двух разнородных наборов однородных объектов. При этом объектный подход с учетом технологических возможностей СУБД Oracle позволяет объединять атомарные поиски, которые не имеют прямой логической связи друг с другом. Полная функциональная модель представлена на рис. 12.

Рис. 12. Полная функциональная модель поискового модуля EDMS

Необходимо отметить, что в данном случае речь идет о поиске информации прямого доступа, т.е. информации, которая может подвергаться прямому изменению в ходе работы систем. Кроме того, важно иметь в виду, что данный модуль направлен на поиск конкретной информации, а не контекстной. В таком случае не стоит прямой задачи ранжирования результатов поиска, поскольку они все релевантны в равной степени.

Второй раздел главы посвящен задаче организации контекстного поиска информации по метаданным системы EDMS. Организация метаданных системы EDMS подразумевала выделение типов поисковой информации и их объединение в некоторую единую структуру данных, которой впоследствии был сопоставлен поисковый индекс. На текущий момент в таблице метаданных содержится более 2 млн. записей. Технической базой для реализации поставленной задачи явились функциональные возможности модуля Oracle Text СУБД Oracle. Эта технология позволяет создавать различного рода поисковые индексы над уже скомпонованными определенным образом данными и осуществлять последующий контекстный поиск информации с использованием специального синтаксиса в SQL запросе. В результате был создан поисковый модуль, также реализующий вышеописанный подход «черного ящика» или системы «вход-выход». В ходе разработки модуля были решены серьезные технические и инженерные задачи, связанные с группировкой результатов, правами доступа к информации, оптимизацией возможных SQL запросов и т.д. Особенностью этих запросов является определение прав доступа пользователя к информации непосредственно на стадии выполнения поискового запроса, учет типа информации, по которой производится поиск, а также методы организации и хранения промежуточной информации при выполнении SQL запроса. Кроме этого был реализован отдельный семантический анализатор, который предоставляет широкий спектр синтаксических возможностей для сложных поисковых запросов на уровне пользователя поисковой системы (например, поиск разнородной информации). Для технической организации поиска, помимо технологии Oracle Text, были использованы и другие функциональные возможности СУБД Oracle, такие как аналитические функции и технология Oracle Context. Техническая реализация подробно описана в тексте диссертации, а также в статье A. Tsyganov, S. Petit, А.

16

Suwalska "Oracle Text at the CERN Engineering and Equipment Data Management System search engine", опубликованной в 2009 году в 1&2 номере вестника швейцарского сообщества пользователей Oracle (Swiss Oracle Users Group), получившей приз редакции за лучшую статью.

Важной задачей, которую пришлось решать в ходе выполнения работ по созданию контекстного поискового модуля, было определение релевантности результатов поиска. По умолчанию релевантность результатов в модуле Oracle Text, полученных при поиске по контекстному индексу, вычисляется специальной функцией, которая использует формулу Сэлтона. В результате вычислений частоте каждого термина из каждой строки результата соответствует балл от 0 до 100, который пропорционально возрастает для каждой строки результата, содержащей термин поиска, если он появляется в меньшем процентном отношении по сравнению с количеством строк. Самый высокий балл получается, если термин появляется в документе достаточно редко по отношению к количеству строк. Такой подход дает первичную оценку релевантности результата, но не полностью подходит для оценки результатов поиска в условиях описываемой задачи, поскольку не учитывает вес (важность) найденной информации. Например, требовалось найти документ, в котором присутствует номер 1234567, при этом результат поиска был следующим (Таб. I):

obj_id (идентификатор строки) c_text (текст, по которому происходит поиск)

101 <ALL><D Ю>1234567<ЛЭ Ю> <D>test document</Dx/ALL>

102 <ALLxD ГО>567834<® IDxD>test 1234567 and 1234567</Dx/ALL>

Таблица 1. Пример возможного результата поиска по критерию 1234567

Очевидно, что строка с objjd = 102 получит большее значение функции релевантности. Но в рамках поставленной задачи это неправильный результат, поскольку строка, где objjd = 101, с точки зрения системы является более важной (критерий поиска соответствует номеру совершенно определенного документа). Поэтому в модуле введена функция, которая определяет поправочный коэффициент к значению, полученному по алгоритму Сэлтона. В общем случае, эта функция от множества входящих параметров:

Score = <а(1 + log —) - формула Сэлтона п

N

EDMSRank = F(x,.....Score = F(xt,..., xk) o(l + log—)

со - сколько раз термин появился в документе (частота) N - число строк в таблице поиска

и - число строк, которые содержат, по крайней мере, одно вхождение каждого поискового термина

F- функция вычисления поправочного коэффициента для системы EDMS, x,..jct - входные параметры функции F

В работе предложен подход описания функции F в виде ориентированного ациклического графа, в котором дугам приписаны числовые веса. В общем случае F вычисляется по произвольному алгоритму. В диссертации применен подход, использующий граф проверки условий. Путь RG = {у,е} ориентированный ациклический граф, где V множество вершин, а Е множество дуг. Каждая вершина v, е V соответствует состоянию проверки условий. Каждой вершине приписан вес h<v,) . Дуги, выходящие из каждой вершины, упорядочены по возрастанию. Каждой из дуг приписано некоторое проверяемое условие р(еДеу е Дуге с наибольшим номером из выходящих из этой вершины приписано тождественно истинное условие.

Если дуга ек, соответствующая условию р(е„), ведет из состояния А в состояние В, то это означает, что условие р(е,) истинно, а все условия прописанные исходящим из А с номером меньше к - ложны. Таким образом, каждому документу в зависимости от истинности и ложности каждого из предусмотренных условий соответствует путь из источника описанного графа в сток этого графа. Значением поправочного коэффициента F для документа будет сумма весов вершин на этом пути. На рис. 13 представлен графический пример вышеописанного графа и пример пути прохода по нему при выполнении всех правил перехода [е100,е„е5].

Рис. 13. Пример графа вычисления поправочного коэффициента для ранжирования результатов.

(a) представление алгоритма работы функции в виде графа

(b) пример обхода графа при выполнении правил перехода [ПО, ПЗ, П5].

Помимо этого подхода был предложен способ оценки релевантности данных, построенный на основе МТП следующего вида (рис. 14).

S, в S, в V4 Sj в в Sí в v7 в S6

V2 Уз Sr V, V6 Ss

в в в в S9 в в в в в S¡o

в в в в

в в в в в в в в в в в в в

Рис. 14. Пример МТП сети для определения релевантности

Здесь каждому объект}' Vi (запросу или данным) ставится в соответствие

некоторое значение, вычисляемое по функции Val(Vj). В начальный момент

времени значение поправочного коэффициента принимается Reí = Val(V¡).

Конечный результат подсчёта поправочного коэффициента имеет значение,

которое вычисляется при каждой передаче управления от объекта V, к объекту V/.

Reí = Rel + ValfVß. Сам процесс управляется следующим набором операций:

V V V V V V V V —BST—; —S.R -Ц — VMV,; 13ST <7о <?о <7о <7™ Й„ ' q* 9о

На текущий момент модуль находится в производственной эксплуатации и используется в качестве основного поиска EDMS Web Portal. Например, среднее количество поисковых запросов в день - 160, Среднее время отклика 1,5 секунды (рис. 15).

Рис. 15. Производственная эксплуатация модуля контекстного поиска EDMS: количество поисковых запросов по месяцам

В заключении показано, что выполненное исследование позволило получить ряд новых научно-технических результатов, обеспечивающих процесс адаптации и интеграции при эволюции больших информационных систем, эффективность которых подтверждена опытом эксплуатации ИС ЦЕРН, и сформулированы основные результаты диссертации.

1. Предложена и реализована модификация эволюционной модели ИС, получившая прикладное применение при разработке программного модуля резервного сохранения и восстановления документов в системе EDH.

2. Разработан программный модуль автоматической синхронизации содержания групп пользователей в системе EDMS ЦЕРН с внешними источниками данных. Проведена адаптация программного решения в рамках существующей системы. Практическая реализация этого модуля позволила автоматизировать множество процессов системы, которые ранее приходилось выполнять лишь вручную.

3. Впервые в качестве логического описания процесса синхронизации ИС в неоднородной информационной среде применены модели транспортных процессов, что дало возможность обосновать реализацию модуля автоматической синхронизации в EDMS ЦЕРН, а также показать применимость и прикладную значимость транспортных моделей в различных информационных задачах.

4. Обоснована возможность применения адаптивного подхода при перестройке ИС в процессе ее эволюции, что было продемонстрировано на примере разработанного и реализованного программного модуля для централизации функции поиска данных в системе EDMS.

5. Разработан программный модуль для поиска информации в системе EDMS, обеспечивающий поиск разнородной и контекстной информации.

6. Предложен, разработан и реализован метод ранжирования результатов поисковых запросов в ИС со структурированным набором правил на основе комбинирования классических алгоритмов с определенным уникальным алгоритмом ранжирования в отдельно взятой ИС. В результате удалось решить задачу ранжирования в рамках систем, требующих специальной и регламентированной обработки информации.

7. Разработан метод логического описания ранжирования результатов поисковых запросов в ИС со структурированным набором правил на основе моделей транспортных процессов и теории графов, что позволило теоретически обосновать реализацию прикладных разработок.

8. Осуществлено внедрение в производственную эксплуатацию в системах электронного документооборота ЦЕРН всех представленных в данной работе программных модулей.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ ОТРАЖЕНО В СЛЕДУЮЩИХ ПУБЛИКАЦИЯХ

Статьи

[1]. А. М. Цыганов, С. Петит "Модуль автоматического управления правами доступа в системе EDMS Европейского Центра Ядерных Исследований (ЦЕРН)". // Информационные технологии в проектировании и производстве, 2009, т. 2, стр. 35-39.

[2]. A.M. Цыганов "Организация модулей для поиска данных в информационных системах на примере системы инженерного документооборота ЦЕРН". // Информационные технологии в проектировании и производстве, 2009, т. 1, стр.68-71.

[3]. A. Tsyganov, S. Petit, A. Suwalska "Oracle Text at the CERN Engineering and Equipment Data Management System search engine". //SOUG-Newsletter und Special, SOUG - Swiss Oracle User Group, 2009, v. 1&2, pp. 28-35.

[4]. B.B. Доенин, A.M. Цыганов "Модели транспортных потоков в логических задачах информационных систем". //Труды всероссийской научно-практической конференции "Транспорт России: проблемы и перспективы". М„ 2009.

[5]. В.В. Доении, A.M. Цыганов, А.Д. Шишова "Использование моделей транспортных процессов при описании синхронизации данных в неоднородной информационной среде ", 2009, //Сборник трудов МНТК "Информационные технологии в науке технике и образовании", 2009

[6]. A.M. Цыганов, В.В. Доенин "Адаптивные подходы ранжирования результатов поисковых запросов в информационной среде со структурированным набором правил". // Научные труды XII МНПК "Фундаментальные и прикладные проблемы приборостроения, информатики и экономики", кн. "Информатика", МГУПИ, 2009, с. 164-168.

[7]. A. Tsyganov, S. Petit, С. Delamare, P. Martel, S. Milenkovic, S. MaI16n Amerigo, T. Pettersson, A. Suwalska, D. Widegren "A Web portal for the Engineering and Equipment Data Management System at CERN". // Journal of Physics: Conf. Ser., 2009

[8]. A. Tsyganov, S. Mallon Amerigo, S. Petit, T.Pettersson, A. Suwalska "A Search Engine for the Engineering and Equipment Data Management System (EDMS) at CERN". // Journal of Physics: Conf. Ser., 2008, V. 119,042029 (5pp).

Тезисы докладов

[9]. A. Tsyganov, S. Petit, P. Martel, A. Suwalska, C.Delaroare, D. Widegren, S. Mallon Amerigo, T.Pettersson "A Web portal for the Engineering and Equipment Data Management System at CERN". H CHEP'09 17th International Conference on Computing in High Energy and Nuclear Physics, 21 - 27 March 2009, Prague, Czech Republic, http://indico.cern.ch/contributionDisplay.py?contribId=181&sessionId=28&conf Id=35523

[10]. A.M. Цыганов "Использование объектных типов данных Oracle в поисковом модуле системы EDMS европейского центра ядерных

исследований (ЦЕРН)". // Сб. научных трудов "Научная сессия МИФИ-2008", Т. 12, стр. 17-18.

[11]. А.М. Цыганов "Многопоточные вычисления при выгрузке данных системы EDMS европейского центра ядерных исследований (ЦЕРН) для проекта LHC As-Built". // Сб. научных трудов "Научная сессия МИФИ-2008", Т. 12, стр. 15-17.

[12]. А.М. Цыганов, С. Пети, К. Деламар "Модуль администрирования групп пользователей в системе edms европейского центра ядерных исследований (ЦЕРН)". // Сб. научных трудов "Научная сессия МИФИ-2007", Т. 12, стр. 85-87.

[13]. A. Tsyganov, S. Mallón Amérigo, S. Petit, T.Pettersson, A. Suwalska "A Search Engine for the Engineering and Equipment Data Management System (EDMS) at CERN". // International Conference on Computing in High Energy and Nuclear Physics - CHEP 2007, Victoria, Canada,

http://indico.cern.ch/contributionDÍ5plav.pv?contribId=162&se:5SÍonId=20&confl d=3580

[14]. А. Цыганов, P. Титов, Д. Матиесон "Модуль резервного сохранения и восстановления документов системы электронного документооборота ЦЕРН". // Сб. научных трудов "Научная сессия МИФИ-2006", Т. 12, стр. 37-38

[15]. A.M. Цыганов "Разработка приложения для анализа движения товарно-материальных ценностей предприятия на примере компьютерной автоматизированной системы управления". // Сб. научных трудов "Научная сессия МИФИ-2005", Т. 10, стр. 144-145.

[16]. A.M. Цыганов, П.О. Гоглов, Д.В. Зарецкий, И.Н. Путятин, А.С. Хропатая "Проект системы автоматизации работы вычислительного центра по учету денежного оборота". // Научная сессия МИФИ-2005 IX Выставка-конференция "Телекоммуникации и новые информационные технологии в образовании", стр. 75,

Доклады на научных семинарах ЦЕРН

[17]. A. Tsyganov" Search Engine Syntax", 2009, EDMS document 1018813:

https://edms.cern.ch/file/1018813/1/EDMS search engine svntax.ppt

[18]. A. Tsyganov "Complex dynamic SQL queries and bind variabiles ", 2008, EDMS document 890404:

https://edms.cern.ch/file/890404/l/bind in dynamicsql.ppt

[19]. A. Tsyganov "PL/SQL CODE MIGRATION FROM 9IR2 TO 10GR2: DYNAMIC CURSORS ", 2008, EDMS document 890404:

https://edms.cern.ch/file/979888/l/MigrationDvnamicCursors.doc

[20]. A. Tsyganov "Lucky search & Ajax technology for EDMS", 2008, EDMS document 981143:

https://edms.cern.ch/file/981143/1/luckv search.ppt

[21]. A. Tsyganov "Building EDMS Groups/Distribution Lists on CERN administrative information", 2007, EDMS document 753107:

https://edms.cern.ch/file/753107/2/EDMS groups manas:ement5.ppt

Цыганов Андрей Михайлович МЕТОДЫ АДАПТАЦИИ И ИНТЕГРАЦИИ

ПРИ ЭВОЛЮЦИИ БОЛЬШИХ ИНФОРМАЦИОННЫХ СИСТЕМ

(НА ПРИМЕРЕ ЦЕРН)

05.13.17 - Теоретические основы информатики

Подписано к печати //. 09. Объем 1,5 пл.

Печать офсетная. Формат 60x84/16

Тираж 80 экз. Заказ № 696.

Типография МИИТа, 127994, ГСП-4, Москва, ул. Образцова, 9, стр. 9

Оглавление автор диссертации — кандидата технических наук Цыганов, Андрей Михайлович

Введение.

Глава 1. Литературный обзор.

1.1. Информационные технологии и информационные системы.

1.2. Реляционные базы данных. Oracle.

1.2.1. Общее описание СУБД Oracle.

1.2.2. СУБД Oracle. Основные возможности и компоненты.

1.3. Поиск информации и ранжирование полученных результатов.

1.4. CERN.

1.4.1. EDH.

1.4.2. PLM в ЦЕРН.

1.4.3. EDMS.

Краткие выводы и итоги главы.

Глава 2. Информационные потоки и состояния ИС при эволюции.

2.1. Модель сохранения состояний системы при эволюции.

2.2. Модифицированная модель сохранения состояний системы.

2.3. Алгоритмы работы модуля резервного сохранения и восстановления документов в системе EDH.

2.4. Производственная эксплуатация модуля резервного сохранения и восстановления документов EDH.

Краткие выводы и итоги главы.

Глава 3. Синхронизация ИС в неоднородной информационной среде.

3.1. Описание синхронизации ИС с использованием моделей транспортных процессов.

3.2. Синхронизация групп пользователей в системе EDMS.

3.2.1. Архитектура программного модуля.

3.2.2. Алгоритм актуализации внешних данных.

3.2.3. Алгоритм синхронизации данных.

3.3. Конечная реализация. Описание интерфейса. Производственная эксплуатация.

Краткие выводы и итоги главы.

Глава 4. Организация поисковых систем в базах данных.

4.1. Адаптивная организация модулей поиска данных.

4.1.1. Возможности объектных типов в Oracle.

4.1.2. Адаптивная реконфигурация структур для поиска данных.

4.1.3. Архитектура и алгоритмы функционирования.

4.2. Контекстный поиск в информационной среде со структурированным набором правил. Проект EDMS Portal.

4.2.1. Краткое описание технологии Oracle Text.

4.2.2. Контекстный поиск EDMS Portal.

4.2.3. Определение задачи поиска в рамках проекта EDMS Portal.

4.2.4. Адаптивные модели определения релевантности результатов поиска. Прикладное применение транспортных моделей.

4.2.5. Особенности синтаксиса поискового запроса.

4.2.6. Отображение результатов поиска.

Краткие выводы и итоги главы.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Цыганов, Андрей Михайлович

Актуальность темы. Одной из основных задач современной прикладной информатики является модернизация, модификация и оптимизация существующих на данный момент информационных систем (ИС), а также их адаптация к постоянно развивающимся информационным и программным технологиям. В то же время функционирование систем должно осуществляться в полном объеме при решении, как новых, так и уже давно сформировавшихся задач.

Существенной является методика выделения и классификации задач для организации новых подсистем и модулей в современных ИС, а также применение различных эвристических и математических моделей для решения подобных задач. Для этих целей приходится учитывать не только задачи, поставленные в прошлом, и задачи, которые были поставлены в данный конкретный момент времени, но и аспекты системы, которые могут потребовать модернизации, переработки или доработки в будущем. Быстрое развитие различных подходов к решениям проблем в информационном мире требует от современного разработчика глубоких теоретических и практических знаний. Таким образом, описание как теоретических, так и прикладных подходов к модификации ИС в различных промышленных, научных, финансовых и т.д. областях представляет собой одну из наиважнейших задач современных информационных технологий. На текущий момент большинство корпоративных ИС представляют собой огромные автоматизированные программные комплексы, для поддержания которых затрачиваются большие человеческие и временные ресурсы. Любая новая разработка в системах подобного рода представляет немалую опасность для их функционирования, поскольку каждое изменение может в той или иной степени затронуть всю систему в целом.

Современные корпорации тратят значительные финансовые и временные ресурсы для поддержания той информационной структуры, которая обеспечивает эффективную работу при этом решение многих задач так и остается на внутрикорпоративном уровне. Немаловажным аспектом, для описания и предоставления информации является открытость ИС. Наилучшим примером могут служить информационные разработки множества университетов и научно-исследовательских институтов. Одним из лидеров в этой области является Европейский центр ядерных исследований — ЦЕРН. Именно в этом институте родилась концепция WWW (World Wide Web), впоследствии превратившаяся в Интернет (Internet) или Всемирную Паутину. Эта концепция вывела информационные технологии на принципиально новый уровень развития.

В представленной диссертации детально рассматриваются две ИС ЦЕРН, относительно которых и была выполнена работа: EDH и EDMS.

Система EDH (Electronic Document Handling) является системой административного документооборота в институте ЦЕРН. Это приложение относится к классу Web систем и поддерживает циркуляцию электронных документов в ЦЕРНе. Система EDH реализована на языке Java с использованием J2EE архитектуры. Ключевым элементом EDH является система маршрутизации при утверждении конкретных документов. Маршруты подписей документа основываются на типе документа и свойствах сущности, которую он описывает (стоимость, бюджет и т.д.).

Система EDMS (Engineering Document Management System) - система инженерного документооборота. Основными функциями системы является хранение различных инженерных документов (чертежей, схем и т.п.), а также поддержание полной информации о процессе строительства LHC. Данная система относится к классу PLM (Product Lifecycle Management) систем. PLM система отвечает за хранение и поддержку информационных компонентов LHC на протяжении всего их жизненного цикла, и эти описания должны быть постоянно доступны для всех заинтересованных лиц. Система EDMS так же является Web-приложением. Web-интерфейс системы является надстройкой над коммерческими продуктами: Axalant (Agile's Axalant Product Lifecycle Management) и Datastream7i (Datastream's D7i Asset Tracking). Необходимо отметить, что оба коммерческих продукта используют СУБД Oracle для хранения информации.

Объектом исследования Модели программных продуктов, которые можно использовать для больших ИС в процессе их эволюции

Предмет исследования — информационные системы ЦЕРН (EDH и EDMS).

Цель работы — разработка алгоритмических и программных модулей, обеспечивающих модификацию ИС ЦЕРН в процессе их эволюции.

Задачи исследования:

Анализ основных аспектов эволюции современных ИС на примере ИС ЦЕРН в области систем электронного документооборота.

Разработка и применение эволюционных моделей ИС для проектирования модулей, отражающих временную и событийную структуру ИС.

Разработка методов синхронизации ИС, и применения моделей транспортных процессов для логического описания реализации синхронизации в неоднородной информационной среде.

Внедрение методов модификации и адаптации в поисково-отчетных системах.

Разработка методов ранжирования результатов поисковых запросов в ИС, на основе структурирования набора правил.

Реализация предлагаемых подходов к решению задач поиска информации по базам данных.

Научная новизна исследования.

Показана эффективность применения транспортных моделей для логического описания синхронизации ИС в неоднородной информационной среде.

Решены задачи описания сохранения состояний ИС при их эволюции.

Решены задачи адаптации поисково-отчетных систем при реструктуризации программных кодов.

Разработана модификация моделей ранжирования результатов контекстных поисковых запросов в системах со структурированным наборам правил.

Практическая значимость исследования. В рамках уникального проекта по созданию самого большого в мире ускорителя элементарных б частиц LHC разработаны оригинальные программные модули, позволившие более эффективно использовать ИС ЦЕРН. Эти же разработки применимы для решения прикладных задач информатики при взаимодействии различных ИС друг с другом. Модули, описание которых приводится в данной работе, внедрены в производственную эксплуатацию и используются в рамках ИС ЦЕРН. Разработанные модули расширили функциональные возможности соответствующих систем. Кроме того, при разработке и проектировании программных модулей учитывалась дальнейшая перспектива эксплуатации и эволюции ИС ЦЕРН.

Достоверность результатов. Достоверность результатов приведенных в диссертации подтверждена опытом их использования в производственной эксплуатации в рамках ИС ЦЕРН (акты о внедрении имеются в тексте диссертации).

Апробация работы. Результаты работы докладывались на научных конференциях Московского Инженерно-физического Института (2005 -2008гг.), на научных и рабочих семинарах ЦЕРН, на международных конференциях по информационным технологиям в ядерной физике и физике высоких энергий (СНЕР - Computing in High Energy and Nuclear Physics) (2007 г - г. Виктория, Канада; 2009 г - г. Прага, Чехия), на научных семинарах и конференции Московского Государственного Университета путей сообщения.

Публикации. Основные результаты диссертации опубликованы в 21 печатной работе: 8 статей в российских и зарубежных журналах, в том числе в изданиях, рекомендованных ВАК — 2, 8 тезисов докладов на российских и международных конференциях, а также 5 презентаций докладов на научных семинарах ЦЕРН.

Структура и объем диссертационной работы.

Диссертация состоит из Введения, четырех глав, Заключения, списка цитируемой литературы (172 наименований), списка публикаций автора по теме диссертации. Работа изложена на 145 страницах машинописного текста, включая 77 рисунков и 6 таблиц.

Заключение диссертация на тему "Методы адаптации и интеграции при эволюции больших информационных систем"

ЗАКЛЮЧЕНИЕ

Выполненное исследование позволило получить ряд новых научно-технических результатов, обеспечивающих процесс адаптации и интеграции при эволюции больших информационных систем, эффективность которых подтверждена опытом эксплуатации ИС ЦЕРН. Основные результаты:

1. Предложена и реализована модификация эволюционной модели ИС, получившая прикладное применение при разработке программного модуля резервного сохранения и восстановления документов в системе EDH.

2. Разработан программный модуль автоматической синхронизации содержания групп пользователей в системе EDMS ЦЕРН с внешними источниками данных. Проведена адаптация программного решения в рамках существующей системы. Практическая реализация этого модуля позволила автоматизировать множество процессов системы, которые ранее приходилось выполнять вручную.

3. Впервые в качестве логического описания процесса синхронизации ИС в неоднородной информационной среде применены модели транспортных процессов, что дало возможность обосновать реализацию модуля автоматической синхронизации в EDMS ЦЕРН, а также показать применимость и прикладную значимость транспортных моделей в различных информационных задачах.

4. Обоснована возможность применения адаптивного подхода при перестройке ИС в процессе ее эволюции, что было продемонстрировано на примере разработанного и реализованного программного модуля для централизации функции поиска данных в системе EDMS.

5. Разработан программный модуль для поиска информации в системе EDMS, обеспечивающий поиск разнородной и контекстной информации.

6. Предложен, разработан и реализован метод ранжирования результатов поисковых запросов в ИС со структурированным набором правил на основе комбинирования классических алгоритмов с определенным уникальным алгоритмом ранжирования в отдельно взятой И С. В результате удалось решить задачу ранжирования в рамках систем, требующих специальной и регламентированной обработки информации.

7. Разработан метод логического описания ранжирования результатов поисковых запросов в ИС со структурированным набором правил на основе моделей транспортных процессов и теории графов, что позволило теоретически обосновать реализацию прикладных разработок.

8. Осуществлено внедрение в производственную эксплуатацию в системах электронного документооборота ЦЕРН всех представленных в данной работе программных модулей.

Библиография Цыганов, Андрей Михайлович, диссертация по теме Теоретические основы информатики

1. Список цитируемой литературы.

2. В. Thomas "Designing Quality Databases with IDEF1X nformation Models", 1992, Dorset1. House, ISBN: 0932633188

3. R. Mayer; P. Griffith; C. Menzel "IDEF6: A Design Rationale Capture Method Concept Paper", 1990-91, Defense Technical Information Center

4. R. Mayer, C. Menzel, M. Painter, P. deWitte, T. Blinn, B. Perakath "Information integration for concurrent engineering (IICE) IDEF3 process description capture methodrepord", 1995, Knowledge Based Systems, Inc.

5. W. S. Davis "Tools and Techniques for Structured Systems Analysis and Design", 1992, Addison-Wesley, ISBN: 0201102749

6. D. A. Marca, C. L. McGowan "SADT: Structured Analysis and Design Technique", 1987, McGraw-Hill, ISBN: 0070402353

7. P. Beynon-Davies "Database Systems", 2003, Palgrave Macmillan (United Kingdom), ISBN: 9781403916013

8. R. Barker "CASE Method: Tasks and Deliverables", 1990, Addison-Wesley, ISBN: 0201416964

9. P. Chen "The Entity-Relationship Model-Toward a Unified View of Data", 1976, Massachusetts Institute of Technology

10. T. R. Gulledge, R. A. Sommer "Process Coupling in Business Process Engineering", 1999, George Mason University, USA. Knowledge and Process Management Volume 6 Number 3 pp 158-165

11. A-W. Scheer, M. Ntittgens "ARIS Architecture and Reference Models for Business Process Management", 2000, Lecture Notes in Computer Science Business Process Management, ISBN: 9783540674542, p. 301-304

12. T. Quatrani "Visual Modeling With Rational Rose 2000 and Uml", 1999, Addison Wesley Pub Co Inc, ISBN: 0201699613

13. J. Byous "Java Technology: The Early Years", 2003, Sun Developer Network, http://java.sun.com/features/1998/05/birthday.html

14. D. Bank "The Java Saga", 1995, http://www.wired.eom/wired/archive/3.12/java.saga.html?topic=&topicset=

15. J. Gosling, B. Joy, G. Steele, G. Bracha "The Java language specification third edition", 2005, Addison-Wesley, ISBN: 0321246780

16. Java Language Specification (pdf) http://java.sun.com/docs/books/jls/download/langspec-3.0.pdf

17. D. Harkey, R. Orfali "Client/Server Programming with Java and CORBA, 2nd Edition", 1998, John Wiley & Sons; 2nd edition, ISBN: 978-0471245780

18. T. Neward, "Server-Based Java Programming", 2000, ISBN: 978-1884777714

19. Microsoft .NET Web page, http://www.microsoft.com/net/

20. T. Berners-Lee, T. Bray, D. Connolly, P. Cotton, R. Fielding, M. Jeckle, C. Lilley, N. Mendelsohn, D. Orchard, N. Walsh, S. Williams, "Architecture of the World Wide Web, Volume One", 2004, Version 20041215. W3C.

21. T. Berners-Lee "Weaving the Web", 2001, Texere Publishing, ISBN: 978-0752820903

22. T. Berners-Lee, "Information Management: A Proposal.", 1989-1990, CERN, http://www.w3.org/History/1989/proposal.html

23. HTML 3.2 Reference Specification, 1997, World Wide Web Consortium, http://www.w3.org/TR/REC-html32

24. Hypertext Transfer Protocol HTTP/1.1, http://tools.ietf.org/html/rfc2616

25. C. Wong "HTTP Pocket Reference: Hypertext Transfer Protocol", 2000, O'Reilly Media, Inc., ISBN: 978-1565928626

26. Uniform Resource Locators, http://tools.ietf.org/html/rfcl738

27. C. Loosley, F. Douglas, A. Mimo "High-Performance Client/Server", 1997, John Wiley & Sons, ISBN: 978-0471162698

28. R. Orfali, D. Harkey, J. Edwards "Client/Server Survival Guide, 3rd Edition", 1999, Wiley, ISBN: 978-0471316152

29. J. Edwards "3-Tier Server/Client at Work, Revised Edition", 1999, John Wiley & Sons, ISBN: 978-0471315025

30. C. McKenzie "What is WebSphere? Java, J2EE, Portal and Beyond! (Demystifying IBM's Middle Tier Technology)", 2007, PuipJava, ISBN: 978-1598729016

31. H. Schildt "Java: The Complete Reference, J2SE 5 Edition", 2004, McGraw-Hill Osborne Media; 6th edition, ISBN: 978-0072230734

32. R. Johnson "Expert One-on-One J2EE Design and Development", 2002, Wrox, ISBN: 9780764543852

33. D. Hunter, J. Rafter, J. Fawcett, E. van der Vlist, D. Ayers, J. Duckett, A. Watt, L. McKinnon "Beginning XML, 4th Edition (Programmer to Programmer)", 2007, Wrox; 4 edition, ISBN: 978-0470114872

34. B. Evjen, K. Sharkey, T. Thangarathinam, M. Kay, A. Vernet, S. Ferguson "Professional XML (Programmer to Programmer)", 2007, Wrox, ISBN: 978-0471777779

35. R. Wrembel, "Data Warehouses and Olap: Concepts, Architectures and Solutions", 2006, IGI Global, ISBN: 978-1599043647

36. A. Berson, S. Smith "Data Warehousing, Data Mining, and OLAP", 1997, Computing Mcgraw-Hill, ISBN: 978-0070062726

37. M. Han "Data Mining: Concepts and Techniques, Second Edition (The Morgan Kaufmann Series in Data Management Systems)", 2005, Morgan Kaufmann; 2 edition, ISBN: 9781558609013

38. R. Kimball, M. Ross "The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition)", 2002, Wiley; 2 edition, ISBN: 978-0471200246

39. R. Kimball, J. Caserta "The Data Warehouse ETL Toolkit", 2004, Wiley, ISBN: 0764567578

40. T. Francis, E. Herness, R. Jr. High, J. Knutson, K. Rochat, C. Vignola "Professional IBM WebSphere 5.0 Application Server (Programmer to Programmer)", 2002, Wrox, ISBN: 978-0764543661

41. Pentaho Commercial Open Source Business Intelligence, www.pentaho.com41. Talend, www.talend.com

42. A. Hermann, J. Krige, U. Mersits, D. Pestre, L. Belloni "History of Conseil Europeen Pour La Recherche Nucleaire Launching the European Organization for Nuclear Research", 1987, North Holland, ISBN: 044487037743. CERN, www.cern.ch

43. CERN info, http://info.cern.ch/

44. The Large Hadron Collider, http://public.web.cern.cli/public/en/LHC/LHC-en.html

45. L. Evans, P. Bryant "LHC Machine", 2008, Journal of Instrumentation, JINST 3 S08001 doi: 10.1088/1748-0221/3/08/S08001

46. P. Higgs "Broken Symmetries and the Masses of Gauge Bosons", 1964, Physical Review Letters 13: 508. doi: 10.1103/PhysRevLett.l3.508.

47. P. Higgs "Spontaneous Symmetry Breakdown without Massless Bosons", 1966, Physical Review 145: 1156. doi:10.1103/PhysRev. 145.1156.

48. G. S. Guralnik, C. R. Hagen, T. W. B. Kibble "Global Conservation Laws and Massless Particles", 1964, Physical Review Letters 13: 585. doi:10.1103/PhysRevLett.l3.585.

49. W. Gilbert "Broken Symmetries and Massless Particles", 1964, Physical Review Letters 12: 713. doi: 10.1103/PhysRevLett. 12.713.

50. ATLAS A Toroidal LHC Apparatus, http://public.web.cern.ch/public/en/LHC/ATLAS-en.html

51. The ATLAS Collaboration "The ATLAS Experiment at the CERN Large Hadron Collider", 2008, Journal of Instrumentation, JINST 3 S08003 doi: 10.1088/1748-0221/3/08/S08003

52. N. V. Krasnikov, V. A. Matveev "Physics at LHC", 1997, Physics of Particles and Nuclei 28 (5): 441-470. doi: 10.1134/1.953049.

53. ATLAS Technical Proposal, 1994, CERN/LHCC/94-43 LHCCP2, http://atlas.wcb.cern.ch/Atlas/TP/NEW/HTML/tp9new/tp9.html

54. CMS Compact Muon Solenoid, http://public.web.cern.clT/public/en/LHC/CMS-en.html

55. The CMS Collaboration "The CMS experiment at the CERN LHC", 2008, Journal of Instrumentation, JINST 3 S08004 doi: 10.1088/1748-0221/3/08/S08004

56. CMS Physics Technical Design Report, 2006, CERN, http://doc.cern.ch//archive/electronic/cern/preprints/lhcc/public/lhcc-2006-001.pdf

57. ALICE A Large Ion Collider Experiment, http://public.web.cern.ch/public/en/LHC/ALICE-en.html

58. The ALICE Collaboration "The ALICE experiment at the CERN LHC", 2008, Journal of Instrumentation, JINST 3 S08002 doi: 10.1088/1748-0221/3/08/S08002

59. LHCb Large Hadron Collider beauty, http://public.web.cern.ch/public/en/LPIC/LHCb-en.html

60. The LHCb Collaboration "The LHCb Detector at the LHC", 2008, Journal of Instrumentation, JINST 3 S08005 doi: 10.1088/1748-0221/3/08/S08005

61. LHCf Large Hadron Collider forward, http://public.web.cem.ch/public/en/LHC/LHCf-en.html

62. The LHCf Collaboration "The LHCf detector at the CERN Large Hadron Collider", 2008, Journal of Instrumentation, JINST 3 S08006 doi: 10.1088/1748-0221/3/08/S08006

63. TOTEM-TOTal Elastic and diffractive cross section Measurement, http://public.web.cern.ch/public/en/LHC/TOTEM-en.html

64. The TOTEM Collaboration "The TOTEM Experiment at the CERN Large Hadron Collider", 2008, Journal of Instrumentation, JINST 3 S08007 doi: 10.1088/1748-0221/3/08/S08007

65. S. W. Hawking, G. F. R. Ellis "The large-scale structure of space-time", 1973, Cambridge: Cambridge University Press, ISBN 0-521-20016-4.

66. E. Kolb, M. Turner "The Early Universe", 1988, Addison-Wesley, ISBN 0-201-11604-9.

67. K. Helge "Cosmology and Controversy", 1996, Princeton University Press, ISBN 069100546X.

68. А. Чернин "Космология: Большой Взрыв", 2005, Век-2; серия: Наука сегодня, ISBN: 5-85099-150-6

69. LHC Computing Grid, https://twiki.cern.ch/twiki/bin/view/LCG/WebHome

70. Enabling Grids for E-sciencE(EGEE), http://www.eu-egee.org/

71. CERN openlab, http://proj-openlab-datagrid-public.web.cem.ch/proj-openlab-datagrid-public/

72. F. Berman, Fran; A. Hey, G. Fox. "Grid Computing: Making The Global Infrastructure a

73. Reality",2003 , Wiley, ISBN 0-470-85319-0

74. Worldwide LHC Computing Grid, http://lcg.web.cern.ch/LCG/

75. Maozhen, M. Baker "The Grid: Core Technologies", 2005, Wiley, ISBN 0-470-09417-6

76. Foster, C. Kesselman "The Grid: Blueprint for a New Computing Infrastructure", 2004,

77. Morgan Kaufmann Publishers, ISBN 1-55860-475-8

78. Human Resource Toolkit (HRT), http://ais.web.cern.ch/ais/apps/hit/

79. Pre Registration Tool (PRT), http://ais.web.cern.ch/ais/apps/prt/

80. Project Progress Tracking (PPT), http://ais.web.cern.ch/ais/apps/ppty

81. Electronic Document Handling (EDH), http://ais.web.cern.ch/ais/apps/edh/

82. E. F. Codd "Derivability, Redundancy and Consistency of Relations Stored in Large Data

83. Banks", 1969, IBM Research Report, San Jose, California RJ599

84. E. F. Codd "Further Normalization of the Data Base Relational Model", 1971, IBM

85. Research Report, San Jose, California RJ909

86. D. Chamberlin, R. Boyce "SEQUEL: A Structured English Query Language", 1974,

87. Proceedings of the 1974 ACM SIGFIDET Workshop on Data Description, Access and

88. Control (Association for Computing Machinery): 249-264

89. C. J. Date, H. Darwen "A Guide to SQL Standard (4th Edition)" Addison-Wesley

90. Professional: 4 edition, 1996, ISBN: 978-02019642641. Oracle, www.oracle.com

91. M. Сингер "МиниЭВМ PDP-11: Программирование на языке Ассемблера и организация машины", 1984, Пер. с англ. -М.: Мир, -272с. Oracle database, http://www.oracle.com/database/index.html DB2 database, http://www-01.ibm.com/software/data/db2/

92. Б.В. Керниган, Д.М. Ричи "Язык программирования Си", 2000, Невский Диалект, ISBN: 5-7940-0045-7

93. Б. Страуструп "Язык программирования С++. Специальное издание", 2007, Бином, ISBN: 978-5-7989-0226-2

94. M Informix, http://www-128.ibm.com/developerworks/db2/zones/informix/

95. Sybase, http://www.sybase.com/

96. Ingnes, http://www.ingres.com/

97. Unify, http://www.unify.com/

98. P. Koletzke, P. Dorsey "Oracle Developer Advanced Forms and Reports", 1999, McGraw-Hill Osborne Media: 1 edition, ISBN: 978-0072120486

99. S.Feuerstein, B. Pribyl "Oracle PL/SQL Programming, 4th Edition", 2005, O'Reilly Media, Inc.: 4 edition, ISBN: 978-0596009779

100. S. Urman, R. Hardman, M. McLaughlin "Oracle Database lOg PL/SQL Programming", 2004, McGraw-Hill Osborne Media: 1st edition, ISBN: 978-0072230666

101. Microsoft SQL Server, http://www.microsoft.com/sql/default.mspx

102. Том Кайт. "Oracle для профессионалов", 2003, ООО ДиаСофтЮП Пер. с англ., ISBN 5-93772-072-5

103. Kevin Loney "Oracle Database lOg: The Complete Reference (Osborne ORACLE Press Series)", 2004, McGraw-Hill Osborne Media; 1 edition, ISBN: 978-0072253511

104. Э. Реймонд "Искусство программирования для Unix", 2005, Вильяме пер. с англ., ISBN 0-13-142901-9

105. W. Stallings "Operating Systems: Internals and Design Principles", 2004, Prentice Hal:5th edition, ISBN: 978-0131479548

106. P. Fortier "SQL 3: Implmenting the SQL Foundation Standard", 1999, McGraw-Hill Companies, ISBN: 978-0070220621

107. Visual Basic Developer Center ,http://msdn.microsoft.com/en-us/vbasic/default.aspx

108. R. Stephens "Visual Basic 2008 Programmer's Reference (Programmer to Programmer)", 2008, Wrox ,ISBN: 978-0470182628

109. OLE, http://ru.wikipedia.org/wiki/ObjectLinkingandEmbedding

110. ODBC Programmer's Reference, http://msdn.microsoft.com/en-us/library/ms714177.aspx

111. Oracle Database lOg, http://www.interface.ru/oracle/OracleDBlOg.htm

112. Oracle® Database Concepts lOg Release 2 (10.2), Part Number В14220-02, http://download.orade.eom/docs/cd/B 1930601 /server. 102/b 14220/transact.htm#CNCPTl 17

113. Oracle® Database Advanced Replication lOg Release 2, Part Number В14226-02, http://d0wnl0ad.0racle.c0m/d0cs/cd/B 1930601/server. 102/b 14226/repoverview.htm#REP LN001

114. Oracle® Database Application Developer's Guide Object-Relational Features lOg Release 2 (10.2), Part Number В14260-01,http://download.oracle.eom/docs/cd/B1930601/appdev.102/bl4260/adobjint.htm#ADOBJ 001

115. Oracle® Streams Advanced Queuing User's Guide and Reference lOg Release 2 (10.2), Part Number В14257-01,http://download.oracle.com/docs/cd/B1930601/server.102/bl4257/toc.htm

116. Oracle® Call Interface Programmer's Guide lOg Release 2 (10.2), Part Number В14250-02, http://download.oracle.com/docs/cd/B1930601/appdev.102/bl4250/toc.htm

117. Oracle® Objects for OLE Developer's Guide lOg Release 2 (10.2), Part Number B14309-01, http://download.oracle.eom/docs/cd/B1930601/win.102/bl4309/intro.htm#sthref23

118. Oracle® interMedia User's Guide lOg Release 2 (10.2), Part Number В1430201,http://download.orade.eom/docs/cd/B 1930601 /appdev. 102/b 14302/chintr.htm#IMU RG1000

119. Oracle Workflow Administrator's Guide Release 2.6.4, Part Number В1585202,http://download.oracle.eom/docs/cd/B 1930601/workflow. 102/bl 5852/toc.htm

120. Oracle Workflow Developer's Guide Release 2.6.4, Part Number В15853-01, http://download.oracle.com/docs/cd/B19306 01/workflow. 102/bl 5853/toc.htm

121. Д. Матиесон, Р. Титов, Дж. Пурвис, Ю. де Йонге, Дж. Ферпосон "Система работы с электронными документами ЦЕРН", 2005, Приборы и системы. Управление, контроль, диагностика.- 2005. № 9

122. P. G. Jonsson, D. W. Mathieson "EDH Document Architecture Presentation", 1999, CERN-AS-99-007. - 1999. - 5 p.

123. D. W. Mathieson "Security implications ofEDH's moving to the World Wide Web", 1999, CERN-AS-99-004. 1999. - 8 p.

124. D. Mathieson "CERN receives Duke's Choice Award for its Java development", 2008, CERN Comput. Newsl. no. 2008-002 , CERN-CNL-ARTICLE-2008-023

125. D. Mathieson "EDH receives a new look and a new workflow engine", 2007, CERN Comput. Newsl. no. 2007-004, CERN-CNL-ARTICLE-2007-063

126. Введение в Java2 Platform, Enterprise Edition, http://www.javable.com/docs/books/excerpts/java2ee/

127. Sun Developer Network: JDBC Overview, http://java.sun.com/products/jdbc/overview.htmI

128. CERN Drawing Directory, http://est-div.web.cern.ch/est-div/CDD/

129. Т. Pettersson "Engineering and Equipment Data Management at CERN", 2003, paper presented at MICAD 2003, EDMS document 370320: https://edms.cern.ch/file/370320/l/micadol.doc

130. T.Ladzinski, M.Gateau, P.Martel, A.Siemko, D.Widegren "CONFIGURATION MANAGEMENT SYSTEM FOR THE LHC SUPERCONDUCTING MAGNET TEST BENCHES", 2003, ICALEPCS 2003, EDMS document 407453: https://edms.cern.ch/file/407453/l/icalepcs.pdf

131. D. Windegren "PLM at CERN A True Challenge", 2007, PDT Europe conference in Geneva, 24-26 September 2007, EDMS document 886884: https://edms.cern.ch/file/886884/l/PLM-CERN-A-True-Challange.pdf

132. C. Delamare, A. Jimeno, S. Mallon An^rigo, E. Manola-Poggioli, P. Martel, B. Rousseau, D. Widegren "MANUFACTURING AND TEST FOLDER: MTF", 2002, Epac 2002 Paper and poster, EDMS document 346401: https://edms.cem.ch/file/346401/l/TUPD0026.pdf

133. S. Petit, T. Pettersson, D. Widegren "CERN EDMS The PLM Platform for the LHC, the largest scientific machine ever built by man", 2006, PDTE 2006 - Toulouse, EDMS document 772016: https://edms.cern.ch/file/772016/l/PDTE-paper.doc

134. Agile, http://www.oracle.com/applications/agile/agile-product-lifecycle-management.html

135. Datastream 7i, http://www.datastream.net/english/products/datastream7i.aspx

136. C. Laverriere "MTF Custom Reports: Non Conformity Reports for Cryodipoles", EDMS document 485285: https://edms.cern.ch/file/485285/l/NCRReportCryodipoles.ppt

137. CAD, PPS and PDM Integration, http://www.dscsag.com/dscpdf/successstories/successstorykrone-kem03-2001.pdf

138. EDMS, https://edms.cern.ch

139. Oracle® Database Application Developer's Guide Object-Relational Features lOg Release 2 (10.2), Part Number В14260-0,http://download.oracle.com/docs/cd/B1930601/appdev.102/bl4260/toc.htm

140. Oracle® Database Concepts lOg Release 2 (10.2), Part Number В14220-02, http://d0wnl0ad.0racle.c0m/d0cs/cd/B 193 0601/server. 102/b 14220/schema.htm

141. Oracle® Database SQL Reference lOg Release 2 (10.2), Part Number B14200-02, http://download.oracle.eom/docs/cd/B1930601/server.102/bl4200/statements5002.htm# SQLRF01202

142. Oracle® Database PL/SQL User's Guide and Reference lOg Release 2 (10.2), Part Number B14261-01,http://download.oracle.eom/docs/cd/B1930601/appdev.102/bl4261/objects.htm#LNPLS0 10

143. R. Bray, D. Widegren "EDMS portal delivers better functionality", 2008, CERN Computer Newsletter, October-December 2008,

144. Oracle® interMedia Reference lOg Release 2 (10.2), Part Number В14297-01, http://download.oracle.com/docs/cd/B1930601/appdev.102/bl4297/toc.htm

145. Oracle® Database SQL Reference lOg Release 2 (10.2), Part Number В14200-02, http://d0wnl0ad.0racle.c0m/d0cs/cd/B 19306 01 /server. 102/b 14200/statements 501 Q.htm# SQLRF01209

146. Oracle® Text Application Developer's Guide lOg Release 2 (10.2), Part Number В14217-01, http://download.orade.eom/docs/cd/B 1930601 /text. 102/b 14217/ind.htm

147. Oracle® XML DB Developer's Guide lOg Release 2 (10.2), Part Number В14259-02, http://download.oracle.com/docs/cd/B1930601/appdev.102/bl4259/xdb09sea.htm

148. Oracle® Text Reference lOg Release 2 (10.2), Part Number В14218-01, http://download.orade.eom/docs/cd/B 1930601/text. 102/b 14218/csql.htm#CCREF0104

149. Analytic Functions, Oracle® Database SQL Reference lOg Release 2 (10.2), Part Number В14200-02,http://download.oracle.eom/docs/cd/B1930601/server.102/bl4200/functions001.htm#i814 07

150. Oracle Analytic Function ROWNUMBER, Oracle® Database SQL Reference lOg Release 2 (10.2), Part Number В14200-02,http://download.oracle.eom/docs/cd/B1930601/server.102/bl4200/functionsl37.htm#SQ LRF06100

151. The Oracle Text Scoring Algorithm, Oracle® Text Reference, lOg Release 2 (10.2), Part Number B14218-01,http://d0wnl0ad.0racle.c0m/d0cs/cd/B 193 0601/text. 102/b 14218/ascore.htm

152. Т. Кормен, Ч. Лейзерсон, Р. Ривест "Алгоритмы. Построение и анализ. Издание 2-е", 2007, Вильяме, ISBN: 5845908574

153. Oracle SYSCONTEXT function, Oracle® Database SQL Reference lOg Release 2 (10.2), Part Number В14200-02,http://d0wnl0ad.0racle.c0m/d0cs/cd/B 1930601 /server. 102/b 14200/functions 165 .htm#S Q LRF06117

154. Oracle Text CONTAINS Query Operators, Oracle® Text Reference lOg Release 2 (10.2), Part Number В14218-01,http://download.oracle.eom/docs/cd/B1930601/text.102/bl4218/cqoper.htm#CCREF0300

155. Oracle® Database SQL Reference lOg Release 2 (10.2), Part Number В14200-02, httpV/download.oracle.com/docs/cd/B 19306 01 /server. 102/bl4200/statements 10002.htm

156. A.Suwalska "Oracle Text Search saves your time", 2003, Presentation at Oracle World Paris 2003, EDMS document 402581:https://edms.cern.cli/file/40258I/I/Oracle Text QracleWorld2003.ppt

157. J.L.H. Oei, H.A. Proper, E.D. Falkenberg "Modelling the Evolution of Information Systems". Technical Report 92-36, Department of Information Systems, University of Nijmegen, Nijmegen, The Netherlands, EU, 1992.

158. M. Sahami, Timothy D. Heilman "A Web-based Kernel Function for Measuring the Similarity of Short Text Snippets", International World Wide Web Conference Committee (IW3C2). WWW 2006, May, 2006, Edinburgh, Scotland. ACM 1-59593-323-9/06/0005.

159. B.B. Доенин "Интеллектуальные транспортные потоки" М.: «Спутник+», 2007, 306 с.

160. В.В. Доенин "Логика транспортных процессов" М.: «Спутник+», 2008, 277 с.

161. В.В. Доенин "Модели параллельных процессов в распределенных системах" М.: «Спутник+», 2007, 341 с.

162. G. Salton, М. J. McGill "Introduction to Modern Information Retrieval", 1986, McGraw-Hill, Inc. New York, NY, USA

163. G. Salton "Automatic Information Organization and Retrieval", 1968, McGraw Hill Text, ISBN:0070544859

164. G. Salton, С. Buckley "Term-weighting approaches in automatic text retrieval", 1988, Information Processing & Management 24(5): 513-523. doi:10.1016/0306-4573(88)90021-0

165. C. Nicholson, D.G. Cameron, A.T. Doyle, A. P. Millar, K. Stockinger "Dynamic data replication in LCG 2008", Concurrency and Computation: Practice & Experience, Volume 20, Issue 11 (August 2008), p. 1259-1271

166. Описание продукта Oracle Database 1 Og, http://www.interface.ru/home.asp?artId=: 191

167. Дуглас Шерер, Кэрол Бреннан "Изучение основ Oracle Text" Oracle Magazine no.2, http://www.oracle.com/global/ru/oramag/may2001/intermedia3.html

168. Список публикаций A.M. Цыганова по теме диссертации.1. Статьи

169. Ц1. А. М. Цыганов, С. Петит "Модуль автоматического управления правами доступа в системе EDMS Европейского Центра Ядерных Исследований (ЦЕРН)". // Информационные технологии в проектировании и производстве, 2009, т. 2, стр. 35-39.

170. Ц2. А.М.Цыганов "Организация модулей для поиска данных в информационных системах на примере системы инженерного документооборота ЦЕРН". // Информационные технологии в проектировании и производстве, 2009, т. 1, стр.68-71.

171. ЦЗ. A. Tsyganov, S. Petit, A. Suwalska "Oracle Text at the CERN Engineering and Equipment Data Management System search engine". //SOUG-Newsletter und Special, SOUG Swiss Oracle User Group, 2009, v. 1&2, pp. 28-35.

172. Ц4. B.B. Доенин, A.M. Цыганов "Модели транспортных потоков в логических задачах информационных систем". //Труды всероссийской научно-практической конференции "Транспорт России: проблемы и перспективы". М., 2009.

173. Ц7. A. Tsyganov, S. Petit, С. Delamare, P. Martel, S. Milenkovic, S. Mallon Amerigo, T. Pettersson, A. Suwalska, D. Widegren "A Web portal for the Engineering and Equipment Data Management System at CERN". // Journal of Physics: Conf. Ser., 2009.

174. Ц8. A. Tsyganov, S. Mallon Amerigo, S. Petit, T.Pettersson, A. Suwalska "A Search Engine for the Engineering and Equipment Data Management System (EDMS) at CERN". // Journal of Physics: Conf. Ser., 2008, V. 119, 042029 (5pp).1. Тезисы докладов

175. Так же я выражаю большую благодарность коллективу кафедры МО АСУ Московского Института Путей Сообщения за деловую и теплую обстановку, которая окружала меня в процессе работы.

176. Я благодарен профессорско-преподавательскому составу кафедры «Информатики и процессов управления» Национального исследовательского ядерного университета (МИФИ) за помощь, полученную в начале работы над диссертацией.

177. Считаю своим приятным долгом выразить благодарность всем моим соавторам, друзьям и коллегам за искреннюю, дружескую поддержку при подготовке этой работы.

178. Особая благодарность оппонентам, проделавшим немалый труд при чтении и анализе работы и за отмеченные, безусловно, ценные замечания, а также всем, написавшим отзыв на автореферат.

179. И, конечно же, я благодарен своим родителям, брату и близким за их постоянную поддержку.